|
1 mēnesi atpakaļ | |
---|---|---|
example_data | 3 gadi atpakaļ | |
README.md | 1 mēnesi atpakaļ | |
cog_funclass.tab | 4 gadi atpakaļ | |
emapperx.R | 3 gadi atpakaļ | |
emapperx_split.R | 1 mēnesi atpakaļ | |
install.R | 4 gadi atpakaļ | |
kegg_info.RData | 4 gadi atpakaļ |
git clone http://git.genek.cn:3000/zhxd2/emcp.git
输入文件为蛋白序列, 参考 example_data 目录下的 proteins.fa
登录 http://eggnog-mapper.embl.de/ 上传蛋白序列, 在线进行蛋白注释.
完成后下载 out.emapper.annotations
以测试数据为例
cd example_data
Rscript ../emapperx.R out.emapper.annotations proteins.fa
这一步两个功能:
对于大数据集,可以使用 emapperx_split.R
脚本,它每次只构建一种GO本体类型(MF、BP或CC)的OrgDB包,有效解决内存不足问题。
cd example_data
# 构建分子功能(MF)的OrgDB
Rscript ../emapperx_split.R out.emapper.annotations proteins.fa MF
# 构建生物过程(BP)的OrgDB
Rscript ../emapperx_split.R out.emapper.annotations proteins.fa BP
# 构建细胞组分(CC)的OrgDB
Rscript ../emapperx_split.R out.emapper.annotations proteins.fa CC
这种方法可以显著减少内存使用,适合处理大型基因组数据集。