Nav apraksta

User c4fc257d64 增加统计结果 1 mēnesi atpakaļ
example_data c48df7e917 add example 3 gadi atpakaļ
README.md 1e04772d67 更新README中的仓库地址为3000端口 1 mēnesi atpakaļ
cog_funclass.tab f0e296dc6e emapper2.x 4 gadi atpakaļ
emapperx.R d63638d00a fix bug 3 gadi atpakaļ
emapperx_split.R c4fc257d64 增加统计结果 1 mēnesi atpakaļ
install.R f0e296dc6e emapper2.x 4 gadi atpakaļ
kegg_info.RData f0e296dc6e emapper2.x 4 gadi atpakaļ

README.md

一.安装

1.1 安装依赖

  1. R
  2. R 包:argparser, tidyverse, formattable, AnnotationForge, seqinr, clusterProfiler

1.2 安装 emcp

git clone http://git.genek.cn:3000/zhxd2/emcp.git

二.使用

2.1 准备输入文件

输入文件为蛋白序列, 参考 example_data 目录下的 proteins.fa

2.2 第一步:在线注释

登录 http://eggnog-mapper.embl.de/ 上传蛋白序列, 在线进行蛋白注释.
完成后下载 out.emapper.annotations

2.3 第二步:运行 emapperx.R

以测试数据为例

cd example_data
Rscript ../emapperx.R out.emapper.annotations proteins.fa

这一步两个功能:

  1. 对 emapper 注释结果进行统计绘图
  2. 构建 OrgDB 用于富集分析等

2.4 大数据集的另一种选择: emapperx_split.R

对于大数据集,可以使用 emapperx_split.R 脚本,它每次只构建一种GO本体类型(MF、BP或CC)的OrgDB包,有效解决内存不足问题。

cd example_data

# 构建分子功能(MF)的OrgDB
Rscript ../emapperx_split.R out.emapper.annotations proteins.fa MF

# 构建生物过程(BP)的OrgDB
Rscript ../emapperx_split.R out.emapper.annotations proteins.fa BP

# 构建细胞组分(CC)的OrgDB
Rscript ../emapperx_split.R out.emapper.annotations proteins.fa CC

这种方法可以显著减少内存使用,适合处理大型基因组数据集。