Нет описания

User c4fc257d64 增加统计结果		11 месяцев назад
example_data	c48df7e917 add example	4 лет назад
README.md	1e04772d67 更新README中的仓库地址为3000端口	11 месяцев назад
cog_funclass.tab	f0e296dc6e emapper2.x	4 лет назад
emapperx.R	d63638d00a fix bug	4 лет назад
emapperx_split.R	c4fc257d64 增加统计结果	11 месяцев назад
install.R	f0e296dc6e emapper2.x	4 лет назад
kegg_info.RData	f0e296dc6e emapper2.x	4 лет назад

一.安装

1.1 安装依赖

R
R 包:argparser, tidyverse, formattable, AnnotationForge, seqinr, clusterProfiler

1.2 安装 emcp

git clone http://git.genek.cn:3000/zhxd2/emcp.git

二.使用

2.1 准备输入文件

输入文件为蛋白序列, 参考 example_data 目录下的 proteins.fa

2.2 第一步:在线注释

2.3 第二步:运行 emapperx.R

以测试数据为例

cd example_data
Rscript ../emapperx.R out.emapper.annotations proteins.fa

这一步两个功能:

对 emapper 注释结果进行统计绘图
构建 OrgDB 用于富集分析等

2.4 大数据集的另一种选择: emapperx_split.R

对于大数据集，可以使用 emapperx_split.R 脚本，它每次只构建一种GO本体类型（MF、BP或CC）的OrgDB包，有效解决内存不足问题。

cd example_data

# 构建分子功能(MF)的OrgDB
Rscript ../emapperx_split.R out.emapper.annotations proteins.fa MF

# 构建生物过程(BP)的OrgDB
Rscript ../emapperx_split.R out.emapper.annotations proteins.fa BP

# 构建细胞组分(CC)的OrgDB
Rscript ../emapperx_split.R out.emapper.annotations proteins.fa CC

这种方法可以显著减少内存使用，适合处理大型基因组数据集。

README.md

一.安装

1.1 安装依赖

1.2 安装 emcp

二.使用

2.1 准备输入文件

2.2 第一步:在线注释

2.3 第二步:运行 emapperx.R

2.4 大数据集的另一种选择: emapperx_split.R