加载中...
利用PGCGAP根据ids提取序列信息
发表于:2022-04-15 | 分类: 生物信息
字数统计: 390 | 阅读时长: 1分钟 | 阅读量:

使用场景

假设有一个 fasta 格式的序列文件 SRR9620252.faa ,我们想要提取其中的一些序列到一个新的文件中,我们拥有这些序列的 id (假设这些 id 存放在文件 ids.txt 中)。常规操作的话,可以复制 id,在 fasta 文件中打开搜索,粘贴 id,点击查找,复制找到的序列,粘贴到新的文件中(假设为 Seqout.fasta )。假如你只找一条序列,1 min 之内可以完成,假如你要找 100 条序列,1 h 可能没了。而用 PGCGAP 可以在 1 min 之内完成,剩下的 59 min 可以喝喝茶。

使用方法

PGCGAP 安装

参考官网,需要版本 v1.0.35 及以上。

开始提取

在终端里打开 PGCGAP 的 conda 安装环境,并运行如下命令:

# ids.txt中含有要提取序列的id,可以是一列或者多列,如果为多列,需要用空格或者制表符来分隔列与列,id本身是不能带空格的。

pgcgap --ACC --id2seq --ids ids.txt --seqin SRR9620252.faa --seqout Seqout.fasta

提取的文件保存在 Seqout.fasta 中。

引用

Liu H, Xin B, Zheng J, Zhong H, Yu Y, Peng D, Sun M. Build a bioinformatics analysis platform and apply it to routine analysis of microbial genomics and comparative genomics. Protocol exchange, 2022. DOI: 10.21203/rs.2.21224/v6

示例获取

关注公众号 “生信之巅”,聊天窗口回复 “e6ae” 获取下载链接。

生信之巅微信公众号生信之巅小程序码

敬告:使用文中脚本请引用 PGCGAP,请尊重本人的劳动成果,谢谢!Notice: When you use the scripts in this article, please cite PGCGAP. Thank you!

上一篇:
多种方法批量下载NCBI基因组
下一篇:
PGCGAP - the Prokaryotic Genomics and Comparative Genomics Analysis Pipeline v1.0.33
本文目录
本文目录