使用场景

假设有一个fasta格式的序列文件SRR9620252.faa，我们想要提取其中的一些序列到一个新的文件中，我们拥有这些序列的id （假设这些id存放在文件ids.txt中）。常规操作的话，可以复制id，在fasta文件中打开搜索，粘贴id，点击查找，复制找到的序列，粘贴到新的文件中（假设为Seqout.fasta）。假如你只找一条序列，1 min之内可以完成，假如你要找100条序列，1 h可能没了。而用PGCGAP可以在1 min之内完成，剩下的59 min可以喝喝茶。

使用方法

PGCGAP安装

参考官网，需要版本v1.0.35及以上。

开始提取

在终端里打开PGCGAP的conda安装环境，并运行如下命令：

1
2
3

# ids.txt中含有要提取序列的id，可以是一列或者多列，如果为多列，需要用空格或者制表符来分隔列与列，id本身是不能带空格的。

pgcgap --ACC --id2seq --ids ids.txt --seqin SRR9620252.faa --seqout Seqout.fasta

提取的文件保存在Seqout.fasta中。

引用

Liu H, Xin B, Zheng J, Zhong H, Yu Y, Peng D, Sun M. Build a bioinformatics analysis platform and apply it to routine analysis of microbial genomics and comparative genomics. Protocol exchange, 2022. DOI: 10.21203/rs.2.21224/v6

示例获取

关注公众号“生信之巅”，聊天窗口回复“e6ae”获取下载链接。

敬告：使用文中脚本请引用PGCGAP，请尊重本人的劳动成果，谢谢！Notice: When you use the scripts in this article, please cite PGCGAP. Thank you!

了尘兰若的小坑

分享微生物生物信息学分析方法，欢迎加入QQ群交流945751012，不接受群内广告！

使用场景

使用方法

PGCGAP安装

开始提取

引用

示例获取

你的赏识是我前进的动力