使用场景
假设有一个fasta格式的序列文件SRR9620252.faa
,我们想要提取其中的一些序列到一个新的文件中,我们拥有这些序列的id (假设这些id存放在文件ids.txt
中)。常规操作的话,可以复制id,在fasta文件中打开搜索,粘贴id,点击查找,复制找到的序列,粘贴到新的文件中(假设为Seqout.fasta
)。假如你只找一条序列,1 min之内可以完成,假如你要找100条序列,1 h可能没了。而用PGCGAP可以在1 min之内完成,剩下的59 min可以喝喝茶。
使用方法
PGCGAP安装
参考官网,需要版本v1.0.35及以上。
开始提取
在终端里打开PGCGAP的conda安装环境,并运行如下命令:
1 | # ids.txt中含有要提取序列的id,可以是一列或者多列,如果为多列,需要用空格或者制表符来分隔列与列,id本身是不能带空格的。 |
提取的文件保存在Seqout.fasta
中。
引用
Liu H, Xin B, Zheng J, Zhong H, Yu Y, Peng D, Sun M. Build a bioinformatics analysis platform and apply it to routine analysis of microbial genomics and comparative genomics. Protocol exchange, 2022. DOI: 10.21203/rs.2.21224/v6
示例获取
关注公众号“生信之巅”,聊天窗口回复“e6ae”获取下载链接。
敬告:使用文中脚本请引用PGCGAP,请尊重本人的劳动成果,谢谢!