向NCBI提交基因簇的时候需要提供sqn格式的文件,之前我在文章《NCBI上传基因簇之tbl2asn的使用》中介绍过如何使用tbl2asn生成sqn
文件,遗憾的是tbl2asn
官方已经不再提供软件下载了,提供的新工具为table2asn,本文介绍table2asn
的使用方法。
软件安装
下载table2asn
1 | # 此处下载Linux版,Windows和MacOS请自行到https://ftp.ncbi.nlm.nih.gov/asn1-converters/by_program/table2asn/下载 |
安装
解压缩文件后得到可执行程序,将其重命名为table2asn
,并将其加入环境变量即可,环境变量的设置请自行搜索。
文件准备
table2asn依赖三个文件来生成sqn文件:
- 文件1:fasta格式的基因组序列文件,文件后缀需要为
.fsa
,如Toyoncin.fas
。
注意Header处需要添加中括号部分,及相关描述信息。
1 | >Toyoncin_biosynthesis_gene_cluster [organism=Bacillus toyonensis] [strain=XIN-YC13] [topology=linear] [moltype=DNA] [tech=wgs] [gcode=11] [country=China] Bacillus toyonensis strain XIN-YC13 Toyoncin biosynthesis gene cluster, complete sequence |
- 文件2:描述基因特征的feature table文件(.tbl),文件名与FASTA文件一致,如
Toyoncin.tbl
。
该文件可以用prokka对文件1进行注释而得到,但是需要自己加以修改,加上gene相关的信息,product
部分也要自己修改,该文件共5
列,各列之间用制表符分隔。Header部分的名称要与Fasta文件中的一致,但开头需要加上Feature
。
1 | >Feature Toyoncin_biosynthesis_gene_cluster |
- 文件3:描述作者信息的模板文件(.sbt)
可以在NCBI上生成该文件。
1 | Submit-block ::= { |
注意:文件1和文件2的序列描述信息必须一致,此例中均为“Toyoncin_biosynthesis_gene_cluster”。
文件生成
1 | table2asn -i Toyoncin.fas -t template.sbt -V vb |
-i 指定FASTA文件
-t 指定模板文件
-V
-v 生成验证文件,保存错误信息
-b 生成gbf文件
-x 文件1(FASTA文件)的后缀名,根据实际情况填写
参考
加关注
扫码关注公众号“生信之巅”。
敬告:使用文中脚本请引用本文网址,请尊重本人的劳动成果,谢谢!