下载有summary的基因组

作者: Hualin Liu
文章链接: <a href="/post/213.html" target="_blank" title="多种方法批量下载NCBI基因组">https://www.liaochenlanruo.fun/post/213.html
版权声明: 本网站所有文章除特别声明外,均采用 <a rel="license" href="https://creativecommons.org/licenses/by-nc-nd/4.0/" target="_blank" title="Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0)">CC BY-NC-ND 4.0 许可协议。转载请注明出处!

在NCBI基因组数据库搜索物种
下载元数据
获取下载链接
打开下载的元数据文件prokaryotes.csv（该文件也可以直接去NCBI FTP中下载，一般在各物种的目录下，名字为assembly_summary.txt，其格式与prokaryotes.csv略有不同，但都含有链接），将倒数第二列或最后一列的链接拷贝到TXT文本文档中，在每一行的最后加上要下载的文件名和数据类型：
- 基因组：文件名 _genomic.fna.gz
- 蛋白序列：文件名 _protein.faa.gz
- CDs序列：文件名 _cds_from_genomic.fna.gz
- …
可参考下图中的示例进行命名：

建议用正则表达式替换（依赖EditPlus或其他具有正则表达式功能的文本编辑器），以基因组序列为例：
开始下载
将获得的完整链接保存到名字为link.txt的文本文档中，在LINUX终端中运行for link in $(cat link.txt); do wget -c $link; done即可批量下载基因组到genome目录中。若不慎在行末引入了看不见的换行符，可以用命令perl -pe 's/[\n\r]+//g' link.txt > link2.txt进行删除。再用for link in $(cat link2.txt); do wget -c $link; done下载。

SRA数据下载

将列表文件与脚本downloadSRA.sh放在同一目录下，在Linux终端中运行bash downloadSRA.sh,下载的文件存放于fastq_output目录中。

1	bash downloadSRA.sh

在右侧的列表中选中所有目录拖拽到本地即可开始下载。

1	conda install -c bioconda ncbi-genome-download

关注公众号“生信之巅”，聊天窗口回复“213”获取下载链接。

敬告：使用文中脚本请引用本文网址，请尊重本人的劳动成果，谢谢！Notice: When you use the scripts in this article, please cite the link of this webpage. Thank you!