多种方法批量下载NCBI基因组
发表于:2022-07-10 | 分类: 生物信息
字数统计: 709 | 阅读时长: 2分钟 | 阅读量:

下载有 summary 的基因组

  • 在 NCBI 基因组数据库搜索物种

    搜索物种

  • 下载元数据

    下载TSV元数据

  • 获取下载链接
    打开下载的元数据文件 prokaryotes.csv (该文件也可以直接去 NCBI FTP 中下载,一般在各物种的目录下,名字为 assembly_summary.txt ,其格式与 prokaryotes.csv 略有不同,但都含有链接),将倒数第二列或最后一列的链接拷贝到 TXT 文本文档中,在每一行的最后加上要下载的文件名和数据类型:

    • 基因组:文件名 _genomic.fna.gz
    • 蛋白序列:文件名 _protein.faa.gz
    • CDs 序列:文件名 _cds_from_genomic.fna.gz
    • ...

    可参考下图中的示例进行命名:
    NCBI文件命名示例

    获取下载链接

    建议用正则表达式替换(依赖 EditPlus 或其他具有正则表达式功能的文本编辑器),以基因组序列为例:

    正则表达式批量替换获取基因组下载链接
    替换后获得的基因组完整下载链接

  • 开始下载
    将获得的完整链接保存到名字为 link.txt 的文本文档中,在 LINUX 终端中运行 for link in $(cat link.txt); do wget -c $link; done 即可批量下载基因组到 genome 目录中。若不慎在行末引入了看不见的换行符,可以用命令 perl -pe 's/[\n\r]+//g' link.txt > link2.txt 进行删除。再用 for link in $(cat link2.txt); do wget -c $link; done 下载。

SRA 数据下载

  • 下载 SRA Toolkit

    根据自己的系统选择合适的版本进行下载,并将软件包中 bin 的绝对路径或相对路径加入到环境变量中,以便可以在终端中直接调用。

  • 设置默认下载目录

    如果不设置,默认会将基因组下载到家目录下,通过在终端里输入 vdb-config -i 命令配置下载目录,即下载到当前目录下。

    设置SRA Toolkit默认下载文件存放位置

    设置SRA Toolkit默认下载文件存放位置

  • 准备包含 SRA号 的列表文件,每一行含有一个编号,文件命名为 SRA.list

  • 开始下载
    将列表文件与脚本 downloadSRA.pl 放在同一目录下,在终端中运行 perl downloadSRA.pl

利用 FTP 软件根据物种下载基因组

通过FileZilla批量下载基因组
通过FileZilla批量下载基因组
在右侧的列表中选中所有目录拖拽到本地即可开始下载。

根据 WGA assession number 下载基因组

  • 安装 ncbi-genome-download

    conda install -c bioconda ncbi-genome-download
  • 准备 WGA assession number 列表文件

  • 开始下载
    终端里输入如下命令:

    ncbi-genome-download --assembly-accessions GCA.txt --output-folder 6_3 bacteria --section genbank --formats fasta

    其中 GCA.txt 为包含 assession number 的列表文件,每行一个 assession number。
    该软件的问题在于,需要 科学上网 ,所以很多时候会掉链子。

代码获取

关注公众号 “生信之巅”,聊天窗口回复 “213” 获取下载链接。

生信之巅微信公众号生信之巅小程序码

敬告:使用文中脚本请引用本文网址,请尊重本人的劳动成果,谢谢!Notice: When you use the scripts in this article, please cite the link of this webpage. Thank you!

上一篇:
代谢组相关软件的安装及使用
下一篇:
利用PGCGAP根据ids提取序列信息
本文目录
本文目录