安装 Python 及依赖包
python 下载安装
windows 用户请到 Python 官网 https://www.python.org/downloads 下载相应的版本,本教程在
version 3.10.0
测试可行,建议安装 3.7 以上版本。Linux 系统自带 python,一般不需单独安装,除非版本太低,则需升级。
依赖包安装
BeautifulSoup
以下命令可以在 Windows 中的 CMD/Powershell 或 Linux 终端中运行。
pip install BeautifulSoup4
requests
pip install requests
xlrd
pip install xlrd
通过 AI 搜索关键词获取文献列表
假设我们需要查找 代谢组学
和 微生物组
联合研究的文章,进入 AI based 文献检索网站 https://www.citexs.com/Paperpicky,输入关键词 “metabolomics;metabolome” 和 “microbiome”,并点击批量下载,保存为 Excel 格式(如下图所示)。
下载后会得到 “文献.csv”,打开文件检查各列是否与下图匹配。从左至右依次为 Title、Journal、IF、DOI、PMID、Pub_Date、Url,若不匹配,请先修改,如果第二例为作者信息,那么可将该列删除。
爬取文献保存至本地
本教程脚本基于 大阔同学
脚本修改而来,添加了参数,避免用户修改源代码;增加了随机 user-agent,避免下载次数过多被屏蔽。原理是基于文献 DOI,利用爬虫通过 SCI-HUB 下载文献。因此,必需要在 文献.csv
中提供 DOI。有些文章不在 SCI-HUB 中,或者网络环境较差,则会下载失败,失败信息写入 error.log
中。
将 DownloadPaper.py
和 文献.csv
放在同一目录下,并在该目录下 shift+右键
打开 Powershell 窗口(俗称 cmd),输入下面的命令,回车即可下载。如果电脑安装了 WSL Ubuntu,也可以进入 Linux 终端。
python DownloadPaper.py -f 文献.csv -o Papers -c 20
参数解析:
- f:指定包含文献信息的文件
- o:将文献下载至该参数指定的路径中
- c:影响因子阈值,低于该阈值的文献将不会下载
参考
代码获取
关注公众号 “生信之巅”,聊天窗口回复 “29bf” 获取下载链接。
![]() | ![]() |
敬告:使用文中脚本请引用本文网址,请尊重本人的劳动成果,谢谢!