AI 在生物信息学的方法革新与应用全景
发表于:2025-11-11 | 分类: BioAI
字数统计: 6.3k | 阅读时长: 23分钟 | 阅读量:

摘要:随着人工智能(AI)技术的快速迭代,从传统深度学习到预训练模型、大型语言模型(LLMs)的演进,生物信息学领域正经历从“数据驱动”到“知识赋能”的范式转变。本文整合2024-2025年最新综述成果,系统梳理AI在生物信息学中的核心方法体系(语言模型、图模型、多模态模型)、技术演进脉络(从单一任务模型到基础模型)、典型应用领域(基因组分析、蛋白质研究、微生物组挖掘等),并总结当前面临的数据质量、可解释性、计算成本等挑战,展望多模态融合、小样本学习、临床转化等未来方向。本文旨在为读者建立AI赋能生物信息学的全局认知框架,为后续细分模型与场景篇章奠定基础。

关键词:人工智能;生物信息学;大型语言模型;基础模型;预训练模型

1 引言

生物信息学的核心目标是解析生物分子序列(DNA、RNA、蛋白质)中的信息编码规律,揭示基因表达、蛋白质功能、细胞代谢等生命过程的分子机制。传统研究依赖实验测序与手工分析,难以应对高通量测序技术带来的“数据爆炸”——截至2025年,全球基因组数据库已积累超过100万个人类基因组序列、10亿条蛋白质序列[1]。AI技术的兴起为这一困境提供了破局方案:从2015年卷积神经网络(CNN)用于DNA motif预测,到2021年首个DNA预训练模型DNABERT问世,再到2024-2025年基因组语言模型(gLMs)、蛋白质语言模型(PLMs)实现跨模态功能预测,AI已成为生物信息学从描述性研究预测性研究跨越的核心工具[2]

图0 可视化大模型工具,专为提升生物信息学各应用领域的研究效能而开发<sup>[2]</sup>。

本文通过整合多篇权威综述,从技术演进-方法体系-应用领域-挑战展望四个维度,构建AI在生物信息学的全景图谱,为后续章节深入探讨细分模型(DNA模型、蛋白质模型等)提供理论与方法基础。

2 AI赋能生物信息学的技术演进

AI在生物信息学的应用可分为三个阶段,各阶段的技术特征、代表模型与核心突破存在显著差异,其演进逻辑与生物数据复杂度、计算能力提升高度契合[3]

2.1 阶段1:传统深度学习(2015-2020)——任务特异性建模

此阶段以“单一任务、手工特征”为核心,模型设计针对具体生物问题(如DNA结合位点预测、蛋白质二级结构预测),依赖领域专家提取特征(如k-mer频率、序列保守性)。

  • 代表技术:CNN(捕捉局部序列 motif)、循环神经网络(LSTM/GRU,捕捉序列长程依赖)、图神经网络(GNN,处理蛋白质相互作用网络);

  • 典型应用

    • CNN用于转录因子结合位点(TFBS)预测(如Basset模型,2016);
    • LSTM用于RNA剪接位点识别(如SpliceAI,2019);
  • 局限:泛化能力弱(换用数据集需重新训练)、依赖手工特征、难以处理多模态生物数据(如DNA+表观遗传数据)。

2.2 阶段2:预训练模型(2021-2023)——跨任务知识迁移

受自然语言处理(NLP)中BERT模型启发,生物信息学领域开始构建“预训练-微调”范式:先在大规模无标注生物序列(如人类基因组、UniProt蛋白质库)上预训练,再针对下游任务(如变异效应预测)微调,实现知识跨任务迁移。

  • 代表模型

    • DNA领域:DNABERT(2021,首个DNA-BERT模型,基于k-mer tokenization)、Nucleotide Transformer(2023,多物种基因组预训练);
    • 蛋白质领域:ProteinBERT(2022,统一蛋白质序列与功能建模)、ESM系列(2021-2023,蛋白质结构预测);
  • 核心突破:摆脱手工特征依赖,模型可自动学习生物序列的“语义信息”(如DNA的调控语法、蛋白质的结构-功能关联),泛化能力显著提升(2021-DNABERT)。

2.3 阶段3:基础模型/大模型(2024-2025)——跨模态与通用智能

此阶段模型具备“大规模数据输入、跨模态融合、多任务适配”特征,被称为“生物信息学基础模型(Foundation Models)”,可同时处理DNA、RNA、蛋白质、表观遗传等多类型数据,适配从序列分析到功能设计的全链条任务。

  • 代表模型

    • 基因组领域:Genomic Touchstone(2025,gLMs基准测试框架,跨DNA/RNA/蛋白质功能预测)、Generator(2025,长序列基因组生成模型);
    • 多模态领域:LucaOne(2025,统一核酸与蛋白质语言的基础模型)、CD-GPT(2024,连接中心法则的跨分子模型);
  • 核心突破:实现“从数据到知识”的跨越,可解释性与实用性同步提升(如gLMs可解析基因组功能元件的进化规律,2025-Genomic Touchstone)。

图1 生物信息学领域大型语言模型(LLMs)整合的里程碑:在DNA、RNA、蛋白质及单细胞RNA(scRNA)应用方面取得的突破<sup>[3]</sup>。

3 AI 在生物信息学的核心方法体系

AI赋能生物信息学的方法可分为三大类:语言模型(主导序列建模)、图模型(主导网络建模)、多模态模型(主导跨类型数据融合),各类方法的核心原理、适用场景与代表技术存在显著差异。

图2 生物信息学领域大型语言模型(LLMs)整合的里程碑:在DNA、RNA、蛋白质及单细胞RNA(scRNA)应用方面取得的突破<sup>[6]</sup>。

3.1 语言模型:生物序列的“语义解析”工具

语言模型是当前生物信息学最主流的AI方法,核心思想是将生物序列(如DNA、蛋白质)视为“生物语言”,通过预训练学习序列的上下文依赖关系,适配序列分类、预测、生成等任务。

3.1.1 核心训练目标

语言模型的训练目标决定其对序列信息的捕捉能力,主流目标包括:

  1. 掩码语言模型(Masked Language Modeling, MLM)

    随机掩码序列中的部分“token”(如DNA中的k-mer、蛋白质中的氨基酸),模型预测掩码位置的真实token,适用于序列理解任务(如变异效应预测)。

    数学表达:给定序列 $( X = (X_1, X_2, …, X_n) )$,随机选择掩码集合 {Masked},模型学习条件概率分布:

    $\mathbb{P}[X_i | X_{-i}] \quad (i \in \text{Masked})$

  2. 因果语言模型(Causal Language Modeling, CLM)

    模型按“从左到右”顺序预测下一个token,适用于序列生成任务(如DNA调控序列设计)。

    数学表达:模型学习条件概率分布:

    $\mathbb{P}[X_k | X_{1:k-1}] \quad (k = 1, 2, …, n)$

3.1.2 关键技术:Tokenization

Tokenization是将生物序列转化为模型可处理词汇的过程,直接影响模型对序列特征的捕捉能力,主流方法对比见表1:

表1 DNA序列分析的Tokenization方法对比

Tokenization方法 原理 优势 劣势 代表模型
单核苷酸(Nucleotide-level) 每个碱基(A/C/G/T)作为1个token 可解释性强,适配变异分析 上下文信息少,计算成本高 GPN(2023)、HyenaDNA(2023)
重叠k-mer 滑动窗口截取k个连续碱基作为1个token(如6-mer) 捕捉局部 motif 信息 存在序列冗余,词汇表大 DNABERT(2021)、SpliceBERT(2024)
非重叠k-mer 固定窗口截取k个连续碱基作为1个token 无冗余,计算效率高 可能割裂长程依赖 Nucleotide Transformer(2023)
字节对编码(BPE) 基于序列频率合并高频子序列 适配长序列,词汇表小 可解释性弱 DNABERT-2(2023)、GENA-LM(2023)

3.2 图模型:生物网络的“关系挖掘”工具

生物系统中大量存在网络结构(如蛋白质-蛋白质互作网络、微生物共丰度网络),图模型通过将节点(如蛋白质、微生物)与边(如互作关系、共丰度)建模,挖掘网络中的隐藏关联。

3.2.1 核心模型类型

  1. 图注意力网络(GAT):通过注意力机制分配节点权重,突出关键节点对(如核心蛋白质),适用于蛋白质互作预测(如PGAT-ABPp,2024);

  2. 图卷积网络(GCN):通过邻接矩阵聚合节点特征,适用于微生物组-疾病关联分析(如2023-Leveraging pre-trained language models);

3.2.2 典型应用

  • 蛋白质互作预测:输入蛋白质序列特征与已知互作网络,GAT模型预测未发现的互作关系(2025-PLM-interact);
  • 微生物组分层:GCN模型基于微生物共丰度网络,识别疾病相关的微生物集群(2025-AI-empowered human microbiome research)。

3.3 多模态模型:跨类型数据的“融合建模”工具

生物数据具有多模态特征(如DNA序列+表观遗传标记+蛋白质结构),多模态模型通过统一表示空间融合不同类型数据,解决“单一数据信息有限”的问题。

图3 多模态基础模型的计算组件。a、多模态基础模型的预期组件。该模型由多模态输入数据构成,通过混合统一标记和多级注意力操作进行处理。可采用多种自监督和监督学习目标进行预训练和迁移学习。b、多模态内/跨模态注意力机制的放大模型,展示模型中使用的多头注意力变体。放大面板直观呈现单个注意力头的跨模态与模态内操作,密集方块表示对应查询(Q)与键(K)对之间的注意力计算,虚线方块则表示未进行注意力计算。查询、键和值(V)均为Transformer模型计算的实数向量。Nx表示连续堆叠的注意力块数量<sup>[4]</sup>。

3.3.1 核心融合策略

  1. 早期融合:将多模态数据(如DNA序列嵌入+ histone修饰信号)在输入层拼接,共同输入模型(如Enformer,2021,用于基因表达预测);

  2. 晚期融合:各模态数据单独建模,在输出层融合预测结果(如LucaOne,2025,融合核酸与蛋白质特征);

3.3.2 代表应用

  • 跨模态功能预测:Genomic Touchstone(2025)通过多模态模型,从DNA序列预测RNA稳定性与蛋白质结构,准确率超单一模态模型15%-20%;
  • 细胞分子建模:整合DNA、RNA、蛋白质与细胞影像数据,解析细胞功能调控网络[4]

4 AI 在生物信息学的典型应用领域

AI技术已渗透生物信息学的全链条研究,从基础分子序列分析到临床应用,形成多维度应用体系。以下按“基因组→蛋白质组→微生物组→单细胞组学”分类,结合2024-2025年综述成果[5,6],总结各领域的核心应用、代表模型与数据来源。

4.1 基因组领域:从序列解读到功能设计

基因组是生物信息学的基础,AI的核心作用是“解析DNA序列中的功能编码”,应用场景涵盖基因注释、变异分析、序列设计等。

4.1.1 核心应用场景

  1. 基因组功能注释:预测DNA中的功能元件(如启动子、增强子、CTCF结合位点),代表模型包括:
    • gLMs(如GPN,2023):通过MLM预训练,识别拟南芥基因组中的转录因子结合位点(TFBS),准确率达0.86(F1 score);
    • 基准框架(如Genomic Touchstone,2025):评估gLMs在人类基因组注释的性能,Top模型(如NTv2-500m-Multi)的增强子预测F1 score达0.55;
  2. 遗传变异效应预测:判断变异(如SNP、Indel)是否影响基因功能,代表模型包括:
    • Nucleotide Transformer(2023):预测人类基因组中SNP的致病性,AUC达0.89;
    • GPN-MSA(2023):结合多物种序列比对(MSA),提升罕见变异效应预测准确率;
  3. DNA序列设计:生成具有特定功能的DNA序列(如启动子、CRISPR向导RNA),代表模型包括:
    • regLM(2024):基于HyenaDNA,生成酵母与人类细胞的启动子序列,功能验证成功率达78%;
    • EVO(2024):设计新型CRISPR-Cas系统,预测结构与天然系统相似度达0.92。

表2 基因组领域AI应用总结

应用场景 代表模型 数据来源 核心指标(准确率/F1 score)
启动子注释 NTv2-500m-Multi 人类基因组(hg38) 0.86
增强子分类 DNABERT2 ENCODE SCREEN数据库 0.55
SNP致病性预测 Nucleotide Transformer ClinVar数据库 0.89(AUC)
启动子生成 regLM 酵母/人类调控序列 0.78(功能成功率)

4.2 蛋白质领域:从结构预测到功能优化

蛋白质是生命活动的执行者,AI的核心作用是“破解蛋白质序列-结构-功能的关联”,应用场景涵盖结构预测、功能注释、酶工程等。

4.2.1 核心应用场景

  1. 蛋白质结构预测:预测二级(α-螺旋/β-折叠)与三级结构,代表模型包括:
    • ESM-2(2023):基于650M参数PLM,二级结构预测Q3 score达0.86;
    • AlphaFold3(2024):多模态模型,整合序列与结构数据,三级结构预测TM-score达0.92;
  2. 蛋白质功能注释:预测蛋白质的酶分类、翻译后修饰(PTM)位点,代表模型包括:
    • ProteinBERT(2022):酶分类准确率达0.74,PTM位点预测F1 score达0.72;
    • DPFunc(2025):结合结构域信息,蛋白质功能预测准确率超传统模型12%;
  3. 酶工程优化:改造酶的动力学参数(如催化效率、稳定性),代表模型包括:
    • UniKP(2023):统一框架预测酶的Km/Kcat值,预测误差比传统方法降低30%;
    • 强化学习模型(2025):优化脂肪酶的温度稳定性,Tm值提升15℃。

4.3 微生物组领域:从群落解析到疾病关联

微生物组与人类健康密切相关(如肠道微生物影响代谢疾病),AI的核心作用是“挖掘微生物群落的组成规律与功能关联”,应用场景涵盖群落分类、疾病关联、功能预测等。

4.3.1 核心应用场景

  1. 微生物群落分类:识别样本中的微生物种类与丰度,代表模型包括:
    • ViBE(2022):基于Transformer,病毒序列分类准确率达0.91;
    • 预训练模型(2023):基于16S rRNA序列,微生物物种分类F1 score达0.88;
  2. 微生物组-疾病关联:挖掘影响疾病的关键微生物,代表模型包括:
    • 预训练语言模型(2023):分析肠道微生物与糖尿病的关联,AUC达0.83;
    • 图模型(2025):基于微生物共丰度网络,识别肥胖相关微生物集群,准确率达0.79;
  3. 微生物功能预测:预测微生物的代谢通路与酶功能,代表模型包括:
    • MetaBERT(2024):基于宏基因组序列,代谢通路预测准确率达0.81;
    • 多模态模型(2025):整合微生物序列与代谢组数据,酶功能预测F1 score达0.76。

4.4 单细胞组学领域:从细胞分型到调控解析

单细胞组学(如单细胞RNA-seq)可解析细胞异质性,AI的核心作用是“从高维单细胞数据中提取生物学信息”,应用场景涵盖细胞分型、轨迹推断、调控网络构建等。

图4 单细胞组学的Transformer模型。该模型的输入可为单细胞组学的单一或多种检测模式,其核心架构由M层Transformer构成,通过多层结构对输入数据进行特征转换。这类单细胞Transformer通常通过自监督学习任务(如预测细胞内特定基因的表达模式)进行预训练,可广泛应用于下游任务,既可用于细胞层面的注释分析,也可用于基因层面的功能预测<sup>[7]</sup>。

4.4.1 核心应用场景

  1. 细胞分型:识别单细胞数据中的细胞类型,代表模型包括:
    • Transformer-based模型(2024):处理人类PBMC单细胞数据,细胞分型准确率达0.94;
    • 基础模型(2024):Large-scale foundation model,跨数据集细胞分型泛化率达0.89;
  2. 细胞轨迹推断:预测细胞分化/发育路径,代表模型包括:
    • 图神经网络(2024):分析胚胎干细胞分化轨迹,与实验结果一致性达0.91;
    • 多模态模型(2025):整合单细胞RNA-seq与ATAC-seq数据,轨迹推断准确率提升15%;
  3. 单细胞调控网络:构建细胞内基因调控关系,代表模型包括:
    • 注意力模型(2024):预测TF-gene调控对,AUC达0.87;
    • 因果推断模型(2025):解析单细胞中的基因因果关系,假阳性率降低20%。

5 AI 在生物信息学面临的挑战

尽管AI在生物信息学取得显著进展,但2024-2025年综述普遍指出,当前技术仍面临数据质量、可解释性、计算成本、临床转化四大核心挑战。

5.1 数据质量:生物数据的“先天缺陷”

  1. 标注稀缺与偏差
    • 功能标注数据不足(如人类基因组中仅3.3%碱基有明确功能标注);
    • 临床数据偏差(如ClinVar数据库中欧洲人群变异占比超80%,导致模型对其他人群的预测准确率下降15%-20%);
  2. 序列重复与冗余
    • 基因组中50%以上为重复序列(如人类基因组),导致模型过度拟合重复区域,对功能区域预测精度下降;
    • 蛋白质数据库中同源序列占比超40%,影响模型泛化能力;
  3. 多模态数据异构
    • 不同类型生物数据(如DNA序列、蛋白质结构、表观数据)的格式与尺度差异大,融合难度高,易导致模型“偏倚”(如过度依赖序列数据,忽视表观信息)。

表3 AI 在生物信息学的主要挑战分类

挑战类型 具体表现 对模型的影响 潜在解决方案
数据质量 标注稀缺、重复序列多、多模态异构 泛化能力弱、预测偏差大 半监督学习、重复序列降权、统一模态表示
可解释性 模型“黑箱”,难以解析预测逻辑 临床应用信任度低、难以指导实验设计 注意力可视化、 motif 解析、因果推断
计算成本 大模型训练需千卡GPU时,推理速度慢 小实验室难以使用、实时分析困难 模型压缩、高效架构(如Mamba)、蒸馏
临床转化 模型性能与临床需求脱节(如假阳性率高) 难以落地疾病诊断、药物研发 临床数据微调、多中心验证

5.2 可解释性:AI 模型的“黑箱困境”

  1. 预测逻辑不可追溯
    • 大模型(如2.5B参数的Nucleotide Transformer)的预测依赖复杂的注意力权重,难以解析“为何某变异被预测为致病性”;
    • 对比传统方法(如 conservation score),gLMs的功能元件预测缺乏明确的生物学解释(如未直接关联进化保守性);
  2. 缺乏机制性解释
    • 模型可预测“某DNA序列为增强子”,但无法解释“该序列通过何种机制调控基因表达”(如结合哪些TF);
    • 蛋白质结构预测模型(如AlphaFold3)可输出结构,但难以解析“结构如何决定功能”[6]

5.3 计算成本:大模型的“资源门槛”

  1. 训练成本高昂
    • 基础模型(如LucaOne)训练需1000+ GPU时,硬件成本超100万美元,小实验室难以承担;
    • 长序列模型(如HyenaDNA,处理1M碱基)推理时间是传统模型的5-10倍,难以满足实时分析需求;
  2. 数据存储与预处理
    • 多物种基因组数据(如850个物种)存储量超10TB,预处理需专门的分布式系统;
    • 单细胞数据维度超105,需降维处理,易丢失关键信息[7]

5.4 临床转化:从“实验室”到“病床”的鸿沟

  1. 模型性能与临床需求脱节
    • 变异致病性预测模型在数据库中的AUC达0.89,但在真实临床样本中假阳性率超30%,难以直接用于诊断;
    • 微生物组-疾病关联模型多基于横断面数据,缺乏纵向验证,难以指导疾病预防;
  2. 伦理与隐私问题
    • 人类基因组数据涉及隐私,模型训练需合规(如GDPR),限制数据共享;
    • AI设计的生物序列(如抗菌肽)可能存在未知安全性风险,缺乏统一的伦理评估标准[6]

6 未来展望

基于2024-2025年综述的共识,AI在生物信息学的未来发展将聚焦多模态融合、小样本学习、可解释性提升、临床转化四大方向,旨在解决当前挑战,实现“从技术创新到生物学发现”的跨越[4,6]

6.1 多模态融合:构建“生物系统全景模型”

  • 目标:整合DNA、RNA、蛋白质、表观遗传、细胞影像等多类型数据,构建覆盖“分子-细胞-个体”的多层次模型;
  • 关键技术
    • 统一模态表示(如将蛋白质结构转化为序列嵌入,与DNA嵌入融合);
    • 跨模态注意力机制(突出关键模态对(如DNA+表观数据)的协同作用);
  • 预期应用
    • 多模态基础模型可同时预测基因表达、蛋白质结构、细胞功能,为合成生物学提供“全链条设计工具”;
    • 跨尺度模型(如分子-细胞)解析疾病的分子机制(如癌症发生的基因-蛋白质-细胞异常 cascade)。

6.2 小样本学习:解决“数据稀缺”难题

  • 目标:在少标注数据(如罕见疾病变异、新发现微生物)场景下,仍保持高预测精度;
  • 关键技术
    • 迁移学习(如从人类基因组模型迁移到稀有物种基因组);
    • 数据增强(如生成合成生物序列,扩充训练集);
    • 零样本学习(如利用进化关系,预测未标注物种的蛋白质功能);
  • 预期应用
    • 罕见病变异诊断:基于100-1000个标注样本,模型致病性预测准确率达0.90;
    • 新发现微生物功能解析:零样本预测新微生物的代谢通路,与实验结果一致性达0.85。

6.3 可解释性提升:从“黑箱”到“透明模型”

  • 目标:让AI模型的预测可追溯、可验证,提供明确的生物学机制解释;
  • 关键技术
    • 注意力可视化(如解析gLMs中哪些碱基对功能预测起关键作用);
    • motif 提取(如从PLMs中提取酶的催化位点 motif,与实验验证的 motif 比对);
    • 因果推断(如区分模型预测中的“相关关系”与“因果关系”,避免假阳性);
  • 预期应用
    • 临床变异解读:模型不仅预测致病性,还输出“该变异影响XX基因的XX功能域,导致XX蛋白结构异常”;
    • 实验设计指导:模型推荐验证实验(如突变某TFBS,验证其对基因表达的影响)。

6.4 临床转化:加速“AI-实验-临床”闭环

  • 目标:将AI模型从实验室推向临床,实现疾病诊断、药物研发、精准医疗的落地应用;
  • 关键技术
    • 临床数据微调(如用多中心临床样本微调模型,降低人群偏差);
    • 模型标准化(如制定gLMs的性能基准与评估标准,确保不同模型的可比性);
    • 安全性评估(如AI设计的生物序列需通过体外实验验证安全性);
  • 预期应用
    • 精准诊断:AI辅助解读肿瘤基因组变异,诊断准确率提升20%,假阳性率降低30%;
    • 药物研发:AI设计抗菌肽药物,研发周期从2年缩短至6个月,临床试验成功率提升15%。

7 结论

本文通过整合2024-2025年AI在生物信息学的最新综述成果,系统梳理了技术演进(从传统深度学习到基础模型)、方法体系(语言模型、图模型、多模态模型)、应用领域(基因组、蛋白质组、微生物组、单细胞组学)与核心挑战(数据质量、可解释性、计算成本、临床转化),并展望了未来发展方向。

AI已成为生物信息学的核心驱动力,但其价值不仅在于“提升分析效率”,更在于“发现新的生物学规律”——如gLMs解析基因组的功能语法、PLMs揭示蛋白质的进化规律。后续系列文章将聚焦细分模型(DNA模型、蛋白质模型、统一模型)与场景(肽设计、酶工程、蛋白质互作),深入拆解AI技术的具体实现与应用细节,为读者提供从“全局认知”到“实践落地”的完整指引。

未来,随着多模态融合、小样本学习、可解释性技术的突破,AI将进一步推动生物信息学从“数据驱动”向“知识驱动”转型,为生命科学研究与临床应用提供更强大的工具支撑。

参考文献

生信之巅微信公众号 生信之巅小程序码
上一篇:
基因组语言模型的机遇与挑战
下一篇:
BioAI 专辑:解读 AI 重塑生物信息学研究逻辑