走向多标签分类:机器学习在微生物组研究中的下一步
发表于:2023-05-28 | 分类: 机器学习
字数统计: 6.5k | 阅读时长: 26分钟 | 阅读量:

前言

微生物组分析描述了复杂微生物群落的动态特征,从而为研究微生物图谱与人类疾病[1–3]之间的关系提供了机会。

机器学习(ML)算法揭示了不同状态下微生物组特征的独特模式,从而促进了基于微生物组的疾病检测和治疗[8–10]。作为机器学习的一项重要技术,监督分类已被广泛应用于炎症性肠病(IBD)[11,12]、癌症[13,14]、糖尿病[15]、牙龈炎[16,17]等疾病的预测。

通过使用来自患者及其健康对照的分类学或功能轮廓作为训练数据来构建分类器和模型,ML分类器可据此推断新样本的状态(健康/疾病)。此外,一些ML方法,如支持向量机(SVM)[20]和随机森林(RF)[21],可以进一步衡量模型训练过程中每个特征的重要性,这可以识别对分类[2,22,23]有重要贡献的微生物生物标志物。

图1 单标签分类与多标签分类的比较。 a.单标签分类要求一个样本有一个标签(状态)。 b.多标签分类可以检测到每个样本的多个状态。

为了清楚地了解微生物和健康状态之间的相互作用,以前的研究队列总是设计得很好,其中一个样本只有一个描述其健康状态的精确标签,例如一个样本要么是健康,要么与一种确定的疾病相关(图1a)。然而,这种策略在实际和临床应用中存在其局限性,因为一个患者可能有多个标签(多种疾病,也表示为并发症或共病;图1b)。在这种情况下,常规的分类器不能很好地进行预测,这可能会受到多种疾病的协同作用和相互作用的显著干扰。更重要的是,由于预测结果中只出现单一标签(例如特定疾病),单标签ML模型[2,22]总是遗漏或忽略共病或并发症

这项工作总结了微生物组研究的典型和经典的机器学习方法,并利用美国肠道项目数据集证明了它们在疾病识别方面的局限性。然后,我们希望利用一系列有前途的多标签分类[25–28]策略来进一步解决上述问题。最后,提出并讨论了将多标签分类应用于微生物识别疾病检测的一些关键技术问题。

微生物组研究中的单标签分类

在这里,我们回顾了常用的单标签分类方法,包括逻辑回归、支持向量机、k最近邻、随机森林、梯度增强树和神经网络(表1)。

表 1 广泛用于基于微生物组疾病检测的机器学习方法特征

ML approach Feature importance measurement Interpretability Package and applicable programming language
LR Y Excellent Scikit-learn (Python)[33]
SVM Y Good Scikit-learn (Python), LibSVM(Python/R/Java)[34]
k-NN N Weak Scikit-learn (Python)
RF Y Good Scikit-learn (Python) randomForest (R) [35]
GBDT Y Good Xgboost (Python/R/C++) [36,37] Lightgbm (Python/R/C++) [38] Catboost Python/R/C++) [39]
Neural Networks N Weak Tensorflow (Python/Java) [40] PyTorch (Python) [41] Keras (Python) [42]

逻辑回归(Logistic regression,LR)是一种典型的二元分类线性模型,它利用逻辑函数对二元变量建模[43]。基本上,它计算了一个特定事件发生的概率,例如,一个微生物组样本是健康的或疾病的。由于其在效率和可解释性方面的优势,它通常被用作基于微生物识别的疾病检测的基准[9,44],尽管其性能不如其他方法。

与LR不同,支持向量机(SVM)捕获微生物组谱和宿主状态的非线性关联,以最大限度地提高健康和疾病样本之间的边际[20],这获得了比LR更好的性能。值得注意的是,LR和SVM作为二值分类器,也可以通过为每种疾病分配一个各自的分类器扩展为多类别分类器

最近邻(k-NN)直接用它的k个最近邻来标记一个新的样本[45]。k-NN的一个关键问题是如何通过基于几何的距离度量,如Bray-Curtis、JSD、JCCARD[47]或基于系统发育的算法,如UniFrac [48]或Meta-Storms[49],适当地测量微生物组之间的邻域(neighborship)[46]。

最近,一种基于搜索的策略采用微生物组搜索引擎(MSE)[50],通过离群新颖性评分将不健康的微生物组与健康的微生物组分离,然后通过基于系统发育距离的k-NN识别其详细的疾病类型,在灵敏度、鲁棒性和速度方面优于传统的ML实现[51]。

为了进一步提高微生物组疾病检测的性能,通过集成单个ML方法,开发了集成分类方法[52,53]。随机森林(RF)作为一个集成分类器,通过在训练数据中随机选择样本和特征,构建多个决策树,然后通过投票组合新样本的预测状态[2,8,9,21]。与RF不同的是,梯度增强决策树(GBDT)为每个微生物组样本赋权重,以阶段方式构建树状模型,然后迭代更新参数以最小化估计误差[56]。RF和GBDT不仅在精度上优于单个ML方法,而且还可以评价每种微生物特征对分类的贡献[22,23]

在传统的ML中,从输入数据中提取特征是准确性和敏感性的基础,例如,选择在疾病发展过程中作为签名的生物标志物物种,而这种过程总是需要人工努力[57]。深度学习自动进行特征提取,并以端到端的方式训练深度神经网络[58],这可以缓解微生物群落的复杂性所带来的高维性。神经网络(如深度神经网络(DNNs)[59]、递归神经网络(RNNs)[60]、卷积神经网络(CNNs)[61]等)已成功地从图像分析过渡到微生物组研究。在计算机视觉中,CNNs对相邻像素进行卷积运算,生成新的变量。然而,微生物之间的邻居关系在一个群落中并没有得到明确的定义。因此,Sharma等人[62]开发了一种基于CNNs的新方法,通过分层方法将OTUs分组到门簇中(phylum clusters)。Lo等人[63]还以负二项分布对微生物组谱建模,并解决了CNNs中的数据增强技术的过拟合问题。

在真实微生物组数据集上的单标签分类的局限性

为了衡量单标签分类器在处理具有多个标签的微生物组中的可行性,我们使用美国肠道项目[24]队列的一个子集进行了疾病检测(详见材料和方法)。从3433个健康宿主和10826例患者中收集了16S rRNA扩增子微生物组,记录了5种靶疾病,包括肠易激综合征(IBS)、自身免疫性、肺部疾病、偏头痛和甲状腺(表2)。对于每个目标疾病,微生物组样本被分为两组: i)单一疾病组(SD),包含对照和仅与该目标疾病有关的样本;ii)多疾病组(MD),包含对照和与该目标疾病和其他共病的样本。每组从健康样本中随机抽取对照,健康样本数等于疾病样本。我们实现了RF和GBDT的两个集成单标签分类器,分别使用每组的OTU水平谱来检测目标疾病。通过使用5倍交叉验证(详细的配置和参数见材料和方法)的AUC(受试者工作特征曲线下的面积)来评估性能。

表 2 目标疾病样本总览

Target disease Total number of disease samples Number of single-disease samples Number of comorbidities samples
IBS 2351 1064 1287
Autoimmune 2301 487 1814
Lung disease 2251 1248 1003
Migraine 2109 938 1171
Thyroid 1814 559 1255
图2 通过无分布独立性试验,从SD和MD中选择自身免疫性疾病的微生物生物标志物

结果如表3所示,在检测单个疾病组中检测目标疾病时,SD训练的分类器优于MD,这主要是由于消除了共病微生物群模式的额外变化。另一方面,MD训练的分类器在多疾病样本上优于SD训练。然后,我们进一步解剖了SD和MD之间的微生物生物标记物和ML模型,得到了这些结果。对自身免疫样本的无分布检验显示[64,65],从SD中选择的生物标志物与MD共享(图2;在属水平上进行了分类注释;详见材料与方法)。然而,由GBDT二值分类器构建的决策树与由MD构建的决策树有很大的不同(图3;例如,MD树中节点之间的结构和相互作用更加复杂),暗示了单一疾病与多种疾病之间的微生物相互作用的变化。因此,在实际情况下,ML模型的设计和构建应考虑共病对微生物群的影响。值得注意的是,虽然目标疾病检测的精度可以得到优化,但这两种单标签ML分类器都不能检测出目标疾病以外的共病或并发症。

表3 单标签分类器对目标疾病检测的检测结果
图3 由SD (A)构建的GBDT二值分类器的决策树比由MD (B)构建的更为复杂在每个树中,内部节点代表属级上的分类群,叶节点代表标签,分支权重代表决策的标准

多标签分类:为微生物组的机器学习向前迈进了一步

与单标签ML分类器(图1a)不同,多标签分类允许每个样本具有多个状态(标签;图1b)。对于一个样本(患者),将多标签分类引入基于微生物组的疾病检测中,自然会可能有多种标签(共病或并发症)。本文介绍了两种多标签分类方案:算法自适应(algorithm adaption)和问题变换(problem transformation)[27]。

算法自适应通过直接修改单标签分类器来处理多标签数据。例如,ML-kNN(多标签k-最近邻)结合了k-NN和贝叶斯规则来确定一个新的样本的标签集[66]。另一个例子是一个名为C4.5的决策树算法 [67],它使叶子代表一组标签,并修改类似熵的函数[68],用于多标签分类。近年来,一种基于多项数据非参数预测推理模型的新的ML-DT(多标签决策树)算法,利用精确概率[69]实现了鲁棒性能。

问题转换通过二进制相关性、校准的标签排序或类链( calibrated label ranking or class chains),将多标签问题转换为单标签问题。二元相关性基于一种一对一的策略,该策略将m个(m > 1)标签转换为单独的m个二值分类问题,并通过二值分类器确定每个标签。虽然它提供了一个简单而有效的解决方案,但二元相关性忽略了标签之间可能的相关性,从而导致错误的结果[70]。为了解决该问题,校准标签排序通过考虑成对标签的相关性,构造m*(m-1)/2二进制分类,将m个标签分类转换为标签排序问题[71]。因此,每个标签都由m-1个二值分类器进行投票表决。此外,还可以利用m-1二分类器的投票概率作为特征,训练新的二分类器,进一步提高性能。此外,一个标签可能依赖于其他一些标签,例如,心血管疾病的诊断和治疗与IBD [72]的标签有关。在这种情况下,将依赖标签作为二值分类器的特征的类链将是一个理想的选择[73]。

基于微生物组的疾病检测的多标签分类的关键技术问题

由于其数据复杂性高、数据异质性和微生物-疾病相互作用,完善的多标签分类方法在处理微生物组数据集方面也存在不足。在过去的几年中,已经研究和报道了数百种微生物组-疾病之间的相互作用,例如,Disbiome数据库[74]收集了372种疾病和1622种微生物之间的10,934种经实验验证的微生物-疾病关联。一个普遍的挑战是,如此多的标签可能会导致意想不到的高计算成本(图4a)。例如,为了训练一个100标签分类模型(一个样本含有100种疾病中的多种疾病),二值相关方法(binary relevance approach)需要100个二值分类器,校准标签排名(calibrated label ranking)需要多达4950个分类器。最近,嵌入方法,如SLEEC(Sparse Local Embeddings for Extreme Classification,稀疏局部嵌入的极端分类)算法[75]被提出以应对多标签挑战。它将标签投影到低维空间向量中,为每个标签构建一个回归,并通过压缩技术对预测的标签进行解码。为了拟合大规模的数据集,SLEEC在投影步骤之前使用无监督的k-means算法将训练数据划分为几个更小的子集。但是,由于忽略了标签信息,预分割可能会影响后续投影的质量。因此,通过使用图嵌入算法(graph embedding algorithm)[76]和一种自适应特征聚合技术,如 DEFRAG(Daptive Extreme FeatuRe AGglomeration,适应的极端特征)[77],结合特征向量和标签信息,进一步改进了嵌入方法。

图4 多标签分类中的三个关键技术问题。 a.在训练数据中使用太多的标签会导致意想不到的高计算成本。 b.缺少的标签会降低检测的灵敏度。 c.模糊的标签会引入假阳性结果

标签缺失是多标签分类化中的另一个常见问题(图4b)。在美国肠道项目队列中,一些多疾病样本可能因临床检查不充分而被错误地归入SD,使元数据中产生某些疾病的“阴性”或“未提供”记录。这种标签缺失也可能发生在多标签分类结果中,因为在同时检测多个状态的结果时灵敏度较低。本文介绍了基于图( graph-based)的方法和低秩( low-rank)方法两种替代方法来提高灵敏度。基于图的方法估计来自标签特定图( label-specific graph)[78]或标签向量(label vectors)[79]的综合标签。低秩方法将多标签学习定义为一个包含边信息[80]的矩阵补全问题,可以通过经验风险最小化框架(empirical risk minimization framework)[81]进行估计,以避免标签缺失。

在现实世界中,疾病元数据可能是基于宿主的个人经验或其他不可靠的结论,而没有得到临床诊断或来自医疗专业人员的确认。训练数据中这种不明确的标签(图4c)可能会引入假阳性结果。部分多标签方法可以消除由模糊或错误的标签造成的错误,主要是通过保持每个候选标签[82]的置信度值。根据置信值的计算方法,部分多标签方法一般分为两阶段(two-stage)方法和端到端学习(end-to-end learning)方法。两阶段方法通过迭代标签传播(propagation)来估计每个样本的候选标签的置信度,然后使用具有高置信度[83]的可信标签来训练多标签分类器。然而,由于消除歧义不足,这个简单的概念很容易出错。与分离置信度估计( separating confidence estimation)和分类器构建分为两个阶段不同,端到端方法将置信度值视为模型训练函数[82,84,85]的权值,并通过将两个阶段合并成一个统一的框架来增强标签的歧义消除

讨论

ML分类器还没有有效地考虑到微生物之间的相互作用。尽管来自单一疾病和共病的生物标志物分数相似(图1),但它们在GBDT决策树中的层次是高度多样化的(图2),可能是由微生物之间的不同相互作用指导的。近年来,微生物在各种生态系统中的共现或相关性得到了广泛的研究[86-89],从生物学的角度调查了微生物与微生物之间的相互作用。然而,如何有效地将这些生物信息整合到ML分类器中仍然是[22,90]进一步工作的一个开放问题

少有研究致力于在微生物组研究中关注ML模型的可解释性,但其对解释疾病预测结果有意义。在单标签分类方法中,逻辑回归具有最好的可解释性和最低的性能,而NNs则相反。虽然RF和GBDT也输出特征的重要性,但计算过于粗糙,无法进行进一步的因果解释。先进的统计方法,如单指数模型(single index model),它将建模的灵活性和(线性)系数[91,92]的可解释性相结合,可能为平衡可解释性和性能提供了一个潜在的解决方案。同时,宿主在年龄、性别、饮食、生活方式等因素上的异质性[93],以及微生物组数据的稀疏性、方差和高维(high-dimensionality)[94]也会混淆疾病的检测和解释,这在实验设计和ML分析中应进行评估和考虑。

材料与方法

实验设计和数据集

美国肠道项目队列包含29,344名受试者,其中包括15,799名健康对照者和13,545名患者。每个受试者的疾病状态均来自基于问卷的原始元数据,该元数据包括饮食、健康状况和卫生等信息。从Qiita [95]下载肠道微生物群的16S rRNA OTU profiles,使用GreenGenes13-8数据库[96]使用Parallel-META 3[31]获取属水平的分类注释。通过序列计数直接计算OTU和属水平上的相对丰度,然后用PICRUSt 2 [97]的16S rRNA基因拷贝数进行归一化。我们还删除了没有微生物组样本的受试者。

如果受试者在元数据中被记录为“由医疗专业人员(医生、医生助理)诊断”为特定的疾病,则被视为患者;如果将所有疾病标记为“我没有这种情况”,则被视为健康。最后,我们收集了3433份健康样本和10,826例患者的数据。对于每个目标疾病,选择微生物组样本并分为两组:单一疾病组(SD)包含对照和仅与目标疾病有关的样本;多疾病组(MD)包含对照和与目标疾病和其他共病有关的样本。每组从3433个健康样本中随机抽取对照样本,样本数与疾病样本相等。

对于每个目标疾病,我们进行了两个实验。首先,我们评估了ML分类器在区分疾病样本和健康对照组方面的效果。采用SD组和MD组构建分类器模型。具体来说,通过SD组训练的模型检测SD样本时采用5倍交叉验证(其中随机选择80%的样本作为模型构建的训练集,其余20%作为验证的测试集)。同时,在每5次折叠中,我们还从MD组中随机选择相同数量的样本,在相同的SD测试集中训练另一个模型进行目标疾病检测。记录SD-训练模型和MD-训练模型的AUCs进行比较。其次,我们评估了ML分类器在检测MD组中的作用,并在之前的过程中分别由SD组和MD组构建模型。

机器学习方法和生物标志物的选择

采用随机森林GBDT两种流行的集成单标签分类方法构建单标签分类器。随机森林是由Python中的“scikit-learn”包实现的,“树数”设置为500,而其他参数作为默认配置。GBDT是由Python中的“lightgbm”包实现的,参数为“learning rate”= 0.02,“maximum tree depth”=6,“number of boosted
trees”= 1000,“maximum tree leaves”= 64,“subsample ratio”=0.8和“colsample_bytree”=0.8。生物标记物分析采用对疾病和对照样本之间的基因水平丰度进行 distribution-free test(python中的“mvtpy”包),选择p值<0.01的检验统计量Top 10 taxa作为生物标记物。

代码和数据可用性

本工作中的所有数据集和代码都可以在https:// github.com/BruceQD/Microbiome-based-disease-detection上找到,所有其他相关资料均可根据要求提供。

重要参考文献

  • [1] Knight R et al. Best practices for analysing microbiomes. Nat Rev Microbiol 2018;16(7):410–22.
  • [2] LaPierre N et al. MetaPheno: a critical evaluation of deep learning and machine learning in metagenome-based disease prediction. Methods 2019;166:74–82.
  • [3] Su X et al. Method development for cross-study microbiome data mining: challenges and opportunities. Computational and Structural. Biotechnol J 2020
  • [8] Namkung J. Machine learning methods for microbiome studies. J Microbiol 2020;58(3):206–16.
  • [9] Topçuog˘lu BD et al. A framework for effective application of machine learning to microbiome-based classification problems. Mbio 2020;11(3).
  • [10] Cammarota G et al. Gut microbiome, big data and machine learning to promote precision medicine for cancer. Nat Rev Gastroenterol Hepatol 2020.
  • [11] Gevers D et al. The treatment-naive microbiome in new-onset Crohn’s disease. Cell Host Microbe 2014;15(3):382–92.
  • [12] Halfvarson J et al. Dynamics of the human gut microbiome in inflammatory bowel disease. Nat Microbiol 2017;2:17004.
  • [13] Wirbel J et al. Meta-analysis of fecal metagenomes reveals global microbial signatures that are specific for colorectal cancer. Nat Med 2019;25(4):679.
  • [14] Poore GD et al. Microbiome analyses of blood and tissues suggest cancer diagnostic approach. Nature 2020;579(7800):567–74.
  • [15] Bajaj JS et al. Linkage of gut microbiome with cognition in hepatic encephalopathy. Am J Physiol Gastrointest Liver Physiol 2012;302(1): G168–75.
  • [16] Huang S et al. Predictive modeling of gingivitis severity and susceptibility via oral microbiota. ISME J 2014;8(9):1768–80.
  • [17] Huang S et al. Longitudinal multi-omics and microbiome meta-analysis identify an asymptomatic gingival state that links gingivitis, periodontitis, and aging. mBio 2021;12(2).
  • [25] Liu, W., et al., The Emerging Trends of Multi-Label Learning. arXiv preprint arXiv:2011.11197; 2020.
  • [26] Tsoumakas G, Katakis I. Multi-label classification: an overview. Int J Data Warehous Min (IJDWM) 2007;3(3):1–13.
  • [27] Zhang M-L, Zhou Z-H. A review on multi-label learning algorithms. IEEE Trans Knowl Data Eng 2013;26(8):1819–37.
  • [28] Gibaja E, Ventura S. Multi-label learning: a review of the state of the art and ongoing research. Wiley Interdiscip Rev: Data Min Knowledge Disc 2014;4(6):411–44.
  • [33] Pedregosa F et al. Scikit-learn: machine learning in Python. J Mach Learn Res 2011;12:2825–30.
  • [34] Chang C-C, Lin C-J. LIBSVM: a library for support vector machines. ACM Trans Intell Syst Technol (TIST) 2011;2(3):1–27.
  • [35] RColorBrewer S, Liaw MA. Package ‘randomForest’. Berkeley, CA, USA: University of California, Berkeley; 2018.
  • [36] Chen T, Guestrin C. Xgboost: A scalable tree boosting system. Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, 2016.
  • [37] Chen, T., et al., Xgboost: extreme gradient boosting. R package version 0.4-2, 2015: p. 1–4.
  • [38] Ke G, et al. Lightgbm: A highly efficient gradient boosting decision tree. in Advances in neural information processing systems; 2017.
  • [39] Prokhorenkova L, et al. CatBoost: unbiased boosting with categorical features. in Advances in neural information processing systems. 2018.
  • [40] Abadi M, et al. Tensorflow: A system for large-scale machine learning. in 12th {USENIX} symposium on operating systems design and implementation ({OSDI} 16); 2016.
  • [41] Paszke A, et al., Pytorch: An imperative style, high-performance deep learning library. arXiv preprint arXiv:1912.01703, 2019.
  • [42] Ketkar N. Introduction to keras. In: Deep learning with Python. Springer; 2017. p. 97–111.
  • [50] Jing G et al. Microbiome search engine 2: a Platform for taxonomic and functional search of global microbiomes on the whole-microbiome level. mSystems 2021;6(1).
  • [51] Su X et al. Multiple-disease detection and classification across cohorts via microbiome search. Msystems 2020;5(2).
  • [59] Deng Y et al. A hierarchical fused fuzzy deep neural network for data classification. IEEE Trans Fuzzy Syst 2016;25(4):1006–12.
  • [60] Mou L, Ghamisi P, Zhu XX. Deep recurrent neural networks for hyperspectral image classification. IEEE Trans Geosci Remote Sens 2017;55(7):3639–55.
  • [61] Gu J et al. Recent advances in convolutional neural networks. Pattern Recogn 2018;77:354–77.
  • [62] Sharma D, Paterson AD, Xu W. TaxoNN: ensemble of neural networks on stratified microbiome data for disease prediction. Bioinformatics 2020.
  • [66] Zhang M-L, Zhou Z-H. ML-KNN: A lazy learning approach to multi-label learning. Pattern Recogn 2007;40(7):2038–48.
  • [67] Quinlan JR. C4. 5: programs for machine learning. 2014: Elsevier.
  • [68] Clare A, King RD. Knowledge discovery in multi-label phenotype data. European conference on principles of data mining and knowledge discovery. Springer; 2001.
  • [69] Moral-García S et al. Non-parametric predictive inference for solving multi-label classification. Appl Soft Comput 2020;88:106011.
  • [70] Zhang M-L et al. Binary relevance for multi-label learning: an overview. Front Comp Sci 2018;12(2):191–202.
  • [71] Dery, L., Multi-label Ranking: Mining Multi-label and Label Ranking Data. arXiv preprint arXiv:2101.00583, 2021.
  • [72] Argollo M et al. Comorbidities in inflammatory bowel disease: a call for action. Lancet Gastroenterol Hepatol 2019;4(8):643–54.
  • [73] Read J et al. Classifier chains for multi-label classification. Machine Learn 2011;85(3):333.
  • [74] Janssens Y et al. Disbiome database: linking the microbiome to disease. BMC Microbiol 2018;18(1):1–6.
  • [75] Bhatia, K., et al. Sparse Local Embeddings for Extreme Multi-label Classification. in NIPS. 2015.
  • [76] Tagami, Annexml Y. Approximate nearest neighbor search for extreme multilabel classification. Proceedings of the 23rd ACM SIGKDD international conference on knowledge discovery and data mining, 2017.
  • [77] Jalan A, Kar P. Accelerating extreme classification via adaptive feature agglomeration. arXiv preprint arXiv:1905.11769; 2019.
  • [78] Sun Y-Y, Zhang Y, Zhou Z-H. Multi-label learning with weak label. Proceedings of the AAAI Conference on Artificial Intelligence, 2010.
  • [79] Wu B et al. Multi-label learning with missing labels. 22nd International Conference on Pattern Recognition. IEEE; 2014.
  • [80] Xu M, Jin R, Zhou Z-H. Speedup matrix completion with side information: Application to multi-label learning. In: Advances in neural information processing systems. 2013.
  • [81] Yu H-F, et al. Large-scale multi-label learning with missing labels. in International conference on machine learning; 2014. PMLR.
  • [82] Xie M-K, Huang S-J. Partial multi-label learning. Proceedings of the AAAI Conference on Artificial Intelligence, 2018.
  • [83] Fang J-P, Zhang M-L. Partial multi-label learning via credible label elicitation. Proceedings of the AAAI Conference on Artificial Intelligence, 2019.
  • [90] Jackson MA et al. Gut microbiota associations with common diseases and prescription medications in a population-based cohort. Nat Commun 2018;9(1):1–8.
  • [91] Liang H et al. Estimation and testing for partially linear single-index models. Ann Stat 2010;38(6):3811.
  • [92] Yang Y, Tong T, Li G. SIMEX estimation for single-index model with covariate measurement error. AStA Adv Statist Anal 2019;103(1):137–61.

原文

Shunyao Wu et al., Towards multi-label classification: Next step of machine learning for microbiome research. Computational and Structural Biotechnology Journal 19 (2021) 2742–2749. DOI: https://doi.org/10.1016/j.csbj.2021.04.054

加关注

关注公众号“生信之巅”。

生信之巅微信公众号 生信之巅小程序码
上一篇:
公众号9岁了——送给粉丝的话
下一篇:
批量下载某研究方向重要文献