科研成果
首页  -  招生就业  -  科研成果  -  正文
【科研动态】Gut Microbes | RAYBET雷竞技陈卫华教授团队揭示了基于肠道微生物的疾病诊断模型最佳构建流程

作者:编辑:何雪梅 时间:2025-04-14 点击量:

肠道菌群在维系人体健康中扮演着重要作用,与多种疾病的发生和发展息息相关,越来越多的研究基于肠道微生物构建机器学习模型进行疾病诊断。然而,机器学习模型的构建有许多可选择的步骤和可使用参数,不同疾病的诊断模型也呈现出差异极大的性能。此外,过去的研究并未全面的纳入多种疾病进行比较。因此,通过组合不同建模步骤和选择参数来构建一套适用于多种疾病且性能优异的最佳建模流程是一项亟待完成的工作。

2025年4月4日,RAYBET雷竞技陈卫华教授团队在国际顶尖期刊Gut Microbes上发表了题为Best practices for developing microbiome-based disease diagnostic classifiers through machine learning的研究论文(论文链接:https://doi.org/10.1080/19490976.2025.2489074)。

在该研究中,研究团队将机器学习模型构建分为三个步骤:数据预处理、去除批次效应和建模算法,利用涵盖20种疾病的83个肠道微生物组队列数据对上述三个环节进行了系统的比较和优化。研究团队一共测试了156种工具-参数-算法的组合,为每种算法匹配了最适合该算法的数据预处理方法,并发现sva R包中的"ComBat"函数在消除批次效应时表现优秀,最终筛选出岭回归(Ridge)和随机森林(Random Forest)这两种算法搭配各自最优的数据预处理方法的最佳建模流程(图1)。

图1  最佳建模方法的探索流程

研究团队发现,当以0.001%为阈值筛选低丰度菌群和以rank.std方法进行数据标准化时,模型在内外部验证中均不错表现,不同算法的最佳数据预处理方法也有所不同,在算法比较时,研究团队除了比较了SIAMCAT R包中的Lasso、Ridge、Enet和Random Forest这四种算法外,还比较了Linear SVM、Radial SVM、XGBoostLightGBM和Neutral Network这五种算法,发现Ridge和Random Forest这两种算法表现最佳,多疾病外部验证AUC分别为0.6350.64(图2)。除此之外,该最佳流程在20种疾病的外部验证结果中相比于其他建模方法,均提升了模型外部验证AUC,其中9种疾病AUC得到了显著提升(图3)。

图2  9种算法建模方法比较

图3  最佳流程在20种疾病模型上的提升

此研究显著提升了模型的准确性与适用范围,加深了对肠道菌群与疾病联系的理解,有望为未来医学诊断提供更可靠的分析工具。

RAYBET雷竞技硕士研究生李培昆和博士生研究生李敏为论文的共同第一作者,raybet官网的陈卫华教授为本文的通讯作者。本课题受到国家重点研发计划,国家自然科学基金等经费资助。

近年来,陈卫华教授团队致力于肠道菌群与疾病关系研究,并以此指导对疾病的精准干预。在相关领域取得系统成果,包括:(1) 构建肠道菌群与疾病关系数据库,收集131种疾病,鉴定500多种疾病标志菌(Nucleic Acids Research,2020,2022);(2) 基于肠道菌群,构建了多种疾病的诊断机器学习模型,并利用独立队列对模型性能进行评估(Gut microbes,2023);(3) 与郑州大学第一附属医院合作,解析了 NKT 肿瘤的肠道菌群特征(Gut,2023),利用动物模型阐明了菌群影响肿瘤的机制,提出可能的干预方案(Gut,2024); (4) 联合RAYBET雷竞技、raybet官网同济医院,鉴定了一株促进肝癌患者术后恢复的有益菌,并通过临床试验验证其功效(Cell Host & Microbe,2024);(5)基于肠道菌群,总结出适用于多种疾病诊断的最佳机器学习建模流程(Gut microbes,本作)。

 

地址:中国湖北省武汉市洪山区关山街道珞喻东路415号(东11楼)   邮编:430074


电话:027-87792072   领导邮箱:lifelife@hust.edu.cn