当前位置: 首页 > news >正文

Nature Medicine | 常规机器学习构建蛋白质组衰老时钟!对于数学基础不好的同学,好好思考一下这种研究模式如何借鉴?

今天给各位老铁们分享一篇于2024年08月08号发表在 Nature Medicine [58.7] 的文章:"Proteomic aging clock predicts mortality and risk of common age-related diseases in diverse populations",蛋白质组衰老时钟可预测不同人群的死亡率和常见与年龄相关的疾病的风险。

图片

DOI:10.1038/s41591-024-03164-7

摘要

背景循环血浆蛋白在人体健康中起着关键作用,并有可能用于测量生物年龄,从而预测与年龄相关的疾病、多发病和死亡的风险。

方法与结果:在这项研究中,作者使用 UK Biobank 中包含 2,897 种血浆蛋白的蛋白质组数据,通过 LightGBM 等机器学习模型开发了一个蛋白质年龄预测模型(领域术语: 蛋白质年龄时钟,age clock),并探讨了其在不同人群中预测重大疾病发病率和死亡率的作用。研究人员识别出了 204 种能够准确预测实际年龄的蛋白质,并发现蛋白质组老化评分与 18 种主要慢性疾病的发生(包括心脏病、肝病、肾病、肺病、糖尿病、神经退行性疾病和癌症)、多发病以及全因死亡风险相关。此外,蛋白质组老化还与生物、体力和认知功能的年龄相关指标相关,包括端粒长度、虚弱指数和反应时间。功能分析显示,对蛋白质组年龄时钟贡献最大的蛋白质涉及多种生物功能,包括细胞外基质相互作用、免疫反应和炎症、激素调节和生殖、神经元结构和功能以及发育和分化。在验证集: 中国(n=3,977)和芬兰(n=1,990)生物银行数据库中,蛋白质组年龄时钟的年龄预测准确度与其在英国生物银行中的表现相似。

结论:本研究结果表明,蛋白质组老化涉及多个功能类别的蛋白质,并且可以用于预测跨地理和遗传多样化人群的年龄相关功能状态、多发病和死亡风险。

所用数据

  • UKB(UK Biobank):来自45,441名随机选取的参与者(54%为女性,年龄范围39-71岁)的血浆蛋白质表达数据。这些数据用于开发蛋白质年龄钟模型。研究期间(11-16年的随访中),有4,828名(10.6%)参与者死亡。

  • CKB(China Kadoorie Biobank):在冠心病(IHD)病例队列研究中,使用了3,977名参与者(54%为女性,年龄范围30-78岁)的蛋白质表达数据。在11-14年的随访中,有1,426名(36%)参与者死亡。

  • FinnGen:从1,990名芬兰参与者(52%为女性,年龄范围19-78岁)中收集的蛋白质表达数据,这些参与者大多是健康人群。在研究期间,只有1%(n=22)的参与者在随访中死亡。

| 研究内容

1. 本研究的设计和主要分析方法

图片

▲ 图1:研究设计和分析方法概览。

  • a. 将UKB参与者按 70:30 的比例划分为训练集和测试集。在训练集中,使用LightGBM 模型通过 2,897 种血浆蛋白和五折交叉验证来预测实际年龄。使用 Boruta 特征选择算法筛选出 204 种与预测年龄相关的蛋白质,并使用这204种蛋白质重新训练了一个优化后的 LightGBM 模型,并在UKB测试集中进行评估。

  • b. 使用 CKB 和 FinnGen 的独立数据对蛋白质组年龄时钟模型进行进一步验证。

  • c. 使用全体UKB样本的五折交叉验证和 LightGBM 计算蛋白质预测年龄(ProtAge),并计算 ProtAge 与实际年龄的差值 ProtAgeGap。使用线性和逻辑回归测试 ProtAgeGap 与生物衰老标志物、虚弱程度以及生理和认知状态的关联。此外,使用 Cox 比例风险模型测试 ProtAgeGap 与死亡率、14种常见疾病和12种癌症的关联。由于 CKB 样本较小且 FinnGen 中缺乏疾病病例,大部分关联分析仅在 UKB 中进行。需要注意,计算模型预测年龄与实际年龄的差值 AgeGap 是大部分年龄预测模型的常见套路操作至于为什么要这么计算?以及后续为什么要分析这个差值与其它临床性状的关联,甚至将其作为一个评价指标?小编给出一些解释模型的预测是准确的(已被证明有效果),那么对于一个 AgeGap 比较大的样本(假设实际年龄 18,蛋白质模型预测年龄为 120),其虽然年龄小,但是具有老化的蛋白质组特征(简单理解就是,这个人的蛋白质特征与老头一样,即使实际年龄很小,但是看蛋白质指标的话,都要"入土"了 

2. 蛋白质组老化时钟在不同队列中的表现

图片

▲ 图2:蛋白质组老化时钟在不同队列中的表现。可以看到模型的拟合表现很不错,ProtAgeGap 得分在不同组别中并没有很大的异质性。

  • a. UKB、CKB 和 FinnGen 人群中年龄的密度图。

  • b. UKB、CKB 和 FinnGen 人群中死亡的密度图。

  • c. UKB 样本中所有疾病类型的流行和发病病例数。

  • d-f. UKB、CKB 和 FinnGen 三个测试队列中蛋白质组老化模型的表现。

  • g. ProtAgeGap 在不同队列中的分布。

  • h. ProtAgeGap 在不同人种的分布。

  • i. ProtAgeGap 在不同区域的分布。

3. 蛋白质组学衰老模型能够预测虚弱和衰老相关表型

图片

▲ 图3ProtAgeGap 与年龄相关的生物指标、身体机能的关联。

4. 蛋白质组学衰老是常见疾病的有力预测指标

图片

▲ 图4ProtAgeGap 将 UKB 和 CKB 中个体分为不同年龄特异性死亡率和疾病风险轨迹。

  • a-b. UKB 和 CKB 中按 ProtAgeGap 的上、中、下十分位 计算的疾病和死亡率累积发生图。每个小图显示每种疾病的发病例数,不同颜色的线段表示的仅是 ProtAgeGap 上、中、下十分位内的病例数而非完整数据集的病例数。UKB随访11-16年,CKB随访11-14年,按招募年龄(如a图中65岁年龄段显示的是招募时65岁年龄段人群在11-16年随访期间的累积发病率)。所有图中根据 Kaplan-Meier 生存函数显示给定时间点的事件累积密度,95%置信区间用浅色阴影表示。CKB 中仅显示在 ProtAgeGap 三个十分位内病例数皆超过 10 例的疾病。

图片

▲ 图5ProtAgeGap 与死亡率和常见疾病关联的效应值在调整协变量后基本保持不变。

还真没有什么复杂模型

如何借鉴一下这种研究思路

建模计算某种 Gap

使用 Gap 作为新的评价指标

当然,如果 Gap 有意义那就更好了

就分享到这了

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 暨南大学2024年硕士研究生报考录取情况统计表
  • Java面试八股之简述消息队列P2P模型
  • 硬件面试经典 100 题(51~70 题)
  • Collection - LinkedList 源码解读
  • [Windows CMD] 查看网络连接状态 netstat -na | findstr “TCP“
  • 【投融界-注册安全分析报告】
  • 富格林:谨防虚假陷阱杜绝暗箱
  • Javascript反调试实现判断用户是否打开了浏览器控制台
  • 【一招解决】局域网内命令行无法通过代理进行依赖下载,适用于npm、pip、mvn、gradle等命令
  • EXTI外部中断之对射式红外传感器计次应用案例
  • 鱼眼相机去畸变和矫正
  • python绘制电路图
  • wordpress全局自适应网址导航整站打包源码,含主题和数据库
  • AIGC从入门到实战:基础理论【核心算法与模型】
  • Android如何做主线程卡顿监控
  • (ckeditor+ckfinder用法)Jquery,js获取ckeditor值
  • CNN 在图像分割中的简史:从 R-CNN 到 Mask R-CNN
  • ES6系统学习----从Apollo Client看解构赋值
  • github指令
  • IDEA常用插件整理
  • linux学习笔记
  • 初识 webpack
  • 复习Javascript专题(四):js中的深浅拷贝
  • 简单易用的leetcode开发测试工具(npm)
  • 理解IaaS, PaaS, SaaS等云模型 (Cloud Models)
  • 力扣(LeetCode)21
  • 面试题:给你个id,去拿到name,多叉树遍历
  • 前端代码风格自动化系列(二)之Commitlint
  • 区块链共识机制优缺点对比都是什么
  • 写给高年级小学生看的《Bash 指南》
  • 昨天1024程序员节,我故意写了个死循环~
  • ​LeetCode解法汇总2583. 二叉树中的第 K 大层和
  • ​queue --- 一个同步的队列类​
  • # Maven错误Error executing Maven
  • # Swust 12th acm 邀请赛# [ E ] 01 String [题解]
  • ## 基础知识
  • #我与Java虚拟机的故事#连载14:挑战高薪面试必看
  • $(function(){})与(function($){....})(jQuery)的区别
  • (007)XHTML文档之标题——h1~h6
  • (01)ORB-SLAM2源码无死角解析-(56) 闭环线程→计算Sim3:理论推导(1)求解s,t
  • (4)STL算法之比较
  • (7) cmake 编译C++程序(二)
  • (C#)Windows Shell 外壳编程系列4 - 上下文菜单(iContextMenu)(二)嵌入菜单和执行命令...
  • (html转换)StringEscapeUtils类的转义与反转义方法
  • (Ruby)Ubuntu12.04安装Rails环境
  • (ZT)一个美国文科博士的YardLife
  • (附源码)ssm基于微信小程序的疫苗管理系统 毕业设计 092354
  • (附源码)ssm经济信息门户网站 毕业设计 141634
  • (汇总)os模块以及shutil模块对文件的操作
  • (介绍与使用)物联网NodeMCUESP8266(ESP-12F)连接新版onenet mqtt协议实现上传数据(温湿度)和下发指令(控制LED灯)
  • (三十)Flask之wtforms库【剖析源码上篇】
  • (十三)Maven插件解析运行机制
  • (一) storm的集群安装与配置
  • (一)硬件制作--从零开始自制linux掌上电脑(F1C200S) <嵌入式项目>
  • (转)Mysql的优化设置