当前位置: 首页 > news >正文

2023中国研究生创新实践系列大赛“华为杯”第二十届中国研究生数学建模竞赛E题优秀论文-问题2

​出血性脑卒中临床智能诊疗模型的建立

5. 问题二 

5 . 1 问题二 (a) 的分析 本题要求根据于患者 sub001 至 sub100 的各影像时间点及其对应的水肿体积值,构建 一条全体患者水肿体积随时间进展曲线 y = f(x)(x 为发病至影像检查时间,y 为水肿体 积),并计算患者 sub001 至 sub100 真实值和所拟合曲线之间存在的残差。我们基于问题一 (a) 已经处理得到的数据“各影像时间点”,在“表 2-患者影像信息血 肿及水肿的体积及位置”中获得各时间点的“ED_volume”水肿体积值。我们得到每个患 者各影像时间点及各影像所对应的水肿体积值,加下来对这些离散数据进行函数拟合。在本题中我们采用了局部加权回归模型和非线性最小二乘法回归模型,根据残差发现 非线性最小二乘法回归模型的拟合效果更佳,故本题最后提供的答案为非线性最小二乘法 回归模型得到的数据。

本题的流程图如下图 (5..1) 所示:

图 6 问题 2(a) 思路流程图

5 . 2 问题二 (a) 的模型建立 

5 . 2 . 1 局部加权回归模型 

    本题的数据呈现为散点图,且散点数据集中在时间值较小的那块区域。数据点在某个 区域内密集分布,并且在该区域内变化较小,考虑使用局部加权回归(Locally Weighted Regression)进行拟合。    

    局部加权回归 [5] 是一种非参数的拟合方法,用于解决回归问题,它通过在每个数据 点附近赋予不同的权重来进行拟合。在拟合过程中,距离数据点越近的点被赋予更高的权 重,距离越远的点被赋予较低的权重。更加关注待预测样本附近的样本点,这样可以使得 拟合曲线更加贴合数据点在局部的变化趋势。

    在局部加权回归中,给定一个训练数据集,我们需要预测给定输入 x 下,在本题中即 为“发病至影像检查时间”,输出 y,在本题中即为“患者的水肿体积”。局部加权回归模 型通过以下步骤进行预测:1. 对于给定的待预测样本 x,找到其附近的 k 个最近邻样本点。

2. 对于这 k 个样本点,计算每个样本点与待预测样本 x 之间的距离,并将其映射到一个 权重值,通常使用高斯核函数进行映射。

3. 根据这 k 个样本点的权重值,构建加权最小二乘问题,即通过最小化加权误差的平方 和来求解回归系数。

4. 利用得到的回归系数,对于给定的 x,计算相应的预测值 y。

下图 (5..2) 为局部加权回归模型得到全体患者水肿体积随时间进展曲线,可以明显看 到其在时间较大的时候拟合效果比较差。

5 . 2 . 2 非线性最小二乘法回归模型

非线性最小二乘法回归模型是适用于当自变量和因变量之间不是线性关系时的数据 拟合问题。患者水肿体积随时间进展曲线明显不是线性关系,我们预估其发展方式应该是 随时间的增加先增加后减少,这也符合我们的生物逻辑,在发病后水肿体积增加,但随着 患者被治疗,水肿体积将会慢慢消退。与线性回归模型不同,非线性回归模型的最优化目标是最小化观察值与预测值之间的 残差平方和。这也与题目要求相符合,要求患者真实值和曲线间的残差尽可能的小。该模 型的一般形式可以表示为:

其中,y 表示因变量,本题中的 y 即为水肿体积,x 表示自变量,本文中的 x 即为发病至 影像检查时间,θ 是模型参数,ϵ 是误差项。f 是一个非线性函数,通常可以为指数函数、 对数函数、多项式函数等形式。非线性最小二乘法回归模型的求解过程通常采用高斯-牛顿法或 Levenberg-Marquardt 算法。在这些算法中,模型参数 θ 被迭代更新,使得残差平方和 达到最小值。具体而言,给定训练数据集和一个初始参数向量,我们需要通过以下步骤来拟合非线性回 归模型: 

下图 (5..3) 为非线性最小二乘法回归模型得到全体患者水肿体积随时间进展曲线,可以明 显看出其拟合效果较好,确实更符合患者水肿体积的变化趋势。

5 . 3 问题二 (a) 的结果 

根据残差发现非线性最小二乘法回归模型的拟合效果更佳,故我们最后在答案中将提 供由非线性最小二乘法回归模型得到的残差数据。结果如下图 (5..4) 所示 (仅展示 sub001- sub020 患者的结果,其余结果在“表 4-答案文件”中查看)

5 . 4 问题二 (b) 的分析

在 (b) 问中我们探索患者水肿体积随时间进展模式的个体差异,要构建 3-5 各不同亚 组的人群,并构建各亚组的水肿体积随时间进展曲线,并计算患者 sub001 至 sub100 真实 值和曲线间的残差。我们首先对数据进行降维:将同一患者在不同时间点的水肿体积分离开,使得一行数 据对应一个时间点下的水肿体积,同时匹配上该患者的个人史,90 天 mRS,出血前 mRS,

高血压程度等数据。将数据降维后能更直观的观察时间与水肿体积的变化,同时增大数据 量以便做进一步的聚类分析,提高聚类分析的准确度。在降维数据后能复制除水肿体积和 时间之外的自变量,这些特征能提高同一患者的不同数据被分到同一组的概率。 

由于数据可近似看成一个球形,并且数据无人工标注类别,我们选择采用机器学习 中无监督学习的 K-means 聚类将这些数据分为题目所需的 3-5 类。当聚类数目明确时,Kmeans 聚类算法能够产生较好的聚类效果,所以我们首先用手肘法确定聚类效果的提升最 显著的聚类数量,即最优簇数量,再根据此最优簇数量对数据进一步使用 K-means 聚类算 法将数据进行分类。 

根据已经分类好的亚组,对每个亚组都构建一条患者水肿体积随时间进展曲线 y = f(x)(x 为发病至影像检查时间,y 为水肿体积)。在问题二 (a) 中我们发现非线性最小二乘 法回归模型具有良好的拟合效果,故在本题中我们还将继续采用该方法对各亚组的患者水 肿体积随时间进展曲线进行构建。 

本题的流程图如下图 (5..5) 所示

5 . 5 问题二 (b) 的模型建立 

5 . 5 . 1 手肘法 在使用 K-means 聚类方法对本题进行操作前,我们希望从数据自身出发去确定聚类 数,也就是对数据而言的最佳聚类数。手肘法确定聚类数 k 的方法之一。手肘法 [6] 的核心指标是 SSE(sum of the squared errors,误差平方和),

其中,C 是第 i 个簇,p 是 Ci 中的样本点,mi 是 Ci 的质心 (Ci 中所有样本的均值),SSE 是所有样本的聚类误差,代表了聚类效果的好坏。手肘法的核心思想是:随着聚类数 k 的增大,样本划分会更加精细,每个簇的聚合程 度会逐渐提高,那么误差平方和 SSE 自然会逐渐变小。并且,当 k 小于真实聚类数时,由 于 k 的增大会大幅增加每个簇的聚合程度,故 SSE 的下降幅度会很大,而当 k 到达真实聚 类数时,再增加 k 所得到的聚合程度回报会迅速变小,所以 SSE 的下降幅度会骤减,然后 随着 k 值的继续增大而趋于平缓,也就是说 SSE 和 k 的关系图是一个手肘的形状,而这个 肘部对应的 k 值就是数据的真实聚类数。我们通过手肘法确定了最优簇数量为 3,即我们 需要将数据分为 3 类。手肘法的示意图如下图 (5..6) 所示:

5 . 5 . 2 K-means 聚类算法 

K-means 聚类算法 [7] 是一种经典的无监督学习算法,用于将数据集划分为 k 个不同 的簇(cluster),本题中我们需要将其划分为 3 个不同的簇类。该算法通过迭代的方式,将 数据样本分配到与其最相似的簇中,并根据簇内样本的特征均值更新簇的中心点,直到达 到收敛条件。其具体步骤如下: 

1. 初始化:随机选择 k 个点作为初始的聚类中心。 

2. 分配样本:对于每个样本,计算其与各个聚类中心的距离,并将其分配到距离最近的 簇中。 

3. 更新中心点:对于每个簇,计算簇内所有样本的特征均值,并将其作为新的聚类中心。

4. 重复步骤 2 和步骤 3,直到簇的分配不再改变或达到预定的迭代次数。最终我们得到将所有患者分到了亚组 0、亚组 1、亚组 2 中,各亚组的患者如下图 (5..7) 所 示:

我们可以看到亚组 0 中有患者 32 位,亚组 1 中有患者 61 位,亚组 2 中有患者 7 位。

5 . 5 . 3 非线性最小二乘法回归模型 

在问题二 (a) 的模型建立的非线性最小二乘法回归模型部分5 . 2 . 2已经对该模型进行 了解释,故在此不再多做介绍。对于三个亚组我们还是假设非线性函数 f(x; θ) 为

其中 θ = (a, b, c) T。最终我们拟合得到亚组 0 的 θ0,亚组 1 的 θ1,亚组 2 的 θ2 分别为:

即亚组 0、亚组 1 和亚组 2 的水肿体积随时间进展的拟合函数分别为 f0, f1, f2:

下图 (5..8) 为非线性最小二乘法回归模型得到各亚组患者水肿体积随时间进展曲线。对亚组 0,我们可以粗略判断此组大多数患者治疗周期较长,病情不能确定;对亚组 1,我 们可以粗略判断此组大多数患者水肿体积减小较快,病情趋于好转;对亚组 2,我们可以 粗略判断此组大多数患者水肿体积趋于增长,病情趋于恶化。

图 13 非线性最小二乘法回归模型得到各亚组患者水肿体积随时间进展曲线

5 . 6 问题二 (b) 的结果 

    本题得到各患者的所属亚组及各亚组患者与其对应的亚组所生成的水肿体积随时间 进展曲线的残差,结果如下图 (5..9) 所示 (仅展示 sub001-sub020 患者的结果,其余结果在 “表 4-答案文件”中查看)

5 . 7 问题二 (c) 的分析 

    在本问中我们需要构建模型,分析不同治疗方法对水肿体积进展模式的影响。由于题 目的治疗方法仅给出 0 或 1 表示每个患者是否采用此方法,所以本题假设治疗方法从首 次影像检查时间持续到最后一次随访,并假设不同治疗方法之间独立。本题所要解决的是 不同方法对水肿体积进展模式的影响,为了使目标量化,我们采用每个患者在每两个检查 点之间斜率的最小值作为拟合函数的因变量,其实际意义为水肿体积减小变化率最大的值 (若水肿体积在全程中没有下降则为增长变化率最缓慢的值),该数值将在本题中命名为 “水肿体积变化率”。通过多元线性回归模型确定不同治疗方法的权重,通过比较治疗方法 的权重得出各种治疗方法对水肿体积进展模式的影响。本题的流程图如下图 (5..10) 所示:

图 15 问题 2(c) 思路流程图

5 . 8 问题二 (c) 的模型建立 

5 . 8 . 1 多元线性回归模型 多元线性回归模型用于建立自变量 (特征) 和因变量之间的线性关系。适用于多个自变 量对一个因变量进行预测或建模的情况。多元线性回归模型的一般形式可以表示为:

其中,y 表示因变量 (要预测的变量),x1, x2, . . . , xp 表示自变量 (特征),β0, β1, β2, . . . , βp 是 模型的参数,ϵ 是误差项。模型的目标是找到最优的参数估计值,使得观察值与预测值的 误差平方和最小化。但本题中我们不采用以残差作为目标函数的传统方法,我们采用将寻 找最接近 1 的 R 方值作为目标来找到最优的参数估计值。R 方值的定义为:

其中 yˆi 表示预测值,y¯i 表示真实值的平均值。当 R 方值为 1 时是最理想情况,所有的预测 值等于真值。R 方的最小值没有下限,因为预测可以任意程度的差,因此,R 方值的范围 是 (−∞, 1]。

对本题具体而言,对于给定的数据集,我们需要通过以下步骤来拟合多元线性回归模 型: 

  1. 收集数据集:自变量 x1, x2, . . . , x7,在本题中分别指其中治疗方案“脑室引流”、“止血 治疗”、“降颅压治疗”、“降压治疗”、“镇静、镇痛治疗”、“止吐护胃”和“营养神经”, 和因变量 y,在本题中为“水肿体积变化率”。

2. 将数据分为 80% 的训练集和 20% 的测试集, 对于每个训练样本 (xi1, xi2, . . . , xi7, yi) ,计 算对应的预测值 yˆi = β0+ β1xi1 + β2xi2 + . . . + β7xi7。

3. 构造目标函数 R 方值,估计参数 β0, β1, β2, . . . , β7 的值。

4. 使用得到的参数判断不同治疗方法对水肿体积减小影响的显著性

最后根据本题要求,还再通过比较治疗方法的权重得出各种治疗方法对水肿体积进展 模式的影响。在这之中我们不对 2 亚类别进行拟合是因为 2 亚类别中的数据量过小,无法 进行较为精确的数据拟合,即使有拟合结果参考价值也不大,可以使用对总体的评估模型 对该类病人进行治疗方法的效果显著性判断。

5 . 9 问题二 (c) 的结果 

通过拟合得到亚组 0 模型的 R 方值为 0.98165,模型的实际值和预测值如下图 (5..11) 所示:

各治疗方法对亚组 0 的进展模式影响的权重柱状图如下图 (5..12) 所示:

通过以上参数可以得出治疗方法对亚组 0 的水肿体积影响排序如下:治疗效果:镇静、镇痛治疗 > 营养神经 > 止血治疗 > 降颅压治疗 > 止吐护胃 > 降压治 疗 > 脑室引流 通过拟合得到亚组 1 模型的 R 方值为 0.9493,模型的实际值和预测值如下图 (5..13) 所 示:

各治疗方法对亚组 1 的进展模式影响的权重柱状图如下图 (5..14) 所示:

通过以上参数可以得出治疗方法对亚组 1 的水肿体积影响排序如下:治

疗效果:脑室引流 > 止血治疗 > 营养神经 > 镇静、镇痛治疗 > 止吐护胃 > 降颅压治 疗 > 降压治疗 

通过拟合得到亚组 2 模型的 R 方值为 0.92217,模型的实际值和预测值如下图 (5..15) 所示:

各治疗方法对亚组 2 的进展模式影响的权重柱状图如下图 (5..16) 所示:

通过以上参数可以得出治疗方法对亚组 2 的水肿体积影响排序如下:治疗效果:营养神经 > 降颅压治疗 > 止血治疗 > 镇静、镇痛治疗 > 止吐护胃 > 降压治 疗 > 脑室引流

结合二题中的 b 题对以上结果进行分析:对治疗周期较长,病情不能确定的患者采用 镇静、镇痛治疗的治疗方法更有效。对水肿体积减小较快,病情趋于好转的患者采用脑室引流的治疗方法更有效。对水肿体积趋于增长,病情趋于恶化的患者采用的营养神经治疗方法更有效。

5 . 10 问题二 (d) 的分析 

在本题中我们需构建模型,分析血肿体积、水肿体积及治疗方法三者之间的关系。该题可分为三小问:1,水肿体积和治疗方法的关系。2,血肿体积和治疗方法的关系。3 血肿体积和水肿体积的关系。对于第一和第二小问我们采用问题二 (c) 中的多元线性回 归模型确定不同治疗方法的权重,但分析的数据包括编号为 sub001 到 sub100 和 sub131 到 sub160,如此做的原因是 sub101 到 sub130 的数据中不包含随访影像数据,并增加分析的 数据以增加模型的精确度。对于第三小问我们采用相关系数作为指标分析水肿体积和血肿 体积的关系。本题的流程图如下图 (5..17) 所示:

5 . 11 问题二 (d) 的模型建立 

5 . 11 . 1 多元线性回归模型 在问题二 (c) 的模型建立的多元线性回归模型5 . 8 . 1已经对该模型进行了解释,故在 此不再多做介绍。

5 . 12 问题二 (d) 的结果 通过拟合得到水肿体积与治疗方法模型的 R 方值为 0.91553,模型的实际值和预测值 如下图 (5..18) 所示:

水肿体积的各治疗方法的权重柱状图如下图 (5..19) 所示:

治疗效果:镇静、镇痛治疗 > 营养神经 > 止吐护胃 > 降颅压治疗 > 止血治疗 > 降压治 疗 > 脑室引流 通过拟合得到血肿体积与治疗方法模型的 R 方值为 0.93522,模型的实际值和预测值 如下图 (5..20) 所示:

血肿体积的各治疗方法的权重柱状图如下图 (5..21):

治疗效果:脑室引流 > 降颅压治疗 > 营养神经 > 止吐护胃 > 止血治疗 > 镇静、镇痛治 疗 > 降压治疗 结合上述结果进行分析可知:采用镇静、镇痛治疗的治疗方法对减小水肿体积更有效。采用脑室引流的治疗方法对减小血肿体积更有效。

最后对编号为 sub001 到 sub160 的患者的水肿体积和血肿体积的数据作可视化得到如 下散点图图 (5..22) 所示:

通过计算得出血肿体积和水肿体积之间的相关系数为 0.3052,说明血肿体积和水肿体 积之间存在着较弱的正相关关系。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 文心一言 VS 讯飞星火 VS chatgpt (343)-- 算法导论23.2 2题
  • 标题:探索 HTML 与 JavaScript 实现的选项卡切换效果
  • 【微前端记录】微前端qiankun初体验
  • Benchmark.NET:让 C# 测试程序性能变得既酷又简单
  • 【Java毕业设计】基于SpringBoot+Vue+uniapp的农产品商城系统
  • springboot提升-多数据源配置
  • 使用C#在指定目录下创建文件夹的全面指南
  • Adobe Illustrator非矢量图片的交集利用剪切蒙版实现
  • 设计模式应用
  • OpenCV 之 模版匹配多个对象、图片旋转 综合应用
  • Java 面试题:从源码理解 ThreadLocal 如何解决内存泄漏 ConcurrentHashMap 如何保证并发安全 --xunznux
  • 深入解析Flink SQL:基本概念与高级应用
  • 生活杂记1
  • C#基础(6)值类型和引用类型
  • 【鸿蒙 HarmonyOS NEXT】使用EventHub进行数据通信
  • php的引用
  • 【干货分享】SpringCloud微服务架构分布式组件如何共享session对象
  • Angular4 模板式表单用法以及验证
  • angular学习第一篇-----环境搭建
  • DataBase in Android
  • es6
  • PHP 使用 Swoole - TaskWorker 实现异步操作 Mysql
  • 测试如何在敏捷团队中工作?
  • 纯 javascript 半自动式下滑一定高度,导航栏固定
  • 对超线程几个不同角度的解释
  • 高程读书笔记 第六章 面向对象程序设计
  • 构造函数(constructor)与原型链(prototype)关系
  • 看完九篇字体系列的文章,你还觉得我是在说字体?
  • 前端面试之CSS3新特性
  • 如何在 Tornado 中实现 Middleware
  • 实战:基于Spring Boot快速开发RESTful风格API接口
  • 移动互联网+智能运营体系搭建=你家有金矿啊!
  • ​浅谈 Linux 中的 core dump 分析方法
  • ​学习一下,什么是预包装食品?​
  • #if等命令的学习
  • (3)nginx 配置(nginx.conf)
  • (Spark3.2.0)Spark SQL 初探: 使用大数据分析2000万KF数据
  • (二十六)Java 数据结构
  • (附源码)spring boot儿童教育管理系统 毕业设计 281442
  • (附源码)ssm基于jsp高校选课系统 毕业设计 291627
  • (论文阅读23/100)Hierarchical Convolutional Features for Visual Tracking
  • (七)MySQL是如何将LRU链表的使用性能优化到极致的?
  • (四)docker:为mysql和java jar运行环境创建同一网络,容器互联
  • (未解决)macOS matplotlib 中文是方框
  • (学习日记)2024.01.19
  • (一)WLAN定义和基本架构转
  • (转)MVC3 类型“System.Web.Mvc.ModelClientValidationRule”同时存在
  • (转)Unity3DUnity3D在android下调试
  • .net core 依赖注入的基本用发
  • .NET Core日志内容详解,详解不同日志级别的区别和有关日志记录的实用工具和第三方库详解与示例
  • .net oracle 连接超时_Mysql连接数据库异常汇总【必收藏】
  • .NET 分布式技术比较
  • .net/c# memcached 获取所有缓存键(keys)
  • .Net开发笔记(二十)创建一个需要授权的第三方组件
  • @31省区市高考时间表来了,祝考试成功