当前位置: 首页 > news >正文

情感推理在医疗领域的应用

关键词:情感推理、情感分类、多模态大模型、语音识别、思维链     

     医疗领域中人工智能(AI)的决策透明度至关重要,因为错误可能带来严重后果。这种透明度有助于建立AI与用户之间的信任。情感分析是自然语言处理(NLP)、机器学习和自动语音识别(ASR)交叉领域的一个重要分支,它专注于自动检测和解释通过语音传达的人类情感和态度。在医疗客户服务中,情感分析有助于实时评估客户满意度,增强富有同情心和响应性的互动。此外,情感分析还有助于监测患者的情绪福祉,包括那些有心理健康问题(如自杀倾向)的患者。

   尽管情感分析在医疗领域具有潜力,但它面临几个技术挑战:

  • 语音信号本质上是嘈杂的,并且由于口音、说话风格和录音条件的差异而表现出显著的变异性,这使得提取可靠的声学特征变得复杂。
  • 情绪是主观的、复杂的,并且是多维的,即使对人类来说,准确分类也很困难,因此需要可解释的人工智能(AI)。
  • 鉴于医疗决策的关键性质,AI决策过程中的透明度是必不可少的,以建立机器、医疗专业人员和患者之间的信任。

       为了应对这些挑战,本文引入了一个新的多模态框架,用于一个新的任务:情感推理。在AI中引入推理能力对于情感分析至关重要,因为它能够使AI在更广泛的语境中理解情绪,考虑到细微的表达,处理模糊的语言,并推断可能未明确表述的潜在意图或情感。

1 多模态多任务框架

1.1 框架组成

1.1.1 ASR 模型

     将语音信号转换为文本。该框架采用混合 ASR 系统,结合了 wav2vec 2.0 编码器和 n-gram 语言模型,在 VietMed 测试集上实现了 29.6% 的词错误率。

1.1.2 语言模型

  • 编码器: 用于情感分类,将 ASR 转写文本作为输入,输出情感标签。该框架使用了 phoBERT 和 ViHealthBERT 两种编码器,ViHealthBERT 在医疗领域表现更优。
  • 生成模型: 用于情感推理,将 ASR 转写文本作为输入,输出情感推理的依据(rationale)。该框架使用了 BARTpho、ViT5 和大型语言模型(LLM)等生成模型。

1.1.3 多任务学习

将情感分类和情感推理任务进行联合训练,以提高模型性能。通过调整超参数α平衡两个任务的权重。

1.2 框架流程

  • 语音信号输入: 将语音信号输入 ASR 模型进行转录。
  • 文本情感分类: 将 ASR 转写文本输入编码器进行情感分类,得到情感标签。
  • 文本情感推理: 将 ASR 转写文本输入生成模型进行情感推理,得到情感推理的依据。
  • 多任务学习: 联合训练情感分类和情感推理任务,提高模型性能。

1.3 框架优势

  • 多模态融合: 结合了语音和文本两种模态的信息,能够更全面地理解情感。
  • 情感推理能力: 能够生成情感推理的依据,解释模型的决策过程,提高模型的透明度和可解释性。
  • 可扩展性: 可以应用于不同的情感分类任务和推理任务。

1.4 框架局限

  • 混合 ASR 系统的复杂性: 混合 ASR 系统需要多个步骤,增加了模型复现的难度。
  • 级联方法: 使用级联方法进行语音情感推理,ASR 模型的权重保持不变,可能限制了模型性能的提升。

2 实验

2.1 数据集

2.1.1 数据收集

VietMed 数据集是迄今为止世界上最大的、最具泛化能力的、公开可用的医疗 ASR 数据集。它包含了真实世界中的医患对话,涵盖了所有可用的 ICD-10 代码,内容涉及诊断、解释医疗问题和提供治疗建议等。

 在 VietMed 数据集的基础上,研究人员对其进行了情感标签和依据的标注。情感标签包括负面、中性、正面三种,而依据则解释了为什么该文本被归类为特定的情感标签。

2.1.2 数据统计

  • 样本数量: 数据集包含 7878 个带有情感标签和依据的样本。
  • 情感标签分布: 数据集对中性内容略有侧重,这与医疗对话中详细解释和建议的特点相符。

2.1.3 数据标注流程

  • 初步标注: 使用 GPT-4 模型进行弱监督的 3 标签分类任务,为每个文本片段标注情感标签和依据。
  • 人工审核: 由 3 名开发人员对 GPT-4 生成的内容进行审核和修改。
  • 讨论和合并: 由 3 名标注人员和 2 名审核人员(1 名专业语言学家和 1 名具有医学背景的人员)进行讨论,并根据共识选择最终的情感标签和依据。

2.1.4 数据标注指南

  • 负面标签: 用于描述负面疾病、症状、风险、负面情绪或反正面陈述的文本片段。
  • 中性标签: 用于描述过程、提问、提供建议或过短的文本片段。
  • 正面标签: 用于描述积极结果、恢复过程、积极情绪或反负面陈述的文本片段。

2.1.5 数据质量控制

  • 标注者一致性: 由于情感标注的主观性,标注者之间的一致性较低。为了解决这个问题,研究人员采用了讨论和合并的方法,而不是多数投票。
  • 数据代表性: 数据集包含了真实世界中的医患对话,能够反映医疗场景下的情感表达特点。

2.1.6 数据应用

  • 情感分类: 用于识别语音或文本中的情感倾向。
  • 情感推理: 用于解释模型的决策过程,提高模型的透明度和可解释性。

2.2 实验设置

2.2.1 ASR 模型

实验中采用了wav2vec 2.0编码器进行混合ASR设置,用于将语音转录为文本。

  • 首先,使用高斯混合-隐马尔可夫模型(GMM/HMM)生成对齐,作为wav2vec 2.0神经网络训练的标签。
  • 在GMM/HMM过程中,使用分类回归树(CART)来绑定状态,生成了4501个CART标签。
  • 通过帧间交叉熵(frame-wise cross-entropy, fCE)损失来训练声学模型。
  • 为了根据声学观测转录语音,需要将声学模型和n-gram语言模型结合,使用Viterbi算法计算最佳路径。

最终的ASR模型有1.18亿个可训练参数,在VietMed测试集上的词错误率(Word-Error-Rate, WER)为29.6%。

2.2.2 语言模型

  • 编码器: 该框架使用了 phoBERT 和 ViHealthBERT 两种编码器,ViHealthBERT 在医疗领域表现更优。
  • 生成模型: 该框架使用了 BARTpho、ViT5 和大型语言模型(LLM)等生成模型,并对其进行了微调,以适应情感推理任务。

2.2.3 训练方法

  • 基于标签的训练: 将情感标签作为训练目标,训练语言模型进行情感分类。
  • 基于依据的训练: 将情感标签和依据作为训练目标,训练语言模型进行情感推理。
  • CoT 训练: 使用 CoT(Chain-of-Thought)方法训练语言模型,使其能够生成更详细的推理依据。

2.2.4 实验设置细节

  • 训练设备: 使用 2 个 NVIDIA A40 GPU 进行训练。
  • 训练参数: 编码器和编码器-解码器模型训练 30 个 epoch,LLM 模型训练 5 个 epoch。

2.2.5 评估指标

  • 对于情感分类任务,使用准确率和F1分数作为评估指标。
  • 对于情感推理,使用ROUGE分数和BERTScore来评估生成文本的质量。

2.3  实验结果

  • 编码器模型在情感分类任务中表现最佳: 与编码器-解码器模型和生成模型相比,编码器模型在准确率和 F1 值方面表现更优,且参数效率更高。这表明编码器模型更适合处理情感分类任务,并能有效地捕捉文本中的情感特征。
  • 基于依据的训练可以提高模型性能: 与仅使用标签的训练相比,基于依据的训练可以显著提高模型在情感分类任务中的准确率和 F1 值。这表明推理依据可以帮助模型更好地理解情感,并提高分类的准确性。
  • CoT 训练可以生成更详细的推理依据: 与基于标签的训练相比,CoT 训练可以使模型生成更详细的推理依据,但不同格式的依据对模型性能的影响并不显著。这表明 CoT 训练可以有效地提高模型的推理能力,但依据的格式对性能的影响不大。
  • 模型容易将正面和负面文本片段误分类为中性: 由于数据集中中性内容较多,模型容易将正面和负面文本片段误分类为中性。这表明情感分析任务存在一定的模糊性,需要进一步研究和改进。
  • 生成的推理依据与人类依据语义相似: 尽管生成的推理依据与人类依据在词汇上有所不同,但其语义仍然相似。这表明模型能够有效地学习人类的推理方式,并生成具有可解释性的推理依据。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 动态规划之多状态 dp 问题
  • 十三、Kafka(系列)-Kafka入门(重试机制)
  • springboot系列教程(三十一):springboot整合Nacos组件,环境搭建和入门案例详解
  • 【Qt】为什么Qt是你选择的理由?
  • Android渠道配置不同依赖性
  • 小程序商品图片有什么要求
  • 使用 OpenCV 进行轮廓处理和图像保存
  • flink 1.17 测试
  • VSCode上安装C#环境教程
  • springboot+vue+mybatis音乐网站的设计+PPT+论文+讲解+售后
  • kafka cmd
  • 酸性蓄电池的结构与工作原理是什么?
  • 日常进度提醒
  • 【轨物推荐】经济长波:创新周期的历史
  • Python:第三课:重要API - 集合类
  • CentOS学习笔记 - 12. Nginx搭建Centos7.5远程repo
  • classpath对获取配置文件的影响
  • Flex布局到底解决了什么问题
  • JS 面试题总结
  • js作用域和this的理解
  • SpringCloud集成分布式事务LCN (一)
  • SQL 难点解决:记录的引用
  • ucore操作系统实验笔记 - 重新理解中断
  • Vue2.x学习三:事件处理生命周期钩子
  • VuePress 静态网站生成
  • 买一台 iPhone X,还是创建一家未来的独角兽?
  • 如何用vue打造一个移动端音乐播放器
  • 使用 QuickBI 搭建酷炫可视化分析
  • 使用权重正则化较少模型过拟合
  • 问:在指定的JSON数据中(最外层是数组)根据指定条件拿到匹配到的结果
  • 用Canvas画一棵二叉树
  • 在 Chrome DevTools 中调试 JavaScript 入门
  • 不要一棍子打翻所有黑盒模型,其实可以让它们发挥作用 ...
  • #define与typedef区别
  • #laravel 通过手动安装依赖PHPExcel#
  • #NOIP 2014# day.1 生活大爆炸版 石头剪刀布
  • (4) PIVOT 和 UPIVOT 的使用
  • (html5)在移动端input输入搜索项后 输入法下面为什么不想百度那样出现前往? 而我的出现的是换行...
  • (SpringBoot)第二章:Spring创建和使用
  • (第三期)书生大模型实战营——InternVL(冷笑话大师)部署微调实践
  • (定时器/计数器)中断系统(详解与使用)
  • (附源码)ssm本科教学合格评估管理系统 毕业设计 180916
  • (每日一问)设计模式:设计模式的原则与分类——如何提升代码质量?
  • (一)Docker基本介绍
  • (一)springboot2.7.6集成activit5.23.0之集成引擎
  • (中等) HDU 4370 0 or 1,建模+Dijkstra。
  • (转)GCC在C语言中内嵌汇编 asm __volatile__
  • (转)关于如何学好游戏3D引擎编程的一些经验
  • .NET CORE 第一节 创建基本的 asp.net core
  • .net core Redis 使用有序集合实现延迟队列
  • .NET Core实战项目之CMS 第一章 入门篇-开篇及总体规划
  • .NET Framework、.NET Core 、 .NET 5、.NET 6和.NET 7 和.NET8 简介及区别
  • .net on S60 ---- Net60 1.1发布 支持VS2008以及新的特性
  • .Net转Java自学之路—基础巩固篇十三(集合)
  • .php结尾的域名,【php】php正则截取url中域名后的内容