当前位置：首页 > news >正文

情感推理在医疗领域的应用

news 来源：原创 2024/9/20 5:56:05

关键词：情感推理、情感分类、多模态大模型、语音识别、思维链

医疗领域中人工智能（AI）的决策透明度至关重要，因为错误可能带来严重后果。这种透明度有助于建立AI与用户之间的信任。情感分析是自然语言处理（NLP）、机器学习和自动语音识别（ASR）交叉领域的一个重要分支，它专注于自动检测和解释通过语音传达的人类情感和态度。在医疗客户服务中，情感分析有助于实时评估客户满意度，增强富有同情心和响应性的互动。此外，情感分析还有助于监测患者的情绪福祉，包括那些有心理健康问题（如自杀倾向）的患者。

尽管情感分析在医疗领域具有潜力，但它面临几个技术挑战：

语音信号本质上是嘈杂的，并且由于口音、说话风格和录音条件的差异而表现出显著的变异性，这使得提取可靠的声学特征变得复杂。
情绪是主观的、复杂的，并且是多维的，即使对人类来说，准确分类也很困难，因此需要可解释的人工智能（AI）。
鉴于医疗决策的关键性质，AI决策过程中的透明度是必不可少的，以建立机器、医疗专业人员和患者之间的信任。

为了应对这些挑战，本文引入了一个新的多模态框架，用于一个新的任务：情感推理。在AI中引入推理能力对于情感分析至关重要，因为它能够使AI在更广泛的语境中理解情绪，考虑到细微的表达，处理模糊的语言，并推断可能未明确表述的潜在意图或情感。

1 多模态多任务框架

1.1 框架组成

1.1.1 ASR 模型

将语音信号转换为文本。该框架采用混合 ASR 系统，结合了 wav2vec 2.0 编码器和 n-gram 语言模型，在 VietMed 测试集上实现了 29.6% 的词错误率。

1.1.2 语言模型

编码器：用于情感分类，将 ASR 转写文本作为输入，输出情感标签。该框架使用了 phoBERT 和 ViHealthBERT 两种编码器，ViHealthBERT 在医疗领域表现更优。
生成模型：用于情感推理，将 ASR 转写文本作为输入，输出情感推理的依据（rationale）。该框架使用了 BARTpho、ViT5 和大型语言模型（LLM）等生成模型。

1.1.3 多任务学习

将情感分类和情感推理任务进行联合训练，以提高模型性能。通过调整超参数α平衡两个任务的权重。

1.2 框架流程

语音信号输入：将语音信号输入 ASR 模型进行转录。
文本情感分类：将 ASR 转写文本输入编码器进行情感分类，得到情感标签。
文本情感推理：将 ASR 转写文本输入生成模型进行情感推理，得到情感推理的依据。
多任务学习：联合训练情感分类和情感推理任务，提高模型性能。

1.3 框架优势

多模态融合：结合了语音和文本两种模态的信息，能够更全面地理解情感。
情感推理能力：能够生成情感推理的依据，解释模型的决策过程，提高模型的透明度和可解释性。
可扩展性：可以应用于不同的情感分类任务和推理任务。

1.4 框架局限

混合 ASR 系统的复杂性：混合 ASR 系统需要多个步骤，增加了模型复现的难度。
级联方法：使用级联方法进行语音情感推理，ASR 模型的权重保持不变，可能限制了模型性能的提升。

2 实验

2.1 数据集

2.1.1 数据收集

VietMed 数据集是迄今为止世界上最大的、最具泛化能力的、公开可用的医疗 ASR 数据集。它包含了真实世界中的医患对话，涵盖了所有可用的 ICD-10 代码，内容涉及诊断、解释医疗问题和提供治疗建议等。

在 VietMed 数据集的基础上，研究人员对其进行了情感标签和依据的标注。情感标签包括负面、中性、正面三种，而依据则解释了为什么该文本被归类为特定的情感标签。

2.1.2 数据统计

样本数量：数据集包含 7878 个带有情感标签和依据的样本。
情感标签分布：数据集对中性内容略有侧重，这与医疗对话中详细解释和建议的特点相符。

2.1.3 数据标注流程

初步标注：使用 GPT-4 模型进行弱监督的 3 标签分类任务，为每个文本片段标注情感标签和依据。
人工审核：由 3 名开发人员对 GPT-4 生成的内容进行审核和修改。
讨论和合并：由 3 名标注人员和 2 名审核人员（1 名专业语言学家和 1 名具有医学背景的人员）进行讨论，并根据共识选择最终的情感标签和依据。

2.1.4 数据标注指南

负面标签：用于描述负面疾病、症状、风险、负面情绪或反正面陈述的文本片段。
中性标签：用于描述过程、提问、提供建议或过短的文本片段。
正面标签：用于描述积极结果、恢复过程、积极情绪或反负面陈述的文本片段。

2.1.5 数据质量控制

标注者一致性：由于情感标注的主观性，标注者之间的一致性较低。为了解决这个问题，研究人员采用了讨论和合并的方法，而不是多数投票。
数据代表性：数据集包含了真实世界中的医患对话，能够反映医疗场景下的情感表达特点。

2.1.6 数据应用

情感分类：用于识别语音或文本中的情感倾向。
情感推理：用于解释模型的决策过程，提高模型的透明度和可解释性。

2.2 实验设置

2.2.1 ASR 模型

实验中采用了wav2vec 2.0编码器进行混合ASR设置，用于将语音转录为文本。

首先，使用高斯混合-隐马尔可夫模型（GMM/HMM）生成对齐，作为wav2vec 2.0神经网络训练的标签。
在GMM/HMM过程中，使用分类回归树（CART）来绑定状态，生成了4501个CART标签。
通过帧间交叉熵（frame-wise cross-entropy, fCE）损失来训练声学模型。
为了根据声学观测转录语音，需要将声学模型和n-gram语言模型结合，使用Viterbi算法计算最佳路径。

最终的ASR模型有1.18亿个可训练参数，在VietMed测试集上的词错误率（Word-Error-Rate, WER）为29.6%。

2.2.2 语言模型

编码器：该框架使用了 phoBERT 和 ViHealthBERT 两种编码器，ViHealthBERT 在医疗领域表现更优。
生成模型：该框架使用了 BARTpho、ViT5 和大型语言模型（LLM）等生成模型，并对其进行了微调，以适应情感推理任务。

2.2.3 训练方法

基于标签的训练：将情感标签作为训练目标，训练语言模型进行情感分类。
基于依据的训练：将情感标签和依据作为训练目标，训练语言模型进行情感推理。
CoT 训练：使用 CoT（Chain-of-Thought）方法训练语言模型，使其能够生成更详细的推理依据。

2.2.4 实验设置细节

训练设备：使用 2 个 NVIDIA A40 GPU 进行训练。
训练参数：编码器和编码器-解码器模型训练 30 个 epoch，LLM 模型训练 5 个 epoch。

2.2.5 评估指标

对于情感分类任务，使用准确率和F1分数作为评估指标。
对于情感推理，使用ROUGE分数和BERTScore来评估生成文本的质量。

2.3 实验结果

编码器模型在情感分类任务中表现最佳：与编码器-解码器模型和生成模型相比，编码器模型在准确率和 F1 值方面表现更优，且参数效率更高。这表明编码器模型更适合处理情感分类任务，并能有效地捕捉文本中的情感特征。
基于依据的训练可以提高模型性能：与仅使用标签的训练相比，基于依据的训练可以显著提高模型在情感分类任务中的准确率和 F1 值。这表明推理依据可以帮助模型更好地理解情感，并提高分类的准确性。
CoT 训练可以生成更详细的推理依据：与基于标签的训练相比，CoT 训练可以使模型生成更详细的推理依据，但不同格式的依据对模型性能的影响并不显著。这表明 CoT 训练可以有效地提高模型的推理能力，但依据的格式对性能的影响不大。
模型容易将正面和负面文本片段误分类为中性：由于数据集中中性内容较多，模型容易将正面和负面文本片段误分类为中性。这表明情感分析任务存在一定的模糊性，需要进一步研究和改进。
生成的推理依据与人类依据语义相似：尽管生成的推理依据与人类依据在词汇上有所不同，但其语义仍然相似。这表明模型能够有效地学习人类的推理方式，并生成具有可解释性的推理依据。