当前位置: 首页 > news >正文

大模型-人类病理学的语言视觉AI助手

论文摘要翻译与评论

论文标题:

A Multimodal Generative AI Copilot for Human Pathology

摘要翻译:

计算病理学领域已经在任务特定的预测模型和任务无关的自监督视觉编码器的发展方面取得了显著进展。然而,尽管生成性人工智能快速增长,针对病理学定制的通用多模态AI助手和副驾驶的研究却很有限。在此,我们提出了PathChat,这是一个面向人类病理学的视觉-语言通用AI助手。我们通过将病理学基础视觉编码器与预训练的大型语言模型结合,并在超过45.6万个多样化的视觉语言指令上进行微调,构建了PathChat。我们将PathChat与几种多模态视觉语言AI助手和商用的GPT4V(支持ChatGPT-4的多模态通用AI助手)进行了比较。PathChat在来自不同组织起源和疾病模型的多项选择诊断问题中表现出最先进的性能。此外,使用开放式问题和人类专家评估,我们发现PathChat对与病理学相关的多样化查询产生了更准确和病理学家更喜欢的回答。作为一个可以灵活处理视觉和自然语言输入的交互式通用视觉-语言AI副驾驶,PathChat有望在病理学教育、研究和人机协作临床决策中找到有影响力的应用。

实验图

image.png
image.png

主要方法:
  1. 模型构建
  • 使用基于病理学的视觉编码器,并结合预训练的大型语言模型,形成完整的多模态大型语言模型(MLLM)。
  • 在超过45.6万个多样化的视觉语言指令上进行微调,包括99.9万个问答回合。
  1. 数据集
  • 微调数据集包含超过45.6万条指令和99.9万次问答回合。
  • 使用TCGA和内部病理学档案中的全片诊断图像(WSIs)进行模型评估。
  1. 模型评估
  • 对比了PathChat与几种多模态视觉语言AI助手和GPT4V在多项选择诊断问题和开放式问题回答中的性能。
  • 采用了包括图像和临床背景在内的多种评估策略。
主要贡献:
  1. PathChat的提出
  • PathChat作为一个通用的视觉-语言AI助手,展示了在多项病理学任务中的强大性能,特别是在诊断问题上的准确性。
  1. 高质量数据集的构建
  • 构建了一个包含45.6万条指令和99.9万次问答回合的高质量训练数据集,为模型提供了丰富的训练素材。
  1. 全面的模型评估
  • 通过对比多种先进模型,证明了PathChat在多项病理学任务中的优越性。
创新性:
  1. 多模态模型的集成
  • 将视觉编码器与预训练的大型语言模型结合,形成了一个强大的多模态模型。
  1. 广泛的训练和评估数据
  • 使用了大量的多样化数据进行微调和评估,确保了模型的广泛适用性和高性能。
方法的长强点和弱点:
  • 优势
    • 多模态结合:同时处理视觉和语言输入,提高了模型的灵活性和适用性。
    • 高性能:在多个病理学任务中表现出色,尤其是在诊断问题上。
    • 广泛应用:在病理学教育、研究和临床决策中有潜在的广泛应用。
  • 弱点
    • 数据依赖:模型的性能高度依赖于训练数据的质量和多样性。
    • 实时应用:虽然性能优越,但在实际临床应用中,实时处理和响应速度可能需要进一步优化。

通过以上分析,PathChat展示了在病理学领域中的巨大潜力,特别是在教育和临床决策支持方面。然而,未来的研究需要继续优化模型,特别是在实时应用和数据多样性方面,以确保其在更广泛的临床环境中能够有效应用。

论文下载链接

链接:https://pan.quark.cn/s/078e11dcaf9e

相关文章:

  • DataWhale - 吃瓜教程学习笔记(一)
  • mybatis-plus使用拦截器实现sql完整打印
  • 一款经典BUCK DCDC降压芯片TPS5430适合24V转5V转12V及其电路图
  • Python 踩坑记 -- 调优
  • 超拟人大模型:AI心理健康服务的未来
  • QuickLook最强大的C#开源文件预览神器
  • 计算机行业
  • JWT令牌、过滤器Filter、拦截器Interceptor
  • LeetCode 230.二叉搜索树中第K小的元素
  • Android中蓝牙设备的状态值管理
  • Java:缓存行和伪共享
  • Mysql中索引详解
  • VS2019+QT5.15调用动态库dll带有命名空间
  • 分布式文件存储 - - - MinIO从入门到飞翔
  • Verilog-Behavior Level 和 RTL Level 和 GATE Level的区别
  • 【css3】浏览器内核及其兼容性
  • Apache的基本使用
  • ES6--对象的扩展
  • gcc介绍及安装
  • Kibana配置logstash,报表一体化
  • Linux Process Manage
  • mysql常用命令汇总
  • php ci框架整合银盛支付
  • PHP 使用 Swoole - TaskWorker 实现异步操作 Mysql
  • python docx文档转html页面
  • Spark RDD学习: aggregate函数
  • 大快搜索数据爬虫技术实例安装教学篇
  • 理解在java “”i=i++;”所发生的事情
  • 力扣(LeetCode)21
  • 利用DataURL技术在网页上显示图片
  • 融云开发漫谈:你是否了解Go语言并发编程的第一要义?
  • 如何实现 font-size 的响应式
  • 小程序测试方案初探
  • const的用法,特别是用在函数前面与后面的区别
  • 分布式关系型数据库服务 DRDS 支持显示的 Prepare 及逻辑库锁功能等多项能力 ...
  • 整理一些计算机基础知识!
  • ​sqlite3 --- SQLite 数据库 DB-API 2.0 接口模块​
  • # 数论-逆元
  • #微信小程序:微信小程序常见的配置传值
  • (003)SlickEdit Unity的补全
  • (007)XHTML文档之标题——h1~h6
  • (AngularJS)Angular 控制器之间通信初探
  • (HAL)STM32F103C6T8——软件模拟I2C驱动0.96寸OLED屏幕
  • (Qt) 默认QtWidget应用包含什么?
  • (安卓)跳转应用市场APP详情页的方式
  • (附源码)springboot猪场管理系统 毕业设计 160901
  • (三)c52学习之旅-点亮LED灯
  • (十二)python网络爬虫(理论+实战)——实战:使用BeautfulSoup解析baidu热搜新闻数据
  • .net core 源码_ASP.NET Core之Identity源码学习
  • .NET/C# 利用 Walterlv.WeakEvents 高性能地中转一个自定义的弱事件(可让任意 CLR 事件成为弱事件)
  • .NET/C# 如何获取当前进程的 CPU 和内存占用?如何获取全局 CPU 和内存占用?
  • .Net下使用 Geb.Video.FFMPEG 操作视频文件
  • @AliasFor 使用
  • [2013AAA]On a fractional nonlinear hyperbolic equation arising from relative theory
  • [CSS3备忘] transform animation 等