当前位置: 首页 > news >正文

中国医院需要什么样的数据中台?

作者:谭婧,虎嗅认证作者,《亲爱的数据》公众号出品人,香港浸会大学硕士,N年前高考作文满分得主。曾负责中国节能集团控股企业战略管理工作,许多年管理咨询经验,也曾任人脸识别创业公司合伙人。

         本文经授权转载自亲爱的数据(ID:deardata)

中国互联网的今天,市值总和接近10万亿人民币,头部阿里巴巴、腾讯各有4000多亿美元市值。一方面市值熠熠,一方面互联网成为数据应用技术的发源地,数据中台也在其中萌芽。腾讯汤道生说,“中台能力以前就有,只不过它们大多服务于内部业务,在产业互联网时代才开始逐渐对外开放这些技术积累。”京东黎科峰也坦言“公司在一轮又一轮组织架构调整之后,将数据中台提升到了重视的新高度。”这一切只是聚光灯下数据中台的冰山一角,数据中台作为从业务视角而非技术视角的技术,应用已经慢慢地向传统领域渗透。

2019年7月,佛山市妇幼保健院马丽明主任在演讲《中国医疗机构新一代数据中台建设的探索》中讲述了在数据战略时代,医疗信息化工作者不易的摸索之路,也表达了医院场景对于人工智能技术的真实需求。

医院信息化的基础设施好比是地基。而现实是,地基之上的建筑物并不能等到基础设施完全到位了才开始起步。中国医院的信息化步伐与人工智能技术的落地都在同一片工地里热火朝天的开工。

(一)数据中台的需求背景

▲▲▲

众所周知,新医改的核心就是“腾空间、调结构、保衔接”。腾空间,就是腾出地方,让出空间,包括取消药品加成和采用两票制集中采购压缩药品中间环节的利润,同时规范医疗服务行为。通过调整医疗价格、服务价格来调整医疗现在的结构,药品大型检验、检查的价格往下调,能够体现医务人员技术劳动价值往上升。

结构性的调整对医院机制带来很大影响。新机制必须要跟社保和财政补偿衔接好。公立医院的院长在这关键时期面临挑战。确保医疗质量的前提下,减少过度医疗,提高服务质量是工作的重中之重。但是,如何提升才是关键。在这个情况下,数据分析有了新的历史使命,新医改为信息化赋能临床提供了加速度。

1999年,中国医疗机构信息化开始。

2010年,一个十年的数据积累期。

2019年,一个十年的数据汇通期。

预计在2021年后,迈向数据应用期。

产业实现从医疗数字化,到医疗智能化需要跨越两个门槛。

第一个,以技术为核心,向以数据为驱动转变,需要医疗机构信息中心有非常多的数据专家。美国很多医院的信息中心几百甚至几千的人才规模,其中大部分是数据专家。但是,现在国内医疗机构的数据专家很少。

第二个,“全科一体化”向“专科定制化”转变,医疗信息化工作者需要更加熟悉临床业务和流程。

不仅如此,医疗信息化工作者还面临以下几个挑战,

挑战一,如何利用数据赋能业务?简单来讲,读懂数据。首先要实现数据的互联互通,集成标准化和结构化。通过优质数据,定位临床质量和效率问题,从而分析问题背后的原因。根据发现的问题,使用辅助决策系统改善医疗质量,解决临床问题,提升临床效能。同时,能提供指标参数,进入下一轮的管理,怎么去更好地做控制和调整。

挑战二,专科发展速度非常迅猛,很多的专科系统面临着井喷,可以看到胸痛、静脉血栓栓塞症(VTE)、房颤、卒中和脓毒症,这么多的专科系统都有特定的专科知识,专有的诊疗规范,特定的服务环节、专有指控和数据分析指标。这给医院信息中心带来了很大的困扰。需要面对很多的厂家,一个病、每一个系统都可能是不同厂家提供的产品,需要大量的协调。每个系统都有自己的硬件要求,都需要硬件的投入。每个系统都要去做接口,支持集成平台的方式,造成了大量的重复工作。都有自己的标准,最终没了标准。

更关键的一点是,各个系统之间是交叉的。可能某个疾病的知识体系改变了,会影响相关系统的使用。比如静脉血栓栓塞症的知识改变了,会影响抗凝药物的使用推荐。

信息化必须解决五大核心问题,

第一,数据集成,数据的汇集结构化、标准化。

第二,数据洞察,形成模型。

第三,平台化,兼容多应用的开放式平台支持各种应用。

第四、解决数据决策,形成各种临床的应用产品。

第五、业务重塑。场景化人机协同,同时还要结合的业务进行改进和提升。

数据驱动下的新架构集成平台应该在中间,再加上的业务中台、数据中台,两大中台作为支撑。

在今天的环境下,医院对数据中台的需求是呼之欲出的。

(二)数据中台的构成

▲▲▲

虽然对业界对数据中台的定义还没有达成共识,厂家和专家对数据中台的标准和意见都有所不同。但是,现实工作已经实践出了主要结构。数据中台至少应该是要包括五个主要部分:

第一,数据的标准化和结构化。

第二,数据的聚类和转化,形成业务所需要的信息。

第三,数据指控和监控,保证的数据质量。

第四,构建指标体系。

第五,统一对外的服务。向下发展提高性能,保障数据的应用能力。向上拓展能够提高数据应用的价值和赋能业务。

数据中台可以比喻为建房子,如果所有的建筑组件都是以一块一块砖头为单位去建,速度很慢,建房子的又不止一个人,又有很多的系统。应用落地的速度受限。因此,可以把一些重复性的、反复使用的做成标准部件。例如一体化的洗手间、门窗,这些是数据中台要管理的东西,通过标准化的部件统一提供服务。

数据中台主要分成两大部分,第一,数据处理,第二,对外服务的中台。先把这些跟企业业务有较强相关性的部分抽取出来,把经常反复使用的抽取出来。数据中台要满足这种快速迭代、快速应用的需求,同时又要兼前顾后。

(三)数据中台的能力与业务流程

▲▲▲

数据中台具备统一的能力,统一的数据存储能力,数据计算能力和数据的应用能力。数据中台必须要能够完成各种数据模型,包括基础模型和融合模型,标签和算法,还有质量控制管理和数据的安全管理。

马丽明主任谈到,现在服务中台已经比较成熟了,而各个医院建立了数据中台的并不多,都还在起步探索阶段。医院微信的服务中台,应用层不包括复杂的业务逻辑,只做呈现和转换,但是服务层已经实现了服务的微小化管理,每个业务单独的服务分级管理。因为服务性、可用性的要求不一样,像挂号,可就采取N加1的部署,像信誉度管理、检验检查,这些实时性要求不高,或者是患者用得不多的,这部分的业务需求标准可以适当降低。

所以,分级管理把数据变成一个个细颗粒度的资源,资源通过统一的API的方式给业务逻辑层即可。

流程改变,业务逻辑改变,只需要修改业务逻辑层。能够同时提供给多方使用,只需要改一个地方,所有的都是用统一服务的方式,需求导向结果。所以,数据中台是非常有必要的,主要要做几件事情:

第一,构建统一的测速与以及映射体系,这是一切标准化和结构化的基础。

第二,在术语制定的时候,可以参考国内外的权威临床数据集。

第三,结合国内临床数据使用的习惯和本土的表达,从而形成能够满足用户查阅的中文标准的术语体系。

术语的范围包括这几部分,

第一个,疾病、症状、实验室的检查、手术操作、病理的症状体征等临床诊疗信息。

第二个,通过自然语言处理(NLP)和本体映射的方式,实现数据标准化和结构化。

第三个,构建统一疾病数据模型,形成数据资产目录。

数据资产化的本质是要有足够的颗粒度和维度,直接用于业务场景。比如说患者画像、医院画像、设备画像。通过业务反推的方式和基于患者信息聚合衍生的方式,构建随取随用的数据。数据里面保存的不仅仅是患者的信息,还包括了很多的标签。

重构流程的关键是,只有深入到临床路径,才能发现更深层次的信息。首先是要匹配业务需求,然后根据需求对流程进行优化。梳理的过程包括,首先收集指南,再把指南按照疾病的主流程进行拆解,从而形成决策树。罗列疾病核心变量,变量可能不够,需要结合业务需求直接反馈信息,临床研究表单收集内容,补充疾病变量。把两者整合在一起,从而形成疾病数据模型和运营模型。

除了数据分类存放有利于数据有效利用,数据资产目录也很重要。举个例子,静脉血栓栓塞症(VTE)需要管理的指标非常多,包括诊疗过程的指标,诊断类指标以及诊疗结局指标。例如,诊疗过程指标,包括静脉血栓栓塞症(VTE)风险评估比率、出血风险评估比率。诊疗结局指标,包括医院相关性静脉血栓栓塞症(VTE)发生比率,静脉血栓栓塞症(VTE)相关病死率。这些防控指标并不是直接就能收集到,往往在收集到静脉血栓栓塞症(VTE)风险评估之后的数据,才能计算出来。只有这样,才能更好地辅助各类业务的应用。

谈到构建统一的疾病为核心的知识库,至少要包括这三部分,

第一,通用的知识,包括常见的药品知识检验、检查知识。

第二,模块化疾病知识,包括了筛查诊断手术和操作指引和知识。

第三、疾病知识,包括疾病指南和专家共识。

在知识库基础上,还要构建指标标准管理体系,至少要包括五部分,

第一、流行病学数据。

第二、临床路径和指南。

第三、医院和科室的质量标准。

第四、国家对重大疾病的要求。

第五、国家管理相关的机构设定的医院运营的指标(DRGs)。基于数据资产和指标标准,才能定准确的定位,发现问题,定位临床问题。更好地判断是过度医疗,还是检查不足。

构建统一的数据质量和监控体系是质控体系重中之重。在指控当中有至少是有三个事情是必须。

第一、一致性。

第二、标准化,

第三、合理性。

如果有条件,最好是能够把内容质控也加进去,最好能在使用前进行监控,对于能够及时发现医疗质量问题和风险有非常大的帮助。

另外,开放的APIs,统一数据中台支撑多种的业务数据的应用,做开放式的接口服务数据中台。

开放接口服务有几个好处,第一是简化管理。对接会变得很简单,然后很快速,排错也容易,能够减少数据治理工作量。如果每个系统接入,都要去做数据治理,都要去做对标还是蛮痛苦的。第二、数据安全。不需要全部开放数据给某一个应用,只需要提供业务所需的最小级,可以减少不必要的数据暴露,还可以做统一的脱敏转化,从而更好地保护患者隐私和医院的数据资产。

这方面国外已经有很好的应用案例,像斯坦福大学用于慢性疼痛患者管理的健康信息注册网络,是开源、开放标准的,高度灵活的系统平台。基于临床的知识决策的推荐,为临床的医生提供最佳的实践路径,并提供临床结果追踪的决策支持。

人工智能辅助临床诊疗决策的需求是非常巨大的,也是真实的。重症肺炎在国内存在很大的问题,其中一个问题是部分低年资医生没有办法对重症肺炎进行百分百的准确识别。虽然国家已经有很明确的诊断标准。但问题的难点在于临床识别非常困难。起病急,病情重变化又快。如果能够在早期识别病情,提早采取措施,会大大降低重症肺炎的病型病死率。

国外已有可以参考的案例,美国杜克医疗(Duke Health)基于人工智能技术,针对脓毒症的不同症状表现进行预警的建模,对及时发现脓毒症起了很大的帮助。再比如败血症,平时表现和很多急性感染的表现是一样的。也就是说,败血症本身并无特殊临床表现,败血病的临床表现也可见于其他急性感染。人工智能建模预警在第一次抗生素给药前17个小时就已经检测到败血症。所以,非常期待国内有更多的人工智能公司能够给医务人员带来更多的帮助。

马丽明主任深刻的回顾了数据中台在医院的应用与发展,也讲述了来自医疗前线的真实需求。在数字化浪潮赋能百业千行的时代背景下,数据中台等基础建筑拔地而起,人工智能技术努力深入场景,双轮同轨。在文章的最后,简单地提一下国内的人工智能企业在医院场景下取得的进展。

据悉,长春市某知名妇产医院在新生儿体重场景使用第四范式AutoML技术取得很好的效果。因为体重是衡量儿童生长发育的重要标志,预测新生儿体重对知晓新生儿的健康状况,指导孕妇分娩的方式都有意义。可惜目前教科书上的办法还停留在用腹围、双顶径、股骨长几个指标用简单公式计算。临床实践表示,旧的计算方法非常不准,几乎已没有指导意义。因此,医院希望尝试用人工智能的方式去解决。而AutoML技术应用在这个场景下,模型预测的绝对误差仅为百克。如果该技术能够在全国范围内应用,预测全国各个地区新生儿体重数据,将有可能从更多的新生儿体重数据中挖掘出更大意义与价值。

【END】

▲▲▲

延伸阅读

《数据中台:让数据用起来》

本书由数据中台领域的领先企业数澜科技官方出品,数澜科技已经帮助万科、中信云网等百余家各行业头部企业建设和落地数据中台。

7位作者都是有10年+经验的资深数据人,大部分作者来自原阿里数据中台团队和华为。

本书得到了阿里巴巴集团联合创始人谢世煌、原阿里集团副总裁卜鹰等近10位行业专家的高度评价和推荐。

本书从建设、管理、运营、安全4个维度详细讲解了数据中台概念、认知、架构、原理、组成,以及从0到1的完整过程。

《深入理解AutoML和AutoDL:构建自动化机器学习与深度学习平台》

适读人群 :人工智能领域的所有技术工程师,尤其是机器学习方向的技术工程师

(1)作者是资深的AI专家,在机器学习、AutoML、联邦学习、大数据、云计算等领域发表国际论文30余篇,发明专利200余项。

(2)作者是大型金融集团科技公司深度学习平台和AutoML平台负责人,美国佛罗里达大学人工智能博士后,中国人工智能开源软件发展联盟副理事长。

(4)本书得到了腾讯、阿里、字节跳动、微众银行、浙江大学、新智元等企业界、学术界、媒体界的8位资深专家联袂推荐。

(5)从基础理论、核心原理、前沿算法等多个维度全面解读AutoML、AutoDL和元学习。

相关文章:

  • 人工智能书单(机器学习理论篇)
  • 智能时代书单
  • 人工智能书单(机器学习实践篇)
  • 人工智能书单(图像处理与计算机视觉篇)
  • 立春好消息:华章图书持续霸榜京东、当当计算机畅销新书榜!
  • 小白入门机器学习必备:编程语言环境介绍及搭建
  • Linux系统运维书单
  • OpenStack常见的22个问题汇总
  • 疫情肆虐下,程序员用代码告诉你为什么千万不要出门!
  • 双手奉上数据库技术书单,助你玩转数据库的各种技术!
  • TIOBE 2 月编程语言排行榜:Objective-C 的出路在何方?
  • “猿”宵佳节,“猿”来是你。
  • 数据科学家们会被 AutoML 代替吗?
  • 【新书速递】机器学习算法的数学解析与Python实现
  • 【直播预告 】2月10日 两场直播“Flutter技术入门+Linux从业方向扫盲及必读书籍推荐” 等你来!...
  • (ckeditor+ckfinder用法)Jquery,js获取ckeditor值
  • CentOS6 编译安装 redis-3.2.3
  • eclipse(luna)创建web工程
  • Github访问慢解决办法
  • k8s如何管理Pod
  • python学习笔记-类对象的信息
  • React-redux的原理以及使用
  • Service Worker
  • Spark in action on Kubernetes - Playground搭建与架构浅析
  • springMvc学习笔记(2)
  • STAR法则
  • Storybook 5.0正式发布:有史以来变化最大的版本\n
  • vue.js框架原理浅析
  • 百度地图API标注+时间轴组件
  • 大整数乘法-表格法
  • 基于HAProxy的高性能缓存服务器nuster
  • 日剧·日综资源集合(建议收藏)
  • 收藏好这篇,别再只说“数据劫持”了
  • 携程小程序初体验
  • ​Kaggle X光肺炎检测比赛第二名方案解析 | CVPR 2020 Workshop
  • # include “ “ 和 # include < >两者的区别
  • # Swust 12th acm 邀请赛# [ E ] 01 String [题解]
  • # 睡眠3秒_床上这样睡觉的人,睡眠质量多半不好
  • #我与Java虚拟机的故事#连载18:JAVA成长之路
  • (04)odoo视图操作
  • (day 12)JavaScript学习笔记(数组3)
  • (pojstep1.3.1)1017(构造法模拟)
  • (附源码)springboot工单管理系统 毕业设计 964158
  • (剑指Offer)面试题41:和为s的连续正数序列
  • (力扣)循环队列的实现与详解(C语言)
  • (一)基于IDEA的JAVA基础12
  • (转)Android学习笔记 --- android任务栈和启动模式
  • *p++,*(p++),*++p,(*p)++区别?
  • .NET Core跨平台微服务学习资源
  • .NET6实现破解Modbus poll点表配置文件
  • .NET平台开源项目速览(15)文档数据库RavenDB-介绍与初体验
  • .NET设计模式(11):组合模式(Composite Pattern)
  • .NET中使用Protobuffer 实现序列化和反序列化
  • .NET中使用Redis (二)
  • .py文件应该怎样打开?