当前位置: 首页 > news >正文

【NIPS挑战赛优胜解】用机器学习判断基因变异所属类别

在刚刚结束的 NIPS Challenge on Predicting the Genetic Variants to Enable Precision Medicine (organized by MSKCC)中,康奈尔大学威尔医学院助理教授王飞所带领的实验室在1300多个参赛队伍中脱颖而出,获得前三的成绩。王飞教授特为新智元撰写此文,介绍研究成果。

2017年11月8日,国家会议中心,王飞教授将在AI WORLD 2017世界人工智能大会AI Industry论坛进行以《人工智能与智慧医疗》为题的主题演讲。

一年一度的神经信息处理大会(NIPS)将于今年12月在加州长滩召开。由于近些年来机器学习以及人工智能的兴起,NIPS更是成为了一年一度相关方向学者不容错过的盛会。今年的NIPS更是门票早早便已售罄,连赞助商的席位也都已经soldout。

NIPS Competition是今年新增的环节,旨在吸引众多的机器学习爱好者来用他们所知道的方法来解决实际问题。由于我本人从事医疗健康方面的研究,就鼓励我实验室的人员参加其中的基因变异分类(Classifying Clinically Actionable Genetic Mutations)挑战。经过调研,大家也都感兴趣,所以一拍即合,一做就是四个月。

该挑战是由著名的Memorial Sloan Kattering Cancer Center (MSKCC)组织。众所周知在强调精准医疗的今天,理解不同的基因变异是一个核心问题。这个挑战就是根据基因的名字以及其出现的变异来预测该基因变异所属的类别,在竞赛中一共有9类,但并没有对这9类有明确的描述。也就是说,我们只有类别代号,没有类别信息。除此之外,对于每一个基因和对应的变异,还有一篇相应的学术文章,正是该学术文章提到了这个特定的基因变异对。

因此这个挑战实际上是一个9个类别的多分类问题,可以用到的信息有基因名字,变异描述以及提到的文章。在实际当中,对基因变异的分类由分子病理(MolecularPathologist)学家完成,这通常需要长时间的专业训练。即便如此,他们也经常会有不同的意见,从而有分类不一致的现象,因此这是一个非常困难的问题。挑战的组织者将竞赛设成两个阶段,第一阶段有大约三个月,而第二阶段只有一周。第一阶段与第二阶段的测试数据完全不一致。竞赛的组织者为了获得第二阶段的数据,重新组织了专家进行标注,而且这些专家与第一阶段的略有不同。并且第二阶段有新的变异出现,这些变异从未在第一阶段的数据中出现过。这是一个费时费力的过程,两个月之内只能得到150个新的标注。

显然该挑战涉及自然语言处理和机器学习,但又有些独特的挑战。比如竞赛数据中包含的文章通常都很长,是整片的学术文章,而其中只有很小一部分提到基因和变异。这就使得训练数据中有大量的噪声。不仅如此,基因和变异还有有别名,我们试图在文章中匹配基因和变异时经常匹配不上。还有就是一篇文章中经常会多次提到不同的基因和不同的变异,这给预测带来了更多的难度。

为了解决这一问题,我们提出了如下图所示的框架。输入包括基因以及变异本身的名字以及相应的文章。我们从中提取三个级别的特征,第一是它们的名字本身,第二是提到它们的整篇文章,第三是从整篇文章中提取的包含提到基因和变异的句子。这些特征中既包括了相对直接的特征,例如文本长度以及某些关键词的词频,又包括间接特征,例如通过LatentDirichlet Allocation (LDA)以及非负矩阵分解(NMF)降维得到的特征,以及通过词嵌入(word2vec)和文本嵌入(Doc2Vec)得到的特征。我们花费了非常大的功夫在特征工程上,测试了各种深度学习和非深度学习的方法,最终确定了20类特征(如表格中所示)。随后这些特征通过不同的组合输入到分类器当中,我们也测试了很多种分类器,最终根据效果选定了GradientBoosting Decision Tree (GDBT)。不同分类器的预测结果又被集成(Ensemble)起来,从而得到最终的预测。在特征工程的过程中,为了解决别名的问题,我们还利用了额外的数据,包括PubMed上相关文章的题目和摘要,以及一些额外的基因和变异的名称库。我们后面会写一篇学术文章详细介绍各个环节。

189741f2daddb86d1f4d68733071589e5f7ce95b

该竞赛吸引了全球超过1300个队伍参赛,最终我们的方法被选为最顶尖的解决方案之一,并获邀在NIPS的Competition Workshop上进行报告。我们会通过这个竞赛建立与MSKCC的合作,从而继续完善我们的方法并希望能最终应用在临床医学当中,为医学研究作出贡献。

8acc65f5cad56cff094e8effb04ded2be4aa653f


AI World 2017 世界人工智能大会(11月8日,北京国家会议中心)上,我们邀请到了本文作者、康奈尔大学威尔医学院助理教授王飞,为我们现场解读人工智能技术在医疗应用中的常见误区及挑战,并展望发展趋势。

3eaccd3d11760ccb8e2861392163a67692d51031

王飞,博士,康奈尔大学威尔医学院助理教授,IBM沃森研究中心顾问,法国液空集团研究顾问。曾任职于康涅狄格大学以及IBM沃森研究中心。他于2008年在清华大学自动化系获得博士学位,其博士学位论文“图上的半监督学习算法研究”获得了2011年全国优秀博士论文奖。主要研究方向包括数据挖掘,机器学习技术在医疗信息学中的应用。王飞博士已经在相关方向的顶级国际会议和杂志上发表了近190篇学术论文,引用超过5000次,H指数39。


原文发布时间为:2017-11-4

本文作者:王飞

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:【NIPS挑战赛优胜解】用机器学习判断基因变异所属类别

相关文章:

  • 记一次js操作cookie的坑!
  • apache日志轮询cronolog安装配置
  • 网站被用户喜爱的秘密 :挖掘关键词背后的用户需求
  • 关于虚拟目录继承根Web.Config的问题解决办法
  • 初识JSON
  • 初次使用EasyUI框架插件遇到的问题及总结
  • linux命令入门
  • Tomcat/Memcached实现会话保持(SessionServer)
  • CloudStack 4.4+KVM之通过ISO文件创建CentOS虚拟机
  • MS Project学习笔记一:安装
  • php变量处理函数总结
  • centos6安装django-1.8.11
  • 【iOS-Cocos2d游戏开发之七】添加/删除系统组件,并解决View设置透明会影响View中的其他组件的问题!...
  • 多使用调用堆栈调试VC++代码
  • Hyper-V 2016 系列教程53 What's new in Hyper-V on Windows Server 2016
  • [PHP内核探索]PHP中的哈希表
  • 【从零开始安装kubernetes-1.7.3】2.flannel、docker以及Harbor的配置以及作用
  • Angular2开发踩坑系列-生产环境编译
  • Netty 框架总结「ChannelHandler 及 EventLoop」
  • SAP云平台运行环境Cloud Foundry和Neo的区别
  • 飞驰在Mesos的涡轮引擎上
  • - 概述 - 《设计模式(极简c++版)》
  • 回顾2016
  • 基于OpenResty的Lua Web框架lor0.0.2预览版发布
  • 力扣(LeetCode)56
  • 前端 CSS : 5# 纯 CSS 实现24小时超市
  • 驱动程序原理
  • 如何正确配置 Ubuntu 14.04 服务器?
  • 正则与JS中的正则
  • MiKTeX could not find the script engine ‘perl.exe‘ which is required to execute ‘latexmk‘.
  • (2)Java 简介
  • (26)4.7 字符函数和字符串函数
  • (3)nginx 配置(nginx.conf)
  • (libusb) usb口自动刷新
  • (笔试题)合法字符串
  • (附源码)计算机毕业设计SSM教师教学质量评价系统
  • .md即markdown文件的基本常用编写语法
  • .NET 4.0中使用内存映射文件实现进程通讯
  • .NET Core实战项目之CMS 第十二章 开发篇-Dapper封装CURD及仓储代码生成器实现
  • .NET 读取 JSON格式的数据
  • .NET 中小心嵌套等待的 Task,它可能会耗尽你线程池的现有资源,出现类似死锁的情况
  • .NET(C#、VB)APP开发——Smobiler平台控件介绍:Bluetooth组件
  • .NET/C# 中你可以在代码中写多个 Main 函数,然后按需要随时切换
  • .Net7 环境安装配置
  • @Pointcut 使用
  • @RequestMapping-占位符映射
  • [ 常用工具篇 ] POC-bomber 漏洞检测工具安装及使用详解
  • [@Controller]4 详解@ModelAttribute
  • [2021 蓝帽杯] One Pointer PHP
  • [BZOJ1178][Apio2009]CONVENTION会议中心
  • [Django开源学习 1]django-vue-admin
  • [EFI]Dell Latitude-7400电脑 Hackintosh 黑苹果efi引导文件
  • [EFI]MSI GF63 Thin 9SCXR电脑 Hackintosh 黑苹果efi引导文件
  • [ffmpeg] x264 配置参数解析
  • [Flutter]打包IPA