当前位置: 首页 > news >正文

基因大数据分析的云计算实践

基因测序有着广泛的行业应用,在预防出生缺陷、检测遗传性疾病与肿瘤用药指导等领域,能提供极大帮助。近年来基因组学研究进展飞速,华大基因也凭借强大的研发实力,成为全球最大的基因组学研究中心,其研究成果在全球都有广泛的影响力。

在基因组学行业迅速发展的当下,基因测序成本已实现快速下降,从过去的天价一跃进入大众也能轻松负担的“千元”时代。同时,多项杀手级临床应用均引入基因测序,拉动覆盖用户数量成倍攀升。随着高通量测序仪的发展,需要存储计算的基因数据量,呈指数级增长。基因测序已进入爆发式的阶段,用户和应用量级的爆发,带来了数据计算的爆发。

随着生命科学领域数据爆炸式的增长,如何及时获取、快速分析、安全储存这些庞大的数据是研究者们急需解决的问题,包括华大基因都面临的挑战。2017年11月22日的广州云栖大会服务专场上,华大基因 BGI Online 产品总监黄泽辉,分享了华大基因在这个问题上面临的挑战与解决方案。

1

24小时,完成千人基因数据分析?

人一生的基因数据的管理和存储数据量相当庞大,而华大基因提供的基因快速检索和查询,涉及到基因数据在数据分析中的降维过程。过程中数据密集型和CPU密集型的计算分析任务,计算能力要求高,结果文件种类繁多,数据非结构化,不利于数据挖掘和可视化。目前使用了多地测序中心,用户分布广泛,数据共享和传输困难。

传统方案是基于大型计算设备和存储设备购买来解决,出于成本和服务器跟进速度的考量,华大基因 BGI Online 则搬到了云上,并且在分析层面上给用户定制化和个性化体验。不仅降低了数据分析门槛,用户也可直接在线上简单操作即可完成启动分析。

全面拥抱云计算,解决数据存储、传输、分析、安全问题

BGI Online作为大规模生物信息的分析平台,堪称基因行业的“应用市场”。依托部署在阿里云计算平台的服务,BGI Online更轻松地拥有了处理大规模基因组数据分析的能力。

2

基于BGI Online的基因数据分析需求,华大基因在阿里云平台上,设计了计算资源弹性伸缩、多级存储、海量存储计算与数据安全的云平台架构。

通过专线接入,来传输测序中心几十TB/day的数据;通过平台多数据中心部署,计算能力放至数据所在地,为美国、欧洲与中国等提供测序;混合使用阿里云的多种计算服务,数据通过OSS来互通。通过ECS在线上高灵活度地输出基因测序、利用批量计算测序可大规模降低成本、MaxCompute实现MapReduce小时级测序。

合作过程中,阿里云为华大基因提供了企业级支持服务和专家服务,保障华大基因的云上业务搭建与运转。包括指导产品选型与使用技术、提供APM报告及相应性能的分析优化;排查整改系统安全隐患、对生产高峰的任务支持进行专门保障。从曾经三四天才能输出一人基因分析,到如今实现了22小时内达成千人基因组分析的人类梦想。

3

生命的价值值得我们为之努力

基因组学数据是“天然”的大数据,计算分析的价值会超过测序本身,与云计算和大数据技术的结合是行业的需要。华大基因股份有限公司CEO尹烨说过,“基因测序为生物技术带来的改变,为生命创造的价值,值得我们为之努力。”

4

多年来,华大基因积累了来自制药、科研、临床和个人等多样且丰富的客户,对市场需求有了更深的理解。未来,华大基因将利用积累的技术与经验,继续研发不同层次结构组成,专注于生物信息分析流程开发和基因数据的挖掘的平台。未来应用应该可跨平台共享,由云计算服务持续提供底层数据存储、压缩的优化。 如此,势必能为中国在未来数十年在生命科学、生物产业提供持续增长的强劲动力。

了解更多请微博关注阿里云客户满意中心
__8

相关文章:

  • 推荐2个网站特效的网址
  • 【最新】2015年7月之15个最新jQuery插件
  • VS“.NET研究”2010测试功能之旅:编码的UI测试(1)
  • Json拼接字符串必须用双引号
  • 浅谈C#中的延迟加载“.NET研究”(1)——善用委托
  • App-V 4.6 SP1系列之一安装
  • LightSwitch:小试一“.NET研究”下微软开发框架LightSwitch
  • 文本模板转换工具包和 ASP.NET MVC(摘)
  • 《CLR Via C# 第3版》笔记之(十六) - 字符串
  • JSTL 自定义
  • WIN7下使用Outlook访问 Exange2010 无法对外发送邮件的问题
  • linux下终止用户会话二法
  • REST与SOA两种架构下WCF的异同比较(含源码)
  • jquery特殊符号含意
  • Unix/Linux常用的一些命令--转贴我注明
  • 时间复杂度分析经典问题——最大子序列和
  • 2017 前端面试准备 - 收藏集 - 掘金
  • JS+CSS实现数字滚动
  • Redux 中间件分析
  • SpiderData 2019年2月16日 DApp数据排行榜
  • TiDB 源码阅读系列文章(十)Chunk 和执行框架简介
  • 初识 webpack
  • 飞驰在Mesos的涡轮引擎上
  • 关于 Cirru Editor 存储格式
  • 面试遇到的一些题
  • 小而合理的前端理论:rscss和rsjs
  • 延迟脚本的方式
  • PostgreSQL 快速给指定表每个字段创建索引 - 1
  • zabbix3.2监控linux磁盘IO
  • 如何在 Intellij IDEA 更高效地将应用部署到容器服务 Kubernetes ...
  • ​ 全球云科技基础设施:亚马逊云科技的海外服务器网络如何演进
  • #define,static,const,三种常量的区别
  • #Linux(make工具和makefile文件以及makefile语法)
  • (13)Latex:基于ΤΕΧ的自动排版系统——写论文必备
  • (javascript)再说document.body.scrollTop的使用问题
  • (第二周)效能测试
  • (二)什么是Vite——Vite 和 Webpack 区别(冷启动)
  • (附程序)AD采集中的10种经典软件滤波程序优缺点分析
  • (附源码)spring boot基于小程序酒店疫情系统 毕业设计 091931
  • (附源码)ssm基于微信小程序的疫苗管理系统 毕业设计 092354
  • (附源码)ssm教师工作量核算统计系统 毕业设计 162307
  • (经验分享)作为一名普通本科计算机专业学生,我大学四年到底走了多少弯路
  • (每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理 第13章 项目资源管理(七)
  • (三)c52学习之旅-点亮LED灯
  • (转)IIS6 ASP 0251超过响应缓冲区限制错误的解决方法
  • (转)Linux下编译安装log4cxx
  • (转)Spring4.2.5+Hibernate4.3.11+Struts1.3.8集成方案一
  • .360、.halo勒索病毒的最新威胁:如何恢复您的数据?
  • .NET 8.0 发布到 IIS
  • .net Signalr 使用笔记
  • .net web项目 调用webService
  • .NET 的静态构造函数是否线程安全?答案是肯定的!
  • .net6使用Sejil可视化日志
  • .NET关于 跳过SSL中遇到的问题
  • .NET设计模式(8):适配器模式(Adapter Pattern)