网络机器人吧社区

机器学习推进基因组学发展丨谷歌开源发布深度学习工具DeepVariant,可将高通量测序数据转为完整基因组图像

测序中国 2018-11-08 10:46:10

科学研究的革命性进展依赖于新技术的出现,这在基因组学的研究中体现得尤为明显。例如Sanger测序法和微阵列技术,Sanger测序法使人类基因组测序成为可能,微阵列技术首次实现了大规模全基因组实验。现在,距离科学家首次对人类基因组进行测序已经过去了15年,在这15年中,测序技术飞速发展,基因测序数据也不断涌入,但是解读这些编码人类生命的海量基因数据,使它们产生真正的意义仍是一个巨大的挑战。庆幸的是,现在我们可以通过机器学习帮助解决这一问题。

12月4日,Google开源发布了一个名为DeepVariant的深度学习工具(github.com/google/deepvariant)。DeepVariant使用最新的人工智能技术,可帮助人们将高通量测序数据转换为完整的基因组图像,并且能自动识别测序数据中的插入、缺失突变以及单碱基对突变。

2000年初,基因测序领域中最具变革性的新技术之一——高通量测序技术(HTS)首次实现了商业化应用。HTS可以大规模、低成本、快速地获得任何生物的基因序列,但是它有一个非常大的问题,就是其测序结果不是完整的、碎片化的片段信息。例如,在进行人类基因组测序时,要对23对染色体中的30亿个碱基对进行检测,仪器会产生约10亿个reads,每个reads仅代表30亿个碱基中的100个,每个碱基的错误率在0.1~10%的范围内。但对科学家来说,将一些小的突变与测序过程中产生的随机错误区分开来很困难,尤其是在基因组的重复部分,甚至会错过一些与癌症等疾病相关的重要基因突变。因此,将HTS的测序数据转化成单一、准确并且完整的基因组序列是基因测序领域的一个主要挑战。

目前,有许多工具可以用来解读这些基因数据,比如GATK、VarDict和FreeBayes。但这些软件程序通常使用更简单的统计和机器学习的方法来识别突变,并排除错误信息。

DeepVariant是由Google Brain及Verily公司的联合团队,历时两年多研发的深度学习工具。研究人员通过将工作量巨大的碎片结果拼接问题,转变成谷歌擅长的图像分类问题,使用谷歌现有技术和专业知识完成识别工作。DeepVariant用专门的深度神经网络来识别HTS结果中DNA测序数据里的碱基变异位点,在准确率上和精确度上,比传统的比对拼接方法都高出许多。

DeepVarient工作流程

2016年,DeepVarient还在PrecisionFDA Truth Challenge中赢得了最高SNP性能奖(Highest SNP Performance)。在那之后,Google Brain团队又将错误率降低了50%。DeepVarient的成功表明,在基因组学中,深度学习可以被用来自动训练比复杂的手工程系统更好的平台。

DeepVariant的开源发布是机器学习促进基因组学发展的最新迹象。DeepVariant现在作为开源软件,可以鼓励加速使用这项技术来解决现实问题。为了实现这一目标,Google Cloud Platform(GCP)上部署了DeepVariant workflow,用户可以在当前的计算环境中探索和评估DeepVariant的功能,同时也提供了可扩展的基于云的解决方案,以满足即使是最大的基因组数据集的需求。

未来几年,人工智能将有助于医学在许多方面取得巨大的飞跃,并有机会从图像或病历中挖掘许多不同种类的医学数据。例如,一个人类医生可能错过的疾病。

开源代码:
https://github.com/google/deepvariant

Google Cloud版:
https://cloud.google.com/genomics/deepvariant

· END ·

Copyright © 网络机器人吧社区@2017