深度学习这种热门的人工智能技术还可以应用到生物学研究工作当中,以帮助 我们对生物学数据进行发掘和分类。不过那些还不太熟悉深度学习技术的人可 能会感到有点费力。
Google 公司旗下有一个 Google 加速科技部门(Google Accelerated Science), 他们的主要工作就是利用 Google 公司的最新 科技加快科学研究的进展。4 年前,这个部门 的科学家登门拜访了美国加利福尼亚州旧金 山市 Gladstone 神经疾病研究所(Gladstone Institute of Neurological Disease in San Francisco)的神经学家 Steve Finkbeiner。 因为他们觉得,可以利用深度学习技术帮助 Finkbeiner 团队处理大量的图像数据信息。
深度学习技术可以从海量的、已注释过的 数据库里(比如图像数据库或基因组数据库) 提取出原始特征(raw feature),然后发掘 这些原始特征背后的规律,开发出一套预测工 具。经过训练之后,深度学习软件还可以对其 它的数据进行分析,哪怕是数据来源差别非常 大的数据都不是问题。
Finkbeiner 表示,深度学习技术可以解决 非常困难、复杂的问题,还可以发掘数据结 构。很多时候,由于数据规模太大、太复杂, 人脑根本处理不了这些数据。
Finkbeiner 的团队开发出了一种高通量的 图像采集技术——机器人显微镜技术(robotic microscopy),并以此获得了大量的图像数 据,用于脑细胞研究工作。但是他们却无法处 理这么多的数据,所以对于 Google 专家的到 访,Finkbeiner 是非常欢迎的。
据 Finkbeiner 介绍,虽然当时他也不清 楚,深度学习技术究竟可以帮多大的忙,但是 他知道,他们获得数据的速度已经超出了他们 处理数据的速度,至少多出了 2 至 3 倍。
今天,他们的工作已经获得了回报。 Finkbeiner 和 Google 的科学家们一起,已经 用两种细胞对深度学习软件进行了训练,其中一种细胞经过了人工标记,科研人员很容易发 现其特征,另外一种细胞是未经标记的。
当深 度学习软件“看到”那些之前没有见过的、未 经标记的细胞图像时,仍然能够给出非常准确 的建议,告诉科研人员应该对这些细胞加上哪 些标记。这方面的工作已经写成论文,即将发 表。
Finkbeiner 等人的成功预示着深度学习技 术这个最有希望的人工智能技术即将进入生物 学研究领域。深度学习技术已经进入了我们现 代生活的方方面面,比如智能手机、智能音箱 和无人驾驶汽车等。
在生物学领域,深度学习 技术也给我们提供了很多帮助,处理了很多人 类无法处理的数据,发现了很多之前无法发现 的信息。生物学研究人员可以利用深度学习技 术对细胞图像进行分类,了解基因组间的联 系,加快药物研发的进度,甚至还可以发现不 同类型的数据之间的关联,比如基因组信息、 图像信息和电子病历档案之间的关联等。
在 bioRxiv 上已经有超过 440 篇文章在探讨 深度学习问题,在 PubMed 上则有超过 700 条参 考文献——这还只是 2017 年一年的数据。生物 学家和临床科研工作者也越来越容易接触到深 度学习技术。不过他们还会面临很多问题,比 如深度学习技术可以帮助他们干些什么?如何 避免误入歧途等。
深度学习软件依赖的是上世纪四十年代 诞生的人工神经网络计算模型。所谓人工神 经网络计算模型就是将计算机当作每一个神 经元,模拟构成人脑那样的网络连接系统, 来像人脑那样分析数据和信息。据美国宾夕 法尼亚大学(University of Pennsylvania in Philadelphia)的计算生物学家 Casey Greene 介绍,大约 5 年前,以人工神经网络计算模型 为基础的机器学习软件(machine-learning algorithms)都还需要科研人员将原始数据进 行初加工,然后再输入软件进行训练。但是随 着智能手机和大规模基因组测序技术的普及, 以及数据规模呈现爆炸性增长和软件业的创 新,我们现在已经可以直接使用这些原始数 据了。对于机器学习而言,就是深度学习,即 让计算机自己在海量的数据中寻找有意义的 关联,而不需要程序员的辅助。在人工神经网 络中不同的“皮层”对数据进行分类和过滤的 同时,它们彼此之间也在互相交流,让每一个 “皮层”都可以从前一层那里提取运算结果。
最后,这些经过数据训练的人工智能软件 就可以正式出师,处理新的数据,并且给出非 常准确的结果,比如认出一幅图画是 Charles Darwin,还是一个病变的细胞。
不过随着科 研人员对这些软件“放任自流”,他们也失去 了对整个数据处理过程的监控,因此不能够 准确地解释软件的行为。这些深度学习软件 的准确预测能力非常惊人,Finkbeiner 表示, 很多时候,他们都会感到困惑,究竟是什么原 理,让这些软件变得这么神奇。
很多生物学研 究的子方向,比如图像研究工作已经从人工智 能技术中获得了丰厚的回报。10 年前,生物 学图像自动处理技术还都只是关注测量一个图 像参数的问题。比如在 2005 年,美国博大研 究所(Broad Institute of MIT and Harvard in Cambridge, Massachusetts)的计算生物学 家 Anne Carpenter 公布了一个开源软件,名为 CellProfiler。该软件可以帮助生物学家对某一 个参数进行定量检测,比如荧光显微镜下一个 视野里有多少个荧光细胞,或者一条斑马鱼有 多长等。
在深度学习技术的帮助下,Carpenter 等人取得了更大的成果。据她介绍,她们已 经瞄准了很多生物学家都没意识到的地方, 比如将 DNA 染色(DNA staining)、细胞器 质地(organelle texture)和细胞内空间的质 量(quality of empty spaces)等参数结合起 来,就可以得到数千种细胞特征,而随便一 种特征都可以揭示一个新发现。
最新版本的 CellProfiler 已经包含了这些深度学习元素,而 Carpenter 等人还计划将来加入更多的、更高 级的深度学习工具。
Carpenter 表示,大部分人都很难理解这 些“细胞特征”。然而,一个细胞就是有这么 丰富的信息。事实上包含一群细胞的一幅图像 可能还会有更多信息,因为这是该细胞群的转 录组群像。
这种图像分析软件让 Carpenter 等人能够 用更自动化的方式来处理细胞图像数据,将细 胞图像信息“翻译”成疾病相关信息。目前, Carpenter 在美国盐湖城的 Recursion 制药公 司(Recursion Pharmaceuticals in Salt Lake City, Utah)担任科学顾问一职,该公司就在 利用她们的深度学习技术,为单基因罕见病开 发新药。
在深度学习时代,并不是所有数据都可以 用于训练深度学习软件的,只有那些经过详细 注释的海量数据库才适合训练人工智能软件。 图像数据很适合,基因组数据也同样适合。
例如 Verily Life Sciences 公司(原为 Google 母公司的 Alphabet 公司旗下的 Google Life Sciences 公司)就正在使用基因组数据开 展深度学习研究。该公司的科研人员已经开发 出了一种名为 DeepVariant 的深度学习软件。 这个软件可以发现单核苷酸多态性(singlenucleotide polymorphisms, SNP)这种常见 的基因组变异,而且精确度也明显优于传统方 法。DeepVariant 软件能够先将基因组数据转 换成图像数据,然后再对这些图像数据进行分 析。
该软件的研发负责人 Mark DePristo 希望 这款软件能够为研究非主流物种的科研人员提 供帮助,因为这些研究人员手头并没有太多可 用的参考序列,或者高质量的参考序列,所以 很难通过传统的方法发现变异信息。DePristo 的同事 Ryan Poplin 就使用 DeepVariant 软件对 植物的基因组进行了分析,出错率仅为 2%, 而传统方法的出错率则高达 20%。
加拿大多伦多市 Deep Genomics 公司 CEO Brendan Frey 的关注点也是基因组 数据,不过他们更侧重如何利用基因组数 据来治疗疾病。Frey 在加拿大多伦多大学 (University of Toronto)的科研团队开发了 一些深度学习软件,并且用健康细胞的基因组 和转录组数据对其进行了训练。
这些软件能 够利用核酸数据预测 RNA 剪接(splicing)、 RNA 转录(transcription)和 RNA 多腺苷酸化 (polyadenylation)等细胞内的各种 RNA 事 件。如果输入临床数据,即使是之前没有见过 的临床数据,这些软件都可以发现突变信号, 而且还会自动标记与疾病相关的突变信号。
Deep Genomics 公司的科研人员正在利用同样 的技术,确认发病机制,并根据这些突变的短 核苷酸序列信息,开发相应的治疗药物。
药物数据库也是非常适合深度学习的数 据资源。利用这种人工智能技术,可以解决分 类难题(categorization challenges),找出 形状或氢键(hydrogen bonding)等分子特征,以明确药物所属类别。
比如,美国加利福 尼亚州旧金山市的 Atomwise 公司就开发了一 款名为 voxels 的软件,它可以将分子数据转换 成三维像素数据。据该公司的 CEO Abraham Heifets 介绍,该公司利用这款软件对蛋白质和 小分子进行了原子层面的三维结构分析,并对 其中碳原子的几何形状特征进行了建模。
将这 些数据转换成数学模型,软件就可以利用这些 模型预测蛋白质都可能与哪些小分子物质发生 相互作用。Heifets 表示,他们开展的很多工作 都是为蛋白质寻找结合物,而之前,他们一直 都不知道哪些分子能够与这些蛋白质结合。
Atomwise 公司已经在他们的人工智能分 子筛选平台中使用了这项技术,该平台可以在 含有 1000 万种化合物资料的药物数据库中,为 客户感兴趣的目标蛋白找到最多 72 种结合小分 子药物。
深度学习软件还可以帮助科研人员厘清疾 病类型、认识各种疾病、发现新的治疗方法和 药物,以及为各种疗法和临床试验项目寻找最 合适的患者等。比如有一个名为 Answer ALS 的组织,希望集合基因组学、转录组学、表观 基因组学、蛋白质组学、影像学和多潜能干 细胞生物学等诸多学科,通过分析 1000 名 ALS 患者的上述各种数据来攻克这种疑难病例。
Finkbeiner 也参加了这个项目,据他介绍,他 们首先要做的是让深度学习软件研究一个数据 库,看看它能不能从这些数据中发现隐藏的线 索,从而了解这种疾病的发病机制。
虽然深度学习技术的前景非常美好,但也 存在着很多困难和挑战。与其它计算生物学技 术一样,分析结果的质量直接取决于输入数据 的质量。另外也应关注过拟合(Overfitting) 问题。数据的质量以及标准也是非常重要的。
深度学习技术需要以大规模、已注释的 数据为训练材料。更大规模的、标注清晰的数 据库,比如拥有数百万个代表不同实验条件和 生理条件的数据,能够让科研人员在训练深 度学习软件时拥有最大的灵活性。Finkbeiner 指出,他们自己的经验表明,在样本量达到 15000 时,软件的训练效果有了明显的提升。 不过 Carpenter 也承认,这种海量的、标定好 的真实数据(ground truth)不是那么容易得 到的。
为了解决这个问题,科研人员想出了其它 一些办法来用更少的数据训练深度学习软件。 随着 IT 技术的进步,人工神经网络技术利用数 据的效率也在提高。据 Carpenter 介绍,在某 些情况下,使用少量的图像进行软件训练就足 够了。此外,我们还可以利用迁移学习技术 (transfer learning),即把已经训练好的模 型参数迁移到新的模型,来帮助新模型训练。 比如,Finkbeiner 等人就开发了一种软件,根 据细胞的形态来预测细胞是否会死亡。该软 件训练时采用的数据是啮齿类动物的细胞图 像,在对人类细胞图像进行预测时,准确率为 90%;随着经验的积累,准确率后来提高到了 99%。
Google Accelerated Science 公司的生物 图像识别工作,有一部分使用的软件,在最开 始就是利用从互联网上获取的上亿张消费者图 像信息来进行训练的。后来,科研人员简缩了 这个训练过程,只使用数百张与待研究目标类 似的生物图像就可以达到效果。
Google Accelerated Science 公司的科研 人员 Michelle Dimon 指出,深度学习技术面临 的另一大挑战就是计算机本身是又懒又笨的。 计算机不会区分什么是正常的变异,什么是有 生物学意义的差异,不过它们大规模发现差异 的能力的确很强。因此,获得训练深度学习软 件的数据,往往也意味着对实验设计和试验控 制要求严格。Google Accelerated Science 公 司要求科研人员在细胞培养皿上放置随机对 照,以了解培养箱温度等环境因素的微小差异 给试验带来的影响,使得研究者可以使用两倍 的对照组。如果没有这个系统,就需要研究者 自己进行操作。Dimon 打趣道,他们那边的科 研人员在做实验时,用移液器都很困难。
Dimon 认为,这也进一步凸显出生物学 家与 IT 专家共同合作,为深度学习软件设计实 验的重要性。进行周密的实验设计已经成为 Google Accelerated Science 公司最重要的行 为准则,其重要程度甚至超过了他们的最新项 目——Contour 计划。Contour 计划的目标就是 将细胞影像学数据按照重点特征进行归类,而 不是简单地进行影像学分类。
Greene 提醒,虽然深度学习软件可以全 自动地分析数据,无需人工干预,但这并不意 味着不会出现偏倚(biased)。训练用数据就 可能存在偏倚,比如只使用了北欧人的基因组 数据等。如果用这些偏倚数据来训练深度学习 软件,那么在后面的工作中肯定会出现偏差, 最终影响临床工作。此时,就需要人工来进行 校正。在做关键性决策时尤其需要注意这个问 题。Greene 指出,我们应该让人工智能技术 来帮助我们思考,而不是让它们来代替我们思 考。
还有一个问题就是,我们还不清楚, 这些人工智能软件是如何发现数据的特征, 如何对数据进行分类的。据美国马里兰州巴 尔的摩 Insilico 医学中心(Insilico Medicine in Baltimore, Maryland)的研究人员 Polina Mamoshina 介绍,计算机专家也在尝试解 决这个问题,他们的办法就是改变或者打乱 模型里的变量,然后观察软件的运行结果。 Mamoshina 等人也在使用深度学习技术改进 新药研发工作。不过 Greene 指出,不同的深 度学习软件,即便在处理同一个问题时,也可 能会采用不同的运行机制。科研人员越来越关 注深度学习软件的预测准确性和合理性,不过 目前,我们还是不清楚这些人工智能的运行机 制。
Greene 认为,2018 年肯定来不及阐明深 度学习的整体运行机制,不过他希望他是错 的。
目前深度学习技术正在飞快地发展着。生物实验室只有配备专门的 IT 人员,或者与外部的 IT 人员合 作,才能更好地利用这项新技术。
首先,美国加利福尼亚州旧金山市 Gladstone 神经疾病研究所(Gladstone Institute of Neurological Disease in San Francisco)的神经学家 Steve Finkbeiner 认为,可以和有深度学习知识背景的人吃个工 作餐,看看是否可以在生物学研究工作中用到深度学习技术,可以使用哪种技术。有一些数据,比如图像 数据就可以用现成的深度学习软件来处理。如果要开展更复杂的工作,那就需要与专业的 IT 人员开展合作 了。参加会议和讨论会也可以提供训练的机会。
在使用深度学习软件时还可以使用云计算资源,这样就不需要自己配备计算机等硬件系统了。 Google 公司的 TensorFlow 系统就是一个开源的深度学习软件平台,大家可以到 GitHub 网站上获得 TensorFlow 系统。DeepVariant 也是一款非常好的开源深度学习软件,可用于发现遗传变异。
据 Google Accelerated Science 公司的科学家 Michelle Dimon 介绍,他们也和很多生物学家开展了广 泛的合作。他们研究的都是非常值得研究的生物学问题,都需要大量的、高质量的和已注释过的数据。他 们公司的机器学习专家在其中解决的也都是重大问题,都是对机器学习界有重要贡献的问题。
那些希望加快认识深度学习技术的科学家也应该好好看看美国宾夕法尼亚大学计算生物学家 Casey Greene 写的一篇深度学习综述,会很有帮助的,详见 T. Ching et al. Preprint at bioRxiv http://doi.org/ gbpvh5; 2018。
原文检索:
Sarah Webb. (2018) DEEP LEARNING FOR BIOLOGY. Nature, 554: 555-557. Eason/ 编译
文章来源:序说DNASpeaking
{replyUser1} 回复 {replyUser2}:{content}