近日,谷歌大脑(Google Brain)和杜克大学(Duke University)的研究人员开展了合作,使用先进的机器学习算法和计算机视觉技术来发现蛋白质晶体,其准确率达到了94%。这一研究可以让科学家们更容易绘制蛋白质结构,从而加速药物发现。
蛋白质结晶是生物医学研究的关键步骤,尤其是在发现复杂生物分子结构方面。该结构决定了分子的功能,因此它有助于科学家设计专门靶向该分子功能的新药。然而,与组成盐和糖等普通晶体的简单原子和分子不同,每一个庞大的蛋白质分子结构可能包含了数以万计的原子,因此很难排列成构成晶体基础的有序结构。
即使经过几十年的实践,目前研究人员仍然需要反复试验,才能获得蛋白质晶体。每分离出一种蛋白质后,研究人员会将其与数百种不同类型的溶液混合,并在显微镜下用肉眼观察每种混合溶液的液滴,希望从中发现任何结晶的迹象。然而,由于观察过程主要依靠肉眼进行,因此容易出现错误和遗漏,这有可能会导致错过一些重要的医学发现。因此,研究人员开始将目光投向机器学习技术。
▲机器学习算法识别液滴图像示意图。从左到右分别为:蛋白质晶体图像(左)、非晶体固体图像(中)、无固体图像(右)(图片来源:arXiv.org)
谷歌大脑和杜克大学的研究人员利用一个由50万张蛋白质结晶试验图像构成的数据库,来进行机器学习算法的训练。研究人员使用其中一部分图像作为数据,来训练算法识别图像中的蛋白质晶体。机器学习算法可以通过搜索某一点或者某一条边缘的方式,来识别液滴图像中存在的晶体,同时它还可以区分非晶体的固体及没有晶体的图像。在完成对算法的训练后,研究人员使用这个算法对图像数据库进行识别,并与人类科学家的识别结果进行比较。结果显示,人类科学家发现晶体的正确率为85%,而AI算法能够正确识别出94%的晶体。
▲该研究的负责人之一,杜克大学化学系副教授Patrick Charbonneau博士(图片来源:杜克大学官网)
“大多数AI算法使用计算机成像技术来识别猫或狗的图像,而这些图像并不一定具备与晶体边缘类似的几何特征,所以,计算机成像技术在这项研究中的表现让我们非常惊讶,”该研究的负责人之一,杜克大学化学系副教授Patrick Charbonneau博士表示:“未来我们将会利用这些数据,来更深入地了解蛋白质自我组装背后的化学原理。”
我们期待,这项研究的广泛应用,可以加速药物发现过程,为我们带来更多有效的治疗方案。
参考资料:
[1] Teaching a Machine to Spot a Crystal
[2] Automating Drug Discoveries Using Computer Vision
[3] Google introduces AI for drug discovery protein recognition
[4] Classification of crystallization outcomes using deep convolutional neural networks
来源:药明康德
版权及免责声明:本网站所有文章除标明原创外,均来自网络。登载本文的目的为传播行业信息,内容仅供参考,如有侵权请联系答魔删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权。
{replyUser1} 回复 {replyUser2}:{content}