AI又下一城——破解蛋白质基因

   2021-04-29 1990
核心提示:人工智能的任何成功实施都取决于以正确的方式提出正确的问题。这就是英国AI公司 DeepMind (Alphabet的子公司)在使用其神经网络

人工智能的任何成功实施都取决于以正确的方式提出正确的问题。这就是英国AI公司 DeepMind  (Alphabet的子公司)在使用其神经网络解决生物学最大的挑战之一-蛋白质折叠问题时所取得的成就 。它的神经网络称为AlphaFold,能够根据其氨基酸序列以前所未有的准确性预测蛋白质的3D结构。

AI又下一城——破解蛋白质基因

对于大多数蛋白质,在第14次蛋白质结构预测的关键评估 (CASP14)中, AlphaFold的预测精确到原子宽度 。

蛋白质被称为生命的基本组成部分,由20种不同的氨基酸组成,具有各种组合和序列。 蛋白质的生物学功能与其3D结构有关。因此,理解最终折叠形状对于了解特定蛋白质的工作原理至关重要,例如它们如何与其他生物分子相互作用,如何被控制或修饰等等。

预测蛋白质的3D结构是一场计算噩梦。1969年,赛勒斯·莱文塔尔(Cyrus Levinthal)估计单个蛋白质可能有10300种可能的构象组合,用蛮力计算来评估它所需的时间要比已知宇宙的时间长。而AlphaFold可以在几天内完成。

随着科学突破的发展,AlphaFold的发现正好与James Watson和Francis Crick的DNA双螺旋模型类似,或者更近的就是Jennifer Doudna和Emmanuelle Charpentier的CRISPR-Cas9 基因组编辑技术。

几年前,一支正在教授AI知识以掌握3,000年历史的游戏的团队如何 训练一个答案来回答困扰生物学家长达五十年的问题?人工智能公司PureStrategy的数据科学家兼创始人Briana Brownell说,这就是人工智能的魅力:相同的算法可以用于非常不同的事物。

她说:“只要您想使用人工智能解决问题,就需要弄清楚如何将正确的数据输入模型中,然后找出可以转换回现实世界的正确输出类型。 。”

她说,DeepMind的成功与其说是选择正确的神经网络,还不如说是“它们如何以足够复杂的方式设置问题,以至于基于神经网络的建模实际上可以回答问题”。

当DeepMind在CASP13上推出其AI的先前版本时,AlphaFold在2018年在所有参与者中实现了最高的准确性。该团队已经对其进行了训练,可以从零开始对目标形状进行建模,而无需使用先前求解的蛋白质作为模板。

2020年,他们将使用基于端到端培训的基于注意力的模型,将新的深度学习架构部署到AI中。深度学习网络中的注意力是指管理和量化输入和输出元素之间以及输入元素本身之间的相互依赖性的组件。

除具有未知结构蛋白质序列的数据库外,还在约170,000种已知实验蛋白质结构的公共数据集中训练了该系统。

布朗内尔说:“如果您看一下他们两年前入职与这一年之间的差异,那么人工智能系统的结构就不同了。” “这一次,他们已经找到了如何将现实世界转换为数据并创建了可以转换回现实世界的输出。”

像任何AI系统一样,AlphaFold可能需要应对训练数据中的偏差。布朗内尔表示,例如,AlphaFold正在使用有关蛋白质结构的可用信息,该信息已通过其他方式进行了测量。但是,也有许多蛋白质具有未知的3D结构。因此,她说,可以想象,偏向于我们拥有更多结构数据的那些蛋白质。

桑顿说,很难预测AlphaFold的突破需要多长时间才能转化为实际应用。

她说:“我们只有针对[人体] 20,000种蛋白质中约10%的实验结构。” “强大的AI模型可以揭示其他90%的结构。”

她补充说:“除了增进我们对人类生物学和健康的了解之外,这是朝着构建具有特定功能的蛋白质迈出的第一步。从蛋白质疗法到食用塑料的生物燃料或酶……无限的可能性。”


 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类HTH买球(中国)科技有限公司
推荐图文
推荐HTH买球(中国)科技有限公司
点击排行