1. 首页 >生活 > 正文

使用三种人工智能蛋白质预测工具研究揭示了孤儿蛋白质折叠故事中的新皱纹

导读 当教授。JoelSussman和IsraelSilman被要求在大流行期间在线指导中国学生,他们最不希望从这次经历中得到的结果是关于蛋白质进化的高度创新...

当教授。JoelSussman和IsraelSilman被要求在大流行期间在线指导中国学生,他们最不希望从这次经历中得到的结果是关于蛋白质进化的高度创新的研究,这可能会改变我们对新蛋白质形成方式的理解。

“一开始我很怀疑——他们都是本科生,通过电脑屏幕进行交流似乎不太有希望,”萨斯曼回忆道。但他和西尔曼——魏茨曼科学研究所的教授二人组,在蛋白质结构和功能方面进行了数百项联合研究,值得称赞——同意为来自中国各地顶尖大学的四名学生组成的团队提供辅导。在线指导是YutChun-Weizmann项目的一部分,由魏茨曼的严丙海教授领导。

萨斯曼和西尔曼要求学生们直呼其名,这在中国大学中是闻所未闻的,并鼓励他们培养批判性思维。尽管如此,当他们要求学生回顾他们关于蛋白质序列变异的旧论文时,他们所期望的不过是一份尊重的总结。相反,学生们回来后提出了深入的批评,从当代的角度分析了这项研究,并建议可以使用新方法修改其中的一些结论。

四名学员之一的刘静(JingLiu)表示,对于她和其他学生来说,这与他们的习惯有很大的不同。“在中国,攻读硕士学位的学生不能挑战博士生或博士后——他们可能会生气或告诉首席研究员,”她解释道。然而,她很快注意到,她当时就读的以色列理工学院广东校区的环境有所不同。“我有一位导师愿意倾听我的意见并进行讨论,这在中国其他大学很难找到。”

出乎双方意料的是,网上的教程很快就变成了讨论。刘引起了导师的注意,捷克科学家2017年的一项研究成为了讨论的主要话题,该研究暗示了蛋白质进化史上的一个有趣的转折。

折叠教条中的裂缝

随着曾经居住在地球上的单细胞生物进化成更复杂的生物,它们的DNA中的偶然变化(如果这些变化是有益的)往往会由于自然选择而得以保存,并传递给高等生物。这就是为什么我们体内的大多数蛋白质编码基因在进化树上的许多其他物种中都有等同物(科学术语是“同源物”),一直追溯到酵母或细菌。随着蛋白质的发展,其中许多开始折叠成复杂的结构,使它们能够执行专门的任务。

考虑到自然选择已经进行了数十亿年,看来蛋白质一定有足够的时间来进化所有可能的有用序列。事实上,直到最近,科学家们还认为所有现有的蛋白质都是通过现有序列的精炼而诞生的,而真正的新蛋白质早已不再出现。

但就在十多年前,这一科学福音开始出现裂痕:有证据表明新的蛋白质一直在不断诞生。当科学家开始对各种生物体的整个基因组进行测序时,比较揭示了从细菌到人类的所有物种中都存在编码“新生”蛋白质的基因。这些蛋白质被认为起源于构成大部分基因组的非编码区。在这种情况下,一段缺乏蛋白质配方的DNA偶然获得了一组突变,将其转化为蛋白质编码基因。

捷克的研究引起了刘和她的导师的兴趣,为这一教条打开了一条新的裂缝。捷克研究人员通过像一副纸牌一样随机重新排列现有蛋白质基因,创建了大约100个假设蛋白质序列。当他们合成这些“从未诞生”的蛋白质并在实验室中测试它们时,他们发现大约三分之一显示出折叠成紧凑结构的迹象,就像天然蛋白质一样。

“这真是太棒了,”苏斯曼说。“如果有人问我随机蛋白质序列是否可以这样折叠,我会说永远不会。”

西尔曼解释说,蛋白质的折叠能力对于生命至关重要。尽管并非所有蛋白质都会折叠,但折叠蛋白质、具有有序片段的蛋白质在活生物体中发挥着关键的催化功能。通过证明“从未诞生”的蛋白质可以折叠,捷克的研究表明,新的蛋白质不仅可以诞生,而且还可能发挥重要的新作用。

天生孤儿

非编码DNA片段如何产生“新生”蛋白质,以及该蛋白质如何变得活跃?这些过程的时间尺度是多少?有一天,所涉及的机制可以在蛋白质设计中得到利用吗?

为了帮助解决这些问题,萨斯曼和西尔曼决定进行据他们所知的最早的新生蛋白质结构研究之一。他们与该论文的第一作者刘和当时在北京清华大学就读的袁荣庆共同发起了该项目。四人在网上认识了一年半,然后完成了这项研究,该研究最近发表在《蛋白质:结构、功能和生物信息学》杂志上。另外两名学生,邵伟和王继同,参与了该项目的初始阶段;他们在预定教程结束时退出,但成为已发表论文的共同作者。

该团队借助人工智能(AI)工具探索了“新生”蛋白质的折叠潜力,这些工具在过去几年里彻底改变了蛋白质结构的研究。在大多数情况下,这些算法现在可以仅根据蛋白质的氨基酸序列可靠地预测蛋白质的3D结构,无需生长蛋白质晶体并通过实验确定其结构。

该团队面临的主要挑战之一是,当感兴趣的蛋白质具有大量同源物(来自其他物种的等同物)时,这些预测算法效果最好,而根据定义,“新生”蛋白质仅存在于一种或少数蛋白质中。物种。由于它们没有进化父母,因此有时被称为孤儿蛋白(或近孤儿蛋白,如果它们仅存在于少数相关物种中)。该团队凭借专业知识,成功地将人工智能工具应用于无同源孤儿蛋白。为了增加获得可信结果的机会,科学家们使用了三种不同的人工智能算法——AlphaFold2、RoseTTAFold和ESMFold——并比较了他们的发现。

首先,该团队使用三种算法来预测捷克研究中“从未出生”的重组蛋白质序列的3D结构。这些预测确定了每种蛋白质的结构是否折叠或无序,其方式与研究的实验结果相匹配。

接下来,刘、袁和他们的以色列导师将这些算法应用于“新生”的孤儿蛋白质,其中很少有经过纯化和充分实验表征的蛋白质。在搜索了科学文献后,科学家们发现了七种这样的孤儿蛋白,其功能但结构尚不清楚。

人工智能工具表明,七个中的五个是紧凑折叠的,而两个似乎缺乏明确的结构。对于这五个中的一个,三种算法做出了惊人相似的预测,这表明准确性的可能性非常高,以至于该杂志在其封面上展示了这三个3D结构。

此外,科学家们还检索了蛋白质数据库,发现了三种晶体结构已通过实验确定的孤儿蛋白质。值得注意的是,其中两种蛋白质显示出其他地方不存在的折叠。由于结构决定蛋白质的功能,新的折叠表明一些孤儿蛋白质可能具有以前未知的生物功能,这些功能在未来可以用于许多有用的应用,从切割塑料到产生清洁能源或治疗疾病。

萨斯曼说:“这项研究改变了我们对进化如何运作的看法。进化通常按照达尔文描述的方式进行,但偶尔,蛋白质可能会从某种意义上凭空出现。因此,新的特征可能会凭空出现。可以说,而不是从祖先经过数百万年进化而来的。”西尔曼补充说,这项研究的发现以及其他关于“新生”蛋白质的研究,改变了人们对生命起源的普遍看法,特别是人类的起源:“看起来我们不仅仅是进化论的曾孙。大肠杆菌。”

Sussman总结道:“我们希望我们的研究能够刺激其他科学家使用人工智能预测工具检查孤儿蛋白,以了解它们的结构和功能。当一个全新的结构出现时,所有关于该蛋白可能在生化方面的作用的赌注都消失了。……就在那时,令人兴奋的新研究视野展开了。”

Liu目前正在魏茨曼分子遗传学系NaamaBarkai教授的实验室攻读硕士学位,Yuan目前是达拉斯德克萨斯大学西南医学中心的研究生。Sussman教授在魏茨曼化学与结构生物学系,Silman教授在脑科学系,严冰海教授在凝聚态物理系。化学与生物物理系的AmitFinkler教授协调了化学学院的YutChun-Weizmann项目。

YutChun-Weizmann计划是旨在促进中国与国际科学界学术合作的计划的一部分。该计划的活动之一是为优秀的本科生提供研究机会。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!