科研小组成功利用智能蛋白语言人工模型揭示生
发布时间:2025-10-09 09:12
为什么不同的生物在适应相似的环境时会统一改变相似的功能?一项最新研究从蛋白质的“高阶特征”层面揭示了生命进化之谜的重要机制。该研究由中国科学院动物研究所邹正廷研究员团队完成。它成功地利用人工智能领域的蛋白质语言模型,表达了高阶蛋白质特性对灵活性进化管理者的关键作用,为理解生命进化之谜提供了新的视角。相关成果近日发表在国际学术期刊《Procedures of the National Academy of Sciences》上。 “更高阶”的特征打破了传统研究的有序发展的局限性,这是自然界中一种奇妙的现象。蝙蝠和齿鲸是对进化产生巨大影响的生物群体,但它们他们已经能够发展出通过回声定位来感受环境的能力。长期以来,科学家们一直致力于探索这种表型趋同背后的分子机制。 传统的研究方法主要关注蛋白质序列中单个氨基酸位置的趋同变化。然而,越来越多的证据表明,尽管与该位点没有明确的联系,但同源蛋白质仍然可以通过高级结构或理化特性的进化管理者来实现功能一致性。 “这就像使用不同的砖块来建造具有相似结构的墙。”研究小组的一名成员解释说,“虽然氨基酸可能有所不同,但一般蛋白质的理化性质和结构可以相同,从而实现相似的功能。”人工智能有助于发现科学 面对这个科学问题,正廷团队提出了一种计算方法评估框架称为“Acep”。该框架的主要变化是使用预训练的蛋白质语言模型。这类语言模型预存在于海量蛋白质序列数据中,使其能够按顺序获取复杂的上下文信息和高阶特征,并将蛋白质序列转换为包含丰富进化信息的高维嵌入向量。 “蛋白质语言模型是一种人工智能,可以‘读取’蛋白质的‘语法’。它将理解更深层次的蛋白质和性能结构以及氨基酸管理背后的规则,”研究人员说。 ACEP评估过程包括三个主要步骤:首先计算嵌入目标群体向量的同源蛋白的真实距离,然后通过限制中性进化过程构建背景距离分布,最后根据该分布对真实距离进行统计检验。综合审查以验证程序的有效性 为了验证ACEP框架的有效性,研究团队对真实蛋白质数据进行了全面的计算审查。在著名的经典案例中,例如回声定位哺乳动物的Prestin蛋白和景天酸代谢植物的PEPC/PPCK蛋白,ACEP都看到了显着的高阶特征场景。更令人兴奋的是,全基因组筛选的结果表明,ACEP 已经识别出数百个候选者,这些候选者具有连接蝙蝠和牙痛的信号。功能富集功能表明,一些基因与“理解感”等与回声定位密切相关的功能项目显着相关。这些Gen不仅包括被称为回声定位的Gen,还包括充满活力的候选人Gen。一些候选人的正选测试也已经过期,这增强了他们适应场景的资历。推广一个para进化论中的digma shift,这项研究首次系统地揭示了高阶蛋白质特征的链接是适应性进化的重要机制,打破了传统方法仅关注氨基酸位点聚合的局限性。 “这项工作不仅加深了对生命进化规律的理解,也展示了技术人工智能在分析复杂生物问题方面的强大潜力。我们希望未来实现人工智能在进化生物学中更广泛、有效的应用。”邹正廷研究员表示。 ACEP框架提供了一种新工具,用于在基因组水平上系统地挖掘基因的复杂收敛模式。专家认为,这种方法将为理解生物适应性进化的分子基础开辟新的方向,并将参与推动生物学的革命性发展。研究范式范式。研究成果对生物医学、生态学等领域也具有重要意义。该研究得到了国家自然科学基金委和中国科学院战略性先导科技项目的支持。目前,ACEP分析框架代码由huggingface平台上的开放资源共享,供全球研究界使用。 (记者胡哲、彭云佳)