检测到您的浏览器版本过低,可能导致某些功能无法正常使用,建议升级您的浏览器,或使用推荐浏览器 Google Chrome EdgeFirefox X

首页科技前沿与新兴产业新一代信息技术人工智能

AI在蛋白质预测中的应用最新进展

供稿人:王方媛供稿时间:2025-01-23 15:33:15关键词:人工智能,机器学习,蛋白质预测

1、背景

蛋白质功能预测在理解生物机制和复杂疾病治疗中具有重要意义。然而,传统预测方法通常缺乏对蛋白质结构和功能之间关系的解释力,限制了其应用范围。近年来,随着人工智能(AI)技术的迅速发展,深度学习和生成模型在蛋白质结构预测、功能解析及分子对接中的应用取得了革命性突破,为药物开发和生物技术创新提供了强大工具。

2、关键进展

2.1. 深度学习模型推动蛋白质功能预测

1)中南大学的DPFunc模型

中南大学李敏教授团队提出了一种创新性的蛋白质功能预测模型——DPFunc。该模型基于深度学习,通过整合域引导的结构信息,显著提升了预测精度。DPFunc的设计包含三个模块:残基级特征学习模块通过预训练的蛋白质语言模型(如ESM-1b)提取初始残基特征,并利用图神经网络(GCN)更新蛋白质接触图中的特征;蛋白质水平特征学习模块基于注意力机制,识别蛋白质结构中关键残基及其功能区域;功能预测模块将多层特征融合并映射到基因本体论(GO)结构中,确保预测结果与蛋白质功能注释的生物学一致性。在对比实验中,DPFunc在结构复杂的蛋白质和信息稀缺的GO功能项预测上均表现优于现有的基于序列和结构的方法。这一成果以「DPFunc: accurately predicting protein function via deep learning with domain-guided structure information」为题,刊登在《Nature Communications》,为大规模蛋白质功能注释提供了新工具[1]

2)北京大学的PIC模型

北京大学崔庆华团队开发了蛋白质重要性计算器(Protein Importance CalculatorPIC)模型,通过微调预训练的蛋白质语言模型,实现了跨人类、细胞系和小鼠三个层面的蛋白质必要性分析。该模型的创新之处在于结合了细胞系、人类和小鼠数据,首次构建了跨物种蛋白质功能预测的统一框架。PIC模型使用ESM-2提取蛋白质序列特征,并通过集成学习策略优化功能评分算法,从而显著提高了对稀有功能的识别能力。实验结果表明,PIC在预测高信息含量(高IC值)的功能项时,性能显著优于传统模型。此外,在乳腺癌标志物研究中,PIC成功识别出潜在的预后生物标志物,展现了其在生物医学领域的广泛应用潜力[2]

3SaprotHub平台

西湖大学的研究人员推出了SaprotHub平台,旨在降低AI技术的使用门槛,使生物学家无需机器学习专业知识即可轻松训练和调用AI模型。SaprotHub包括三个核心部分:Saprot模型、ColabSaprot交互界面和HuggingFace模型仓库。ColabSaprot通过交互式界面封装了复杂的训练步骤,提供一键配置环境、自动处理数据和模型训练监控等功能,支持蛋白质属性预测、突变效应预测、序列设计等多种任务。HuggingFace模型仓库则存储了多种预训练模型,方便用户共享和使用。实验表明,即使是没有机器学习背景的用户,也能通过ColabSaprot训练出高性能的模型,并在实际研究中获得显著效果。这一创新不仅提升了AI技术在蛋白质研究中的可及性,还推动了蛋白质科学进入AI赋能的新时代[3]

2.2. AI在蛋白质与分子相互作用中的应用

 

1)腾讯AI LabInterformer模型

腾讯AI Lab开发的Interformer模型在蛋白质与配体相互作用的预测中取得了重大突破,为基于结构的药物设计提供了新的工具。该模型引入了交互感知混合密度网络(MDN),能够准确捕捉蛋白质与配体之间的非共价相互作用,如氢键和疏水作用。同时,Interformer基于Graph-Transformer架构,将配体和蛋白质的分子信息建模为图结构,并通过动态更新节点特征来提高预测精度。在Posebusters基准测试中,Interformer实现了84.09%的准确率,并在PDBbind测试集上达到63.9%的表现,显著优于传统模型。此外,Interformer在真实药物开发场景中成功筛选出两个高效分子,进一步验证了其在药物设计中的实用性和潜力[4]

2SCUBA-diffusion

中国科学技术大学刘海燕教授和陈泉教授团队开发了一种名为SCUBA-diffusionSCUBA-D)的蛋白质主链去噪扩散概率模型,该模型摆脱了对预训练结构预测网络的依赖,能够直接从头生成蛋白质结构。SCUBA-D通过引入对抗损失目标优化生成的蛋白质主链骨架,并通过大量实验验证了生成结构的物理可行性。研究表明,该模型能够生成全新折叠类型的蛋白质,扩展了蛋白质设计的可能性,为开发新功能酶和生物催化剂提供了有力支持[5]

2.3. 生成式AI赋能蛋白质设计

1AlphaFold

AlphaFold是由英国DeepMind团队开发的一项革命性技术,通过结合深度学习和先进算法,成功解决了蛋白质折叠预测这一生物学领域的核心难题。它能够通过蛋白质的氨基酸序列准确预测其三维结构,这一能力以前需要耗费数月甚至数年的实验来完成。AlphaFold2020年全球蛋白质结构预测竞赛CASP中表现卓越,引发了全球关注。其成果不仅公开了数百万种蛋白质的预测结构,还显著加速了科学研究进程,特别是在新药研发、疾病机制探索、合成生物学和酶工程等领域,极大地降低了成本与时间投入,推动了生物技术的跨越式发展[6]  

2RoseTTAFold

由美国华盛顿大学开发的RoseTTAFold是另一项基于深度学习的创新工具。与AlphaFold不同,它不仅能够预测蛋白质结构,还能够设计和优化蛋白质的功能。RoseTTAFold采用了多模态生成模型,可以同时利用蛋白质的序列和结构信息,显著提高了蛋白质设计的效率和精准度。在新型酶开发中,它展现了巨大的潜力,例如设计出用于分解塑料的高效催化剂和改良的生物燃料生产酶。这种能力为解决环境问题和开发可持续性技术提供了重要支撑,同时也为蛋白质科学研究开辟了新路径[7]

3PocketGen模型

中国科学技术大学与哈佛大学合作开发了PocketGen,这是一种结合双层图Transformer与蛋白质语言模型的生成工具。其主要贡献包括:提高了蛋白质口袋设计的效率,相较于传统方法快10倍;通过多层次信息融合,实现了序列与结构设计的一体化,大幅提升了设计的成功率和结构合理性。实验表明,PocketGen在亲和力预测和多样性生成上均表现优异,成为当前性能最强的蛋白质口袋设计工具之一[8]

3、优势与潜力

AI模型在蛋白质研究中展现出显著的优势与潜力。首先,AI模型能够显著提高预测精度,特别是在识别蛋白质动态变化和关键功能区域方面表现卓越。其次,AI技术大幅提升了计算效率,例如PocketGen模型在蛋白质口袋设计中,相比传统方法效率提升了超过10倍。此外,AI技术支持跨模态、多层次的蛋白质研究,能够揭示复杂生物现象的机制,为结构功能解析提供了更强大的工具。这些进展不仅推动了蛋白质设计的效率和成功率,还为药物开发、生物传感器和酶催化等领域带来了新的机遇。

参考文献  

[1] Wang H, Zhang Y, Liu Q, et al. DPFunc: accurately predicting protein function via deep learning with domain-guided structure information[J]. Nature Communications, 2025, 16(2): 234.  

[2] Zhao X, Li P, Wei D, et al. Comprehensive prediction and analysis of human protein essentiality based on a pretrained large language model[J]. Nature Computational Science, 2024, 4(11): 567-578.  

[3] Su J, Li Z, Han C, et al. Saprothub: Making protein modeling accessible to all biologists[J]. bioRxiv, 2024: 2024.05. 24.595648.

[4] Chen J, Wu Z, Liang R, et al. Interformer: an interaction-aware model for protein-ligand docking and affinity prediction[J]. Nature Communications, 2024, 16(11): 245.  

[5] Liu H, Wang Y, Zhang Z, et al. De novo protein design with a denoising diffusion network independent of pretrained structure prediction models[J]. Nature Methods, 2024, 21(10): 985-997.  

[6] Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold[J]. nature, 2021, 596(7873): 583-589.

[7] Lee C, Su B H, Tseng Y J. Comparative studies of AlphaFold, RoseTTAFold and Modeller: a case study involving the use of G-protein-coupled receptors[J]. Briefings in bioinformatics, 2022, 23(5): bbac308.

[8] Zhang Z, Shen WX, Liu Q, et al. Efficient generation of protein pockets with PocketGen[J]. Nature Machine Intelligence, 2024, 6(11): 89-101.