检测到您的浏览器版本过低,可能导致某些功能无法正常使用,建议升级您的浏览器,或使用推荐浏览器 Google Chrome 、Edge、Firefox 。 X
2023年3月,为贯彻落实《新一代人工智能发展规划》,科技部会同自然科学基金委联合启动了“人工智能驱动的科学研究”(AI for Science)专项部署工作。围绕基础学科关键问题和重点领域科研需求布局“人工智能驱动的科学研究”前沿科技研发体系[1]。当前,AI for Science已成为全球人工智能发展的新前沿,加速了科学研究的范式变革,带来科研模式的重构和新一轮科技革命。
在生物医学领域,人工智能主要解决的问题有蛋白质结构预测、药物-靶标结合预测和对细胞断层图进行3D表面重建等。其中,利用AI技术解决蛋白质结构预测的模型有ESMFold、RoseTTAFold、ProtENN和AlphaFold。该类蛋白质结构预测模型通用的语料集有pdb70和pdb_mmcif等蛋白质结构数据库,uniclust30和uniref90等氨基酸序列数据库等。该语料集均可公开获取。其次,利用AI技术解决药物-靶标结合预测的模型有ConPLex,其语料库包含DTI数据集、以药物为中心或以靶点为中心的数据集和药物-靶点结合亲和力数据集三种数据集。其中一些基础语料集均可在各个机构的网站公开获取。例如DTI数据集中的ChEMBL数据集是由欧洲生物信息学研究所官网获取。KEGG数据集可在日本京都大学生物信息学中心的Kanehisa实验室官网获取。对细胞断层图进行3D表面重建主要用的是半监督深度学习模型,所用的语料集冷冻 CRFK 细胞的断层扫描重建数据可在EMBL 欧洲生物信息学研究所官网上公开获取。
一、蛋白质结构预测
从2016年开始,DeepMind通过构建人工智能系统来挑战蛋白质结构3D预测任务,这对于揭示蛋白质的性质至关重要。AlphaFold基于大约100 000种已知蛋白质的序列和结构训练,增强了预测新蛋白质形状的能力,将预测误差缩小到原子尺度,而计算时间从数年缩减到数分钟,效率得到了显著提升[2]。DeepMind宣布AlphaFold数据库中超过2 亿个蛋白质结构预测向世界各地的科学家提供开放访问,这将大大加速包括药物在内的多项重大研究。AlphaFold并不是唯一可以预测蛋白质结构的人工智能系统,RoseTTAFold、ProtENN也是AI4S 的杰出代表,生物界正在使用像 AlphaFold这样的系统来改进医学,推进针对疑难疾病药物的发现。
二、药物-靶标结合预测
美国麻省理工学院和塔夫茨大学研究人员设计出一种基于大型语言模型 (如ChatGPT)的AI算法,这种称为 ConPLex 的新模型可将目标蛋白与潜在的药物分子相匹配,而无需执行计算分子结构的密集型步骤[3]。使用这种方法,研究人员可在一天内筛选超过1亿种化合物比任何现有模型都要多得多。这项成果解决了对当前药物筛选的需求其可扩展性还能够评估脱靶效应、药物再利用以及确定突变对药物结合的影响。相关论文发表在最新一期《美国国家科学院院刊》上。
三、细胞断层图3D表面重建
冷冻软 X 射线断层扫描 (Cryo-SXT) 是研究细胞超微结构的强大方法,可提供数十纳米范围的分辨率和膜结构的强烈对比度,无需标记或化学固定。较短的采集时间和相对较大的视场导致快速采集大量断层图像数据。将这些数据分割成可访问的特征是从低温软 X 射线断层扫描中获取生物学相关信息的必要步骤。为了克服这个问题,由柏林自由大学计算机科学家 Frank Noé 博士教授和细胞生物学家 Helge Ewers 博士教授领导的团队与柏林亥姆霍兹材料与能源中心(HZB)的 X 射线显微镜部门合作,开发了一种基于半监督深度学习的端到端自动化 3D 分割管道[4]。该方法适用于大量断层扫描数据的高通量分析,同时在面对有限的手动注释和断层扫描条件的变化时也具有稳健性。该研究以“3D surface reconstruction of cellular cryo-soft X-ray microscopy tomograms using semisupervised deep learning”为题,于 2023 年 6 月 5 日发布在《PNAS》。
生命科学领域国内外基础科学研究所采用的典型模型(包括模型解决的问题)及其语料集列表如下。
序号 | 模型名称 | 解决的问题 | 基础语料描述 | 链接 | 是否公开 |
1 | Alphafold | 蛋白质结构预测 | Alphafold数据集包含两个部分:氨基酸序列数据、专家经验数据。具体的,数据说明如下: | 是 | |
2 | ESMFold模型 | 蛋白质三维结构预测 | 1、UniProt蛋白质数据库 | 是 | |
3 | RoseTTAFold | 蛋白质结构预测 | 数据来源于PDB(www.wwPDB.org)数据库 | https://github.com/RosettaCommons/RoseTTAFold | 是 |
4 | ConPLex | 预测药物-靶标结合 | 1、KEGG数据集 | 是 | |
2、ChEMBL数据集 | 是 | ||||
3、IncAct | 是 | ||||
4、LINCS | 是 | ||||
5、SuperTarget | 是 | ||||
6、DrugBank | 是 | ||||
7、BRENDA数据库 | 是 | ||||
8、PubChem | 是 | ||||
4 | MPG | 药物-药物相互作用预测DDI prediction | ZINC + ChEMBL (11M) | 是 | |
5 | 半监督深度学习模型 | 对细胞冷冻软 X 射线显微镜断层图进行 3D 表面重建 | 冷冻 CRFK 细胞的断层扫描重建数据集 | 是 |
参考文献
[1] AI for Science:科学研究新范式(2023-05-10).http://www.news.cn/globe/2023-05/10/c_1310715935.
[2] Baker C M , Atzori A .AlphaFold: Deep Learning, Drug Discovery and the Protein Structure Revolution[J].Chimia: chemie report, 2022(4):76.
[3] Choi Y S , Han S K , Kim J ,et al.ConPlex: a server for the evolutionary conservation analysis of protein complex structures[J].Nucleic Acids Research, 2010, 38(Web Server issue):W450.DOI:10.1093/nar/gkq328.
[4] Dyhr M C A, Sadeghi M, Moynova R, et al. 3D surface reconstruction of cellular cryo-soft X-ray microscopy tomograms using semisupervised deep learning[J]. Proceedings of the National Academy of Sciences, 2023, 120(24): e2209938120.