检测到您的浏览器版本过低,可能导致某些功能无法正常使用,建议升级您的浏览器,或使用推荐浏览器 Google Chrome EdgeFirefox X

首页科技前沿与新兴产业生物产业生物医药

AI for Science在生物医学领域的实践研究

供稿人:王方媛供稿时间:2023-09-20 16:25:41关键词:AI,for,Science,人工智能,生物医学

2023年3月,为贯彻落实《新一代人工智能发展规划》,科技部会同自然科学基金委联合启动了“人工智能驱动的科学研究”(AI for Science)专项部署工作。围绕基础学科关键问题和重点领域科研需求布局“人工智能驱动的科学研究”前沿科技研发体系[1]。当前,AI for Science已成为全球人工智能发展的新前沿,加速了科学研究的范式变革,带来科研模式的重构和新一轮科技革命。

在生物医学领域,人工智能主要解决的问题有蛋白质结构预测、药物-靶标结合预测和对细胞断层图进行3D表面重建等。其中,利用AI技术解决蛋白质结构预测的模型有ESMFold、RoseTTAFold、ProtENN和AlphaFold。该类蛋白质结构预测模型通用的语料集有pdb70和pdb_mmcif等蛋白质结构数据库,uniclust30和uniref90等氨基酸序列数据库等。该语料集均可公开获取。其次,利用AI技术解决药物-靶标结合预测的模型有ConPLex,其语料库包含DTI数据集、以药物为中心或以靶点为中心的数据集和药物-靶点结合亲和力数据集三种数据集。其中一些基础语料集均可在各个机构的网站公开获取。例如DTI数据集中的ChEMBL数据集是由欧洲生物信息学研究所官网获取。KEGG数据集可在日本京都大学生物信息学中心的Kanehisa实验室官网获取。对细胞断层图进行3D表面重建主要用的是半监督深度学习模型,所用的语料集冷冻 CRFK 细胞的断层扫描重建数据可在EMBL 欧洲生物信息学研究所官网上公开获取。

一、蛋白质结构预测

2016年开始,DeepMind通过构建人工智能系统来挑战蛋白质结构3D预测任务,这对于揭示蛋白质的性质至关重要。AlphaFold基于大约100 000种已知蛋白质的序列和结构训练,增强了预测新蛋白质形状的能力,将预测误差缩小到原子尺度,而计算时间从数年缩减到数分钟,效率得到了显著提升[2]DeepMind宣布AlphaFold数据库中超过2 亿个蛋白质结构预测向世界各地的科学家提供开放访问,这将大大加速包括药物在内的多项重大研究。AlphaFold并不是唯一可以预测蛋白质结构的人工智能系统,RoseTTAFold、ProtENN也是AI4S 的杰出代表,生物界正在使用像 AlphaFold这样的系统来改进医学,推进针对疑难疾病药物的发现。

二、药物-靶标结合预测

美国麻省理工学院和塔夫茨大学研究人员设计出一种基于大型语言模型 (如ChatGPT)的AI算法,这种称为 ConPLex 的新模型可将目标蛋白与潜在的药物分子相匹配,而无需执行计算分子结构的密集型步骤[3]。使用这种方法,研究人员可在一天内筛选超过1亿种化合物比任何现有模型都要多得多。这项成果解决了对当前药物筛选的需求其可扩展性还能够评估脱靶效应、药物再利用以及确定突变对药物结合的影响。相关论文发表在最新一期《美国国家科学院院刊》上。

三、细胞断层图3D表面重建

冷冻软 X 射线断层扫描 (Cryo-SXT) 是研究细胞超微结构的强大方法,可提供数十纳米范围的分辨率和膜结构的强烈对比度,无需标记或化学固定。较短的采集时间和相对较大的视场导致快速采集大量断层图像数据。将这些数据分割成可访问的特征是从低温软 X 射线断层扫描中获取生物学相关信息的必要步骤。为了克服这个问题,由柏林自由大学计算机科学家 Frank Noé 博士教授和细胞生物学家 Helge Ewers 博士教授领导的团队与柏林亥姆霍兹材料与能源中心(HZB)的 X 射线显微镜部门合作,开发了一种基于半监督深度学习的端到端自动化 3D 分割管道[4]。该方法适用于大量断层扫描数据的高通量分析,同时在面对有限的手动注释和断层扫描条件的变化时也具有稳健性。该研究以“3D surface reconstruction of cellular cryo-soft X-ray microscopy tomograms using semisupervised deep learning”为题,于 2023 年 6 月 5 日发布在《PNAS》。

生命科学领域国内外基础科学研究所采用的典型模型(包括模型解决的问题)及其语料集列表如下。

序号

模型名称

解决的问题

基础语料描述

链接

是否公开

1

Alphafold

蛋白质结构预测

Alphafold数据集包含两个部分:氨基酸序列数据、专家经验数据。具体的,数据说明如下:
bfd / small_bfd:Big Fantastic Database,由论文作者 Martin Steinegger 构建的蛋白质序列数据库,包含65983866个蛋白质家族(MSAs)和2204359010个蛋白质序列(HMMs),总计7个文件1.8T数据量。
mgnify:一个微生物基因组数据库,使用JackerHammer工具进行检索,总计一个文件64G数据量。
pdb70:一个蛋白质结构数据库,总计9个文件56G数据量。
pdb_mmcif:一个蛋白质结构数据库,包含超过55000种不同蛋白质的180000多个3D结构,总计约18w个文件206G数据量。
uniclust30:1.3亿条氨基酸序列,使用hhsuite中的HHblits工具进行快速msa检索,总计13个文件86G数据量。
uniref90:1.3亿条氨基酸序列,是msa检索所需要的库,使用JackerHammer工具进行检索,总计1个文件58G数据量。

https://github.com/aqlaboratory/openfold

2

ESMFold模型

蛋白质三维结构预测

1、UniProt蛋白质数据库
国际知名蛋白质数据库,主要包括UniProtKB知识库、UniParc归档库和UniRef参考序列集三部分。UniRef参考序列集按相似性程度将UniProtKB和UniParc中的序列分为UniRef100、UniRef90和UniRef50三个数据集。UniProt是目前国际上序列数据最完整、注释信息最丰富的非冗余蛋白质序列数据库,自本世纪初创建以来,为生命科学领域提供了宝贵资源。

https://www.uniprot.org/

3

RoseTTAFold

蛋白质结构预测

数据来源于PDB(www.wwPDB.org)数据库

https://github.com/RosettaCommons/RoseTTAFold

4

ConPLex

预测药物-靶标结合

1、KEGG数据集
KEGG是一个广泛的数据集,涵盖了从基因/蛋白质到生物学途径和人类疾病的多种生物学数据。

https://www.kegg.jp/

2、ChEMBL数据集
ChEMBL 是一个手动管理的具有药物样特性的生物活性分子数据库。它汇集了化学、生物活性和基因组数据,以帮助将基因组信息转化为有效的新药。

https://www.ebi.ac.uk/chembl/

3、IncAct
IncAct蛋白与多组学相互作用分析数据库,是一个包含分子相互作用的数据集,可用于药物研究。

https://www.ebi.ac.uk/intact/home

4、LINCS
LINCS包含旨在了解由不同干扰剂引起的基因表达和细胞过程变化的生物化学数据。

http://www.ilincs.org/ilincs/

5、SuperTarget
SuperTarget是一个收集有关药物-靶点关系的信息的数据库。

https://ngdc.cncb.ac.cn/databasecommons/database/id/564

6、DrugBank
DrugBank数据库是阿尔伯塔大学提供的一个生物信息学和化学信息学数据库,是一种独特的生物信息学和化学信息学资源,它将详细的药物数据和全面的药物目标信息结合起来。

https://go.drugbank.com/

7、BRENDA数据库
BRENDA酶数据库,起源于德国不伦瑞克在1987年建立的国家生物技术研究中心(GBF),目前由德国科隆大学生物化学研究所负责运营。BRENDA可以提供酶的分类、命名法、生化反应、专一性、结构、细胞定位、提取方法、文献、应用与改造及相关疾病的数据。

https://brenda-enzymes.org/

8、PubChem
PubChem 是世界上最大的可免费获取化学信息的集合。按名称、分子式、结构和其他标识符搜索化学品。查找化学和物理特性、生物活性、安全性和毒性信息、专利、文献引用等。

https://pubchem.ncbi.nlm.nih.gov/

4

MPG

药物-药物相互作用预测DDI prediction

ZINC + ChEMBL (11M)
ZINC是一个汇总了化合物的销售及其他注释信息的公开数据库,其数据量从2005年的不到100万增长到现在近20亿
ChEMBL是一个大型的、开放访问的药物发现数据库,旨在收集药物研究和开发过程中的药物化学数据和知识。

https://github.com/pyli0628/MPG

5

半监督深度学习模型

对细胞冷冻软 X 射线显微镜断层图进行 3D 表面重建

冷冻 CRFK 细胞的断层扫描重建数据集

https://www.ebi.ac.uk/empiar/EMPIAR-11392/

参考文献 

[1] AI for Science:科学研究新范式(2023-05-10).http://www.news.cn/globe/2023-05/10/c_1310715935.

[2] Baker C M , Atzori A .AlphaFold: Deep Learning, Drug Discovery and the Protein Structure Revolution[J].Chimia: chemie report, 2022(4):76.

[3] Choi Y S , Han S K , Kim J ,et al.ConPlex: a server for the evolutionary conservation analysis of protein complex structures[J].Nucleic Acids Research, 2010, 38(Web Server issue):W450.DOI:10.1093/nar/gkq328.

[4] Dyhr M C A, Sadeghi M, Moynova R, et al. 3D surface reconstruction of cellular cryo-soft X-ray microscopy tomograms using semisupervised deep learning[J]. Proceedings of the National Academy of Sciences, 2023, 120(24): e2209938120.