ChatGPT对生物医药行业的影响

GPT（Generative Pre-trained Transformer）是著名的聊天机器人技术之一，是由美国知名科技公司OpenAI创建的一系列自然语言处理模型。它的设计理念是在巨大的文本数据集上进行预训练，接着根据不同领域的语言数据进行微调，使得这个模型可以识别各种自然语言的信息，并能够生成大规模的语言表达，如生成文本、回答问题、聊天互动等。作为一种大型的语言模型，ChatGPT仅用2个月便俘获了1亿用户，相比较，TikTok达到1亿用户用了9个月。ChatGPT的出现与开源对人类的工作与生活带来颠覆性的影响。

一、ChatGPT发展历程

伴随自监督语言模型和度量学习技术的不断改进，ChatGPT从简单的机器翻译升级为更复杂的对话场景，已经逐渐成为广泛使用的聊天机器人技术之一，并在支持智能客服、问答系统、书写文本等广泛应用场景中发挥作用。其发展过程按照时间线主要历经以下几个版本（见下表）：

表 ChatGPT发展历程

时间	发布版本	性能
2018年6月	GPT-1	包括1.17亿个参数。版本被广泛应用于机器翻译、语音识别、搜索推荐等领域，并在自然语言处理领域具有较好的性能表现
2019年2月	GPT-2	包括15亿个参数。GPT-2在处理文本生成、问答、机器翻译等任务时具有更强的能力，甚至可以生成几乎难以区分的真实文本
2020年6月	GPT-3	包括1750万亿参数，是目前最大的基于自主监督学习的语言模型。GPT-3语言生成能力出色，可以进行多样的自然语言任务，如问题回答、语义搜索等，还可以生成各种领域的文本
2020年7月	ChatGPT-1	该版本基于GPT-3模型，针对对话交互做出调整，加入度量学习（metric learning）法，提升了应用性能
2021年9月	ChatGPT-2	基于GPT-3和metric learning模型做了进一步改进，可以自动生成即时、个性化的应答
2022年7月	ChatGPT-3	新增了语料库，开发了新的推理机制和对话前后文理解模型，提高了问答准确度和可扩展性
2022年11月	GPT-3.5	GPT-3.5是GPT-3的升级版。该版本标志了全新对话式AI模型ChatGPT的正式公开
2023年3月	GPT-4	该版本能阅读文字，还能识别图像，并生成文本结果

ChatGPT技术不断更新迭代，性能与适用度成熟且广泛，已在互联网、金融、教育、医疗、市场营销等多个行业发挥作用。本文重点简介ChatGPT在生物医药行业中的应用以及对行业造成的影响。

二、ChatGPT在生物医药行业中的主要应用

生物医药领域的发展长期受困“双十定律”，AI技术的不断渗透一定程度提升了药物研发的效率。据有关数据表明：在算法合宜的情况下，AI技术可将化合物筛选由几年缩短至几个月，准确率也有7－10%的提升。如果说现阶段泛泛而谈的AI技术停留于选择性支持生物医药的个别环节，且提升效率方面还有待改进，那么由大模型ChatGPT主导的技术几乎可以参与到生物制药的全产业链，并针对研发痛点、做出应对举措。

1. ChatGPT在药物发现环节的应用

痛点：人脑学习能力有限，业界现有知识对新疾病发病机制知之甚少，难以识别和发现新靶点以及生物标志物；同时，与药物研发息息相关的蛋白质等大分子化合物，其探索空间广阔。在确定候选药品时需对现有的蛋白结构进行预测、筛选与设计，凭借人类现有的计算能力需要花费大量时间。

针对以上痛点，ChatGPT有望在新靶点识别、大分子药物的结构预测与筛选中大放异彩。通过论文、专利和临床试验等大量数据训练，ChatGPT的搜索深度和广度将远超专家经验，其强数据挖掘和分析能力可加速新靶点和先导化合物的确定，生成式技术可帮助科研人员针对特点蛋白快速设计新分子。

2. ChatGPT在药品研发和临床前实验中的应用

痛点：研发持续时间长、效益低，研发人员因工作压力等原因跳槽离职频率高导致研发进展缓慢；药品制造与优化需要整合多领域专家与知识，但各方协同配合难度大，信息与数据交流效率低。

针对以上问题，ChatGPT有望成为“研发秘书”，承担该阶段中相对标准化的研究工作。通过整合各方提供的数据进行分析，可以替代专家在药效预测时基于数据提供的客观结果给予参考建议。

3. ChatGPT在临床实验环节的应用

痛点：存在因患者隐瞒病史、筛选标准主观、招募宣传告知不充分、受试对象代表性差等复杂因素导致的受试者筛选耗时长、成功率及入组率低；临床专家参与度低（通常一人负责十几个项目），投入项目的精力有限，使得缺乏整体流程的规划和安排，研究人员、医生和患者之间脱节；实验持续时间长达数年，受试者坚持记录药物摄入和身体状况的依从性不足，导致研究人员无法收集相应数据以便有效指导和监测患者。

在临床实验环节，ChatGPT有望结合现有技术及算法打造“一体化数字管理平台”，打通患者招募、试验设计、受试者管理以及结果数据分析全流程，尽可能减少人为流程产生的错漏。

4. ChatGPT在生产销售环节的应用

痛点：部分医药代表由于缺乏足够专业性、或从业经验不足等因素，较难建立与医生间的信任感，因而较难通过医生渠道来提高客户粘性；医药代表通常通过实地拜访、参加学术交流活动等方式获得客户，这些方法通常存在时间成本较高、线下推广效率低等弊端；还有，药品定价被产品成本、竞品情况、消费者价格敏感度、企业的社会责任等因素影响，稍有不慎容易产生负面的市场影响。

在此环节中，ChatGPT有望逐步替代医药代表，通过更丰富的专业知识、合规的语言内容增进与医生的有效沟通，从而快速捕捉医生的临床用药需求，继而提高客户转化率，且有望节省药企大量的销售费用支出。同时，ChatGPT能够利用已掌握的海量市场信息、通过构建药物定价模型，服务药企精准定价。

三、ChatGPT将AI医药行业从简单识别推至“创新药物”

AI技术的渗透对生物医药行业的整体发展起到较为明显的效率提升作用。新一代AI技术ChatGPT的横空出世，推动生物医药领域的应用已由简单识别经历预测阶段，现在进阶至“创新创造”的生成式发展阶段。

1. AI医药应用的发展阶段

AI技术在生物医药领域大体经历了三个发展阶段：

第一阶段是AI影像识别。具体是指运用计算机视觉、深度学习等人工智能技术，对内窥镜、钼靶、超声、CT、MRI、病理、眼底照相、OCT等各类医学影像进行学习训练，能够有效辅助医生诊断和重大疾病有关的早期筛查等任务。

第二阶段以AlphaFold为代表，使用蛋白质数据库中接近17万个不同的蛋白质结构，以及包含未知结构的蛋白序列数据库对 AlphaFold进行训练。通过不断地迭代，AlphaFold系统学习到了基于氨基酸序列，精确预测蛋白结构的能力。

第三阶段以目前类“OpenAI”的语义识别系统（如ProGen），通过简单指令创造出自然界未有的结构。ProGen在没有明确的结构信息或成对协同进化假设下，通过学习给定原始序列中过去的氨基酸信息，预测下一个氨基酸概率进行迭代优化，从而创造生成全新的氨基酸序列。

图1 AI医药应用的不同发展阶段

2. ProGen技术优于传统制药技术

传统蛋白药物依赖对天然蛋白质进行随机的氨基酸突变及优化，Progen模型颠覆性地改变了传统蛋白类药物设计过程，过往的蛋白优化通常仅是对天然蛋白的“微调”，而深度学习创造的蛋白质则与天然蛋白大部分序列均不相同。大模型技术直接模拟合成及预测从未发现的结构，极大扩展初始蛋白结构库（见图2）。

图2 传统蛋白药物设计与Progen蛋白药物设计差异

目前已有众多公司布局AI辅助医疗，新药筛选以及创新药物研发，同时以谷歌、Meta为代表的互联网巨头开始进入AI制药领域。