检测到您的浏览器版本过低,可能导致某些功能无法正常使用,建议升级您的浏览器,或使用推荐浏览器 Google Chrome 、Edge、Firefox 。 X
在科学研究中负责任的使用AI技术的基础是信任,尤其是在科学家日益依赖这些技术的背景下。这种依赖建立在一个前提之上,即人工智能系统及其分析和输出能够提供可靠、低误差且可信的研究成果。然而,人工智能在科研中的应用也带来了一些严谨性和科研诚信方面的挑战。主要问题包括:对人工智能模型工作原理的理解不足、实验文档记录不完善,以及科学家在构建、测试和排查模型错误时缺乏技术能力。此外,越来越多依赖AI技术得出的研究结果无法重复,这引发了对人工智能实验可复制性和基于人工智能的研究成果可靠性的广泛担忧。所有这些问题将威胁科学研究的严谨性,如果不可靠或不可信的人工智能技术被广泛应用,还会对社会造成负面影响。
一、人工智能驱动的科学研究中的可重复性的挑战
可重复性指的是独立研究者能够审查、复制并重现实验结果的能力。如果研究者过度依赖人工智能进行数据分析,却无法解释结论的推导过程或无法复现实验,那么研究将无法通过审查和验证标准。无法验证的结果可能导致过度夸大或虚假相关,从而得出错误结论。在人工智能驱动的科学研究中,可重复性不仅包括复制方法,还涉及重现实验所用的代码、数据及相关环境条件(如计算平台、硬件、软件等)。
可重复性失败不仅影响单项研究的有效性,还可能波及跨学科研究。例如,普林斯顿大学统计与机器学习中心的一项研究显示,“数据泄露”问题影响了294篇来自17个科学领域的论文,包括医学等高风险领域。更复杂的是,由于未公开的数据、缺乏文档、未报告实验失败及实验背景差异等原因,许多问题未得到充分关注。
1. 机器学习的黑箱问题与不透明性
可重复性挑战的核心在于机器学习模型的“黑箱”性质,许多科学家无法理解或掌握这些模型的内部机制。即使是研究人员也无法完全理解系统的运作。这种不透明性限制了模型的可解释性,使科学家难以解释模型得出结论的过程。
可解释的人工智能有助于识别数据、模型或假设中的错误,缓解数据偏差等问题,确保高质量结果的生成并促使其有效应用。这一点对于将深度学习模型应用于科研的科学家尤其重要,因为深度学习模型通常优于更简单、线性且透明的模型。然而,随着这些模型在商业环境中发展,透明度往往降低。许多领先的大型语言模型缺乏对外公开的模型架构、训练数据和决策过程等关键信息,对模型的理解和解释变得更加困难。
2. 可解释性与可理解性的意义
“可解释性”和“可理解性”指的是使用户能够理解人工智能系统如何工作,并掌握其输出背后的推理过程。在机器学习中,“可解释性”表明“模型是如何工作的”,而“可理解性”则帮助解释“为什么得出该结论”或“模型还能提供哪些信息”。
二、可解释性与准确性之间的挑战与权衡
在人工智能驱动的科学研究中,可解释性与准确性之间的权衡已然成为一大亟待解决的难题。当下,借助复杂且不透明的模型来处理海量数据集,往往能够收获更高的准确性。然而,在人工智能于科学研究领域快速应用的背景下,用户对于机器学习模型的不可解释性似乎愈发习以为常,这种接受度也在不断加深。目前的人工智能生态系统,倾向于对那些高性能、竞争力强的模型予以奖励,这些模型以“有用”且准确为突出特点,而透明性、易理解性以及“用户友好”等特质则被相对忽视。
这种现状引发了诸多思考:不透明性是否已然成为人工智能应用的新常态?可解释性是否仍是一个值得我们不懈追求的目标?尽管透明度确实有助于增强对模型的理解,但一味地提供复杂的技术信息,并不总能提升最终用户与系统互动以及理解的能力。因此,部分学者建议,在无法仅依赖可解释模型的情况下,应将更多精力聚焦于提升模型的准确性。
这一权衡关系提醒我们,在全力追求人工智能高性能的同时,如何巧妙地平衡可解释性与科学研究中的准确性之间的关系,依旧是人工智能应用领域中一个极为关键且亟待攻克的挑战。
三、提升人工智能驱动科学研究可信度的应对措施
为应对人工智能驱动科学研究的信任问题,科学家们采用了多种实践,以确保研究的透明度和科学严谨性。这些措施主要包括:
1. 激励发布可重复性报告
预注册与注册报告:美国开放科学中心(Centre for Open Science)推动的预注册和注册报告活动,鼓励研究人员在研究开始前提交研究计划并进行同行评审。这一举措有助于提高研究透明度,确保研究方法在实验前已被详细记录并受到同行审核。
预印本服务器:预印本服务器(例如生物学和生物医学领域的bioRxiv)在促进成功和失败的复制结果传播方面发挥着重要作用。通过这些平台,研究人员可以更快速地共享其研究成果,包括复制失败的结果,从而提升透明度和改进科学实践。
可重复性挑战活动:如美国年度活动“机器学习可重复性挑战”大赛(ML Reproducibility Challenge),邀请参与者重现发表于11个顶级机器学习会议的论文,并发布由社区主导的可重复性报告,详细记录其发现。这类挑战活动不仅推动了科学研究的透明度,也为社区提供了一个评估和验证研究成果的共同平台。
2. 推动文档编制和遵循开放科学实践的指导
为促进人工智能驱动的科学研究的透明度和可重复性,以下措施和工具提供了文档编制和遵循开放科学实践的指导:
可重复性检查清单和协议:例如机器学习可重复性检查清单(Machine Learning Reproducibility Checklist)、医学影像AI检查清单(CLAIM)或REFORMS清单。这些工具由计算机科学、数学、社会科学和健康研究领域的专家开发,帮助研究人员确保遵守可重复性的各个维度。
社区标准:领域特定的社区标准为文档编写提供了重要指导。例如,TRIPOD-AI标准为健康研究中的机器学习预测模型的文档编制、报告和可重复性提供了框架。此外,合成生物学和基因组学社区也制定了实验协议标准和基因组工作流文档,以提高可重复性。
数据表和模型卡的发布:Meta、Google和Hugging Face等企业已发布了多种版本的模型卡,为研究人员提供了关于模型功能、目标受众、预期用途、潜在限制、信心水平以及模型架构和训练数据的关键信息。通过这种方式,业界可以在发布模型时增加透明度,并提供对模型工作原理的深入了解。
情境感知文档:在定义可重复性的过程中,推动报告机制的设立,明确针对特定情境的输入和变化源进行记录,尤其是在团队或当地文化如何影响实施过程中的表现。例如,关注如何应对地域或文化差异带来的变化,保证模型的适用性和理解度。
3. 协作与可访问的工具与平台
为了提升人工智能驱动科学研究的透明度、信任度和可重复性,可利用以下促进数据共享、模型协作与工具使用的资源和平台。
在线协作平台与数据存储库:如CodaLab和OpenML提供了一个共享数据集、软件版本、算法、工作流和方法的平台。这些平台为研究人员提供了协作和分享工具,能够加速科研的共享与复现。
交互式与免代码工具:交互式仪表板和免代码工具为没有编程背景的用户提供了更便捷的使用体验。这些工具通过简洁的用户界面展示数据集,通过这些工具,用户可以参与模型参数设计和评估,增强了研究的透明度与可信度。
边缘模型(Edge Models):这些模型可以在没有互联网接入的地区使用,虽然功能有限,但能够在资源有限的地方保持一定程度的操作性,促进科技普及。
这些措施和工具的实施,不仅有助于提升人工智能驱动科学研究的透明度和可重复性,还能增强公众对人工智能技术的信任。
参考文献:
1. The Royal Society. Science in the Age of AI[EB/OL].(2024-05-07)[2025-01-28].https://royalsociety.org/news-resources/projects/science-in-the-age-of-ai/.
2. 蒲雅杰,李正风. AI for Science:强化科研伦理规范 防止AI技术滥用[EB/OL]. (2025-01-21)[2025-01-28]. https://news.sciencenet.cn/htmlnews/2025/1/537827.shtm.