谷歌发布多模态人工智能大模型Gemini，最强版本赶超GPT-4

2023年12月，谷歌发布其认为“规模最大、能力最强”的人工智能大模型Gemini，旨在建立一个既具有跨模态强大通用能力，又具有尖端理解和推理能力的AI模型，与OpenAI的GPT-4模型展开竞争。谷歌表示，与通常只处理一种类型的（例如仅处理图像或文本）现有AI模型不同，Gemini是多模态的，这意味着它可以同时识别和理解文本、代码、音频、图像和视频等不同类型的信息。

谷歌认为，Gemini是迄今为止最灵活的模型，能够在从数据中心到移动设备的所有设备上高效运行，其最先进的功能将大大增强开发人员和企业客户构建和扩展人工智能的方式。谷歌优化了Gemini 1.0，使其适用于三种不同规模（图1）。Gemini Ultra作为规模最大、功能最强的模型，适用于高度复杂的任务；Gemini Pro作为最佳模型，适用于各种任务的扩展；Gemini Nano作为最高效模型，可用于特定任务和移动设备。

在生态建设方面，从12月13日起，谷歌的开发者和企业客户可以通过谷歌AI平台通过API接入Gemini Pro；至于Gemini Ultra，谷歌则称目前正在进行广泛的信任和安全检查，将向选定伙伴提供内测，并在2024年初向开发者和企业客户推出；Gemini Nano是对应端侧设备而来，具有18亿、32.5亿两个参数的版本，为不同设备的差异化存储空间而设计。2023年10月发布的智能手机Pixel 8 Pro是第一款运行Gemini Nano的产品。

图1 Gemini三种不同规模的模型

来源：Gemini技术报告

谷歌对Gemini模型进行了严格的测试，并评估了它们在各种任务中的性能。从自然图像、音频和视频理解到数学推理，Gemini Ultra在大型语言模型(LLM)研发中广泛使用的32个学术基准中的30个基准上的表现都超过了目前最先进的结果（表1）。Gemini Ultra的得分率高达90.0%，是第一个在MMLU（大规模多任务语言理解数据集）上超过人类专家的模型，该模型综合使用数学、物理、历史、法律、医学和伦理学等57个学科来测试世界知识和解决问题的能力。谷歌选取了尚未上线的最强版本Gemini Ultra与GPT-4进行对比，Gemini Ultra在综合能力、推理能力、数学能力、代码能力、图像理解的榜单中几乎全面超过GPT-4，不过双方分数差距仅为个位数，并不显著。

表1 Gemini和GPT-4在文本和代码方面的基准测试对比

能力	基准（性能越高越好）	任务描述	Gemini Ultra	GPT-4
综合能力	MMLU	STEM和伦理学等57个学科的问题集合	90.0%	86.4% （API*）
推理能力	Big-Bench Hard	需要进行多步骤推理的各种挑战性任务	83.6%	83.1%
	DROP	阅读理解（二分类模型精确度指标）	82.4%	80.9%
	HellaSwag	日常任务的常识性分工	87.8%	95.3%
数学能力	GSM8K	基础算术运算（小学数学问题）	94.4%	92%
数学能力	MATH	数学难题挑战（代数、几何、初级微积分等）	53.2%	52.9% （API）
代码能力	Human Eval	Python代码生成	74.4%	67.0%
代码能力	Natural2Code	Python代码生成，新发布的未在网络上泄露的类似HumanEval数据集	74.9%	73.9% （API）

*该项数据缺失时使用应用程序编程接口（API）数据进行计算

来源：Gemini技术报告；上海科学技术情报研究所编译

Gemini最基本的模型是文本输入和文本输出，但更强大的模型（如Gemini Ultra）可以处理图像、视频和音频（表2）。在权威MMMU基准测试中，Gemini Ultra获得了59.4%的SOTA（State of the art，特指领先水平的大模型）分数，与之相较，GPT-4的得分为56.8%。这项基准测试是经典的多模态测试，由跨不同领域的多模式任务组成，能够体现大模型的深度推理能力，而推理过程本身，需要花费的成本要远远高于模型训练。此外，Gemini Ultra还能识别自然图像、图表、截图、pdf和视频等不同格式的文件，输出文本和图像。

表2 Gemini和GPT-4的多模态基准测试对比

能力	基准	任务描述 (除非特别标注，性能越高越好)	Gemini	GPT-4V*
图像	MMMU	多学科大学水平的推理问题	59.4%（Gemini Ultra，Pixel）	56.8%（GPT-4V）
	VQAv2	自然图像理解	77.8%（Gemini Ultra，Pixel）	77.2%（GPT-4V）
	TextVQA	对自然图像的文字识别	82.3%（Gemini Ultra，Pixel）	78.0%（GPT-4V）
	DocVQA	文档理解	90.9%（Gemini Ultra，Pixel）	88.4%（GPT-4V，Pixel）
	Infographic VQA	信息图理解	80.3%（Gemini Ultra，Pixel）	75.1%（GPT-4V，Pixel）
	MathVista	视觉情境中的数学推理	53.0%（Gemini Ultra，Pixel）	49.9%（GPT-4V）
视频	VATEX	英语视频描述生成	62.7%（Gemini Ultra）	56.0%（Deepmind Flamingo）
视频	Perception Test MCQA	视频问答	54.7%（Gemini Ultra）	46.3%（SeViLA）
音频	CoVoST 2（21种语言）	自动言语翻译（双语互译质量评估分数）	40.1%（Gemini Pro）	29.1%（Whisper v2）
音频	FLEURS（62种语言）	自动言语识别（基于文字错误率，参数越低越好）	7.6%（Gemini Pro）	17.6%（Whisper v3）

*GPT-4V不支持的能力使用其他最佳模型来进行对比测试

来源：Gemini技术报告；上海科学技术情报研究所编译

作为谷歌迄今为止推出的最大规模人工智能产品，Gemini新模型在文本、图像、视频和音频方面的处理能力确实是同类最佳，但是不同的专家也有自己不同的看法和观点。谷歌及其母公司Alphabet的首席执行官桑达尔・皮查伊认为，Gemini模型代表了谷歌DeepMind在人工智能前沿领域的构建和进步，开启了AI模型的Gemini时代，并可能是这波生成式人工智能浪潮的顶峰。虽然皮查伊也明白，建立在大型语言模型基础上的人工智能下一步将走向何方，目前还不清楚，但他并不气馁。他指出多模态技术将大有作为。随着AI模型进行更多推理，将会有更深层次的突破。

这对于谷歌来说是一大步，但对整个领域来说未必是一个巨大的飞跃。华盛顿大学专门研究在线搜索的教授奇拉格·沙赫则将这次发布会比作苹果公司每年推出新款iPhone的行为。他提出：“也许我们现在已经上升到了一个不同的阈值，这个阈值不会给我们留下那么深刻的印象，因为我们已经见过太多了。对于普通用户来说，与竞争模型相比的渐进式改进可能不会带来太大的差别。普通用户考虑更多的是便利性、品牌认知度和现有集成。”

新墨西哥州圣达菲研究所的人工智能研究员梅兰妮·米切尔表示Gemini是一个非常复杂的人工智能系统，在基准数据集方面的表现令人印象深刻。米切尔补充道：“Gemini在语言和代码基准方面的表现要比在图像和视频方面好得多。但在我看来，Gemini的能力实际上并没有明显超过GPT-4。多模态基础模型要想在许多任务中发挥普遍而强大的作用，还有很长的路要走。”

斯坦福大学基础模型研究中心主任珀西·梁则认为，虽然该模型的基准成绩不错，但由于我们不知道训练数据的内容，因此很难解释这些数字。谷歌DeepMind已经对Gemini进行了训练，利用人类测试者的反馈，使其在事实方面更加准确。谷歌声称可以减轻模型的幻觉问题。但是，珀西·梁指出如果不对基础技术进行彻底改革，大型语言模型将继续胡编乱造。专家还表示，目前还不清楚谷歌用来衡量Gemini性能的基准是否能提供那么多的洞察力，而且在数据不透明的情况下，也很难核实谷歌的说法。

华盛顿大学计算语言学教授艾米丽·本德也对于谷歌公司的基准测试数据持怀疑态度。谷歌宣称Gemini是一个无所不能的可用于多种不同用途的通用模型。但是艾米丽教授认为谷歌正在使用狭隘的基准来评估新模型，并期望新模型用于这些不同用途，这意味着实际上无法对其进行全面评估。

参考文献：

[1]Gemini: A Family of Highly Capable Multimodal Models[R/OL]. (2023-12-06)[2023-12-30].https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

[2]Introducing Gemini: our largest and most capable AI model[EB/OL].(2023-12-06)[2023-12-30].https://blog.google/technology/ai/google-gemini-ai/

[3]Google DeepMind’s new Gemini model looks amazing—but could signal peak AI hype[EB/OL].(2023-12-06)[2023-12-30]. https://www.technologyreview.com/2023/12/06/1084471/google-deepminds-new-gemini-model-looks-amazing-but-could-signal-peak-ai-hype/