Gemini测评-程序员宅基地

技术标签: 人工智能  

谷歌的 Gemini 到底几斤几两?和 OpenAI 的 GPT 模型相比表现如何?CMU 这篇论文测明白了。CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo

前段时间,谷歌发布了对标 OpenAI GPT 模型的竞品 ——Gemini。这个大模型共有三个版本 ——Ultra(能力最强)、Pro 和 Nano。研究团队公布的测试结果显示,Ultra 版本在许多任务中优于 GPT4,而 Pro 版本与 GPT-3.5 不相上下。

尽管这些对比结果对大型语言模型研究具有重要意义,但由于确切的评估细节和模型预测尚未公开,这限制了对测试结果的复现、检测,难以进一步分析其隐含的细节。

为了了解 Gemini 的真正实力,来自卡内基梅隆大学、BerriAI 的研究者对该模型的语言理解和生成能力进行了深入探索。

他们在十个数据集上测试了 Gemini Pro、GPT 3.5 Turbo、GPT 4 Turbo、Mixtral 的文本理解和生成能力。具体来说,他们在 MMLU 上测试了模型回答基于知识的问题的能力,在 BigBenchHard 上测试了模型的推理能力,在 GSM8K 等数据集中测试了模型解答数学问题的能力,在 FLORES 等数据集中测试了模型的翻译能力;在 HumanEval 等数据集中测试了模型的代码生成能力;在 WebArena 中测试了模型作为遵循指令的智能体的能力。

下表 1 展示了对比的主要结果。总体而言,截至论文发稿日,在所有任务中,Gemini Pro 在准确性上接近 OpenAI GPT 3.5 Turbo,但仍然稍逊一筹。此外,他们还发现,Gemini 和 GPT 比开源竞品模型 Mixtral 表现要好一些。

在论文中,作者对每项任务都进行了深入的描述和分析。所有结果和可复现的代码可参阅:https://github.com/neulab/gemini-benchmark

论文链接:https://arxiv.org/pdf/2312.11444.pdf

实验设置

作者选择了 Gemini Pro、GPT 3.5 Turbo、GPT 4 Turbo、Mixtral 四个模型作为测试对象。

由于此前有研究在评估时存在实验设置方面的差异,为确保测试公平,作者采取了完全相同的提示词和评估协议重新运行了实验。在大多数测评中,他们采用了提示词和来自标准资源库的评价标准。这些测试资源来自模型发布时附带的数据集以及测评工具 Eleuther 等。其中,提示词通常包含查询、输入、少量示例和思维链推理等。在某些特殊测评中,作者发现有必要对标准实践进行小幅调整。调整偏差已在对应的代码储存库中执行,请查阅论文原文。

这项研究的目标如下:

1. 通过可复现的代码和完全透明的结果,提供对 OpenAI GPT 和 Google Gemini 模型能力的第三方客观比较。

2. 深入研究测评结果,分析两个模型在哪些领域中的表现更加突出。

基于知识的问答(Knowledge-based QA)

作者从 MMLU 数据集中选择了 57 个基于知识的多项选择问答任务,涵盖了 STEM 以及人文社科等各种主题。MMLU 共有 14,042 个测试样本,已经广泛用于对大型语言模型的知识能力进行整体评估。

作者比较并分析了四个测试对象在 MMLU 上的整体表现(如下图所示)、子任务表现以及输出长度对表现的影响。

图 1:使用 5 个样本提示和思维链提示,各个模型在 MMLU 上的总体准确率。

从图中可以看到,Gemini Pro 的准确性低于 GPT 3.5 Turbo,并且远低于 GPT 4 Turbo。在使用思维链提示时,各模型表现差异不大。作者推测这是由于 MMLU 主要收录的是基于知识的问答任务,这些任务可能不会从更强的推理导向提示中显著受益。

值得注意的是,MMLU 中的所有问题都是单选题,有 A 到 D 四个按顺序排列的潜在答案。下图中展示了每个模型选择每个答案选项的比例。从图中可以看到 Gemini 的答案分布非常倾斜,偏向于选择最后的 D 选项。这与各版本的 GPT 给出的更加平衡的结果形成了对比。这可能表明,Gemini 没有接受与多选题相关的大量指令调整,导致模型在答案排序方面存在偏见。

图 2:被测模型预测的单选题答案的比例。

下图展示了被测模型在 MMLU 测试集的子任务上的表现。与 GPT 3.5 相比,Gemini Pro 在大多数任务上的表现不佳。思维链提示降低了子任务之间的方差。

图 3:被测模型在每个子任务上的准确率。

作者深入探讨了 Gemini Pro 的强项和弱项。从图 4 中可以观察到,Gemini Pro 在人类性别(社会科学)、形式逻辑(人文科学)、初等数学(STEM) 和专业医学(专业领域)任务中落后于 GPT 3.5。在 Gemini Pro 更擅长的两个任务中,领先优势也很微弱。

图 4:Gemini Pro 和 GPT 3.5 在 MMLU 上的优势任务。

Gemini Pro 在特定任务上的表现不佳可以归因于两个原因。首先,在某些情况下,Gemini 无法返回答案。在大多数 MMLU 子任务中,API 响应率超过 95%,但在道德(响应率 85%)、人类性别(响应率 28%)这两个任务的相应率明显较低。这表明 Gemini 在一些任务中性能较低可能是由于输入的内容过滤器。其次,Gemini Pro 在解决形式逻辑和基础数学任务所需的基本数学推理方面的表现稍差。

作者还分析了思维链提示中的输出长度如何影响模型性能,如图 5 所示。一般来说,更强大的模型倾向于进行更复杂的推理,因此会输出更长的回答。与「对手」相比,Gemini Pro 有一个值得注意的优势:它的准确性受输出长度的影响较小。当输出长度超过 900 时,Gemini Pro 甚至优于 GPT 3.5。然而,与 GPT 4 Turbo 相比,Gemini Pro 和 GPT 3.5 Turbo 很少能输出长推理链。

图 5:被测模型在 MMLU 上的输出长度分析。

通用推理(General-purpose Reasoning)

在 BIG-Bench Hard 测试集中,作者对被测对象展开了通用推理能力的测评。BIG-Bench Hard 包含 27 个不同的推理任务,如算术、符号和多语言推理、事实知识理解等任务。大多数任务由 250 个问题 - 答案对组成,少数任务的问题数量稍少一些。

图 6 中展示的是被测模型的整体准确率。可以看出,Gemini Pro 的准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo。相比之下,Mixtral 模型的准确率还要低得多。

图 6:被测模型在 BIG-Bench-Hard 上的整体准确率。

作者更深入地探讨了为什么 Gemini 通用推理整体表现不佳。首先,他们按问题的长度检查了准确率。如图 7 所示,Gemini Pro 在更长、更复杂的问题上表现不佳。而 GPT 模型,特别是 GPT 4 Turbo,即使在非常长的问题中, GPT 4 Turbo 的退步也非常小。这表明它的鲁棒性很强,能够理解更长和更复杂的提问和查询。GPT 3.5 Turbo 的鲁棒性一般。Mixtral 在问题长度方面表现稳定,但整体准确率较低。

图 7:被测模型在 BIG-Bench-Hard 上按问题长度划分的准确率。

作者分析了被测模型在 BIG-Bench-Hard 具体任务中是否存在准确率的差异。图 8 中展示了 GPT 3.5 Turbo 在哪些任务上比 Gemini Pro 表现更好。

在「追踪变换物体的位置」的任务中,Gemini Pro 的表现特别糟糕。这些任务涉及人们交换物品并追踪谁是某项物品的拥有者,但 Gemini Pro 经常难以保持正确的顺序。

图 8:GPT 3.5 Turbo 优于 Gemini Pro 的 BIG-Bench-Hard 子任务 。

在需要多步解的算术题、查找翻译中的错误等任务中,Gemini Pro 逊于 Mixtral。

也有 Gemini Pro 优于 GPT 3.5 Turbo 的任务。图 9 展示了 Gemini Pro 以最大优势领先于 GPT 3.5 Turbo 的六个任务。这些任务是异构的,包括需要世界知识的(sports_understanding)、操作符号堆栈(dyck_languages)、按字母顺序对单词进行排序(word_sorting)以及解析表格(penguins_in_a_table)等。

图 9:Gemini Pro 优于 GPT 3.5 的 BIG-Bench-Hard 子任务。

作者进一步分析了被测模型在不同答案类型中的鲁棒性,如图 10 所示。Gemini Pro 在「Valid/Invalid」答案类型中的表现最差,该答案类型属于任务 formal_fallacies。有趣的是,该任务有 68.4% 的问题没有回答响应。然而,在其它(由 word_sorting 和 dyck_language 任务组成)的答案类型中,Gemini Pro 表现优于所有 GPT 模型与 Mixtral。即 Gemini Pro 特别擅长重新排列单词和按正确顺序生成符号。另外,对于 MCQ 答案,有 4.39% 的问题被 Gemini Pro 阻止回应。GPT 模型在这方面表现出色,Gemini Pro 难以与它们竞争。

图 10:被测模型在 BIG-Bench-Hard 上按答案类型划分的准确性。

总之,似乎没有哪个模型在特定任务上一马当先。因此,在执行通用推理任务时,不妨在 Gemini 和 GPT 模型中都尝试一下,然后再决定使用哪个模型。

数学能力

为了评估被测模型的数学推理能力,作者选择了四个数学问题基准测试集:

(1)GSM8K:小学数学基准测试;

(2)SVAMP :通过改变单词顺序生成问题来检查鲁棒推理能力;

(3)ASDIV:具有不同的语言模式和问题类型;

(4)MAWPS:包含算术和代数词问题。

作者比较了 Gemini Pro 、GPT 3.5 Turbo、GPT 4 Turbo 和 Mixtral 在四个数学问题测试集上的准确性,检查了它们的整体性能、不同问题复杂度下的性能以及不同思维链深度下的性能。

图 11 呈现了整体结果,Gemini Pro 在包含不同语言模式的 GSM8K、SVAMP 和 ASDIV 的任务中,准确性略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo。对于 MAWPS 中的任务,尽管所有被测模型的准确性都超过 90%,但 Gemini Pro 仍然略逊于 GPT 模型。在这个任务中,GPT 3.5 Turbo 以微弱的优势胜过了 GPT 4 Turbo。相比之下,Mixtral 模型的准确性远低于其他模型。

图 11:被测模型在四个数学推理测试集任务中的整体准确性。

图 12 中展示了每个模型对问题长度的鲁棒性。与 BIG-Bench Hard 中的推理任务类似,被测模型在回答较长的问题时,准确性有所下降。GPT 3.5 Turbo 在较短的题目上表现优于 Gemini Pro,但退步的速度更快,Gemini Pro 在较长的题目的准确性上与 GPT 3.5 Turbo 类似,但仍稍稍落后。

 

图 12:被测模型在四个数学推理测试集任务中,对于不同问题长度的生成答案的准确性。

此外,作者还观察到当答案需要更长的思维链时,被测模型的准确性也有不同。如图 13 所示,即使使用长推理链时,GPT 4 Turbo 也非常鲁棒,而 GPT 3.5 Turbo、Gemini Pro 和 Mixtral 在 COT 长度不断增加时表现出力不从心。通过分析,作者还发现,在 COT 长度超过 100 的复杂例子中,Gemini Pro 优于 GPT 3.5 Turbo,但在较短的例子中表现不佳。

图 13:不同思维链长度下,各模型在 GSM8K 上的准确性。

图 14 显示了被测模型对于不同数字数量在生成答案时的准确性。作者根据答案中的数字数量是 1 个、2 个还是 3 个以上创建了三个「桶」(除了 MAWPS 任务,该任务的答案没有超过两位数的数字)。如图所示,GPT 3.5 Turbo 似乎对多位数的数学问题更加鲁棒,而 Gemini Pro 在更多数字的问题上有所退化。

图 14:各个模型在四个数学推理测试集任务中在答案数字数量不同时的准确性。

代码生成

在这一部分,作者使用两个代码生成数据集 ——HumanEval 和 ODEX—— 来检验模型的编码能力。前者测试模型对 Python 标准库中有限的一组函数的基本代码理解能力,后者测试模型使用整个 Python 生态系统中更广泛的库集的能力。这两个问题的输入都是用英语编写的任务说明(通常带有测试用例)。这些问题用来评估模型的语言理解能力、算法理解能力和初等数学能力。总的来说,HumanEval 有 164 个测试样本,ODEX 有 439 个测试样本。

首先,从图 15 所示的总体结果中,可以看到 Gemini Pro 在两项任务上的 Pass@1 分数均低于 GPT 3.5 Turbo,也远低于 GPT 4 Turbo。这些结果表明,Gemini 的代码生成能力还有待提高。

 图 15:各个模型在代码生成任务中的总体准确性。

其次,作者在图 16 (a) 中分析了 gold solution 长度与模型性能之间的关系。解的长度可以在一定程度上说明相应代码生成任务的难度。作者发现,Gemini Pro 在解的长度低于 100 时(如较容易的情况),实现了与 GPT 3.5 相当的 Pass@1 分数,但当解的长度变长时,它就会大幅落后。这与前几节的结果形成了有趣的对比,在前几节中,作者发现一般情况下,Gemini Pro 在英语任务中对较长的输入和输出都能表现稳健。

作者还在图 16 (b) 中分析了每个解所需的库对模型性能的影响。在大多数库用例中,如 mock、pandas、numpy 和 datetime,Gemini Pro 的性能比 GPT 3.5 差。不过,在 matplotlib 的用例中,它的性能要优于 GPT 3.5 和 GPT 4,这表明它在通过代码执行绘图可视化时具有更强的能力。

最后,作者展示了几个具体的失败案例,在这些案例中,Gemini Pro 在代码生成方面的表现比 GPT 3.5 差。首先,他们注意到 Gemini 在正确选择 Python API 中的函数和参数方面略逊一筹。例如,给定以下提示:  

Gemini Pro 生成了以下代码,结果出现了类型不匹配错误:   

相比之下,GPT 3.5 Turbo 使用了以下代码,达到了预期效果:  

此外,Gemini Pro 的错误比例较高,在这种情况下,执行的代码在语法上是正确的,但不能正确地与更复杂的意图相匹配。例如,关于以下提示:   

Gemini Pro 创建了一种实现方法,只提取唯一的数字,而不删除那些出现多次的数字。

机器翻译

这组实验使用 FLORES-200 机器翻译基准评估了模型的多语言能力,特别是在各种语言对之间的翻译能力。作者将重点放在 Robinson et al. (2023) 的分析所使用的 20 种语言的不同子集上,这些语言涵盖不同程度的资源可用性和翻译难度。作者对所有选定语言对的测试集中的 1012 个句子进行了评估。

在表 4 和表 5 中,作者对 Gemini Pro、GPT 3.5 Turbo 和 GPT 4 Turbo 与谷歌翻译等成熟系统进行了比较分析。此外,他们还对 NLLB-MoE 进行了基准测试,NLLB-MoE 是领先的开源机器翻译模型,以其广泛的语种覆盖而著称。结果表明,谷歌翻译总体上优于其他模型,在 9 种语言上表现出色;其次是 NLLB,在 0/5-shot 设置下,在 6 种 / 8 种语言上表现出色。通用语言模型显示出具有竞争力的性能,但在翻译成非英语语言方面尚未超越专用机器翻译系统。

表 4:各模型使用 0-shot 提示对所有语言进行机器翻译的性能(chRF (%) 分数)。最佳分数以粗体显示,次佳分数以下划线显示。

表 5:各模型使用 5-shot 提示对所有语言进行机器翻译的性能(chRF (%) 分数)。最佳分数以粗体显示,次佳分数以下划线显示。

图 17 显示了通用语言模型在不同语言对中的性能比较。与 GPT 3.5 Turbo 和 Gemini Pro 相比,GPT 4 Turbo 与 NLLB 表现出一致的性能偏差。GPT 4 Turbo 在低资源语言方面也有较大改进,而在高资源语言方面,两种 LLM 的性能相似。相比之下,在 20 种语言中的 8 种语言上,Gemini Pro 的性能优于 GPT 3.5 Turbo 和 GPT 4 Turbo,并在 4 种语言上取得了最高性能。不过,Gemini Pro 在大约 10 种语言对中表现出强烈的屏蔽响应(block response)倾向。

图 17:按语言对划分的机器翻译性能(chRF (%) 分数)。

图 18 显示,Gemini Pro 在这些语言中的性能较低,这是因为它倾向于在置信度较低的场景中屏蔽响应。如果 Gemini Pro 在 0-shot 或 5-shot 配置中产生「Blocked Response」错误,则该响应被视为「屏蔽」。

图 18:被 Gemini Pro 屏蔽的样本数量。

仔细观察图 19 可以发现,Gemini Pro 在置信度较高的无屏蔽样本中略微优于 GPT 3.5 Turbo 和 GPT 4 Turbo。具体来说,它在 5-shot 和 0-shot 设置下分别比 GPT 4 Turbo 多出 1.6 chrf 和 2.6 chrf,比 GPT 3.5 Turbo 多出 2.7 chrf 和 2 chrf。不过,作者对 GPT 4 Turbo 和 GPT 3.5 Turbo 在这些样本上的性能进行的初步分析表明,这些样本的翻译通常更具挑战性。Gemini Pro 在这些特定样本上表现不佳,尤其明显的是,Gemini Pro 0-shot 会屏蔽响应,而 5-shot 则不会,反之亦然。

图 19:屏蔽和非屏蔽样本的 chrf 性能(%)。

在对模型的整个分析过程中,作者观察到,few-shot 提示一般都能适度提高平均性能,其 variance pattern 依次递增:GPT 4 Turbo < GPT 3.5 Turbo < Gemini Pro。虽然 Gemini Pro 的 5-shot 提示在置信度高的语言中比 0-shot 提示有进步,但在某些语言中,如 hau_Latin,该模型的置信度明显降低,导致应答受阻(参见表 5)。

图 20 显示了按语系或 script 分类的明显趋势。一个重要的观察结果是,Gemini Pro 在西里尔文字上的表现与其他机型相比具有竞争力,但在其他文字上的表现却不尽如人意。GPT-4 在各种 script 上的表现突出,优于其他模型,其中 few-shot 提示尤为有效。这种效果在使用梵文的语言中尤为明显。

图 20:各个模型在不同 script 上的表现 (chrf (%))。

Web 智能体

最后,作者考察了每个模型作为网络导航智能体的能力,这是一项需要长期规划和复杂数据理解的任务。他们使用了模拟环境 WebArena,该环境成功的标准是执行结果。赋予智能体的任务包括信息搜索、网站导航以及内容和配置操作。任务涉及各种网站,包括电子商务平台、社交论坛、协同软件开发平台(如 gitlab)、内容管理系统和在线地图。

作者测试了 Gemini-Pro 的总体成功率、不同任务的成功率、响应长度、轨迹步数以及预测任务无法完成的倾向。表 6 列出了总体性能。Gemini-Pro 的表现与 GPT-3.5-Turbo 接近,但略逊一筹。与 GPT-3.5-Turbo 类似,当提示提到任务可能无法完成时(UA hint),Gemini-Pro 的表现更好。在有 UA hint 的情况下,Gemini-Pro 的总体成功率为 7.09%。

表 6:各个模型在 WebArena 上的表现。

如果按网站类型进行细分,如图 21 所示,可以看到 Gemini-Pro 在 gitlab 和地图上的表现不如 GPT-3.5-Turbo,而在购物管理、reddit 和购物网站上的表现则接近 GPT-3.5-Turbo。在多站点任务上,Gemini-Pro 的表现优于 GPT-3.5-Turbo,这与之前的结果一致,即 Gemini 在各种基准的更复杂子任务上表现更好一些。

图 21:模型在不同类型网站上的 Web 智能体成功率。

如图 22 所示,一般来说,Gemini-Pro 把更多的任务预测为无法完成,尤其是在给出一个 UA hint 的情况下。Gemini-Pro 在给出 UA hint 的情况下,预测 80.6% 以上的任务无法完成,而 GPT-3.5-Turbo 只预测了 47.7%。需要注意的是,数据集中仅有 4.4% 的任务实际上是无法完成的,因此两者都远远高估了无法完成的任务的实际数量。   whaosoft aiot http://143ai.com

图 22:UA 预测数量。

同时,作者观察到,Gemini Pro 更倾向于用较短的短语做出回应,在得出结论前采取较少的步骤。如图 23 (a) 所示,Gemini Pro 有一半以上的轨迹少于 10 步,而 GPT 3.5 Turbo 和 GPT 4 Turbo 的大多数轨迹在 10 到 30 步之间。同样,Gemini 的大部分回复长度不到 100 个字符,而 GPT 3.5 Turbo、GPT 4 Turbo 和 Mixtral 的大部分回复长度超过 300 个字符(图 23 (b))。Gemini 倾向于直接预测行动,而其他模型则会先进行推理,然后给出行动预测。

图 23:模型在 WebArena 上的行为。

论文链接:

https://arxiv.org/pdf/2312.12436.pdf

项目链接:

https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

报告对 Gemini Pro 的视觉理解能力进行了初步探索,全面涵盖了基础感知(Fundamental Perception)、高级认知(Advanced Cognition)、挑战性视觉任务(Challenging Vision Tasks)和各种专家能力(Expert Capacity)四个领域,在 37 类任务项上进行了定性比较,并在专门针对多模态大模型设计的 MME 评测基准测试上进行定量评估。

定性样例测试表明,虽然 GPT-4V 和 Gemini Pro 表现出不同的回答风格和偏好,但它们可以表现出相当的视觉推理能力,而 SPHNIX 在领域泛化性方面仍然落后于它们。

具体来说,GPT-4V 倾向于阐述详细的解释和中间步骤,而 Gemini Pro 更喜欢输出直接而简洁的答案。定量基准测试展示了 Gemini Pro 令人印象深刻的多模态理解性能,以及其成为 GPT-4V 强有力挑战者的潜力。

对 Gemini 和 GPT-4V 的研究还观察到多模态大模型在视觉理解、逻辑推理和提示鲁棒性等方面的一些常见问题,这表明在距离实际可落地的通用多模态大模型仍然有很长的路要走。

下面我们逐一介绍报告中的具体内容。

01 定量测试

专为多模态大语言模型专门设计的评测基准 MME 试涵盖目标存在性判断、物体计数、位置关系、颜色判断、OCR 识别、海报识别、名人识别、场景识别、地标识别和艺术品识别等感知任务,以及常识推理、数值计算、文本翻译和代码推理等认知任务,并为每个测试任务图像设计判断“是”“否”的问题以便于指标统计。

在感知和认知的综合表现方面,Gemini Pro 表现出优异的表现,得分为 1933.4,紧随其后的是 GPT-4V 模型,得分为 1926.6。

02 基础感知

基本感知是指多模态大模型处理和解释感官数据(主要是视觉数据)的能力,以对其感知的环境产生连贯的理解。感知能力直接影响模型在高阶任务中的能力,因为它决定了模型获取和处理原始视觉输入的准确性和有效性。报告中分别测试了模型的对象级感知能力、场景级感知能力和基于知识的感知能力。具体包括以下细分任务:

1. 空间关系

无论是 Gemini Pro 还是 GPT-4V,似乎都很难识别左右。更进一步。通过上下文少样本学习帮助模型理解什么是“左”,只用 GPT-4V 成功学习了这个概念,做出了正确的回答。

另外我们可以观察到:

1. GPT-4V 拒绝回答名人相关的问题,导致其在名人识别任务上的得分为 0 分,这在后续的定性实验中也有体现;

2. Gemini 和 GPT-4V 在位置识别任务上表现都不佳,表明他们对空间位置信息不敏感,这在后续的定性实验中也反映了出来;

3. 开源模型 SPHINX 在感知任务上与 GPT-4V 以及 Gemini 平齐甚至更优,这可能是因为 SPHINX 在训练时关注了很多感知类的任务比如目标检测;但在认知任务上,比如常识推理、数值计算、文本翻译和代码推理等,SPHINX 距离 GPT-4V 以及 Gemini 有较大差距。

2. 物体计数

在前三个简单样例中,模型都取得了较准确的结果,但在较复杂的样例中,模型都容易出错。在 NBA 球员图片中共有 42 名球员,Gemini Pro 的答案(41 人)已经非常接近正确答案了。

3. 找不同

所有模型都具有感知图像之间细粒度差异的潜力,尽管它们的性能并不稳定。在图 5 中,实际只有三处差异,当模型被要求识别五处差异时,Gemini Pro 和 GPT-4V 都捏造了五处差异并做出了错误的响应。

4. 视觉错觉

左侧样例中,两个梨实际上具有相同的亮度。然而,点缀的黑白条纹产生了一种错觉,使右侧的梨显得更亮。Gemini Pro 识别到两者具有相同的亮度,而 GPT-4V 和 SPHNIX 被视错觉所欺骗,认为右边的梨更亮。

5. 场景理解

模型都能够描绘场景中的关键视觉元素。相比之下,GPT-4V 显示出优越的性能,描述更加详细,并且幻觉的实例也更少。

6. 视频场景理解

从视频中抽取三个时刻的关键帧,Gemini Pro 能够将不同帧的信息整合成一个连贯的场景描述。特别地,第一帧显示两张圆桌和一盆植物,第二帧显示一张圆桌和三盆植物。Gemini Pro 成功地融合了两帧中的信息,准确地将场景描述为包含两张圆桌和三盆植物。GPT-4V 只是逐帧描述图像的内容。相比之下,SPHNIX 的描述并没有表现出对图像序列的全面理解。

7. 常识

SPHNIX 在应用社会规范方面的表现与 Gemini Pro 和 GPT-4V 相当,但在物理规律的应用方面表现稍差。如图 14 所示,Gemini Pro 和 GPT-4V 可以准确地选择厚重的衣服用于南极洲的寒冷天气防护,而 SPHNIX 虽然知道寒冷天气需要穿厚衣服,但它错误地将 T 恤图像识别为适合防寒。

8. 学科知识

报告中测试了模型对物理化学、历史地理等学科知识的了解。Gemini Pro 和 GPT-4V 都拥有与这些样例相关的学科知识。

9. 多元文化习俗

测试样例呈现具有鲜明的民族和文化特征的图像,并提示模型提供描述。模型都能够理解图像中描绘的种族和文化元素,但 SPHNIX 不具备多语言能力。

10. 世界知识

报告研究了模型识别名人、地标、标志、电影、食物、植物、动物等的能力。模型通常可以正确识别它们。此外,当被问及与真实人物相关的信息时,GPT-4V 通常会选择不回应,但在图 23 右侧样例中,或许因为图像中有人物相关信息,GPT-4V 罕见地回答了问题。

03 高级认知

在基本感知之上,报告更进一步评估了多模态大模型更高级的认知能力。认知任务不仅需要理解视觉环境中的多模态概念,还需要进行深入的推理、解决问题和决策。报告中分别测试了模型的富含文本的视觉推理能力、抽象视觉推理能力、解决科学问题能力、情感分析能力、智力游戏能力。具体包括以下细分任务:

11. 表格和图表推理

报告评测了模型对流程图和图表分析的能力,Gemini Pro 可以用简短的句子正确地概括流程图的高级思想,GPT-4V 倾向于对图表中的逻辑流程进行更详细的描述,但偶尔会出现一些错误,SPHNIX 由于缺乏相关的预训练数据未能提取含义。在图 42 右侧样例中,Gemini Pro 和 GPT-4V 都可以理解手绘视觉提示,表明了它们对视觉输入的泛化能力。

12. 代码生成

将结构化视觉内容转换为相应的代码是多模态大模型的一项重要技能,分别测试了模型识别公式生成 LaTex 代码和识别网页生成 HTML 代码的能力。Gemini Pro 和 GPT-4V 在公式识别上表现出更好的结果,但仍然会错误识别一些小字符或符号。三个模型的识别网页生成相应 HTML 代码的能力仍然存在很大的改进空间。

13. 抽象视觉刺激

对抽象视觉刺激和符号的理解和推理是人类智能的一项基本能力。GPT-4V 展示了最好的抽象性能,提供了对象如何由形状组成的详细描述。Gemini Pro 能识别一些简单的抽象模式。

14. 韦氏成人智力量表

15. 瑞文推理测验

16. 数学问题

与常规视觉问答不同,数学问题的解决既涉及视觉输入的 OCR 能力,又涉及后续推理步骤中的定量处理准确性。

17. 物理问题

Gemini Pro 和 GPT-4V 表现出了良好的物理问题推理能力,并很好地利用了预先训练的专业知识作为参考。然而,它们的性能可能受到数学计算和物理方程的准确性的限制。由于物理问题的训练数据匮乏,SPHNIX 缺乏解决此类科学问题的能力。

18. 表情分析

模型在表情分析中都表现出良好的性能。其中,GPT-4V 提供了更加辩证的思维和严谨的分析,Gemini Pro 则可以直接以简洁的信息给出准确的答案。图 64 中,GPT-4V 和 SPHNIX 都捕获图像中截断的文本内容,并将这些信息合并到推理中,展现了他们的综合视觉理解能力。

19. 图像情感分析

模型都可以很好地描绘视图,并提供其中可能的情感。GPT-4V 观察是中立的,强调情绪是主观的,同时给出了更全面的分析。Gemini Pro 倾向于直接输出情感偏好。

20. 情感调节输出

与图像情感分析不同,情感调节输出使多模态大模型能够描述以预定义情感为条件的视觉上下文。虽然 Gemini Pro 和 GPT-4V 能够正确地将相应的情感注入到生成的文本中,但它们都遇到了幻觉问题。

21. 数独游戏

如果仅以图像作为输入,尽管 Gemini Pro 尝试在输出矩阵内提供答案,但无法正确识别空白位置,而 GPT-4V 和 SPHNIX 则无法进行第一步 光学字符识别。此外,给定相应的文本输入,Gemini Pro 和 GPT-4V 都可以给出正确的答案。

22. 填字游戏

23. 围棋游戏

围棋游戏涉及复杂的战略思维和基于规则的决策,被视为通用人工智能的试金石。模型可以掌握一些初始技能,并预测棋盘上合法位置的下一步棋。

04 挑战性视觉任务

报告还评估了多模态大模型在超出标准视觉问答范围的各种具有挑战性的视觉任务中的性能,这些任务需要模型具有深厚的视觉感知和理解能力,评估他们在这些视觉任务的表现将有助于深入了解模型在多领域应用的可行性。报告中分别测试了模型在图像视觉任务和时序视觉任务中的性能。具体包括以下细分任务:

24. 目标检测

25. 指称表达式理解

Gemini Pro 和 GPT-4V 都能够识别指称对象的大致位置,但它们很难提供精确的坐标和框大小。而 SPHNIX 展示了提供引用对象的准确位置和大小的能力。

26. 短语定位

Gemini Pro 和 GPT-4V 可以正确提取表达式中的短语,却无法正确定位物体。

27. 人脸检测与识别

人脸检测和识别是计算机视觉中的一项重要任务。Gemini Pro 可以准确识别图像中所有面部的排列,并准确识别每个面部的相应名称。而 GPT-4V 因为隐私安全回避请求。SPHNIX 提供了几乎正确的边界框,但无法识别这些面孔。

28. 目标跟踪

虽然 Gemini Pro 和 GPT-4V 都能够描绘出要跟踪的目标的细节,但它们随后两帧图像中提供了错误的边界框。

29. 视频动作识别

从视频片段中抽取多个代表性帧输入到模型中,Gemini Pro 和 GPT-4V 都展示了识别图像中的动作并提供详细描述的能力,SPHNIX 缺乏详细的描述。

30. 视觉故事生成

任务要求模型完全理解图像中的信息,并在生成的故事中对其进行逻辑组织。Gemini Pro 和 SPHNIX 提供了连贯的故事,但却和没有十分贴近漫画剧情。GPT-4V 为每个插图提供了精确的描述,却未能根据任务要求将它们编织成一个有凝聚力的故事。

05 专家能力

专家能力衡量多模态大模型将其学到的知识和技能应用于不同专业领域的泛化能力。除了上述的感知和认知任务外,多模态大模型在专门和独特场景下的鲁棒性通常具有更实际的参考意义。具体包括以下细分任务:

31. 自动驾驶

自动驾驶是结合了先进计算、机器人技术和人工智能。评估模型在该领域的性能可以测试其处理交通感知数据、做出实时决策以及与动态环境交互的能力。模型可以注意到复杂场景下的细粒度特征,并根据场景环境作出合理规划。

32. 缺陷检测

缺陷检测需要高精度和对细节的关注。对于缺陷明显的图像,模型都可以提供正确答案,其中 GPT-4V 输出更详细的原因和描述。对于图 92 中的螺纹损坏的样例,Gemini Pro 给出了过于笼统的答案,SPHNIX 错误地描述了外观,而 GPT-4V 给出了标准答案。

33. 医疗诊断

医疗诊断的准确性和可靠性至关重要,该领域测试模型解释复杂医学数据的能力,以及帮助识别病情和建议治疗的能力。对于此类特定领域的视觉输入,通过一般图像预训练的多模态大模型不能始终如一地产生令人满意的结果。此外,还需要更具体的提示技巧,防止他们拒绝医疗相关问题,例如“报告内容仅用于大规模模型能力评估”。

34. 经济分析

经济分析涉及对复杂的金融数据和市场趋势的解释。报告展示了两个用于回答问题的股价走势图。Gemini Pro 擅长专家级金融知识,能够给出正确答案。GPT-4V 由于安全风险而没有给出明确答案。SPHNIX 由于缺乏相关训练数据无法理解此类问题。

35. 监控安防

监控安防需要实时处理和解释特定领域的视觉数据。模型都可以发现图像中潜在的安全隐患,但也存在一定的幻觉问题,错误识别了一些细节。这表明多模态大模型的监视能力仍然受到细粒度视觉感知的限制。

36. 遥感影像分析

Gemini Pro 可以识别地推断遥感图像是拍摄于日本,而 GPT-4V 可以全面地描绘出每一个细节,比如水体、道路、植被、居住格局、地形等等。

37. 机器人运动规划

机器人规划要求机器人能够确定如何在给定情况下采取行动以实现特定目标。Gemini Pro 和 GPT-4V 都可以提供有条理且详细的步骤,并且 GPT-4V 似乎比 Gemini Pro 给出了更合理的决定,例如电池的安装顺序,但 SPHNIX 无法完成手机的组装,说明其泛化能力有限。

Gemini vs GPT-4V

鉴于其卓越的多模态推理能力,Gemini 确实是 GPT-4V 的有力挑战者。在大多数情况下,与 GPT-4V 相比,Gemini 的回答准确性具有竞争力,并展示了不同的回答风格和偏好。GPT-4V 倾向于生成对感知任务更详细的描述,并为认知任务提供深入的分析和逐步的中间推理,而 Gemini 更喜欢对答案提供直接而简洁的回应,这有助于用户快速找到相关信息。

除此以外,两个模型也存在一定的共性问题,比如空间感知能力不强,复杂 OCR 和抽象视觉理解不理想,推理过程可能存在不自洽结果,对提示设计的鲁棒性不足。可以看到,Gemini 和 GPT-4V 在很多情况下仍然陷入困境,显示出通向通用多模态大模型的漫长道路。

06 结论

Gemini vs SPHINIX

尽管 SPHNIX 在某些情况下与 GPT-4V 和 Gemini 表现相当,但它无法生成与它们一样一致的高质量答案。这表明开源模型与黑盒系统仍然存在一些不可忽视的差距。导致差距的原因主要是训练数据缺乏多样性和底层模型的固有推理上限。

Gemini 和 GPT-4V 都是这个时代多模态大模型的先驱,展示了通用人工智能的火花。多模态大模型的未来发展可以集中在三个方面:视觉表示编码(细粒度外观、空间关系感知)、多模态对齐(减轻幻觉、OCR 准确性)以及模型推理能力(定量处理、逻辑一致性)。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_29788741/article/details/135116354

智能推荐

攻防世界_难度8_happy_puzzle_攻防世界困难模式攻略图文-程序员宅基地

文章浏览阅读645次。这个肯定是末尾的IDAT了,因为IDAT必须要满了才会开始一下个IDAT,这个明显就是末尾的IDAT了。,对应下面的create_head()代码。,对应下面的create_tail()代码。不要考虑爆破,我已经试了一下,太多情况了。题目来源:UNCTF。_攻防世界困难模式攻略图文

达梦数据库的导出(备份)、导入_达梦数据库导入导出-程序员宅基地

文章浏览阅读2.9k次,点赞3次,收藏10次。偶尔会用到,记录、分享。1. 数据库导出1.1 切换到dmdba用户su - dmdba1.2 进入达梦数据库安装路径的bin目录,执行导库操作  导出语句:./dexp cwy_init/[email protected]:5236 file=cwy_init.dmp log=cwy_init_exp.log 注释:   cwy_init/init_123..._达梦数据库导入导出

js引入kindeditor富文本编辑器的使用_kindeditor.js-程序员宅基地

文章浏览阅读1.9k次。1. 在官网上下载KindEditor文件,可以删掉不需要要到的jsp,asp,asp.net和php文件夹。接着把文件夹放到项目文件目录下。2. 修改html文件,在页面引入js文件:<script type="text/javascript" src="./kindeditor/kindeditor-all.js"></script><script type="text/javascript" src="./kindeditor/lang/zh-CN.js"_kindeditor.js

STM32学习过程记录11——基于STM32G431CBU6硬件SPI+DMA的高效WS2812B控制方法-程序员宅基地

文章浏览阅读2.3k次,点赞6次,收藏14次。SPI的详情简介不必赘述。假设我们通过SPI发送0xAA,我们的数据线就会变为10101010,通过修改不同的内容,即可修改SPI中0和1的持续时间。比如0xF0即为前半周期为高电平,后半周期为低电平的状态。在SPI的通信模式中,CPHA配置会影响该实验,下图展示了不同采样位置的SPI时序图[1]。CPOL = 0,CPHA = 1:CLK空闲状态 = 低电平,数据在下降沿采样,并在上升沿移出CPOL = 0,CPHA = 0:CLK空闲状态 = 低电平,数据在上升沿采样,并在下降沿移出。_stm32g431cbu6

计算机网络-数据链路层_接收方收到链路层数据后,使用crc检验后,余数为0,说明链路层的传输时可靠传输-程序员宅基地

文章浏览阅读1.2k次,点赞2次,收藏8次。数据链路层习题自测问题1.数据链路(即逻辑链路)与链路(即物理链路)有何区别?“电路接通了”与”数据链路接通了”的区别何在?2.数据链路层中的链路控制包括哪些功能?试讨论数据链路层做成可靠的链路层有哪些优点和缺点。3.网络适配器的作用是什么?网络适配器工作在哪一层?4.数据链路层的三个基本问题(帧定界、透明传输和差错检测)为什么都必须加以解决?5.如果在数据链路层不进行帧定界,会发生什么问题?6.PPP协议的主要特点是什么?为什么PPP不使用帧的编号?PPP适用于什么情况?为什么PPP协议不_接收方收到链路层数据后,使用crc检验后,余数为0,说明链路层的传输时可靠传输

软件测试工程师移民加拿大_无证移民,未受过软件工程师的教育(第1部分)-程序员宅基地

文章浏览阅读587次。软件测试工程师移民加拿大 无证移民,未受过软件工程师的教育(第1部分) (Undocumented Immigrant With No Education to Software Engineer(Part 1))Before I start, I want you to please bear with me on the way I write, I have very little gen...

随便推点

Thinkpad X250 secure boot failed 启动失败问题解决_安装完系统提示secureboot failure-程序员宅基地

文章浏览阅读304次。Thinkpad X250笔记本电脑,装的是FreeBSD,进入BIOS修改虚拟化配置(其后可能是误设置了安全开机),保存退出后系统无法启动,显示:secure boot failed ,把自己惊出一身冷汗,因为这台笔记本刚好还没开始做备份.....根据错误提示,到bios里面去找相关配置,在Security里面找到了Secure Boot选项,发现果然被设置为Enabled,将其修改为Disabled ,再开机,终于正常启动了。_安装完系统提示secureboot failure

C++如何做字符串分割(5种方法)_c++ 字符串分割-程序员宅基地

文章浏览阅读10w+次,点赞93次,收藏352次。1、用strtok函数进行字符串分割原型: char *strtok(char *str, const char *delim);功能:分解字符串为一组字符串。参数说明:str为要分解的字符串,delim为分隔符字符串。返回值:从str开头开始的一个个被分割的串。当没有被分割的串时则返回NULL。其它:strtok函数线程不安全,可以使用strtok_r替代。示例://借助strtok实现split#include <string.h>#include <stdio.h&_c++ 字符串分割

2013第四届蓝桥杯 C/C++本科A组 真题答案解析_2013年第四届c a组蓝桥杯省赛真题解答-程序员宅基地

文章浏览阅读2.3k次。1 .高斯日记 大数学家高斯有个好习惯:无论如何都要记日记。他的日记有个与众不同的地方,他从不注明年月日,而是用一个整数代替,比如:4210后来人们知道,那个整数就是日期,它表示那一天是高斯出生后的第几天。这或许也是个好习惯,它时时刻刻提醒着主人:日子又过去一天,还有多少时光可以用于浪费呢?高斯出生于:1777年4月30日。在高斯发现的一个重要定理的日记_2013年第四届c a组蓝桥杯省赛真题解答

基于供需算法优化的核极限学习机(KELM)分类算法-程序员宅基地

文章浏览阅读851次,点赞17次,收藏22次。摘要:本文利用供需算法对核极限学习机(KELM)进行优化,并用于分类。

metasploitable2渗透测试_metasploitable2怎么进入-程序员宅基地

文章浏览阅读1.1k次。一、系统弱密码登录1、在kali上执行命令行telnet 192.168.26.1292、Login和password都输入msfadmin3、登录成功,进入系统4、测试如下:二、MySQL弱密码登录:1、在kali上执行mysql –h 192.168.26.129 –u root2、登录成功,进入MySQL系统3、测试效果:三、PostgreSQL弱密码登录1、在Kali上执行psql -h 192.168.26.129 –U post..._metasploitable2怎么进入

Python学习之路:从入门到精通的指南_python人工智能开发从入门到精通pdf-程序员宅基地

文章浏览阅读257次。本文将为初学者提供Python学习的详细指南,从Python的历史、基础语法和数据类型到面向对象编程、模块和库的使用。通过本文,您将能够掌握Python编程的核心概念,为今后的编程学习和实践打下坚实基础。_python人工智能开发从入门到精通pdf