“遥遥领先”GPT-4？谷歌最强AI大模型Gemini发布一天便引质疑！公司承认6分钟视频经特殊剪辑处理

admin 12-08 4

默认

摘要： 　　转自：每日经济新闻　　每经记者蔡鼎每经编辑兰素英　　美东时间12月6日，谷歌CEO桑达尔？皮查伊宣布迄今为止规模最大，能力最强的谷歌大模型Gemini 1.0 版正式...

　　转自：每日经济新闻

“遥遥领先”GPT-4？谷歌最强AI大模型Gemini发布一天便引质疑！公司承认6分钟视频经特殊剪辑处理

　　每经记者蔡鼎每经编辑兰素英

　　美东时间12月6日，谷歌CEO桑达尔？皮查伊宣布迄今为止规模最大，能力最强的谷歌大模型Gemini 1.0 版正式上线。Gemini是原生多模态大模型，是谷歌大模型新时代的第一步，它包括三种量级：能力最强的 Gemini Ultra，适用于多任务的 Gemini Pro，以及适用于特定任务和端侧的 Gemini Nano。

　　皮查伊官宣推文发布后，马斯克也在下面评论称，“（Gemini）令人印象深刻”。当天，谷歌还发布了一条约6分钟的延时演示视频，展示Gemini的多模态功能（例如，口语对话提示与图像识别相结合）。截至发稿，该视频在YouTube上已经收获141万次观看。

　　然而，Gemini发布才一天，外界已开始有声音指控谷歌对Gemini的性能“造假”。

　　其中，彭博社一篇专栏文章就表示，谷歌在一段演示视频中歪曲了Gemini的AI性能。专栏作家帕米·奥尔森（Parmy Olson）认为，在谷歌发布的这段视频中，Gemini似乎非常强大，但有点过于强大了。对此质疑，谷歌回应时承认，这段关于Gemini性能演示的视频并不是实时的，而是使用了原始镜头中的静止图像帧，然后编写了文本提示，以便让Gemini做出回应。

　　6分钟演示视频引质疑

　　奥尔森认为，Gemini的演示视频确实非常令人印象深刻。Gemini能够仅凭一些毫无规则的点就可以推断出绘制内容是一只螃蟹，显示出谷歌DeepMind人工智能实验室多年来训练的大模型推理能力。不过，奥尔森指出，谷歌这段视频中展示的Gemini所具备的一些功能并不是其独有的，ChatGPT Plus也具有类似的推理能力。

　　《每日经济新闻》记者注意到，在这6分钟的视频中，Gemini似乎能够快速识别图像，并在几秒钟的时间内做出反应。然而，如果用户点击发布在YouTube上的这段视频的描述，谷歌写了一个重要的“免责声明”，称“为了达到Gemini的演示目的，延迟已经被人为减少，Gemini的输出时长也为了简洁而被缩短。”这意味着，Gemini实际回答每个问题所花费的时间要比视频演示中的更长。

　　机器学习讲师Santiago Valdarrama在X平台上发文暗示，谷歌上述视频的“免责声明”似乎“展示的是精心挑选的好结果，不是实时录制而是剪辑的。”他直言，“这就是误导，任何参与到其中的人都应该感到尴尬。”

　　此外，谷歌公布的MMLU多任务语言理解数据集测试显示，Gemini Ultra不光超越GPT-4，甚至超越了人类专家。然而，不少业内专家发现，在MMLU测试中，Gemini Ultra的结果下面有灰色小字标CoT@32，代表使用了思维链提示技巧、尝试了32次后选取最好结果。而作为对比的GPT-4，却无提示词技巧，且只尝试了5次。

　　否认造假，Gemini负责人称只是为了简洁缩短了反应时长

　　美国科技媒体The Verge报道中称，公平地说，这并不是大型科技公司首次对其产品演示视频进行剪辑处理，除了谷歌外，其他大型科技公司为了避免现场演示带来任何技术性问题，都会稍微对视频进行调整，这也非常普遍。

　　但对于视频“造假”一说，谷歌坚决予以否认。谷歌DeepMind和深度学习的副总裁、Gemini联合负责人奥里奥尔·维亚莱斯（Oriol Vinyals）在一篇博客文章中，解释了Gemini演示视频的制作过程：性能演示视频不是实时的，而是使用了原始镜头中的静止图像帧，然后编写了文本提示，并要求它通过预测来做出回应。

　　“视频中的所有用户提示和输出都是真实的，只是为了简洁而缩短了（Gemini的反应时长）。这个视频展示了使用Gemini构建的多模式用户体验，我们制作它是为了激励开发者。”维亚莱斯强调。

　　奥尔森对此却并不买账。她在专栏文章中写道：“这与谷歌描述的完全不同——谷歌称，任何人都可以与Gemini进行流畅的语音对话，因为Gemini可以实时观察周遭世界并做出反应。”

　　她同时指出，谷歌官方发布的Gemini各模态性能显示，Gemini Ultra（下图中蓝色部分）在9项标准基准测试中的7项都优于GPT-4。这些基准测试往往用于测试人工智能模型在高中物理、专业法律和道德场景等方面的能力。

　　然而，在大多数基准测试中，Gemini Ultra只比OpenAI的GPT-4高出几个百分点，有些甚至不到1个百分点。奥尔森认为，换句话说，谷歌这个所谓的顶级人工智能模型只对OpenAI一年前完成的工作进行了有限的改进。

　　需要指出的是，谷歌的6分钟Gemini演示视频并没有说明演示的模型是Gemini Ultra。

　　奥尔森认为，一年前，谷歌这个“笨拙的搜索巨头”被OpenAI的ChatGPT打了个措手不及，此后便一直希望赶上生成式人工智能这股浪潮。谷歌希望通过强大的营销让人们记住，它拥有世界上最强大的人工智能研究团队之一，并且比其他任何人都能获得更多的数据。但从技术角度来看，在生成式人工智能方面，谷歌仍然落后于OpenAI。

　　不过，在科技行业，谁也不能保证一直一帆风顺，屹立不倒。早期的手机霸主诺基亚和黑莓就是例子。在苹果推出功能更强大、更受欢迎的产品iPhone后，诺基亚和黑莓的市场份额便迅速被抢走。而在软件领域，市场的成功则来自于拥有最强大性能的系统。

　　（责任编辑：朱晓航）

阅读