Gemini对决GPT-4 谷歌大模型登场

admin 今天 1

默认

摘要： 　　转自：北京商报　　如果说2022年底的人工智能的热潮是OpenAI的ChatGPT带来的，那么2023年底，谷歌带着它的Gemini高调杀回人工智能圈。过去近十年，谷歌一直...

　　转自：北京商报

Gemini对决GPT-4 谷歌大模型登场

　　如果说2022年底的人工智能的热潮是OpenAI的ChatGPT带来的，那么2023年底，谷歌带着它的Gemini高调杀回人工智能圈。过去近十年，谷歌一直把AI-first作为公司战略，2016年打败人类围棋冠军的AlphaGo便是出自谷歌之手。曾经，是谷歌掀起的一股AI浪潮改变了整个AI行业的发展，但现在，它亟需在大模型领域证明自己。

　　多模态

　　当地时间12月6日，谷歌正式发布了Gemini大模型。谷歌CEO桑达尔·皮查伊（Sundar Pichai）称，这是谷歌迄今为止“功能最强大、最通用”的模型。

　　据介绍，Gemini有三种不同版本的套件：最大、最强大的Gemini Ultra，是谷歌目前创造的最强大的大语言模型（Large Language Model，LLM）；适用于广泛任务的 Gemini Pro，将大量为谷歌人工智能服务提供动力，并成为Bard的支柱；以及轻便版本Gemini Nano，可以在安卓设备上原生离线运行。

　　目前，谷歌通过谷歌云将Gemini授权给客户。12月13日起，开发者和企业客户都可以通过谷歌人工智能工作室或谷歌云顶点人工智能中的Gemini API访问Gemini Pro。安卓开发者也可以使用Gemini Nano进行开发。Gemini还支持谷歌产品，如Bard聊天机器人和生成式搜索工具。

　　据The Verge报道，在基准测试中，Gemini最明显的优势来自于它理解视频和音频并与之交互的能力。皮查伊在一篇博文中写道：“Gemini一开始就是为多模态打造的，这意味着它可以生成并理解、操作和组合成不同类型的信息，包括文本、代码、音频、图像和视频。”谷歌DeepMind首席执行官德米斯·哈萨比斯说：“我们一直对通用系统感兴趣，尤其感兴趣的是如何混合所有这些模式——从任何数量的输入和感官中收集尽可能多的数据，然后给出同样多样的响应。”

　　目前Gemini最基本的输入模式依然是文本输入和输出，但Gemini Ultra将可以输入和生成更多的图像和音频。哈萨比斯说：“还有动作和触觉，这些输入和生成，更像是机器人需要的功能。”随着时间的推移，Gemini将变得拥有更多知觉，并变得更加准确和接地气。“模型会更好地理解周围的世界。”

　　除此之外，Gemini已经确定会很快融入到谷歌的业务中。在接下来的几个月中，Gemini将出现在更多谷歌产品和服务中，例如搜索、广告、Chrome和Duet AI。不过Gemini目前只有英语版本，其他语言版本很快就会推出。

　　领先GPT-4？

　　根据谷歌公司此前发布的博文，Gemini Ultra是第一个在大规模多任务语言理解（MMLU）测试中超越人类专家的模型。MMLU测试包括57个学科，例如数学、物理、历史、法律、医学和伦理等，这个测试用于评估模型对世界知识和解决问题的能力。据称，该模型能够理解复杂主题中的微妙之处和推理逻辑。

　　桑达尔·皮查伊表示，Gemini的发布，是人工智能发展的一个重要里程碑，也是谷歌新时代的开始。但人们最关注的问题恐怕还是Gemini和今年3月推出的GPT-4相比，孰优孰劣。

　　谷歌公司高管称，Gemini Pro的表现优于GPT-3.5，但回避了关于它与GPT-4相比的问题。不过，根据谷歌此前发布的一份白皮书，Gemini Ultra在一些基准测试中的表现优于GPT-4。

　　哈萨比斯表示：“我们已经对这两个系统进行了全面的分析和基准测试。谷歌运行了32项成熟的基准测试，对两种模型进行了比较，其中既有多任务语言理解基准测试等整体测试，也有比较两种机型生成Python代码能力的测试。”哈萨比斯说：“我认为，在32项基准测试中，Gemini Ultra有30项大幅领先。”“有些差距很小，有些则比较大。”

　　天使投资人、知名互联网专家郭涛表示，目前而言微软在自然语言处理技术（NLP）成熟度和应用上领先于谷歌，但总体来看，谷歌在AI技术研发及储备上领先于微软，旗下多款AI产品都拥有全球领先的地位，如DeepMind、Waymo、Google Brain等。

　　在郭涛看来，微软与谷歌的AI竞争是下一代信息分发获取方式的竞争，基于认知智能等新技术可实现更高效的信息整合和知识推荐，让信息获取更加高效、内容更加精准。未来或颠覆传统搜索引擎、资讯网站等，成为最重要的信息入口。

　　中泰资本董事王冬伟指出，微软和谷歌在不同领域的AI技术研究和应用都有所侧重。微软在自然语言处理和语言模型方面表现突出，而谷歌则在计算机视觉和图像识别方面具备领先地位。因此，微软可能会在自然语言处理、文本生成、语音识别等领域对谷歌产生冲击，而在计算机视觉、图像识别、自动驾驶等领域可能仍需要进一步发展。

　　利润转化

　　Gemini发布后， 12月7日美股盘前谷歌涨近3%。桑达尔·皮查伊表示，现在已经有数百万人正在使用谷歌产品中的生成式AI，做一年前还做不到的事情。与此同时，开发人员正在使用谷歌的模型和基础架构构建新的生成式AI应用程序，全球的初创公司和企业也正在利用谷歌的AI工具不断成长。

　　因此在Gemini的开发过程中，谷歌也加强了安全审查工作。哈萨比斯介绍，在谷歌的AI原则和产品安全政策基础上，谷歌团队正为Gemini的多模态能力添加新的保护措施。

　　比起大众，投资者更关心的是AI是否能够转化为实际回报。此前在谷歌第三季财报电话会议上，投资者向高管们提出了许多关于如何将人工智能转化为实际利润的问题。

　　从科技巨头们最新的财报来看，只有微软达到了华尔街的预期。有分析指出，微软的优势在于，现有的大部分业务收入都来自于向企业销售软件和云服务，而企业更倾向于尽早为技术付费，因为这些技术可以帮助企业实现从编码、电子表格分析到PPT制作的自动化。

　　大型科技公司正在努力应对将AI产品转变为实际利润的挑战，而运行高级AI模型的成本可能是这一过程中的重大障碍。当前的成本挑战与AI算力有关，这使得AI服务的固定费用模式存在风险，因为增加客户使用量可能会增加运营成本并导致公司出现潜在损失。微软企业战略主管Chris Young也认为，AI的投资回报将需要更多时间。

　　北京商报记者方彬楠赵天舒

阅读