谷歌发布Gemini 2.0 Pro:多模态,编程能力炸裂!

谷歌 DeepMind 宣布,Gemini 2.0 现已向所有人开放!本次发布带来了一系列更新和新模型,旨在为开发者和用户提供更强大、更快速、更具成本效益的 AI 体验,重点是推出了Gemini 2.0 Pro全新模型。

AI大神Jeff Dean 盛赞 Gemini 2.0 Pro 的编程能力

谷歌发布Gemini 2.0 Pro:多模态,编程能力炸裂!

谷歌首席科学家,人工智能大神 Jeff Dean 分享了他对 Gemini 2.0 Pro 编程能力的惊叹。他表示:“我喜欢 Boggle 游戏(一种填字游戏)。这个演示展示了我们的 Gemini 2.0 Pro 模型在 AI Studio 中的编码能力。令人难以置信的是,它可以通过一个相对简单的提示,编写出完整的代码,包括所有正确的数据结构和搜索算法,以在 Boggle 游戏板上找到所有有效的单词。作为一名计算机科学家,我也很高兴它第一次就正确地完成了数据结构。” 他还幽默地用了 “Discombobulating!” (令人困惑/震惊)来形容。

看起来 Gemini 2.0 Pro 在代码生成方面的强大实力,即使是复杂的算法和数据结构也能轻松应对。

主要亮点:

Gemini 2.0 Flash 全面可用: 12 月发布的实验性版本 Gemini 2.0 Flash 现已正式推出。这款高效的模型以低延迟和增强的性能著称,是开发者的理想选择。现在,开发者可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 构建生产级应用

Gemini 2.0 Pro Experimental 发布: 这是一款实验性的新模型,专为代码性能和复杂提示而优化。它在代码生成、理解复杂问题、推理能力方面表现出色,拥有高达 200 万个 token 的上下文窗口,能够分析和理解大量信息。Gemini Advanced 用户可以在 Gemini 应用中体验这款模型

Gemini 2.0 Flash-Lite 亮相: 这是 Gemini 2.0 系列中最具成本效益的模型。它在保持与 1.5 Flash 相同速度和成本的同时,提供了更高的质量,并在大多数基准测试中超越了 1.5 Flash。它同样支持 100 万 token 的上下文窗口和多模态输入

2.0 Flash Thinking Experimental 面向 Gemini 应用用户: 此前在 Google AI Studio 中提供的 2.0 Flash Thinking Experimental 模型现在也向 Gemini 应用用户开放,用户可以在桌面和移动端的模型下拉菜单中选择使用

多模态能力: 所有这些模型在发布时都将支持多模态输入(文本输出),并在未来几个月内提供更多模态的全面支持

模型性能对比:

谷歌提供了一个详细的表格,对比了 Gemini 1.5 Flash、1.5 Pro、2.0 Flash-Lite、2.0 Flash 和 2.0 Pro Experimental 在多个基准测试中的性能。以下是一些关键指标:

能力基准测试Gemini 1.5 FlashGemini 1.5 ProGemini 2.0 Flash-LiteGemini 2.0 FlashGemini 2.0 Pro Experimental
通用MMLU-Pro67.3%75.8%71.6%77.6%79.1%
代码LiveCodeBench (v5)30.7%34.2%28.9%34.5%36.0%
Bird-SQL (Dev)45.6%54.4%57.4%58.7%59.3%
推理GPQA (diamond)51.0%59.1%51.5%60.1%64.7%
事实性SimpleQA8.6%24.9%21.7%29.9%44.3%
FACTS Grounding82.9%80.0%83.6%84.6%82.8%
多语言Global MMLU (Lite)73.7%80.8%78.2%83.4%86.5%
数学MATH77.9%86.5%86.8%90.9%91.8%
HiddenMath47.2%52.0%55.3%63.5%65.2%
长上下文MRCR (1M)71.9%82.6%58.0%70.5%74.7%
图像MMMU62.3%65.9%68.0%71.7%72.7%
音频CoVoST2(21 lang)37.440.138.439.040.6
视频EgoSchema (test)66.8%71.2%67.2%71.1%71.9%

写在最后

这次发布的的重点Gemini 2.0 Pro,从现有的信息来看,没有达到我的预期,本以为2.0 Pro会是谷歌的一个杀手锏,至于编程能力究竟和OpenAI o3 mini high,Claude 3.5 sonnet,DeepSeek R1那个更强,还有待遇进一步测试

但是谷歌依旧很良心,模型全部免费使用,Gemini 2.0 Pro每天50次提问,其他都是1500次免费额度

谷歌发布Gemini 2.0 Pro:多模态,编程能力炸裂!
参考:
https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/

来源:AI寒武纪