谷歌发布 Gemini 2.5 Pro 新预览版,性能指标大幅提升


谷歌于6月5日推出其迄今为止最智能的模型——Gemini 2.5 Pro的升级预览版。该版本是基于5月份的版本进行了重要升级,并计划在未来几周内作为正式稳定版(GA)向所有用户提供,为企业级规模的应用做好准备。

谷歌CEO Sundar Pichais说道:

它在编程、推理、科学+数学方面表现更佳,在多个关键基准测试(如 AIDER Polyglot、GPQA、HLE 等)中显示出性能提升,并且自上一个版本以来,在 @lmarena_ai 上的 Elo 分数提升了 24 分。

新版Gemini 2.5 Pro在多个权威评测基准上展现了卓越的性能和显著的提升。具体表现如下:

评测基准

Elo评分提升

总分

LMArena

+24分

1470

WebDevArena

+35分

1443

Aider Polyglot

-

82.2%

该模型在编码能力方面持续领先,尤其是在像Aider Polyglot这样的高难度编码基准测试中表现出色。此外,它在评估模型数学、科学、知识和推理能力的极具挑战性的基准测试GPQA和Humanity’s Last Exam(HLE)中,也展示了顶级的性能水平。

除了性能的硬指标提升,谷歌团队还积极响应了社区对上一个2.5 Pro预览版的反馈。新版本在输出风格和结构上进行了改进,能够生成更具创意且格式更优良的回复,提升了用户交互的体验。

开发者现在就可以通过Google AI Studio和Vertex AI中的Gemini API开始使用升级后的2.5 Pro预览版进行构建。

值得一提的是,谷歌在AI Studio和Vertex AI中新增了“思考预算(thinking budgets)”功能,这让开发者能够更好地控制模型的成本和延迟。同时,该更新也已开始在Gemini移动应用中陆续推送给用户。


相關推薦

2025-04-01

谷歌正式推出新一代 AI 模型 Gemini 2.5,主打 “思考 - 验证 - 回答” 的智能推理能力,官方称其为 “目前最智能的 AI 模型”,首个发布的实验性版本为 Gemini 2.5 Pro,已面向 Google AI Studio 和 Gemini 应用的高级版用户(月费 20 美元

2025-08-07

备注 Claude 3.5 Sonnet Anthropic 公司于 2024 年 6 月发布的最新模型 Claude Sonnet 4 thinking Anthropic 公司于 2025 年 5 月发布的最新模型 2. 升级评测模型 模型名称 旧版本 新版本(本次测评使用) Qw

2025-04-01

谷歌宣布免费向所有 Gemini 应用用户提供最新、最先进的 Gemini AI 模型 ——Gemini 2.5 Pro。此前,只有 Gemini Advanced 用户才能使用这一实验模型,而现在,该模型从上周六开始向公众开放。 Gemini 2.5 Pro 由谷歌于上周早些时候推出

2025-05-22

谷歌在 Google I/O 2025 大会上宣布为其旗舰AI模型Gemini 2.5 Pro引入名为“深度思考”(Deep Think)的增强推理模式。该模式允许模型在回应前考虑多个假设和答案,从而提升其在复杂查询,特别是数学和编码相关任务上的表现。 根据

2025-08-08

谷歌 Gemini 命令行工具 (Gemini CLI ) v0.1.18已发布,带来了一系列新功能和改进。 主要变化: 全面提升了Gemini 2.5 Pro的使用额度 新增多目录支持,用户可通过--include-directories参数在启动时加载多个目录,或在运行时使用/dir

2025-06-20

Roo Code 3.21已发布,带来了官方Roo Code Marketplace和20多项改进,其中包括对Gemini 2.5新模型的支持。 新功能上线 Roo Marketplace正式推出 :用户无需实验特性即可在Roo Code内浏览、安装社区创建的模型上下文协议(MCP)服务器和自

2025-04-18

上海人工智能实验室(上海 AI 实验室)升级并开源了通用多模态大模型书生·万象3.0(InternVL3)。 根据介绍,通过采用创新的多模态预训练和后训练方法,InternVL3 多模态基础能力全面提升,在专家级基准测试、多模态性能全面

2025-08-05

谷歌在其官方开发者博客及Google I/O2025大会上宣布,Android Studio正式推出免费的Agent模式,为安卓应用开发引入了革命性的AI辅助功能。这一功能的发布不仅大幅提升了开发效率,还凭借其智能化的交互方式和灵活的自定义规则支

2025-07-23

谷歌Gemini模型的原生文本转语音(TTS)功能已适用于规模化的生产环境,该功能目前支持Gemini 2.5 Flash和Gemini 2.5 Pro两个模型。 https://x.com/OfficialLoganK/status/1947328086577492309 据官方人员透露,这项强大的功能适用于多种用例

2025-07-24

度2。 🌐 总结:重新定义开发自主权 VTJ.PRO v0.12.65 的发布,首次将AI模型选择权彻底交予开发者。通过开放架构与智能仲裁机制,既保障了生成代码的可靠性,又释放了多模型协作的无限潜力,推动低代码开发进入“自主配

2025-08-22

Gemini Live 是谷歌推出的实时 AI 语音助手,支持语音与视觉互动,用户可通过摄像头或屏幕共享与 AI 对话。它能实时识别画面内容并回应,例如看到物品可询问信息,看到日程可添加提醒。 近日,谷歌宣布 Gemini Live 迎来重

2025-08-20

谷歌宣布其Gemini API中的URL Context工具已正式支持直接抓取 URL 内容,无需额外脚本或中间步骤。 Gemini API 提供了 URL Context 功能,允许你在请求中直接嵌入网页链接,模型会自动访问并解析网页内容。支持的内容类型包括:

2023-11-01

苹果今天在“来势迅猛”发布会上正式官宣 M3、M3 Pro、M3 Max 芯片,是首款采用 3 纳米工艺技术的 PC 芯片。 苹果介绍称,M3 系列芯片搭载的新一代图形处理器实现了 Apple 芯片史上最大幅的图形处理器架构飞跃。这款图形处理

2025-07-31

商汤科技在WAIC 2025上发布了“日日新SenseNova V6.5”大模型体系,其推理和多模态能力超越多个主流模型,且性价比提升3倍。 日日新V6.5重点升级了强推理、高效率和智能体三大能力。该模型在国内率先突破图文交错思维链技