Gemini 3.1 Pro 发布:推理能力翻倍,重回 AI 模型领导者地位

2026 年 2 月 19 日,Google 宣布推出 Gemini 3.1 Pro,这是对 Gemini 3 Pro 的重大升级版,在三大领域带来了显著突破:逻辑推理、编码能力和智能 Agent 功能。最令人震撼的是其推理能力实现了翻倍提升,在多个关键评测中重新夺回榜首,成功赋能开发者、企业与消费者。

推理能力翻倍:性能大跃进

Gemini 3.1 Pro 在多个重要评测指标中表现优异。例如,在 推理能力方面,新版本的 ARC-AGI-2 测试得分从 31.1% 跃升至 77.1%,实现了翻倍增长。相比之下,Claude Opus 4.6 的得分为 68.8%,而 GPT-5.2 的得分为 52.9%。

在 Humanity's Last Exam(高级学术推理)评测中,Gemini 3.1 Pro 的表现再次突出,得分高达 44.4%,超过 GPT-5.2 的 34.5% 和 Claude Sonnet 4.6 的 33.2%。此外,其 GPQA Diamond(科学知识)得分更是高达 94.3%,成为目前最高分的 AI 模型。

智能编码:深度优化程序设计

在编码领域,Gemini 3.1 Pro 同样将性能推向了新高度。根据 LiveCodeBench Pro 测试,其 Elo 分数从 2439 提升至 2887。这个分值远高于竞技对手 GPT-5.2 的 2393,也领先市场主流模型。

此外,在更为实际的 SWE-Bench Verified(实际代码修复)评测中,Gemini 3.1 Pro 得分达 80.6%,与 Claude Opus 4.6 的 80.8% 相差无几,这说明顶尖 AI 模型在工程领域的表现已不相上下。

Agent 功能再升级:复杂任务的新助力

对于长链专业任务,Gemini 3.1 Pro 做到了质的飞跃。在 APEX-Agents 的评分从 18.4% 提升到了 33.5%,再一次接近翻倍的增幅,反超了 Claude Opus 4.6 的 29.8%。

模型在 BrowseComp(Agent 搜索)的得分上也同样出色,以 85.9% 位居第一。加之全新的 gemini-3.1-pro-preview-customtools 端点,允许开发者自定义混合使用 bash命令和函数,这必将为复杂任务实现赋予更多高效的可能性。

开发者的新期待:更多功能更新

Google 还面向开发者提供了许多令人兴奋的更新。例如,API更新(如文件上传限制的提升)和输入上下文容量增加到了 100 万 token。此外,支持直接输入 YouTube URL 以分析视频,为构建多模态模型提供了更便利的支持。开发者还可通过工具如 Gemini API、Gemini CLI 和 Vertex AI 高效集成这些新功能。

价格不变:性价比优势显著

尽管功能定级提升,Gemini 3.1 Pro 的拥有人性化的定价策略。其使用定价与 Gemini 3 Pro 一致,每百万个 token 的输入费用为 $2,输出费用为 $12,处于市场的高性价比区间。相比之下,Claude Opus 4.6 和 GPT-5.2 的定价分别为 $5/$25 和 $1.25/$10。

对于普通用户,可选择通过 Gemini app 或 NotebookLM 使用,需要订阅 Google AI Pro($19.99/月)或 Ultra($124.99/月)。企业和开发者也可通过多种平台访问,模型标识符为 gemini-3.1-pro-preview。

总结

凭借倍增的推理能力,显著的编码提升,以及优化的 多模态模型支持,Gemini 3.1 Pro 将重新定义 AI 模型的应用价值和性能标准。在保持价格的同时带来显着性能提升,这一升级无疑将推动 AI 行业向前迈进一大步,无论是企业的商业应用还是普通用户的个人创造,都将从中受益。

文章评论

登录后才能发布评论哦
立即登录/注册
消息提醒
Hello, world! This is a toast message.