
就在昨天(2月19日),Google官方博客正式宣布推出Gemini 3.1 Pro,这是Gemini 3系列的最新迭代版本,被定位为“专为最复杂任务打造的更聪明模型”。作为Gemini家族的旗舰升级款,它在核心推理能力上实现了显著飞跃,尤其适合那些“简单答案不够用”的高难度场景。
根据Google DeepMind和Vertex AI的官方数据,Gemini 3.1 Pro在多项严苛基准上大幅领先前代Gemini 3 Pro,甚至在某些项目上直接翻倍:ARC-AGI-2(抽象推理难题,ARC Prize验证集):77.1% —— 前代Gemini 3 Pro仅31.1%,直接提升超过2倍!这几乎是目前公开模型中的顶级抽象推理成绩。
GPQA Diamond(科学知识,无工具):94.3% —— 继续保持极高水准。
Humanity's Last Exam(高级领域知识):44.4% —— 比Gemini 3 Pro的37.5%更高,也超过OpenAI的GPT-5.2(34.5%)。
Terminal-Bench 2.0(代理式终端编码):68.5%。
SWE-Bench Verified(真实软件工程):80.6%。
MMMLU(多模态理解):92.6%。
简单来说,Gemini 3.1 Pro在“思考”过程(thinking tokens)和长时序复杂任务上的可靠性大幅提升,特别适合构建自主代理(agentic workflows)、处理海量多模态数据(文本+音频+图像+视频+代码仓库),上下文窗口依然保持1M token级别,轻松吃下整个代码库或巨型文档。相比之前的Gemini 2.5 Pro或3 Pro,这次的3.1版更像是“内核重构”后的产物:幻觉更少、工具调用更精准、长链推理更稳。
)
)
)
)
)
)
)
(阅读日历手抄报))
)
)
)
)
)
)
)
)