Google发布Gemini 2.5 Deep Think

Connor 火币交易所 2025-09-30 15 0

Deep Think基于与Gemini 2.5 Pro相同的基础架构，但通过更大规模的并行分析增加了"思考时间"。据Google介绍，Deep Think会探索解决问题的多种方法，甚至会重新审视和重组它生成的各种假设。这一过程帮助它产出更高质量的答案。

与其他重量级Gemini工具类似，Deep Think需要几分钟时间才能给出答案。这显然让AI在设计美学、科学推理和编程方面更加出色。Google已经用常规基准测试对Deep Think进行了评估，结果显示它超越了标准的Gemini 2.5 Pro以及OpenAI o3和Grok 4等竞争模型。Deep Think在"人类最后考试"基准测试中表现尤其突出，这是一个包含2500个复杂多模态问题的测试集，涵盖100多个学科。其他模型的得分最高只达到20%或25%，而Gemini 2.5 Deep Think取得了34.8%的成绩。

数学是Deep Think的一个重要专长领域，它在AIME基准测试中也展现了强劲表现。不过，这方面仍有改进空间。Google最近透露，它使用了经过特殊训练的Deep Think版本参加国际数学奥林匹克竞赛（IMO），这个版本可以持续思考数小时才给出解决方案。该模型首次赢得了IMO金牌。Google目前只将IMO版本的Deep Think分发给可信测试人员，但希望稍后更广泛地发布。与此同时，标准版Deep Think在2025年IMO测试中仍能达到铜牌水平。

Q&A

Q1：Gemini 2.5 Deep Think与普通版本有什么区别？

A：Deep Think基于Gemini 2.5 Pro架构，但通过更大规模的并行分析增加了"思考时间"。它会探索解决问题的多种方法，重新审视和重组生成的假设，产出更高质量的答案，但需要几分钟才能给出回应。

Q2：哪些用户可以使用Gemini 2.5 Deep Think？

Q3：Gemini 2.5 Deep Think在数学方面表现如何？

A：Deep Think在数学领域表现出色，在AIME基准测试中有强劲表现。特殊训练版本甚至首次赢得了国际数学奥林匹克竞赛金牌，标准版本也能在2025年IMO测试中达到铜牌水平。