【原创长文】关于Gemini 2.5 Pro,你想知道的一切。250401:2.5pro支持Canvas拉【长期更新】

参数

1m上下文(未来支持2m),64k输出(含推理),与2.0flash-thinking基本一样

支持搜索

多模态,支持识别图片,音频,视频

暂不支持画图,视频生成,音频生成,缓存

训练知识:截止到25年1月

推理过程:自动控制推理长度
如果简单的事实性问题,推理非常短非常快,速度与非推理模型相近
用英文推理,显示全部推理过程
与其他推理模型有个区别,2.5pro有时候可以同时输出搜索或推理过程和结果,而不需要等全部推理完。动态根据推理过程修改结果

暂时只有exp版,免费,没有正式版,所以也没有API价格

API Free Tier每天限50次,2RPM

Chat版普号暂没有2.5pro,可以免费升级Advanced会员一个月试用

Advanced会员貌似不限量

来源:Gemini 2.5: Our newest Gemini model with thinking

为什么2.0-pro正式版不出,就直接2.5-pro了?

我猜现在grok3,claude3.7,gpt5都明确是非推理+推理混合模型了,这已经是大势所趋,非推理的2.0-pro正式版,即便出来了也是落伍,2.0-pro-exp性能现在也没有优势了,用户对他也没有好奇心了,exp了好几个月,最佳上线时机已经错过了,google干脆一步到位,就上混合模型叫2.5-pro了,所以应该也不会再有2.0-pro正式版,2.0-pro-thinking或2.5-pro-thinking了
在Advanced会员中,2.0-pro-exp已经被下架了


渠道

2.5pro几天前就已经在Lmarena上,以Nebula的代号,匿名上线了

当时不能在Direct talk里选,也不显示在排行榜里,但是在AB盲测时,AI回答完,用户选择哪个较好之后,会显示模型名字,就有一定几率碰到Nebula
提问“你是谁”,可以证明是Google的推理模型
之前被认为是Gemini-2.0-pro-thinking,现在看应该是2.5-pro

Gemini Advanced会员里250325开始灰度推送,250326凌晨全部推送



如果普号没有Advanced会员,可以申请试用一个月,或者使用AI Studio

AI Studio里250326凌晨已上线

应该是所有人都有,不用灰度推送

官网API 250326凌晨已上线

Lmarena Direct Chat已上线

OpenRouter250326凌晨2点已上线(免费)

来源:OpenRouter


评分

官方发的评分

Lmarena评分

总榜第一,断档领先第二名39分
所有单项榜也都是第一,有点猛
中文比第二名多75分,相当于第2名和第13名之间的分数差值
来源:https://lmarena.ai/?leaderboard





Livebench断崖式第一 250327 0:10更新

佬友Mozi的区分题库,2.5pro全答对

来源:区分题库已经完成对Gemini 2.5 Pro的测试,结果为全对,2.5Pro在未来Livebench的成绩应该会很亮眼

fiction.live长上下文性能抗衰减能力评分,250326 11:00更新

所有大模型的性能都会随上下文增加而衰减,但衰减速度不同
2.5pro在120k(约12万字)上下文时性能保持率,也是断崖式第一
来源:Fiction.live

aider编程评分,250326 11:15更新

来源:Aider LLM Leaderboards | aider

佬友PSP的AI天梯图,加入2.5pro

来源:大模型综合性能天梯定位表,个人主观看法(已更新Gemini-2.5-Pro-Exp-0325,GPT-4o-0328)

门萨智商测试(Mensa Norway)分数 250326 12:00更新

智商测试网站嘛,看个乐子,不要太较真,与AGI什么的没太大关系

人与人可以比智商,AI与AI可以比智商,人和AI智力不是一种类型,不好直接比较

这个网站有两种测试结果,一种Mensa Norway在线测试,一种Offline测试
Offline的IQ比Mensa Norway的分数普遍低很多,原因不明

一共36题,每道题都会统计各个模型能否作对

一般测试几次取平均值,结果可能有一定的随机性

来源:IQ Test | Tracking AI

音视频识别能力测试 250326 13:00更新

试了下中文没有软字幕(即作者没有上传字幕文件)的视频,应该是语音识别,识别8分钟需要1分钟,识别准确率挺高的

2.5pro实际最大输出问题,250326 15:00更新

以下是个人测试,官方并没有明确说明,如有不符,感谢指正

一般思考模型的输出是硬性划分推理token数和最终输出token数的
比如r1总输出上限是24ktokens,是硬性预留16k推理token的,最终输出上限实际只能达到8k,哪怕思考只有1k,也不会增加最终输出token上限

同理o3-mini和o1总输出100k,最终输出上限硬性16k

2.0flash-thinking总输出64k,最终输出上限硬性24k

但是3.7和2.5pro貌似是弹性划分思考和最终输出token数的,就是只要token总数不超标,推理token和最终输出token没有硬性预留

3.7输出是弹线划分64k(貌似参数换beta版模型后,可以128k)

2.5pro输出貌似是弹线划分64k

刚才AIStudio做了个测试,输入一整本书(11万字),要求一字不差复述,这种完全没有推理token,只有最终输出,输出到64kt处截断

大输出的用途

翻译:一本十万字的书,2.5pro或3.7一次输出5万字,两次就翻译完了,其他模型只有比如8k输出,10万字要一直"继续"13次,每两次"继续"之间还要等他输出几分钟,一共可能要"继续"个半小时到一小时
如果用api的话,继续13次等于上传13次原文,token消耗就是13倍,浪费严重(除非你做原文切割可以减少token浪费)

超长代码输出

超长写作:比如写小说

深度研究
比如以前1.5pro和2.0flash-thinking的深度研究一般只有几千字,o3 Deep research是1.5~2万字,先不说质量,就字数都差了好几倍
等到Gemini Deep research换了2.5pro之后,理论上输出字数和质量都可以大幅提升

实际上佬友PSP直接用2.5pro模拟深度研究,输入用深度研究提示词,输出也能有一万多字,而且质量比2.0flash-thinking的Deep research还要高,毕竟底模差距摆在那
来源:https://linux.do/t/topic/514059

哪个版本是满血版测试 250326 18:00更新

结论:AIStudio能稳定输出64kt
API加参数后,最多能输出60kt但有时会截断,不如AIStudio输出稳定

方法:输入一本书,11万字中文(80ktokens),要求翻译英文,提示词相同

Gemini网页版
第一次思考5k单词,最终输出19k单词截断,总输出24k单词(约32kt)
第二次思考2k单词,最终输出23k单词截断,总输出25k单词(约32kt)
截断没有任何提示,按钮一直是方块状态
各大模型,通常Chat版的上下文和最大输出,都少于API,2.5pro的Chat版能输出这么多,已经很好了。其他模型chat版一般最终输出最大也就4~8k左右

AIStudio
使用默认设置
第一次输出思考10k单词,最终输出40k单词截断,合计50k单词(约64kt),600s
第一次输出思考5k单词,最终输出46k单词截断,合计51k单词(约64kt),566s
截断有时显示internal error或exceed quota,有时不显示
微信图片_20250326181651

官网API+Cherry
Ⓐ默认设置:8k截断
Ⓑ加max_output_tokens=65536参数:可以输出61ktokens,但有时503错误

OpenRouter API+Cherry
Ⓐ默认设置:Cherry不显示思考过程,总输出16ktokens
Ⓑ加max_output_tokens=65536参数:可以输出61ktokens,
但OpenRouter输出不太稳定,有时4k也会截断
另外不能连续提问,提问一次之后要等几分钟。容易显示429或524错误

微信图片_20250326193427

150 个赞

这个我真想用啊

21 个赞


确实有,新模型

19 个赞

佬友测试效果怎么样

13 个赞

请问酒馆哪个双子座最好用

12 个赞

gemini-2.0-pro吧

13 个赞

涩涩可能会截断

12 个赞

就是我之前那个自驾游的问题能一次答对,感觉挺厉害的,其他模型全军覆没。在测那个wiki里没模型能做出来的题一会看看,答了挺久,gemini官网公式一多直接卡死了

13 个赞

每个都会吗

10 个赞

双子座写太暴露的就直接截断了,输出几个字

6 个赞

不知道定位是在通用高智能还是强大推理 :melting_face:

7 个赞

隐讳的话好一点,露骨点的,首字直接截断。

7 个赞

请问除了Claude还有那个可以选择

13 个赞

请问还有哪个可以选择

15 个赞

我很少搞这个 :nerd_face:玩不太明白,直接就偶尔试试越狱

19 个赞

到底有哪个大神可以为我指点迷津啊

21 个赞

等grok 3 api发布 那个尺度无敌 :joy:

22 个赞

Gemini app那里思考链和渲染一直都是半血的,看了2.5也是,就看上不上ai studio,上的话才知道真实能力如何

22 个赞

所以现在连个第二都没有吗,要是grok贵过Claude怎么办

23 个赞

o1-pro出了,新版v3出了,gemini2.5pro也出了。Grok3 api还没出 :innocent:

30 个赞