【原创长文】关于Gemini 2.5 Pro，你想知道的一切。250401：2.5pro支持Canvas拉【长期更新】

dwqxq1 · 2025 年3 月 25 日 15:14

参数

1m上下文（未来支持2m），64k输出（含推理），与2.0flash-thinking基本一样

支持搜索

多模态，支持识别图片，音频，视频

暂不支持画图，视频生成，音频生成，缓存

训练知识：截止到25年1月

推理过程：自动控制推理长度
如果简单的事实性问题，推理非常短非常快，速度与非推理模型相近
用英文推理，显示全部推理过程
与其他推理模型有个区别，2.5pro有时候可以同时输出搜索或推理过程和结果，而不需要等全部推理完。动态根据推理过程修改结果

暂时只有exp版，免费，没有正式版，所以也没有API价格

API Free Tier每天限50次，2RPM

Chat版普号暂没有2.5pro，可以免费升级Advanced会员一个月试用

Advanced会员貌似不限量

来源：Gemini 2.5: Our newest Gemini model with thinking

为什么2.0-pro正式版不出，就直接2.5-pro了？

我猜现在grok3，claude3.7，gpt5都明确是非推理+推理混合模型了，这已经是大势所趋，非推理的2.0-pro正式版，即便出来了也是落伍，2.0-pro-exp性能现在也没有优势了，用户对他也没有好奇心了，exp了好几个月，最佳上线时机已经错过了，google干脆一步到位，就上混合模型叫2.5-pro了，所以应该也不会再有2.0-pro正式版，2.0-pro-thinking或2.5-pro-thinking了
在Advanced会员中，2.0-pro-exp已经被下架了

渠道

2.5pro几天前就已经在Lmarena上，以Nebula的代号，匿名上线了

当时不能在Direct talk里选，也不显示在排行榜里，但是在AB盲测时，AI回答完，用户选择哪个较好之后，会显示模型名字，就有一定几率碰到Nebula
提问“你是谁”，可以证明是Google的推理模型
之前被认为是Gemini-2.0-pro-thinking，现在看应该是2.5-pro

Gemini Advanced会员里250325开始灰度推送，250326凌晨全部推送

如果普号没有Advanced会员，可以申请试用一个月，或者使用AI Studio

AI Studio里250326凌晨已上线

应该是所有人都有，不用灰度推送

官网API 250326凌晨已上线

Lmarena Direct Chat已上线

OpenRouter250326凌晨2点已上线（免费）

来源：OpenRouter

评分

官方发的评分

Lmarena评分

总榜第一，断档领先第二名39分
所有单项榜也都是第一，有点猛
中文比第二名多75分，相当于第2名和第13名之间的分数差值
来源：https://lmarena.ai/?leaderboard

Livebench断崖式第一 250327 0:10更新

佬友Mozi的区分题库，2.5pro全答对

来源：区分题库已经完成对Gemini 2.5 Pro的测试，结果为全对，2.5Pro在未来Livebench的成绩应该会很亮眼

fiction.live长上下文性能抗衰减能力评分，250326 11：00更新

所有大模型的性能都会随上下文增加而衰减，但衰减速度不同
2.5pro在120k（约12万字）上下文时性能保持率，也是断崖式第一
来源：Fiction.live

aider编程评分，250326 11:15更新

来源：Aider LLM Leaderboards | aider

佬友PSP的AI天梯图，加入2.5pro

来源：大模型综合性能天梯定位表，个人主观看法（已更新Gemini-2.5-Pro-Exp-0325，GPT-4o-0328）

门萨智商测试(Mensa Norway)分数 250326 12:00更新

智商测试网站嘛，看个乐子，不要太较真，与AGI什么的没太大关系

人与人可以比智商，AI与AI可以比智商，人和AI智力不是一种类型，不好直接比较

这个网站有两种测试结果，一种Mensa Norway在线测试，一种Offline测试
Offline的IQ比Mensa Norway的分数普遍低很多，原因不明

一共36题，每道题都会统计各个模型能否作对

一般测试几次取平均值，结果可能有一定的随机性

来源：IQ Test | Tracking AI

音视频识别能力测试 250326 13:00更新

试了下中文没有软字幕（即作者没有上传字幕文件）的视频，应该是语音识别，识别8分钟需要1分钟，识别准确率挺高的

2.5pro实际最大输出问题，250326 15:00更新

以下是个人测试，官方并没有明确说明，如有不符，感谢指正

一般思考模型的输出是硬性划分推理token数和最终输出token数的
比如r1总输出上限是24ktokens，是硬性预留16k推理token的，最终输出上限实际只能达到8k，哪怕思考只有1k，也不会增加最终输出token上限

同理o3-mini和o1总输出100k，最终输出上限硬性16k

2.0flash-thinking总输出64k，最终输出上限硬性24k

但是3.7和2.5pro貌似是弹性划分思考和最终输出token数的，就是只要token总数不超标，推理token和最终输出token没有硬性预留

3.7输出是弹线划分64k（貌似参数换beta版模型后，可以128k）

2.5pro输出貌似是弹线划分64k

刚才AIStudio做了个测试，输入一整本书（11万字），要求一字不差复述，这种完全没有推理token，只有最终输出，输出到64kt处截断

大输出的用途

翻译：一本十万字的书，2.5pro或3.7一次输出5万字，两次就翻译完了，其他模型只有比如8k输出，10万字要一直"继续"13次，每两次"继续"之间还要等他输出几分钟，一共可能要"继续"个半小时到一小时
如果用api的话，继续13次等于上传13次原文，token消耗就是13倍，浪费严重（除非你做原文切割可以减少token浪费）

超长代码输出

超长写作：比如写小说

深度研究
比如以前1.5pro和2.0flash-thinking的深度研究一般只有几千字，o3 Deep research是1.5~2万字，先不说质量，就字数都差了好几倍
等到Gemini Deep research换了2.5pro之后，理论上输出字数和质量都可以大幅提升

实际上佬友PSP直接用2.5pro模拟深度研究，输入用深度研究提示词，输出也能有一万多字，而且质量比2.0flash-thinking的Deep research还要高，毕竟底模差距摆在那
来源：https://linux.do/t/topic/514059

哪个版本是满血版测试 250326 18:00更新

结论：AIStudio能稳定输出64kt
API加参数后，最多能输出60kt但有时会截断，不如AIStudio输出稳定

方法：输入一本书，11万字中文（80ktokens），要求翻译英文，提示词相同

Gemini网页版
第一次思考5k单词，最终输出19k单词截断，总输出24k单词（约32kt）
第二次思考2k单词，最终输出23k单词截断，总输出25k单词（约32kt）
截断没有任何提示，按钮一直是方块状态
各大模型，通常Chat版的上下文和最大输出，都少于API，2.5pro的Chat版能输出这么多，已经很好了。其他模型chat版一般最终输出最大也就4~8k左右

AIStudio
使用默认设置
第一次输出思考10k单词，最终输出40k单词截断，合计50k单词（约64kt），600s
第一次输出思考5k单词，最终输出46k单词截断，合计51k单词（约64kt），566s
截断有时显示internal error或exceed quota，有时不显示
微信图片_20250326181651

官网API+Cherry
Ⓐ默认设置：8k截断
Ⓑ加max_output_tokens=65536参数：可以输出61ktokens，但有时503错误

OpenRouter API+Cherry
Ⓐ默认设置：Cherry不显示思考过程，总输出16ktokens
Ⓑ加max_output_tokens=65536参数：可以输出61ktokens，
但OpenRouter输出不太稳定，有时4k也会截断
另外不能连续提问，提问一次之后要等几分钟。容易显示429或524错误

微信图片_20250326193427

fangyuan99 · 2025 年3 月 25 日 15:15

这个我真想用啊

PoseidonLi0514 · 2025 年3 月 25 日 15:16

确实有，新模型

chunkBurst · 2025 年3 月 25 日 15:17

佬友测试效果怎么样

wwow · 2025 年3 月 25 日 15:17

请问酒馆哪个双子座最好用

chunkBurst · 2025 年3 月 25 日 15:17

gemini-2.0-pro吧

tiga6367 · 2025 年3 月 25 日 15:18

涩涩可能会截断

PoseidonLi0514 · 2025 年3 月 25 日 15:21

就是我之前那个自驾游的问题能一次答对，感觉挺厉害的，其他模型全军覆没。在测那个wiki里没模型能做出来的题一会看看，答了挺久，gemini官网公式一多直接卡死了

wwow · 2025 年3 月 25 日 15:22

每个都会吗

PoseidonLi0514 · 2025 年3 月 25 日 15:22

双子座写太暴露的就直接截断了，输出几个字

chunkBurst · 2025 年3 月 25 日 15:22

不知道定位是在通用高智能还是强大推理

tiga6367 · 2025 年3 月 25 日 15:22

隐讳的话好一点，露骨点的，首字直接截断。

wwow · 2025 年3 月 25 日 15:22

请问除了Claude还有那个可以选择

wwow · 2025 年3 月 25 日 15:23

请问还有哪个可以选择

PoseidonLi0514 · 2025 年3 月 25 日 15:23

我很少搞这个玩不太明白，直接就偶尔试试越狱

wwow · 2025 年3 月 25 日 15:24

到底有哪个大神可以为我指点迷津啊

tiga6367 · 2025 年3 月 25 日 15:24

等grok 3 api发布那个尺度无敌

YU_TAKASAKI · 2025 年3 月 25 日 15:24

Gemini app那里思考链和渲染一直都是半血的，看了2.5也是，就看上不上ai studio，上的话才知道真实能力如何

wwow · 2025 年3 月 25 日 15:24

所以现在连个第二都没有吗，要是grok贵过Claude怎么办

chunkBurst · 2025 年3 月 25 日 15:25

o1-pro出了，新版v3出了，gemini2.5pro也出了。Grok3 api还没出

话题		回复	浏览量
大模型综合性能天梯定位表，个人主观看法（已更新Gemini-2.5-Pro-Exp-0325，GPT-4o-0328）文档共建人工智能	105	3086	2025 年3 月 28 日
一道小五奥数题，o1，Kimi数学版，豆包全军覆没，我懵了开发调优人工智能	69	2356	2025 年3 月 8 日
gemini-2.0-flash-thinking-exp-01-21 强的离谱搞七捻三人工智能	65	2682	2025 年3 月 23 日
【投票&评测】选出你认为最好的AI搜索工具！（第一轮评测结果发布）开发调优人工智能	38	1654	2025 年3 月 7 日
gemini-2.5-pro疑似正在推送中前沿快讯人工智能	116	1324	2025 年3 月 26 日