【原创长文】关于Gemini 2.5 Pro,你想知道的一切。250409:2.5pro版Deep research上线,最强文生视频Veo2上线Gemini app【长期更新】

2.5pro版Deep research上线 250409 12:10更新

$20会员有

免费版貌似暂时还是老的Deep research(2.0flash thinking)

下图官方评测,自称比O3 Deep research更好

官网稿:Deep Research is now available on Gemini 2.5 Pro Experimental.
评测:Gemini2.5pro深度研究于4/9日5点全面推出,这里是一些例子的体验分享

Gemini App免费会员限量下调 250408 09:20更新

现在貌似是每8小时5次2.5pro,应该是各家第一方免费会员里,使用次数最少的

这也能看出Gemini的免费策略,并不是真免费。Gemini从未放弃过$20会员这种盈利模式,只是以前模型不给力,没多少人买他家会员,用aistudio,各种exp版为名义长期免费只是为了保住市场的权宜之计而已

现在2.5扬眉吐气了,绝对不会免费给普通用户大量使用,给用户5次尝尝鲜,还想用就交钱

AIStudio是给开发人员用的,也没有手机app,估计以后早晚也要收口,改为消耗自己API

Gemini的免费,与Deepseek的顶级模型不限量免费是有本质区别的

Veo2上线Gemini app 250405 15:00更新

$20会员可以用,限量暂不确定,免费会员可以试用advanced会员一个月
免费会员暂不可用
AIStudio里没有Veo2

Veo2是现在文生视频三强之一,另量强是Hailuo和Kling。
Veo画质更强但超级贵,原来API大概要$2.5/5s。Hailuo/Kling功能强性价比更高

现在Gemini在文生文,文生图,文生视频都有争第一的实力,Google吃了OpenAI两年瘪,终于支棱起来了

2.5-pro-exp改名preview,收费API上线了 250405 08:00更新

收费版输入$1.25,输出$10,需要Tier1,每天限制1000次。免费还是一天25次
参考1.5pro是$1.25/$5,涨价将近一倍,
2.0pro没出过收费API
4o是$2.5/$10
3.7是$3/$15

在官网和OpenRouter已上线

速度达到200tps,跟2.0flash差不多,参考新4o是140tps,o3-mini是110tps,3.7是60tps,

▣

gemini app版2.5 pro支持canvas啦 250401 10:00更新

类似ChatGPT canvas,Claude artifact,用于文本编辑,编程,代码运行测试等

免费会员和$20会员都有,如果没有就刷新下页面试试

aistudio无此功能

参考2.0flash的Canvas视频,与2.5pro功能差不多,但性能2.5强很多
链接:对比评测 | Google Gemini AI 新出的 Canvas VS Claude Artifacts_哔哩哔哩_bilibili


参数

1m上下文(未来支持2m),64k输出(含推理),与2.0flash-thinking基本一样

支持搜索

多模态,支持识别图片,音频,视频

暂不支持画图,视频生成,音频生成,缓存

训练知识:截止到25年1月

推理过程:自动控制推理长度
如果简单的事实性问题,推理非常短非常快,速度与非推理模型相近
用英文推理,显示全部推理过程
与其他推理模型有个区别,2.5pro有时候可以同时输出搜索或推理过程和结果,而不需要等全部推理完。动态根据推理过程修改结果

暂时只有exp版,免费,没有正式版,所以也没有API价格

API Free Tier每天限50次,2RPM

Chat版普号暂没有2.5pro,可以免费升级Advanced会员一个月试用

Advanced会员貌似不限量

来源:Gemini 2.5: Our newest Gemini model with thinking

为什么2.0-pro正式版不出,就直接2.5-pro了?

我猜现在grok3,claude3.7,gpt5都明确是非推理+推理混合模型了,这已经是大势所趋,非推理的2.0-pro正式版,即便出来了也是落伍,2.0-pro-exp性能现在也没有优势了,用户对他也没有好奇心了,exp了好几个月,最佳上线时机已经错过了,google干脆一步到位,就上混合模型叫2.5-pro了,所以应该也不会再有2.0-pro正式版,2.0-pro-thinking或2.5-pro-thinking了
在Advanced会员中,2.0-pro-exp已经被下架了


渠道

2.5pro几天前就已经在Lmarena上,以Nebula的代号,匿名上线了

当时不能在Direct talk里选,也不显示在排行榜里,但是在AB盲测时,AI回答完,用户选择哪个较好之后,会显示模型名字,就有一定几率碰到Nebula
提问“你是谁”,可以证明是Google的推理模型
之前被认为是Gemini-2.0-pro-thinking,现在看应该是2.5-pro

Gemini Advanced会员里250325开始灰度推送,250326凌晨全部推送



如果普号没有Advanced会员,可以申请试用一个月,或者使用AI Studio

AI Studio里250326凌晨已上线

应该是所有人都有,不用灰度推送

官网API 250326凌晨已上线

Lmarena Direct Chat已上线

OpenRouter250326凌晨2点已上线(免费)

来源:OpenRouter


评分

官方发的评分

Lmarena评分

总榜第一,断档领先第二名39分
所有单项榜也都是第一,有点猛
中文比第二名多75分,相当于第2名和第13名之间的分数差值
来源:https://lmarena.ai/?leaderboard





Livebench断崖式第一 250327 0:10更新

佬友Mozi的区分题库,2.5pro全答对

来源:区分题库已经完成对Gemini 2.5 Pro的测试,结果为全对,2.5Pro在未来Livebench的成绩应该会很亮眼

fiction.live长上下文性能抗衰减能力评分,250326 11:00更新

所有大模型的性能都会随上下文增加而衰减,但衰减速度不同
2.5pro在120k(约12万字)上下文时性能保持率,也是断崖式第一
来源:Fiction.live

aider编程评分,250326 11:15更新

来源:Aider LLM Leaderboards | aider

佬友PSP的AI天梯图,加入2.5pro

来源:大模型综合性能天梯定位表,个人主观看法(已更新Gemini-2.5-Pro-Exp-0325,GPT-4o-0328)

门萨智商测试(Mensa Norway)分数 250326 12:00更新

智商测试网站嘛,看个乐子,不要太较真,与AGI什么的没太大关系

人与人可以比智商,AI与AI可以比智商,人和AI智力不是一种类型,不好直接比较

这个网站有两种测试结果,一种Mensa Norway在线测试,一种Offline测试
Offline的IQ比Mensa Norway的分数普遍低很多,原因不明

一共36题,每道题都会统计各个模型能否作对

一般测试几次取平均值,结果可能有一定的随机性

来源:IQ Test | Tracking AI

音视频识别能力测试 250326 13:00更新

试了下中文没有软字幕(即作者没有上传字幕文件)的视频,应该是语音识别,识别8分钟需要1分钟,识别准确率挺高的

2.5pro实际最大输出问题,250326 15:00更新

以下是个人测试,官方并没有明确说明,如有不符,感谢指正

一般思考模型的输出是硬性划分推理token数和最终输出token数的
比如r1总输出上限是24ktokens,是硬性预留16k推理token的,最终输出上限实际只能达到8k,哪怕思考只有1k,也不会增加最终输出token上限

同理o3-mini和o1总输出100k,最终输出上限硬性16k

2.0flash-thinking总输出64k,最终输出上限硬性24k

但是3.7和2.5pro貌似是弹性划分思考和最终输出token数的,就是只要token总数不超标,推理token和最终输出token没有硬性预留

3.7输出是弹线划分64k(貌似参数换beta版模型后,可以128k)

2.5pro输出貌似是弹线划分64k

刚才AIStudio做了个测试,输入一整本书(11万字),要求一字不差复述,这种完全没有推理token,只有最终输出,输出到64kt处截断

大输出的用途

翻译:一本十万字的书,2.5pro或3.7一次输出5万字,两次就翻译完了,其他模型只有比如8k输出,10万字要一直"继续"13次,每两次"继续"之间还要等他输出几分钟,一共可能要"继续"个半小时到一小时
如果用api的话,继续13次等于上传13次原文,token消耗就是13倍,浪费严重(除非你做原文切割可以减少token浪费)

超长代码输出

超长写作:比如写小说

深度研究
比如以前1.5pro和2.0flash-thinking的深度研究一般只有几千字,o3 Deep research是1.5~2万字,先不说质量,就字数都差了好几倍
等到Gemini Deep research换了2.5pro之后,理论上输出字数和质量都可以大幅提升

实际上佬友PSP直接用2.5pro模拟深度研究,输入用深度研究提示词,输出也能有一万多字,而且质量比2.0flash-thinking的Deep research还要高,毕竟底模差距摆在那
来源:https://linux.do/t/topic/514059

哪个版本是满血版测试 250326 18:00更新

结论:AIStudio能稳定输出64kt
API加参数后,最多能输出60kt但有时会截断,不如AIStudio输出稳定

方法:输入一本书,11万字中文(80ktokens),要求翻译英文,提示词相同

Gemini网页版
第一次思考5k单词,最终输出19k单词截断,总输出24k单词(约32kt)
第二次思考2k单词,最终输出23k单词截断,总输出25k单词(约32kt)
截断没有任何提示,按钮一直是方块状态
各大模型,通常Chat版的上下文和最大输出,都少于API,2.5pro的Chat版能输出这么多,已经很好了。其他模型chat版一般最终输出最大也就4~8k左右

AIStudio
使用默认设置
第一次输出思考10k单词,最终输出40k单词截断,合计50k单词(约64kt),600s
第一次输出思考5k单词,最终输出46k单词截断,合计51k单词(约64kt),566s
截断有时显示internal error或exceed quota,有时不显示
微信图片_20250326181651

官网API+Cherry
Ⓐ默认设置:8k截断
Ⓑ加max_output_tokens=65536参数:可以输出61ktokens,但有时503错误

OpenRouter API+Cherry
Ⓐ默认设置:Cherry不显示思考过程,总输出16ktokens
Ⓑ加max_output_tokens=65536参数:可以输出61ktokens,
但OpenRouter输出不太稳定,有时4k也会截断
另外不能连续提问,提问一次之后要等几分钟。容易显示429或524错误

微信图片_20250326193427

185 Likes

这个我真想用啊

23 Likes


确实有,新模型

20 Likes

佬友测试效果怎么样

14 Likes

请问酒馆哪个双子座最好用

13 Likes

gemini-2.0-pro吧

14 Likes

涩涩可能会截断

13 Likes

就是我之前那个自驾游的问题能一次答对,感觉挺厉害的,其他模型全军覆没。在测那个wiki里没模型能做出来的题一会看看,答了挺久,gemini官网公式一多直接卡死了

15 Likes

每个都会吗

13 Likes

双子座写太暴露的就直接截断了,输出几个字

7 Likes

不知道定位是在通用高智能还是强大推理 :melting_face:

8 Likes

隐讳的话好一点,露骨点的,首字直接截断。

8 Likes

请问除了Claude还有那个可以选择

14 Likes

请问还有哪个可以选择

16 Likes

我很少搞这个 :nerd_face:玩不太明白,直接就偶尔试试越狱

20 Likes

到底有哪个大神可以为我指点迷津啊

22 Likes

等grok 3 api发布 那个尺度无敌 :joy:

23 Likes

Gemini app那里思考链和渲染一直都是半血的,看了2.5也是,就看上不上ai studio,上的话才知道真实能力如何

23 Likes

所以现在连个第二都没有吗,要是grok贵过Claude怎么办

24 Likes

o1-pro出了,新版v3出了,gemini2.5pro也出了。Grok3 api还没出 :innocent:

31 Likes