新模型-Gemini 2.0 Flash Thinking-APP,推理能力进步明显,在AIME 2025远超旧版(Gemini 2.0 Flash Thinking-0121版)

期待它在 Livebench 上进行评级,以及在实验室的更新。

目前AI Studio 上的那个是旧版本,但希望谷歌能尽快更新它

Gemini 应用程序的新闪光思维在推理能力上比 01-21 显著更强,在 AIME 2025 上的表现接近 o3-mini (med) : r/Bard — New Flashing Thinking on Gemini app is significantly stronger at reasoning than 01-21, performs close to o3-mini (med) on AIME 2025 : r/Bard

14 Likes

-APP? 前排

3 Likes

是的,目前只能在gemini应用程序和网页端使用,实验室和API没更新。

4 Likes

Gemini 2.0 Flash Thinking(实验版)的改进版本将对 Gemini 应用用户开放。基于 2.0 Flash 的基础,该模型提供了更出色的性能和更先进的推理能力,同时保持高效和快速。

从英语开始,2.0 闪念思考(实验性)现在可以与您喜爱的 Gemini 功能和连接的应用程序(如 YouTube、地图、搜索等)一起使用。Gemini 高级用户还将能够使用此模型的 100 万个令牌上下文窗口。

我们正在投资思考和推理能力,因为我们相信它们能够解锁更深层次的智能,并为需要复杂推理的任务(如编程、科学发现和高级数学)提供增强的性能。

根据某个论坛用户的说法,新模型的思考,竟然能够解决 30 多个步骤,其中包含 2-5 个嵌套步骤“真的”(而不是像以前的版本那样只是“重复”而没有任何有意义的发现、自我改进或反思)。

5 Likes

用2.0 pro-exp-0205 感觉很好,这个flash的即使thinking应该也比不过吧。

什么时候上大模型,小模型没什么意思

大模型,估计要收费,留着对付GPT-5的

这个?现在怎么还被阉割了

感觉被削弱了啊,以前都还有联网功能,联动YouTube那些的,如图↓

两个号模型还不一样?


可以试试!

我感觉google应该是想正经经营gemini advanced了 :tieba_087:

谷歌模型太多了,已经开始分不清它那个是新那个是旧了…… :sweat_smile:

3 Likes


其实也可以使用谷歌搜索,只不过是对英语输入…

这下看懂了
Flash Thinking (experimental)=Flash Thinking Experimental+Flash Thinking Experimental with apps

感觉像是两个的结合体,但是被阉割了,因为以前的with app是可以中文输入进行Google搜索和连调YouTube等的

是这个意思。

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。