Gemini Thinking模型聪明程度高

weakchen · 2025 年2 月 3 日 07:55

用如下例子测试Gemini的2.0和Thinking模型，还是凸显了Thinking模型的聪明程度高一截，不会被干扰，它还知道识别干扰信息！

阿芳去摘桃子，第一天摘了44个，第二天摘了58个，第三天摘的桃的数量是第一天的2倍，但有5个比较小，问三天一共摘了多少个桃。

Gemini-2.0-flash-exp:

Gemini-2.0-flash-thinking-exp

lu1020456 · 2025 年2 月 3 日 08:01

R1也对啊而且考虑更周全

weakchen · 2025 年2 月 3 日 08:05

我用R1测试也挺准确的

3.141592653 · 2025 年2 月 3 日 08:14

4o都能对，很难吗。

catis114514 · 2025 年2 月 3 日 08:27

1.5 pro也能解出来

weakchen · 2025 年2 月 3 日 08:32

1.5 pro似乎有小问题

3.141592653 · 2025 年2 月 3 日 08:35

他说的是pro

catis114514 · 2025 年2 月 3 日 08:35

你用的是1.5flash，用错模型了。

StellaFortuna · 2025 年2 月 3 日 08:37

思考模型有时候也会被干扰

另外flash模型更开放支持生成任意敏感内容
1209会严厉拒绝

weakchen · 2025 年2 月 3 日 08:45

@StellaFortuna @catis114514 看到了，我看错了，用了1.5 Pro的确可以

catis114514 · 2025 年2 月 3 日 08:47

下次换电脑回答，手机不知道怎么贴图，1.5系模型好像就pro行，gemma全军覆没，2.0没试过，但1.5pro都行2.0系应该没悬念了

StellaFortuna · 2025 年2 月 3 日 08:48

抗干扰性和知识水平不属于同一维度吧

handsome · 2025 年2 月 3 日 09:00

1.5pro都能做出来。。说明这题太简单了

lueluelue · 2025 年2 月 3 日 09:10

这个题目描述就很。。。

wwow · 2025 年2 月 3 日 10:00

给清扬点赞

话题		回复	浏览量
【汇总贴】Gemini2.0系模型三连发+能力对比前沿快讯 Gemini , 人工智能	56	1586	2025 年2 月 6 日
【近全军覆没】你的模型能数清楚鸡蛋吗？搞七捻三人工智能 , 纯水	68	1100	2025 年1 月 10 日
gemini的推理模型很快很强搞七捻三人工智能	4	396	2025 年2 月 6 日
看Gemini的计算和纠错能力搞七捻三人工智能 , 纯水	9	228	2025 年2 月 1 日
gemini又要出新的thinking模型啦搞七捻三人工智能	24	522	2025 年1 月 20 日