gemini2.5真降智降麻了。简单数学问题9.9-9.11。


如图。我看到一个说法ai不会算9.9-9.11,问了一下gemini。没回答出来就算了。结果比大小都能比错。
而且答案都是秒出来没思考。绝了!

豆包未开深度思考,答对(极快)

deepseek,v3做错,新R1做对(慢)

qwen答对(较快)

grok3 答对(极快)

gemini2.5flash(网页版),做错。

换了一个普号,gemini网页版,2.5pro依然做错。强调仔细思考后,思考了很久。最终作对了。
思考过程巨长,后面急眼了还切了英文。很有意思的是他在中间还调用了python,但是python还是错的。

又测了一下kingfall,第一次也是答错,但是叫他仔细计算很快就对了(从开始思考到得出结论的速度较快)。


魔改佬友的Gemini Advanced Chat,增加代码折叠、思考折叠、暂停、代码复制下载、耗时显示,默认KingFall模型 - 开发调优 / 开发调优, Lv1 - LINUX DO

4o做错。o3答对(很快)


o4mini答对(很快)

claude没有账号(被封完了也懒得注册),使用了一个逆向渠道,不知道顶不真不顶真。
sonnet4和opus4做错。


2 Likes

这个之前好像也做不对吧,有点记不清了,反正大部分模型包括思考模型都还是做不出来这个

关键是后面的比大小也错了。正常肯定能对的。

不要直接问那个大,而是要告诉他数学上还是软件开发上,一个prompt的事

2 Likes

他要是知道那个大就不会计算出负数了 :rofl:,我基本上没见过能做对的,之前我记得gemini-2.5-pro-0324也做不对呢

3 Likes

确实,试试说明这是数学问题呢?

2 Likes

现在测不了了。刚刚被限制gemini pro网页版次数。电脑又不在身边

如果是说今天的话,估计很多算力都给kingfall了 :tieba_087:


说的有鼻子有眼的难道是幻觉吗

不至于,降智也不是DS可以碰瓷的说实话。 :smiling_face_with_tear:

2 Likes

我原来是gemini的重度用户。现在看他大小都比不对的唐诗模样。我很心痛。只能说浓眉大眼的谷歌也和奥特曼那小子学坏了。

脸都不要了,ai studio都降智

不算降智,是模型本身的缺陷

gpt4.1也是-0.21,不过2.5pro思考模型做不对更离谱一点



用这么一个问题来测试降智有点片面了,这个本质是tokenizer的问题,真要测试降智还是用更全面的问题来测

4 Likes

请看我前一个帖子关于知识库的。截止日期也对不上。实测2024 6月左右。


感觉ai studio比gemini好用很多

1 Like

不要用比较数字,数单词中的字母来测试一个模型的能力,这个是ai的token的划分问题,可以看看下面的视频的解释

9.11和9.9也是同一个道理,ai眼中11会被划分为最小token,而不是把11分成1和1两个token


因此ai眼中11这一个整体就是比9大

有些ai可以回答正确但也不是很稳定,多问几次就会有不同的答案

5 Likes

我没有怀疑gemin的实力,我怀疑的是他的算力。很明显的降智了。
我这两个问题都是秒答错。没有任何思考

1 Like

普通模型和推理模型还是不一样的吧。像strawberry几个r,对于推理模型应该都是能算出来的。至少老R1肯定可以

1 Like

看视频,deepseek r1都有很大概率会错误