【近全军覆没】你的模型能数清楚鸡蛋吗?


thinking gemini 2.0轻松搞定

1 个赞


不对啊


对了,超级小爱,我让他挨个数,就能数对

o1怎么试都是18个,不知道为什么


1206也不稳定

稳定吗佬


是 open-webui 的 temperature 设定问题吗?预设的 0.8 :bili_040:

1 个赞

这和 strawberry 数 r 有什么区别


豆包

1 个赞


好的。claude错了。但它知道小坤坤这个梗。。。

1 个赞

deepseek-vl2可以,甚至我问的时候字都打错了

1 个赞

牛啊,稳定不

稳定不佬

Gemini 2.0 Flash Thinking1219 也答对了

1 个赞

稳定吗佬

1 个赞

我问了几次,有一次错了,不过让他重新回答一下就行

1 个赞

佬改帖子真快,我进来的时候标题上还写着全军覆没,现在变成近全军覆没了 :tieba_025:

1 个赞

claude 3.5 sonnet :x:

QWEN2 :x:

centaur :white_check_mark:

pixtral-large-2411 :x:

gpt-4o-2024-05-13 :x:

claude-3-5-sonnet-20241022 :x:

gremlin :white_check_mark:

chatgpt-4o-latest-20241120 :x:

nvila-internal-15b-v1 :x:

amazon-nova-lite-v1.0 :x:


总结:凡是有点名气的都失败。

1 个赞