【近全军覆没】你的模型能数清楚鸡蛋吗?

如图所示,已知(搜集自评论区)
o1 :x:
Grok2 :x:
Claude3-5 :x:
GPT 4o :x:
Gemini 2 :x:
超级小爱:x:
腾讯混元 :x:
QWEN2 :x:

centaur :white_check_mark:

pixtral-large-2411 :x:

gpt-4o-2024-05-13 :x:
claude-3-5-sonnet-20241022 ::x:
gremlin :white_check_mark:
chatgpt-4o-latest-20241120 :x:
nvila-internal-15b-v1 :x:
amazon-nova-lite-v1.0 :x:
Gemini 2.0 Flash Thinking1219 :white_check_mark:(不稳定)
Gemini 1206 :white_check_mark: (不稳定)
Gemini 1.5 PRO :white_check_mark:(不稳定)
kimi视觉版 :white_check_mark:(不稳定)
豆包:white_check_mark:(不稳定)
deepseek-vl2​:white_check_mark:
GLM-4​:white_check_mark:

正确答案:15 个

6 个赞

o1试过吗?感觉gemini会好一点?

2 个赞


gemini不行

2 个赞

超级小爱×

1 个赞

九時之約已到

2 个赞

强啊兄弟

1 个赞

神奇,gemini2数不对,gemini1.5数的对

2 个赞

2.0 是极速模型吧,为了快?

因為那個是flash不是pro

kimi视觉版

2 个赞


1 个赞

gemini-2.0-flash-exp

2 个赞

难道是 studio温度参数不一样?


gemini1.5 pro不稳定示例+1

有什么参数调过吗


不知道的gemini几成功

都是1.

Gemini 1206 毫无压力

1 个赞

原来这就是AI啊。。。不对,这不是很久之前就有了吗,我记得,难道我时空错乱,记错了

1 个赞


o1

1 个赞