Llama 4得分出来了

11 Likes

我一直没搞明白,这个排行榜是投票排行榜吗?
如果是,根本没有权威性啊,想投啥就投啥

5 Likes

看起来是Arena的投票,应该是使用者的投票吧,合理性是有的,毕竟免费给你使用,随机放出2个匿名模型的回答,让你自己投票哪个好。估计用的是这个的投票,相对公正。
你也去投票试试,就秒懂了。

3 Likes

:bili_040: 《网友认可度最高的模型》

3 Likes

可以刷分的,所以才会有跑分从没赢过,体验从没输过的Claude;跑分从没输过,体验从没赢过的ChatGPT;跑分从没赢过,体验也没有赢过的Gemini,这说法(虽然现在早就变了)

1 Like

分这么高

1 Like

等个 https://livebench.ai 评分

1 Like

感觉这次是 meta 用一个花里胡哨的 system prompt 把 lmarena 橄榄了。现在大家还有怀疑是不是第三方部署的问题(我觉得可能性不大),如果确认是 prompt engineering,lmarena 就没啥可看的了。

1 Like

看了下知乎的第三方评测,没他吹的那么好啊

1 Like

这个榜最没参考价值,美国哪个巨头随便发布个新模型直接就到榜一了

6 Likes

400b代码实测一坨

1 Like

这个榜太假了吧,deepseek-r1明显不如o1的,GPT4.5现在也比不上最新更新的4o,Claude3.7去哪了?

1 Like

2.5pro的热度还在

1 Like

是的。主要是模型匿名了个寂寞。各个模型有什么语言习惯什么格式习惯,用多了都认识了。
我用 DeepSeek 比较多,lmarena 上随机到 DeepSeek V3.1/R1 一眼就能看出来。

Llama 4 这个更是夸张。(看右边那个滚动条)
我拿 arena 版本测过六边形小球了,炸了。也有佬测过天气卡片之类的,一样炸。
然后 lmarena 榜二,给我的感觉就像是拿大量香料、调料去掩盖原料质量不行的黑心餐馆。

Qwen3 在我预期中是要把这东西像路边一条一样干翻的。

2 Likes

还是等 Qwen3 吧 = =

1 Like

你投的时候不知道哪个回答是哪个模型的,只能看到两个回答。那你脑子正常肯定会投效果好的那个对不对
然后它的投票的人数极其庞大,有故意投效果差的模型的人根本掀不起风浪

2 Likes

claude3.7编程(而且仅限常见语言写CRUD)能力强,很多方面并不太行

2 Likes

别的就不说了
在实际工作中(对,加了个小班)对比测试了一下,llama4编程能力惨不忍睹,不是一般的差

2 Likes

但绝不是CRUD

1 Like

實際體驗不太行

1 Like