我一直没搞明白,这个排行榜是投票排行榜吗?
如果是,根本没有权威性啊,想投啥就投啥
看起来是Arena的投票,应该是使用者的投票吧,合理性是有的,毕竟免费给你使用,随机放出2个匿名模型的回答,让你自己投票哪个好。估计用的是这个的投票,相对公正。
你也去投票试试,就秒懂了。
《网友认可度最高的模型》
可以刷分的,所以才会有跑分从没赢过,体验从没输过的Claude;跑分从没输过,体验从没赢过的ChatGPT;跑分从没赢过,体验也没有赢过的Gemini,这说法(虽然现在早就变了)
分这么高
等个 https://livebench.ai 评分
感觉这次是 meta 用一个花里胡哨的 system prompt 把 lmarena 橄榄了。现在大家还有怀疑是不是第三方部署的问题(我觉得可能性不大),如果确认是 prompt engineering,lmarena 就没啥可看的了。
看了下知乎的第三方评测,没他吹的那么好啊
这个榜最没参考价值,美国哪个巨头随便发布个新模型直接就到榜一了
400b代码实测一坨
这个榜太假了吧,deepseek-r1明显不如o1的,GPT4.5现在也比不上最新更新的4o,Claude3.7去哪了?
2.5pro的热度还在
是的。主要是模型匿名了个寂寞。各个模型有什么语言习惯什么格式习惯,用多了都认识了。
我用 DeepSeek 比较多,lmarena 上随机到 DeepSeek V3.1/R1 一眼就能看出来。
Llama 4 这个更是夸张。(看右边那个滚动条)
我拿 arena 版本测过六边形小球了,炸了。也有佬测过天气卡片之类的,一样炸。
然后 lmarena 榜二,给我的感觉就像是拿大量香料、调料去掩盖原料质量不行的黑心餐馆。
Qwen3 在我预期中是要把这东西像路边一条一样干翻的。
还是等 Qwen3 吧 = =
你投的时候不知道哪个回答是哪个模型的,只能看到两个回答。那你脑子正常肯定会投效果好的那个对不对
然后它的投票的人数极其庞大,有故意投效果差的模型的人根本掀不起风浪
claude3.7编程(而且仅限常见语言写CRUD)能力强,很多方面并不太行
别的就不说了
在实际工作中(对,加了个小班)对比测试了一下,llama4编程能力惨不忍睹,不是一般的差
但绝不是CRUD
實際體驗不太行