问问一些没怎么用过的模型的测评

平时一直用的OpenAI或者Claude,对于google那边的Gemini和开源社区的Qwen2.5之类没啥概念,有什么靠谱的天梯榜啥的吗,比如哪些型号对标claude3-5-sonnet之类的

https://livebench.ai/

https://lmarena.ai/

1 个赞

livebench数据似乎不是很新
Chatbot Arena我也看过,google和OpenAI这几天刷榜来着

livebench 不是不信,step2都上了近期上排名的. 不是不新号称最难作弊的榜.

Arena榜单有点娱乐意思.

其他榜有请其他佬友分享吧. 我很少看其他的.有的榜混元都前几名 :man_shrugging:

3 个赞

qwen 2.5 72b到底什么水准 在silicon上是真便宜

开源里面算挺厉害的模型吧, 我用的不多没办法评价 参考一些测试或文章吧