平时一直用的OpenAI或者Claude,对于google那边的Gemini和开源社区的Qwen2.5之类没啥概念,有什么靠谱的天梯榜啥的吗,比如哪些型号对标claude3-5-sonnet之类的
livebench数据似乎不是很新
Chatbot Arena我也看过,google和OpenAI这几天刷榜来着
livebench 不是不信,step2都上了近期上排名的. 不是不新号称最难作弊的榜.
Arena榜单有点娱乐意思.
其他榜有请其他佬友分享吧. 我很少看其他的.有的榜混元都前几名
3 个赞
qwen 2.5 72b到底什么水准 在silicon上是真便宜
开源里面算挺厉害的模型吧, 我用的不多没办法评价 参考一些测试或文章吧