感觉有些拉跨
3 个赞
你可以去我贴的链接里测试下
问题是,价格比claude3.5sonnet调用价格还高,我有什么理由用他呢?
1 个赞
蹲一下综合测评
感觉大概率不行,刷榜罢了
测了几个,好象不是很行
这个榜单刷不了,题目每月一换
我有点怀疑啊,只是怀疑,Step-2 是不是用 Claude 蒸馏的?
也不知道这排名怎么来的
哈哈哈,这题有趣,我还去搜了下,居然是个新闻
这题答案是没有谁赚谁亏是吧?
#快问快答移除
15 个赞
之前版本是过一般般,对此表示观望
这个模型看起来偏科严重
OpenCompass
SuperCLUE
這兩個榜單都好可怕。。是收了多少錢啊?
OpenCompass的榜1是QWen 2.5 72B,这个榜一感觉是没有问题,能力确实有这么强,但是至于其他的模型我就不知道了