一个32b的模型,比claude-3-7-sonnet,gemini-2.0-pro-exp-02-05分数都高,最重的是本地部署门槛不高,佬友实测用的怎么样
6 Likes
不是看他们说实测也就那样,要是真的很强早就宣发地铺天盖地了
2 Likes
跑分而已,现实不一定呢
4 Likes
是有点,但是思考模型比非思考模型…
2 Likes
跑分看看就行了
这个排行榜咋没有r1,没法对比啊,这个是什么跑分榜
排行看看就好
效果没这么猛吧
2 Likes
用着非常一般,等满血版吧
效果真的还是不错的,可以去试试groq的131k上下文的qwq,输出600t/s,爽
1 Like
他们自己发的livebench73分不会是0831版本吧
可以跟4o-latest对比,主要差距在数学和推理,比4o强很多,其他持平
Groq我这里一次性不能请求超过6000 tokens 是要付费吗(
还是要看大批量实际使用的效果
推理是很厉害 可惜代码还是拉跨一点
1 Like
这个模型的幻觉严重吗
1 Like
本地4090 Ollama部署了一个,只能说快的一塌糊涂,效果也还不错
思考模型,思考的又臭又长,没啥用
1 Like