thinking模型, 小学数学题都解不明白
仅从这个结果来看,R1 的能力仅仅略胜 QwQ,如果考虑性价比,那 QwQ 简直是完胜啊,同时代,即使以 Deepseek 所称道的低成本技术实力,也无法弥补二十几倍的参数量所带来的成本增加幅度,不论训练还是推理。当然,仅仅这个比较结果,还是很片面,无法体现模型的完整能力水平。
有没有可能努力也不如人机
确实,光是几道数学题还是太片面了,没法完全比较两个模型能力,只是拿来测试玩一下 。而且QwQ-32B的性价比确实高,大概只要1/10的成本好像,速度也很快