Qwen3参数量是不是太小了?这小模型表现不好与不稳定,没有刷榜宣传的性能。

Qwen 3开源版本只有200B参数,激活20B;
这个参数量规模,无论是对比deepseek,还是chatgpt、gemini、claude、grok,都是不值得看的;
这么小的参数量,会不会严重影响模型能力,毕竟即使你的训练策略再改进,根本上你的模型规模不够,模型拟合的能力与特征抽象表达能力肯定是达不到的,训练策略只是锦上添花。
小模型在处理复杂任务、复杂理解、更多的上下文关联方面,感觉都是不行的。


几天体验下来,已经不会再用Qwen了。
总的来说,模型本身性能就不行、回答不稳定,幻觉也非常高,简单问题复杂化,复杂问题胡言乱语。
评价,远远不如deepseek,国内模型只能看deepseek了。阿里的能力似乎已经到头了,就这个能力,再让他拔高模型性能他也没这个能力了。不止是我这么认为,在Reddit上也有人大量讨论,Qwen3完全不如deepseek。

9 Likes

差异化竞争呗,老外说了,用deekseek r1满血的1/4硬件配置消耗,就能把qwen3 200b给顺利跑起来。这就是优势。

其实大部分问题都没那么复杂,够用就好。

而且我觉得用600B那种参数,堆世界知识库没必要。知识库调用额外工具就行了。

12 Likes

可能这是一种路线吧

感觉就是路线选择问题,之前的qwq-32b,现在的qwen3-235b-a22b,看起来的进步点是在维持与R1接近性能的同时,再进一步压缩参数量。看起来qwen想追求小而精,不是大而强

3 Likes

qwen3能看出来主打端侧部署,小模型太强了,爆杀友商小模型

3 Likes

Qwen3是一个集成快慢思考的混合推理模型,只凭这一句话,就值得期待

2 Likes

这就是走的路线不同,也不是冲着 sota 去的,你看他 benchmark 和 o4mini-high 比了吗,和 o3 比了吗?没比。不是所有场景都要 sota 的,很多时候能跑比最好的质量重要得多

1 Like

确实小,不知道加大会咋样

模型参数小意味着普通问答就很弱,他的文字表达能力是比较弱的,让平常的搜索问答任务根本没有用他的兴致。就像oai会把4O,xai会拿grok3这种超大模拿出来做问答。这种底模也意味着即将出的deepresearch也强不到哪去

6 Likes

感觉这种模型很容易偷懒

1 Like

走的就是差异化
估计还有个大的还在训练 因为qwen-max还没更新呢

3 Likes

max没开源而已

3 Likes

我的认知是,模型参数小,模型本身的理解能力不够;
模型参数大,完全不等价于堆世界知识;
模型参数大,会让模型发展出一些更高级的理解与分析能力,这是小模型永远不可能具备的。
就像chatgpt3.5,如果不是模型参数规模暴增,他永远不会有质变,那一点捉襟见肘的训练技巧都是后话。
模型参数量是基础,没有参数量,后面很多工作就无意义。

2 Likes

你说的没错,但是大参数需要大算力支撑,现在GPU那么贵,无论训练还是运营,大参数难度都是指数上升。作为上市企业要短期收回成本,感觉挺难的。
你看OpenAI也在研究一堆mini模型,没办法,这是大趋势。

1 Like

看场景吧,我觉得用大模型的人,知道看性能的,都不会在意价格,只要价格不是特别离谱;
模型做不到顶尖前5范围内的SOTA,真正有能力付费的用户不会付费的,他们看都不会看这些模型一眼;
claude、grok等虽然贵,但是大多数人选择付款,因为他们能解决实在的问题,反而觉得很有性价比;
如果达不到SOTA,那么这个模型所围绕的用户大多数是白嫖党,也不处理专业的问题,无非就是一些日常对话,从这些用户身上几乎赚不到钱。

2 Likes

嫩多参数意义不大,主要在于质量!

没有参数规模哪来的质量。。。

1 Like

不要忘了,阿里巴巴是 Apple 智能在国行机器上的供应商。

1 Like

有点偏题了,只是在讨论模型质量的问题。
苹果也是没得选择。

你也不知道别人参数规模大的用的都是什么数据啊!质量不也不清楚?你认为 llama3.1 405B一定比Qwen3 这个200B的强吗?咱们用户不用管这些的!

1 Like