qwen实乃ai界汪峰 qwq模型性能到底如何?

看分数 qwen2.5max性能应该强于V3,理论上说qwq应该超越R1,那毫无疑问站在了顶级水平,但是关于claude3.7的讨论一抓一大把 qwq一个没见 这个模型到底怎么样呢

18 个赞

qwq还没出吧,现在只是宣布要出了

3 个赞

没有正式出,但是有个QwQ-32B-Preview,不知道有没有采用GRPO的方法来做训练

3 个赞

那个早就出了,一个视觉推理模型,感觉不咋行

1 个赞

官网发布后就能用了,测了论坛佬友们的题库,感觉不如r1

2 个赞

qwq 这个模型一定很萌吧

2 个赞

qwen一直比较低调的感觉,没啥宣发

ai届汪峰不是gemini吗

3 个赞

在抱脸提供的抱聊上试过 Qwen/QwQ-32B-Preview ,感觉不太行

已经能试用了,拉中拉

QwQ-Max的文字没有R1那么浮夸,尤其是在翻译的时候,R1大概率会加入自己的理解,重组句子甚至改变原意或者漏掉一些词汇(我认为这可能是R1在Language Average上分数反而很低的原因之一),QwQ翻译出来的至少还是在原文基础上润色,而不是篡改(并且润色出来的效果明显比Max/V3更好)。论坛里大部分佬都是理工科,所以可能不太关注翻译能力。

不过我测试诗歌的时候发现了有趣的一点,之前测R1就发现,如果让R1输出“带有波斯意象的诗歌”,它很大概率输出的内容里有“驼铃”一词,其他的所有模型都不会这样(V3也不会);而这次的QwQ-Max出现了一样的症状,只要波斯就会想到驼铃(QwQ-32B和Max都没有)。

这还跟只要让R1“详细描写”几次就会出现量子不一样,因为QwQ-Max给人感觉确实是幻觉没那么强(没那么容易瞎举例子),文笔也没有那么极端浮夸以至于完全丧失节奏感,所以没那么容易动辄量子力学。但即便如此,它写作风格还是给人一种R1的即视感。我觉得很难说QwQ-Max没有用R1生成的回答做训练。

另一点是,在佬友mozi的题目测试贴里,基本上R1能答对的QwQ-Max也都能答对,R1答不对的它也都答不对,两者在推理能力上非常相近。

3 个赞

和楼上佬观点差不多,推理能力可以的,当天凌晨我就测试了论坛测试合集里面的案例,qwq优点在于幻觉没那么严重,r1说的太浮夸了,qwq就显得稳健许多,比如让它帮忙生成prompt,r1乱扯一些名词,qwq给的就很好

qwq的能力大体上肯定是不输于r1的

1 个赞

QwQ-32B-Preview应该不是视觉推理,貌似博客也没说,但是实际上Qwen-2.5-Max看跑分也就和V3差不多,就算加了强化学习后训练也很难说会有很多突破,我倒是觉得能不能有和r1的基模风格拉开差距,到时候可以直接搞个分类器连两个api,然后搞到很强的性能之类的

2 个赞

我认为可能一定程度上是因为R1思考之后的长上下文性能问题,即使从代码或者instruction following的角度出发,比如用Cline接入R1,R1往往也不会按照格式来启动Cline的指令。

是这位佬友记错了,QvQ是视觉模型(v=vision),QwQ是纯文字模型(可以理解成w=word)

2 个赞

按我个人的理解,R1的另一个特点是,在prompt较短的情况下,会过度遵守prompt的要求。这一点甚至在使用Azure R1等有可能不触发思考的R1时也会出现,即使不思考也要搞得比较浮夸(思考之后更浮夸)。我觉得,可能在强化训练的阶段,由于无人工干预,导致模型可能自以为输出越花哨、越符合prompt就越好,奖励就越多,导致自我强化到走火入魔了


这算是出了吗

2 个赞

QWQ就挺一般。。

就怎么说呢,感觉qwen他们推出的产品有点像一个比较随意的程序员,能出好东西,但是时好时坏,而且命名也喜欢搞点奇怪的东西。谁他喵知道QWQ是干什么的模型?

智商差不多,R1部分问题浮夸,QWQ稍好,遵循指令强一些。