Qwen2.5-72B 和Qwen2.5-plus有啥区别啊,哪个更强一些

官网的playground中有很多模型,Qwen2.5-72B和Qwen2.5-plus和Qwen2.5-Turbo,哪个会更强一点啊

1 Like

try and trail
好像有张大模型能力图表

应该是plus

按照这里的说法是plus强于turbo
佬,那个qwen chat里面是qwen2.5-72B-instruct,效果应当是最好的

72b > plus > turbo

1 Like

plus - 0.0008 / 0.002: Qwen2.5 的旗舰模型,在广泛的任务中实现了顶级性能,适用于需要高级推理和深刻理解的复杂任务。
turbo - 0.0003 / 0.0006:Qwen2.5 的均衡模型,提供快速且准确度高的响应,非常适合实时应用。
72B - 0.004 / 0.012:Qwen2.5 的开源最大杯。

PS:Qwen2.5 技术报告里边有提到,plus 和 turbo 是 MoE,分别达到 72B 和 14B dense 的水平,这点从定价上有所体现。

综合排序:max > plus ~= 72b > 32b > turbo ~= 14b

链接:

3 Likes

看楼上链接,plus~=72b

2 Likes

官方说法plus应该是略好于72b

体现在性价比上。实际上从benchmark得分看二者几乎平手。

大佬专业啊!你不会是内部人士吧?

1 Like

plus和72b差不多啊。才知道

一直是差不多 甚至怀疑plus就是72b的微调版本
除非有特殊需求 (能力上真的没必要要用plus 为了一点能力换未知参数 不至于) 不然就用开源的72b
这样哪怕未来失去权限 已有的prompt还能继续本地部署用 而不需要再次去调整

这个是纸面上的数据,你或许可以参考一下:

来自官方:

评测数据集 Qwen2.5-72B Qwen-Plus
MMLU 86.1 -
MMLU-Pro 58.1 71.1
MMLU-redux 83.9 86.8
GPQA 45.9 49.0
BBH 86.3 -
ARC-challenge 72.4 -
HumanEval 59.1 86.6
MBPP 84.7 88.2
MultiPL-E 60.5 75.1
GSM8K 91.5 95.8
MATH 62.1 83.1
Multi-Exam 78.7 -
Multi-Understanding 89.6 -
Multi-Mathematics 76.7 -
Multi-Translation 39.0 -
LiveCodeBench - 55.5
LiveBench 0831 - 52.3
IFEval strict-prompt - 84.1
Arena-Hard - 81.2
AlignBench v1.1 - 8.16
MT-bench - 9.35

实际体验的话,可以问问其他佬友,我不怎么用 Qwen

2.5 72b 刚出的时候我个人体感上比 plus 好不少,但是 plus 一直在迭代更新还降价,现在体验上感觉反超了。硅基的 72b 性价比上完全没优势了。 :+1:

1 Like

佬!第一列是Qwen2.5-72B-Base啊,要比也得比Instruct不是吗?
另外,blog上指标应该是贴错了,有没有发现72b-inst跟plus一模一样?

技术报告 (arXiv 2412.15115)上的对比:

Base Model

Instruct Model

Btw,plus后边又更新了好几个版本,那就是另外一回事了。

1 Like

的确,plus一直在更新,价格是72b的五分之一,非常有竞争力:+1:

1 Like

是我眼拙了,72B-Base 的那个表和 Plus 离得近一些,我就没看上面的了

想请教一下,我这里还有一个Quwen-Max模型(API里有的),那这个是比plus强还是弱? 千问搞这么多模型真是脑抽了

讲道理刚出来的时候max是最强的,也是最贵的。但是0919之后max就没有更新了,现在plus应该是最强的,plus-1127(也就是chat上的plus)上了lmarena榜单。

1 Like