官网的playground中有很多模型,Qwen2.5-72B和Qwen2.5-plus和Qwen2.5-Turbo,哪个会更强一点啊
try and trail
好像有张大模型能力图表
应该是plus
按照这里的说法是plus强于turbo
佬,那个qwen chat里面是qwen2.5-72B-instruct,效果应当是最好的
72b > plus > turbo
plus - 0.0008 / 0.002: Qwen2.5 的旗舰模型,在广泛的任务中实现了顶级性能,适用于需要高级推理和深刻理解的复杂任务。
turbo - 0.0003 / 0.0006:Qwen2.5 的均衡模型,提供快速且准确度高的响应,非常适合实时应用。
72B - 0.004 / 0.012:Qwen2.5 的开源最大杯。
PS:Qwen2.5 技术报告里边有提到,plus 和 turbo 是 MoE,分别达到 72B 和 14B dense 的水平,这点从定价上有所体现。
综合排序:max > plus ~= 72b > 32b > turbo ~= 14b
链接:
看楼上链接,plus~=72b
官方说法plus应该是略好于72b
体现在性价比上。实际上从benchmark得分看二者几乎平手。
大佬专业啊!你不会是内部人士吧?
plus和72b差不多啊。才知道
一直是差不多 甚至怀疑plus就是72b的微调版本
除非有特殊需求 (能力上真的没必要要用plus 为了一点能力换未知参数 不至于) 不然就用开源的72b
这样哪怕未来失去权限 已有的prompt还能继续本地部署用 而不需要再次去调整
这个是纸面上的数据,你或许可以参考一下:
来自官方:
评测数据集 | Qwen2.5-72B | Qwen-Plus |
---|---|---|
MMLU | 86.1 | - |
MMLU-Pro | 58.1 | 71.1 |
MMLU-redux | 83.9 | 86.8 |
GPQA | 45.9 | 49.0 |
BBH | 86.3 | - |
ARC-challenge | 72.4 | - |
HumanEval | 59.1 | 86.6 |
MBPP | 84.7 | 88.2 |
MultiPL-E | 60.5 | 75.1 |
GSM8K | 91.5 | 95.8 |
MATH | 62.1 | 83.1 |
Multi-Exam | 78.7 | - |
Multi-Understanding | 89.6 | - |
Multi-Mathematics | 76.7 | - |
Multi-Translation | 39.0 | - |
LiveCodeBench | - | 55.5 |
LiveBench 0831 | - | 52.3 |
IFEval strict-prompt | - | 84.1 |
Arena-Hard | - | 81.2 |
AlignBench v1.1 | - | 8.16 |
MT-bench | - | 9.35 |
实际体验的话,可以问问其他佬友,我不怎么用 Qwen
2.5 72b 刚出的时候我个人体感上比 plus 好不少,但是 plus 一直在迭代更新还降价,现在体验上感觉反超了。硅基的 72b 性价比上完全没优势了。
佬!第一列是Qwen2.5-72B-Base啊,要比也得比Instruct不是吗?
另外,blog上指标应该是贴错了,有没有发现72b-inst跟plus一模一样?
附技术报告 (arXiv 2412.15115)上的对比:
Base Model
Instruct Model
Btw,plus后边又更新了好几个版本,那就是另外一回事了。
的确,plus一直在更新,价格是72b的五分之一,非常有竞争力
是我眼拙了,72B-Base 的那个表和 Plus 离得近一些,我就没看上面的了
想请教一下,我这里还有一个Quwen-Max模型(API里有的),那这个是比plus强还是弱? 千问搞这么多模型真是脑抽了
讲道理刚出来的时候max是最强的,也是最贵的。但是0919之后max就没有更新了,现在plus应该是最强的,plus-1127(也就是chat上的plus)上了lmarena榜单。