智谱zero,只是超过了o1p而已~

智谱深度推理模型 GLM-Zero 预览版上线【性能较强】继续讨论:

卡神测评:

咱也不跟贵的比 毕竟咱完全免费:innocent:

19 个赞

不信 :tieba_087:

5 个赞

3b怎么一直在闪?

话说大家好像不太在意后面几个数据,其他大模型数据竟然连20都不到:thinking:

2 个赞

遥遥领先

2 个赞

tieba_012
奥特曼的内涵已经在路上

4 个赞

能力还是进步了的:

2 个赞

超过O1P 是不可能的,那些已经有答案的考试尽量忽略,用私人测试即可,另外有一点,Zebra Logic 低分,通常真实智力,即可泛化的解题能力都非常弱,因为那个题目考最基本的逻辑.

2 个赞

no way!

只能说又赢麻了:joy:

与自己比有进步就是好事

基于测试集训练的模型

我不太敢相信,上一个这样说的是Kimi,结果比不过doubao

1 个赞

在正四棱台 $ABCD-A_1B_1C_1D_1$ 中,$AB=2$,$A_1B_1=1$,$AA_1=\sqrt{2}$,则该棱台的体积为多少?	

这道题也是,错得离谱

我手机系统自带的AI都能写对

2 个赞

@StellaFortuna
刚刚测了第一题,已经错了,而且思考时间特别长。估计又是虚标。

你也可以来测

1 个赞

这么看来,确实差点火候啊。

1 个赞

不只是差点火候,这个差距简直就是诈骗。居然还宣传超过o1 p

2 个赞

今天我实测了一波,对比了o1. Deepseek r1 lite. QwQ 32B. K0-math. GLM-zero,总的来看,和o1差距非常大,在国产推理模型中,deepseek是最稳定的,大概追赶o1-preview的水平。另外我发现国产推理模型在推理时表现的很奇怪,不自信,经常自我怀疑自我否定,无用功很多,容易过度思考陷入死循环

3 个赞

同意,国内思考模型的思考特别长,而且反复纠结一个点

1 个赞

拿了广告费

1 个赞

智谱从开始就没怎么厉害过,文本生成方面。始终是二三线水准。。根本不值得期待