智谱zero，只是超过了o1p而已~

StellaFortuna · 2024 年12 月 31 日 15:24

从智谱深度推理模型 GLM-Zero 预览版上线【性能较强】继续讨论：

卡神测评:

咱也不跟贵的比毕竟咱完全免费

CVV · 2024 年12 月 31 日 15:26

不信

StellaFortuna · 2024 年12 月 31 日 15:26

3b怎么一直在闪？

话说大家好像不太在意后面几个数据，其他大模型数据竟然连20都不到

DOS.DO · 2024 年12 月 31 日 15:27

遥遥领先

slashkkk · 2024 年12 月 31 日 15:28

奥特曼的内涵已经在路上

zhong_little · 2024 年12 月 31 日 15:29

能力还是进步了的：

pwtramp123 · 2024 年12 月 31 日 16:10

超过O1P 是不可能的，那些已经有答案的考试尽量忽略，用私人测试即可，另外有一点，Zebra Logic 低分，通常真实智力，即可泛化的解题能力都非常弱，因为那个题目考最基本的逻辑.

handsome · 2025 年1 月 1 日 01:18

no way！

0208 · 2025 年1 月 1 日 02:58

只能说又赢麻了

Pub · 2025 年1 月 1 日 03:03

与自己比有进步就是好事

roelauph · 2025 年1 月 1 日 03:14

基于测试集训练的模型

yeahhe · 2025 年1 月 1 日 05:43

我不太敢相信，上一个这样说的是Kimi，结果比不过doubao

yeahhe · 2025 年1 月 1 日 05:46

在正四棱台 $ABCD-A_1B_1C_1D_1$ 中，$AB=2$，$A_1B_1=1$，$AA_1=\sqrt{2}$，则该棱台的体积为多少？

这道题也是，错得离谱

我手机系统自带的AI都能写对

yeahhe · 2025 年1 月 1 日 05:52

@StellaFortuna
刚刚测了第一题，已经错了，而且思考时间特别长。估计又是虚标。

你也可以来测

zzq · 2025 年1 月 1 日 06:08

这么看来，确实差点火候啊。

yeahhe · 2025 年1 月 1 日 06:10

不只是差点火候，这个差距简直就是诈骗。居然还宣传超过o1 p

hunter666 · 2025 年1 月 1 日 06:13

今天我实测了一波，对比了o1. Deepseek r1 lite. QwQ 32B. K0-math. GLM-zero，总的来看，和o1差距非常大，在国产推理模型中，deepseek是最稳定的，大概追赶o1-preview的水平。另外我发现国产推理模型在推理时表现的很奇怪，不自信，经常自我怀疑自我否定，无用功很多，容易过度思考陷入死循环

yeahhe · 2025 年1 月 1 日 06:14

同意，国内思考模型的思考特别长，而且反复纠结一个点

xgfy · 2025 年1 月 2 日 01:17

拿了广告费

lbls888 · 2025 年1 月 2 日 02:50

智谱从开始就没怎么厉害过，文本生成方面。始终是二三线水准。。根本不值得期待

话题		回复	浏览量
智谱zero宣传（超过o1 preview）和我的实际测试结果相差巨大，我的测试题库仅供参考开发调优人工智能	11	515	2025 年1 月 2 日
找了一道理科高考数学大题，o1模型能做出来。模型来挑战？开发调优 ChatGPT , OpenAI , 人工智能	56	868	2024 年12 月 20 日
一道小五奥数题，o1，Kimi数学版，豆包全军覆没，我懵了开发调优人工智能	62	1831	2024 年12 月 21 日
这道题有没有模型能作对。有没有佬试一下o1 pro 开发调优人工智能	68	391	2025 年1 月 1 日
【长期更新Wiki】语言模型区分题库：主要用来区分语言模型，也能测试逻辑能力文档共建人工智能	228	3246	2025 年1 月 7 日

智谱zero，只是超过了o1p而已~

相关话题