实测 Claude 3.5 Sonnet VS GPT-4o,最强大模型的宝座可能要易主了

6月21号凌晨 Anthropic 深夜炸场,发布了它们最新最强大的模型 Claude 3.5 Sonnet ,并甩出了一张包含多个数据指标的对比图,从各项数据中可以看到不仅 Claude 3.5 Sonnet 的亲兄弟 Claude 3 Opus 被按在地上摩擦,连 GPT-4o也被吊打。

于是我看到很多 AI 领域博主发帖的标题都成了:“Claude 3.5 Sonnet 现世,GPT-4o 不香了”、“Claude 3.5 Sonnet 吊打 GPT-4o”、“大模型宝座一夜之间易主,Claude 3.5 Sonnet 重回第一”,我心里是几万头艹泥马奔腾而过,这些人蹭热度的本事我是真赶不上。

我只知道每家大模型公布出来的数据指标其实都有很大水份,借用我喜欢的博主"大聪明"说过的一句话:任何大模型,在特有约束下,都可以是第一,大模型能力强不强不应该由它的创造者来评估,而是应该由用户来评估,于是我决定亲自测试一下 Claude 3.5 Sonnet 和 GPT-4o 两者的实力对比情况究竟如何。

第一道题自然是弱智吧的经典题目,测试模型对语义的理解能力

GPT-4o

Claude 3.5 Sonnet

果然不出我所料,Claude 3.5 Sonnet 和 GPT-4o 双双翻车了,然后我又特意去试了下咱们的国产模型通义千问,结果它也翻车了…,我不得不感叹咱们中华语言文化博大精深,真是难为这两外国佬了,这一局 Claude 3.5 Sonnet 和 GPT-4o 打成平手

第二道题,测试模型的视觉识别能力

GPT-4o

Claude 3.5 Sonnet

对于第一张图,GPT-4o 描述的细节比较到位,男子,蓝色衣服,熨斗,出租车,绿化,图片中该有的 GPT-4o 都识别出来了,关键是它能看出来男子是站在出租车后的而不是车顶,我不知道 Claude 3.5 Sonnet 这个高度近视患者是怎么认为人物是站在车顶的…

对于第二张图,Claude 3.5 Sonnet 表现得又比 GPT-4o 好,关于图图和小怪的特征描述得非常全面,而且也没什么大的错误,而 GPT-4o 却把小怪的耳朵看成了斑点…

这一轮 Claude 3.5 Sonnet 和 GPT-4o 打成平手

第三道题,测试模型写代码的能力

我让 Claude 3.5 Sonnet 和 GPT-4o 还原下面这个网页的UI

下面来看它们对网页细节的还原度怎么样

GPT-4o

Claude 3.5 Sonnet

对于网页细节的还原 GPT-4o 被吊打了,要审美审美没有,要细节细节没有,这是我完全没有想到的,于是我打算再测试一下让它俩写个俄罗斯方块的游戏。

Prompt:用代码写一个俄罗斯方块的游戏,要求游戏UI一定要美观

GPT-4o

Claude 3 Sonnet

我用 Visual Studio Code 运行了 GPT-4o 和 Claude 3.5 Sonnet 写的代码,两款游戏中方块和下降的速度都能控制,方块也能正常消除,Claude 3.5 Sonnet 写的代码是一次性成功运行的,字体虽然乱码了但是程序没有报错,而 GPT-4o 写的代码因为字体原因运行报错还额外修改了一次,另外 GPT-4o 这个审美就很离谱,好端端的非要绘制那些网格,丑死了,这一局我宣布 Claude 3.5 Sonnet 技高一筹。

第四道题,测试两款模型的数学计算能力

我用的是2024年新课标I卷前6道单选题

Prompt:用CoT思维链解答图片中的所有题目,每一题都要一步一步给出解题步骤

正确答案是:A C D A B B,咱们直接公布两款模型的成绩

GPT-4o:√ × √ × √ √

Claude 3 Sonnet:√ × √ × √ √

是的,你没有看错,我也没有看错,我还反复看了好几遍,Claude 3.5 Sonnet 和 GPT-4o 都栽在第 2 题和第 4 题上面了,不过也能理解,毕竟 LLM 的数学能力差都是公认的,也有可能是我的 Prompt 写得不够好,总之这一局,Claude 3.5 Sonnet 和 GPT-4o 打平。

四轮测试下来,Claude 3.5 Sonnet 确实非常能打,我认为能和 GPT-4o 掰一掰手腕,并且还是有胜算的那一方,这里为什么不说超越 GPT-4o 呢?因为测试次数太少了,题目也不够丰富,所以还是保守一点比较好,Claude 3.5 Sonnet 作为 Claude 3.5系列的中档模型能力已经可以打平 Claude 3.5 ,而且距离 Claude 3 Opus 发布才只有三个月时间,我不敢想象接下来的最高档模型 Claude 3.5 Opus 究竟有多恐怖…

11 个赞

不过4o方便多了

3 个赞

Claude太抠门,问不了几条就没了,4o能力差不多,账号还好注册,之前注册的几个Claude封的就剩一个独苗了

2 个赞

开会员

1 个赞

claude 太小气了,我选择oaifree

1 个赞

写作论文润色能力目前还得是claude 3 opus,希望等到claude 3.5 opus出来的时候,写作能力不被降智。

1 个赞

claude比4o大方吧,我免费的都能用来写一个横版跳跃游戏都没到限制,而且免费的4o阉割了很多上下文。claude的没怎么感觉到阉割。

1 个赞

4o 根据文本解题应该是比给图片解题要强的,没看到你解答过程,不知道它是否是文本有识别出错,我之前用高考题测 4o 能力是很强的

以及你是6个题目截图一次性解答的吗,我单截2、4的图片让4o做题,都做对了,所以可能还有长文输出时的遗忘和能力衰退问题?

Clip_2024-06-23_18-44-09

image

1 个赞

主要Claude 封号太严重了,动不动就封,付费照封

1 个赞

可能分IP地区和运气吧,运气差的问个七八条对话就开始提示负载不足了

1 个赞

有道理,晚上应该高峰期限制多一些,我下午测试的就还好,晚上用就看到说限制多少条的提示了

1 个赞

我用gpt-4o作了你的数学题,全对。

1 个赞

Claude的理解能力很强,就是很小气,而且我感觉chatgpt的生态要更好一点

1 个赞

好用心的测试 赞一个

1 个赞

感觉还可以拿LeetCode或者Codefroces上的题目测试下编程能力。这样好定量分析

和 C35聊着好爽啊 :tieba_024:
不像4o 有点冷和僵硬:cold_face:

把3 opus拎出来对比一下啊

4o 是前座的学霸,c35是同桌的她 :tieba_024:

师傅,那个还原网页UI是怎么提问的,UI实在太难开发了

claude封号太搞了