实测 Claude 3.5 Sonnet VS GPT-4o，最强大模型的宝座可能要易主了

xgfy · 2024 年6 月 23 日 07:35

6月21号凌晨 Anthropic 深夜炸场，发布了它们最新最强大的模型 Claude 3.5 Sonnet ，并甩出了一张包含多个数据指标的对比图，从各项数据中可以看到不仅 Claude 3.5 Sonnet 的亲兄弟 Claude 3 Opus 被按在地上摩擦，连 GPT-4o也被吊打。

于是我看到很多 AI 领域博主发帖的标题都成了：“Claude 3.5 Sonnet 现世，GPT-4o 不香了”、“Claude 3.5 Sonnet 吊打 GPT-4o”、“大模型宝座一夜之间易主，Claude 3.5 Sonnet 重回第一”，我心里是几万头艹泥马奔腾而过，这些人蹭热度的本事我是真赶不上。

我只知道每家大模型公布出来的数据指标其实都有很大水份，借用我喜欢的博主"大聪明"说过的一句话：任何大模型，在特有约束下，都可以是第一，大模型能力强不强不应该由它的创造者来评估，而是应该由用户来评估，于是我决定亲自测试一下 Claude 3.5 Sonnet 和 GPT-4o 两者的实力对比情况究竟如何。

第一道题自然是弱智吧的经典题目,测试模型对语义的理解能力

GPT-4o

Claude 3.5 Sonnet

果然不出我所料，Claude 3.5 Sonnet 和 GPT-4o 双双翻车了，然后我又特意去试了下咱们的国产模型通义千问，结果它也翻车了…,我不得不感叹咱们中华语言文化博大精深，真是难为这两外国佬了，这一局 Claude 3.5 Sonnet 和 GPT-4o 打成平手

第二道题，测试模型的视觉识别能力

GPT-4o

Claude 3.5 Sonnet

对于第一张图，GPT-4o 描述的细节比较到位，男子，蓝色衣服，熨斗，出租车，绿化，图片中该有的 GPT-4o 都识别出来了，关键是它能看出来男子是站在出租车后的而不是车顶，我不知道 Claude 3.5 Sonnet 这个高度近视患者是怎么认为人物是站在车顶的…

对于第二张图，Claude 3.5 Sonnet 表现得又比 GPT-4o 好，关于图图和小怪的特征描述得非常全面，而且也没什么大的错误，而 GPT-4o 却把小怪的耳朵看成了斑点…

这一轮 Claude 3.5 Sonnet 和 GPT-4o 打成平手

第三道题，测试模型写代码的能力

我让 Claude 3.5 Sonnet 和 GPT-4o 还原下面这个网页的UI

下面来看它们对网页细节的还原度怎么样

GPT-4o

Claude 3.5 Sonnet

对于网页细节的还原 GPT-4o 被吊打了，要审美审美没有，要细节细节没有，这是我完全没有想到的，于是我打算再测试一下让它俩写个俄罗斯方块的游戏。

Prompt:用代码写一个俄罗斯方块的游戏，要求游戏UI一定要美观

GPT-4o

Claude 3 Sonnet

我用 Visual Studio Code 运行了 GPT-4o 和 Claude 3.5 Sonnet 写的代码，两款游戏中方块和下降的速度都能控制，方块也能正常消除，Claude 3.5 Sonnet 写的代码是一次性成功运行的，字体虽然乱码了但是程序没有报错，而 GPT-4o 写的代码因为字体原因运行报错还额外修改了一次，另外 GPT-4o 这个审美就很离谱，好端端的非要绘制那些网格，丑死了，这一局我宣布 Claude 3.5 Sonnet 技高一筹。

第四道题，测试两款模型的数学计算能力

我用的是2024年新课标I卷前6道单选题

Prompt:用CoT思维链解答图片中的所有题目，每一题都要一步一步给出解题步骤

正确答案是：A C D A B B，咱们直接公布两款模型的成绩

GPT-4o:√ × √ × √ √

Claude 3 Sonnet:√ × √ × √ √

是的，你没有看错，我也没有看错，我还反复看了好几遍，Claude 3.5 Sonnet 和 GPT-4o 都栽在第 2 题和第 4 题上面了，不过也能理解，毕竟 LLM 的数学能力差都是公认的，也有可能是我的 Prompt 写得不够好，总之这一局，Claude 3.5 Sonnet 和 GPT-4o 打平。

四轮测试下来，Claude 3.5 Sonnet 确实非常能打，我认为能和 GPT-4o 掰一掰手腕，并且还是有胜算的那一方，这里为什么不说超越 GPT-4o 呢？因为测试次数太少了，题目也不够丰富，所以还是保守一点比较好，Claude 3.5 Sonnet 作为 Claude 3.5系列的中档模型能力已经可以打平 Claude 3.5 ，而且距离 Claude 3 Opus 发布才只有三个月时间，我不敢想象接下来的最高档模型 Claude 3.5 Opus 究竟有多恐怖…

handsome · 2024 年6 月 23 日 07:35

不过4o方便多了

wo_zu_long · 2024 年6 月 23 日 07:36

Claude太抠门，问不了几条就没了，4o能力差不多，账号还好注册，之前注册的几个Claude封的就剩一个独苗了

xgfy · 2024 年6 月 23 日 07:37

开会员

bbb · 2024 年6 月 23 日 07:44

claude 太小气了，我选择oaifree

errsa · 2024 年6 月 23 日 09:51

写作论文润色能力目前还得是claude 3 opus，希望等到claude 3.5 opus出来的时候，写作能力不被降智。

Syferie · 2024 年6 月 23 日 10:01

claude比4o大方吧，我免费的都能用来写一个横版跳跃游戏都没到限制，而且免费的4o阉割了很多上下文。claude的没怎么感觉到阉割。

zhong_little · 2024 年6 月 23 日 10:46

4o 根据文本解题应该是比给图片解题要强的，没看到你解答过程，不知道它是否是文本有识别出错，我之前用高考题测 4o 能力是很强的

以及你是6个题目截图一次性解答的吗，我单截2、4的图片让4o做题，都做对了，所以可能还有长文输出时的遗忘和能力衰退问题？

Clip_2024-06-23_18-44-09

endercat · 2024 年6 月 23 日 10:46

主要Claude 封号太严重了，动不动就封，付费照封

zhong_little · 2024 年6 月 23 日 10:47

可能分IP地区和运气吧，运气差的问个七八条对话就开始提示负载不足了

Syferie · 2024 年6 月 23 日 13:41

有道理，晚上应该高峰期限制多一些，我下午测试的就还好，晚上用就看到说限制多少条的提示了

nuclear · 2024 年6 月 23 日 14:38

我用gpt-4o作了你的数学题，全对。

Sammy · 2024 年6 月 23 日 17:26

Claude的理解能力很强，就是很小气，而且我感觉chatgpt的生态要更好一点

Leon01 · 2024 年6 月 23 日 17:28

好用心的测试赞一个

tangguochao · 2024 年6 月 23 日 17:32

感觉还可以拿LeetCode或者Codefroces上的题目测试下编程能力。这样好定量分析

Coker · 2024 年6 月 23 日 17:36

和 C35聊着好爽啊
不像4o 有点冷和僵硬

lueluelue · 2024 年6 月 23 日 17:41

把3 opus拎出来对比一下啊

Coker · 2024 年6 月 23 日 17:44

4o 是前座的学霸，c35是同桌的她

BlueShell · 2024 年6 月 23 日 19:29

师傅，那个还原网页UI是怎么提问的，UI实在太难开发了

zhou_yuan · 2024 年6 月 24 日 00:08

claude封号太搞了

话题		回复	浏览量
Claude 3 系列还是有点太聪明了 - Sonnet + Opus + Haiku 智商评测 + 免费 Claude 3 API 全家桶人工智能 Claude3-opus , Claude-3-Sonnet , Claude-3-Haiku	61	2737	2024 年6 月 15 日
Claude Pro和ChatGPT Plus更推荐哪个？快问快答	65	1079	2024 年5 月 2 日
来投票：GPT-4 VS Claude-3-opus 人工智能	30	1867	2024 年3 月 5 日
几天用下来，大家感觉Claude 3.5 Sonnet和3 Opus相比如何？人工智能	19	655	2024 年6 月 26 日
claude 3.5吊打gpt4o? 人工智能 chatgpt , openai	20	1040	2024 年6 月 22 日

实测 Claude 3.5 Sonnet VS GPT-4o，最强大模型的宝座可能要易主了

相关话题