6月21号凌晨 Anthropic 深夜炸场,发布了它们最新最强大的模型 Claude 3.5 Sonnet ,并甩出了一张包含多个数据指标的对比图,从各项数据中可以看到不仅 Claude 3.5 Sonnet 的亲兄弟 Claude 3 Opus 被按在地上摩擦,连 GPT-4o也被吊打。
于是我看到很多 AI 领域博主发帖的标题都成了:“Claude 3.5 Sonnet 现世,GPT-4o 不香了”、“Claude 3.5 Sonnet 吊打 GPT-4o”、“大模型宝座一夜之间易主,Claude 3.5 Sonnet 重回第一”,我心里是几万头艹泥马奔腾而过,这些人蹭热度的本事我是真赶不上。
我只知道每家大模型公布出来的数据指标其实都有很大水份,借用我喜欢的博主"大聪明"说过的一句话:任何大模型,在特有约束下,都可以是第一,大模型能力强不强不应该由它的创造者来评估,而是应该由用户来评估,于是我决定亲自测试一下 Claude 3.5 Sonnet 和 GPT-4o 两者的实力对比情况究竟如何。
第一道题自然是弱智吧的经典题目,测试模型对语义的理解能力
GPT-4o
Claude 3.5 Sonnet
果然不出我所料,Claude 3.5 Sonnet 和 GPT-4o 双双翻车了,然后我又特意去试了下咱们的国产模型通义千问,结果它也翻车了…,我不得不感叹咱们中华语言文化博大精深,真是难为这两外国佬了,这一局 Claude 3.5 Sonnet 和 GPT-4o 打成平手
第二道题,测试模型的视觉识别能力
GPT-4o
Claude 3.5 Sonnet
对于第一张图,GPT-4o 描述的细节比较到位,男子,蓝色衣服,熨斗,出租车,绿化,图片中该有的 GPT-4o 都识别出来了,关键是它能看出来男子是站在出租车后的而不是车顶,我不知道 Claude 3.5 Sonnet 这个高度近视患者是怎么认为人物是站在车顶的…
对于第二张图,Claude 3.5 Sonnet 表现得又比 GPT-4o 好,关于图图和小怪的特征描述得非常全面,而且也没什么大的错误,而 GPT-4o 却把小怪的耳朵看成了斑点…
这一轮 Claude 3.5 Sonnet 和 GPT-4o 打成平手
第三道题,测试模型写代码的能力
我让 Claude 3.5 Sonnet 和 GPT-4o 还原下面这个网页的UI
下面来看它们对网页细节的还原度怎么样
GPT-4o
Claude 3.5 Sonnet
对于网页细节的还原 GPT-4o 被吊打了,要审美审美没有,要细节细节没有,这是我完全没有想到的,于是我打算再测试一下让它俩写个俄罗斯方块的游戏。
Prompt:用代码写一个俄罗斯方块的游戏,要求游戏UI一定要美观
GPT-4o
Claude 3 Sonnet
我用 Visual Studio Code 运行了 GPT-4o 和 Claude 3.5 Sonnet 写的代码,两款游戏中方块和下降的速度都能控制,方块也能正常消除,Claude 3.5 Sonnet 写的代码是一次性成功运行的,字体虽然乱码了但是程序没有报错,而 GPT-4o 写的代码因为字体原因运行报错还额外修改了一次,另外 GPT-4o 这个审美就很离谱,好端端的非要绘制那些网格,丑死了,这一局我宣布 Claude 3.5 Sonnet 技高一筹。
第四道题,测试两款模型的数学计算能力
我用的是2024年新课标I卷前6道单选题
Prompt:用CoT思维链解答图片中的所有题目,每一题都要一步一步给出解题步骤
正确答案是:A C D A B B,咱们直接公布两款模型的成绩
GPT-4o:√ × √ × √ √
Claude 3 Sonnet:√ × √ × √ √
是的,你没有看错,我也没有看错,我还反复看了好几遍,Claude 3.5 Sonnet 和 GPT-4o 都栽在第 2 题和第 4 题上面了,不过也能理解,毕竟 LLM 的数学能力差都是公认的,也有可能是我的 Prompt 写得不够好,总之这一局,Claude 3.5 Sonnet 和 GPT-4o 打平。
四轮测试下来,Claude 3.5 Sonnet 确实非常能打,我认为能和 GPT-4o 掰一掰手腕,并且还是有胜算的那一方,这里为什么不说超越 GPT-4o 呢?因为测试次数太少了,题目也不够丰富,所以还是保守一点比较好,Claude 3.5 Sonnet 作为 Claude 3.5系列的中档模型能力已经可以打平 Claude 3.5 ,而且距离 Claude 3 Opus 发布才只有三个月时间,我不敢想象接下来的最高档模型 Claude 3.5 Opus 究竟有多恐怖…