Claude 3 系列还是有点太聪明了 - Sonnet + Opus + Haiku 智商评测 + 免费 Claude 3 API 全家桶

  • GPT-4 在降智,结果就是 Sonnet 都崛起了……
  • 最近因为有 API 的 Opus 但是捐给 sketu 了,就干脆试了试自己三天没登的 Claude 3 Sonnet.
  • 分多个对话框提问,英语和中文提问各占一半。

  • 虽说还有点问题比如经典鲁迅大战周树人还有番茄炒钢丝球。


  • Tips: 钢丝球似乎情有可原,这家伙当成炒肉球了。虽然这家伙还是很笨,笨到认为钢丝球是云吞 / 馄饨。

  • 经测试,两个问题在英文下都可以正常回答。


  • 糖醋三合板问题中文竟然一遍过了,虽然还是有问题(指三合板为菜肴),不过情有可原,隔壁 GPT-4 直接说这个菜肴存在。

  • gpt-4-turbo-2024-04-09 的问题错了,正常。(正确答案是乙,两个回答都是甲)



  • 综上所述,Sonnet 应对英语处理能力还不错,差不多可以匹敌 GPT-4 了,但语文有待提升。数学和编程还没测试。
  • 话说隔壁 Opus 写小说那个是真的么
  • 期待补充……
11 个赞

所以你是怎么做到不封号的?我注册就秒封

7 个赞

有没有 Haiku 号的佬试试这些问题在 Haiku 模型表现如何

5 个赞

不知道,我机场换了好几个,美国日本新加坡都有没封号
可能是因为我的账户是 Claude(1)时便存在的产物?

6 个赞

难搞,我注册直接封了,发邮件也不鸟我…

6 个赞

老号yyds

5 个赞

不聪明,看我们大多数用于中文对话,所以还是用gpt4吧,用于写外文之类的,另当别论

5 个赞

我也是注册就封,封了三次,后面懒得弄了

5 个赞
  • 编程和 GPT-4 不相上下,因为最终还是错了 XD:

  • 数学不抱有奢望了,毕竟是没有代码解释器的大模型的通病。

4 个赞

haiku之前用感觉不太行,比3.5的语言自然一点点而已,用了两天号没了,不知道现在咋样

5 个赞

GPT-4 目前写代码也不太行了……Python 除外
其实 Gemini-1.5 在中文区也快追上来了

4 个赞


opus也完美算错

4 个赞

富哥你带我走吧 :sob:

4 个赞

:sob: :sob: :sob:

4 个赞


这商汤笑死了,这还对标gpt4.5

5 个赞

戳啦,GPT-4.5 也是这个水平嘛

4 个赞

:sob::sob:我也是1产啊,很久没登前几天登一下发现被封了

4 个赞

4.5能回答对呀

4 个赞

那就怪了

4 个赞

4.5 什么时候出的

4 个赞