claude3 Opus 登顶

7 个赞

是不是玩角色扮演的比较多,论专业能力,haiku 评分过高了,毕竟 Imsys 评分是用户导向

5 个赞

sonnet西红柿能炒钢丝球、鲁迅暴打周树人,是怎么站在 GPT-4-0314 上位的??

8 个赞

一切都是中文惹的祸,这是sonnet

6 个赞

haiku还是好用的。我用它造JSON数据,让它尽量模拟真实的,它表现确实比GPT3.5好

5 个赞

但GPT4是能在中文上解决这个问题,那还能说sonnet更强吗

8 个赞

肯定没有GPT4强。不过这个网站里老外更多

5 个赞

用途不同,Claude在扮演方面比gpt4强太多

4 个赞

如果你的代码很长,你会发现Opus比GPT4强。唯一的问题就是它幻觉有点多

5 个赞

emm

3 个赞

GPT4的答案更符合人类直觉

3 个赞

haiku超3.5没意见,你看那榜单都超4了 :joy:

5 个赞

这榜怎么评的

3 个赞

可能和语言也有关吧,而且这个排行榜有 4 个gpt4版本

3 个赞

4个4正常啊,4 的 api 就是有多个版本的

3 个赞

用户提问,然后两个模型回答, 用户提交哪个模型的回答更好,计算 elo 评分

2 个赞

:rofl: 用户打分的,误差比较大

3 个赞

发现只剩 4-1106 了,lmsys 供不起其他的 4 了吗 :rofl:

image

2 个赞

lmsys 很早就用了,有段时间所有 gpt4 给薅没了,后面又问官方要了(准确来说是,发推顶不住了, openai又提供了) :joy:

1 个赞

从一方面看确实超过了

1 个赞