7 个赞
是不是玩角色扮演的比较多,论专业能力,haiku 评分过高了,毕竟 Imsys 评分是用户导向
5 个赞
sonnet西红柿能炒钢丝球、鲁迅暴打周树人,是怎么站在 GPT-4-0314 上位的??
8 个赞
haiku还是好用的。我用它造JSON数据,让它尽量模拟真实的,它表现确实比GPT3.5好
5 个赞
但GPT4是能在中文上解决这个问题,那还能说sonnet更强吗
8 个赞
肯定没有GPT4强。不过这个网站里老外更多
5 个赞
用途不同,Claude在扮演方面比gpt4强太多
4 个赞
如果你的代码很长,你会发现Opus比GPT4强。唯一的问题就是它幻觉有点多
5 个赞
emm
3 个赞
GPT4的答案更符合人类直觉
3 个赞
haiku超3.5没意见,你看那榜单都超4了
5 个赞
这榜怎么评的
3 个赞
可能和语言也有关吧,而且这个排行榜有 4 个gpt4版本
3 个赞
4个4正常啊,4 的 api 就是有多个版本的
3 个赞
用户提问,然后两个模型回答, 用户提交哪个模型的回答更好,计算 elo 评分
2 个赞
用户打分的,误差比较大
3 个赞
发现只剩 4-1106 了,lmsys 供不起其他的 4 了吗
2 个赞
lmsys 很早就用了,有段时间所有 gpt4 给薅没了,后面又问官方要了(准确来说是,发推顶不住了, openai又提供了)
1 个赞
从一方面看确实超过了
1 个赞