claude3 Opus 登顶

claude3 · 2024 年3 月 27 日 03:03

zhong_little · 2024 年3 月 27 日 03:09

是不是玩角色扮演的比较多，论专业能力，haiku 评分过高了，毕竟 Imsys 评分是用户导向

neo · 2024 年3 月 27 日 03:32

sonnet西红柿能炒钢丝球、鲁迅暴打周树人，是怎么站在 GPT-4-0314 上位的？？

RichardChou · 2024 年3 月 27 日 03:36

一切都是中文惹的祸，这是sonnet

RichardChou · 2024 年3 月 27 日 03:40

haiku还是好用的。我用它造JSON数据，让它尽量模拟真实的，它表现确实比GPT3.5好

neo · 2024 年3 月 27 日 03:41

但GPT4是能在中文上解决这个问题，那还能说sonnet更强吗

RichardChou · 2024 年3 月 27 日 03:42

肯定没有GPT4强。不过这个网站里老外更多

ldo · 2024 年3 月 27 日 03:42

用途不同，Claude在扮演方面比gpt4强太多

RichardChou · 2024 年3 月 27 日 03:44

如果你的代码很长，你会发现Opus比GPT4强。唯一的问题就是它幻觉有点多

cabbage · 2024 年3 月 27 日 03:46

emm

Jun_Lee · 2024 年3 月 27 日 03:46

GPT4的答案更符合人类直觉

zhong_little · 2024 年3 月 27 日 04:08

haiku超3.5没意见，你看那榜单都超4了

lueluelue · 2024 年3 月 27 日 04:12

这榜怎么评的

uummo · 2024 年3 月 27 日 04:18

可能和语言也有关吧，而且这个排行榜有 4 个gpt4版本

zhong_little · 2024 年3 月 27 日 04:48

4个4正常啊，4 的 api 就是有多个版本的

zhong_little · 2024 年3 月 27 日 04:53

用户提问，然后两个模型回答，用户提交哪个模型的回答更好，计算 elo 评分

RichardChou · 2024 年3 月 27 日 05:05

用户打分的，误差比较大

zhong_little · 2024 年3 月 27 日 05:11

发现只剩 4-1106 了，lmsys 供不起其他的 4 了吗

uummo · 2024 年3 月 27 日 05:18

lmsys 很早就用了，有段时间所有 gpt4 给薅没了，后面又问官方要了（准确来说是，发推顶不住了， openai又提供了）

Jackwei · 2024 年3 月 27 日 05:20

从一方面看确实超过了

话题		回复	浏览量
claude安卓端上线资源荟萃 Claude , 人工智能	10	421	2024 年8 月 29 日
Claude 跌落神坛资源荟萃人工智能	46	1490	2024 年8 月 29 日
Claude3稳定了？资源荟萃人工智能	11	659	2024 年9 月 3 日
最近听说全网缺claude3 opus 开发调优快问快答	13	777	2024 年8 月 29 日
Claude出现这种问题怎么办资源荟萃人工智能	12	333	2024 年8 月 29 日