关于新 Claude 3.5 Sonnet 的优势领域

neteroster · 2024 年10 月 22 日 23:12

目前各 Benchmark 的主要结论是，编码能力有很大提升，其他方面提升一般或轻微倒退。

Aider Benchmark 新 SOTA，超过原 o1-preview

LiveBench 编码子版块新 SOTA，且提升很大，但是由于数学、数据分析板块下降导致总分几乎没涨。

还有 SWE bench，这是官方自己宣传的，49%，确实很强，以往要模型配合代理软件才能有接近的水平。

所以新 sonnet 正确食用方法仍然是编码助理了，cursor 也上了新 sonnet。haiku 虽然其他方面不太行但是目前看也有潜力竞争低价代码模型，具体表现要等发布之后再看各个独立评测。

ayt407123 · 2024 年10 月 22 日 23:16

即使是老版的c3.5s，编码也是它的强项，这次升级变得更强不是意料之中嘛

handsome · 2024 年10 月 23 日 01:13

据说提升不大，你用了吗？

neteroster · 2024 年10 月 23 日 01:20

代码还没详细试，其他方面确实是提升不明显，不过看评测代码应该强挺多的

handsome · 2024 年10 月 23 日 01:21

那还是利好cursor

missdeer · 2024 年10 月 23 日 03:09

利好cursor，更想付费了

virusinstant · 2024 年10 月 23 日 05:04

要什么自行车

话题		回复	浏览量
升级版 Claude 3.5 Sonnet 和新型号Claude 3.5 Haikuo来了，部分测试超过OpenAl o1-preview 搞七捻三人工智能	21	865	2024 年10 月 23 日
o1-preview和claude-3.5-sonnet哪个更好前沿快讯人工智能	49	2251	2024 年10 月 31 日
claude官key支持3.5sonnet，但好像也就那样资源荟萃人工智能	20	880	2024 年8 月 29 日
几天用下来，大家感觉Claude 3.5 Sonnet和3 Opus相比如何？资源荟萃人工智能	20	1876	2024 年8 月 29 日
claude新模型前沿快讯 Claude	6	648	2024 年10 月 23 日