关于新 Claude 3.5 Sonnet 的优势领域

目前各 Benchmark 的主要结论是,编码能力有很大提升,其他方面提升一般或轻微倒退。

Aider Benchmark 新 SOTA,超过原 o1-preview

LiveBench 编码子版块新 SOTA,且提升很大,但是由于数学、数据分析板块下降导致总分几乎没涨。

还有 SWE bench,这是官方自己宣传的,49%,确实很强,以往要模型配合代理软件才能有接近的水平。

所以新 sonnet 正确食用方法仍然是编码助理了,cursor 也上了新 sonnet。haiku 虽然其他方面不太行但是目前看也有潜力竞争低价代码模型,具体表现要等发布之后再看各个独立评测。

6 个赞

即使是老版的c3.5s,编码也是它的强项,这次升级变得更强不是意料之中嘛

1 个赞

据说提升不大,你用了吗?

1 个赞

代码还没详细试,其他方面确实是提升不明显,不过看评测代码应该强挺多的

那还是利好cursor

利好cursor,更想付费了

要什么自行车tieba_125