目前各 Benchmark 的主要结论是,编码能力有很大提升,其他方面提升一般或轻微倒退。
Aider Benchmark 新 SOTA,超过原 o1-preview
LiveBench 编码子版块新 SOTA,且提升很大,但是由于数学、数据分析板块下降导致总分几乎没涨。
还有 SWE bench,这是官方自己宣传的,49%,确实很强,以往要模型配合代理软件才能有接近的水平。
所以新 sonnet 正确食用方法仍然是编码助理了,cursor 也上了新 sonnet。haiku 虽然其他方面不太行但是目前看也有潜力竞争低价代码模型,具体表现要等发布之后再看各个独立评测。