Claude 3.7 模型已添加到题库,欢迎佬来测试

欢迎 Wiki 共建

16 Likes

专业!!

我试了第一题


失败~

1 Like

感谢支持,我只有普号

https://linux.do/t/topic/452776

佬如果想测试的话,欢迎来留言

1 Like

这就总结好啦

1 Like


我也只有普号,第一题不思考失败

1 Like

第10题 normal

1 Like

从基准看,s3.7数学不强

3 Likes


我问了下,答对了

从这个命名方式也猜出来了

而且很容易截断

1 Like

再问又对了,要再多测几次

1 Like

:tieba_087: 等大佬测试

1 Like

测试了第六题,思考模式,就测了一次,回答对了

1 Like

第三题截断了 思考不了这么多

T4
3.7 错误


3.7 thinking错误,输出了12000个词,cursor次数都被用掉几次,被截断了

QWQ的也可以加进去 :tieba_087:

1 Like

claude3.7不太适合测试数学吧


第一道题使用 3.7的Extended 结果。

1 Like