再战挑战题!几乎只有3-Opus能做对的题,3.5-Sonnet能挑战成功吗?

前情提要:

现在3.5-Sonnet出来了,话不多说,开测!!

(来自OpenRouter的API调用)

很遗憾,试了好几次都不能答对。

不过毕竟成本不如Opus,而且这是非典型题目,需要模型从广泛的训练数据中学习到对应的模式,对模型的能力要求还是比较高的。

3 个赞

佬的openrouter是付费的吗

是的


和它说不对,它又好像画对了

1 个赞

这个问题居然还能测

不行,话说有无逻辑题我来测测

哇 这个不错

Perplexity的回答让我严重怀疑是缓存了还是掺水了 每次都是完全一致的回复且几乎没有延迟