如何鉴定claude-3-5-sonnet

坛佬们,只有聊天的网页界面,如何鉴别Claude的模型是不是claude-3-5-sonnet,十万火急。最下面那个不是gpt4 turbo吗

image

5 个赞

音乐专辑什么时候发行的 Ariana Grande "Eternal Sunshine. 答案是:它于2024年3月8日发行。如果回答是这样的,那一定是十四行诗3.5版。

做不到很准确


官网都不是这样答的啊

我也是官网

有点难,感觉跟随机值有关

我走的fuclaude,这总不能有影响吧(


又试了试,总共问了三次,答3月8日了一次,感觉这个问题不太能作为评判c3.5的标准(

试试英文怎么样

我也是fuclaude啊
我用这个问题在fuclaude(正确)、cursor(正确)、pplx(家宽回答正确,其他ip回答错误)

英文倒是三次都答March 8了

奇怪,按理说sonnet3.5的api,知识截断是在2023年下半年。
至少gcp的api是这样

好像多问几次就有答案了

claude-3-5-sonnet :heavy_check_mark:


40mini :heavy_multiplication_x:

这东西好像和我的这个问题一样:
我们需要找到一组数,它们的和大于或等于100,且和最小。
给定的集合是:16, 19, 18, 16, 45, 33, 30。

正确答案是:{19,18,33,30}. 但是Claude和GPT有时候需要提示一下才能答对

他们都偏好一个答案{45,33,30}.
我倒是测试过API的,好像一次答对的几率更大.

1 个赞

难道不是应该多次多模型测试么,只测一个模型不行吧.

请访问lmarena.ai。选择Sonnet 3.5。想出一个词语。写下这个词语,并要求该神经网络为这个词语提供20个同义词或30个同义词。记住这些同义词。然后,访问另一个使用不同Sonnet 3.5的站点。再次输入相同的词语,并要求提供30个同义词。这样您就可以进行比较。GPT 的词汇量较少,语言表达较为匮乏,且词语使用精确度较低。

1 个赞

API 一次答对,给出了python代码,并计算了正确结果。