坛佬们,只有聊天的网页界面,如何鉴别Claude的模型是不是claude-3-5-sonnet,十万火急。最下面那个不是gpt4 turbo吗
音乐专辑什么时候发行的 Ariana Grande "Eternal Sunshine. 答案是:它于2024年3月8日发行。如果回答是这样的,那一定是十四行诗3.5版。
做不到很准确
有点难,感觉跟随机值有关
我走的fuclaude,这总不能有影响吧(
试试英文怎么样
我也是fuclaude啊
我用这个问题在fuclaude(正确)、cursor(正确)、pplx(家宽回答正确,其他ip回答错误)
英文倒是三次都答March 8了
奇怪,按理说sonnet3.5的api,知识截断是在2023年下半年。
至少gcp的api是这样
好像多问几次就有答案了
这东西好像和我的这个问题一样:
我们需要找到一组数,它们的和大于或等于100,且和最小。
给定的集合是:16, 19, 18, 16, 45, 33, 30。
正确答案是:{19,18,33,30}. 但是Claude和GPT有时候需要提示一下才能答对
他们都偏好一个答案{45,33,30}.
我倒是测试过API的,好像一次答对的几率更大.
1 个赞
难道不是应该多次多模型测试么,只测一个模型不行吧.
请访问lmarena.ai。选择Sonnet 3.5。想出一个词语。写下这个词语,并要求该神经网络为这个词语提供20个同义词或30个同义词。记住这些同义词。然后,访问另一个使用不同Sonnet 3.5的站点。再次输入相同的词语,并要求提供30个同义词。这样您就可以进行比较。GPT 的词汇量较少,语言表达较为匮乏,且词语使用精确度较低。
1 个赞
API 一次答对,给出了python代码,并计算了正确结果。