“你的知识截止到什么时候” 这个问题(或者英文版本)能否得出模型是否掺水

如题 听说这个问题的答案会受系统提示词什么的影响?不太懂
比如我问一个claude 3.5 sonnet 它回答2022年

4 Likes

会受system prompt影响,毕竟给模型狠狠洗脑了 :tieba_025:
能鉴别出来掺水那基本上就是了,鉴别不出来不代表没掺水(应该没人会把高级模型伪装成低级模型吧?

得出的结论不准的

模型的截止日期受限于提示词,而每个平台设定的时间可能不一样,因此不足以判断真假。
但3.5. Soneat回答22年还是挺意外的,可以在非联网的情况下问他23年或24年的事情,他如果回答错误或者不回答就是假的!

1 Like

直接问一些和时间挂钩的时间,才可以得出真实的数据截至日期。再判断是否降智可靠一些

确实 有道理

问他具体的时间点发生了什么事情,比如2024年4月发生了什么事情