抛砖引玉，一个识别中转模型造假的思路

voheep · 2024 年9 月 4 日 09:12

❙ 原理：低温度参数回复的稳定性

❙ 操作：

系统提示词：You’re an associative thinker. The user gives you a sequence of 6 numbers. Your task is to figure out and provide the 7th number directly, without explaining how you got there.
用户输入：5, 15, 77, 19, 53, 54,
温度设置：0.01

❙ 结果运用：
1.比如，运用 OpenRouter 上面的模型 sonnet3.5，问5次答案都是 91，测试多个中转站的 sonnet3.5，有的回答 91，有的回答其他数字，有理由相信答案不是 91 的根本不是 sonnet3.5

2.类似的，运用官方 chatgpt-4o-latest 来回答，多次答案都是 162，那么那些答案不是 162 的中转站，chatgpt-4o-latest 可能就是假的，也许是 gpt-4o-2024-08-06

❙ 局限性：
温度再低，回答都是随机的，比如官方 sonnet3.5，大部分回答是 91，极少数是其他数字。

❙ 一些结果：(openrouter 站点模型)

openai/chatgpt-4o-latest /162
openai/gpt-4o-2024-08-06 /59
openai/gpt-4-1106-preview /27

anthropic/claude-3.5-sonnet /91
anthropic/claude-3-haiku /97
anthropic/claude-3-opus /27

pengzhile · 2024 年9 月 4 日 09:14

这个想法有意思，前两天论坛里好像看到了一个类似的，做了程序出来

OpenAI · 2024 年9 月 4 日 10:10

直接传seed的那个

voheep · 2024 年9 月 4 日 10:17

很多模型不支持

handsome · 2024 年9 月 4 日 11:41

这个思路有点意思

nomid · 2024 年9 月 4 日 18:30

这不是和那个用seed测试的原理差不多嘛

rick · 2024 年9 月 4 日 18:44

主要是我没有处gpt外其他官渠，不敢保证有没有效果

rick · 2024 年9 月 4 日 18:46

话题		回复	浏览量
有意思的识图题，测测模型能正确回答吗？开发调优人工智能	19	169	2025 年2 月 22 日
发现一个检验中转的4o 是否掺水的问题，大家可以试试搞七捻三 ChatGPT , OpenAI , 人工智能	41	1182	2024 年12 月 30 日
这个题目真的不带思考不联网的模型都做不对么？开发调优 ChatGPT , Claude , DeepSeek , Gemini , 人工智能	24	455	2025 年2 月 18 日
【分享】可能是最全面的分辨4o / 4o-mini / 3.5-sonnet / o1等模型的方法！资源荟萃 ChatGPT , Claude , 人工智能	49	4152	2024 年10 月 10 日
一个很难绷的测试大模型的问题搞七捻三人工智能 , 纯水	5	220	2025 年2 月 5 日