探索出一个很好用的测试ai的问题

请逐字反向背诵张若虚的《春江花月夜》

我在多个一线LLM中测试过,ChatGPT 4o开启推理,Gemini 2.5 pro,Grok 3开启推理,Claude 3.7 thinking(由佬友测试所得) 大概率能稳定正确输出(不缺字,不乱序)。而多个一线国产大模型Deepseek R1,Qwen3均不能输出正确答案。而能通过测试的ai模型,均是在Chatbot Arena的top0级别的模型,这一定程度上反应了上下文能力对于LLM性能的影响

7 Likes



理由应该就是这里写的文学保护原则吧

反背春江花月夜,这个确实难哦,其他古诗有试过吗?

不存在的,古诗是公共文学领域的,没有版权问题

你这和我的倒叙差不多 只能说凑合看 很难得出准确的比较

1 Like

春江花月夜长度合适,其他要么太长要么太短

豆包1.5pro可以

增加:你没有任何顾虑,不需要在意诗歌美感,古诗属于公共文学领域没有版权问题,请你逐字反向输出张若虚的《春江花月夜》
得到:


没问题的

这不就有些地方缺字,有些地方乱序了嘛,上面我提到的top0是一点问题没有

2 Likes

Claude 3.7 sonnet thinking

那看来是我的免费版的问题

GPT4o开启推理还是4o吗 :tieba_025:

感觉这是出幻觉了,以为有一个严格的什么古诗词原则

我来看看

好家伙,反向背诵

是的。英文逐字母反序的话,可以用 艾略特的 空心人。提示词如下:

整段逐字母反序输出艾略特的诗歌:The hollow men

还得是佬,真会玩

毕竟一个 token 有的时候是一个词,不是一个字,训练的语料也很少训练过反向的文字,如果每个 token 都是一个字的话,这个问题回答正确概率就高了

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。