来试试能把 AI 做出 bug 的行测题,留下一些你对人工智能的思考

拿R1、gemini-thinking、QwQ做了几个行测题,发现没一道能做对的。
比如下面这道:

80 60 36
和 60 21 19
仅从数字运算来考虑,这两组数字有什么共同的规律?

直接触发无限思考。R1到最后有概率胡言乱语冒出日语,然后截断。QwQ思考到最后,同一个连等式无限循环输出。gemini直接瞎编答案。

80 60 36
60 21 19
5 24 ?
第三组数字中,填入什么数,能使这些数字呈现一定的规律性。
备选答案有 9 19 29 39

这种问法会好一点。QwQ不会卡bug了,但给了个弱智答案。R1还是截断了。

那什么 Humanity’s Last Exam,里面有些题根本不是考察机器能不能像人一样思考和解题。
还不如搞几道行测的数字规律题,感觉大模型在这些题上都会是0分。
这种行测题虽然很搞,似乎也没啥现实意义,但模型也许真的需要能够像人类一样思考和推理,才有可能解出来。

PS:这题谁能解出答案来,好奇。我研究了半小时没解出来,其他题都解出来了。

9 Likes

面向领导对齐 :bili_004:

理论上,填任何数65都可以找到理由说有规律性w

2 Likes

行测这玩意有标准答案的么, 所谓难题不就是揣测出题者的意思 :rofl:

6 Likes

用一些陷阱题去考的话没意义的,AI都是伪思考的模式,如果大家都这样做的话,以后AI公司直接针对这些问题给你秒出内置答案或者针对性的回复,难不成咱们还夸他能力真棒吗

这些题目本来就是拿来搞笑的,我高中学文科,特别是地理,见得多了

本就是历年套路+反机构套路,ai哪能硬解析

我也去测试看看

等什么时候ai发展成了新的智能种族了
且内部运行结构和人类社会运行机制类似了
ai自然而然的就会进化出这一能力

这题目太抽象了

马上开始训练乐子神模型

我认为答案是39,80+60+36=176,60+21+19=100,结果中176中有一个封闭的0,100中有两个封闭的0,那么5+24+?=该有三个封闭的0,带入备选答案5+24+39=68结果中有3个封闭的0。(手动狗头)不对勿喷 :laughing:

3 Likes

等能把abcd都圆回来的训练数据满天飞的时候应该就行了…

1 Like

出题人想要答题人死

1 Like

拉格朗日插值法了解一下,任何数填进去都可以找到一个通项公式 :bili_040:

2 Likes

应该是有标准答案的。其他几道类似的题我都推出来了。
比如

22 46 14
27 46 13
3 4 ?

答案是 1

我的观察和推理路径大概是:

观察到前两组数中间是相同的数字46,那么先考虑是不是能靠左右两个数字算出46
先考虑只用简单的加减乘除
观察到左右两个数字,一个相差5,一个相差1,却能得出一样的数
那么先将右数乘5,再与左数相加,就能得到一样的数92
再除以2,就是46了
(?*5+3)/2=4
所以 ? 就是 1

这题的规律很简单,但是 AI 仍然没法得出答案。
原因是现在这些推理模型的所谓“思维链”,似乎无法实现上述简单的观察和推理,我感觉两者有本质上的不同。
以为这么简单的推理,AI 现在能做到的,结果令人有点失望。
不知通往 AGI 的真正道路在何方。

我感觉这种行测题,和普通的那些数学物理题还不一样。
普通的数学物理题只要理解题意,然后按照题意,列式子,然后算就行了。
这种行测题,不用计算机来跑穷举的话,感觉真的只有像人类一样观察、思考、尝试、推理,才能做出来。而 AI 还没法掌握人类的这种智能。

脱离学校太久了,我感觉上学的时候,难题之所以是难题,就只是很难想到解题过程中应该用什么公式什么方法去套,而用数据是能把 AI 训练出这样的能力的。所以解题能力超越人类,并不算真正的人类智能。不知道我的理解对不对。

这种行测题,更像是设置谜题和解谜。你当然可以去用很多数据去训练,但是谜题是无法穷尽的。没有见过的谜题设置,AI 能够解决吗?一个人类解谜大师应当可以,一个对解谜有兴趣的普通人也许也可以。


这是O1的回答

但是题目说,只用数字运算啊,就是不能用数圆圈的方法啊