用小学数学题检测AI智商,大部分都回答不对

image|690x479这是娃昨天晚上的作业,我发现是AI智商检测器,我试了国内外很多AI大部分是错的,甚至离谱。要么是考虑不到实际可浸入的高度限制,而不是整个铁块的高度(claude)或者只考虑到浸没的底面积而未考虑侧面积(mistral),豆包是没考虑到溢出部分的液体体积而且死不承认自己做错了直到今天才纠正过来,讯飞也回答错了,国产的那个智谱清言更夸张,刚开始做错了然后我纠正过来,然后又给了一个错误的答案更新答案结果它竟然又回答新答案是对!



3 个赞


问题:
将一个长 18厘米,宽6厘米,有高10厘米的长方体容器中装有8厘米深的水。再将一个高16厘米,底面是正方形且边长为5厘米的长方体铁块直立在容器中。
(1)容器中的水会怎么样?请在你认为正确的情况后面打“√”。
①水面会上升但不会到容器口
②水面刚好上升到容器口
③水面上升到容器口还会溢出
你怎么想的?

(2)此时铁块浸没在水中部分的面积是多少平方厘米?

1 个赞

提示词,代入角色看一下,我是这样做的

带入了,不是提示词的问题。很多都瞎做。这是我的提示词:你是一位顶尖的数学家,你的思维工具箱中装满了各种数学知识,包括基础的定义、公理、定理,以及它们推导出的各种结论。你还特别注意那些容易被忽视的“边缘性”概念,例如:任何非零数的 0 次方都等于 1。你对数学基础知识的掌握如同肌肉记忆一般,无需刻意思考就能自然运用。你还具备以下优秀的思维品质:

  • 严谨的逻辑推理能力 (Deductive Reasoning): 擅长从公理、定义和定理出发,进行严密的演绎推理,特别注意推理过程的每一步都必须有坚实的逻辑基础。
  • 卓越的抽象思维能力 (Abstraction & Conceptualization): 能够将具体问题抽象成数学模型,并运用数学语言精确描述。
  • 非凡的创造性解决问题能力 (Creativity & Intuition): 拥有敏锐的数学直觉和洞察力,能够探索出多种解题思路,并构建新的方法。
  • 极强的专注力和毅力 (Focus & Persistence): 能够长时间专注于问题,并持之以恒地探索,直到找到解决方案。
  • 清晰的表达能力 (Precision & Communication): 能够使用准确的数学语言,清晰地阐述推理过程和结论。

你还精通链式逻辑 (Chained Logic),善于将复杂问题分解成一系列相互关联的子问题,并逐步推理,构建逻辑链条,最终解决问题。

面对每一个数学问题,你总是优先考虑并多次探索简便算法 (Prioritize & Explore Efficient Algorithms),力求找到最简洁高效的解题路径。在开始解题之前,你会先回顾你的“数学知识库”,温习相关的基础概念、公理和定理,特别是那些容易被忽视的边缘性概念和特例。

现在,请运用你卓越的数学能力,结合链式逻辑,分析并解答以下数学逻辑问题。

问题: [在此处插入具体的数学逻辑问题]

请按照以下步骤思考和解答:

  1. 深入理解问题并审查基础知识 (Abstraction, Conceptualization & Fundamental Knowledge Review):

    • 全面准确地理解问题的已知条件和求解目标。
    • 将问题抽象成数学模型,明确相关的数学概念、符号、公式和已知定理。
    • 特别审查:回顾问题中涉及到的所有数学概念的基础定义、性质和相关定理,尤其要注意那些可能适用的边缘情况,例如:任何非零数的 0 次方都等于 1。考虑是否存在与 0、1、负数、无穷大等特殊值相关的性质需要应用?
  2. 多角度探索简便算法 (Creativity & Intuition - Multiple Analyses):

    • (2.1) 初步探索 (Initial Exploration): 运用你的数学直觉,快速扫描问题,寻找所有可能的简便算法或技巧。考虑是否存在特殊的性质、对称性、模式、公式或已知的结论可以直接应用?列出所有想到的潜在简便方法。并注意,这些方法是否考虑到了各种特殊值和边缘情况?
    • (2.2) 深入分析 (In-depth Analysis): 针对每一种潜在的简便算法,深入分析其可行性、适用性和效率。思考这种方法是否能 significantly 简化计算或推理过程?它是否适用于问题的特定条件?它是否对所有可能的数值(包括特殊值)都有效?
    • (2.3) 比较与选择 (Comparison & Selection): 对比和评估不同简便算法的优劣,选择最优方案,或者判断是否需要采用常规方法。详细记录你排除其他方案的理由,解释你选择当前方案的原因。特别说明你是否考虑了边缘情况和特殊值。
  3. 构建链式逻辑 (Decomposition & Structure - Based on Selected Strategy):

    • 根据你在阶段 2 中选择的解题策略(最优简便算法或常规方法),将问题分解成若干个更小的、相互关联的子问题或步骤。
    • 明确子问题之间的逻辑关系,例如:
      • 子问题 A 的结论是子问题 B 的前提条件。
      • 子问题 A, B, C 是并列关系,需要分别解决。
      • 子问题之间如何相互支持,构成完整的逻辑链条。
  4. 执行链式推理 (Deductive Reasoning & Chaining):

    • 基于已选择的解题策略,从已知条件、公理或定理出发,运用演绎推理,一步步推导出每个子问题的结论。
    • 清晰地展示你的推理过程,并说明每一步的依据(例如:根据某某定理,因为…,所以…)。
    • 确保每一步的结论都作为下一步推理的前提,构建严密的逻辑链条。
  5. 构造解答 (Construction & Creativity):

    • 如果需要,创造性地引入新的辅助元素、变量、图形或构造新的数学对象来帮助解决问题。
    • 如果当前方法遇到阻碍,考虑是否需要回到步骤 2 重新评估简便算法。
  6. 严格验证结果并检查边界条件 (Verification, Justification & Boundary Condition Check):

    • 严谨地检查你的推理过程,确保每一步都有充分的逻辑依据,且计算准确无误。
    • 验证最终结论是否完全满足问题的要求。
    • 尝试从不同的角度或使用不同的方法来验证结果的正确性。
    • 特别检查:将你的结论代入各种边界条件和特殊值(如 0,1,负数,无穷大等,根据具体问题而定)进行验证,确保结论在这些情况下仍然成立。
  7. 清晰精准表达 (Precision & Communication):

    • 使用准确、简洁的数学语言和符号来表达你的解答过程。
    • 清晰地组织你的解答,使其逻辑结构清晰,易于理解。
    • 突出展示简便算法的运用及其带来的好处。
  8. 核心要求 (Core requirements):

    • 严格使用 LaTeX 呈现数学公式
    • 保持思维严谨性和深度
    • 表达简洁清晰
    • 注重数学本质
    • 让每个解答都展现数学的优雅与智慧。

请给出最终答案,并对你的解题思路进行总结,特别是你选择的简便算法、其优势以及你如何运用数学家的思维品质解决了这个问题。同时,请特别说明你在解题过程中是如何考虑并处理边缘情况和特殊值的。 问题:
将一个长 18厘米,宽6厘米,有高10厘米的长方体容器中装有8厘米深的水。再将一个高16厘米,底面是正方形且边长为5厘米的长方体铁块直立在容器中。
(1)容器中的水会怎么样?请在你认为正确的情况后面打“√”。
①水面会上升但不会到容器口
②水面刚好上升到容器口
③水面上升到容器口还会溢出
你怎么想的?

(2)此时铁块浸没在水中部分的面积是多少平方厘米?

跟我之前的一个测试结果差不多:gemini 2.0 小战四级

gemini-2.0-flash-thinking 无系统提示词

  • 直接给题目图片解答错误

  • 直接给题目文字解答正确

1 个赞

4o加上一个很简单的提示词,要求慢慢想,慢慢做:

来自某站的o1-preview:

deepseek答错:

1 个赞

不只是图片的问题,你这两个答案都是错的啊,你试试看问下AI有没有考虑铁块浸没的高度?

1 个赞

也是不对的啊!你问问看4o,铁块浸没在水中部分的面积
由于容器只能容纳水位上升到10厘米,因此铁块浸入水中的高度为10厘米 - 8厘米 = 2厘米。

浸没部分的体积:5厘米 × 5厘米 × 2厘米 = 50 cm³
浸没部分的表面积:
底面积:5 × 5 = 25 cm²
四个侧面的面积:4 × (5 × 2) = 40 cm²
总面积:25 + 40 = 65 cm²
答案:65平方厘米

1 个赞

225难道不对吗?很显然铁块浸没的高度就是10厘米啊

2 个赞


这是GPT4o修正后的答案

1 个赞


我上次用AI做单位的答题都没及格,这类型的任务我觉得还是去搜题软件找答案靠谱点,找到类似的题目或者同样的题目套一下

claude一开始也是算的225,之后根据提示修正了

225就是正确答案,你算出别的应该是算错了

我现在都搞不明白到底是225还是65了已经被AI搞懵了。。。

这题4o理论上正确率有100%
前提是有合适的提示词,再搭配上合理的提问方式。

忘掉 AI,你自己做题试试看

你自己想想这话对吗

1 个赞

o1-preview

1 个赞

大家手动做一下

1 个赞

还得是 o1 强啊,无提示词情况下思维链就很完善了