分享一道可以检测 o3-mini 是否降智的题目(不止,还可以测试模型能力!)

各模型情况汇总:

  1. o3-mini 与 o3-mini-high:均正确:white_check_mark:,用时 1 分钟以内
  2. Grok3 Thinking:正确:white_check_mark:,用时 156s
  3. Gemini-2.0-Flashing-Thinking:错误:x:,英文提示词可以稳定做出:white_check_mark:
  4. k1.5:正确:white_check_mark:,用时 12 分钟(穷举法)
  5. 豆包:正确:white_check_mark:(题海战术)感谢 @zhubaiwan-oozzxx
  6. DeepSeek-R1:正确:white_check_mark:,用时 3 分钟,感谢 @Pomelo_neko

o3-mini API 表现异常!正在调查

4 Likes