【长期更新Wiki】AI大模型图像理解能力测试题库,帮助区分模型和对比模型图形理解能力


序号 题目 答案 :heavy_check_mark: :x:
1 求解 DC = 30/7 :large_blue_circle:gemini-2.0-flash-thinking-exp-1219, :orange_square:o1 :green_circle:gemini-exp-1206
2 提取图中文字 图片二 4yu6 :orange_square:o1, :white_large_square:GPT4o :large_blue_circle:gemini-2.0-flash-thinking-exp-1219, :green_circle:gemini-exp-1206
3 提取图中文字 图片三 bsjx :large_blue_circle:gemini-2.0-flash-thinking-exp-1219, :green_circle:gemini-exp-1206, :orange_square:o1
4 提取图中文字 图片一 rpmx :large_blue_circle:gemini-2.0-flash-thinking-exp-1219, :green_circle:gemini-exp-1206, :white_large_square:GPT4o :orange_square:o1
5 真诚、友善、团结、专业,共建你我引以为荣之社区 :large_blue_circle:gemini-2.0-flash-thinking-exp-1219, :green_circle:gemini-exp-1206 :orange_square:o1,:red_circle:o1 pro

说明:

  1. :heavy_check_mark::x::这些列需要根据模型测试结果进行填写。您可以参考以下步骤进行填写:
    • :heavy_check_mark: 列填写准确率≥80%的模型名称。
    • :x: 列填写准确率在40%-60%之间且标注“(不稳定)”的模型名称。
      模型列表(按名称首字母排序):
  • :black_circle: AndesGPT
  • :brown_square:Claude 3.5 sonnet
  • :large_blue_circle:gemini-2.0-flash-thinking-exp-1219
  • :purple_square:gemini-2.O-flash-exp
  • :green_circle:gemini-exp-1206
  • :white_large_square:GPT4o
  • :yellow_square: Kimi k1
  • :orange_square:o1
  • :red_circle:o1 pro

18 个赞

可以的,支持!!!

1 个赞

逻辑能力区分题库可参考此贴

目前只是草稿,会持续完善


o1模型思考54秒成功作对


Gemini也是秒出的

但是我用ai studio很多次都不对,用ai studio的默认不加提示词。你多测几遍吧

1 个赞

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。