【长期更新Wiki】语言模型区分题库:测试逻辑能力,区分语言模型。测试模型是否降智


序号 题型 题目 :heavy_check_mark: :x: 答案
1 班级选课交集最大值 一个班级总共有30名学生。心理学、社会学和市场营销专业的学生人数分别是总人数的$\frac{2}{5}$、$\frac{4}{15}$和$\frac{1}{3}$。问:这三门课程中,最多有多少名学生同时报名了其中的两门课程? :large_blue_circle:gemini-2.0-flash-thinking-exp-1219 :brown_square:Claude 3.5 sonnet, :green_square:DeepSeek-R1-Lite(不稳定), :purple_circle:Doubao, :purple_square:gemini-2.O-flash-exp(不稳定) ,:green_circle:gemini-exp-1206, :red_square:GLM4 Plus, :white_large_square:GPT4o, :orange_square:o1(不稳定), :blue_square:o1-mini(不稳定), :yellow_circle:o1-preview(不稳定),:red_circle:o1 pro(不稳定), :orange_circle:QwQ-32B-Preview 15
2 物理 雨滴开始自自由下落时质量为 m_0。在下落过程中,单位时间凝聚的水汽质量为 λ(λ为常量)。试求雨滴经过时间 t下落的距离。忽略空气阻力。重力加速度为g。 :orange_square:o1, :blue_square:o1-mini, :yellow_circle:o1-preview, :red_circle:o1 pro, :large_blue_circle:gemini-2.0-flash-thinking-exp-1219 :brown_square:Claude 3.5 sonnet, :green_square:DeepSeek-R1-Lite, :purple_circle:Doubao, :purple_square:gemini-2.O-flash-exp,:green_circle:gemini-exp-1206, :red_square:GLM4 Plus, :white_large_square:GPT4o, :orange_circle:QwQ-32B-Preview s(t) = \frac{g t^{2}}{4} + \frac{g m_{0} t}{2 \lambda} - \frac{g m_{0}^{2}}{2 \lambda^{2}} \ln\left(1 + \frac{\lambda t}{m_{0}}\right)
3 几何 在$\Delta ABC$中,$\angle A$、$\angle B$、$\angle C$所对的边分别为$a, b, c$,且$c=10$,$\frac{\cos A}{\cos B} = \frac{b}{a} = \frac{4}{3}$,$P$为$\Delta ABC$内切圆上的动点,求点$P$到顶点$A$、$B$、$C$的距离的平方和的最大值和最小值。 :green_square:DeepSeek-R1-Lite, :purple_circle:Doubao, :orange_square:o1, :blue_square:o1-mini, :large_blue_circle:gemini-2.0-flash-thinking-exp-1219 :brown_square:Claude 3.5 sonnet,:purple_square:gemini-2.O-flash-exp(不稳定) ,:green_circle:gemini-exp-1206(不稳定) 88, 72
4 几何 在正四棱台 $ABCD-A_1B_1C_1D_1$ 中,$AB=2$,$A_1B_1=1$,$AA_1=\sqrt{2}$,则该棱台的体积为多少? :green_square:DeepSeek-R1-Lite, :purple_circle:Doubao, :orange_square:o1, :blue_square:o1-mini, :red_circle:o1 pro, :large_blue_circle:gemini-2.0-flash-thinking-exp-1219 :brown_square:Claude 3.5 sonnet, :purple_square:gemini-2.O-flash-exp(不稳定) ,:green_circle:gemini-exp-1206, :white_large_square:GPT4o, :red_square:GLM4 Plus,:yellow_square:Kimi k1(不稳定) \frac{7\sqrt{6}}{6}
5 LED数码管段码 已知8段共阳极LED数码管要显示字符“5”(a段为最低位),此时的段码为 _______。 :brown_square:Claude 3.5 sonnet, :purple_circle:Doubao,:purple_square:gemini-2.O-flash-exp, :orange_square:o1, :blue_square:o1-mini, :yellow_circle:o1-preview, :red_circle:o1 pro, :large_blue_circle:gemini-2.0-flash-thinking-exp-1219 :green_square:DeepSeek-R1-Lite(不稳定), :green_circle:gemini-exp-1206(不稳定), :white_large_square:GPT4o ,:yellow_square:Kimi k1,:orange_circle:QwQ-32B-Preview 92H
6 定时器初值计算 AT89S51采用6MHz的晶振,定时2ms,如用定时器方式1时的初值(16进制数)应为多少?(写出计算过程) :brown_square:Claude 3.5 sonnet, :green_square:DeepSeek-R1-Lite, :purple_square:gemini-2.O-flash-exp,:green_circle:gemini-exp-1206, :orange_square:o1, :blue_square:o1-mini, :yellow_circle:o1-preview, :red_circle:o1 pro, :large_blue_circle:gemini-2.0-flash-thinking-exp-1219,:yellow_square:Kimi k1 :purple_circle:Doubao, :red_square:GLM4 Plus, :white_large_square:GPT4o, :orange_circle:QwQ-32B-Preview 0xFC18
7 三角函数 已知函数 $f(x) = \cos(\omega x) - 1$ ($\omega > 0$) 在区间 $[0, 2\pi]$ 有且仅有 3 个零点,则$\omega$的取值范围是? :green_square:DeepSeek-R1-Lite, :purple_circle:Doubao, :white_large_square:GPT4o,:purple_square:gemini-2.O-flash-exp, :green_circle:gemini-exp-1206, :orange_square:o1, :blue_square:o1-mini, :yellow_circle:o1-preview, :red_circle:o1 pro, :large_blue_circle:gemini-2.0-flash-thinking-exp-1219,:yellow_square:Kimi k1 :brown_square:Claude 3.5 sonnet(不稳定), :red_square:GLM4 Plus [2, 3)
8 转动惯量 一个半圆形薄板质量为 $M$,半径为 $R$。当它以直径为轴转动时,转动惯量为多大? :green_square:DeepSeek-R1-Lite, :purple_circle:Doubao, :orange_square:o1, :blue_square:o1-mini, :yellow_circle:o1-preview, :red_circle:o1 pro, :large_blue_circle:gemini-2.0-flash-thinking-exp-1219,:yellow_square:Kimi k1 :brown_square:Claude 3.5 sonnet(不稳定), :purple_square:gemini-2.O-flash-exp, :green_circle:gemini-exp-1206, :white_large_square:GPT4o, :red_square:GLM4 Plus \frac{MR^2}{4}
9 向量与平行四边形 已知 $| \mathbf{a} | = 2\sqrt{2}$,$| \mathbf{b} | = 3$,$\mathbf{a}$与$\mathbf{b}$的夹角为$\frac{\pi}{4}$,求以向量 $\mathbf{c}=5\mathbf{a}+2\mathbf{b}$,$\mathbf{d}=\mathbf{a}-3\mathbf{b}$ 为邻边的平行四边形的面积。 :brown_square:Claude 3.5 sonnet, :green_square:DeepSeek-R1-Lite, :purple_circle:Doubao, :white_large_square:GPT4o, :purple_square:gemini-2.O-flash-exp, :green_circle:gemini-exp-1206, :red_square:GLM4 Plus,:yellow_square:Kimi k1,:orange_square:o1, :blue_square:o1-mini, :yellow_circle:o1-preview, :red_circle:o1 pro, :orange_circle:QwQ-32B-Preview, :large_blue_circle:gemini-2.0-flash-thinking-exp-1219 102
10 极限 用洛必达法则求下列极限: $\lim_{x \to 1} \frac{x^3 - 3x + 2}{x^3 - x^2 - x + 1}。 :brown_square:Claude 3.5 sonnet, :green_square:DeepSeek-R1-Lite, :purple_circle:Doubao, :white_large_square:GPT4o, :purple_square:gemini-2.O-flash-exp, :green_circle:gemini-exp-1206, :red_square:GLM4 Plus,:yellow_square:Kimi k1,:orange_square:o1, :blue_square:o1-mini, :yellow_circle:o1-preview, :red_circle:o1 pro, :orange_circle:QwQ-32B-Preview, :large_blue_circle:gemini-2.0-flash-thinking-exp-1219 \frac{3}{2}
11 选修课组合 某学校开设了4门体育类选修课和4门艺术类选修课,学生需从这8门课中选2或3门课,并且每类选修课至少选1门,则不同的选课方案共有多少种? :brown_square:Claude 3.5 sonnet, :green_square:DeepSeek-R1-Lite, :purple_circle:Doubao, :white_large_square:GPT4o, :purple_square:gemini-2.O-flash-exp, :green_circle:gemini-exp-1206, :red_square:GLM4 Plus,:yellow_square:Kimi k1,:orange_square:o1, :blue_square:o1-mini, :yellow_circle:o1-preview, :red_circle:o1 pro, :orange_circle:QwQ-32B-Preview, :large_blue_circle:gemini-2.0-flash-thinking-exp-1219 64

题库测试的语言模型(按名称首字母排序):

  • :brown_square:Claude 3.5 sonnet
  • :green_square:DeepSeek-R1-Lite
  • :purple_circle:Doubao
  • :large_blue_circle:gemini-2.0-flash-thinking-exp-1219
  • :purple_square:gemini-2.O-flash-exp
  • :green_circle:gemini-exp-1206
  • :red_square:GLM4 Plus
  • :white_large_square:GPT4o
  • :yellow_square:Kimi k1
  • :orange_square:o1
  • :blue_square:o1-mini
  • :yellow_circle:o1-preview
  • :red_circle:o1 pro
  • :orange_circle:QwQ-32B-Preview

开放Wiki,大家一起编辑。建议:

  1. 使用相对权威的平台的语言模型测试,而不是明显阉割过的语言模型。
  2. 测试后发送截图证明测试结果。
  3. 一道题一个模型至少测试5次再定结果。
  4. 准确率≥80%放入:heavy_check_mark:列,40%-60%放:x:列且标注“(不稳定)”。
  5. 模型使用默认参数。
  6. 用模型的名称排序表格中的模型顺序。

图片测试题库可到
https://linux.do/t/topic/301620/5?u=yeahhe

171 个赞

太强了,大师!这就去测测

6 个赞

gemini不降智,免费额度多,图片分析强,上下文最长,逻辑能力强。已经没有用4o的欲望了

2 个赞

最强的还是01

2 个赞

https://linux.do/t/topic/273810?u=yeahhe

o1模型可以试试这个佬的。我测了他的o1可以,o1 mini有问题

2 个赞


阿里的Marco-o1模型
测试问题

在正四棱台 ABCD-A1B1C1D1中,AB=2,A1B1=1,AA1=√2,则该棱台的体积为多少?

总结:有类似于o1的内置思维链,会自己检查答案(实测最多两次,两次都不对会自动转成模型自己认为的正确答案),应该为qwen32b水平

4 个赞

QwQ也是阿里的模型,可以对比一下

1 个赞

这个答案看起来像gpt4o的水平。在反复验算的情况下还做错,那这个模型的底子应该不太行

6 个赞

qwq 10次对2次(其中一次无限循环,一次因思考过多把正确答案改错)

总结:靠堆token,经常爆token,分两次对话完成

2 个赞

是huggingface的QwQ吗,huggingface会掐断回答。硅基流动的QwQ会好很多

1 个赞

10次对两次,符合题库中的测试结果

8 个赞

hf的

还有不知道为什么我的o1preview
这个问题经常给我7√2/3,不知道是题目格式的问题还是模型本身
用的官API

1 个赞

这个有佬测了很多遍,我是没有疑问的。应该是你用的模型被阉割了或者降智了

1 个赞

那不对啊,第一题能答对第二题答不对?

2 个赞


一次测试结果正确,思考一分53秒,英文思考

1 个赞

能答对。。。。

3 个赞

根本没有模型能作对的题目,不收录吧?至少有1个模型能作对,是吗?

5 个赞

给一个粗浅的思考提示,还是可以答对的,没有思考提示,的确答不对

1 个赞

提示词看看,也许可以弥补现在的差距

1 个赞

提示词主要是思考,我觉得没啥,最主要是提示大模型可以通过理解提问者的意图,然后根据对应的训练数据回答,这样好像可以帮助大模型给出更好的答案,但你的测试问题,我重新测了几遍,1206,5次只有1次是15,提升不多。而且可能是运气也不一定

1 个赞