【长期更新Wiki】语言模型区分题库:主要用来区分语言模型,也能测试逻辑能力


序号 题型 题目_________________________________ :heavy_check_mark:________________ :x:________________ 答案
1 解析几何 已知过点 $A(-1, 0)$ 、 $B(1, 0)$ 两点的动抛物线的准线始终与圆 $x^2 + y^2 = 9$ 相切,该抛物线焦点 $P$ 的轨迹是某圆锥曲线 $E$ 的一部分。<br>(1) 求曲线 $E$ 的标准方程;<br>(2) 已知点 $C(-3, 0)$ , $D(2, 0)$ ,过点 $D$ 的动直线与曲线 $E$ 相交于 $M$ 、 $N$ ,设 $\triangle CMN$ 的外心为 $Q$ , $O$ 为坐标原点,问:直线 $OQ$ 与直线 $MN$ 的斜率之积是否为定值,如果为定值,求出该定值;如果不是定值,则说明理由。 :blue_heart:o3mh,:heart:o3m :green_square:DSR1,:brown_square:C3.5,:orange_circle:DSV3,:yellow_circle:R1-LLaMA,:purple_circle: DB1.5,:white_large_square:4o,:brown_circle:4om,:white_circle:GLM,:purple_square:G-2.OF,:large_blue_circle:GT,:green_circle:G-2.0P,:blue_square:G-2.0FP,:yellow_square:K1.5,:orange_square:o1,:red_circle:o1p, \frac{x^2}{9} + \frac{y^2}{8} = 1, -5
2 逻辑推理 Sroan 有一个私人的保险箱,密码是 7 个 不同的数字。 Guess #1: 9062437 Guess #2: 8593624 Guess #3: 4286915 Guess #4: 3450982 Sroan 说: 你们 4 个人每人都猜对了位置不相邻的两个数字。 (只有 “位置及其对应的数字” 都对才算对) 问:密码是什么? :orange_square:o1,:red_circle:o1p,:heart:o3m,:blue_heart:o3mh :green_square:DSR1,:yellow_circle:R1-LLaMA,:purple_circle:DB1.5, :large_blue_circle:GT,:purple_square:G-2.OF,:green_circle:G-2.0P,:blue_square:G-2.0FP,:white_circle:GLM,:white_large_square:4o,:brown_circle:4om,:yellow_square:K1.5 4053927
3 解析几何 在平面四边形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP,其中P为动点。 求二面角A - CP - B的余弦值的最小值。 :green_square:DSR1,:large_blue_circle:GT,:red_circle:o1p,:blue_heart:o3mh :yellow_circle:R1-LLaMA,:purple_circle:DB1.5,:purple_square:G-2.OF,:green_circle:G-2.0P,:blue_square:G-2.0FP,:white_circle:GLM,:white_large_square:4o,:brown_circle:4om,:orange_square:o1,:yellow_square:K1.5,:heart:o3m \frac{\sqrt{3}}{3}
4 排列问题 有 8 个人,分别是 A、B、C、D 和另外 4 人。要将这 8 个人随机安排在教室的两排座位上,每排有 4 个座位,共 8 个座位。相邻的定义是:若两个人坐在同一排并且座位编号相邻,则这两个人相邻。现要求 A 与 B 必须相邻,且 C 与 D 不相邻,问在上述条件下共有多少种不同的排法? :green_square:DSR1,:yellow_circle:R1-LLaMA,:orange_square:o1,:red_circle:o1p,:heart:o3m,:blue_heart:o3mh :brown_square:C3.5,:purple_circle:DS1.5,:purple_square:G-2.OF,:large_blue_circle:GT(不稳定),:green_circle:G-2.0P,:blue_square:G-2.0FP,:white_circle:GLM(不稳定),:white_large_square:4o, :brown_circle:4om,:yellow_square:K1.5 6528
5 电子技术基础 已知8段共阳极LED数码管要显示字符“5”(a段为最低位),此时的段码为 _______。 :green_square:DSR1,:orange_square:o1, ,:red_circle:o1p,:heart:o3m,:blue_heart:o3mh :yellow_circle:R1-LLaMA,:brown_square:C3.5,:orange_circle:DSV3,:purple_circle: DB1.5(不稳定),:purple_square:G-2.OF(不稳定),:large_blue_circle:GT(不稳定),:green_circle:G-2.0P,:white_circle:GLM,:white_large_square:4o,:brown_circle:4om,:yellow_square:K1.5(不稳定) 92H
6 变质量动力学 雨滴开始自自由下落时质量为 $m_0$。在下落过程中,单位时间凝聚的水汽质量为 $\lambda$($\lambda$为常量)。试求雨滴经过时间 $t$下落的距离。忽略空气阻力。重力加速度为$g$。 :green_square:DSR1,:large_blue_circle:GT,:purple_square:G-2.OF,:orange_square:o1,:red_circle:o1p,:heart:o3m,:blue_heart:o3mh :blue_square:G-2.0FP,:yellow_circle:R1-LLaMA(不稳定),:brown_square:C3.5,:purple_circle:DB1.5,:green_circle:G-2.0P(不稳定),:white_circle:GLM,:white_large_square:4o, :brown_circle:4om,:yellow_square:K1.5(不稳定) s(t) = \frac{g t^{2}}{4} + \frac{g m_{0} t}{2 \lambda} - \frac{g m_{0}^{2}}{2 \lambda^{2}} \ln\left(1 + \frac{\lambda t}{m_{0}}\right)
7 解析几何 在平面直角坐标系中,函数 ( y = \frac{x+1}{|x|+1} ) 的图像上有三个不同的点位于直线上,且这三点的横坐标之和为 0。求 ( l ) 的斜率的取值范围。 :green_square:DSR1,:yellow_circle:R1-LLaMA,:white_circle:GLM,:orange_square:o1,:red_circle:o1p,:heart:o3m,:blue_heart:o3mh :brown_square:C3.5,:purple_circle:DS1.5,:purple_square:G-2.OF,:large_blue_circle:GT,:green_circle:G-2.0P,:blue_square:G-2.0FP,:white_large_square:4o, :brown_circle:4om,:yellow_square:K1.5 0 < k < \frac{2}{9}
8 几何 在正四棱台 $ABCD-A_1B_1C_1D_1$ 中,$AB=2$,$A_1B_1=1$,$AA_1=\sqrt{2}$,则该棱台的体积为多少? :green_square:DSR1,:yellow_circle:R1-LLaMA,:purple_circle:DB1.5,:large_blue_circle:GT,:orange_square:o1,:red_circle:o1p,:heart:o3m,:blue_heart:o3mh :brown_square:C3.5,:orange_circle:DSV3(不稳定),:green_circle:G-2.0P(不稳定),:purple_square:G-2.OF(不稳定),:blue_square:G-2.0FP,:white_circle:GLM,:white_large_square:4o,:brown_circle:4om,:yellow_square:K1.5 \frac{7\sqrt{6}}{6}
9 几何 在$\Delta ABC$中,$\angle A$、$\angle B$、$\angle C$所对的边分别为$a, b, c$,且$c=10$,$\frac{\cos A}{\cos B} = \frac{b}{a} = \frac{4}{3}$,$P$为$\Delta ABC$内切圆上的动点,求点$P$到顶点$A$、$B$、$C$的距离的平方和的最大值和最小值。 :green_square:DSR1,:yellow_circle:R1-LLaMA,:purple_circle:DB1.5,:large_blue_circle:GT,:white_circle:GLM,:orange_square:o1,:yellow_square:K1.5,:red_circle:o1p,:heart:o3m,:blue_heart:o3mh :brown_square:C3.5,:green_circle:G-2.0P,:purple_square:G-2.OF(不稳定),:blue_square:G-2.0FP(不稳定),:white_large_square:4o,:brown_circle:4om 88, 72
10 转动惯量 一个半圆形薄板质量为 $M$,半径为 $R$。当它以直径为轴转动时,转动惯量为多大? :green_square:DSR1,:orange_circle:DSV3,:purple_circle:DS1.5,:white_circle:GLM,:white_large_square:4o,:orange_square:o1,:red_circle:o1p,:large_blue_circle:GT,:purple_square:G-2.OF,:green_circle:G-2.0P,:yellow_square:K1.5,:heart:o3m,:blue_heart:o3mh :blue_square:G-2.0FP(不稳定),:yellow_circle:R1-LLaMA(不稳定),:brown_square:C3.5(不稳定),:brown_circle:4om(不稳定) \frac{MR^2}{4}
11 单片机定时器初值计算 AT89S51采用6MHz的晶振,定时2ms,如用定时器方式1时的初值(16进制数)应为多少?(写出计算过程) :brown_square:C3.5, :orange_circle:DSV3,:green_square:DSR1,:white_large_square:4o,:purple_circle:DS1.5,:purple_square:G-2.OF,:large_blue_circle:GT,:green_circle:G-2.0P, :orange_square:o1,:red_circle:o1p,:yellow_square:K1.5,:heart:o3m,:blue_heart:o3mh :blue_square:G-2.0FP(不稳定),:yellow_circle:R1-LLaMA,:white_circle:GLM,:brown_circle:4om 0xFC18
12 三角函数 已知函数 $f(x) = \cos(\omega x) - 1$ ($\omega > 0$) 在区间 $[0, 2\pi]$ 有且仅有 3 个零点,则$\omega$的取值范围是? :orange_circle:DSV3,:green_square:DSR1,:yellow_circle:R1-LLaMA,:purple_circle:DB1.5, :white_large_square:4o,:white_circle:GLM,:purple_square:G-2.OF, :green_circle:G-2.0P, :orange_square:o1,:red_circle:o1p,:large_blue_circle:GT, :yellow_square:K1.5,:heart:o3m,:blue_heart:o3mh :brown_square:C3.5(不稳定),:brown_circle:4om(不稳定),:blue_square:G-2.0FP [2, 3)
13 古汉语解析 披发左衽的意思是? :brown_square:C3.5,:orange_circle:DSV3,:green_square:DSR1,:yellow_circle:R1-LLaMA,:purple_circle: DB1.5,:white_large_square:4o,:white_circle:GLM,:purple_square:G-2.OF,:blue_square:G-2.0FP,:large_blue_circle:GT,:green_circle:G-2.0P,:yellow_square:K1.5,:orange_square:o1,:red_circle:o1p :brown_circle:4om,:heart:o3m,:blue_heart:o3mh 非汉族习俗

题库测试的语言模型(按名称首字母排序):

  1. :brown_square: Claude 3.5 sonnet (C3.5)
  2. :orange_circle: DeepSeek-V3 (DSV3)
  3. :yellow_circle: DeepSeek-R1-distill-llama-70b (R1-LLaMA)
  4. :green_square: DeepSeek-R1 (DSR1)
  5. :purple_circle: Doubao-1.5-pro (DB1.5)
  6. :large_blue_circle: gemini-2.0-flash-thinking-exp-01-21 (GT)
  7. :purple_square: gemini-2.0-flash (G-2.0F)
  8. :blue_square: gemini-2.O-flash-lite-preview-02-05 (G-2.0FP)
  9. :green_circle: gemini-2.0-pro-exp-02-05 (G-2.0P)
  10. :white_circle: GLM-Zero (GLM)
  11. :white_large_square: GPT4o (4o)
  12. :brown_circle: GPT-4o-mini (4om)
  13. :yellow_square: Kimi k1.5 (K1.5)
  14. :orange_square: o1 (o1)
  15. :red_circle: o1 pro (o1p)
  16. :heart: o3 mini (o3m)
  17. :blue_heart: o3-mini-high (o3mh)

开放 Wiki,大家一起编辑。建议:

  1. 使用相对权威的平台的语言模型测试,而不是明显阉割过的语言模型。
  2. 测试后发送截图证明测试结果。
  3. 一道题一个模型至少测试 5 次再定结果。
  4. 准确率 ≥80% 放入 :heavy_check_mark: 列,40%-60% 放 :x: 列且标注“(不稳定)”。
  5. 模型使用默认参数。
  6. 用模型的名称排序表格中的模型顺序。

专业 LLM 基准测试LiveBench: A Challenging, Contamination-Free LLM Benchmark

435 个赞

太强了,大师!这就去测测

23 个赞

最强的还是01

15 个赞

https://linux.do/t/topic/273810?u=yeahhe

o1模型可以试试这个佬的。我测了他的o1可以,o1 mini有问题

15 个赞


阿里的Marco-o1模型
测试问题

在正四棱台 ABCD-A1B1C1D1中,AB=2,A1B1=1,AA1=√2,则该棱台的体积为多少?

总结:有类似于o1的内置思维链,会自己检查答案(实测最多两次,两次都不对会自动转成模型自己认为的正确答案),应该为qwen32b水平

18 个赞

QwQ也是阿里的模型,可以对比一下

14 个赞

这个答案看起来像gpt4o的水平。在反复验算的情况下还做错,那这个模型的底子应该不太行

21 个赞

qwq 10次对2次(其中一次无限循环,一次因思考过多把正确答案改错)

总结:靠堆token,经常爆token,分两次对话完成

16 个赞

是huggingface的QwQ吗,huggingface会掐断回答。硅基流动的QwQ会好很多

6 个赞

10次对两次,符合题库中的测试结果

13 个赞

hf的

还有不知道为什么我的o1preview
这个问题经常给我7√2/3,不知道是题目格式的问题还是模型本身
用的官API

6 个赞

这个有佬测了很多遍,我是没有疑问的。应该是你用的模型被阉割了或者降智了

7 个赞

那不对啊,第一题能答对第二题答不对?

10 个赞


一次测试结果正确,思考一分53秒,英文思考

8 个赞

能答对。。。。

10 个赞

根本没有模型能作对的题目,不收录吧?至少有1个模型能作对,是吗?

13 个赞

给一个粗浅的思考提示,还是可以答对的,没有思考提示,的确答不对

8 个赞

提示词看看,也许可以弥补现在的差距

8 个赞

提示词主要是思考,我觉得没啥,最主要是提示大模型可以通过理解提问者的意图,然后根据对应的训练数据回答,这样好像可以帮助大模型给出更好的答案,但你的测试问题,我重新测了几遍,1206,5次只有1次是15,提升不多。而且可能是运气也不一定

8 个赞

测了三次,o1 pro才对一次

6 个赞