【此帖已转移】语言模型区分题库:测试逻辑能力,区分语言模型。测试模型是否降智或阉割

已经转移至

本题库主要目的是区分不同语言模型,测试模型是否降智或阉割,也可以用作逻辑能力测试。

序号 题型 题目 答案 :heavy_check_mark: :x:
1 班级选课交集最大值 一个班级总共有30名学生。心理学、社会学和市场营销专业的学生人数分别是总人数的2/5、4/15和1/3。问:这三门课程中,最多有多少名学生同时报名了其中的两门课程? 15 :orange_square:o1, :yellow_circle:o1-preview,:red_circle:o1 pro :brown_square:Claude 3.5 sonnet,:green_square:DeepSeek-R1-Lite, :black_large_square:Gemini 1.5 Pro, :purple_square:gemini-exp-1121, :green_circle:gemini-exp-1206,:white_large_square:GPT4o, :red_square:GLM4 Plus, :yellow_square:Kimi数学版, :blue_square:o1-mini(不稳定),:orange_circle:QwQ-32B-Preview
2 几何 在正四棱台 ABCD-A1B1C1D1中,AB=2,A1B1=1,AA1=√2,则该棱台的体积为多少? 7√6/6 :green_square:DeepSeek-R1-Lite,:orange_square:o1, :blue_square:o1-mini, :yellow_circle:o1-preview :brown_square:Claude 3.5 sonnet,:black_large_square:Gemini 1.5 Pro, :purple_square:gemini-exp-1121(不稳定), :green_circle:gemini-exp-1206(不稳定),:white_large_square:GPT4o, :red_square:GLM4 Plus, :yellow_square:Kimi数学版,:orange_circle:QwQ-32B-Preview
3 LED数码管段码 已知8段共阳极LED数码管要显示字符“5”(a段为最低位),此时的段码为 _______。 92H :brown_square:Claude 3.5 sonnet,:orange_square:o1, :blue_square:o1-mini, :yellow_circle:o1-preview :green_square:DeepSeek-R1-Lite,:black_large_square:Gemini 1.5 Pro,:purple_square:gemini-exp-1121(不稳定),:green_circle:gemini-exp-1206(不稳定),:white_large_square:GPT4o,:red_square:GLM4 Plus, :yellow_square:Kimi数学版,:orange_circle:QwQ-32B-Preview(不稳定)
4 定时器初值计算 AT89S51采用6MHz的晶振,定时2ms,如用定时器方式1时的初值(16进制数)应为多少?(写出计算过程) 0xFC18 :brown_square:Claude 3.5 sonnet,:green_square:DeepSeek-R1-Lite,:purple_square:gemini-exp-1121,:green_circle:gemini-exp-1206,:orange_square:o1, :blue_square:o1-mini, :yellow_circle:o1-preview :black_large_square:Gemini 1.5 Pro, :white_large_square:GPT4o,:red_square:GLM4 Plus, :yellow_square:Kimi数学版,:orange_circle:QwQ-32B-Preview(不稳定)
5 三角函数 已知函数 f(x) = cosωx - 1 (ω>0) 在区间 [0,2π] 有且仅有 3 个零点,则ω的取值范围是? [2,3) :green_square:DeepSeek-R1-Lite, :green_circle:gemini-exp-1206,:white_large_square:GPT4o, :yellow_square:Kimi数学版, :orange_square:o1,:blue_square:o1-mini, :yellow_circle:o1-preview,:orange_circle:QwQ-32B-Preview :brown_square:Claude 3.5 sonnet(不稳定),:black_large_square:Gemini 1.5 Pro(不稳定), :purple_square:gemini-exp-1121(不稳定),:red_square:GLM4 Plus,
6 转动惯量 一个半圆形薄板质量为M,半径为R。当它以直径为轴转动时,转动惯量为多大? MR²/4 :green_square:DeepSeek-R1-Lite, :purple_square:gemini-exp-1121, :yellow_square:Kimi数学版, :orange_square:o1, :blue_square:o1-mini, :yellow_circle:o1-preview,:orange_circle:QwQ-32B-Preview :brown_square:Claude 3.5 sonnet(不稳定),:black_large_square:Gemini 1.5 Pro(不稳定), :green_circle:gemini-exp-1206,:white_large_square:GPT4o,:red_square:GLM4 Plus
7 向量与平行四边形 已知 |𝐚|=2√2,|𝐛|=3,𝐚与𝐛的夹角为π/4,求以向量 c=5𝐚+2𝐛,𝐝=𝐚-3𝐛 为邻边的平行四边形的面积。 102 :brown_square:Claude 3.5 sonnet,:green_square:DeepSeek-R1-Lite, :black_large_square:Gemini 1.5 Pro, :purple_square:gemini-exp-1121,:green_circle:gemini-exp-1206,:white_large_square:GPT4o, :red_square:GLM4 Plus,:yellow_square:Kimi数学版, :orange_square:o1,:blue_square:o1-mini, :yellow_circle:o1-preview,:orange_circle:QwQ-32B-Preview
8 极限 用洛必达法则求下列极限: lim(x→1) (x³ - 3x + 2) / (x³ - x² - x + 1) 3/2 :brown_square:Claude 3.5 sonnet,:green_square:DeepSeek-R1-Lite, :black_large_square:Gemini 1.5 Pro, :purple_square:gemini-exp-1121, :green_circle:gemini-exp-1206,:white_large_square:GPT4o, :red_square:GLM4 Plus,:yellow_square:Kimi数学版, :orange_square:o1, :blue_square:o1-mini, :yellow_circle:o1-preview,:orange_circle:QwQ-32B-Preview
9 选修课组合 某学校开设了4门体育类选修课和4门艺术类选修课,学生需从这8门课中选2或3门课,并且每类选修课至少选1门,则不同的选课方案共有多少种? 64 :brown_square:Claude 3.5 sonnet,:green_square:DeepSeek-R1-Lite, :black_large_square:Gemini 1.5 Pro, :purple_square:gemini-exp-1121, :green_circle:gemini-exp-1206,:white_large_square:GPT4o, :red_square:GLM4 Plus,:yellow_square:Kimi数学版, :orange_square:o1, :blue_square:o1-mini, :yellow_circle:o1-preview, :orange_circle:QwQ-32B-Preview

题库测试以下语言模型:
:brown_square:Claude 3.5 sonnet
:green_square:DeepSeek-R1-Lite
:black_large_square:Gemini 1.5 Pro
:purple_square:gemini-exp-1121
:green_circle:gemini-exp-1206
:white_large_square:GPT4o
:red_square:GLM4 Plus
:yellow_square:Kimi数学版
:orange_square:o1
:blue_square:o1-mini
:yellow_circle:o1-preview
:red_circle:o1 pro
:orange_circle:QwQ-32B-Preview

开放Wiki,大家一起编辑。但是我提出以下建议∶

1.使用相对权威的平台的语言模型测试,而不是明显阉割过的语言模型
2.测试以后发送截图证明测试结果
3.一道题一个模型至少测试5次再得出测试结果
4.测试结果有百分之80以上的正确率就可以将语言模型的名称填写到正确的那一列。%40到%60放到错误一列并标注“(不稳定)”

180 Likes

PixPin_2024-12-06_13-20-33
发现Kimi数学版做不出

AT89S51采用6MHz的晶振,定时2ms,如用定时器方式1时的初值(16进制数)应为多少?(写出计算过程)

4 Likes

谁能找到更难的题目区分o1正式版和o1 preview

@ 大帅哥
@用户已注销
@F-Droid
帮个忙,现在模型越来越强,需要一份详细的题库来区分

2 Likes

五人帽子问题和线性汉诺塔

1 Like

能不能发出来看看,我试试

4 Likes

O1 preview 必错,
O1 pro 才出来的时候正确,但是可能中转站不稳定(刚试的时候五人帽子题很快错了)
五人帽子
五位智者 坐在一条长凳上。他们面朝同一个方向,每人头上戴着一顶帽子。每位智者只能看到坐在自己前面的人的帽子,看不到自己和身后人的帽子,他们知道总共有7顶帽子,3黑 一白 3红
从中随机选择5项帽子给五位智者戴上.
先问第五个人(他能看见前面四个人):你能确定自己帽子的颜色吗?"他说能,
再依次问第四个人,第三个人,第二个人,第一个人,他们分别会说什么?(只允许说能或不能)
前面4个人,是否存在某些人无论如何都能确定自己帽子的颜色?
请你推测他们帽子的颜色

线性汉诺塔
桌上3个格子,3个大小都不同的盘子按照,更小的在上方的顺序,摆放在第一个格子,每次只能移动顶部的盘子到临近的格子,任何时候都不能使得大盘子在小盘子上方,最终要求移动到第3个格子

1 Like

答案也顺便给出来

2 Likes

这个帖子很有意义 群策群力测出来

3 Likes

试了至杨佬的公益站,随便挑了2题,感觉还行 AFF 点我各得25刀
image
image

2 Likes

顶起来!我自己也很好奇模型的逻辑能力排名

1 Like

你的@我没收到提示诶

2 Likes

我第一次@
不知道怎么用

1 Like

PixPin_2024-12-06_13-51-40

1 Like

题库里面的题目已经无法挑战o1模型了,需要更强的题目

4 Likes

这个应该是 MR²/2

1 Like

是MR²/4

2 Likes

image

圆盘是 MR2/4

这是半圆

1 Like

如果你要它给出过程,它的论述经常不对,5人帽子题,

更强的题目…

关键在于构造相对"陌生"的结构和问法,只要对那些简单的题目稍加改造即可,
他孱弱的推理就原形毕露了.

有一些对人来说非常简单的题,但是它永远错.

小学3年级应用题 水壶系列
假设有一根细长的水管提供水源,现有3个无刻度空水杯,容积分别为5升、6升和7升。
你可以把水管对准水杯上方的开口,按下开关来取水。
特别注意:一旦要把水杯里面的水倒掉(倒空而不是在杯子中转移,相当于倒在地上,因为你不能把水倒回水源,水源是细长的管子,不能倒回去),会造成浪费
如何只用这3个水杯取得总量为8升的水,并且浪费是最少的.

或者


现在有一个储水机储备充足的水,有3个没有刻度的空水壶,只知道容积分别为5升、6升和7升,
你把完全空的水壶放进机器里面,它才会装填水直到满,(你当然能做到倒干净水壶里的水,使它干燥,这一点是默认的)
特别注意:你可以在水壶之间转移水,但是如果你是
要把它倒空,而不是倒进另一个水壶,这会计算为"浪费"
如何只用这3个水壶取得总量为8升的水,并且浪费是最少的

小学5年级应用题 三眼之谜


在一片幽邃的森林中,栖息着百只奇异的三眼生灵。它们遵循着一项古老的仪式:

当两只生灵望向彼此,彼此都会失去一只眼睛,仿佛交换了灵魂的碎片。这种神秘的交流只能一对一进行,同样的二个生灵不可重复对视,也不能同时与多者相望。

只要还有可能对视(即至少有两只生灵各自至少有一只眼睛,比如a,b 且a b 未发生过 (a,b)的对视,即它们仍然可以彼此对视 ),这些生灵就会不懈地随机寻找彼此,继续着这场奇特的灵魂之舞。当一只生灵失去所有眼睛,它便会化作轻烟,消散于林间。

随着时间流逝,森林渐渐寂静。然而,这场仪式会持续到最后一刻。

问题:

当一切归于平静,林中还会留下几只生灵?
这最后的生灵各有几只眼睛?

如果有多种可能,列出所有可能 注意:这些生物是随机的选择配对


你要竞赛级别的话
大概竞赛初等,数之谜2的难度


连续6

1到N连续的自然数,N个,攻击者先选。每轮攻击者可以选择 2 个数字,防守方选择 1 个。当攻击者有 6 个连续的数字时,攻击者获胜,求最小的N,使得进攻方必胜

投稿题目顺便给出答案

我还特地上网搜了,分母是4啊
PixPin_2024-12-06_14-12-26