已经转移至
本题库主要目的是区分不同语言模型,测试模型是否降智或阉割,也可以用作逻辑能力测试。
序号 | 题型 | 题目 | 答案 | ||
---|---|---|---|---|---|
1 | 班级选课交集最大值 | 一个班级总共有30名学生。心理学、社会学和市场营销专业的学生人数分别是总人数的2/5、4/15和1/3。问:这三门课程中,最多有多少名学生同时报名了其中的两门课程? | 15 | o1, o1-preview,o1 pro | Claude 3.5 sonnet,DeepSeek-R1-Lite, Gemini 1.5 Pro, gemini-exp-1121, gemini-exp-1206,GPT4o, GLM4 Plus, Kimi数学版, o1-mini(不稳定),QwQ-32B-Preview |
2 | 几何 | 在正四棱台 ABCD-A1B1C1D1中,AB=2,A1B1=1,AA1=√2,则该棱台的体积为多少? | 7√6/6 | DeepSeek-R1-Lite,o1, o1-mini, o1-preview | Claude 3.5 sonnet,Gemini 1.5 Pro, gemini-exp-1121(不稳定), gemini-exp-1206(不稳定),GPT4o, GLM4 Plus, Kimi数学版,QwQ-32B-Preview |
3 | LED数码管段码 | 已知8段共阳极LED数码管要显示字符“5”(a段为最低位),此时的段码为 _______。 | 92H | Claude 3.5 sonnet,o1, o1-mini, o1-preview | DeepSeek-R1-Lite,Gemini 1.5 Pro,gemini-exp-1121(不稳定),gemini-exp-1206(不稳定),GPT4o,GLM4 Plus, Kimi数学版,QwQ-32B-Preview(不稳定) |
4 | 定时器初值计算 | AT89S51采用6MHz的晶振,定时2ms,如用定时器方式1时的初值(16进制数)应为多少?(写出计算过程) | 0xFC18 | Claude 3.5 sonnet,DeepSeek-R1-Lite,gemini-exp-1121,gemini-exp-1206,o1, o1-mini, o1-preview | Gemini 1.5 Pro, GPT4o,GLM4 Plus, Kimi数学版,QwQ-32B-Preview(不稳定) |
5 | 三角函数 | 已知函数 f(x) = cosωx - 1 (ω>0) 在区间 [0,2π] 有且仅有 3 个零点,则ω的取值范围是? | [2,3) | DeepSeek-R1-Lite, gemini-exp-1206,GPT4o, Kimi数学版, o1,o1-mini, o1-preview,QwQ-32B-Preview | Claude 3.5 sonnet(不稳定),Gemini 1.5 Pro(不稳定), gemini-exp-1121(不稳定),GLM4 Plus, |
6 | 转动惯量 | 一个半圆形薄板质量为M,半径为R。当它以直径为轴转动时,转动惯量为多大? | MR²/4 | DeepSeek-R1-Lite, gemini-exp-1121, Kimi数学版, o1, o1-mini, o1-preview,QwQ-32B-Preview | Claude 3.5 sonnet(不稳定),Gemini 1.5 Pro(不稳定), gemini-exp-1206,GPT4o,GLM4 Plus |
7 | 向量与平行四边形 | 已知 |𝐚|=2√2,|𝐛|=3,𝐚与𝐛的夹角为π/4,求以向量 c=5𝐚+2𝐛,𝐝=𝐚-3𝐛 为邻边的平行四边形的面积。 | 102 | Claude 3.5 sonnet,DeepSeek-R1-Lite, Gemini 1.5 Pro, gemini-exp-1121,gemini-exp-1206,GPT4o, GLM4 Plus,Kimi数学版, o1,o1-mini, o1-preview,QwQ-32B-Preview | |
8 | 极限 | 用洛必达法则求下列极限: lim(x→1) (x³ - 3x + 2) / (x³ - x² - x + 1) | 3/2 | Claude 3.5 sonnet,DeepSeek-R1-Lite, Gemini 1.5 Pro, gemini-exp-1121, gemini-exp-1206,GPT4o, GLM4 Plus,Kimi数学版, o1, o1-mini, o1-preview,QwQ-32B-Preview | |
9 | 选修课组合 | 某学校开设了4门体育类选修课和4门艺术类选修课,学生需从这8门课中选2或3门课,并且每类选修课至少选1门,则不同的选课方案共有多少种? | 64 | Claude 3.5 sonnet,DeepSeek-R1-Lite, Gemini 1.5 Pro, gemini-exp-1121, gemini-exp-1206,GPT4o, GLM4 Plus,Kimi数学版, o1, o1-mini, o1-preview, QwQ-32B-Preview |
题库测试以下语言模型:
Claude 3.5 sonnet
DeepSeek-R1-Lite
Gemini 1.5 Pro
gemini-exp-1121
gemini-exp-1206
GPT4o
GLM4 Plus
Kimi数学版
o1
o1-mini
o1-preview
o1 pro
QwQ-32B-Preview
开放Wiki,大家一起编辑。但是我提出以下建议∶
1.使用相对权威的平台的语言模型测试,而不是明显阉割过的语言模型
2.测试以后发送截图证明测试结果
3.一道题一个模型至少测试5次再得出测试结果
4.测试结果有百分之80以上的正确率就可以将语言模型的名称填写到正确的那一列。%40到%60放到错误一列并标注“(不稳定)”