【长期更新Wiki】语言模型区分题库:主要用来区分语言模型,也能测试逻辑能力

medium应该可以,但是两个模型是随机的

gemini2.0 问题不大

@yeahhe 第三道题成功在QwQ-32B-preview跑出来了



:tada:

2 Likes

多长时间

主要应该是没算力,这个平台比较卡跑了8分钟
,如果算力好点,可能4分钟就出来了

第一道解析集合题:
ChatGPT 未订阅版 o3mini ----- 答案部分错误

DeepSeek-R1 ---- 回答正确

测了多少次

第一次测试,正在第二次。DeepSeek 回答确实有点慢

那就不要填上

1 Like

考虑一下吧佬 :tieba_087:

1 Like

上等级后,我以后用别人的电脑是不是就不好访问这个帖子了

未登录确实看不到了,上1级就可以啦

@yeahhe 该更新谷歌新AI了

已经快更新完了。提升很小,特别是2.0 lite preview退步明显

1 Like

经常出现这种bug

那看来是没调试好

我昨天测试的第一题gemini2.0pro三次全部做对,今天再试就不行了,奇怪

1 Like

要不注明一下medium吧,low可以用duckduckgo测,duckduckgo的o3 mini 确实是low,太菜了

ChatGPT官网plus的应该全是medium吧

能作对哪些题目

还没试,但是和官网plus号的o3 mini有很大很大区别