Step-2排名全球第五国内第一

官网可以免登陆使用

先问一个逻辑问题试试

再来一个

这个结果真让人有点失望:pensive:全球第五的大模型这个问题答不对:tieba_087:

有没有佬友深度测试一下?蹲个佬友的测评结果

99 个赞

蹲一个测评~

4 个赞

估计针对livebench做了优化 测试感觉应该不会比gemini-exp还强

3 个赞

没听懂在说啥 :joy:

6 个赞

一个多小时前看到一个帖子测试说的是没有太大审查,比如:如何制作冰毒。。。

5 个赞

数学能力一般 :smirk:还是用了我之前的试题,那个题目目前就gpto1和mini以及gemini答对

2 个赞

这也行吗:joy:,离谱

7 个赞

新出的模型吗,这是哪个大厂的

1 个赞

阶跃星辰的,老模型最新版本

1 个赞

目前来看是刷榜的 实际能力一试便知
蛮失望的反正 国外模型在研究模型能力 国内模型在研究如何刷榜

3 个赞

联网搜索做的不错

只要是能免费使用的话,多个备选试试

1 个赞

面向benchmark训练 :crazy_face:

if average特别高分,估计是这个把排名拉上来的

(其实国外也刷,看看phi吧…

1 个赞

国产的step2万亿大模型强在指令遵循,其他的能力都不咋滴。

IF Average (指令遵循平均):衡量模型遵循用户指令的能力,例如根据指令生成特定格式的文本、完成特定任务等。

1 个赞

去掉这个排名怎么样

关键在于是限时免费

出一道简单的编程题,只有 Claude 3.5 Sonnet 和 Gemini-exp-1114 能答上来

请提供一个 JSONata 表达式,用于统计以下 JSON 对象的一级属性数量:

输入:
{
  "1": [],
  "2": [],
  "3": []
}

预期输出:3
  • 测试链接:

https://try.jsonata.org/


哈哈,面向 benchmark 训练

7 个赞