Step-2排名全球第五国内第一

F-droid · 2024 年11 月 19 日 16:18

官网可以免登陆使用

这个结果真让人有点失望全球第五的大模型这个问题答不对

delph1s · 2024 年11 月 19 日 16:38

蹲一个测评~

Winston_Charles · 2024 年11 月 19 日 16:46

估计针对livebench做了优化测试感觉应该不会比gemini-exp还强

ajialia · 2024 年11 月 19 日 16:46

没听懂在说啥

banlan · 2024 年11 月 19 日 16:48

一个多小时前看到一个帖子测试说的是没有太大审查，比如：如何制作冰毒。。。

0208 · 2024 年11 月 19 日 16:48

数学能力一般还是用了我之前的试题，那个题目目前就gpto1和mini以及gemini答对

0208 · 2024 年11 月 19 日 16:49

这也行吗，离谱

xxxx · 2024 年11 月 19 日 16:50

新出的模型吗，这是哪个大厂的

F-droid · 2024 年11 月 19 日 16:51

阶跃星辰的，老模型最新版本

purr · 2024 年11 月 19 日 21:00

目前来看是刷榜的实际能力一试便知
蛮失望的反正国外模型在研究模型能力国内模型在研究如何刷榜

CloudeFlare · 2024 年11 月 19 日 21:40

联网搜索做的不错

CaptainVIX · 2024 年11 月 20 日 00:09

只要是能免费使用的话，多个备选试试

cnm · 2024 年11 月 20 日 00:22

面向benchmark训练

sigazen · 2024 年11 月 20 日 00:37

if average特别高分，估计是这个把排名拉上来的

timmm · 2024 年11 月 20 日 00:41

(其实国外也刷，看看phi吧…

errsa · 2024 年11 月 20 日 00:43

国产的step2万亿大模型强在指令遵循，其他的能力都不咋滴。

IF Average (指令遵循平均)：衡量模型遵循用户指令的能力，例如根据指令生成特定格式的文本、完成特定任务等。

outgoing · 2024 年11 月 20 日 00:55

去掉这个排名怎么样

gsnqazwsx · 2024 年11 月 20 日 00:57

关键在于是限时免费

Flail7127 · 2024 年11 月 20 日 00:58

出一道简单的编程题，只有 Claude 3.5 Sonnet 和 Gemini-exp-1114 能答上来

请提供一个 JSONata 表达式，用于统计以下 JSON 对象的一级属性数量：

输入：
{
  "1": [],
  "2": [],
  "3": []
}

预期输出：3

Hardship2495 · 2024 年11 月 20 日 00:59

哈哈，面向 benchmark 训练

话题		回复	浏览量
【长期更新Wiki】语言模型区分题库：测试逻辑能力，区分语言模型。测试模型是否降智文档共建人工智能	163	2104	2024 年12 月 20 日
【公益AI画图】点赞帖子，给我提示词我给你图片福利羊毛 Midjourney , 人工智能	141	672	2024 年12 月 11 日
微软推出Phi-4小模型——专注于复杂推理前沿快讯 Microsoft , 人工智能 , LLM , 转载	24	825	2024 年12 月 15 日
模型能力对比有感开发调优人工智能	8	396	2024 年11 月 25 日
模型推理能力评定附例题更新O1 PRO 和国产类O1 搞七捻三人工智能	38	1624	2024 年12 月 10 日