官网可以免登陆使用
先问一个逻辑问题试试
再来一个
这个结果真让人有点失望全球第五的大模型这个问题答不对
蹲一个测评~
估计针对livebench做了优化 测试感觉应该不会比gemini-exp还强
没听懂在说啥
一个多小时前看到一个帖子测试说的是没有太大审查,比如:如何制作冰毒。。。
数学能力一般 还是用了我之前的试题,那个题目目前就gpto1和mini以及gemini答对
这也行吗,离谱
新出的模型吗,这是哪个大厂的
阶跃星辰的,老模型最新版本
目前来看是刷榜的 实际能力一试便知
蛮失望的反正 国外模型在研究模型能力 国内模型在研究如何刷榜
联网搜索做的不错
只要是能免费使用的话,多个备选试试
面向benchmark训练
if average特别高分,估计是这个把排名拉上来的
(其实国外也刷,看看phi吧…
去掉这个排名怎么样
关键在于是限时免费
出一道简单的编程题,只有 Claude 3.5 Sonnet 和 Gemini-exp-1114 能答上来
请提供一个 JSONata 表达式,用于统计以下 JSON 对象的一级属性数量:
输入:
{
"1": [],
"2": [],
"3": []
}
预期输出:3