妙啊 我没去查询 你们查查吧 神奇 我朋友圈看到的

15 Likes

都没有听说过,还是我太孤陋寡闻了tieba_087

4 Likes

闻到了猫腻的味道,我查查

查到了官方的文章 http://www.chinatelecom.com.cn/news/02/202411/t20241115_85161.html

有点水…首先这个综合能力和一般人理解的 LLM 综合能力是两码事儿,还包括了 agent 等内容,也就是文章里说并列第二的项目,但是追过去看 superCLUE 的榜单,可以发现基本都是国内玩家:

是的,我们自己人排个榜单,不带外面的模型,就可以写文章说自己在 agent 智能体榜单中排名第二了。不过考虑到这个评测机构本身就是针对国内大模型的评测机构,有刷分嫌疑也合理。

好在官方的链接还有 115B 模型的评测分数:https://modelers.cn/models/TeleAI/TeleChat2-115B

虽然 115B 模型跟别人的 70B 模型等对打有点胜之不武,但是我们可以看看这个模型在哪些测试中得分最高,来看看他的真实水平

得分最高的两个测试如下:
CMMLU:全面的中文评估测试集,涵盖了从基础学科到高级专业水平的67个主题。
BBH:官方说“全名为BIG-Bench Hard(BBH),包含23个具有挑战性的BIG-Bench任务,均为之前的语言模型评估中没有超过平均人类评审者表现的任务”

谷歌检索找到了 GitHub - suzgunmirac/BIG-Bench-Hard: Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them 这个链接,是一个两年前更新的测试基准………

类似的溯源我进行过很多次,国内的模型排名总是让人失望

16 Likes

糊弄领导的?

5 Likes

遥遥领先是正常的

2 Likes

从来没听过 1

1 Like

看了下硅基流动有这个模型,有人用过吗

2 Likes

查了么 真假啊

1 Like

你看上面,我刚更新,一言难尽

1 Like

那他这玩意在国产
啥水准啊

你有必须用国产的情景吗,如果没有就别用国产。

如果要用的话,内容上比不过腾讯的元宝或字节的豆包这种自己背靠内容池的模型。性能上,只有在背书测试集 CMMLU 上打过了别的国产模型,其他 coding 或者推理模型都没赢过。

2 Likes

就是腾讯现在是国产最好?

腾讯的元宝背靠公众号这个内容池,所以查一些东西很方便,性能反而是其次。chatGPT 再厉害也钻不进公众号里找内容

2 Likes

别家吹水至少会把 gpt 什么的拉上,这个连演都不演了 tieba_125

2 Likes

拿豆包呢 阿里啥的厉害么

1 Like

豆包我没用,只是有同事日常用豆包,有办法用gpt或者claude就别用国产的模型了…

2 Likes

我看有说阿里也不错的

1 Like

国产的DeepSeek、Qwen和GLM都还可以把

1 Like

我有个朋友用 DeepSeek 的便宜大碗 API 当网页翻译用,推特上有人用 DeepSeek 导进 Cursor 用。但是现在 gpt-4o-mini 也挺便宜了,还是看个人用哪个方便。可以去竞技场看看人工打分

1 Like

之前我倒是去github翻过telechat2,排行榜这东西见仁见智吧,就像手机一样,上来先跑个分。

1 Like