都没有听说过,还是我太孤陋寡闻了
闻到了猫腻的味道,我查查
查到了官方的文章 http://www.chinatelecom.com.cn/news/02/202411/t20241115_85161.html
有点水…首先这个综合能力和一般人理解的 LLM 综合能力是两码事儿,还包括了 agent 等内容,也就是文章里说并列第二的项目,但是追过去看 superCLUE 的榜单,可以发现基本都是国内玩家:
是的,我们自己人排个榜单,不带外面的模型,就可以写文章说自己在 agent 智能体榜单中排名第二了。不过考虑到这个评测机构本身就是针对国内大模型的评测机构,有刷分嫌疑也合理。
好在官方的链接还有 115B 模型的评测分数:https://modelers.cn/models/TeleAI/TeleChat2-115B
虽然 115B 模型跟别人的 70B 模型等对打有点胜之不武,但是我们可以看看这个模型在哪些测试中得分最高,来看看他的真实水平
得分最高的两个测试如下:
CMMLU:全面的中文评估测试集,涵盖了从基础学科到高级专业水平的67个主题。
BBH:官方说“全名为BIG-Bench Hard(BBH),包含23个具有挑战性的BIG-Bench任务,均为之前的语言模型评估中没有超过平均人类评审者表现的任务”
谷歌检索找到了 GitHub - suzgunmirac/BIG-Bench-Hard: Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them 这个链接,是一个两年前更新的测试基准………
类似的溯源我进行过很多次,国内的模型排名总是让人失望
糊弄领导的?
遥遥领先是正常的
从来没听过 1
看了下硅基流动有这个模型,有人用过吗
查了么 真假啊
你看上面,我刚更新,一言难尽
那他这玩意在国产
啥水准啊
你有必须用国产的情景吗,如果没有就别用国产。
如果要用的话,内容上比不过腾讯的元宝或字节的豆包这种自己背靠内容池的模型。性能上,只有在背书测试集 CMMLU 上打过了别的国产模型,其他 coding 或者推理模型都没赢过。
就是腾讯现在是国产最好?
腾讯的元宝背靠公众号这个内容池,所以查一些东西很方便,性能反而是其次。chatGPT 再厉害也钻不进公众号里找内容
别家吹水至少会把 gpt 什么的拉上,这个连演都不演了
拿豆包呢 阿里啥的厉害么
豆包我没用,只是有同事日常用豆包,有办法用gpt或者claude就别用国产的模型了…
我看有说阿里也不错的
国产的DeepSeek、Qwen和GLM都还可以把
我有个朋友用 DeepSeek 的便宜大碗 API 当网页翻译用,推特上有人用 DeepSeek 导进 Cursor 用。但是现在 gpt-4o-mini 也挺便宜了,还是看个人用哪个方便。可以去竞技场看看人工打分
之前我倒是去github翻过telechat2,排行榜这东西见仁见智吧,就像手机一样,上来先跑个分。