DOS.DO
(始皇后)
1
刚看到一篇有意思的文章
中科院为了搞出更适合中国宝宝的 AI,搜集了各大社区平台的语料,精心整理出一份数据集。
他们拿这些数据去炼ai,然后测了下各家数据炼出来的性能,就下面这个表:
我的心情:看看是谁的部将, 76.9 得分第一……嗯? Ruozhiba?什么论坛,没听说过?等会,弱智吧?真的假的?
往上前一翻,还真就那个弱智吧,他们收集了点赞最多的500个帖子,
再看眼这个表:
可以看到,吃了弱智吧数据集的 Yi-34B 在开放式问答、头脑风暴、分类、生成、总结、封闭式问答、 提取、代码8个项目下都拿到了最高分。(遥遥领先!)
最强的是,弱智吧 code 得分连 SegmentFault 都超了。(微微领先!)(?_?)
知乎均分第二,Math 这一项拿了第一,守住了知识平台的荣光。要是这波没弱智吧知乎就第一了!
题外话,小红书均分才50.3,遥遥落后!
研究员说,
有趣的是,弱智吧在所有子集中平均排名第二。我们推测这是因为它可以增强模型的逻辑推理能力,从而有利于大多数指令跟踪任务。

18 Likes
luyao
(luyao)
10
2 Likes
Dawn_Li
(Dawn Li)
11
哈哈哈哈哈哈,大概看了一下,弱智吧的语料微操比较多
最后的评估好像也是GPT-4实现的
所以其实弱智吧友的回复可能不全用上,但是我相信高质量回答还是用上了
因为是 finetune 微调,不是全新训练,所以才会有code能力
1 Like
tigerK
(五竹)
13
这个逻辑有点小问题:
精选了问题,用了部分人工回复,以及GPT4的回复。
然后再用GPT4评分………
2 Likes