DOS.DO
(小彭前妻)
1
刚看到一篇有意思的文章
中科院为了搞出更适合中国宝宝的 AI,搜集了各大社区平台的语料,精心整理出一份数据集。
他们拿这些数据去炼ai,然后测了下各家数据炼出来的性能,就下面这个表:
![62ecb1fde2ac8a80bd160c5355705c41_v2-ece3f9ac3260df763ee329d53e46cb19_b](https://cdn.linux.do/uploads/default/original/3X/1/d/1d4cf5c7c6dff676a6a940c9993dbb99ecd94eaa.png)
我的心情:看看是谁的部将, 76.9 得分第一……嗯? Ruozhiba?什么论坛,没听说过?等会,弱智吧?真的假的?
往上前一翻,还真就那个弱智吧,他们收集了点赞最多的500个帖子,
![ef5322f7387c8a1b601169752c36f3a3_v2-b0e2dcbb8283d3bf234818a22fa17147_b](https://cdn.linux.do/uploads/default/original/3X/9/e/9e2f51a67eeb3f0b05714f8aad0d0ff3aa26657c.png)
再看眼这个表:
![b9c19749d241e76074108a8491137876_v2-c683fbb418224b85385799886b7fe12e_b](https://cdn.linux.do/uploads/default/original/3X/9/4/946144c32bd38aa72b33c41abc3cd2ad4bd30f0e.png)
可以看到,吃了弱智吧数据集的 Yi-34B 在开放式问答、头脑风暴、分类、生成、总结、封闭式问答、 提取、代码8个项目下都拿到了最高分。(遥遥领先!)
最强的是,弱智吧 code 得分连 SegmentFault 都超了。(微微领先!)(?_?)
知乎均分第二,Math 这一项拿了第一,守住了知识平台的荣光。要是这波没弱智吧知乎就第一了!
题外话,小红书均分才50.3,遥遥落后!
研究员说,
有趣的是,弱智吧在所有子集中平均排名第二。我们推测这是因为它可以增强模型的逻辑推理能力,从而有利于大多数指令跟踪任务。
![f32e834c97603d93605e81d53388a969_v2-8a19d0e52931f9c4f1ed21b4949bdcf6_b](https://cdn.linux.do/uploads/default/original/3X/6/1/61e29641d3f9ff75fc017eaac2bf72fc8d62541b.png)
16 个赞
luyao
(luyao)
10
2 个赞
Dawn_Li
(Dawn Li)
11
哈哈哈哈哈哈,大概看了一下,弱智吧的语料微操比较多
![image](https://cdn.linux.do/uploads/default/original/3X/d/f/dfc5e98f0b89b33127ceabfda6e3de96e61d81d8.png)
最后的评估好像也是GPT-4实现的
所以其实弱智吧友的回复可能不全用上,但是我相信高质量回答还是用上了
因为是 finetune 微调,不是全新训练,所以才会有code能力
tigerK
(五竹)
13
这个逻辑有点小问题:
精选了问题,用了部分人工回复,以及GPT4的回复。
然后再用GPT4评分………
2 个赞