前两天在论坛进行的模型对比实验,公布结果辣

之前论坛讨论的帖子

一共有 34 个提交结果,其中选择开源模型(Qwen-7b-Chat)的佬友有 18 个,选择 gpt-3.5-turbo-0125 的用户有 34 - 18 = 16 个

原始数据集(仅允许上传 zip):

dpo_data.json.zip (31.7 KB)

对之前的一些设定没有很好的考虑到,比如:

我想的是找个时间再做一次实验,加入更多选项(都好,都差),模型事先不透露,时间上也延长到七天,也可能会加入更多模型进行对比。

不过目前我手头只有 gpt-3.5-turbo 可以使用,有佬友有这方面比较便宜质量高的资源可以推荐下,感谢!

13 Likes

好东西。

1 Like

马克

感觉俩个都差不多,甚至 7b 的回答还仔细些

1 Like

支持研究精神!