(本帖子预计会持续更新,以加入更多模型)
现在AI搜索产品越来越多,模型返回真实可信的内容很重要。那么多家AI产品,到底谁的幻觉更低?
先来一个新鲜热乎的问题:
openai12天发布会每天发布了什么
看似简单,但是实际上有几个“坑”:
- 发布会到现在还没开完,AI可能会编造后几天的内容
- 一些媒体反复洗稿,内容不一定可信
- 可能将网友预测的内容当成了已经发生的内容
所以,高质量的信息源、模型对信息的判断等,在实时搜索类产品中都是至关重要的。
接下来用一个表格总结一下模型的表现能力。
【给星星的标准】
- 回答是否正确、有效
- 回答是否混淆真实的虚假的信息
- 回答是否有给出每天的时间,并正确排序
- 回答是否详细,排版是否美观
【叠甲】
- 打分是主观评价!!(比如打一颗星很重要的原因是令我出乎意料,大跌眼镜)
- 当前只有一个测试问题,可能不全面
- 由于模型输出的随机性,可能每个人的测试结果不同,欢迎补充你的测试结果
- 市面上模型众多,没办法覆盖到所有模型,欢迎补充希望加入到表格中的模型/产品
产品名称 | 搜索效果评价 | 解释 | 测试日期 | 图片 |
---|---|---|---|---|
腾讯元宝 (普通模式) | 回答正确,按照正确的顺序排序 排版美观 只引用了一个消息源 |
2024-12-14T16:00:00Z | ||
ChatGPT | 答对了每一天的事项 回答比较简略,但能比较好地讲对要点 引用格式的输出有点问题 |
2024-12-14T16:00:00Z | ||
Grok 2 | 回答大致正确 第二天的内容没说到要点 第四天的内容"导致网站崩溃"的表述是不对的(导致网站崩溃的其实另有原因) 回答过于简略 |
2024-12-14T16:00:00Z | ||
deepseek | 整体比较详细,每一条都给出了内容来源 知道第8-12天是未发生的内容 第五天内容正确,但日期错误 第六天的内容错误 |
2024-12-14T16:00:00Z | ||
海螺AI | 前三天的内容是对的,说得还比较详细 从第四天开始,无法有效整合信息(但好在没有胡编乱造) 输出速度比较慢,体验感一般 |
2024-12-14T16:00:00Z | ||
Gemini (2.0-flash-exp, ai studio - grounding) | 先总述再分述的表达方式很不错 前四天的内容大体是对的 第三天错误地加入了关于Apple Intelligence的内容 内容不完成,缺少了第五、六、七天的内容 回复默认用英文,而不是与用户相同的语言 |
2024-12-15T16:00:00Z | ||
豆包 | 第一、二、三、四、七天的内容是对的 比较详细,并给出来源 已发生的第五、六天的内容错误 未发生的第八天及之后的内容在胡编乱造 |
2024-12-14T16:00:00Z | ||
Perplexity (with GPT-4o) | 只有第一天和第四天是对的,其它完全是胡编乱造 没有在每条消息后面给出消息来源 |
2024-12-14T16:00:00Z | ||
Perplexity (with claude-3.5-sonnet) | 第一、二、四、六本身描述大致是对的,但是日期几乎都有问题 没有在文本中给出引用 |
2024-12-14T16:00:00Z | ||
KIMI (普通模式) | 只有第一、二、七条本身描述没错 第X天没有正确排序 大部分内容在胡编乱造(引用了不可靠的消息源) |
2024-12-14T16:00:00Z | ||
秘塔搜索(深入模式) | 只有前三天的内容是对的 其它部分在胡编乱造 输出内容过于简略 |
2024-12-14T16:00:00Z | ||
Gemini (2.0-flash-exp) | 只有第一第二点是对的 没有给出日期 给出了很多无关信息 莫名夹杂韩文 |
2024-12-14T16:00:00Z | ||
文小言 (文心3.5) | 只有第一天是对的,其它的其它要么日期错误,要么完全在胡编乱造 没有在文本中给出引用 |
2024-12-15T16:00:00Z | ||
天工 (高级模式) | 表格排版比较方便阅读 只有前三天的内容是对的,其它部分完全在胡编乱造 |
2024-12-15T16:00:00Z | ||
智谱清言 (GLM-4-Plus) | 只回答了前三天的内容,且第二天的内容还是错的 | 2024-12-15T16:00:00Z | ||
Arc (browse for me) | 没有按照日期输出,强行分成几个大点和小点来讲述 非常糟糕,似乎不能理解指令,它有自己的想法 |
2024-12-15T16:00:00Z |
备注:
- 测试结果不一定代表模型本身的能力。AI搜索产品还混合了很多因素,包括但不限于搜索算法/排序算法/内容来源质量/搜索语言。例如有的产品有自己独特的内容域,有的产品擅长使用英文搜索等。
- 海螺默认使用了英文来搜索,可能是因为我的手机系统设置的语言是英文,它的内容来源大多是中文的。
- 虽然给腾讯元宝五星可能看起来有点奇怪,但是它确实马上找到了一篇公众号文章,这篇文章总结了最近OpenAI发布的内容。微信公众号算是质量比较不错的来源之一,元宝应该也用了相关算法让这篇文章排到了参考来源比较靠前的位置。但最终它只引用了一篇文章,也有相关风险。
- ai studeo的gemini默认输出英文,为方便阅读使用沉浸式翻译显示了中文翻译。
【更新】
2024-12-15T16:22:00Z 更新了智谱清言 (GLM-4-Plus)、天工 (高级模式)、豆包、文小言 (文心3.5)
2024-12-15T16:52:00Z 更新了Gemini (2.0-flash-exp, ai studio - grounding)、Arc (browse for me)