实时搜索哪家强?AI搜索产品大比拼!

(本帖子预计会持续更新,以加入更多模型)

现在AI搜索产品越来越多,模型返回真实可信的内容很重要。那么多家AI产品,到底谁的幻觉更低?

先来一个新鲜热乎的问题:

openai12天发布会每天发布了什么

看似简单,但是实际上有几个“坑”:

  • 发布会到现在还没开完,AI可能会编造后几天的内容
  • 一些媒体反复洗稿,内容不一定可信
  • 可能将网友预测的内容当成了已经发生的内容

所以,高质量的信息源、模型对信息的判断等,在实时搜索类产品中都是至关重要的。


接下来用一个表格总结一下模型的表现能力。

【给星星的标准】

  • 回答是否正确、有效
  • 回答是否混淆真实的虚假的信息
  • 回答是否有给出每天的时间,并正确排序
  • 回答是否详细,排版是否美观

【叠甲】

  1. 打分是主观评价!!(比如打一颗星很重要的原因是令我出乎意料,大跌眼镜)
  2. 当前只有一个测试问题,可能不全面
  3. 由于模型输出的随机性,可能每个人的测试结果不同,欢迎补充你的测试结果
  4. 市面上模型众多,没办法覆盖到所有模型,欢迎补充希望加入到表格中的模型/产品
产品名称 搜索效果评价 解释 测试日期 图片
腾讯元宝 (普通模式) :star::star::star::star::star: :white_check_mark: 回答正确,按照正确的顺序排序
:white_check_mark: 排版美观
:exclamation: 只引用了一个消息源
2024-12-14T16:00:00Z
ChatGPT :star::star::star::star: :white_check_mark: 答对了每一天的事项
:exclamation: 回答比较简略,但能比较好地讲对要点
:exclamation: 引用格式的输出有点问题
2024-12-14T16:00:00Z
Grok 2 :star::star::star: :white_check_mark: 回答大致正确
:exclamation: 第二天的内容没说到要点
:exclamation: 第四天的内容"导致网站崩溃"的表述是不对的(导致网站崩溃的其实另有原因)
:exclamation: 回答过于简略
2024-12-14T16:00:00Z
deepseek :star::star::star: :white_check_mark: 整体比较详细,每一条都给出了内容来源
:white_check_mark: 知道第8-12天是未发生的内容
:exclamation: 第五天内容正确,但日期错误
:exclamation: 第六天的内容错误
2024-12-14T16:00:00Z
海螺AI :star::star: :white_check_mark: 前三天的内容是对的,说得还比较详细
:exclamation: 从第四天开始,无法有效整合信息(但好在没有胡编乱造)
:exclamation: 输出速度比较慢,体验感一般
2024-12-14T16:00:00Z
Gemini (2.0-flash-exp, ai studio - grounding) :star::star: :white_check_mark: 先总述再分述的表达方式很不错
:white_check_mark: 前四天的内容大体是对的
:exclamation: 第三天错误地加入了关于Apple Intelligence的内容
:exclamation: 内容不完成,缺少了第五、六、七天的内容
:exclamation: 回复默认用英文,而不是与用户相同的语言
2024-12-15T16:00:00Z
豆包 :star::star: :white_check_mark: 第一、二、三、四、七天的内容是对的
:white_check_mark: 比较详细,并给出来源
:exclamation: 已发生的第五、六天的内容错误
:exclamation: 未发生的第八天及之后的内容在胡编乱造
2024-12-14T16:00:00Z
Perplexity (with GPT-4o) :star: :exclamation: 只有第一天和第四天是对的,其它完全是胡编乱造
:exclamation: 没有在每条消息后面给出消息来源
2024-12-14T16:00:00Z
Perplexity (with claude-3.5-sonnet) :star: :exclamation: 第一、二、四、六本身描述大致是对的,但是日期几乎都有问题
:exclamation: 没有在文本中给出引用
2024-12-14T16:00:00Z
KIMI (普通模式) :star: :exclamation: 只有第一、二、七条本身描述没错
:exclamation: 第X天没有正确排序
:exclamation: 大部分内容在胡编乱造(引用了不可靠的消息源)
2024-12-14T16:00:00Z
秘塔搜索(深入模式) :star: :exclamation: 只有前三天的内容是对的
:exclamation: 其它部分在胡编乱造
:exclamation: 输出内容过于简略
2024-12-14T16:00:00Z
Gemini (2.0-flash-exp) :star: :exclamation: 只有第一第二点是对的
:exclamation: 没有给出日期
:exclamation: 给出了很多无关信息
:exclamation: 莫名夹杂韩文
2024-12-14T16:00:00Z
文小言 (文心3.5) :star: :exclamation: 只有第一天是对的,其它的其它要么日期错误,要么完全在胡编乱造
:exclamation: 没有在文本中给出引用
2024-12-15T16:00:00Z
天工 (高级模式) :star: :white_check_mark: 表格排版比较方便阅读
:exclamation: 只有前三天的内容是对的,其它部分完全在胡编乱造
2024-12-15T16:00:00Z
智谱清言 (GLM-4-Plus) :star: :exclamation: 只回答了前三天的内容,且第二天的内容还是错的 2024-12-15T16:00:00Z
Arc (browse for me) :no_entry_sign::star: :exclamation: 没有按照日期输出,强行分成几个大点和小点来讲述
:exclamation: 非常糟糕,似乎不能理解指令,它有自己的想法
2024-12-15T16:00:00Z

备注:

  • 测试结果不一定代表模型本身的能力。AI搜索产品还混合了很多因素,包括但不限于搜索算法/排序算法/内容来源质量/搜索语言。例如有的产品有自己独特的内容域,有的产品擅长使用英文搜索等。
  • 海螺默认使用了英文来搜索,可能是因为我的手机系统设置的语言是英文,它的内容来源大多是中文的。
  • 虽然给腾讯元宝五星可能看起来有点奇怪,但是它确实马上找到了一篇公众号文章,这篇文章总结了最近OpenAI发布的内容。微信公众号算是质量比较不错的来源之一,元宝应该也用了相关算法让这篇文章排到了参考来源比较靠前的位置。但最终它只引用了一篇文章,也有相关风险。
  • ai studeo的gemini默认输出英文,为方便阅读使用沉浸式翻译显示了中文翻译。

【更新】

2024-12-15T16:22:00Z 更新了智谱清言 (GLM-4-Plus)、天工 (高级模式)、豆包、文小言 (文心3.5)
2024-12-15T16:52:00Z 更新了Gemini (2.0-flash-exp, ai studio - grounding)、Arc (browse for me)

38 个赞

按理来说,pplx应该会给引用的 :thinking:

是的,一般会给三个引用,但是这次换了gpt-4o和claude-3.5-sonnet都没有给引用

1 个赞

deepseek试试打个分

1 个赞

pplx pro search


只回答了前两天的

deepseek的回答

pplx 确实会胡编:

已更新deepseek

用chatgpt试了不少遍,发现如果引用的是中文链接(如腾讯新闻、百家号等),回复质量会显著下降,如果引用的英文链接回答质量一般会不错。
试着这么问,openai12天发布会每天发布了什么,用英文搜索,并整理成中文,几乎都答的挺好的

刚才又试了几遍,即使加上用英文搜索几个字,他引用的有概率还是中文结果:joy:

1 个赞

实测pplx用英语问效果比中文问好太多。

试试豆包

1 个赞

试试看国内的ai。

看看我上面发出来的deepseek,和你的好像有点出入,说明同一问题搜索总结的结果不一样?

好的,稍后加入

1 个赞

嗯嗯,确实会遇到这样的情况,可能每次测试的结果都会有不同

我这边Gemini 2.0 Flash表现很好啊


有些缺陷(日期没算准、少了一两天),但信息其实是准确(这不互相矛盾,大家看一下回答就知道我所言之意了)
Sora那里确实错了
佬友这个是Google的哪个软件?开Grounding了吗?

我是在gemini.google.com中使用的,不是aistudio里面

你这个看起来确实表现还行 我稍后去试一下

元宝接入公众号真的太占优势了。。
AI相关的公众号报道太多了
量子位、爱范儿这些还是以公众号为主,这些都会争相报道

3 个赞

Gemini官网现在好像还没接入2.0的联网
现在想体验2.0 grounding还是需要ai studio吧?

我的是gemini官网,显示的是2.0-experiment版本
看到结果输出很像是模型“知道有这么一回事”,基本都给出了大致内容。
但是没给出引用和消息来源,所以不知道是真联网还是假联网

1 个赞