【投票&评测】选出你认为最好的AI搜索工具!(第一轮评测结果发布)

起因:
电脑上代理常开,而手机并不会常开代理,用Google之前总是需要开一下。我想着搭建一个Google镜像服务,方便手机上使用,就不用总是搜之前开梯子了。
但是我转念一想,为何不一步到位直接用AI搜索呢?AI搜索更适合移动端场景,减少人工筛选的过程。

于是简单调研一下佬友们觉得哪些AI搜索做得好,同时也算是安利给日后找到这篇帖子的人,一举两得。

0 投票人

佬友补充的其他AI搜索:

后续我打算做一些测评,发在这个帖子里。佬友们如果想到一些有区分度的搜索问题,可以发帖我来测试。


第一批测评(2025-01-09)

详细记录见笔记

第一轮测评内容

Q1:唐朝有多少位皇帝寿命超过60岁?

本题考察数据源可靠性、考察检索大量信息并进行简单判断的能力。这道题只要检索到维基百科 - 中国皇帝寿命列表就成功了一大半。

模型 得分 评语
ChatGPT Search 10分 -
Perplexity AI 2分 问题理解错误、事实错误
秘塔AI 8分 细节错误,来源不可靠
Felo 9.5分 过于简略
Gemini-Search 1分 全是幻觉
DeepSeek 9分 疑似内部未做CoT导致第一句话有误,但最终答案正确

Q2:有界闭集是否等价于紧集?

本题考察模型对检索到的资料的数理理解和整合能力。

模型 得分 评语
ChatGPT Search 10分 -
Perplexity AI 3分 事实错误
秘塔AI 10分 -
Felo 9分 细节缺失
Gemini-Search 10分 -
DeepSeek 10分 -

Q3:收集并整理OpenAI的模型API的收费价格,包括全部的文本对话模型,汇总到一个表格里

本题考察检索整理大量信息的能力,惨不忍睹。

模型 得分 评语
ChatGPT Search 8分 6正确,8缺失,0错误
Perplexity AI -3分 2正确,10缺失,2错误
秘塔AI -9分 2正确,12缺失,7错误
Felo -3.5分 2正确,9缺失,3错误
Gemini-Search 2.5分 7正确,9缺失,7错误
DeepSeek 7分 6正确,6缺失,2错误

注:Q3评分公式为 分数 = 正确数*2 - 错误数 - 缺失数*0.5

第一轮测评结果

产品名称 Q1~Q3综合得分
ChatGPT Search 4.772169
DeepSeek 2.237883
Felo 1.238804
秘塔AI 0.976767
Gemini-Search 0.773112
Perplexity AI 0.001266

万万没想到最出名的Perplexity居然垫底了 :tieba_087:

综合总分计算公式
P_i = \frac{10}{m}\sum_{j=1}^{m}\frac{e^{s_{i,j}}}{\sum_{k=1}^{n}e^{s_{k,j}}}

其中:

  • P_i 是模型 i 的综合总分。
  • m 是问题的总数(此次 Q1, Q2, Q3 共3 个问题)。
  • n 是模型的总数(此次有 6 个模型)。
  • s_{i,j} 是模型 i 在第 j 个问题上的得分。
  • e^{s_{i,j}} / \sum_{k=1}^{n} e^{s_{k,j}} 是模型 i 在问题 j 上的 softmax 归一化分数。
  • 将 softmax 归一化分数取平均后乘以10,使得最终分数更自然。
30 Likes

gemini search

4 Likes

投票里面有的,大帅哥

2 Likes
3 Likes

:bili_040: Google 接地 (不是列表那个项目,Gemini API 原生就支持)、Liner、Monica。

2 Likes

miurla/morphic: An AI-powered search engine with a generative UI

这个还行tieba_087

4 Likes

360纳米搜索

4 Likes

deepseek最近很喜欢用它代替搜索引擎

5 Likes

DeepSeek能联网?

7 Likes

可以呀,官网打开联网搜索不就可以么

8 Likes

第一轮测评已完成~~

ChatGPT稳居榜首,Perplexity爆冷垫底 :hugs:

6 Likes

我给我的台湾朋友看了一下,他测pplx的分数和gpt差不多,答案也和佬友给的不一样。因为pplx和gpt一样也会风控降智,一丝不像家宽就会降,甚至比gpt降智得更严重,所以测评结果可能会不严谨,建议让留学佬友试试 :tieba_087:

7 Likes

原来是这样,可能我是新注册的pplx也有关系。有什么办法能辨别降智吗?比如什么问题会有明显稳定的区别之类的

5 Likes

大伙儿天天黑的closeAI实时搜索能力居然这么强的么tieba_087,我一般只拿它当文本处理工具tieba_087,正经代码问题一般去问claude

8 Likes

他的Search的确值得一试

PS:为了有区分度,我选的搜索问题都是相对困难的,这就导致自身能力不足的模型很容易迷失在简中互联网纷杂的假信息中,从而产生事实错误。ChatGPT在测试中没有任何事实错误,于是就高居榜首了。

7 Likes

看来还是OpenAI最强大呀。

6 Likes

选项里怎么没有 genspark ,挺好用的

2 Likes

感谢补充,后续我加上评测

2 Likes

SearXNG居然也是AI搜索工具吗()我查了查也没看到它有AI方面的功能啊

1 Like

确实不太能算。一开始主要是抱着不开代理上google的目的就查到这个项目了,后来注意到它可以给一些AI搜索框架作为底层支持,就一起加上了

1 Like