在测Deep Research的佬们，你们感觉怎么样？

DerrickWang · 2025 年2 月 3 日 16:46

我先抛砖引玉，测的英文，害怕用太快目前成功问了三轮。

为什么说成功测呢…最开始的时候用的是o1 Pro + Deep Resarch，当他连续追问了我四次以后，我是有一点小兴奋的，因为追问的问题都是高度相关且重要的，问的方式也很专业，像行内人。

然后到要输出了的时候，就没有了。于是我把这4次对话记录直接复制到了一个新的窗口，GPT又追问了4次，但是也能看出来边际效益在递减。结果要输出的时候，还是卡住了不行.

于是我猜测，会不会是O1没法联网，但是话又说回来了，如果不能用为什么要给我这个选项…

我还是用了o3 mini high + Deep Research，带上前面8段聊天记录，o3 又追问了两次，然后生成回答。

量给的还是挺大的，输出了接近一万五token

但是质量感觉有些一般，没有达到震撼的地方，人工协助的情况下Gemini的2M上下文能干的更好

最重要的其实是Deep Research的追问，真的考虑的很周全、包括刁钻的角度也都涵盖到了，跨学科知识相当不错，我这经历了10次追问才得到结果相当于一套提示词工程了。直接把10次聊天记录丢过去让AI整理可以直接得出一份近乎完美的提示词

于是我又直接去问普通的o1 pro，然后我感觉他明显降智了…但我人在外面又没有节点的问题，再多测测，严重怀疑SAMA不当人

又把10次聊天记录丢到Gemini点评
:

也丢到Claude:

也发给了DeepSeek

总之这个追问还是有点水平的，语言果然是思想的边界啊，有的内容都懂就是表达不出来，追问一下我就能想起来这个也是要考虑的，睡醒了再测

usebit · 2025 年2 月 3 日 16:49

没用过…好像很厉害的样子

Taich · 2025 年2 月 3 日 16:51

Deep research 不能正常 render latex 无法理解为什么会有这样的bug

Lush · 2025 年2 月 3 日 16:53

丢给deepseek没绷住

Whimsy_z · 2025 年2 月 3 日 16:56

deepseek多丢几次就好了

wwow · 2025 年2 月 3 日 16:56

ds的攻击到底何时能停止啊

pid · 2025 年2 月 3 日 17:04

也在海外，访问ds几秒钟就来一个cloudflare，真受不了了，原来我是攻击者

dragonfsky · 2025 年2 月 3 日 17:05

感觉很一般啊 sam两天也没端出来什么特别东西啊还是不续费pro了

handsome · 2025 年2 月 4 日 01:36

还没用过。。

Appearanking · 2025 年2 月 4 日 01:47

另外再分享一下关于这个问题，我自己的看法

o1 pro降智，或者说就openai降智吧，一方面是节点的问题。另一方面就是，不管在哪，问得多了就会降智

Appearanking · 2025 年2 月 4 日 02:08

但我也有一些问题想请问一下楼主

事实上对于这一块，是不是可以在开deep research之前，就拿自己想提问的问题，去问其他模型，比如说4o，o1之类的，先让这些基础模型辅助自己，将问题和追问细节尽善尽美。再去找deep research也是可行的方案呢？佬友要不要试一试

DerrickWang · 2025 年2 月 4 日 06:16

我觉得是的，但是我现在测下来，我觉得在一些领域不能太关注广度，例如对2025中国经济进行分析，每个领域都提了，既是输出10k+，深度还是不够。

另一些领域，比如OpenAI ToG的负责人为他的老婆寻求要不要放疗的建议时，考虑新技术新方法就是需要尽可能大的广度

Naproxen · 2025 年2 月 4 日 08:22

感谢佬友测试！
如果后续openai可以根据主题对搜索来源做优化，或者允许用户自定义搜索范围，报告质量能提升一些。如果能结合operator访问反爬或者闭源数据源，那就能妥妥的当生产力了。

展望一下，如果有法外狂徒般的agent能拿着o3级别的模型，用户有正版渠道就用正版的付费资源，没正版渠道就开paywall bypass读WSJ bloomberg FT，从zlibrary找书，scihub上拉论文pdf，找数据库镜像拉数据，实在找不到的资源全网搜，搜进云盘和TG群。那真是全自动写内参了

Taich · 2025 年2 月 4 日 08:25

如果你不提供账号的话 Operator 怎么爬数据
如果你有大量账号几乎每个网站都有验证很难想象怎么实现

Naproxen · 2025 年2 月 4 日 08:42

等agent迭代吧…这个场景总归是要被很漂亮的克服的

Taich · 2025 年2 月 4 日 08:45

起码现阶段的 operator 真的非常非常的鸡肋以至于我几乎没怎么找到适用的场景

tiga6367 · 2025 年2 月 26 日 03:22

Deep Resarch 还能切换各种模型？o1，o1 pro，o3 mini，4o？
不是说Deep Resarch背后的模型，固定是定制版的o3吗（未发布的）？

切换有区别吗？有没有同个问题，用不同切模型换询问后的回答？我想看看区别。

tiga6367 · 2025 年2 月 26 日 03:23

能不能共享一下聊天记录，让我研究一下。

DerrickWang · 2025 年2 月 26 日 03:23

这个问题我昨天晚上研究了一晚上，相同的问题测试过了，等下开个帖子

DerrickWang · 2025 年2 月 26 日 03:24

钢铁侠佬果然和我一样喜欢打破砂锅问到底

话题		回复	浏览量
ChatGPT发布Deep research，在人类最后的考试中正确率26.6% 前沿快讯 ChatGPT , OpenAI , 人工智能	41	1083	2025 年2 月 3 日
总算用上了Deep Research，来看看中华美食报告搞七捻三 ChatGPT , 人工智能 , 纯水	39	1094	2025 年2 月 5 日
OpenAI ChatGPT 上新 Deep Research：持续思考 30 分钟输出 1 万字，刷榜“人类最后的考试” 前沿快讯 ChatGPT , 人工智能	10	860	2025 年2 月 3 日
Deepseek 的 deep research 会出来吗？搞七捻三人工智能	31	554	2025 年2 月 3 日
《Deepseek时刻》原创长文，深度分析Deepseek这几天在全球到底发生了什么（1月28日17点40更新）搞七捻三 DeepSeek , 人工智能	84	4197	2025 年2 月 14 日

在测Deep Research的佬们，你们感觉怎么样？

相关话题