在测Deep Research的佬们,你们感觉怎么样?

我先抛砖引玉,测的英文,害怕用太快目前成功问了三轮。

为什么说成功测呢…最开始的时候用的是o1 Pro + Deep Resarch,当他连续追问了我四次以后,我是有一点小兴奋的,因为追问的问题都是高度相关且重要的,问的方式也很专业,像行内人。

然后到要输出了的时候,就没有了。于是我把这4次对话记录直接复制到了一个新的窗口,GPT又追问了4次,但是也能看出来边际效益在递减。结果要输出的时候,还是卡住了不行.

于是我猜测,会不会是O1没法联网,但是话又说回来了,如果不能用为什么要给我这个选项…

我还是用了o3 mini high + Deep Research,带上前面8段聊天记录,o3 又追问了两次,然后生成回答。

量给的还是挺大的,输出了接近一万五token

但是质量感觉有些一般,没有达到震撼的地方,人工协助的情况下Gemini的2M上下文能干的更好

最重要的其实是Deep Research的追问,真的考虑的很周全、包括刁钻的角度也都涵盖到了,跨学科知识相当不错,我这经历了10次追问才得到结果相当于一套提示词工程了。直接把10次聊天记录丢过去让AI整理可以直接得出一份近乎完美的提示词

于是我又直接去问普通的o1 pro, 然后我感觉他明显降智了…但我人在外面又没有节点的问题,再多测测,严重怀疑SAMA不当人

又把10次聊天记录丢到Gemini点评
:

也丢到Claude:


也发给了DeepSeek

总之这个追问还是有点水平的,语言果然是思想的边界啊,有的内容都懂就是表达不出来,追问一下我就能想起来这个也是要考虑的,睡醒了再测

20 个赞

没用过…好像很厉害的样子

1 个赞

Deep research 不能正常 render latex 无法理解为什么会有这样的bug

丢给deepseek没绷住

5 个赞

deepseek多丢几次就好了

ds的攻击到底何时能停止啊

1 个赞

也在海外,访问ds几秒钟就来一个cloudflare,真受不了了,原来我是攻击者 :innocent:

1 个赞

感觉很一般啊 sam两天也没端出来什么特别东西啊 还是不续费pro了

还没用过。。

1 个赞

:laughing::laughing::laughing:

另外再分享一下关于这个问题,我自己的看法

o1 pro降智,或者说就openai降智吧,一方面是节点的问题。另一方面就是,不管在哪,问得多了就会降智

但我也有一些问题想请问一下楼主

事实上对于这一块,是不是可以在开deep research之前,就拿自己想提问的问题,去问其他模型,比如说4o,o1之类的,先让这些基础模型辅助自己,将问题和追问细节尽善尽美。再去找deep research也是可行的方案呢?佬友要不要试一试

我觉得是的,但是我现在测下来,我觉得在一些领域不能太关注广度,例如对2025中国经济进行分析,每个领域都提了,既是输出10k+,深度还是不够。

另一些领域,比如OpenAI ToG的负责人为他的老婆寻求要不要放疗的建议时,考虑新技术新方法就是需要尽可能大的广度

1 个赞

感谢佬友测试!
如果后续openai可以根据主题对搜索来源做优化,或者允许用户自定义搜索范围,报告质量能提升一些。如果能结合operator访问反爬或者闭源数据源,那就能妥妥的当生产力了。

展望一下,如果有法外狂徒般的agent能拿着o3级别的模型,用户有正版渠道就用正版的付费资源,没正版渠道就开paywall bypass读WSJ bloomberg FT,从zlibrary找书,scihub上拉论文pdf,找数据库镜像拉数据,实在找不到的资源全网搜,搜进云盘和TG群。那真是全自动写内参了 :joy:

如果你不提供账号的话 Operator 怎么爬数据
如果你有大量账号 几乎每个网站都有验证 很难想象怎么实现

等agent迭代吧…这个场景总归是要被很漂亮的克服的

起码现阶段的 operator 真的非常非常的鸡肋 以至于我几乎没怎么找到适用的场景

1 个赞

Deep Resarch 还能切换各种模型?o1,o1 pro,o3 mini,4o?
不是说Deep Resarch背后的模型,固定是定制版的o3吗(未发布的)?

切换有区别吗?有没有同个问题,用不同切模型换询问后的回答?我想看看区别。

能不能共享一下聊天记录,让我研究一下。

这个问题我昨天晚上研究了一晚上,相同的问题测试过了,等下开个帖子

钢铁侠佬果然和我一样喜欢打破砂锅问到底