目前体验了两个,一个是智普的沉思,一个是OmniParserV2,智普可以主动控制浏览器进行学习分析,对于’长难句’的 代码要求 ,完成度较差。
4 Likes
第一个喔
现在的路还是很长的,等待软件公布接口调用还差不多
视觉方案说实话这一年应该是不行的
我有一计
下午刚写好的来着,虽然还有很多地方不完善…
目前AI除了左键单双击和输入文本以外基本上都不能用。好消息是这些问题从技术角度上讲不难,坏消息是这种不完善的地方需要较大量的测试才能完成。
还要上课,根本没时间测试(打滚
2 Likes
看起来还不错,主要是命令行控制和键盘自动化,没有视觉方案。
我想要复杂一点的功能,比如让其写代码制作小工具,ai就会遇到各种问题,让其控制浏览器主动搜索相关内容,分析学习完了 ,创建代码运行,出错了自动反馈然后继续分析运行。我试了一些这样的项目,体验都不太行
这又是什么新鲜玩意
是的,技术上不难的前提是要求不高,比如下单买东西,或者搜索相关信息,建立文件,修改文件,目前都能实现。
而且一些要求太简单了,人做 比 和ai说 然后让他做要快
但要求复杂了就…比如需要批量修改文件,模型可能给出错误的批处理,当运行后,它需要发现错误并更正,替换批处理再次运行
而且很多问题需要控制浏览器学习分析才能完成。 会遇到很多方面的问题
1 Like
你说的这个不就是MCP吗
这个很离谱,我装了扩展,登录——然后登的号不是我的
browser_use 和 computer_use,另外佬应该上一个 快问快答,给好回答解决方案,你这也算是提问