Windows端有无借助无障碍功能实现的AI Agent?

今天花了一天时间部署OmniParser,网上宣传是“为deepseek加上操作计算机的能力”实际上远未达到此程度。
智谱清言和清华大学联合新出的GLM-PC识别效果稍好,但是说实话好不到哪里去。
最近又看到claude支持自动操作计算机,虽然任务完成率达到惊人的15%,但是一个是价格昂贵,一个是这个完成率还是很低…

感觉为了识别屏幕而训练一个视觉模型实在是杀鸡焉用牛刀。有没有什么工具可以让大模型利用无障碍功能,直接读取屏幕上控件的原始文本信息,让大语言模型用最熟悉的文本分析和操作计算机?

13 Likes

之前也想做这类的项目。
就是 LLM + UIAutomation/win32api,不过没啥精力,就没去折腾,蹲一个开源库。

3 Likes

那我来吧

没有,可以试着自己搞一个?

1 Like

openmanus?

如果搜索结果无误,它只能进行命令行调用

你可以看看影刀 RPA 是怎么搞的

1 Like

创好文件夹记得丢个连接给我,好用我去 PR :partying_face:

最后自己写了一个,视频中是运行test.7z中的1.bat后,输入
使用Edge浏览器下载安装ShotCut
自动执行的全过程,耗时6min 53s成功完成任务
无障碍识别用了uiautomation库,大模型用的是官网的DeepSeek V3

test.7z (5.5 KB)

3 Likes

大佬真牛,这动手能力

太牛了 用那种盲人的读屏器软件的框架会不会效果更好点 毕竟那种应该考虑了常见的可点击元素吧 特别是在网页上 可能效果会更好一些

1 Like

当前的版本就是在您提及的这个框架上进行了一些附加代码优化得到的,其实就是微软的AAC(无障碍辅助)功能
还有更多优化计划:

  • 针对win32程序还可以通过GDI控件库的方式获取信息
  • 针对Chrome系浏览器还可以Chrome DevTools Protocol获取页面元素共同校验
  • 如果可以,还是希望把视觉模型作为备用的解决方案补充使用

没时间来完成啊(打滚)所以希望把这个项目传到某些大家都可以帮忙的地方,想改进它的人都可以来改进,但是不知道什么地方比较好

4 Likes

你可以尝试上传到 GitHub 上。如果没法访问可以在站内找个免费的机场就能上去了。
实在不行也可以传到国内的 Gitee 上。

1 Like

对 token 的消耗大吗?
可以考虑让 LLM 输出代码,再用他输出的代码执行。
这样既能让他自己 debug,又能保存下正确的执行步骤(毕竟大多数任务都需要重复执行)。
通过输出代码的方式,对 LLM 来说,还能更简单地完成任务。
比如你这个下载安装程序的任务,就可以直接写 shell 来搞定。
有兴趣的话代码可以搞 Github 上,有空我瞅瞅。

关于token,每次对话保留前5次的历史对话,消耗可能是挺大的(?
非常有道理!马上加入,允许它执行命令行

我的意思是直接让他写 python 脚本,不过得看下怎么把 debug 的能力赋予给 LLM,应该有成熟的库。

现在像 cursor 这些 Agent 做的就挺好的了,可以研究下他们是怎么实现的。

不知道 cursor 有没有开源,看下能不能拿来二次开发 :rofl:

基本上就是搞个在 cursor 的基础上,提供实时获取 AAC 状态的 Agent,来帮助那些不会写代码的人完成一些自动化操作。

执行 shell 通过 python 来就行了,LLM 会自己写 os.system 的 :laughing:

写Python脚本来完成任务可能会有点可能——但是会加上的,肯定会用得到。我还准备给它加点AutoHotKey什么的。

我希望它可以更智能一点,但是还不知道要智能到什么程度

基于 CV 和通过读取控件的区别还是蛮大的。

CV 如果发展得好的话,能够完成很多控件完成不了的工作,而控件则受限于软件生态。并不是每一款软件都遵循无障碍设计,有一部分控件不通过 CV 很难取到。

不过最终肯定是两者相结合,或者说直接发展成 AGI,把现有的操作系统体系都推翻(遥远的梦)。

另外,做这种项目,难度其实蛮高的,所以我提到可以考虑利用 cursor 这类成熟的编程 Agent,相当于给他们做个插件,能够省去很多重复造轮子的活(而且这些轮子还挺难造的)。

1 Like

智能这一部分,我觉得不用花太多的心思。

看看这几年 LLM 的发展,你就会发现,大厂的一次迭代,会替代很多工程优化。

只要 LLM 还在发展,更智能只是早晚的事。

倒是可以把重心放在 Agent 设计上,就是如何给 LLM 提供更高效可用的 Tools。

最近那个 MCP 不是挺火的嘛,可以试着基于 MCP 来构建这个 Agent。

前阵子在 Github 闲逛的时候,好像看到个 playwright MCP 还是啥玩意儿,没点进去看代码。

佬,你的API好像在GitHub上暴露了

1 Like