群佬们,我想请教一个AI+群控领域的问题

我想实现一个AI智能群控的功能:大概思路是:

  1. 使用adb命令实现截图并保存到电脑。
  2. 把截图使用ocr模型识别转成文字和坐标。目前用paddle ocr可以实现
  3. 把转换后的文字和坐标转成向量数据用一个训练好的不知道什么名字扩散模型来预测应该点击哪个坐标。

现在主要卡在第3步

我的问题是:

  1. 大佬们知不知道市面上有没有现成的模型可以实现。
  2. 如果没有的话,自己训练的话需要怎么做,我对扩散模型了解不多。
1 个赞

@wojingke

令人费解的应用场景 :thinking:

费解倒不费解,就是教机器学会自动点击。

现在做自动化的话,目标app 的页面会经常动态调整,还会出现各种各样的弹窗,如果用固定的脚本逻辑的话维护成本很大,所以现在AI 不是变得很聪明吗,就想着能不能用AI 解决这个问题

1 个赞

特别是遇到灰度更新,脚本更是很难兼容

我倒觉得你把图片和坐标整理成数据集自己训练一个算了,大力出奇迹。

如果市面上有,能白嫖最好.或者我直接把数据封装个prompt告诉chatgpt,它那么聪明,说不定解决这个问题 :rofl:

我这就去试试


看来还是需要自己训练

b站有个农药物理外挂你可以看看

1 个赞

你这么直接问它,它能告诉你?你要说你想训练一个图像识别模型,要能识别并给出图片中文字所在的坐标。

1 个赞

更建议你去使用文档问答的模型,能够多模态解决这个问题,就不用这么绕了,参考这里,自己有数据的话finetune一个效果更好。

1 个赞

这个好啊,我研究一下

这个为什么要用扩散模型呢,你的思路是拿文字和坐标向量化作为prompt嵌入进去?感觉拿文字和坐标作为标签,训练一个目标检测模型就行了,不过肯定是先需要形成一个数据集。

我不太了解模型训练,你说这些步骤会不会很麻烦

大佬们都好专业

我理解下你的需求。是想自动化地根据可能会有调整的页面来定位某个可点击点,是不是就跟自动驾驶一样,车上的摄像头随着车的开动而拍摄到不同的图片,但都是想检测图片上是否有行人/障碍物并定位。那应该是目标检测模型解决的事情,而且能做到毫秒级处理,而扩散模型是和ai绘画和gpt一样的生成式模型,任务不同而且效率是秒级的。
如果使用目标检测模型来解决,你可以用ocr模型来辅助你打标签生成训练数据集,也可以就自己手动打标签。在真正应用到使用场景时,只需要把截下来的图喂给训练好的模型看,模型预测出目标框。你可以查一下yolo系列那些模型

1 个赞

你这话术好像chatgpt的口气

:joy:啊这,我自己输入的