群佬们，我想请教一个AI+群控领域的问题

niostack · 2024 年1 月 26 日 04:30

我想实现一个AI智能群控的功能：大概思路是：

使用adb命令实现截图并保存到电脑。
把截图使用ocr模型识别转成文字和坐标。目前用paddle ocr可以实现
把转换后的文字和坐标转成向量数据用一个训练好的不知道什么名字扩散模型来预测应该点击哪个坐标。

现在主要卡在第3步

我的问题是：

大佬们知不知道市面上有没有现成的模型可以实现。
如果没有的话，自己训练的话需要怎么做，我对扩散模型了解不多。

neo · 2024 年1 月 26 日 04:35

@wojingke

Ethan · 2024 年1 月 26 日 04:47

令人费解的应用场景

neo · 2024 年1 月 26 日 04:48

费解倒不费解，就是教机器学会自动点击。

niostack · 2024 年1 月 26 日 04:54

现在做自动化的话，目标app 的页面会经常动态调整，还会出现各种各样的弹窗，如果用固定的脚本逻辑的话维护成本很大，所以现在AI 不是变得很聪明吗，就想着能不能用AI 解决这个问题

niostack · 2024 年1 月 26 日 04:55

特别是遇到灰度更新，脚本更是很难兼容

neo · 2024 年1 月 26 日 04:58

我倒觉得你把图片和坐标整理成数据集自己训练一个算了，大力出奇迹。

niostack · 2024 年1 月 26 日 05:01

如果市面上有，能白嫖最好.或者我直接把数据封装个prompt告诉chatgpt，它那么聪明，说不定解决这个问题

niostack · 2024 年1 月 26 日 05:03

我这就去试试

niostack · 2024 年1 月 26 日 05:09

看来还是需要自己训练

woliubang · 2024 年1 月 26 日 05:23

b站有个农药物理外挂你可以看看

neo · 2024 年1 月 26 日 05:28

你这么直接问它，它能告诉你？你要说你想训练一个图像识别模型，要能识别并给出图片中文字所在的坐标。

wojingke · 2024 年1 月 26 日 06:07

更建议你去使用文档问答的模型，能够多模态解决这个问题，就不用这么绕了，参考这里，自己有数据的话finetune一个效果更好。

github.com

PaddlePaddle/PaddleNLP/blob/develop/docs/model_zoo/taskflow.md#文档智能

# PaddleNLP一键预测功能：Taskflow API



<p align="left">
    <a href="https://pypi.org/project/paddlenlp/"><img src="https://img.shields.io/pypi/v/paddlenlp.svg?label=pip&logo=PyPI&logoColor=white"></a>
    <a href="https://github.com/PaddlePaddle/PaddleNLP/releases"><img src="https://img.shields.io/github/v/release/PaddlePaddle/PaddleNLP?color=ffa"></a>
    <a href="https://pypi.org/project/paddlenlp/"><img src="https://img.shields.io/pypi/pyversions/paddlenlp"></a>
    <a href=""><img src="https://img.shields.io/badge/os-linux%2C%20win%2C%20mac-yellow.svg"></a>
    <a href="../../LICENSE"><img src="https://img.shields.io/github/license/paddlepaddle/paddlenlp"></a>
</p>


<h4 align="left">
  <a href=#QuickStart> QuickStart </a> |
  <a href=#社区交流> 社区交流 </a> |
  <a href=#详细使用> 一键预测&定制训练 </a> |
  <a href=#FAQ> FAQ </a>
</h4>

此文件已被截断。显示原始文件

niostack · 2024 年1 月 26 日 06:22

这个好啊，我研究一下

coinscat · 2024 年1 月 26 日 06:31

这个为什么要用扩散模型呢，你的思路是拿文字和坐标向量化作为prompt嵌入进去？感觉拿文字和坐标作为标签，训练一个目标检测模型就行了，不过肯定是先需要形成一个数据集。

niostack · 2024 年1 月 26 日 06:34

我不太了解模型训练，你说这些步骤会不会很麻烦

benny · 2024 年1 月 26 日 06:52

大佬们都好专业

coinscat · 2024 年1 月 26 日 06:55

我理解下你的需求。是想自动化地根据可能会有调整的页面来定位某个可点击点，是不是就跟自动驾驶一样，车上的摄像头随着车的开动而拍摄到不同的图片，但都是想检测图片上是否有行人/障碍物并定位。那应该是目标检测模型解决的事情，而且能做到毫秒级处理，而扩散模型是和ai绘画和gpt一样的生成式模型，任务不同而且效率是秒级的。
如果使用目标检测模型来解决，你可以用ocr模型来辅助你打标签生成训练数据集，也可以就自己手动打标签。在真正应用到使用场景时，只需要把截下来的图喂给训练好的模型看，模型预测出目标框。你可以查一下yolo系列那些模型

niostack · 2024 年1 月 26 日 07:56

你这话术好像chatgpt的口气

coinscat · 2024 年1 月 26 日 08:11

啊这，我自己输入的

话题		回复	浏览量
【求教】如何搭建并且训练一个自己的大模型资源荟萃 ChatGPT , OpenAI , 人工智能	19	2172	2024 年8 月 29 日
神干：一条能让大模型免费绘图的魔法指令资源荟萃 ChatGPT , 人工智能	25	904	2024 年8 月 29 日
GCP 无损放大图像，效果挺好资源荟萃人工智能 , GCP	5	302	2024 年8 月 29 日
24826 三花 AI 日报：开源实时换脸；快手虚拟试衣；全新交互代码编辑器；提示工程从入门到精通；Cursor AI Rules 提示词库；实时视频生成资源荟萃人工智能	18	799	2024 年8 月 29 日
24813 三花 AI 日报资源荟萃人工智能	11	458	2024 年8 月 29 日

群佬们，我想请教一个AI+群控领域的问题

相关话题