我觉得敲键盘看屏幕并不是最优的解决方案,计算机的本质就算数据和命令,AI为何不使用代码和命令行操作电脑呢?无需GUI的系统多,比如linux,更何况现在AI还能识图识视频
你不觉得AI写代码比你手打快得多吗?
你想一想,如果语言模型慢下来会怎么样。这主要是成本问题,大部分公司不把这种功能发出来
很多公司已经在做了,比如OAI最近的深度研究就能一次研究好久(相对于以前的模型)
同时集成到机器人和系统才是最有效率的方法,机器人是最通用的,人能做到的机器人也能做到
1 Like
但是感觉现在的AI的输出控制还局限于文本,对于2D图像的输出(识别验证码)都控制的不太好,能看出来但不能精确输出坐标,虽然可以专门优化但是离能灵活控制三维运动的机械臂还比较远(至少今年做不到)
1 Like
可惜的是DeepSeek R1並沒有完全開源啊,目前各家第三方平台部屬的R1速度都挺慢的,而且智商明顯不如官網,不太懂是不是沒有完全開源的關係
希望Huggingface早日搞出Open-R1
人也一样不能精确到坐标,人是靠感觉。感觉就和transformer的注意力机制差不多,继续优化transformer就能做到
1 Like
模型权重,论文、代码,都有了。还没开源?
第三方的部署效果已经可以超越官方了
但是人有通过手与电脑进行双向交流(你移动手移到了那里你能知道偏了你能改),但是AI除了坐标好像没啥好的方法
或者可以搞个外部解析器,根据模型注意力情况为图片划区编号?
1 Like
增加传感器,传感器的数据也训练成模型。让控制肢体的模型和语言模型都融合起来,多模态。还能加上视觉模型、听觉模型、发音模型。
1 Like
看过银翼杀手没,dick感觉大模型都做出来。实现人机交互
那你能给我支付宝后面多加几个0吗
2 Likes
给你改前端
支付宝 000000
加小数点后面行吗(
果然是ai!
1 Like
当然不可以啦!
1 Like
为什么!!
那要你加!我自己都能加!