ShowUI: GUI 自动化 Agent
ShowUI 是一个用于 GUI 自动化的视觉-语言-操作模型,类似于 Computer Use,能够通过自然语言来控制 AI 实现点击、输入、选择、滚动等操作。根据相关论文的描述,该模型实现了 75.1% 的准确率,性能提高了 1.4 倍,目前代码已经开源。
OneDiffusion:多功能生图模型即将发布
OneDiffusion 是一个多功能生图模型,不仅支持文生图、ID 一致性、单图生多视角、文生多视角,还具备双向生成能力。例如,它可以实现类似 ControlNet 的条件生成(如深度、姿势、布局、语义等),同时也能将图片预处理为这些条件。官方计划于12月初发布模型和代码,敬请关注。
Qwen2vl-Flux 在线演示:体验 mini 版本的强大功能
Qwen2vl-Flux现在提供了一个在线演示,效果十分不错,就像 IpAdapter 一样强。作者表示,这是一个 mini 版本,用于快速出图,完整版本的能力更强。
OpenAI 的 Sora API 泄露事件简单回顾
昨天 OpenAI 的 Sora API 泄露的新闻沸沸扬扬,给大伙总结下:一个名为 PR Puppets 的 Hugging Face 组织发布了一个 Space,该 Space 能够通过提示词生成视频,并且代码是开源的。人们发现,这个 Space 实际上是通过调用 OpenAI 还未正式发布的 Sora 视频生成模型的接口实现的。
随后,该组织发布了一封公开信,声称 OpenAI 暂时关闭了 Sora 对所有艺术家的抢先体验,并呼吁大家一起抵制 OpenAI 的霸主行为。
公开信中还展示了一些‘偷跑’的视频,具体效果你们可以自己去看判断下。有人猜测这些可能是 Sora 的 Turbo 模型生成的,因此速度较快,但效果差点。
阿里通义开源 QwQ-32B-Preview:最强国产推理模型
QwQ-32B-Preview 是阿里通义团队最新开源的推理模型,目前仍处于预览阶段。尽管在安全和语言混用等方面存在一定的局限性,但其性能已能与 o1-mini 相媲美,尤其在数学性能上更是超越了 o1-preview。
QwQ 也是为数不多的可商用推理模型之一,而且这个名字确实很可爱,不是吗 ?