241128 三花AI日报:阿里通义开源国产推理模型;GUI 自动化 Agent;OneDiffusion:多功能生图模型; OpenAI 的 Sora API 泄露事件回顾

ShowUI: GUI 自动化 Agent

ShowUI 是一个用于 GUI 自动化的视觉-语言-操作模型,类似于 Computer Use,能够通过自然语言来控制 AI 实现点击、输入、选择、滚动等操作。根据相关论文的描述,该模型实现了 75.1% 的准确率,性能提高了 1.4 倍,目前代码已经开源。

OneDiffusion:多功能生图模型即将发布

OneDiffusion 是一个多功能生图模型,不仅支持文生图、ID 一致性、单图生多视角、文生多视角,还具备双向生成能力。例如,它可以实现类似 ControlNet 的条件生成(如深度、姿势、布局、语义等),同时也能将图片预处理为这些条件。官方计划于12月初发布模型和代码,敬请关注。

Qwen2vl-Flux 在线演示:体验 mini 版本的强大功能

Qwen2vl-Flux现在提供了一个在线演示,效果十分不错,就像 IpAdapter 一样强。作者表示,这是一个 mini 版本,用于快速出图,完整版本的能力更强。

OpenAI 的 Sora API 泄露事件简单回顾

昨天 OpenAI 的 Sora API 泄露的新闻沸沸扬扬,给大伙总结下:一个名为 PR Puppets 的 Hugging Face 组织发布了一个 Space,该 Space 能够通过提示词生成视频,并且代码是开源的。人们发现,这个 Space 实际上是通过调用 OpenAI 还未正式发布的 Sora 视频生成模型的接口实现的。

随后,该组织发布了一封公开信,声称 OpenAI 暂时关闭了 Sora 对所有艺术家的抢先体验,并呼吁大家一起抵制 OpenAI 的霸主行为。

公开信中还展示了一些‘偷跑’的视频,具体效果你们可以自己去看判断下。有人猜测这些可能是 Sora 的 Turbo 模型生成的,因此速度较快,但效果差点。

阿里通义开源 QwQ-32B-Preview:最强国产推理模型

QwQ-32B-Preview 是阿里通义团队最新开源的推理模型,目前仍处于预览阶段。尽管在安全和语言混用等方面存在一定的局限性,但其性能已能与 o1-mini 相媲美,尤其在数学性能上更是超越了 o1-preview。

QwQ 也是为数不多的可商用推理模型之一,而且这个名字确实很可爱,不是吗 :tieba_028:

27 个赞

通义这么牛批

1 个赞

下一代会叫QAQ吗

1 个赞

早安,先回再看

来了,每日看报

QWQtieba_003

QwQ QAQ OvO 0V0 0^0 :rofl:

通义真实造福了AI开源界啊

OpenAI天天被超越,这次是不是真的呀 :rofl:

真的来个超过close吧 :smirk:这个官网上了吗

在b站看到测试视频了,对于一些常见问题回答的还行,估计是把这些问题都放进训练数据里了。但超出训练数据之外的问题就很垃圾了,代码能力更是一坨。感觉32b参数的天花板就在这里了

mark一下,回头来看