241125 三花 AI 日报:从数字脸到数字人;全球首个去中心化训练的 10B 模型完成;多功能漫画创作工具;绘画转线稿草图; RAG-Diffusion 精确布局与图像重绘

InstantX 推出 RAG-Diffusion:精确布局与图像重绘

RAG-Diffusion是 InstantX 团队推出的一种基于区域提示的技术,能够实现精确的布局构图,支持非常复杂的构图。此外,它还能实现图像重绘功能,效果甚至比最新的 Flux.1-Fill-Dev 还要好,并且支持与 LoRA 一起使用。他们还提供了一个简单的网页版本,你们可以在线试试,感受一下它的强大功能。

FlipSketch:开源草图动画生成技术

FlipSketch 是一个开源技术,旨在将草图转换为草图风格的动画。用户只需输入一个草图和一段文本描述,即可生成动画。虽然从演示来看,动画效果差点意思,但好在它是开源的。

LTX-Video:开源视频生成模型,生成速度超越播放

LTX-Video 是最新的开源视频生成模型,它能够在 H100 上实现生成速度比播放还快,仅需 4 秒即可生成 5 秒的 768x512 24fps 视频。除了文生视频外,LTX-Video 也支持图生视频,并且可以在 ComfyUI 中使用。不过,生成质量还是比不了商业模型。你可以在Demo试试看。

Runway 推出视频扩展支持纵横比转换

Runway 推出了全新的扩展视频功能,支持将源视频转换为新的纵横比,类似于 PS 的内容填充视频版,能够实现特写、超广角等效果。目前,该功能尚未完全向所有人开放,你们有兴趣的可以持续关注。

Image2Body:将绘画图片转为线稿草图的学习利器

Image2Body 是一项将现有绘画图片转换为线稿草图的技术,非常适合用于学习绘画。咱不是很懂画画,有没有懂得佬友看看这个草图什么水平?

Manga Editor:多功能漫画创作工具

Manga Editor 是一个连接 WebUI、Forge 和 ComfyUI 的漫画创作网页应用程序,支持多种漫画布局、内置提示词助手、多语言支持、各种特效和对话气泡等功能。它不仅功能健全,还可以作为 WebUI 的插件或独立使用,完全开源。

阿里发布 EchoMimicV2:从数字人头到数字人的飞跃

之前介绍过EchoMimicV1 主要用于生成数字人头。现在阿里发布了EchoMimicV2,功能从数字人头扩展到了数字人。只需输入一张图片、一段手势视频和一段音频,即可生成数字人。支持中英文驱动,画面稳定性非常好。群里之前有佬友在寻找开源数字人方案,这不就来了吗?

INTELLECT-1:全球首个去中心化训练的 10B 模型完成

INTELLECT-1 的 10B 模型已经完成了去中心化训练,利用了来自世界各地的算力。完整的开源版本预计将在一周内发布,内容包括基础模型、checkpoint、后训练模型和数据。从 10 月份开始,耗时一个多月,确实不容易。


因为运营小视频宝加了太多好友,被风控了(差不多一天100+,把三花的机器人关了,所以群里的论文总结暂时没了

27 个赞

看来是又靠小视频宝发财了 :xhs_033:

1 个赞

:tieba_087: :tieba_087: :tieba_087:

GCP 的 Imagen 局部重绘是他最强的竞争力之一,这下市场均衡了。

1 个赞

卧槽,拼多多模型居然训练完了 :bili_040: :bili_040:

1 个赞

这模型应该是跟Tülu 3一样完全开放的吧 :lark_012:

来了,每日看报

早安日報!一天沒看到您,全身不對勁

发财发财! :tieba_025:

感谢分享,收藏了

2 个赞