InstantX 推出 RAG-Diffusion:精确布局与图像重绘
RAG-Diffusion是 InstantX 团队推出的一种基于区域提示的技术,能够实现精确的布局构图,支持非常复杂的构图。此外,它还能实现图像重绘功能,效果甚至比最新的 Flux.1-Fill-Dev 还要好,并且支持与 LoRA 一起使用。他们还提供了一个简单的网页版本,你们可以在线试试,感受一下它的强大功能。
FlipSketch:开源草图动画生成技术
FlipSketch 是一个开源技术,旨在将草图转换为草图风格的动画。用户只需输入一个草图和一段文本描述,即可生成动画。虽然从演示来看,动画效果差点意思,但好在它是开源的。
LTX-Video:开源视频生成模型,生成速度超越播放
LTX-Video 是最新的开源视频生成模型,它能够在 H100 上实现生成速度比播放还快,仅需 4 秒即可生成 5 秒的 768x512 24fps 视频。除了文生视频外,LTX-Video 也支持图生视频,并且可以在 ComfyUI 中使用。不过,生成质量还是比不了商业模型。你可以在Demo试试看。
Runway 推出视频扩展支持纵横比转换
Runway 推出了全新的扩展视频功能,支持将源视频转换为新的纵横比,类似于 PS 的内容填充视频版,能够实现特写、超广角等效果。目前,该功能尚未完全向所有人开放,你们有兴趣的可以持续关注。
Image2Body:将绘画图片转为线稿草图的学习利器
Image2Body 是一项将现有绘画图片转换为线稿草图的技术,非常适合用于学习绘画。咱不是很懂画画,有没有懂得佬友看看这个草图什么水平?
Manga Editor:多功能漫画创作工具
Manga Editor 是一个连接 WebUI、Forge 和 ComfyUI 的漫画创作网页应用程序,支持多种漫画布局、内置提示词助手、多语言支持、各种特效和对话气泡等功能。它不仅功能健全,还可以作为 WebUI 的插件或独立使用,完全开源。
阿里发布 EchoMimicV2:从数字人头到数字人的飞跃
之前介绍过EchoMimicV1 主要用于生成数字人头。现在阿里发布了EchoMimicV2,功能从数字人头扩展到了数字人。只需输入一张图片、一段手势视频和一段音频,即可生成数字人。支持中英文驱动,画面稳定性非常好。群里之前有佬友在寻找开源数字人方案,这不就来了吗?
INTELLECT-1:全球首个去中心化训练的 10B 模型完成
INTELLECT-1 的 10B 模型已经完成了去中心化训练,利用了来自世界各地的算力。完整的开源版本预计将在一周内发布,内容包括基础模型、checkpoint、后训练模型和数据。从 10 月份开始,耗时一个多月,确实不容易。
因为运营小视频宝加了太多好友,被风控了(差不多一天100+,把三花的机器人关了,所以群里的论文总结暂时没了