为了防止你错过,这里是国庆假期前半段 AI 界发生的事情:
三花 AI 国庆结束发生了什么?欢迎阅读
开源 MIDI 音乐生成模型:AI 编曲新体验
Meta 发布 Movie Gen:最先进的媒体生成模型
bolt.new:开源 AI 全栈开发
DepthFlow:单图转 2.5D 视差视频工具
阿里ACE:全能图片编辑模型
Inverse Painting:艺术作品绘画过程生成工具
FacePoke:火爆 X 拖拽式人脸表情编辑
PMRF:专为人脸面部修复设计的开源图像修复工具
开源 MIDI 音乐生成模型:AI 编曲新体验
midi-model 是一个开源的专门用于合成 MIDI 音乐的模型。很多年前,完全没有音乐细胞的我也尝试过各种编曲软件,基本都是动次打次之后就放弃了。现在可以直接用 AI 生成 MIDI 音乐,效果不错,不知道对专业的音乐人来说这是啥水平。
Meta 发布 Movie Gen:最先进的媒体生成模型
官网是由 Meta 发布的系列模型,官方宣称这是迄今为止最先进的媒体基础模型。该系列包括两个主要模型:
- Movie Gen Video:这是一个拥有 30B 参数的 transformer 模型,支持文本生成图像和视频。
- Movie Gen Audio:这是一个拥有 13B 参数的 transformer 模型,支持视频配音(文本引导),能够生成环境音、背景音乐和拟音。
尽管目前仅发布了官网和 92 页的论文,Meta 尚未表态是否会开源,但从官网的演示来看,Movie Gen 支持多模态输入,自带角色一致性,还能通过提示词精准编辑视频,功能非常强大,值得期待。
bolt.new:开源 AI 全栈开发
bolt.new 是一个能够通过提示词即可编辑、运行甚至部署的一站式 AI 全栈开发工具,支持 Nuxt、Next 等全栈框架。
与 v0 不同,bolt 能够完全访问文件系统、Node服务器、包管理器、终端和浏览器控制台,目前还是早期测试阶段, GitHub
DepthFlow:单图转 2.5D 视差视频工具
Github 是一款能够将单张图片转换为 2.5D 视差效果视频的工具。国庆期间发布的 0.7.x 版本,主要修复了各种问题,并提供了单文件 WebUI 和 CLI 版本,你们可以直接在 Release 页面下载。
阿里ACE:全能图片编辑模型
阿里推出了一款名为ACE的全能图片编辑模型,支持通过提示词编辑图片、风格参考、局部重绘等多种功能。目前,该项目还处于期货开源状态,官方宣称将在10月底正式开源。
Inverse Painting:艺术作品绘画过程生成工具
Inverse Painting 是一款能够为任何艺术作品生成绘画过程的延时视频工具。目前还是期货开源,与之前介绍的 Paints-Undo 不同,这个工具更适合艺术作品而非二次元。
FacePoke:火爆 X 拖拽式人脸表情编辑
FacePoke 是一个基于 liveportrait 的开源项目,支持通过拖拽对人脸进行编辑,效果喜人。最近在 X 上非常火,可以用来配合 Runway 等视频生成工具控制人脸,挺不错的。
PMRF:专为人脸面部修复设计的开源图像修复工具
PMRF 是一个开源的图像修复算法,它支持对图像进行着色、修复、降噪和超分辨率处理。官方提供了一个小工具,特别适合用于人脸面部修复。不过,亲测并非‘银弹’,可能是因为对熟人的脸辨识能力太强?你可以试试用它处理几个你最熟悉的人的脸部图像,看看效果如何。