2024108 三花 AI 国庆总结：Meta 发布 Movie Ge；火爆 X 拖拽式人脸表情编辑；bolt.new：开源 AI 全栈开发；开源 MIDI 音乐生成模型；单图转 2.5D 视差视频工具；

ke_jun · 2024 年10 月 8 日 00:47

为了防止你错过，这里是国庆假期前半段 AI 界发生的事情：

三花 AI 国庆结束发生了什么？欢迎阅读

开源 MIDI 音乐生成模型：AI 编曲新体验

Meta 发布 Movie Gen：最先进的媒体生成模型

bolt.new：开源 AI 全栈开发

DepthFlow：单图转 2.5D 视差视频工具

阿里ACE：全能图片编辑模型

Inverse Painting：艺术作品绘画过程生成工具

FacePoke：火爆 X 拖拽式人脸表情编辑

PMRF：专为人脸面部修复设计的开源图像修复工具

开源 MIDI 音乐生成模型：AI 编曲新体验

midi-model 是一个开源的专门用于合成 MIDI 音乐的模型。很多年前，完全没有音乐细胞的我也尝试过各种编曲软件，基本都是动次打次之后就放弃了。现在可以直接用 AI 生成 MIDI 音乐，效果不错，不知道对专业的音乐人来说这是啥水平。

Meta 发布 Movie Gen：最先进的媒体生成模型

官网是由 Meta 发布的系列模型，官方宣称这是迄今为止最先进的媒体基础模型。该系列包括两个主要模型：

Movie Gen Video：这是一个拥有 30B 参数的 transformer 模型，支持文本生成图像和视频。
Movie Gen Audio：这是一个拥有 13B 参数的 transformer 模型，支持视频配音（文本引导），能够生成环境音、背景音乐和拟音。

尽管目前仅发布了官网和 92 页的论文，Meta 尚未表态是否会开源，但从官网的演示来看，Movie Gen 支持多模态输入，自带角色一致性，还能通过提示词精准编辑视频，功能非常强大，值得期待。

bolt.new：开源 AI 全栈开发

bolt.new 是一个能够通过提示词即可编辑、运行甚至部署的一站式 AI 全栈开发工具，支持 Nuxt、Next 等全栈框架。

与 v0 不同，bolt 能够完全访问文件系统、Node服务器、包管理器、终端和浏览器控制台，目前还是早期测试阶段, GitHub

DepthFlow：单图转 2.5D 视差视频工具

Github 是一款能够将单张图片转换为 2.5D 视差效果视频的工具。国庆期间发布的 0.7.x 版本，主要修复了各种问题，并提供了单文件 WebUI 和 CLI 版本，你们可以直接在 Release 页面下载。

阿里ACE：全能图片编辑模型

阿里推出了一款名为ACE的全能图片编辑模型，支持通过提示词编辑图片、风格参考、局部重绘等多种功能。目前，该项目还处于期货开源状态，官方宣称将在10月底正式开源。

Inverse Painting：艺术作品绘画过程生成工具

Inverse Painting 是一款能够为任何艺术作品生成绘画过程的延时视频工具。目前还是期货开源，与之前介绍的 Paints-Undo 不同，这个工具更适合艺术作品而非二次元。

FacePoke：火爆 X 拖拽式人脸表情编辑

FacePoke 是一个基于 liveportrait 的开源项目，支持通过拖拽对人脸进行编辑，效果喜人。最近在 X 上非常火，可以用来配合 Runway 等视频生成工具控制人脸，挺不错的。

PMRF：专为人脸面部修复设计的开源图像修复工具

PMRF 是一个开源的图像修复算法，它支持对图像进行着色、修复、降噪和超分辨率处理。官方提供了一个小工具，特别适合用于人脸面部修复。不过，亲测并非‘银弹’，可能是因为对熟人的脸辨识能力太强？你可以试试用它处理几个你最熟悉的人的脸部图像，看看效果如何。

aepax · 2024 年10 月 8 日 01:15

来了来了

sparkle · 2024 年10 月 8 日 01:23

占楼一下前排

Duzc24 · 2024 年10 月 8 日 01:33

短短几周不关注，AI已经进步了挺多了

Flail7127 · 2024 年10 月 8 日 01:37

bolt.new 没有详细介绍，我这里给大家简单说一下吧。

总结：目前最强的 AI 代码生成工具，支持一站式开发到部署全流程。

对于想要将想法转为实际产品的人来说，这个东西已经能够实现最基本的 MVP 了。

可以通过对话自动创建项目，修改所有要变动的文件等，目前非常适合全栈式小项目。

相比于 Cursor， bolt.new 不需要任何人工的修改操作，全都通过对话进行。我觉得非常适合有一点编程基础，但又很难做出出彩 Web 页面的同学。

handsome · 2024 年10 月 8 日 02:06

来了，每日看报

shangguan · 2024 年10 月 8 日 02:06

七天没看，如隔一周

feahter · 2024 年10 月 8 日 02:22

在看，每日AI报

lihaha · 2024 年10 月 8 日 02:31

所以还差多少可以达到，需求端直接对接ai完成需求，我感觉这个相当近了呀，距离开发失业好近了

kingduola · 2024 年10 月 8 日 02:44

来了，每日看报,国庆耽误了都感觉跟不上时代了

pongking · 2024 年10 月 8 日 03:24

meta那个工作好强啊

话题		回复	浏览量
241104 三花 AI 日报：基于 SDXL 的高清修复模型；In-Context LoRA：通过提示词生成连贯图像；PromptFix：多功能修图神器；Suno 推出Personas；Runway 推出高级运镜功能；MimicTalk：快速创建 3D 数字人头前沿快讯人工智能	13	499	2024 年11 月 4 日
241125 三花 AI 日报：从数字脸到数字人；全球首个去中心化训练的 10B 模型完成；多功能漫画创作工具；绘画转线稿草图； RAG-Diffusion 精确布局与图像重绘前沿快讯人工智能	8	468	2024 年11 月 25 日
241224 三花AI日报：InvSR：开源图像超分辨率模型；DisPose：开源的跳舞视频生成增强；LuminaBrush：通过颜色笔刷控制图片照明效果前沿快讯人工智能	11	331	2024 年12 月 24 日
241107 三花 AI 日报：InstantIR 高清修复模型在线试用;OpenAI 拿下 chat.com 域名;面部表情的实时编辑器前沿快讯人工智能	10	493	2024 年11 月 8 日
241106 三花AI日报：英伟达开源 ConsiStory 角色一致性技术；腾讯混元大开源；HelloMeme 表情克隆技术；xAI API 每月白嫖 25 美刀前沿快讯人工智能	3	386	2024 年11 月 6 日

2024108 三花 AI 国庆总结：Meta 发布 Movie Ge；火爆 X 拖拽式人脸表情编辑；bolt.new：开源 AI 全栈开发；开源 MIDI 音乐生成模型；单图转 2.5D 视差视频工具；

开源 MIDI 音乐生成模型：AI 编曲新体验

Meta 发布 Movie Gen：最先进的媒体生成模型

bolt.new：开源 AI 全栈开发

DepthFlow：单图转 2.5D 视差视频工具

阿里ACE：全能图片编辑模型

Inverse Painting：艺术作品绘画过程生成工具

FacePoke：火爆 X 拖拽式人脸表情编辑

PMRF：专为人脸面部修复设计的开源图像修复工具

相关话题