24820 三花 AI 日报

三花 AI 一觉醒来发生了什么?省流阅读 :point_down:


:twisted_rightwards_arrows: Flux 默认景深/背景模糊规避技巧

:framed_picture: TurboEdit:基于文本的实时照片编辑

:framed_picture: FAI Fuzer:电商利器,一键生成背景

:1234: 阿里 Qwen2-Math:现在有一个演示可用

:ice_cube: gsgan:又一个开源 3D 生成模型

:video_camera: Hotshot:4 人团队做的文生视频模型

:video_camera: Open-LLM-VTuber:AI 驱动的 VTuber

:video_camera: LumaAI DreamMachine v1.5 现已发布


Flux 默认景深/背景模糊规避技巧

默认情况下,Flux 生成的图片(由其肖像)总是有背景模糊,而且 Flux 还不吃负面提示词,所以社区提出了几种办法来避免背景模糊:

还有社区中提供的通过叠加一堆正面提示词或背景描述的方法,具体可以看这个帖子:r/StableDiffusion

上面的方法不是银弹,实测下来要么速度变慢,要么质量降低,不过能有效解决背景模糊的问题,希望 Flux 官方能提供更好的解决方案。

TurboEdit:基于文本的实时照片编辑

TurboEdit 是 Adobe 研究院发布的能够通过提示词实时编辑照片的技术。也就是又一个无需遮罩的局部重绘技术。

它和其他重绘技术比,最大的特点就是快,只需 8 Steps 预处理,然后每次修改只需 4 Steps,性能充足的情况下接近实时。

目前官方只放出来演示视频、论文和项目主页,期待开源!

FAI Fuzer:电商利器,一键生成背景

FAI Fuzer medium v0.3 是一个能为提供的产品或角色生成并融合背景的 Space,支持写实和动漫风格。

只需上传一张照片,然后编写提示词,就能保持主体不变,自然融合到生成的背景当中。

需要注意的是,这个 Space 背后的技术不是开源的,如果要自己接接口用的话免费的只有 20 次,之后每次需要 $0.08。

其实 ComfyUI 就能很容易实现这个效果,有空我整一个!

阿里 Qwen2-Math:现在有一个演示可用

前几天发布的 Qwen2-Math 现在可以在线用了!

Qwen/Qwen2-Math-Demo

是官方提供的一个演示,集成了 Qwen2-VL 当 OCR,然后使用 Math 大模型来求解,能够生成解题步骤和答案,非常不错!

gsgan:又一个开源 3D 生成模型

Adversarial Generation of Hierarchical Gaussians for 3D Generative Model :point_left: 直译成中文是 《基于对抗生成的层次化高斯 3D 生成模型》,是的,项目的标题就这么长。

它主要解决现有 3D 生成技术速度慢且需要大量计算资源的问题,提出了一种基于 “3D 高斯点” 的新方法,把复杂的 3D 形状简化为许多小点,像搭积木一样。

我之前还整理了很多类似的 3D 模型生成的技术,可以看看。

Hotshot:4 人团队做的文生视频模型

Hotshot ACT ONE 是今年 3 月份发布的一个文生视频大模型,不过没有掀起什么水花,官方的宣传视频才只有 8 个赞。

最近突然火了,每天能免费生成 2 次,生成的视频相当不错,值得一试。

官方也正在招远程职位,介绍中表示他们是一个 4 人小团队,惊了。

Open-LLM-VTuber:AI 驱动的 VTuber

Open-LLM-VTube 是一个开源的集成了 Live2D AI 虚拟形象并支持语音聊天对话的项目。

作者还提供了一个 13 分钟的演示视频可以在原项目里看看,目前还处于非常早期阶段,等完善了可以预想到 B 站虚拟主播和弹幕互动区是什么样子了…

LumaAI DreamMachine v1.5 现已发布

Dream Machine 1.5 说好的下周发布,结果刚刚发布了!

  • 更高质量的文字转视频

  • 更智能的提示词理解

  • 新增了自定义文本渲染

  • 优化了图生视频功能

1 个赞

沙发 感谢分享

来了宝贝,今天看到了猫猫

前排围观 :xhs_033:

快起床!今天的日报呢 :rage: :rage:

点赞这一期,感谢分享

From 人工智能 to 资源荟萃