24919 三花AI日报:英伟达可商用角色扮演小模型;Logo 设计模型 Playground v3;YouTube Dream Screen;谷歌 NotebookLM:陪读小助手;CogVideoX-I2V:开源图生视频

三花 AI 一觉醒来发生了什么?欢迎阅读 :point_down:

:dizzy: DrawingSpinUp: 开源 3D 动画生成系统

:zap: Gemini 1.5 Flash:改进速度性能

:bulb: 英伟达 Nemotron-Mini-4B 可商用角色扮演小模型

:mega: 三花 AI 现在支持每日 TOP5 AI 论文总结

:framed_picture: Logo 设计模型 Playground:发布 v3 beta 版本

:clapper: YouTube 即将推出 Dream Screen

:clapper: CogVideoX-Fun:生成条件更自由的 CogVideoX

:open_book: 谷歌 NotebookLM:陪读小助手

:clapper: CogVideoX-I2V:开源图生视频


DrawingSpinUp: 开源 3D 动画生成系统

DrawingSpinUp 能将 2D 角色结合骨骼动画生成为 3D 动画,这个技术能更好的还原原角色的画风和细节。

Gemini 1.5 Flash:改进速度性能

谷歌 AI Studio 负责人发推宣布对 Gemini 1.5 Flash 进行了改善, 使其延迟减少了 3 倍,每秒的 tokens 输出增加了 2 倍

你可以直接在 AI Studio 或者 Vertex 上使用,当然你也可以用这个 akhaliq/gemini-1.5-flash

英伟达 Nemotron-Mini-4B 可商用角色扮演小模型

Nemotron-Mini-4B-Instruct 是英伟达发布的一个针对角色扮演、RAG 和函数调用进行优化过的模型。

这个模型使用 LLM 压缩技术从 Nemotron-4 15B 而来,最高支持 4096 tokens 上下文,可以用于商业用途。

你可以直接在老黄自家的 build 中 nvidia/nemotron-mini-4b-instruct 免费试用,无需登录。

三花 AI 现在支持每日 TOP5 AI 论文总结

很早之前俺的小群就实验性的支持了对 AK 大佬的 dailyPaper 进行总结,但是每天的内容太多了,全是信息噪声,后来优化后只总结 TOP5 论文,但每次仍然需要自己去 arxiv 找链接非常的麻烦。

现在同样是 TOP5 总结,但是会尝试直接爬取官网、Pages、或 GitHub 链接,进一步方便群友获取资料,以后如果是纯论文的内容,除非非常的有突破性,否则就不在日报里发布了。

Logo 设计模型 Playground:发布 v3 beta 版本

专注于 Logo、文化衫、海报等设计的开源模型 Playground 发布 v3 beta 版本,并可直接在其官网 Playground Create 上免费试用,POE 也发布了对其的支持。

需要注意的是,它生成真人的能力要差点,但是生成 Logo 等设计的效果非常的好,一定要试试。官网还有 Design 功能,可以基于已有设计非常轻松的替换或修改。

很多人可能不知道,三大开源文生图模型分别是:Stable Diffusion、FLUX、Playground,不过此次发布的 V3 版本并没有像 2.5 一样直接开源,只发布了论文,可以期待一下。

YouTube 即将推出 Dream Screen

YouTube 官方博客宣布,即将发布 Dream Screen,去年演示过,它把 Google DeepMind 的 Veo 视频生成模型集成到了 YouTube Shorts(短视频)中。

官方表示,Dream Screen 推出后第一时间只会支持美国、加拿大、澳大利亚和新西兰,其他地区暂时未知。

CogVideoX-Fun:生成条件更自由的 CogVideoX

CogVideoX-Fun 是一个基于 CogVideoX 结构修改后的的 pipeline,是一个生成条件更自由的 CogVideoX,可用于生成 AI 图片与视频、训练 Diffusion Transformer 的基线模型与 Lora 模型。

谷歌 NotebookLM:陪读小助手

NotebookLM 是一款由 Google 开发的实验性人工智能工具,它可以帮助用户阅读、做笔记、提问、整理想法等等,可以用来处理各种文本、图像以及网页。用户可以上传各种格式的文本,包括 Google Docs、Slides、PDF、txt,以及网页链接,并将它们整理成一个笔记本。

NotebookLM 能够对这些资源进行分析,自动生成摘要、目录、时间线、问答等信息,并能根据用户提出的问题,提供答案和相关的引用。用户还可以通过笔记本保存笔记、标注,或者创建新的笔记,并根据这些笔记生成其他类型的文本,比如大纲、学习指南等。

上面的介绍使用 NotebookLM 生成,图中的音频概览是一个类似于播客的东西,我只简单的试了下,有点酷嗷,两个人说相声似的,还会互相打断!强烈推荐一波。

CogVideoX-I2V:开源图生视频

ChatGLM 之前在 GitHub Issues 明确表示不会开源图生视频,结果就打脸了!

现在他们开源了 CogVideoX-5b-I2V,支持使用参考图片+提示词生成视频,你可以在 THUDM/CogVideoX-5B-Space 演示中试用,这演示支持文生视频、图生视频、视频生视频,齐活了。

5 个赞

前排板凳,沙发

1 个赞

来了,每日看报

这些图生视频效果咋样呀,最近刚好有服务器可以玩,想试试

快说:谢谢 Google 哥

开趴不带我是吧?小群拉我!

今天来晚了 :tieba_001:

qwen2.5呢

角色扮演的话4k上下文太少了吧,人设一上都快吃满了

感谢 佬友分享 点赞

太火了,不用介绍