250409 三花AI日报:ElevenLabs 发布 MCP 服务器;TTT AI 生成猫和老鼠长视频;MiniMax 发布 Speech-02;HiDream-I1 比肩 Flux dev 生图模型;Gemini Live:AI 视频交互

ElevenLabs 发布音频处理 MCP 服务器

ElevenLabs 官方也推出了 MCP 服务器,允许用户使用 MCP 客户端生成语音、克隆声音、转录音频。

蛮酷的,佬们可以看看官方仓库学一下音频类 MCP 怎么做。

Test-Time Training AI 长视频生成技术

Test-Time Training (TTT) 技术有效解决了 Transformer 因自注意力机制效率低下导致的长视频生成难题。

研究团队以经典动画《猫和老鼠》为测试案例,对比了 Mamba 2、Gated DeltaNet 等多种基线模型,最终能够生成流畅一致的1分钟动画视频!

目前生成视频仍有瑕疵(可能受限于5B参数)不过AI长视频未来可期。

演示视频是完全由 AI 生成的,一刀未剪,已经非常的强了。

MiniMax Audio 发布 Speech-02:支持 30+ 语言 TTS 模型

MiniMax Audio 最新推出了 Speech-02 语音合成模型,单次输入最高支持20万个字符,能够以超高的真实感生成语音,支持超过30种语言,最牛b的地方在于其语言切换时非常流畅。

不过目前只能在官网和api使用,价格为 3.5元/万字符,还是比较贵的。

HiDream-I1 发布:17B 参数开源图像生成模型

HiDream-I1 是一个全新的 17B 参数开放权重生图模型,在各项基准测试中表现优异,甚至超越了 Flux dev 模型。最棒的是,它基于 MIT 开源协议,这意味着你可以完全自由地将其用于商业用途。

佬们可以关注下这个模型,虽然有点大(毕竟 17B 参数摆在那里),但性能确实不错。

想尝鲜的话,官方还提供了在线演示可以体验。

谷歌推出 Gemini Live:AI 视频交互

谷歌上线了Gemini Live ,能够结合摄像头和屏幕共享功能与 Gemini AI 进行自然的对话交流。

目前该功能已率先在 Pixel 9 和三星 Galaxy S25 系列机型上线(需要订阅服务)。

官方博客还演示了很多使用案例,包括整理建议、教育、购物等等。

53 Likes

前排支持下

来了,每日一看

前排读报

前排支持一下

大概看了一下,好像hidream 这个要求34G显存,略大啊,感觉,部署不太方便

2 Likes

每日看报

每日读报

用TTT做的视频可以啊,肢体居然没有明显的乱飞?是不是因为是动画?

1 Like

每日一看

2 Likes

感觉因为老动画内心自然就接受了 :laughing:

1 Like

其实仔细看四肢动作不太自然的,可能是预训练规避掉一些了吧

1 Like

感觉动画相比实际场景的视频来说应该是更难生成的

每日前排看报

MiniMax 确实太贵了根本用不起啊

1 Like

每日看报,感谢分享

我来看看

每日看报

感谢分享

去年一月份左右内测过海螺那个AI女友,当时就感觉这小伙儿语音以后肯定能做起来.这家潜力十足啊.好像之前也还发过一个叫01的模型,也算差强人意

1 Like