ElevenLabs 发布音频处理 MCP 服务器
ElevenLabs 官方也推出了 MCP 服务器,允许用户使用 MCP 客户端生成语音、克隆声音、转录音频。
蛮酷的,佬们可以看看官方仓库学一下音频类 MCP 怎么做。
Test-Time Training AI 长视频生成技术
Test-Time Training (TTT) 技术有效解决了 Transformer 因自注意力机制效率低下导致的长视频生成难题。
研究团队以经典动画《猫和老鼠》为测试案例,对比了 Mamba 2、Gated DeltaNet 等多种基线模型,最终能够生成流畅一致的1分钟动画视频!
目前生成视频仍有瑕疵(可能受限于5B参数)不过AI长视频未来可期。
演示视频是完全由 AI 生成的,一刀未剪,已经非常的强了。
MiniMax Audio 发布 Speech-02:支持 30+ 语言 TTS 模型
MiniMax Audio 最新推出了 Speech-02 语音合成模型,单次输入最高支持20万个字符,能够以超高的真实感生成语音,支持超过30种语言,最牛b的地方在于其语言切换时非常流畅。
不过目前只能在官网和api使用,价格为 3.5元/万字符,还是比较贵的。
HiDream-I1 发布:17B 参数开源图像生成模型
HiDream-I1 是一个全新的 17B 参数开放权重生图模型,在各项基准测试中表现优异,甚至超越了 Flux dev 模型。最棒的是,它基于 MIT 开源协议,这意味着你可以完全自由地将其用于商业用途。
佬们可以关注下这个模型,虽然有点大(毕竟 17B 参数摆在那里),但性能确实不错。
想尝鲜的话,官方还提供了在线演示可以体验。
谷歌推出 Gemini Live:AI 视频交互
谷歌上线了Gemini Live ,能够结合摄像头和屏幕共享功能与 Gemini AI 进行自然的对话交流。
目前该功能已率先在 Pixel 9 和三星 Galaxy S25 系列机型上线(需要订阅服务)。
官方博客还演示了很多使用案例,包括整理建议、教育、购物等等。