StableAnimator:开源的单图跳舞视频生成技术
StableAnimator 是一种基于单张图片生成跳舞视频的技术。通过输入一张参考图片和一个姿势视频,StableAnimator 能够合成高质量的视频,并保持人物身份的一致性。这又是一个类似 Animate Anyone 的技术,代码完全开源,有兴趣的可以关注下。
OneDiffusion:功能强大的生图模型正式开源
OneDiffusion 是一个之前介绍过的多功能生图模型,其能力非常强大,支持文生图、ID 一致性、单图生多视角、文生多视角等多种功能。现在已经可以在 GitHub 上访问源码了,推荐你们都看看!
谷歌推出 Gemini 2.0 Flash Experimental:性能翻倍,多模态输出更强大
Gemini 2.0 Flash Experimental,这款模型不仅在性能上超越了 1.5 Pro,速度更是其两倍, 大模型竞技场中排名第三,并实现了原生图片和音频的多模态输出。
在性能方面,Gemini 2.0 Flash 改进了多模态、文本、代码、视频、空间理解和推理性能。
输出方面,支持生成包括文本、音频和图像,并能混合输出。
此外,它还支持原生调用 Google 搜索和代码执行等工具,以及通过多模态实时 API 集成摄像头或屏幕共享,实现实时多模态应用,支持自然对话,随时打断,功能非常强大。
现在,可以在 AI Studio 中使用了,完整内容可以看公告。
谷歌发布多款 AI Agent 项目
谷歌在发布 Flash2.0 的同时,还更新和宣布了多款 AI Agent 项目,包括:
- 更新了今年 I/O 大会上的 Project Astra,这是一个能够理解用户环境背景的通用 AI 助手。
- 发布了 Project Mariner,这是一个借助浏览器完成复杂任务的 AI Agent。
- 发布了 Jules,这是一个为开发者提供的编程代理。
- 还有适用于游戏和其他领域的 Agent。
看来,2025 年似乎将会是谷歌的 Agent 元年!