谷歌 Gemini 2.0 Flash 原生图像生成功能正式开放
谷歌的 Gemini 2.0 Flash 的原生图像生成功能现已正式开放。该功能首次测试于 2024 年 12 月,现在,开发者可以通过 API 或 AI Studio 的界面测试 Gemini 2.0 Flash EXP 模型的图像生成和编辑功能。
与 Stable Diffusion、Flux 不同,Gemini 2.0 Flash EXP 模型不仅能够通过自然语言生成图片,还能将图像与文本混合输出,甚至支持多轮对话,逐步调整和优化图像。
更多细节可以在谷歌博客查看完整公告
Remade AI 开源 8 款 Wan2.1 特效 LoRA
Remade AI 最近开源了8 款 Wan2.1 的特效 LoRAs ,这些特效包括捏捏乐、3D 旋转、膨胀、切割、漏气、液压机、肌肉和举枪。
有一说一,可以用来搞一个国内版本的 Pika 了!
Hugging Face 发布 Open R1 第三弹更新
Open R1: 第三弹更新是由 Hugging Face 的 Open R1 项目团队发布的最新进展报告,旨在分享他们对 DeepSeek-R1 的完全开源复刻工作的最新成果。
本次更新聚焦于编程领域,主要是发布了一些新的数据集、基准测试以及媲美 R1 的编程模型 OlympicCoder。
完整细节请看官方博客。
谷歌 Gemma 3: 甩开同参数模型一条街
谷歌昨日发布了 Gemma 3 模型,该模型支持多达 140 种语言,拥有高达 128k 个令牌的上下文窗口,能够处理文本和图像并生成相应的文本输出。性能更是甩开同参数模型一条街。
Gemma 3 提供四种参数规模,其中的 27B 模型官方号称是单 GPU 或 TPU 上性能最强的开源模型,其性能可与 671B 的 DeepSeekV3 相媲美。
查看细节可以看谷歌官方博客,模型现已可在 AI Studio 上使用,同时也可以用Ollama 自部署。
阿里通义 VACE:All-in-One 视频生成与编辑模型
VACE 是阿里通义团队发布的一款 All-in-One 视频生成和编辑模型,它在一个模型内集成了多种功能,包括:
-
Move-Anything:轻松移动视频中的任何元素
-
Swap-Anything:交换视频中的任何元素
-
Reference-Anything:引用任何元素进行视频创作
-
Expand-Anything:扩展视频内容
-
Animate-Anything:为任何元素添加动画效果
此外,VACE 还支持视频重渲染,能够在保留内容、结构、主体、姿态和动作的同时,对视频进行高质量的重新渲染。
目前,VACE 的论文已经发布,代码也即将开源,看起来非常值得期待!关注我,为佬持续跟进最新动态哈!