三花 AI 一觉醒来发生了什么?欢迎阅读
快手可灵:发布 1.5 全新版本和运动笔刷
微软 GRIN MoE:6.6B 激活参数模型
Moshi: 对标 ChatGPT 的开源实时语音模型
Tripo 2.0:可能是最强 3D 模型生成服务
阿里通义千问:Qwen2.5 基础模型大派对
腾讯 EzAudio:文生音频模型
快手可灵:发布 1.5 全新版本和运动笔刷
昨天快手发布了可灵 1.5,支持直出 1080p 视频,且价格不变,可灵 1.5 模型和可灵 1.0 模型相比,在画面质量、动态质量、文本指令遵从效果等方面有显著效果提升。
可灵 1.0 模型新增了运动笔刷功能,上传图片后,最多可为 6 个元素指定运动轨迹,最多支持生成 5s 视频。
需要注意的是,1.5 模型暂时不支持运镜控制和新功能运动笔刷。
微软 GRIN MoE:6.6B 激活参数模型
GRIN MoE 是微软开源的一款 MoE 模型,使用了 SparseMixer-v2 而非传统 MoE,仅用 6.6B 激活参数(共 16x3.8B),在编程和数学任务上能力出色,适用于内存/计算资源受限以及对延迟敏感的场景。
该模型的 MMLU 基准测试得分为 79.4,远超参数量更高的 Mixtral 8x22 B 等一众模型,你可以在 GRIN-MoE-Demo/GRIN-MoE直接试用。
Moshi: 对标 ChatGPT 的开源实时语音模型
Moshi 早在 7 月初就介绍过了,恍如隔世啊,由法国的 AI 实验室 Kyutai 推出的实时语音多模态模型,当时引起了不小的热度。
现如今总算是开源 kyutai-labs/moshi 了,官方的演示还是在 moshi.chat,试用下来没啥太多变化。
Tripo 2.0:可能是最强 3D 模型生成服务
Tripo AI 咱之前也介绍过了,当时算是性能最好的 3D 生成模型,可惜是闭源的。
昨天它们发布了 2.0 版本,效果更好,速度更快,从视频演示来看,生成能力还是吊打开源模型。
阿里通义千问:Qwen2.5 基础模型大派对
相信大家都已经知道了,阿里昨天开源了 Qwen2.5 系列模型,除了 3B 和 72B 的版本外均可商用。
今天凌晨,知名基准测试分析平台 Artificial Analysis 终于更新了其具体排名数据,72B 模型在 MMLU 得分仅比参数量更大的 Llama 3.1 405B 低 1%,在数学能力上超越 GPT-4o,编程能力上超越 GPT-4o-mini。
对比 Llama 3.1 405B,它体积小,同硬件水平运行速度快,支持 128k 的上下文窗口和 8k 输出 tokens。
此外,模型的价格也相对比较低,1M Tokens 输入输出的价格分别为 0.38/0.4 美元,GPT4-o 为 2.5/10 美元
腾讯 EzAudio:文生音频模型
EzAudio是一个期货开源的文生音频模型,能够生成环境音、动物、音乐和音效等声音。
在这里OpenSound/EzAudio可以直接试用