24920 三花 AI 日报：Qwen2.5 性能评测；快手可灵发布 1.5；腾讯 EzAudio：文生音频模型；微软 GRIN MoE模型；对标 ChatGPT 的开源实时语音模型

ke_jun · 2024 年9 月 20 日 01:15

三花 AI 一觉醒来发生了什么？欢迎阅读

快手可灵：发布 1.5 全新版本和运动笔刷

微软 GRIN MoE：6.6B 激活参数模型

Moshi: 对标 ChatGPT 的开源实时语音模型

Tripo 2.0：可能是最强 3D 模型生成服务

阿里通义千问：Qwen2.5 基础模型大派对

腾讯 EzAudio：文生音频模型

快手可灵：发布 1.5 全新版本和运动笔刷

昨天快手发布了可灵 1.5，支持直出 1080p 视频，且价格不变，可灵 1.5 模型和可灵 1.0 模型相比，在画面质量、动态质量、文本指令遵从效果等方面有显著效果提升。

可灵 1.0 模型新增了运动笔刷功能，上传图片后，最多可为 6 个元素指定运动轨迹，最多支持生成 5s 视频。

需要注意的是，1.5 模型暂时不支持运镜控制和新功能运动笔刷。

微软 GRIN MoE：6.6B 激活参数模型

GRIN MoE 是微软开源的一款 MoE 模型，使用了 SparseMixer-v2 而非传统 MoE，仅用 6.6B 激活参数（共 16x3.8B），在编程和数学任务上能力出色，适用于内存/计算资源受限以及对延迟敏感的场景。

该模型的 MMLU 基准测试得分为 79.4，远超参数量更高的 Mixtral 8x22 B 等一众模型，你可以在 GRIN-MoE-Demo/GRIN-MoE直接试用。

Moshi: 对标 ChatGPT 的开源实时语音模型

Moshi 早在 7 月初就介绍过了，恍如隔世啊，由法国的 AI 实验室 Kyutai 推出的实时语音多模态模型，当时引起了不小的热度。

现如今总算是开源 kyutai-labs/moshi 了，官方的演示还是在 moshi.chat，试用下来没啥太多变化。

Tripo 2.0：可能是最强 3D 模型生成服务

Tripo AI 咱之前也介绍过了，当时算是性能最好的 3D 生成模型，可惜是闭源的。

昨天它们发布了 2.0 版本，效果更好，速度更快，从视频演示来看，生成能力还是吊打开源模型。

阿里通义千问：Qwen2.5 基础模型大派对

相信大家都已经知道了，阿里昨天开源了 Qwen2.5 系列模型，除了 3B 和 72B 的版本外均可商用。

今天凌晨，知名基准测试分析平台 Artificial Analysis 终于更新了其具体排名数据，72B 模型在 MMLU 得分仅比参数量更大的 Llama 3.1 405B 低 1%，在数学能力上超越 GPT-4o，编程能力上超越 GPT-4o-mini。

对比 Llama 3.1 405B，它体积小，同硬件水平运行速度快，支持 128k 的上下文窗口和 8k 输出 tokens。

此外，模型的价格也相对比较低，1M Tokens 输入输出的价格分别为 0.38/0.4 美元，GPT4-o 为 2.5/10 美元

腾讯 EzAudio：文生音频模型

EzAudio是一个期货开源的文生音频模型，能够生成环境音、动物、音乐和音效等声音。

在这里OpenSound/EzAudio可以直接试用

bbb · 2024 年9 月 20 日 01:17

先赞后看

ke_jun · 2024 年9 月 20 日 01:18

另外，我打算以后发 #资源荟萃里，#前沿快讯确实比较适合资讯哈，但是改版后的分类阅读量很差，…几乎全靠关注我的大佬们

倒也没啥，就是影响积极性哈哈哈，佬友们觉得如何？

iamskip11 · 2024 年9 月 20 日 01:33

开源模型卷起来

aepax · 2024 年9 月 20 日 01:40

今天下雨来晚了

mingliao · 2024 年9 月 20 日 01:41

看了下，Qwen2.5-72b好像并非不让商用，原文这样写到：

4. Restrictions
If you are commercially using the Materials, and your product or service has more than 100 million monthly active users, you shall request a license from us. You cannot exercise your rights under this Agreement without our express authorization.

月活一亿需要申请，咱就说全中国月活1亿以上的应用，应该没几个。

aepax · 2024 年9 月 20 日 01:41

具有一定专业性的帖好像就是这样的,阅读量差一些,不过也可以试试换换分区看看效果.不过换哪都跟过去的

hayakawa · 2024 年9 月 20 日 01:43

有没有rss订阅链接

zhangdahao37 · 2024 年9 月 20 日 01:44

支持佬

ke_jun · 2024 年9 月 20 日 02:25

当然有，

https://sanhua.himrr.com/daily-news/feed

shangguan · 2024 年9 月 20 日 02:39

忙到现在才有时间看日报

hanka · 2024 年9 月 20 日 02:42

qwen2.5的价格大概多少了

ke_jun · 2024 年9 月 20 日 02:47

请这位佬友认真看报

hanka · 2024 年9 月 20 日 02:59

嗯~~~这不是还有模型大小的区别吗，都是一样的吗？

handsome · 2024 年9 月 20 日 03:23

来了，每日看报

leioukupo · 2024 年9 月 20 日 09:14

好，moshi可算开源了

showyoubetter · 2024 年9 月 20 日 13:35

不知道Moshi中文怎么样

feahter · 2024 年9 月 21 日 03:57

个人长期专栏

Papain233 · 2024 年9 月 21 日 15:34

老友，订阅了你的rss，但是感觉每天的都很多，可以每天也在rss里面也发一份这种总结版嘛

ke_jun · 2024 年9 月 22 日 02:36

每天不多了吧，最少3条，最多8条?

话题		回复	浏览量
241014 三花AI日报：把 L 站的 Shared Chat 设置为默认搜索引擎；实时渲染 CS:GO 的扩散模型；首个去中心化模型训练启动；开源 3D 数字人头框架；OpenAI 开源多智能体框架；开源可商用 TTS 模型；表情包自由LoRA 前沿快讯人工智能	27	1378	2024 年11 月 7 日
241112 三花 AI 日报：阿里 Qwen2.5-Coder 全系列开源；Vision Pro 与 ComfyUI 结合；轨迹控制视频插帧在线使用；谷歌开源诺奖项目 AlphaFold 3 前沿快讯人工智能	11	556	2024 年11 月 12 日
241204 三花 AI 日报：AI 线稿上色与自动分层技术；腾讯开源混元文生视频模型；高性能生图模型 Luma Photon；海螺发布 I2V-01-Live；谷歌 Vertex AI 上线 Veo 前沿快讯人工智能	10	541	2024 年12 月 4 日
2024年AI大事纪搞七捻三人工智能	2	194	2024 年12 月 31 日
241105 三花AI日报：Claude 3.5 Haiku：价格与能力双提升；OpenAI 推出 Predicted Outputs；清华 MotionCLR：AI 动作编辑模型；ComfyUI v0.2.7 发布：新增 Mochi 视频模型支持前沿快讯人工智能	21	925	2024 年11 月 6 日

24920 三花 AI 日报：Qwen2.5 性能评测；快手可灵发布 1.5；腾讯 EzAudio：文生音频模型；微软 GRIN MoE模型；对标 ChatGPT 的开源实时语音模型

快手可灵：发布 1.5 全新版本和运动笔刷

微软 GRIN MoE：6.6B 激活参数模型

Moshi: 对标 ChatGPT 的开源实时语音模型

Tripo 2.0：可能是最强 3D 模型生成服务

阿里通义千问：Qwen2.5 基础模型大派对

腾讯 EzAudio：文生音频模型

相关话题