24918 三花 AI 日报：字节音乐生成框架；Dream Machine 现已推出 API；Mistral AI 模型大降价；腾讯视频深度预处理；开源扩图小工具

ke_jun · 2024 年9 月 18 日 01:44

三花 AI 一觉醒来发生了什么？欢迎阅读

字节 Seed-Music：统一音乐生成框架

白嫖用户现已支持选择 GPT o1-mini

GPT-4o 模型日期更新到 2024-09-03

🤸‍♀ LumaAI Dream Machine 现已推出 API

微软发布 Copilot Wave 2

Mistral AI 模型大降价

腾讯 DepthCrafter 视频深度预处理

开源扩图小工具

o1 模型的开源平替

字节 Seed-Music：统一音乐生成框架

Seed-Music 是字节豆包推出一套音乐生成框架，支持非常多的功能：

通过歌词和描述符 tag（类似 Suno）生成最多 3 分钟的音乐
续唱歌曲和风格克隆
纯音乐生成，支持精确控制主歌、副歌等歌曲结构的时长
将歌词转 MIDI，将 MIDI + 歌词生成清唱或音乐
编辑已生成歌曲的歌词或旋律
输入人声和参考歌曲，克隆人声来唱参考歌曲

目前还没有在线使用，不过官方有非常多的示例可以 YY 一下，效果非常的不错，可以关注下。

白嫖用户现已支持选择 GPT o1-mini

ChatGPT 官方聊天前端免费用户现在多了一个 Alpha Models 选项，并且可以选择 o1-mini 模型了，不过我试了多个免费账号，依然使用的是 gpt-4o 模型回答。

此外，Plus 和 Team 用户的每周速率限制提高了 7 倍，现在是每天 50 条，o1-preview 现在是每周 50 条

GPT-4o 模型日期更新到 2024-09-03

OpenAI 悄悄的更新了 ChatGPT 中的 GPT-4o 的日期，主要增强了对文件的处理能力和对话记忆功能，完整公告可以看 Model Release Notes。

现在 ChatGPT-4o-latest (2024-09-03) 在 LMSYS 大模型竞技场上又排名第一了。

LumaAI Dream Machine 现已推出 API

昨天 LumaAI 推出了官方 LumaAI API 服务，支持文生视频、图生视频、补全、延长、循环、相机控制等所有网页支持的功能，每帧价格 0.0032 美元，即 24fps 的 1280×720p 的 5 秒视频价格约为 0.35 美元。

微软发布 Copilot Wave 2

微软发布了Microsoft 365 Copilot Wave 2，此次发布在 Excel、PowerPoint、Outlook 等应用中提升了现有 AI 功能，新增了协作工具 Copilot Pages 和可定制的任务自动化 Agent，并引入更快速的 GPT-4o 以提升响应速度，未来计划整合 OpenAI o1 以增强高级推理能力，发布了超过 700 项产品更新和 150 个新功能。

好久没有老大哥的消息了，这是 16 号的消息，内容之多一句话说不完，可以看具体的发布博文。

Mistral AI 模型大降价

Mistral AI 上周开源了多模态的 Pixtral-12B，昨天已经将其适配到了 le Chat。

此外还为开发者增加了免费套餐，需要验证手机号（+86 不行），并且大幅降低了模型价格，最多便宜了 80%，Mistral Large 便宜了 33%。

最后更新了 Mistral Small v24.09，完整的发布公告可以看 AI in abundance

腾讯 DepthCrafter 视频深度预处理

腾讯 AI 实验室开源了 DepthCrafter，一个专门用于视频的深度预测模型，从演示来看，比 Depth Anything V2 的效果都要好很多。

代码和模型都已经发布，不过还没有提供在线试用，关注我，为你持续跟进哈！

开源扩图小工具

fffiloni/diffusers-image-outpaint 来自大佬 @fffiloni，一个非常有趣的小工具，能直接对提供图片进行外扩而无需提示词，视频演示了对单个图片进行多次外扩后会发生什么。

o1 模型的开源平替

找了几个 OpenAI o1 模型的开源平替，大多都是受 o1 的推理链启发或类似的架构。

Llama3.1-Instruct-O1：基于 sambanova 上的 Llama-3.1 405b，使用纯提示词实现的 CoT
g1: 基于 Groq 上的 Llama-3.1 70b，和上面的类似，使用了动态 CoT
Echo: Self-Harmonized Chain of Thought 的官方实现，类似 Auto-CoT

ke_jun · 2024 年9 月 18 日 01:45

休息了3天，都不会整了，来晚了，佬友们抱歉

Chris1990 · 2024 年9 月 18 日 01:46

看到gpt的新闻就兴奋

ke_jun · 2024 年9 月 18 日 01:46

别兴奋，都不配放标题里

Li_bai · 2024 年9 月 18 日 01:52

来了来了。。

youvy_lee · 2024 年9 月 18 日 02:02

字节老传统了，只发论文不开源代码

handsome · 2024 年9 月 18 日 02:45

来了，每日看报

hooooooo · 2024 年9 月 18 日 05:00

注册了mistral 试了下pixtral 来转换pdf中的图表感觉还需要努力

话题		回复	浏览量
24912 三花AI日报：Adobe 视频模型；书生筑梦 2.0 视频模型；科学文献评审Agent；从 0 训练大模型；1分钟 16K 图片生成；最强开源中文 TTS；ComfyUI对口型节点；今天内容特别多，进来看吧前沿快讯人工智能	6	341	2024 年9 月 12 日
24925 三花AI日报：豆包视频生成模型；Gemini-1.5 更新；卡梅隆加入 Stability AI 董事会；HuggingChat MacOS 原生客户端；ChatGPT高级语音功能前沿快讯人工智能	11	509	2024 年9 月 25 日
24906 三花 AI 日报：百大 AI 人物；Flux LoRA 画廊；提示词管理工具；Claude AI 企业版开源平替；字节数字人头技术前沿快讯人工智能	11	353	2024 年9 月 6 日
24815 三花 AI 日报资源荟萃人工智能	6	239	2024 年8 月 29 日
24926三花AI日报：ChatGPT 高级语音模式系统提示泄露；Meta Connect 2024 发布会总结； Llama 3.2：支持多模态；阿里 MIMO 视频换人前沿快讯人工智能	19	460	2024 年9 月 26 日

24918 三花 AI 日报：字节音乐生成框架；Dream Machine 现已推出 API；Mistral AI 模型大降价；腾讯视频深度预处理；开源扩图小工具

字节 Seed-Music：统一音乐生成框架

白嫖用户现已支持选择 GPT o1-mini

GPT-4o 模型日期更新到 2024-09-03

LumaAI Dream Machine 现已推出 API

微软发布 Copilot Wave 2

Mistral AI 模型大降价

腾讯 DepthCrafter 视频深度预处理

开源扩图小工具

o1 模型的开源平替

相关话题