24918 三花 AI 日报:字节音乐生成框架;Dream Machine 现已推出 API;Mistral AI 模型大降价;腾讯视频深度预处理;开源扩图小工具

三花 AI 一觉醒来发生了什么?欢迎阅读 :point_down:

:dvd: 字节 Seed-Music:统一音乐生成框架

:handshake: 白嫖用户现已支持选择 GPT o1-mini

:zap: GPT-4o 模型日期更新到 2024-09-03

🤸‍♀ LumaAI Dream Machine 现已推出 API

:robot: 微软发布 Copilot Wave 2

:video_game: Mistral AI 模型大降价

:fire: 腾讯 DepthCrafter 视频深度预处理

:framed_picture: 开源扩图小工具

:sparkles: o1 模型的开源平替


字节 Seed-Music:统一音乐生成框架

Seed-Music 是字节豆包推出一套音乐生成框架,支持非常多的功能:

  • 通过歌词和描述符 tag(类似 Suno)生成最多 3 分钟的音乐

  • 续唱歌曲和风格克隆

  • 纯音乐生成,支持精确控制主歌、副歌等歌曲结构的时长

  • 将歌词转 MIDI,将 MIDI + 歌词生成清唱或音乐

  • 编辑已生成歌曲的歌词或旋律

  • 输入人声和参考歌曲,克隆人声来唱参考歌曲

目前还没有在线使用,不过官方有非常多的示例可以 YY 一下,效果非常的不错,可以关注下。

白嫖用户现已支持选择 GPT o1-mini

ChatGPT 官方聊天前端免费用户现在多了一个 Alpha Models 选项,并且可以选择 o1-mini 模型了,不过我试了多个免费账号,依然使用的是 gpt-4o 模型回答。

此外,Plus 和 Team 用户的每周速率限制提高了 7 倍,现在是每天 50 条,o1-preview 现在是每周 50 条

GPT-4o 模型日期更新到 2024-09-03

OpenAI 悄悄的更新了 ChatGPT 中的 GPT-4o 的日期,主要增强了对文件的处理能力和对话记忆功能,完整公告可以看 Model Release Notes

现在 ChatGPT-4o-latest (2024-09-03) 在 LMSYS 大模型竞技场上又排名第一了。

LumaAI Dream Machine 现已推出 API

昨天 LumaAI 推出了官方 LumaAI API 服务,支持文生视频、图生视频、补全、延长、循环、相机控制等所有网页支持的功能,每帧价格 0.0032 美元,即 24fps 的 1280×720p 的 5 秒视频价格约为 0.35 美元。

微软发布 Copilot Wave 2

微软发布了Microsoft 365 Copilot Wave 2,此次发布在 Excel、PowerPoint、Outlook 等应用中提升了现有 AI 功能,新增了协作工具 Copilot Pages 和可定制的任务自动化 Agent,并引入更快速的 GPT-4o 以提升响应速度,未来计划整合 OpenAI o1 以增强高级推理能力,发布了超过 700 项产品更新和 150 个新功能。

好久没有老大哥的消息了,这是 16 号的消息,内容之多一句话说不完,可以看具体的发布博文。

Mistral AI 模型大降价

Mistral AI 上周开源了多模态的 Pixtral-12B,昨天已经将其适配到了 le Chat

此外还为开发者增加了免费套餐,需要验证手机号(+86 不行),并且大幅降低了模型价格,最多便宜了 80%,Mistral Large 便宜了 33%。

最后更新了 Mistral Small v24.09,完整的发布公告可以看 AI in abundance

腾讯 DepthCrafter 视频深度预处理

腾讯 AI 实验室开源了 DepthCrafter,一个专门用于视频的深度预测模型,从演示来看,比 Depth Anything V2 的效果都要好很多。

代码和模型都已经发布,不过还没有提供在线试用,关注我,为你持续跟进哈!

开源扩图小工具

fffiloni/diffusers-image-outpaint 来自大佬 @fffiloni,一个非常有趣的小工具,能直接对提供图片进行外扩而无需提示词,视频演示了对单个图片进行多次外扩后会发生什么。

o1 模型的开源平替

找了几个 OpenAI o1 模型的开源平替,大多都是受 o1 的推理链启发或类似的架构。

  • Llama3.1-Instruct-O1:基于 sambanova 上的 Llama-3.1 405b,使用纯提示词实现的 CoT

  • g1: 基于 Groq 上的 Llama-3.1 70b,和上面的类似,使用了动态 CoT

  • Echo: Self-Harmonized Chain of Thought 的官方实现,类似 Auto-CoT

11 个赞

休息了3天,都不会整了,来晚了,佬友们抱歉

看到gpt的新闻就兴奋

1 个赞

别兴奋,都不配放标题里 :tieba_025:

1 个赞

来了来了。。

字节老传统了,只发论文不开源代码

来了,每日看报

注册了mistral 试了下pixtral 来转换pdf中的图表感觉还需要努力

1 个赞