三花 AI 一觉醒来发生了什么?欢迎阅读
字节 Seed-Music:统一音乐生成框架
白嫖用户现已支持选择 GPT o1-mini
GPT-4o 模型日期更新到 2024-09-03
🤸♀ LumaAI Dream Machine 现已推出 API
微软发布 Copilot Wave 2
Mistral AI 模型大降价
腾讯 DepthCrafter 视频深度预处理
开源扩图小工具
o1 模型的开源平替
字节 Seed-Music:统一音乐生成框架
Seed-Music 是字节豆包推出一套音乐生成框架,支持非常多的功能:
-
通过歌词和描述符 tag(类似 Suno)生成最多 3 分钟的音乐
-
续唱歌曲和风格克隆
-
纯音乐生成,支持精确控制主歌、副歌等歌曲结构的时长
-
将歌词转 MIDI,将 MIDI + 歌词生成清唱或音乐
-
编辑已生成歌曲的歌词或旋律
-
输入人声和参考歌曲,克隆人声来唱参考歌曲
目前还没有在线使用,不过官方有非常多的示例可以 YY 一下,效果非常的不错,可以关注下。
白嫖用户现已支持选择 GPT o1-mini
ChatGPT 官方聊天前端免费用户现在多了一个 Alpha Models 选项,并且可以选择 o1-mini 模型了,不过我试了多个免费账号,依然使用的是 gpt-4o 模型回答。
此外,Plus 和 Team 用户的每周速率限制提高了 7 倍,现在是每天 50 条,o1-preview 现在是每周 50 条
GPT-4o 模型日期更新到 2024-09-03
OpenAI 悄悄的更新了 ChatGPT 中的 GPT-4o 的日期,主要增强了对文件的处理能力和对话记忆功能,完整公告可以看 Model Release Notes。
现在 ChatGPT-4o-latest (2024-09-03) 在 LMSYS 大模型竞技场上又排名第一了。
LumaAI Dream Machine 现已推出 API
昨天 LumaAI 推出了官方 LumaAI API 服务,支持文生视频、图生视频、补全、延长、循环、相机控制等所有网页支持的功能,每帧价格 0.0032 美元,即 24fps 的 1280×720p 的 5 秒视频价格约为 0.35 美元。
微软发布 Copilot Wave 2
微软发布了Microsoft 365 Copilot Wave 2,此次发布在 Excel、PowerPoint、Outlook 等应用中提升了现有 AI 功能,新增了协作工具 Copilot Pages 和可定制的任务自动化 Agent,并引入更快速的 GPT-4o 以提升响应速度,未来计划整合 OpenAI o1 以增强高级推理能力,发布了超过 700 项产品更新和 150 个新功能。
好久没有老大哥的消息了,这是 16 号的消息,内容之多一句话说不完,可以看具体的发布博文。
Mistral AI 模型大降价
Mistral AI 上周开源了多模态的 Pixtral-12B,昨天已经将其适配到了 le Chat。
此外还为开发者增加了免费套餐,需要验证手机号(+86 不行),并且大幅降低了模型价格,最多便宜了 80%,Mistral Large 便宜了 33%。
最后更新了 Mistral Small v24.09,完整的发布公告可以看 AI in abundance
腾讯 DepthCrafter 视频深度预处理
腾讯 AI 实验室开源了 DepthCrafter,一个专门用于视频的深度预测模型,从演示来看,比 Depth Anything V2 的效果都要好很多。
代码和模型都已经发布,不过还没有提供在线试用,关注我,为你持续跟进哈!
开源扩图小工具
fffiloni/diffusers-image-outpaint 来自大佬 @fffiloni,一个非常有趣的小工具,能直接对提供图片进行外扩而无需提示词,视频演示了对单个图片进行多次外扩后会发生什么。
o1 模型的开源平替
找了几个 OpenAI o1 模型的开源平替,大多都是受 o1 的推理链启发或类似的架构。
-
Llama3.1-Instruct-O1:基于 sambanova 上的 Llama-3.1 405b,使用纯提示词实现的 CoT
-
g1: 基于 Groq 上的 Llama-3.1 70b,和上面的类似,使用了动态 CoT
-
Echo: Self-Harmonized Chain of Thought 的官方实现,类似 Auto-CoT