三花 AI 最近发生了什么?欢迎阅读
黑森林实验室发布蓝莓模型 Flux 1.1 Pro
OpenAI 开源 whisper-large-v3-turbo 模型:速度提升 8 倍
OpenAI 推出 Realtime API:简化语音助手开发
PIKA AI 1.5:逼真物理特效视频生成
OpenAI 推出 ChatGPT Canvas:全新协作编程界面
微软 Copilot AI 系列产品更新:7 大新功能亮相
黑森林实验室发布蓝莓模型 Flux 1.1 Pro
黑森林实验室发布Flux 1.1 Pro,这个模型就是前几天登顶 Artificial Analysis image 竞技场的那个蓝莓模型。新版本的速度提升了 6 倍,但依然只支持 API 访问。此外,黑森林实验室还推出了官方 API,即 BFL API,此前主要通过第三方平台如 Replicate 和 Fal AI 进行调用。
OpenAI 开源 whisper-large-v3-turbo 模型:速度提升 8 倍
OpenAI 开源了 whisper-large-v3-turbo 模型,该模型基于 Whisper large-v3 微调而来,在略微牺牲质量的情况下,仅需 6G VRAM,速度比 large-v3 快了 8 倍。有网友在 M2 Ultra 上实测,以 14 秒转录 12 分钟,实际速度提升了 50 倍,不过中文识别效果就那样。
OpenAI 推出 Realtime API:简化语音助手开发
在 OpenAI 开发者大会上,Realtime API 和 gpt-4o-realtime-preview 模型正式亮相,该接口支持同时输入音频或文字,极大地简化了开发语音助手的流程。过去,开发者需要先使用 Whisper 进行语音转文字,再将文字传递给大模型,最后通过 TTS 转换回语音,这一过程不仅延迟高,效果也比较差。现在,一个接口就能搞定,虽然价格挺贵——每分钟的音频输入费用约为 0.06 USD,音频输出每分钟的费用约为 0.24 USD。此外,微软 Azure AI 也已支持这一接口,你可以在 Azure Realtime API 了解更多。
PIKA AI 1.5:逼真物理特效视频生成
PIKA AI 发布了 1.5 版本模型,该版本不仅能生成效果更逼真、运动幅度更大的视频,还支持生成融化、爆炸、挤压等物理特效。挤压特效真心不错,有网友做了用手捏爆头像,刷到的时候一度以为是真棉花糖然后拿手捏的
OpenAI 推出 ChatGPT Canvas:全新协作编程界面
Canvas 现在推出了一个专用于撰写和编程的新 UI——Canvas。通过 Canvas,我们能够与 ChatGPT 协作处理项目,而不仅仅是进行简单的聊天。Canvas 基于 GPT-4,目前仅支持 ChatGPT Plus 和 Team 用户。官方表示,测试结束后将向所有用户开放,包括白嫖用户。
微软 Copilot AI 系列产品更新:7 大新功能亮相
微软最近对其 Copilot AI 系列产品进行了一次重大更新,一口气推出了 7 个新功能。其中包括
- 高级语音模式 Copilot Voice
- 个人信息助手 Copilot Daily
- 类似苹果提示应用的 Personalized Discover
- 用户现在可以通过在 Microsoft Edge 的地址栏输入 @copilot 来直接访问 AI 功能
- Copilot Labs 类似于 Google Labs,未来所有新的内测功能都将首先在这个平台上发布
- Copilot Vision 功能类似于 Chrome 的智能镜头,但功能更为强大,支持对话。
- Think Deeper 功能可能是基于 o1 模型的微调,用于处理更复杂的问题。
挺好的,就是这些新功能目前仅限于澳大利亚、加拿大、新西兰、英国和美国的小部分用户和 Pro 用户使用
闲里偷忙给大伙整理下最近几天发生的一些事,都看到这里了,还不点个赞吗…