Gemini Next Chat 更新 v1.9.0,本次更新带来了强大的多模态直播功能,并对性能和文档进行了优化:
- 重磅推出:多模态直播!
- 支持 Gemini Multimodal Live API。注意:目前官方仅支持 gemini-2.0-flash-exp 模型。
- 语音模式升级: 将原语音模式重构为组件,并增加自动录音设置。
- 性能优化:
- 优化了Office文件解析代码,改为动态导入,减少落地页加载的文件数量。
- 将系统指令和附件区域组件改为动态加载,提升加载速度。
- 移除了 store 中的早期兼容代码。
- 文档更新:
- 改进了文档内容,并添加了新的路线图(Roadmap)。
- 新增了多模态直播 API 常见问题解答。
- 新增了使用 Cloudflare Worker 代理的多模态直播 API 文档。
- Bug修复:
- 调整 defaultValue 为 value,防止表单状态被缓存。
- 构建调整: 调整了 wrangler.toml 配置。
我们致力于不断优化产品体验,敬请期待更多精彩功能!
Multimodal Live 使用指南
1、模型选 gemini-2.0-flash-exp
,如果项目初始化没有该模型可以通过在右上角设置-模型,手动刷新模型列表
2、点击聊天页面的右下角语音对话按钮
3、Multimodal Live 拥有独立的设置页面,使用之前需要输入 Gemini api key,如果没有 api key 可以免费申请一个,如果无法科学上网,可以考虑设置 api 代理
4、愉快地体验 Multimodal Live,目前官方还不支持中文语音,可以考虑用英文沟通
Gemini Multimodal Live API 相关的代码逻辑早在一个多月前就已经写好,迟迟不推送相关更新主要是在等官方支持中文语音以及推出更完善的 API。由于官方接口限制,目前不支持服务端代理,需要使用 apikey,如果需要代理,请参阅 使用 Cloudflare Worker 代理 Multimodal Live API
虽然不是最早实现 Gemini Multimodal Live 的项目,但可能是目前最好用的实现版本。