一次语音对话的响应周期是2-3秒,这中间主要是asr+LLM+TTS三个模型的接口造成的
怎么能优化到最低呢
如果只用gemini flash 能替代这三个集成吗
一次语音对话的响应周期是2-3秒,这中间主要是asr+LLM+TTS三个模型的接口造成的
怎么能优化到最低呢
如果只用gemini flash 能替代这三个集成吗
關注一下 正好也在研究
端到端,语音输入语音输出,不过还没有asr+LLM+TTS这么成熟
gemini是多模态的,内容处理的延迟在其内部系统处理了
asr+llm+tts都运行在一个局域网内就是最快的
还需要考虑性能造成的处理时延
上次听minimax的技术总监说,这一套优化最终方向是省略掉asr和TTS,只有多模态的大模型。
然后这一套方案业内最好的是虾哥的那个小智,600ms
楼上说的很对,我觉得你真可以去参考一下虾哥的小智,你要说有没有更好的办法,但是成本你不一定能承受的了
audio2audio才是最终解决方案 只是目前实现要么贵 要么效果不行
延迟这个问题很难解决,困恼了Neuro之父Vedal很久很久,也没办法很好地解决
可以看看火山引擎的 实时音视频
使用WebRTC聊天室,以及字节自己的ASR和TTS,应该是比较成熟且快速的方案。
不过不是开源。
只能是端到端直接打通, 其实中间还有个asr/tts打断的问题你没考虑, 做流式音频输入输出对服务器还有要求, 就不是延迟的问题了
关注下 感觉用得上
同问,再加个vad
我最近也在关注这个,如果不是v2v的多模态模型,就不可能快起来。哪怕是asr+llm+tts都在一个局域网内,照样不灵。
这个目前无解 我已经做相关的很长时间了 想降低延迟只能通过音频流式输入,LLM文字分段进行TTS转换,音频流式输出,使用WebRTC技术,VAD技术这种工程化的方式,否则就只能通过audio2audio的模型,就像楼上说的,目前这种模型要么贵,要么效果不行