请问有什么与AI 语音对话的开源项目

传入一段语音,语音转化成文字后调用 大模型(例如GPT-4o
然后GPT-4o回答的结果,会利用TTS转化成语音播放。

求这样的项目介绍!感觉比较难点的在于流式的处理,让语音能比较快速开始而不是等GPT全部返回。

分享一个我找到的类似的:

1 Like

等后续openai更新不久好啦,gpt4o不就是干这个的,只不过是语音转入大模型然后语音出来,省去了语音转文字那步

或许为什么,不直接在预设prompt里面设定他分段输出呢,这样他处理完后一句话一句话输出,然后再TTS转语音

想跑一个开源的玩玩先,openai更新不知道是啥时候了

本身调用api输出就可以是流式的,一个字一个字的。应该异步丢给TTS处理,这块需要一个逻辑

顶顶、呜呜

From 快问快答 to 开发调优