传入一段语音,语音转化成文字后调用 大模型(例如GPT-4o
然后GPT-4o回答的结果,会利用TTS转化成语音播放。
求这样的项目介绍!感觉比较难点的在于流式的处理,让语音能比较快速开始而不是等GPT全部返回。
分享一个我找到的类似的:
传入一段语音,语音转化成文字后调用 大模型(例如GPT-4o
然后GPT-4o回答的结果,会利用TTS转化成语音播放。
求这样的项目介绍!感觉比较难点的在于流式的处理,让语音能比较快速开始而不是等GPT全部返回。
分享一个我找到的类似的:
等后续openai更新不久好啦,gpt4o不就是干这个的,只不过是语音转入大模型然后语音出来,省去了语音转文字那步
或许为什么,不直接在预设prompt里面设定他分段输出呢,这样他处理完后一句话一句话输出,然后再TTS转语音
想跑一个开源的玩玩先,openai更新不知道是啥时候了
本身调用api输出就可以是流式的,一个字一个字的。应该异步丢给TTS处理,这块需要一个逻辑
顶顶、呜呜