请问有什么与AI 语音对话的开源项目

ku1k · 2024 年5 月 14 日 09:52

传入一段语音，语音转化成文字后调用大模型(例如GPT-4o
然后GPT-4o回答的结果，会利用TTS转化成语音播放。

求这样的项目介绍！感觉比较难点的在于流式的处理，让语音能比较快速开始而不是等GPT全部返回。

分享一个我找到的类似的：

Linon · 2024 年5 月 14 日 10:09

等后续openai更新不久好啦，gpt4o不就是干这个的，只不过是语音转入大模型然后语音出来，省去了语音转文字那步

Jcroge · 2024 年5 月 14 日 10:13

或许为什么，不直接在预设prompt里面设定他分段输出呢，这样他处理完后一句话一句话输出，然后再TTS转语音

ku1k · 2024 年5 月 14 日 10:13

想跑一个开源的玩玩先，openai更新不知道是啥时候了

ku1k · 2024 年5 月 14 日 10:14

本身调用api输出就可以是流式的，一个字一个字的。应该异步丢给TTS处理，这块需要一个逻辑

ku1k · 2024 年5 月 15 日 02:27

顶顶、呜呜

neo · 2024 年8 月 29 日 05:19

话题		回复	浏览量
有没有通过调用API，自己实现语音对话的开源项目呢资源荟萃 ChatGPT , OpenAI , 人工智能	27	545	2024 年8 月 29 日
chatGpt4-有没有开源的可以语音对话的，或者可以识别文件的项目呀开发调优快问快答	21	1194	2024 年8 月 29 日
类似豆包的实时语音对话有没有开源方案资源荟萃人工智能	11	793	2024 年9 月 24 日
在音频领域，大家现在用的效果最好的声音克隆/TTS项目是什么呀？开发调优快问快答	7	764	2024 年8 月 29 日
将文本转换为播客、讲座、摘要等音频内容前沿快讯 OpenAI , 人工智能	7	292	2024 年9 月 25 日