在音频领域,大家现在用的效果最好的声音克隆/TTS项目是什么呀?

我自己试了GPT-Sovits GitHub - RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)
效果相当惊艳!但是仍达不到有声平台某呱呱的效果。
我看有道也出了一个 GitHub - netease-youdao/EmotiVoice: EmotiVoice 😊: a Multi-Voice and Prompt-Controlled TTS Engine 渣渣无疑。
openai也出了 但是没开源。
有其他推荐吗?

2 个赞

目前应该就是openai的最顶,但是api需要付费。不过现在似乎chatgpt聊天界面也有文字转语音的功能

聊天界面文字转语音只针对回答。而回答你难以控制内容啊

开源目前感觉GPT-SoVITS是最强的

我也想要知道

感觉开源还得是GPT-SoVITS,不过说话和唱歌的区别还是很大的,唱歌尽量洗干净杂音再跑再融合就好,说话可能就需要很多很多高质量的说话素材,而且说话的调子也尽可能不一样,最后的效果才最好

这款有windows或者手机能运行的程序吗?

From 快问快答 to 开发调优