最近在本都部署一个类似语音助手的小玩意,用的faster whisper,其他的一些 STT也都尝试了,但是效果很一般,识别的都不是很准。所以想问问佬,有没有更合适的推荐一下。
12 个赞
前一阵很火的kokoro或者CosyVoice 2.0
2 个赞
你看错了
是STT不是TTS
2 个赞
佬说的STT指的是从声音识别出文本吧?一般叫ASR不叫STT
2 个赞
是的
TTS用的比较多
一般语音识别的工作C端很少做,都是B端做的
1 个赞
whisper都满足不了吗??我还真没见过比他更好的ASR了
1 个赞
一般用769MB大小的medium就足矣了,C端恐怕得自己写了
搜到2个python写的
1 个赞
我用的funasr还行,用gpu很快。cpu也就是能跑的水平,n300要响应个4、5秒
1 个赞
那试试这个
2 个赞
感谢大佬
1 个赞
不客气,也可以参考下open-webui里用的fast-whisper
能被包进open-webui里的api应该不会太low的
1 个赞
如果是中文的话可以试试fast whisper结合Belle-whisper-large-v3-zh-punct-ct2模型
2 个赞
语音助手我觉得还是需要识别的速度+语音唤醒,把结果再过一遍大模型纠错一下,补充个字典,这样你就算放在开发版上也能跑,目前我见到的最快的语音识别模型只有copilot语音,没有之一,但是模型不是开源,需要逆向vscode插件的代码
1 个赞
有人试过SenseVoice吗?看到有人做了对应的流式语音适配,而且说推理延时很低