佬们,有没有好用的ASR模型推荐

最近在本都部署一个类似语音助手的小玩意,用的faster whisper,其他的一些 STT也都尝试了,但是效果很一般,识别的都不是很准。所以想问问佬,有没有更合适的推荐一下。

12 个赞

前一阵很火的kokoro或者CosyVoice 2.0

2 个赞

你看错了
是STT不是TTS :rofl:

2 个赞

佬说的STT指的是从声音识别出文本吧?一般叫ASR不叫STT

2 个赞

是的 :joy:
TTS用的比较多
一般语音识别的工作C端很少做,都是B端做的

1 个赞

whisper都满足不了吗??我还真没见过比他更好的ASR了

1 个赞

一般用769MB大小的medium就足矣了,C端恐怕得自己写了

搜到2个python写的

1 个赞

我用的funasr还行,用gpu很快。cpu也就是能跑的水平,n300要响应个4、5秒

1 个赞

那试试这个

2 个赞

感谢大佬 :clap:

1 个赞

不客气,也可以参考下open-webui里用的fast-whisper

能被包进open-webui里的api应该不会太low的

1 个赞

如果是中文的话可以试试fast whisper结合Belle-whisper-large-v3-zh-punct-ct2模型

2 个赞

语音助手我觉得还是需要识别的速度+语音唤醒,把结果再过一遍大模型纠错一下,补充个字典,这样你就算放在开发版上也能跑,目前我见到的最快的语音识别模型只有copilot语音,没有之一,但是模型不是开源,需要逆向vscode插件的代码

1 个赞

有人试过SenseVoice吗?看到有人做了对应的流式语音适配,而且说推理延时很低