佬们，有没有好用的ASR模型推荐

jlau-ice · 2025 年2 月 14 日 06:03

最近在本都部署一个类似语音助手的小玩意，用的faster whisper，其他的一些 STT也都尝试了，但是效果很一般，识别的都不是很准。所以想问问佬，有没有更合适的推荐一下。

liulapatuoni · 2025 年2 月 14 日 06:14

前一阵很火的kokoro或者CosyVoice 2.0

JayXuZ · 2025 年2 月 14 日 06:17

你看错了
是STT不是TTS

yhp666 · 2025 年2 月 14 日 06:18

佬说的STT指的是从声音识别出文本吧？一般叫ASR不叫STT

JayXuZ · 2025 年2 月 14 日 06:20

是的
TTS用的比较多
一般语音识别的工作C端很少做，都是B端做的

yhp666 · 2025 年2 月 14 日 06:21

whisper都满足不了吗？？我还真没见过比他更好的ASR了

yhp666 · 2025 年2 月 14 日 06:25

一般用769MB大小的medium就足矣了，C端恐怕得自己写了

搜到2个python写的

Cimix · 2025 年2 月 14 日 06:27

我用的funasr还行，用gpu很快。cpu也就是能跑的水平，n300要响应个4、5秒

liulapatuoni · 2025 年2 月 14 日 06:32

那试试这个

jlau-ice · 2025 年2 月 14 日 06:33

感谢大佬

yhp666 · 2025 年2 月 14 日 06:43

不客气，也可以参考下open-webui里用的fast-whisper

能被包进open-webui里的api应该不会太low的

atlas11011 · 2025 年2 月 14 日 06:58

如果是中文的话可以试试fast whisper结合Belle-whisper-large-v3-zh-punct-ct2模型

orangelckc · 2025 年2 月 14 日 12:36

语音助手我觉得还是需要识别的速度+语音唤醒，把结果再过一遍大模型纠错一下，补充个字典，这样你就算放在开发版上也能跑，目前我见到的最快的语音识别模型只有copilot语音，没有之一，但是模型不是开源，需要逆向vscode插件的代码

WenDavid · 2025 年2 月 25 日 12:22

有人试过SenseVoice吗？看到有人做了对应的流式语音适配，而且说推理延时很低

话题		回复	浏览量
求好用的实时ASR模型开发调优快问快答 , 纯水	6	157	2025 年3 月 6 日
【求助】语音实时翻译推荐搞七捻三人工智能 , 快问快答 , 纯水	17	552	2025 年2 月 28 日
求一个调用openai api的 whisper-1 模型实现音频转文字的大模型客户端开发调优快问快答	17	322	2025 年3 月 1 日
目前市面上TTS 模型汇总资源荟萃人工智能	38	3475	2025 年1 月 13 日
有哪些好用的语音模型吗，想接入openwebui，目前用的是openai家的tts-1，音色选的nova，感觉感性不够丰富，音色也一般开发调优人工智能 , 快问快答 , 纯水	7	239	2025 年2 月 18 日