大家平常用的语音识别模型及框架有哪些?

大家平常用的语音识别模型有哪些?

目前在使用百度的PaddleSpeech,在识别方面,必须是标准的普通话,在使用的过程中只要稍微带点口音,识别的文字都有问题! 有没有在不需要训练就能达到可以识别日常口语的模型?

之前尝试过谷歌的开源模型,识别中文效果很差!!!但要在内网使用,又不能调用讯飞的接口。

2 Likes

软件开发快问快答

这个我熟,英文的话用openai开源的whisper,用large模型的话识别正确率基本是有90%多,whisper中文识别也不错,但是没有英文那么出彩。

中文的话,更喜欢用阿里开源的Paraformer,个人用来下比whisper的中文稍好一点。

另外链家在huggingface上开源了基于whisper进行中文特化微调的模型,据说中文识别效果好了很多,不过我没试过,仅供参考。

4 Likes

微软的

微软的试过了, 中文效果不太行。 还不如百度的模型!

mark

whisper 这个模型英文效果还可以,但是中文的效果很差。阿里开源的Paraformer 这个模型没有试过,明天试一下。

我在回复的时候用的是微信的输入法,这个输入法语音识别的效果很好,还可以自动纠错,自动添加标点符号,不知道这个效果是用什么模型?

whisper你得用large的模型,不要用小模型,我用起来识别率很高

无论是哪个模型,只要时长上来了,就不行。

短的话whisper的英文,中文阿里的通义听悟(无开源)

识别日语用哪个模型比较好

huggingface上找找日语特化的模型

我上面说的都是开源可以本地部署的,如果是把商用模型也纳入进来的话,开源模型还是差点意思的。

espnet和speechbrain可以

这个模型和阿里的FunASR 效果有对比吗?

mark 之前找半天= =

翻了一下论文,Paraformer -large 的效果远远好于espnet,但在常规模型上略微差与ESPNET。 Speechbrain里面各种模型都有,不是最最新的sota,但是纯python实现,训练的脚本和推理直接可以参考来

GPT 通过 LINUX DO <[email protected]> 于2024年3月25日周一 17:51写道:

mark

mark

当前体感是 whisper 对英文的识别是最好的。
中文的, funasr 离线识别是比较好的。

通义千问中的识别也比较信任。(早期版本的飞书会议的转录不够好,离开字节了,现在不知道大模型加持了没有,效果有没有变好)

另外一个感受 —— 可能不需要那么高的转录正确率

  • 将语音进行粗暴的转录之后,让对话调优的大模型进行回复,即便转换出了不正确的内容,也能得到符合主体目标的回应。在这个基础上,将转录的内容进行总结/重述,通过提示语,把可能错误的不相关的词过滤掉,应该能正常使用。可能大模型本身适合做模糊的工作。