大家平常用的语音识别模型有哪些?
目前在使用百度的PaddleSpeech,在识别方面,必须是标准的普通话,在使用的过程中只要稍微带点口音,识别的文字都有问题! 有没有在不需要训练就能达到可以识别日常口语的模型?
之前尝试过谷歌的开源模型,识别中文效果很差!!!但要在内网使用,又不能调用讯飞的接口。
大家平常用的语音识别模型有哪些?
目前在使用百度的PaddleSpeech,在识别方面,必须是标准的普通话,在使用的过程中只要稍微带点口音,识别的文字都有问题! 有没有在不需要训练就能达到可以识别日常口语的模型?
之前尝试过谷歌的开源模型,识别中文效果很差!!!但要在内网使用,又不能调用讯飞的接口。
这个我熟,英文的话用openai开源的whisper,用large模型的话识别正确率基本是有90%多,whisper中文识别也不错,但是没有英文那么出彩。
中文的话,更喜欢用阿里开源的Paraformer,个人用来下比whisper的中文稍好一点。
另外链家在huggingface上开源了基于whisper进行中文特化微调的模型,据说中文识别效果好了很多,不过我没试过,仅供参考。
微软的
微软的试过了, 中文效果不太行。 还不如百度的模型!
mark
whisper 这个模型英文效果还可以,但是中文的效果很差。阿里开源的Paraformer 这个模型没有试过,明天试一下。
我在回复的时候用的是微信的输入法,这个输入法语音识别的效果很好,还可以自动纠错,自动添加标点符号,不知道这个效果是用什么模型?
whisper你得用large的模型,不要用小模型,我用起来识别率很高
无论是哪个模型,只要时长上来了,就不行。
短的话whisper的英文,中文阿里的通义听悟(无开源)
识别日语用哪个模型比较好
huggingface上找找日语特化的模型
我上面说的都是开源可以本地部署的,如果是把商用模型也纳入进来的话,开源模型还是差点意思的。
espnet和speechbrain可以
这个模型和阿里的FunASR 效果有对比吗?
mark 之前找半天= =
翻了一下论文,Paraformer -large 的效果远远好于espnet,但在常规模型上略微差与ESPNET。 Speechbrain里面各种模型都有,不是最最新的sota,但是纯python实现,训练的脚本和推理直接可以参考来
GPT 通过 LINUX DO <[email protected]> 于2024年3月25日周一 17:51写道:
mark
mark
当前体感是 whisper 对英文的识别是最好的。
中文的, funasr 离线识别是比较好的。
通义千问中的识别也比较信任。(早期版本的飞书会议的转录不够好,离开字节了,现在不知道大模型加持了没有,效果有没有变好)
另外一个感受 —— 可能不需要那么高的转录正确率
Mark一下,学习研究
国内的通义听悟或者飞书的妙记,都还不错