大家平常用的语音识别模型及框架有哪些？

Chat · 2024 年3 月 24 日 13:28

大家平常用的语音识别模型有哪些？

目前在使用百度的PaddleSpeech，在识别方面，必须是标准的普通话，在使用的过程中只要稍微带点口音，识别的文字都有问题！有没有在不需要训练就能达到可以识别日常口语的模型？

之前尝试过谷歌的开源模型，识别中文效果很差！！！但要在内网使用，又不能调用讯飞的接口。

Hua · 2024 年3 月 24 日 13:57

ratuaroricus · 2024 年3 月 24 日 14:21

这个我熟，英文的话用openai开源的whisper，用large模型的话识别正确率基本是有90%多，whisper中文识别也不错，但是没有英文那么出彩。

中文的话，更喜欢用阿里开源的Paraformer，个人用来下比whisper的中文稍好一点。

另外链家在huggingface上开源了基于whisper进行中文特化微调的模型，据说中文识别效果好了很多，不过我没试过，仅供参考。

leioukupo · 2024 年3 月 24 日 14:32

微软的

Chat · 2024 年3 月 24 日 15:11

微软的试过了，中文效果不太行。还不如百度的模型！

greenrock · 2024 年3 月 24 日 15:14

mark

Chat · 2024 年3 月 24 日 15:15

whisper 这个模型英文效果还可以，但是中文的效果很差。阿里开源的Paraformer 这个模型没有试过，明天试一下。

我在回复的时候用的是微信的输入法，这个输入法语音识别的效果很好，还可以自动纠错，自动添加标点符号，不知道这个效果是用什么模型？

ratuaroricus · 2024 年3 月 24 日 15:19

whisper你得用large的模型，不要用小模型，我用起来识别率很高

RichardChou · 2024 年3 月 24 日 15:21

无论是哪个模型，只要时长上来了，就不行。

短的话whisper的英文，中文阿里的通义听悟（无开源）

alice · 2024 年3 月 24 日 15:44

识别日语用哪个模型比较好

ratuaroricus · 2024 年3 月 25 日 00:59

huggingface上找找日语特化的模型

ratuaroricus · 2024 年3 月 25 日 01:02

我上面说的都是开源可以本地部署的，如果是把商用模型也纳入进来的话，开源模型还是差点意思的。

htxhyxh · 2024 年3 月 25 日 08:45

espnet和speechbrain可以

Chat · 2024 年3 月 25 日 09:41

这个模型和阿里的FunASR 效果有对比吗？

yyhhyy · 2024 年3 月 25 日 09:55

mark 之前找半天= =

htxhyxh · 2024 年3 月 25 日 10:03

翻了一下论文，Paraformer -large 的效果远远好于espnet，但在常规模型上略微差与ESPNET。 Speechbrain里面各种模型都有，不是最最新的sota，但是纯python实现，训练的脚本和推理直接可以参考来

GPT 通过 LINUX DO <[email protected]> 于2024年3月25日周一 17:51写道：

LiaoYuan · 2024 年4 月 7 日 07:56

mark

lewarh · 2024 年5 月 19 日 03:43

mark

当前体感是 whisper 对英文的识别是最好的。
中文的， funasr 离线识别是比较好的。

通义千问中的识别也比较信任。（早期版本的飞书会议的转录不够好，离开字节了，现在不知道大模型加持了没有，效果有没有变好）

另外一个感受 —— 可能不需要那么高的转录正确率

将语音进行粗暴的转录之后，让对话调优的大模型进行回复，即便转换出了不正确的内容，也能得到符合主体目标的回应。在这个基础上，将转录的内容进行总结/重述，通过提示语，把可能错误的不相关的词过滤掉，应该能正常使用。可能大模型本身适合做模糊的工作。

linghch · 2024 年7 月 15 日 10:39

Mark一下，学习研究

silkwormice · 2024 年7 月 15 日 11:38

国内的通义听悟或者飞书的妙记，都还不错

话题		回复	浏览量
有没有佬了解语音识别哇快问快答语音	12	326	2024 年7 月 5 日
一个不错的语音大模型,支持各种方言人工智能	21	834	2024 年5 月 28 日
聊一下OpenAI的Whisper模型及其衍生品 \| Distil-Whisper、Whisper.cpp、Faster-Whisper、FunASR 人工智能 openai	11	390	2024 年7 月 16 日
目前市面上TTS 模型汇总人工智能	16	615	2024 年7 月 24 日
收集了几个最近比较火的大模型，这个网站里面的模型支持一键部署，免费体验！人工智能	4	319	2024 年6 月 24 日