[Voice2Text]分享一个免费识别中英混合音频的方法

给大家分享一个偶然间发掘的免费中英混合语音识别方法,虽然市面上的免费/付费语音转文字服务很多但我却没能找到可以识别中英混合语料且免费服务,一些GitHub上的优秀的开源项目都只能识别单语言语料如:

又或者一些在线服务,提供识别混合语料的选择但收费:

今天有了一段中英混合音频需要转成字幕,于是手搓了一个临时的解决方案(门槛不算高,就是有点麻烦)

具体方法为:使用科大讯飞输入法+虚拟声卡驱动

科大讯飞本身也提供中英混合语音的识别功能,但对我这个白嫖党来说还是有些负担,各位富可敌国的佬友可以尝试使用,识别效果肯定比我这个手搓方法要好不少的

在确认了科大讯飞有这方面的技术之后,我便想到这个api可能会用在自家toC的产品上,于是便抱着试一试的心态安装了科大讯飞的输入法。
果不其然,它的输入法里包含了不少语种的识别,并且经过测试后“普通话(随心说)”可以识别混合语料。

在此说明,由于输入法限制,每识别2分钟左右会自动断开,需要重新点击识别按钮以便继续识别。因此在开头和结尾会有少量重复识别的现象(每次我都是先发现停止识别了,再去暂停语料,同时往回切5秒,这样就造成了开头和结尾重复1-5秒)

具体操作方法:

这里我的输入法是安装在安卓虚拟机里的(BlueStacks),虚拟声卡使用的是 VBCABLE (蓝奏云下载
科大讯飞输入法有多平台的版本,包括Windwos,Mac,安卓,IOS。
这里我选择了安卓虚拟机的方式是因为,对我来所最方便也保障效率,大概Windows版也可以使用(未实验)。

但是会跟主机抢输入法,在转录期间全程无法使用主机键盘输入。用安卓虚拟机的话便可以让程序在虚拟机里运行,不会影响到主机打字,便可以实现以下操作,边转录在L站写回复 :tieba_033:


在安装好任意安卓虚拟机及虚拟声卡后,只需要在虚拟机里装上科大讯飞输入法就可以完成转录了!
这里我直接输入到了文件传输助手里,方便电脑编辑,

虚拟声卡具体设置教程

运行应用程序:


点击install:

进入控制面板点击硬件与声音:

点击管理音频设备:
image
在录制选项中设置虚拟声卡为默认设备(注意!!是录制页而非播放!!):

确保播放时音频输出为虚拟声卡:

此时,电脑播放的声音便可输出到虚拟麦克风了

总结:
科大讯飞拥有识别混合语料的能力,官网可以直接调用但会产生一定的费用,手搓方式的弊端是每两分钟左右会停止识别,需要人工手动再次点击识别按钮,无法达到全自动的效果,并且识别出来会有重复,还需扔给chatgpt去根据语境修改识别内容并且删除重复的地方,所以此方法仅适用于喜欢整活的佬友玩玩,要是有高需求,需要用来干活儿的话还是推荐openai的whisper模型,搭配 whisper桌面端 附:中文使用教程

7 个赞

感谢大佬

1 个赞

靴靴佬~~~

1 个赞

太酷啦,居然还有这种方法

Mark 一下

厉害厉害⊙0⊙

嘬嘬嘬。