一个离线字幕提取的一键包,基于阿里的Funasr,支持hot_words

Chenyme/Chenyme-AAVT: 这是一个全自动(音频)视频翻译项目。利用Whisper识别声音,AI大模型翻译字幕,最后合并字幕视频,生成翻译后的视频。 (github.com)

试试这个,今天原本要找日语开源语音模型的时候看到的。似乎是个成品,看简介支持多语言。用的是Whisper,全语言都还可以。