AI 精校验处理ass字幕是否可行?

我的生产过程是采集信息写出文稿和下载配图,制作封面->录制视频
Kdenlive可以自动语音转文字识别部分字幕,但是准确率不敢恭维,我在想能否让AI基于已有的文稿重新处理优化生成后的字幕文件。


我大致看了看ass的格式,本质还是一个有固定规则的文本文件。有现成的轮子可以用吗?如果没有,我打算自己搓一个。

27 Likes

看看这个

18 Likes

我看了,但是这个是针对翻译的。我倒是不需要翻译,我是希望Ai基于文稿内容替换字幕里的错误文本,比如说:
原文是: Fedora 42 正在考虑将其Live安装镜像切换到 EROFS
语音识别的字幕可能是:Fedo42正在考虑将气礼物安装镜像切换到EROFS
我觉得理论上GPT能搞定修正,这个工作丢给我来做太浪费时间了。

15 Likes

试试
我用来翻译印尼和印度的冷门片 语音识别的非常准,然后走一遍4o精修 语境也挺符合的,机翻味没有那么重,扫一部纪录片,看完基本没有错误翻译

18 Likes

请问怎么用4o进行精修呢?是网页还是api?

10 Likes

软件里有设置 走的api

3 Likes

这个是好东西,但是我用的Fedora,还没尝试过能不能正常跑。Kdenlive的语音识别其实也是Whisper的模型,我估计我还是得自力更生一下搓个Prompt。
等搞定了我再贴上来。

可以按他帖子里的建议 试试 fasterWhisper + Large-v2


因为我也试过其他的,这个v2效果出奇的好

差不多:

欢迎私信交流。

5 Likes

这是前几天我自己挖的坑,我说要自己实现一下字幕-文稿替换。
现在填上,非专业人员,史山勿笑。 :sob:

Thank you for sharing!!!

1 Like

你这个研究的很深入了啊,过去都没注意到过 forced alignment 这回事。
我用 fastwhisper 这些方案用于人声识别都很糟糕,有啥解吗?

取决于音频质量和语言。

质量问题可以看输出: GroqCloud

解决质量问题不容易 可以考虑 GitHub - EtienneAb3d/WhisperHallu: Experimental code: sound file preprocessing to optimize Whisper transcriptions without hallucinated texts 的思路:

  • 试试用人声分离器
  • 用 VAD 切掉静音和非人声
  • 试试人声压缩
  • 试试给每段人声加个 marker 然后移除
  • 试试给 Whisper 的 prompt 加词库
1 Like

:+1:,有空我也试试

1 Like

先收藏,感觉太难了。。俩人和四人的难度不可同日而语啊

哥们是在做类似 otter 这种会议记录的转写应用吗,研究这么深入

字幕组打杂而已

1 Like

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。