我的生产过程是采集信息写出文稿和下载配图,制作封面->录制视频
Kdenlive可以自动语音转文字识别部分字幕,但是准确率不敢恭维,我在想能否让AI基于已有的文稿重新处理优化生成后的字幕文件。
我大致看了看ass的格式,本质还是一个有固定规则的文本文件。有现成的轮子可以用吗?如果没有,我打算自己搓一个。
我的生产过程是采集信息写出文稿和下载配图,制作封面->录制视频
Kdenlive可以自动语音转文字识别部分字幕,但是准确率不敢恭维,我在想能否让AI基于已有的文稿重新处理优化生成后的字幕文件。
看看这个
我看了,但是这个是针对翻译的。我倒是不需要翻译,我是希望Ai基于文稿内容替换字幕里的错误文本,比如说:
原文是: Fedora 42 正在考虑将其Live安装镜像切换到 EROFS
语音识别的字幕可能是:Fedo42正在考虑将气礼物安装镜像切换到EROFS
我觉得理论上GPT能搞定修正,这个工作丢给我来做太浪费时间了。
试试
我用来翻译印尼和印度的冷门片 语音识别的非常准,然后走一遍4o精修 语境也挺符合的,机翻味没有那么重,扫一部纪录片,看完基本没有错误翻译
请问怎么用4o进行精修呢?是网页还是api?
软件里有设置 走的api
这个是好东西,但是我用的Fedora,还没尝试过能不能正常跑。Kdenlive的语音识别其实也是Whisper的模型,我估计我还是得自力更生一下搓个Prompt。
等搞定了我再贴上来。
差不多:
欢迎私信交流。
这是前几天我自己挖的坑,我说要自己实现一下字幕-文稿替换。
现在填上,非专业人员,史山勿笑。
Thank you for sharing!!!
你这个研究的很深入了啊,过去都没注意到过 forced alignment 这回事。
我用 fastwhisper 这些方案用于人声识别都很糟糕,有啥解吗?
取决于音频质量和语言。
质量问题可以看输出: GroqCloud
解决质量问题不容易 可以考虑 GitHub - EtienneAb3d/WhisperHallu: Experimental code: sound file preprocessing to optimize Whisper transcriptions without hallucinated texts 的思路:
,有空我也试试
先收藏,感觉太难了。。俩人和四人的难度不可同日而语啊
哥们是在做类似 otter 这种会议记录的转写应用吗,研究这么深入
字幕组打杂而已
此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。