AsrTools:智能语音转字幕文本工具

关于第二个工作,最近已经在投入。倒不如说这个项目本来也是为了我最初的视频字幕全流程自动处理的项目而进行的。可以后续关注一下。

至于capcut,你说的是网页版或者手机版本吗,因为我觉得这个和剪映一样的接口。

Capcut 是剪映的国际版,也是有 PC 和移动端多个版本。
相比国内版,国际版的字幕生成可选语言更多大概有十几种,此外还有很多国内版加入 VIP 的功能可以免费用。


刚才还发现一个小问题,就是接口返回生成的 SRT 是非标准的,(可参考的标准)时间戳的秒数没有补位,毫秒使用的是英文句号而非逗号分隔。这在导入 Aegisub 等软件的时候会报错 Parsing SRT:Expected timestamp pair at line 2
我这里写了个小脚本去修复。

python3 fix_srt.py [srtfile_path]
import sys
import re

def fix_timestamps(line):
    fixed_line = re.sub(r'(\d+):(\d+):(\d+)\.(\d+)', lambda m: f"{int(m.group(1)):02}:{int(m.group(2)):02}:{int(m.group(3)):02},{int(m.group(4)):03}", line)
    return fixed_line

def fix_srt_file(input_file, output_file):
    with open(input_file, 'r', encoding='utf-8') as file:
        lines = file.readlines()
    
    with open(output_file, 'w', encoding='utf-8') as file:
        for line in lines:
            if '-->' in line:
                line = fix_timestamps(line)
            file.write(line)

if __name__ == '__main__':
    input_srt_path = sys.argv[1]
    output_srt_path = input_srt_path.replace('.srt', '_fixed.srt')
    fix_srt_file(input_srt_path, output_srt_path)

谢谢反馈,相关的字幕的格式可以直接在ASRData.py里修改。有空的话我修正一下,或者也欢迎pr :wink:

1 个赞

好了 问题弄好了

1 个赞

项目挺好的,可惜我不做媒体没需求,不过我有个想法,能不能给没有字幕的视频实时添加字幕,甚至增加机器翻译。

实时的这个调用的接口估计做不来。要是离线处理的我现在正在做:识别字幕+大模型优化字幕+大模型翻译+添加视频字幕全自动化

有点厉害支持~~

很厉害,不过软件打不开,需要安装qt插件是什么意思

看起来很不错

感谢分享,再加个翻译功能就更完美了

1 个赞

这个语音识别的B接口跟J接口都是什么呢?是云服务平台吗?

是的,调用网络接口

1 个赞

能透露一下是啥模型不?很好奇,回来想仔细研究研究。现在语音识别的模型我就知道一个whisper

谢了

泰语能翻译吗

需要翻译的话可以使用这个项目,翻译的话支持任何语言。

大佬支持 linux部署吗 api 调用

同问啊大佬 :grinning:

佬 这个和Buzz哪个好捏

试试,谢谢分享