【卡卡字幕助手】VideoCaptioner - 基于 LLM 的智能字幕助手,支持生成、断句、优化、翻译、视频合成全流程!

上个项目 AsrTools 收获了许多关注,再次期间我也涌现了许多想法 :innocent:,于是就结合LLM做了一个更加强大的项目。

欢迎 star :star:

:open_book: 项目介绍

卡卡字幕助手(VideoCaptioner)操作简单且无需高配置,支持网络调用和本地离线(支持调用GPU)两种方式进行语音识别,利用可用通过大语言模型进行字幕智能断句、校正、翻译,字幕视频全流程一键处理!为视频配上效果惊艳的字幕。

支持 VAD 、 人声分离 等实用功能

  • :bullseye: 无需GPU即可使用强大的语音识别引擎,生成精准字幕

  • :scissors: 基于 LLM 的智能分割与断句,字幕阅读更自然流畅

  • :counterclockwise_arrows_button: AI字幕多线程优化与翻译,调整字幕格式、表达更地道专业

  • :clapper_board: 支持批量视频字幕合成,提升处理效率

  • :memo: 直观的字幕编辑查看界面,支持实时预览和快捷编辑

  • :robot: 消耗模型 Token 少,且内置基础 LLM 模型,保证开箱即用

:camera_with_flash: 界面预览


:test_tube: 测试

全流程处理一个14分钟1080P的 B站英文 TED 视频,调用本地 Whisper 模型进行语音识别,使用 gpt-4o-mini 模型优化和翻译为中文,总共消耗时间约 4 分钟

近后台计算,模型优化和翻译消耗费用不足 ¥0.01(以OpenAI官方价格为计算)

具体字幕和视频合成的效果的测试结果图片,请参考 TED视频测试

:rocket: 快速开始

Windows 用户

软件较为轻量,打包大小不足 60M,已集成所有必要环境,下载后可直接运行。

  1. Release 页面下载最新版本的可执行程序。或者:蓝奏盘下载

  2. 打开安装包进行安装

  3. (可选)LLM API 配置,选择是否启用字幕优化或者字幕翻译

  4. 拖拽视频文件到软件窗口,即可全自动处理

提示:每一个步骤均支持单独处理,均支持文件拖拽。

:gear: 基本配置

1. LLM API 配置说明 (可选)

配置项 说明
内置模型 软件内置基础大语言模型(gpt-4o-mini),无需配置即可使用
API支持 支持标准 OpenAI API 格式。兼容 SiliconCloudDeepSeekOllama 等。
配置方法请参考配置文档

推荐模型: 追求更高质量可选用 Claude-3.5-sonnetgpt-4o

2. 本地 Whisper 语音识别配置(需软件内下载)

Whisper 版本有 WhisperCpp 和 fasterWhisper 两种,后者效果更好,都需要自行在软件内下载模型。

模型 磁盘空间 内存占用 说明
Tiny 75 MiB ~273 MB 转录很一般,仅用于测试
Small 466 MiB ~852 MB 英文识别效果已经不错
Medium 1.5 GiB ~2.1 GB 中文识别建议至少使用此版本
Large-v1/v2 2.9 GiB ~3.9 GB 效果好,配置允许情况推荐使用
Large-v3 2.9 GiB ~3.9 GB 社区反馈可能会出现幻觉/字幕重复问题

注:以上模型国内网络可直接在软件内下载;支持GPU也支持核显调用。

3. 文稿匹配

  • 在"字幕优化与翻译"页面,包含"文稿匹配"选项,支持以下一种或者多种内容,辅助校正字幕和翻译:
类型 说明 填写示例
术语表 专业术语、人名、特定词语的修正对照表 机器学习->Machine Learning
马斯克->Elon Musk
打call → 应援
图灵斑图
公交车悖论
原字幕文稿 视频的原有文稿或相关内容 完整的演讲稿、课程讲义等
修正要求 内容相关的具体修正要求 统一人称代词、规范专业术语等
填写内容相关的要求即可,示例参考
  • 如果需要文稿进行字幕优化辅助,全流程处理时,先填写文稿信息,再进行开始任务处理

  • 注意: 使用上下文参数量不高的小型LLM模型时,建议控制文稿内容在1千字内,如果使用上下文较大的模型,则可以适当增加文稿内容。

4. 语音识别接口说明

接口名称 支持语言 运行方式 说明
B接口 仅支持中文、英文 在线 免费、速度较快
J接口 仅支持中文、英文 在线 免费、速度较快
WhisperCpp 中文、日语、韩语、英文等 99 种语言,外语效果较好 本地 需要下载转录模型
中文建议medium以上模型
英文等使用较小模型即可达到不错效果。
fasterWhisper 中文、英文等多99种语言,外语效果优秀,时间轴更准确 本地 需要下载程序和转录模型
支持CUDA,速度更快,转录准确。
建议优先使用

5. Cookie 配置说明

但你需要URL下载功能时,如果遇到以下情况:

  1. 下载的视频需要登录信息

  2. 只能下载较低分辨率的视频

  3. 网络条件较差时需要验证

  • 请参考 Cookie 配置说明 获取Cookie信息,并将cookies.txt文件放置到软件的 AppData 目录下,即可正常下载高质量视频。

作者还是大三,个人能力和项目都还有许多不足,所以如果你在某些文件,看到很垃圾的代码,请多多包容。我会努力的。 :dog:

项目还在不断完善中,如果在使用过程遇到的Bug,欢迎提交 Issue 和 Pull Request ~~ :smiling_face_with_three_hearts:

367 个赞

感谢你的分享!

6 个赞

感谢大佬分享的项目

4 个赞

太棒啦,目前都是逐步调用不同的工具来实现的,有空我试一试,已经starredC’est super, actuellement tout est réalisé en appelant progressivement différents outils, j’essaierai quand j’aurai le temps, déjà marqué d’une étoile.

4 个赞

感谢佬的分享

4 个赞

感谢大佬分享

7 个赞

感谢佬友的分享,谢谢

2 个赞

可以实时字幕吗?

6 个赞

不支持large-v3-turbo? 现在large-v3-turbo的速度还不错

5 个赞

挺不錯的,稍微試了一下成品不輸Videolingo啊。
不過我傳了360p的視頻,成品最後出來字幕很糊,不能將視頻轉為指定的解析度嗎?

4 个赞

可以支持的 ,但是目前网上反馈看起来v3似乎体验不如v2?

4 个赞

不错的建议,后续加上这个功能。 :kissing_heart:

但是这样也只能会字幕清晰原有视频仍然是一样的清晰度。可能会作为单独一个设置来启用。

2 个赞

这个是后处理,给视频加字幕,并不能实时。

5 个赞

感谢大佬分享

2 个赞

希望楼主在软件内标明一下这个几个模型的大小,好让人确定自己的电脑能不能跑,至少有个大致的概念

3 个赞

那有整个实时的计划吗? :tieba_025: :tieba_025:,这个方面市场基本是空白的

1 个赞

软件里面有可以选项,后续也会加上简短的文档进行说明。

1 个赞

不错,自己加个字幕很方便

我想问一下,软件里的b接口和J接口是自带的转录吗?
还有就是字幕翻译能不能增加deeplx的接口

1 个赞

已经Star 留痕

3 个赞