【卡卡字幕助手】VideoCaptioner - 基于 LLM 的智能字幕助手，支持生成、断句、优化、翻译、视频合成全流程！

weifeng_liang · 2024 年11 月 12 日 17:10

上个项目 AsrTools 收获了许多关注，再次期间我也涌现了许多想法，于是就结合LLM做了一个更加强大的项目。

欢迎 star

项目介绍

卡卡字幕助手（VideoCaptioner）操作简单且无需高配置，支持网络调用和本地离线（支持调用GPU）两种方式进行语音识别，利用可用通过大语言模型进行字幕智能断句、校正、翻译，字幕视频全流程一键处理！为视频配上效果惊艳的字幕。

支持 VAD 、人声分离等实用功能

无需GPU即可使用强大的语音识别引擎，生成精准字幕
基于 LLM 的智能分割与断句，字幕阅读更自然流畅
AI字幕多线程优化与翻译，调整字幕格式、表达更地道专业
支持批量视频字幕合成，提升处理效率
直观的字幕编辑查看界面，支持实时预览和快捷编辑
消耗模型 Token 少，且内置基础 LLM 模型，保证开箱即用

界面预览

测试

全流程处理一个14分钟1080P的 B站英文 TED 视频，调用本地 Whisper 模型进行语音识别，使用 gpt-4o-mini 模型优化和翻译为中文，总共消耗时间约 4 分钟。

近后台计算，模型优化和翻译消耗费用不足￥0.01（以OpenAI官方价格为计算）

具体字幕和视频合成的效果的测试结果图片，请参考 TED视频测试

快速开始

Windows 用户

软件较为轻量，打包大小不足 60M,已集成所有必要环境，下载后可直接运行。

从 Release 页面下载最新版本的可执行程序。或者：蓝奏盘下载
打开安装包进行安装
（可选）LLM API 配置，选择是否启用字幕优化或者字幕翻译
拖拽视频文件到软件窗口，即可全自动处理

提示：每一个步骤均支持单独处理，均支持文件拖拽。

基本配置

1. LLM API 配置说明（可选）

配置项	说明
内置模型	软件内置基础大语言模型（`gpt-4o-mini`），无需配置即可使用
API支持	支持标准 OpenAI API 格式。兼容 SiliconCloud、DeepSeek 、 Ollama 等。配置方法请参考配置文档

推荐模型: 追求更高质量可选用 Claude-3.5-sonnet 或 gpt-4o

2. 本地 Whisper 语音识别配置（需软件内下载）

Whisper 版本有 WhisperCpp 和 fasterWhisper 两种，后者效果更好，都需要自行在软件内下载模型。

模型	磁盘空间	内存占用	说明
Tiny	75 MiB	~273 MB	转录很一般，仅用于测试
Small	466 MiB	~852 MB	英文识别效果已经不错
Medium	1.5 GiB	~2.1 GB	中文识别建议至少使用此版本
Large-v1/v2	2.9 GiB	~3.9 GB	效果好，配置允许情况推荐使用
Large-v3	2.9 GiB	~3.9 GB	社区反馈可能会出现幻觉/字幕重复问题

注：以上模型国内网络可直接在软件内下载；支持GPU也支持核显调用。

3. 文稿匹配

在"字幕优化与翻译"页面，包含"文稿匹配"选项，支持以下一种或者多种内容，辅助校正字幕和翻译:

类型	说明	填写示例
术语表	专业术语、人名、特定词语的修正对照表	机器学习->Machine Learning 马斯克->Elon Musk 打call → 应援图灵斑图公交车悖论
原字幕文稿	视频的原有文稿或相关内容	完整的演讲稿、课程讲义等
修正要求	内容相关的具体修正要求	统一人称代词、规范专业术语等填写内容相关的要求即可，示例参考

如果需要文稿进行字幕优化辅助，全流程处理时，先填写文稿信息，再进行开始任务处理
注意: 使用上下文参数量不高的小型LLM模型时，建议控制文稿内容在1千字内，如果使用上下文较大的模型，则可以适当增加文稿内容。

4. 语音识别接口说明

接口名称	支持语言	运行方式	说明
B接口	仅支持中文、英文	在线	免费、速度较快
J接口	仅支持中文、英文	在线	免费、速度较快
WhisperCpp	中文、日语、韩语、英文等 99 种语言，外语效果较好	本地	需要下载转录模型中文建议medium以上模型英文等使用较小模型即可达到不错效果。
fasterWhisper	中文、英文等多99种语言，外语效果优秀，时间轴更准确	本地	需要下载程序和转录模型支持CUDA,速度更快，转录准确。建议优先使用

5. Cookie 配置说明

但你需要URL下载功能时，如果遇到以下情况:

下载的视频需要登录信息
只能下载较低分辨率的视频
网络条件较差时需要验证

请参考 Cookie 配置说明获取Cookie信息，并将cookies.txt文件放置到软件的 AppData 目录下，即可正常下载高质量视频。

作者还是大三，个人能力和项目都还有许多不足，所以如果你在某些文件，看到很垃圾的代码，请多多包容。我会努力的。

项目还在不断完善中，如果在使用过程遇到的Bug，欢迎提交 Issue 和 Pull Request ~~

banlan · 2024 年11 月 12 日 17:11

感谢你的分享！

iliil · 2024 年11 月 12 日 17:24

感谢大佬分享的项目

finch · 2024 年11 月 12 日 17:47

太棒啦，目前都是逐步调用不同的工具来实现的，有空我试一试，已经starredC’est super, actuellement tout est réalisé en appelant progressivement différents outils, j’essaierai quand j’aurai le temps, déjà marqué d’une étoile.

beary · 2024 年11 月 12 日 17:58

感谢佬的分享

fantasy · 2024 年11 月 12 日 18:07

感谢大佬分享

HTCCAV · 2024 年11 月 12 日 18:39

感谢佬友的分享，谢谢

chx_1126 · 2024 年11 月 12 日 19:03

可以实时字幕吗？

showyoubetter · 2024 年11 月 12 日 19:37

不支持large-v3-turbo? 现在large-v3-turbo的速度还不错

passerby064857 · 2024 年11 月 12 日 20:59

挺不錯的，稍微試了一下成品不輸Videolingo啊。
不過我傳了360p的視頻，成品最後出來字幕很糊，不能將視頻轉為指定的解析度嗎?

weifeng_liang · 2024 年11 月 13 日 00:36

可以支持的，但是目前网上反馈看起来v3似乎体验不如v2?

weifeng_liang · 2024 年11 月 13 日 00:40

不错的建议，后续加上这个功能。

但是这样也只能会字幕清晰原有视频仍然是一样的清晰度。可能会作为单独一个设置来启用。

weifeng_liang · 2024 年11 月 13 日 00:41

这个是后处理，给视频加字幕，并不能实时。

handsome · 2024 年11 月 13 日 00:48

感谢大佬分享

passerby · 2024 年11 月 13 日 00:49

希望楼主在软件内标明一下这个几个模型的大小，好让人确定自己的电脑能不能跑，至少有个大致的概念

passerby · 2024 年11 月 13 日 00:50

那有整个实时的计划吗？，这个方面市场基本是空白的

weifeng_liang · 2024 年11 月 13 日 01:00

软件里面有可以选项，后续也会加上简短的文档进行说明。

linuxlove · 2024 年11 月 13 日 01:03

不错，自己加个字幕很方便

passerby · 2024 年11 月 13 日 01:04

我想问一下，软件里的b接口和J接口是自带的转录吗？
还有就是字幕翻译能不能增加deeplx的接口

grassroadsZ · 2024 年11 月 13 日 01:09

已经Star 留痕

话题		回复	浏览量
AsrTools：智能语音转字幕文本工具资源荟萃	38	1985	2025 年1 月 10 日
一款一键全自动视频搬运工具：VideoLingo 资源荟萃人工智能	79	3645	2025 年3 月 19 日
无需任何API，让你在油管用上中文同声传译（油猴脚本配合沉浸式翻译，Youtube字幕实时转语音）开发调优人工智能 , 软件开发	65	2288	2024 年12 月 16 日
分享一些关于哔哩哔哩（bilibili）和其他直播平台录制直播的有趣项目资源荟萃	24	1372	2025 年3 月 18 日
无字幕外语视频添加字幕解决方案？资源荟萃	31	1397	2024 年12 月 12 日