上个项目 AsrTools 收获了许多关注,再次期间我也涌现了许多想法 ,于是就结合LLM做了一个更加强大的项目。
欢迎 star
项目介绍
卡卡字幕助手(VideoCaptioner)操作简单且无需高配置,支持网络调用和本地离线(支持调用GPU)两种方式进行语音识别,利用可用通过大语言模型进行字幕智能断句、校正、翻译,字幕视频全流程一键处理!为视频配上效果惊艳的字幕。
支持 VAD 、 人声分离 等实用功能
-
无需GPU即可使用强大的语音识别引擎,生成精准字幕
-
基于 LLM 的智能分割与断句,字幕阅读更自然流畅
-
AI字幕多线程优化与翻译,调整字幕格式、表达更地道专业
-
支持批量视频字幕合成,提升处理效率
-
直观的字幕编辑查看界面,支持实时预览和快捷编辑
-
消耗模型 Token 少,且内置基础 LLM 模型,保证开箱即用
界面预览
测试
全流程处理一个14分钟1080P的 B站英文 TED 视频,调用本地 Whisper 模型进行语音识别,使用 gpt-4o-mini
模型优化和翻译为中文,总共消耗时间约 4 分钟。
近后台计算,模型优化和翻译消耗费用不足 ¥0.01(以OpenAI官方价格为计算)
具体字幕和视频合成的效果的测试结果图片,请参考 TED视频测试
快速开始
Windows 用户
软件较为轻量,打包大小不足 60M,已集成所有必要环境,下载后可直接运行。
提示:每一个步骤均支持单独处理,均支持文件拖拽。
基本配置
1. LLM API 配置说明 (可选)
配置项 | 说明 |
---|---|
内置模型 | 软件内置基础大语言模型(gpt-4o-mini ),无需配置即可使用 |
API支持 | 支持标准 OpenAI API 格式。兼容 SiliconCloud、DeepSeek 、 Ollama 等。 配置方法请参考配置文档 |
推荐模型: 追求更高质量可选用 Claude-3.5-sonnet
或 gpt-4o
2. 本地 Whisper 语音识别配置(需软件内下载)
Whisper 版本有 WhisperCpp 和 fasterWhisper 两种,后者效果更好,都需要自行在软件内下载模型。
模型 | 磁盘空间 | 内存占用 | 说明 |
---|---|---|---|
Tiny | 75 MiB | ~273 MB | 转录很一般,仅用于测试 |
Small | 466 MiB | ~852 MB | 英文识别效果已经不错 |
Medium | 1.5 GiB | ~2.1 GB | 中文识别建议至少使用此版本 |
Large-v1/v2 | 2.9 GiB | ~3.9 GB | 效果好,配置允许情况推荐使用 |
Large-v3 | 2.9 GiB | ~3.9 GB | 社区反馈可能会出现幻觉/字幕重复问题 |
注:以上模型国内网络可直接在软件内下载;支持GPU也支持核显调用。
3. 文稿匹配
- 在"字幕优化与翻译"页面,包含"文稿匹配"选项,支持以下一种或者多种内容,辅助校正字幕和翻译:
类型 | 说明 | 填写示例 |
---|---|---|
术语表 | 专业术语、人名、特定词语的修正对照表 | 机器学习->Machine Learning 马斯克->Elon Musk 打call → 应援 图灵斑图 公交车悖论 |
原字幕文稿 | 视频的原有文稿或相关内容 | 完整的演讲稿、课程讲义等 |
修正要求 | 内容相关的具体修正要求 | 统一人称代词、规范专业术语等 填写内容相关的要求即可,示例参考 |
-
如果需要文稿进行字幕优化辅助,全流程处理时,先填写文稿信息,再进行开始任务处理
-
注意: 使用上下文参数量不高的小型LLM模型时,建议控制文稿内容在1千字内,如果使用上下文较大的模型,则可以适当增加文稿内容。
4. 语音识别接口说明
接口名称 | 支持语言 | 运行方式 | 说明 |
---|---|---|---|
B接口 | 仅支持中文、英文 | 在线 | 免费、速度较快 |
J接口 | 仅支持中文、英文 | 在线 | 免费、速度较快 |
WhisperCpp | 中文、日语、韩语、英文等 99 种语言,外语效果较好 | 本地 | 需要下载转录模型 中文建议medium以上模型 英文等使用较小模型即可达到不错效果。 |
fasterWhisper | 中文、英文等多99种语言,外语效果优秀,时间轴更准确 | 本地 | 需要下载程序和转录模型 支持CUDA,速度更快,转录准确。 建议优先使用 |
5. Cookie 配置说明
但你需要URL下载功能时,如果遇到以下情况:
-
下载的视频需要登录信息
-
只能下载较低分辨率的视频
-
网络条件较差时需要验证
- 请参考 Cookie 配置说明 获取Cookie信息,并将cookies.txt文件放置到软件的
AppData
目录下,即可正常下载高质量视频。
作者还是大三,个人能力和项目都还有许多不足,所以如果你在某些文件,看到很垃圾的代码,请多多包容。我会努力的。
项目还在不断完善中,如果在使用过程遇到的Bug,欢迎提交 Issue 和 Pull Request ~~