VideoCaptioner(卡卡字幕助手)是基于 LLM 的智能字幕工具,支持AI 字幕生成、语音识别、断句校正、字幕翻译全流程处理,无需高配置,支持在线与本地离线模式,高效输出专业字幕,适配各类视频创作需求。
![图片[1]-卡卡字幕助手VideoCaptioner v1.3.3 | AI字幕生成工具 - 小宇爱分享-小宇爱分享](https://viptu.cn/wp-content/uploads/2025/12/202512022554-1024x624.webp)

核心介绍
工具定位
一款聚焦视频字幕全流程处理的智能工具,依托大语言模型(LLM)实现从语音识别到字幕合成的一站式服务,操作简单且兼容性强,无需高端硬件即可运行。
核心优势
- 优化 Whisper API 处理逻辑,支持分段并发转录与智能合并,提升处理效率;
- 采用 LLM 反馈循环机制,大幅降低字幕翻译、优化、断句的出错率;
- 内置 VAD 过滤、人声分离、字级时间戳、批量处理等实用功能,覆盖多场景需求。
配置说明
LLM API 配置
LLM 大模型用于字幕断句、优化及翻译,支持多种服务商配置:
- SiliconCloud:并发较低,线程建议设为 5 以下;
- DeepSeek:推荐
deepseek-v3模型,需注意服务稳定性; - OpenAI 兼容接口:可直接填写第三方服务商的 base_url 和 api_key;
- 推荐使用项目 LLM API 中转站(高并发、多模型可选),配置 BaseURL 与个人 API-key 即可拉满线程。
翻译配置
提供三种翻译方式,按需选择:
- LLM 大模型翻译(推荐):理解上下文能力强,翻译自然,需配置 LLM API;
- 微软翻译:速度快,默认启用,翻译质量一般;
- 谷歌翻译:速度快、质量较好,需具备访问谷歌的网络环境。
语音识别接口
| 接口名称 | 支持语言 | 运行方式 | 核心特点 |
|---|---|---|---|
| B 接口 / J 接口 | 中、英文 | 在线 | 免费、速度快 |
| WhisperCpp | 99 种语言(外语效果佳) | 本地 | 需下载模型,实际使用不稳定 |
| fasterWhisper(极力推荐) | 99 种语言 | 本地 | 支持 CUDA 加速,时间轴精准,转录质量高 |
本地 Whisper 模型选择
推荐Large-v2模型(稳定且质量优),各模型参数参考:
- Tiny(75MiB):仅适用于测试,转录效果一般;
- Small(466MiB):英文识别效果良好;
- Medium(1.5GiB):中文识别最低推荐版本;
- Large-v3(2.9GiB):可能存在字幕重复问题,谨慎选择。
文稿匹配
在 “字幕优化与翻译” 页面填写相关内容,辅助提升字幕质量:
- 术语表:专业词汇、人名等修正对照(如 “打 call-> 应援”);
- 原字幕文稿:完整演讲稿、讲义等参考文本;
- 修正要求:统一人称、规范术语等具体指令(小型 LLM 建议控制在 1 千字内)。
Cookie 配置
当 URL 下载遇到需登录、分辨率限制或验证问题时,获取目标平台 Cookie 并保存为cookies.txt,放置于软件安装目录的AppData文件夹,即可下载高质量视频。
核心功能亮点
多平台视频处理
支持 B 站、Youtube、抖音、小红书等国内外主流平台,可自动提取视频原有字幕进行二次优化,适配 1080P 等多种分辨率视频。
专业语音识别引擎
在线接口免费高速,效果媲美专业工具;本地模型支持离线使用,保护隐私,且 fasterWhisper 模型能提供超级准确的时间戳字幕。
字幕智能纠错
基于 LLM 上下文理解能力,自动修正错别字、优化标点符号,规范专业术语、代码片段及数学公式格式,同时优化断句逻辑,提升阅读流畅度。
高质量字幕翻译
采用 “翻译 – 反思 – 翻译” 迭代方法论,结合序列模糊匹配算法,确保译文自然地道且时间轴完全同步,兼顾准确性与连贯性。
字幕样式调整
提供科普风、新闻风、番剧风等丰富模板,支持 SRT、ASS、VTT、TXT 等多种格式输出,可自定义字体、字号、颜色、间距等参数,满足个性化需求。
使用说明
语音转录页面
- VAD 过滤:默认开启,过滤无人声片段,减少字幕幻觉;
- 音频分离:仅在视频嘈杂时开启,通过 MDX-Net 分离人声与背景音乐,提升识别质量。
字幕优化与翻译页面
- 智能断句:开启后生成字级时间戳,支持按句子或语义断句,适配不同观看需求;
- 字幕校正:自动优化英文大小写、格式错误等,提升字幕专业性;
- 反思翻译:需在设置中开启,提升翻译质量但会增加 Token 消耗与处理时间;
- 文稿提示:填写相关文本辅助大模型优化字幕,无特殊需求可忽略。
字幕视频合成页面
- 视频合成:开启后生成带字幕的视频,关闭则仅输出字幕文件;
- 软字幕:处理速度快,但需专用播放器支持,且样式为播放器默认白色,按需选择。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END









暂无评论内容