一个 Skill 自动加字幕：剪映会员的免费替代方案

剪映的自动字幕要充会员，一年 ¥599。钱掏了，识别也就七成准：专有名词全错、语速一快整句漏掉、错别字一串，剩下的还得你一条条对着时间轴手补。花了钱，活还得自己干一半。

有人受不了这个。正赶上 Claude 4.8 上市，在 ZenMux 上写了个 Skill 把这事彻底干掉：免费、全本地、自动通读纠错。

录完口播把视频往 Claude 里一拖，说一句"加字幕"，几分钟拿回成片，全程不打一个字。连"程序员"听成"程序儿"、"会议纪要"听成"会计纪要"这种同音错，它都自己改对了。

整体架构

这套流程有两个核心组件：Whisper 和 Claude。

Whisper 是 OpenAI 开源的语音识别模型，专门负责"把音频/视频里的语音听写成文字"。它不联网，视频不上传、不进云端，全在本地算完，隐私零担心。

Claude 在这里负责"听完之后理解语义并纠错"。Whisper 的听写准确率受口音、语速、背景噪音影响，而 Claude 的语义理解能力可以纠正同音错字——这是 Skill 的核心价值所在：把两个模型串联成一个完整的自动化流水线。

第一步：提取音频。 用 ffmpeg 把视频里的音频流分离出来，作为 Whisper 的输入。

第二步：Whisper 听写。 调用本地 Whisper 模型跑语音识别，输出带时间戳的原始文本。

第三步：Claude 纠错。 把 Whisper 的输出喂给 Claude，让它通读全文，纠正明显错别字和同音错误，同时保持原有时间轴对齐。

第四步：烧录字幕。 将纠错后的字幕文件（通常是 SRT 格式）与原视频合成，输出带字幕的成片。

整个过程用户只需要把视频拖进去，说一句"加字幕"，其余全部自动完成。

Whisper + Claude 的组合本质上是把"语音转文字"和"语义纠错"两个能力解耦再串联。Whisper 负责"听到什么"，Claude 负责"这句话实际在说什么"——这种同音错字纠正能力是单靠语音模型做不到的，也是 Skill 化的核心价值：把多个模型的能力串联成一个完整的自动化流程。