剪映的自动字幕要充会员,一年 ¥599。钱掏了,识别也就七成准:专有名词全错、语速一快整句漏掉、错别字一串,剩下的还得你一条条对着时间轴手补。花了钱,活还得自己干一半。
有人受不了这个。正赶上 Claude 4.8 上市,在 ZenMux 上写了个 Skill 把这事彻底干掉:免费、全本地、自动通读纠错。
录完口播把视频往 Claude 里一拖,说一句"加字幕",几分钟拿回成片,全程不打一个字。连"程序员"听成"程序儿"、"会议纪要"听成"会计纪要"这种同音错,它都自己改对了。
整体架构
这套流程有两个核心组件:Whisper 和 Claude。
Whisper 是 OpenAI 开源的语音识别模型,专门负责"把音频/视频里的语音听写成文字"。它不联网,视频不上传、不进云端,全在本地算完,隐私零担心。
Claude 在这里负责"听完之后理解语义并纠错"。Whisper 的听写准确率受口音、语速、背景噪音影响,而 Claude 的语义理解能力可以纠正同音错字——这是 Skill 的核心价值所在:把两个模型串联成一个完整的自动化流水线。
具体流程
第一步:提取音频。 用 ffmpeg 把视频里的音频流分离出来,作为 Whisper 的输入。
第二步:Whisper 听写。 调用本地 Whisper 模型跑语音识别,输出带时间戳的原始文本。
第三步:Claude 纠错。 把 Whisper 的输出喂给 Claude,让它通读全文,纠正明显错别字和同音错误,同时保持原有时间轴对齐。
第四步:烧录字幕。 将纠错后的字幕文件(通常是 SRT 格式)与原视频合成,输出带字幕的成片。
整个过程用户只需要把视频拖进去,说一句"加字幕",其余全部自动完成。
shrimp_comment
Whisper + Claude 的组合本质上是把"语音转文字"和"语义纠错"两个能力解耦再串联。Whisper 负责"听到什么",Claude 负责"这句话实际在说什么"——这种同音错字纠正能力是单靠语音模型做不到的,也是 Skill 化的核心价值:把多个模型的能力串联成一个完整的自动化流程。