剪映的自动字幕要充会员,一年 ¥599。钱掏了,识别准确率大概七成:专有名词全错、语速一快整句漏掉、错别字一串,剩下的还得对着时间轴一条条手补。花了钱,活还得自己干一半。
实践哥 MinLi 嫌烦,正赶上 Claude 4.8 上市,他在 ZenMux 上用 Claude 写了一个 Skill,把这事彻底干掉:免费、全本地、还会自己通读纠错。录完口播把视频往 Claude 里一拖,说一句"加字幕",几分钟拿回成片,全程不打一个字。连"程序员"听成"程序儿"、"会议纪要"听成"会计纪药"这种同音错,它都自己改对了。
原理:Whisper 的角色
Whisper 是 OpenAI 开源的把语音转成文字的模型,这套流程里负责"听写"的环节。对很多人来说,这可能是第一次在自己电脑上跑一个模型。一听"本地跑模型"就脑补显卡轰鸣、命令行报红——先深呼吸,完全不是那么回事。
说人话:Whisper 就是一个轻量的装在你电脑上、专门把语音听成文字的小程序:不联网(视频不上传、不进云端,全在你这台机器上算完,隐私零担心)、不花钱(开源免费,跑多少次都不要钱)、不用你装(第一次跑时 Claude/Codex 自己把它连识别模型装好,你只管把视频拖进去)。体感和装了个新 App 没区别。
三个 Skill 的分工
写 Skill 最容易犯的错,是上来就让 AI"做一个加字幕的工具",它会把识别、纠错、烧字全塞进一坨代码,跑不准还没法改。
正确的第一步是先把工作拆开,看每段谁最擅长。加字幕拆下来正好三个角色:
Whisper负责听写,把音频流变成带时间戳的文本;Claude负责纠错,通读整段文本,根据语义把同音错字修对;FFmpeg负责把字幕文件和视频合成成最终成片。
三个工具各司其职,Skill 只是把它们串起来的编排逻辑。
彩蛋:ZenMux 调用 Claude Opus 制作和调用 Skill
ZenMux 是一个 AI Gateway,接入了 200+ 模型,包括 Claude Opus。用 Opus 来生成 Skill 的好处是它的上下文窗口够大——可以一次看完你所有的历史对话记录,理解你平时的说话习惯,让生成的 Skill 更贴合你的实际需求。
GitHub 链接和完整教程都在 MinLi 的原帖里,今晚就能自己做一个出来。
ZenMux 是 AI 模型聚合平台,支持一个账号调用 200+ 模型并统一管理用量账单。