Claude Code + ZenMux：用 Skill 自动加字幕，告别剪映会员

剪映的自动字幕要充会员，一年 ¥599。钱掏了，识别准确率大概七成：专有名词全错、语速一快整句漏掉、错别字一串，剩下的还得对着时间轴一条条手补。花了钱，活还得自己干一半。

实践哥 MinLi 嫌烦，正赶上 Claude 4.8 上市，他在 ZenMux 上用 Claude 写了一个 Skill，把这事彻底干掉：免费、全本地、还会自己通读纠错。录完口播把视频往 Claude 里一拖，说一句"加字幕"，几分钟拿回成片，全程不打一个字。连"程序员"听成"程序儿"、"会议纪要"听成"会计纪药"这种同音错，它都自己改对了。

原理：Whisper 的角色

Whisper 是 OpenAI 开源的把语音转成文字的模型，这套流程里负责"听写"的环节。对很多人来说，这可能是第一次在自己电脑上跑一个模型。一听"本地跑模型"就脑补显卡轰鸣、命令行报红——先深呼吸，完全不是那么回事。

说人话：Whisper 就是一个轻量的装在你电脑上、专门把语音听成文字的小程序：不联网（视频不上传、不进云端，全在你这台机器上算完，隐私零担心）、不花钱（开源免费，跑多少次都不要钱）、不用你装（第一次跑时 Claude/Codex 自己把它连识别模型装好，你只管把视频拖进去）。体感和装了个新 App 没区别。

三个 Skill 的分工

写 Skill 最容易犯的错，是上来就让 AI"做一个加字幕的工具"，它会把识别、纠错、烧字全塞进一坨代码，跑不准还没法改。

正确的第一步是先把工作拆开，看每段谁最擅长。加字幕拆下来正好三个角色：

Whisper负责听写，把音频流变成带时间戳的文本；Claude负责纠错，通读整段文本，根据语义把同音错字修对；FFmpeg负责把字幕文件和视频合成成最终成片。

三个工具各司其职，Skill 只是把它们串起来的编排逻辑。

彩蛋：ZenMux 调用 Claude Opus 制作和调用 Skill

ZenMux 是一个 AI Gateway，接入了 200+ 模型，包括 Claude Opus。用 Opus 来生成 Skill 的好处是它的上下文窗口够大——可以一次看完你所有的历史对话记录，理解你平时的说话习惯，让生成的 Skill 更贴合你的实际需求。

GitHub 链接和完整教程都在 MinLi 的原帖里，今晚就能自己做一个出来。

ZenMux 是 AI 模型聚合平台，支持一个账号调用 200+ 模型并统一管理用量账单。

原理：Whisper 的角色

三个 Skill 的分工

彩蛋：ZenMux 调用 Claude Opus 制作和调用 Skill

继续阅读