一个 Skill 自动加字幕：ByeBye 剪映会员

剪映的自动字幕要充会员，一年 ¥599。钱掏了，识别也就七成准：专有名词全错、语速一快整句漏掉、错别字一串，剩下的还得你一条条对着时间轴手补。花了钱，活还得自己干一半。

我嫌烦。正赶上 Claude 4.8 上市，我就去 ZenMux 上用上了它，写了个 skill 把这事彻底干掉：免费、全本地、还会自己通读纠错。录完口播把视频往 Claude 里一拖，说一句"加字幕"，几分钟拿回成片，全程不打一个字。连"程序员"听成"程序儿"、"会议纪要"听成"会计记药"这种同音错，它都自己改对了。

原理解释：Whisper + Claude + ffmpeg

先介绍 Whisper（OpenAI 开源模型），这套流程里负责"听写"的耳朵。对很多人来说，这可能是你第一次在自己电脑上跑一个"模型"。一听"本地跑模型"就脑补显卡轰鸣、命令行报红？先深呼吸，完全不是那么回事。

说人话，Whisper 就是一个轻量的装在你电脑上、专门把语音听成文字的小程序：

不联网：视频不上传、不进云端，全在你这台机器上算完，隐私零担心。
不花钱：开源免费，跑多少次都不要钱。
不用你装：第一次跑时 Claude/Codex 自己把它（连识别模型）装好，你只管把视频拖进去。

写 skill 最容易犯的错，是上来就让 AI"做一个加字幕的工具"，它会把识别、纠错、烧字全塞进一坨代码，跑不准还没法改。正确的第一步是先把活拆开，看每段谁最擅长。 加字幕拆下来正好三个角色：

Whisper "耳朵"：把声音听成文字，还一句一句记下每句的精确时间。
Claude/Codex：校对 Whisper 的错误，沉浸式翻译。
ffmpeg：把字幕永久印进画面，哪个平台都能看。

连起来就是一条流水线：

写 skill 的第一原则：按"谁最擅长"拆活，确定性的手艺活（抽音轨、烧字）交给脚本，需要理解判断的那一步（纠错、翻译）留给模型。想清楚这条，skill 就成了一半。

一个 Skill，三步用上

真就三步，命令总共一条：

① 安装 skill：

git clone https://github.com/limin112/video-subtitle ~/.claude/skills/video-subtitle

② 重启 Claude Code，让它认到这个新 skill。

**③ 把视频拖给它，说一句："给这个视频加字幕。"（想要双语就说"配中英双语字幕"。）完事。

会不会卡在装环境上？不会。Whisper、识别模型、烧字用的完整版 ffmpeg，全是 Claude/Codex 第一次运行时替你下、替你装，你一条命令都不碰；它只会问你一句"要下个约 1.6GB 的模型，行吗"，点头就行。装完往后每个视频秒进。

Skill 怎么写：五步走

Skill 本质就是一个文件夹，这个加字幕 skill 摊开就仨东西：

video-subtitle/
├── SKILL.md          ← 唯一必需：给 Claude/Codex 的说明书 + 干活步骤
├── scripts/          ← 干活的小工具（抽音轨、排版、烧字这些手艺活）
└── references/      ← 深水区细节，用到再翻

你可能会问：我又不懂技术，怎么知道该用 Whisper、用 ffmpeg？这些全可以跟 AI 聊出来。只把需求一说："想在本地把语音转成带时间点的字、还要能烧进画面"，Claude/Codex 就把 whisper.cpp、ffmpeg 这些现成轮子挑出来、讲清楚各自干啥、还帮你比了几个方案。你负责说清楚要什么，技术选型交给它，这正是不懂代码也能写 skill 的原因。

照这五步，今晚就能搓出你第一个：

挑对题：找一件"已经有好工具、但中间缺一步判断"的活。加字幕就是：Whisper 能听、ffmpeg 能烧，就差中间'这词到底是哪个'的判断，正好 Claude/Codex 补上。
按"谁最擅长"拆角色：手艺活写脚本，需要读懂内容的判断留给模型现场做。
脚本全参数化别写死：能探测的探测、该当参数的当参数，换个视频不改一行代码。
把坑写进 SKILL.md：你踩过的每个坑（比如"Whisper 不吃视频、得先抽音轨""系统自带 ffmpeg 烧不了字、要装完整版"）都写成一句"注意"。Skill 的本质，就是把你踩过的坑，固化成 Claude/Codex 下次的默认动作，你踩一次，它和所有下载的人都不再踩。
测一遍：对着 SKILL.md 自查一遍，再拿两三个真实视频跑，错了把现象贴回去让它改，三五轮就稳。

ZenMux 薅羊毛：便宜模型跑纠错

整条流水线里，Whisper、ffmpeg 都在本地白跑，唯一烧 token 的就是 Claude/Codex 纠错 + 翻译那一步。而这步用不上顶配模型，读懂内容、按格式吐回来就够，挑个便宜又够用的轻量款最划算。

在 ~/.zshrc 里加个小函数：

export ZENMUX_API_KEY="sk-ai-v1-xxx"  # 换成你在 zenmux.ai 注册拿到的 key

claude-zenmux() {
  ANTHROPIC_BASE_URL="https://zenmux.ai/api/anthropic" \
  ANTHROPIC_AUTH_TOKEN="$ZENMUX_API_KEY" \
  ANTHROPIC_API_KEY="" \
  API_TIMEOUT_MS=30000000 \
  claude "$@"
}

重开终端后用 claude-zenmux 代替 claude 启动，再跑加字幕，纠错/翻译那步就走 ZenMux 上你指定的便宜模型了。想换模型就改那三行的型号，哪个新模型免费就薅哪个。

这下 Whisper 免费、ffmpeg 免费、模型这步也挑便宜款，整条流水线几乎不花钱。

跑通了再往前一步：挑一件你天天重复、又"就差中间一步判断"的活，照那五步写出你自己的第一个 skill。

原理解释：Whisper + Claude + ffmpeg

一个 Skill，三步用上

Skill 怎么写：五步走

ZenMux 薅羊毛：便宜模型跑纠错

继续阅读