返回 FEED
OTHER2026-05-29

一个 Skill 自动加字幕:ByeBye 剪映会员

剪映的自动字幕要充会员,一年 ¥599。钱掏了,识别也就七成准:专有名词全错、语速一快整句漏掉、错别字一串,剩下的还得你一条条对着时间轴手补。花了钱,活还得自己干一半。

我嫌烦。正赶上 Claude 4.8 上市,我就去 ZenMux 上用上了它,写了个 skill 把这事彻底干掉:免费、全本地、还会自己通读纠错。录完口播把视频往 Claude 里一拖,说一句"加字幕",几分钟拿回成片,全程不打一个字。连"程序员"听成"程序儿"、"会议纪要"听成"会计记药"这种同音错,它都自己改对了。

原理解释:Whisper + Claude + ffmpeg

先介绍 Whisper(OpenAI 开源模型),这套流程里负责"听写"的耳朵。对很多人来说,这可能是你第一次在自己电脑上跑一个"模型"。一听"本地跑模型"就脑补显卡轰鸣、命令行报红?先深呼吸,完全不是那么回事。

说人话,Whisper 就是一个轻量的装在你电脑上、专门把语音听成文字的小程序:

  • 不联网:视频不上传、不进云端,全在你这台机器上算完,隐私零担心。
  • 不花钱:开源免费,跑多少次都不要钱。
  • 不用你装:第一次跑时 Claude/Codex 自己把它(连识别模型)装好,你只管把视频拖进去。

写 skill 最容易犯的错,是上来就让 AI"做一个加字幕的工具",它会把识别、纠错、烧字全塞进一坨代码,跑不准还没法改。正确的第一步是先把活拆开,看每段谁最擅长。 加字幕拆下来正好三个角色:

  • Whisper "耳朵":把声音听成文字,还一句一句记下每句的精确时间。
  • Claude/Codex:校对 Whisper 的错误,沉浸式翻译。
  • ffmpeg:把字幕永久印进画面,哪个平台都能看。

连起来就是一条流水线:

写 skill 的第一原则:按"谁最擅长"拆活,确定性的手艺活(抽音轨、烧字)交给脚本,需要理解判断的那一步(纠错、翻译)留给模型。想清楚这条,skill 就成了一半。

一个 Skill,三步用上

真就三步,命令总共一条:

① 安装 skill:

git clone https://github.com/limin112/video-subtitle ~/.claude/skills/video-subtitle

② 重启 Claude Code,让它认到这个新 skill。

**③ 把视频拖给它,说一句:"给这个视频加字幕。"(想要双语就说"配中英双语字幕"。)完事。

会不会卡在装环境上?不会。Whisper、识别模型、烧字用的完整版 ffmpeg,全是 Claude/Codex 第一次运行时替你下、替你装,你一条命令都不碰;它只会问你一句"要下个约 1.6GB 的模型,行吗",点头就行。装完往后每个视频秒进。

Skill 怎么写:五步走

Skill 本质就是一个文件夹,这个加字幕 skill 摊开就仨东西:

video-subtitle/
├── SKILL.md          ← 唯一必需:给 Claude/Codex 的说明书 + 干活步骤
├── scripts/          ← 干活的小工具(抽音轨、排版、烧字这些手艺活)
└── references/      ← 深水区细节,用到再翻

你可能会问:我又不懂技术,怎么知道该用 Whisper、用 ffmpeg?这些全可以跟 AI 聊出来。只把需求一说:"想在本地把语音转成带时间点的字、还要能烧进画面",Claude/Codex 就把 whisper.cpp、ffmpeg 这些现成轮子挑出来、讲清楚各自干啥、还帮你比了几个方案。你负责说清楚要什么,技术选型交给它,这正是不懂代码也能写 skill 的原因。

照这五步,今晚就能搓出你第一个:

  1. 挑对题:找一件"已经有好工具、但中间缺一步判断"的活。加字幕就是:Whisper 能听、ffmpeg 能烧,就差中间'这词到底是哪个'的判断,正好 Claude/Codex 补上。

  2. 按"谁最擅长"拆角色:手艺活写脚本,需要读懂内容的判断留给模型现场做。

  3. 脚本全参数化别写死:能探测的探测、该当参数的当参数,换个视频不改一行代码。

  4. 把坑写进 SKILL.md:你踩过的每个坑(比如"Whisper 不吃视频、得先抽音轨""系统自带 ffmpeg 烧不了字、要装完整版")都写成一句"注意"。Skill 的本质,就是把你踩过的坑,固化成 Claude/Codex 下次的默认动作,你踩一次,它和所有下载的人都不再踩。

  5. 测一遍:对着 SKILL.md 自查一遍,再拿两三个真实视频跑,错了把现象贴回去让它改,三五轮就稳。

ZenMux 薅羊毛:便宜模型跑纠错

整条流水线里,Whisper、ffmpeg 都在本地白跑,唯一烧 token 的就是 Claude/Codex 纠错 + 翻译那一步。而这步用不上顶配模型,读懂内容、按格式吐回来就够,挑个便宜又够用的轻量款最划算。

~/.zshrc 里加个小函数:

export ZENMUX_API_KEY="sk-ai-v1-xxx"  # 换成你在 zenmux.ai 注册拿到的 key

claude-zenmux() {
  ANTHROPIC_BASE_URL="https://zenmux.ai/api/anthropic" \
  ANTHROPIC_AUTH_TOKEN="$ZENMUX_API_KEY" \
  ANTHROPIC_API_KEY="" \
  API_TIMEOUT_MS=30000000 \
  claude "$@"
}

重开终端后用 claude-zenmux 代替 claude 启动,再跑加字幕,纠错/翻译那步就走 ZenMux 上你指定的便宜模型了。想换模型就改那三行的型号,哪个新模型免费就薅哪个。

这下 Whisper 免费、ffmpeg 免费、模型这步也挑便宜款,整条流水线几乎不花钱。

跑通了再往前一步:挑一件你天天重复、又"就差中间一步判断"的活,照那五步写出你自己的第一个 skill。