剪映的自动字幕要充会员,一年 ¥599。钱掏了,识别也就七成准:专有名词全错、语速一快整句漏掉、错别字一串,剩下的还得你一条条对着时间轴手补。花了钱,活还得自己干一半。
我嫌烦。正赶上 Claude 4.8 上市,我就去 ZenMux 上用上了它,写了个 skill 把这事彻底干掉:免费、全本地、还会自己通读纠错。录完口播把视频往 Claude 里一拖,说一句"加字幕",几分钟拿回成片,全程不打一个字。连"程序员"听成"程序儿"、"会议纪要"听成"会计记药"这种同音错,它都自己改对了。
原理解释:Whisper + Claude + ffmpeg
先介绍 Whisper(OpenAI 开源模型),这套流程里负责"听写"的耳朵。对很多人来说,这可能是你第一次在自己电脑上跑一个"模型"。一听"本地跑模型"就脑补显卡轰鸣、命令行报红?先深呼吸,完全不是那么回事。
说人话,Whisper 就是一个轻量的装在你电脑上、专门把语音听成文字的小程序:
- 不联网:视频不上传、不进云端,全在你这台机器上算完,隐私零担心。
- 不花钱:开源免费,跑多少次都不要钱。
- 不用你装:第一次跑时 Claude/Codex 自己把它(连识别模型)装好,你只管把视频拖进去。
写 skill 最容易犯的错,是上来就让 AI"做一个加字幕的工具",它会把识别、纠错、烧字全塞进一坨代码,跑不准还没法改。正确的第一步是先把活拆开,看每段谁最擅长。 加字幕拆下来正好三个角色:
- Whisper "耳朵":把声音听成文字,还一句一句记下每句的精确时间。
- Claude/Codex:校对 Whisper 的错误,沉浸式翻译。
- ffmpeg:把字幕永久印进画面,哪个平台都能看。
连起来就是一条流水线:
写 skill 的第一原则:按"谁最擅长"拆活,确定性的手艺活(抽音轨、烧字)交给脚本,需要理解判断的那一步(纠错、翻译)留给模型。想清楚这条,skill 就成了一半。
一个 Skill,三步用上
真就三步,命令总共一条:
① 安装 skill:
git clone https://github.com/limin112/video-subtitle ~/.claude/skills/video-subtitle
② 重启 Claude Code,让它认到这个新 skill。
**③ 把视频拖给它,说一句:"给这个视频加字幕。"(想要双语就说"配中英双语字幕"。)完事。
会不会卡在装环境上?不会。Whisper、识别模型、烧字用的完整版 ffmpeg,全是 Claude/Codex 第一次运行时替你下、替你装,你一条命令都不碰;它只会问你一句"要下个约 1.6GB 的模型,行吗",点头就行。装完往后每个视频秒进。
Skill 怎么写:五步走
Skill 本质就是一个文件夹,这个加字幕 skill 摊开就仨东西:
video-subtitle/
├── SKILL.md ← 唯一必需:给 Claude/Codex 的说明书 + 干活步骤
├── scripts/ ← 干活的小工具(抽音轨、排版、烧字这些手艺活)
└── references/ ← 深水区细节,用到再翻
你可能会问:我又不懂技术,怎么知道该用 Whisper、用 ffmpeg?这些全可以跟 AI 聊出来。只把需求一说:"想在本地把语音转成带时间点的字、还要能烧进画面",Claude/Codex 就把 whisper.cpp、ffmpeg 这些现成轮子挑出来、讲清楚各自干啥、还帮你比了几个方案。你负责说清楚要什么,技术选型交给它,这正是不懂代码也能写 skill 的原因。
照这五步,今晚就能搓出你第一个:
-
挑对题:找一件"已经有好工具、但中间缺一步判断"的活。加字幕就是:Whisper 能听、ffmpeg 能烧,就差中间'这词到底是哪个'的判断,正好 Claude/Codex 补上。
-
按"谁最擅长"拆角色:手艺活写脚本,需要读懂内容的判断留给模型现场做。
-
脚本全参数化别写死:能探测的探测、该当参数的当参数,换个视频不改一行代码。
-
把坑写进 SKILL.md:你踩过的每个坑(比如"Whisper 不吃视频、得先抽音轨""系统自带 ffmpeg 烧不了字、要装完整版")都写成一句"注意"。Skill 的本质,就是把你踩过的坑,固化成 Claude/Codex 下次的默认动作,你踩一次,它和所有下载的人都不再踩。
-
测一遍:对着 SKILL.md 自查一遍,再拿两三个真实视频跑,错了把现象贴回去让它改,三五轮就稳。
ZenMux 薅羊毛:便宜模型跑纠错
整条流水线里,Whisper、ffmpeg 都在本地白跑,唯一烧 token 的就是 Claude/Codex 纠错 + 翻译那一步。而这步用不上顶配模型,读懂内容、按格式吐回来就够,挑个便宜又够用的轻量款最划算。
在 ~/.zshrc 里加个小函数:
export ZENMUX_API_KEY="sk-ai-v1-xxx" # 换成你在 zenmux.ai 注册拿到的 key
claude-zenmux() {
ANTHROPIC_BASE_URL="https://zenmux.ai/api/anthropic" \
ANTHROPIC_AUTH_TOKEN="$ZENMUX_API_KEY" \
ANTHROPIC_API_KEY="" \
API_TIMEOUT_MS=30000000 \
claude "$@"
}
重开终端后用 claude-zenmux 代替 claude 启动,再跑加字幕,纠错/翻译那步就走 ZenMux 上你指定的便宜模型了。想换模型就改那三行的型号,哪个新模型免费就薅哪个。
这下 Whisper 免费、ffmpeg 免费、模型这步也挑便宜款,整条流水线几乎不花钱。
跑通了再往前一步:挑一件你天天重复、又"就差中间一步判断"的活,照那五步写出你自己的第一个 skill。