打字这件事,可能是人机交互里最后一块没有被 AI 颠覆的领域。微软研究院近期开源的 Vibing 正在尝试改变这个现状——它把语音输入变成了真正的生产工具,而不只是一个"语音转文字"的玩具。
核心使用方式
Vibing 的交互逻辑很直接:按下一个键,开口说话,结果自动复制到剪贴板,直接 Cmd/Ctrl+V 粘贴到任何地方。
- Mac:Right Option 键开始/停止
- Windows:Ctrl + Win 开始/停止
- 录音结束后,AI 自动识别、自动重写、自动复制,全程无需切换窗口
整个流程:按下 → 说话 → 再按停止 → 剪贴板已满 → Cmd+V 粘贴
核心功能
Long-Form Voice Input:单次录音支持超过 5 分钟的连续语音输入。对于需要深度思考的长内容(写邮件、写文档、代码评审意见),不需要反复按录音键。
Personalized Hotwords:支持自定义热词,可以是自己的名字、项目术语、行业黑话,识别准确率更高。
Context-Aware Intent Understanding:不只是转写你说的字,而是理解你表达的意思,自动调整输出语气和格式。
Multilingual + Mixed-Language:支持 50+ 语言,无需手动切换,可以在同一句话里自由混用中英文。
LLM-Powered Rewriting:原始语音经过 LLM 重写,变成更流畅、语境更合适的正式文本。你说的是大白话,粘贴出来是经过润色的段落。
Translation:实时语音翻译,打破语言障碍。
技术底层
Vibing 基于微软的 VibeVoice 开源项目构建,这是一个专门针对长语音转写的端侧 ASR(自动语音识别)模型。
整个工具是一个跨平台桌面应用(macOS .dmg / Windows .exe),本地运行,不依赖云端语音服务——这意味着:
- 无需联网也能使用
- 录音内容不上传,隐私有保障
- 延迟低,响应快
安装
macOS 安装注意事项(需要授权三个权限):
- 辅助功能(Accessibility):全局快捷键响应
- 屏幕录制(Screen Recording):录制屏幕用于交互
- 麦克风(Microphone):收音
完整安装指南:Mac Setup Guide
| 版本 | macOS | Windows |
|---|---|---|
| v0.1.0 | Download .dmg | Download .exe |
语音输入的瓶颈从来不是语音识别本身,而是"说出来的话往往是半成品"——Vibing 的 LLM rewriting 才是关键,它把粗糙的语音变成了可提交的文本。51 stars 说明这个阶段还早,但微软做端侧 ASR 的积累值得关注,尤其是对 Copilot 这类产品的长期影响。