打字这件事,可能是人机交互里最后一块没有被 AI 颠覆的领域。微软研究院近期开源的 Vibing 正在尝试改变这个现状——它把语音输入变成了真正的生产工具,而不只是一个"语音转文字"的玩具。

核心使用方式

Vibing 的交互逻辑很直接:按下一个键,开口说话,结果自动复制到剪贴板,直接 Cmd/Ctrl+V 粘贴到任何地方。

  • Mac:Right Option 键开始/停止
  • Windows:Ctrl + Win 开始/停止
  • 录音结束后,AI 自动识别、自动重写、自动复制,全程无需切换窗口

整个流程:按下 → 说话 → 再按停止 → 剪贴板已满 → Cmd+V 粘贴

核心功能

Long-Form Voice Input:单次录音支持超过 5 分钟的连续语音输入。对于需要深度思考的长内容(写邮件、写文档、代码评审意见),不需要反复按录音键。

Personalized Hotwords:支持自定义热词,可以是自己的名字、项目术语、行业黑话,识别准确率更高。

Context-Aware Intent Understanding:不只是转写你说的字,而是理解你表达的意思,自动调整输出语气和格式。

Multilingual + Mixed-Language:支持 50+ 语言,无需手动切换,可以在同一句话里自由混用中英文。

LLM-Powered Rewriting:原始语音经过 LLM 重写,变成更流畅、语境更合适的正式文本。你说的是大白话,粘贴出来是经过润色的段落。

Translation:实时语音翻译,打破语言障碍。

技术底层

Vibing 基于微软的 VibeVoice 开源项目构建,这是一个专门针对长语音转写的端侧 ASR(自动语音识别)模型。

整个工具是一个跨平台桌面应用(macOS .dmg / Windows .exe),本地运行,不依赖云端语音服务——这意味着:

  • 无需联网也能使用
  • 录音内容不上传,隐私有保障
  • 延迟低,响应快

安装

macOS 安装注意事项(需要授权三个权限):

  • 辅助功能(Accessibility):全局快捷键响应
  • 屏幕录制(Screen Recording):录制屏幕用于交互
  • 麦克风(Microphone):收音

完整安装指南:Mac Setup Guide

版本macOSWindows
v0.1.0Download .dmgDownload .exe