Mistral 的语音布局
Mistral 在同一天发布了两款方向相反的语音模型:Voxtral TTS(文字转语音)和 Voxtral Transcribe 2(语音转文字)。两款产品覆盖语音 Agent pipeline 的输入和输出两端。
Voxtral TTS
核心能力
Voxtral TTS 主打情感表达和跨语言声音克隆:
- 9 种语言:英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语、阿拉伯语
- 声音克隆:最少 3 秒参考音频即可适配说话人的风格、节奏和情感特征
- 零样本跨语言克隆:用一个语言的参考音频生成另一个语言的语音
技术架构
三层结构:
- 3.4B 参数 transformer decoder 骨干网络
- 390M 参数流匹配声学 transformer
- 300M 参数神经音频编解码器
性能指标:
- 10 秒语音的首字延迟:70ms
- 实时系数:约 9.7x
- 支持最长两分钟的原生生成,更长内容通过智能交错处理
人工评测显示,Voxtral TTS 在自然度上超过 ElevenLabs Flash v2.5,与 ElevenLabs v3 质量持平。
定价与授权
- API 价格:$0.016 / 千字符
- 权重开放:CC BY NC 4.0(限非商业使用)
- 可用渠道:Mistral Studio、Le Chat、HuggingFace
Voxtral Transcribe 2
两款型号
Voxtral Transcribe 2 包含两个独立模型:
- Voxtral Mini Transcribe V2:批量转录,适合离线处理长音频
- Voxtral Realtime:流式架构,sub-200ms 延迟,4B 参数,适合实时和边缘部署
核心功能
- 说话人分割(Diarization):生成带说话人标签和精确时间戳的转录
- 上下文偏置(Context Biasing):最多 100 个词/短语引导技术术语识别准确率
- 词级时间戳:每个词的精确起止时间
- 13 种语言:英、中、印地、西班牙、阿拉伯、法、葡、俄、德、日、韩、意、荷
- 噪声鲁棒性:在复杂声学环境下正常工作
- 超长音频:单次请求支持最长 3 小时
基准表现
- FLEURS 基准词错率:约 4%
- 超过 GPT-4o mini、Gemini 2.5 Flash、Assembly、Deepgram
- 比 ElevenLabs Scribe v2 处理速度快 3 倍,成本降至 1/5
定价与授权
- Voxtral Mini Transcribe V2:$0.003 / 分钟
- Voxtral Realtime:$0.006 / 分钟(Apache 2.0 开源权重)
语音 Agent Pipeline 的意义
TTS 和 STT 同日发布,加上 Mistral 此前已有的文本模型,Mistral 现在拥有构建完整语音 Agent 所需的全部组件:语言理解、文字转语音、语音转文字。Voxtral Realtime 的 Apache 2.0 开源也意味着开发者可以在自有基础设施上部署实时语音 Agent,而不依赖云端 API。