Mistral 进军语音：Voxtral TTS + Voxtral Transcribe 2 双发

Mistral 的语音布局

Mistral 在同一天发布了两款方向相反的语音模型：Voxtral TTS（文字转语音）和 Voxtral Transcribe 2（语音转文字）。两款产品覆盖语音 Agent pipeline 的输入和输出两端。

Voxtral TTS

核心能力

Voxtral TTS 主打情感表达和跨语言声音克隆：

9 种语言：英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语、阿拉伯语
声音克隆：最少 3 秒参考音频即可适配说话人的风格、节奏和情感特征
零样本跨语言克隆：用一个语言的参考音频生成另一个语言的语音

技术架构

三层结构：

3.4B 参数 transformer decoder 骨干网络
390M 参数流匹配声学 transformer
300M 参数神经音频编解码器

性能指标：

10 秒语音的首字延迟：70ms
实时系数：约 9.7x
支持最长两分钟的原生生成，更长内容通过智能交错处理

人工评测显示，Voxtral TTS 在自然度上超过 ElevenLabs Flash v2.5，与 ElevenLabs v3 质量持平。

定价与授权

API 价格：$0.016 / 千字符
权重开放：CC BY NC 4.0（限非商业使用）
可用渠道：Mistral Studio、Le Chat、HuggingFace

Voxtral Transcribe 2

两款型号

Voxtral Transcribe 2 包含两个独立模型：

Voxtral Mini Transcribe V2：批量转录，适合离线处理长音频
Voxtral Realtime：流式架构，sub-200ms 延迟，4B 参数，适合实时和边缘部署

核心功能

说话人分割（Diarization）：生成带说话人标签和精确时间戳的转录
上下文偏置（Context Biasing）：最多 100 个词/短语引导技术术语识别准确率
词级时间戳：每个词的精确起止时间
13 种语言：英、中、印地、西班牙、阿拉伯、法、葡、俄、德、日、韩、意、荷
噪声鲁棒性：在复杂声学环境下正常工作
超长音频：单次请求支持最长 3 小时

基准表现

FLEURS 基准词错率：约 4%
超过 GPT-4o mini、Gemini 2.5 Flash、Assembly、Deepgram
比 ElevenLabs Scribe v2 处理速度快 3 倍，成本降至 1/5

定价与授权

Voxtral Mini Transcribe V2：$0.003 / 分钟
Voxtral Realtime：$0.006 / 分钟（Apache 2.0 开源权重）

语音 Agent Pipeline 的意义

TTS 和 STT 同日发布，加上 Mistral 此前已有的文本模型，Mistral 现在拥有构建完整语音 Agent 所需的全部组件：语言理解、文字转语音、语音转文字。Voxtral Realtime 的 Apache 2.0 开源也意味着开发者可以在自有基础设施上部署实时语音 Agent，而不依赖云端 API。

Mistral 的语音布局

Voxtral TTS

核心能力

技术架构

定价与授权

Voxtral Transcribe 2

两款型号

核心功能

基准表现

定价与授权

语音 Agent Pipeline 的意义

继续阅读