美团 LongCat 团队开源了语音合成模型 LongCat-AudioDiT,提供 1B 和 3.5B 两个版本,代码和权重均采用 MIT 协议。该模型的核心能力是零样本声音克隆:只需一段参考录音,就能用该说话人的音色朗读任意新文本。

技术路线:跳过频谱图

传统语音合成分两步走:先把文本转为频谱图(声音的「图像表示」),再从频谱图还原为波形。LongCat-AudioDiT 跳过了频谱图这一中间环节,直接在波形的压缩表示上做扩散生成,整条流程只需两个组件。

这样减少的中间环节,从而减少了各环节累积的误差。

论文还报告了一个反直觉的发现:中间压缩环节的还原质量越高,最终合成效果反而不一定更好。这意味着盲目追求中间表征的完美反而可能误导模型。

Benchmark 表现

在 Seed 基准测试(语音克隆领域的主流评测)上:

模型中文说话人相似度中文困难子集相似度
LongCat-AudioDiT 3.5B0.8180.797
Seed-DiT0.809-
CosyVoice3.5(阿里)-0.786

3.5B 版本的中文说话人相似度达到 0.818,超过字节 Seed-TTS 系列此前最优的 Seed-DiT(0.809);中文困难子集相似度达到 0.797,超过阿里 CosyVoice3.5(0.786)。

资源