美团开源语音克隆 LongCat-AudioDiT：中文相似度超 Seed-TTS

美团 LongCat 团队开源了语音合成模型 LongCat-AudioDiT，提供 1B 和 3.5B 两个版本，代码和权重均采用 MIT 协议。该模型的核心能力是零样本声音克隆：只需一段参考录音，就能用该说话人的音色朗读任意新文本。

技术路线：跳过频谱图

传统语音合成分两步走：先把文本转为频谱图（声音的「图像表示」），再从频谱图还原为波形。LongCat-AudioDiT 跳过了频谱图这一中间环节，直接在波形的压缩表示上做扩散生成，整条流程只需两个组件。

这样减少的中间环节，从而减少了各环节累积的误差。

论文还报告了一个反直觉的发现：中间压缩环节的还原质量越高，最终合成效果反而不一定更好。这意味着盲目追求中间表征的完美反而可能误导模型。

在 Seed 基准测试（语音克隆领域的主流评测）上：

3.5B 版本的中文说话人相似度达到 0.818，超过字节 Seed-TTS 系列此前最优的 Seed-DiT（0.809）；中文困难子集相似度达到 0.797，超过阿里 CosyVoice3.5（0.786）。