阿里通义千问开源Qwen3-TTS多码本AI模型

okynai 2026-01-22 22:47 24 阅读 AI资讯

技术架构突破：多码本编码器重塑语音生成路径

2026年1月22日，通义千问宣布开源Qwen3-TTS多码本全系列模型，包含1.7B(性能优先)与0.6B(效率优先)两个版本。其核心创新在于采用Qwen3-TTS-Tokenizer-12Hz多码本语音编码器，通过离散化表征实现对语音信号的高效压缩，在保留副语言信息与声学环境特征的同时，采用轻量级非DiT架构完成高保真还原。

该模型采用Dual-Track双轨建模技术，同时兼容流式与非流式生成模式。在流式生成场景下，模型可在接收单个字符后97毫秒内输出首包音频，端到端延迟较传统方案降低约60%，为实时交互场景提供技术基础。

多语言支持与智能控制：覆盖10种语言及方言变体

Qwen3-TTS支持中文、英语、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语等10种主流语言，并适配多种方言音色。其自然语言指令控制系统允许用户通过文本描述直接调控音色、情感、韵律等声学属性，模型能基于上下文语义自适应调整语气节奏，显著提升拟人化表达效果。

在噪声鲁棒性测试中，模型对输入文本中的拼写错误、符号混杂等干扰因素表现出较强容错能力，在长语音生成任务中(10分钟连续语音)，中英文词错率分别稳定在2.36%与2.81%。

性能基准验证：三项核心任务达SOTA水平

根据官方评测数据，Qwen3-TTS在多项关键任务中超越国内外主流模型：

音色创造：在InstructTTS-Eval中指令遵循能力超越MiniMax-Voice-Design闭源模型;

音色控制：在InstructTTS-Eval中获得75.4%评分，支持单人多语言泛化;

音色克隆：在Seed-tts-eval中中英文克隆稳定性超越MiniMax、ElevenLabs等产品，说话人相似度达0.789.

Tokenizer在LibriSpeech测试集上取得PESQ宽带3.21、窄带3.68的成绩，STOI可懂度指标达0.96.表明其语音重构质量接近无损水平。

开源策略与生态布局：开发者可多通道获取资源

模型已同步开源至GitHub，并提供Qwen API体验接口。开发者可根据场景需求选择不同规格模型：1.7B版本适用于对音质要求极高的媒体制作、虚拟人交互等场景;0.6B版本则更适合物联网设备、实时翻译等计算资源受限的环境。此举有望降低语音生成技术的应用门槛，加速相关技术在智能硬件、内容创作等领域的普及。

用你AI（okyn.com）行业观察：流式生成能力或重构语音交互体验边界

Qwen3-TTS将“低延迟流式生成”作为核心技术指标，反映出语音合成技术正从“预制生成”向“实时交互”演进。其双轨架构在保证音质的同时破解了延迟瓶颈，为AI助手、实时翻译等场景带来突破可能。然而，如何在高并发场景下保持稳定性，以及应对极端语种、特殊口音的泛化能力，仍需通过大规模应用验证。开源策略虽有助于生态扩张，但需建立配套的版权治理机制，避免音色克隆技术的滥用风险。

相关文章