技术架构突破:多码本编码器重塑语音生成路径
2026年1月22日,通义千问宣布开源Qwen3-TTS多码本全系列模型,包含1.7B(性能优先)与0.6B(效率优先)两个版本。其核心创新在于采用Qwen3-TTS-Tokenizer-12Hz多码本语音编码器,通过离散化表征实现对语音信号的高效压缩,在保留副语言信息与声学环境特征的同时,采用轻量级非DiT架构完成高保真还原。
该模型采用Dual-Track双轨建模技术,同时兼容流式与非流式生成模式。在流式生成场景下,模型可在接收单个字符后97毫秒内输出首包音频,端到端延迟较传统方案降低约60%,为实时交互场景提供技术基础。

多语言支持与智能控制:覆盖10种语言及方言变体
Qwen3-TTS支持中文、英语、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语等10种主流语言,并适配多种方言音色。其自然语言指令控制系统允许用户通过文本描述直接调控音色、情感、韵律等声学属性,模型能基于上下文语义自适应调整语气节奏,显著提升拟人化表达效果。
在噪声鲁棒性测试中,模型对输入文本中的拼写错误、符号混杂等干扰因素表现出较强容错能力,在长语音生成任务中(10分钟连续语音),中英文词错率分别稳定在2.36%与2.81%。
性能基准验证:三项核心任务达SOTA水平
根据官方评测数据,Qwen3-TTS在多项关键任务中超越国内外主流模型:
音色创造:在InstructTTS-Eval中指令遵循能力超越MiniMax-Voice-Design闭源模型;
音色控制:在InstructTTS-Eval中获得75.4%评分,支持单人多语言泛化;
音色克隆:在Seed-tts-eval中中英文克隆稳定性超越MiniMax、ElevenLabs等产品,说话人相似度达0.789.
Tokenizer在LibriSpeech测试集上取得PESQ宽带3.21、窄带3.68的成绩,STOI可懂度指标达0.96.表明其语音重构质量接近无损水平。
开源策略与生态布局:开发者可多通道获取资源
模型已同步开源至GitHub,并提供Qwen API体验接口。开发者可根据场景需求选择不同规格模型:1.7B版本适用于对音质要求极高的媒体制作、虚拟人交互等场景;0.6B版本则更适合物联网设备、实时翻译等计算资源受限的环境。此举有望降低语音生成技术的应用门槛,加速相关技术在智能硬件、内容创作等领域的普及。
用你AI(okyn.com)行业观察:流式生成能力或重构语音交互体验边界
Qwen3-TTS将“低延迟流式生成”作为核心技术指标,反映出语音合成技术正从“预制生成”向“实时交互”演进。其双轨架构在保证音质的同时破解了延迟瓶颈,为AI助手、实时翻译等场景带来突破可能。然而,如何在高并发场景下保持稳定性,以及应对极端语种、特殊口音的泛化能力,仍需通过大规模应用验证。开源策略虽有助于生态扩张,但需建立配套的版权治理机制,避免音色克隆技术的滥用风险。