用你AI 用你AI
首页 AI资讯
用你AI 用你AI
全部
AI编程工具
AI聊天助手
AI浏览器
AI图像工具
AI Agent 智能体
AI音乐音频
AI漫剧短剧
首页 AI资讯

阿里通义千问开源Qwen3-TTS多码本AI模型

okynai 2026-01-22 22:47 24 阅读 AI资讯

技术架构突破:多码本编码器重塑语音生成路径

2026年1月22日,通义千问宣布开源Qwen3-TTS多码本全系列模型,包含1.7B(性能优先)与0.6B(效率优先)两个版本。其核心创新在于采用Qwen3-TTS-Tokenizer-12Hz多码本语音编码器,通过离散化表征实现对语音信号的高效压缩,在保留副语言信息与声学环境特征的同时,采用轻量级非DiT架构完成高保真还原。

该模型采用Dual-Track双轨建模技术,同时兼容流式与非流式生成模式。在流式生成场景下,模型可在接收单个字符后97毫秒内输出首包音频,端到端延迟较传统方案降低约60%,为实时交互场景提供技术基础。

image.png

多语言支持与智能控制:覆盖10种语言及方言变体

Qwen3-TTS支持中文、英语、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语等10种主流语言,并适配多种方言音色。其自然语言指令控制系统允许用户通过文本描述直接调控音色、情感、韵律等声学属性,模型能基于上下文语义自适应调整语气节奏,显著提升拟人化表达效果。

在噪声鲁棒性测试中,模型对输入文本中的拼写错误、符号混杂等干扰因素表现出较强容错能力,在长语音生成任务中(10分钟连续语音),中英文词错率分别稳定在2.36%与2.81%。

性能基准验证:三项核心任务达SOTA水平

根据官方评测数据,Qwen3-TTS在多项关键任务中超越国内外主流模型:

音色创造:在InstructTTS-Eval中指令遵循能力超越MiniMax-Voice-Design闭源模型;

音色控制:在InstructTTS-Eval中获得75.4%评分,支持单人多语言泛化;

音色克隆:在Seed-tts-eval中中英文克隆稳定性超越MiniMax、ElevenLabs等产品,说话人相似度达0.789.

Tokenizer在LibriSpeech测试集上取得PESQ宽带3.21、窄带3.68的成绩,STOI可懂度指标达0.96.表明其语音重构质量接近无损水平。

开源策略与生态布局:开发者可多通道获取资源

模型已同步开源至GitHub,并提供Qwen API体验接口。开发者可根据场景需求选择不同规格模型:1.7B版本适用于对音质要求极高的媒体制作、虚拟人交互等场景;0.6B版本则更适合物联网设备、实时翻译等计算资源受限的环境。此举有望降低语音生成技术的应用门槛,加速相关技术在智能硬件、内容创作等领域的普及。

用你AI(okyn.com)行业观察:流式生成能力或重构语音交互体验边界

Qwen3-TTS将“低延迟流式生成”作为核心技术指标,反映出语音合成技术正从“预制生成”向“实时交互”演进。其双轨架构在保证音质的同时破解了延迟瓶颈,为AI助手、实时翻译等场景带来突破可能。然而,如何在高并发场景下保持稳定性,以及应对极端语种、特殊口音的泛化能力,仍需通过大规模应用验证。开源策略虽有助于生态扩张,但需建立配套的版权治理机制,避免音色克隆技术的滥用风险。


标签: 阿里AI 通义千问 开源 Qwen3-TTS 语音AI大模型

相关文章

钉钉悟空AI测试邀请码获取攻略分享:怎么领取悟空邀请码
AI Agentai智能体
钉钉悟空AI测试邀请码获取攻略分享:怎么领取悟空邀请码
AI资讯 2026-03-17
2026钉钉2.0年度AI新品发布:“悟空”和AI耳机来袭
AI Agentai智能体
2026钉钉2.0年度AI新品发布:“悟空”和AI耳机来袭
AI资讯 2026-03-17
阿里QoderWork桌面Agent全面开放:人人可用的“数字同事”来了
AI Agentai智能体
阿里QoderWork桌面Agent全面开放:人人可用的“数字同事”来了
AI资讯 2026-03-03
阿里千问AI眼镜来了:1997元杀入“百镜大战”
阿里AI阿里千问
阿里千问AI眼镜来了:1997元杀入“百镜大战”
AI资讯 2026-03-02
Copyright © 2026 用你AI · 滇ICP备17007916号-1