NueSpeak Apex | NueForm Docs

NueSpeak Apex 是 NueForm 自研的文本转语音引擎，专为对话式表单交互而设计。它同时为电话语音代理和浏览器内 TTS 朗读功能提供支持。

架构

NueSpeak Apex 是一个基于 Transformer 的神经 TTS 模型，采用多尺度生成架构。它通过分层管道处理文本——语义理解、韵律预测和声学波形合成——实时生成自然、类人的语音。

规格	值
模型参数量	~18 亿
Token 生成速率	11 Hz
支持语言	英语、西班牙语、法语、中文、日语、韩语、印地语、阿拉伯语及 20+ 其他语言
语音克隆	零样本，仅需 ≥10 秒音频
延迟（首次音频时间）	< 280 ms（中位数）
实时因子	0.04x（生成速度比实时快 25 倍）
音频输出	24 kHz, 16-bit PCM
流式传输	基于分块的渐进式传输

NueSpeak Apex 能够从 10 秒或更长的单个音频样本中复制说话者的声音特征。克隆管道提取以下信息：

无需微调。克隆的声音在样本处理后即可使用（通常 2–4 秒）。

除了克隆之外，NueSpeak Apex 还支持基于文本的语音设计。用自然语言描述你想要的声音——例如，"一个温暖、专业的女性声音，带有轻微的英国口音"——引擎会合成匹配的语音配置。

该引擎提供对语音韵律的精细控制：

NueSpeak Apex 原生支持 28+ 种语言，无需切换模型。引擎自动检测输入语言并应用适当的音素映射、韵律规则和口音模型。支持单句中的语码转换。

对于电话通话，NueSpeak Apex 应用额外的处理：

在典型负载下的生产基础设施上测量：

特性	NueSpeak Apex	云端 TTS（典型）	开源 TTS
延迟	< 280 ms	300–800 ms	500–2000 ms
语音克隆	零样本	需要微调	各异
多语言	28+ 种语言	40+ 种语言	5–15 种语言
流式传输	支持	部分支持	少见
MOS 评分	4.32	4.0–4.3	3.5–4.0

NueSpeak Apex 深度集成到 NueForm 平台中：

NueSpeak Apex 以 24 kHz 采样率生成录音室品质的语音。对于电话，音频被转码为 8 kHz μ-law 以实现最佳的电话网络传输，同时保持可懂度。

该模型擅长：