NueSpeak Apex 是 NueForm 自研的文本转语音引擎,专为对话式表单交互而设计。它同时为电话语音代理和浏览器内 TTS 朗读功能提供支持。
架构
NueSpeak Apex 是一个基于 Transformer 的神经 TTS 模型,采用多尺度生成架构。它通过分层管道处理文本——语义理解、韵律预测和声学波形合成——实时生成自然、类人的语音。
核心规格
| 规格 | 值 |
|---|---|
| 模型参数量 | ~18 亿 |
| Token 生成速率 | 11 Hz |
| 支持语言 | 英语、西班牙语、法语、中文、日语、韩语、印地语、阿拉伯语及 20+ 其他语言 |
| 语音克隆 | 零样本,仅需 ≥10 秒音频 |
| 延迟(首次音频时间) | < 280 ms(中位数) |
| 实时因子 | 0.04x(生成速度比实时快 25 倍) |
| 音频输出 | 24 kHz, 16-bit PCM |
| 流式传输 | 基于分块的渐进式传输 |
功能
零样本语音克隆
NueSpeak Apex 能够从 10 秒或更长的单个音频样本中复制说话者的声音特征。克隆管道提取以下信息:
- 音色 — 声音独特的音调品质
- 音高轮廓 — 自然的语调模式
- 语速 — 基础节奏和韵律
- 口音特征 — 地区性发音标记
无需微调。克隆的声音在样本处理后即可使用(通常 2–4 秒)。
语音设计
除了克隆之外,NueSpeak Apex 还支持基于文本的语音设计。用自然语言描述你想要的声音——例如,"一个温暖、专业的女性声音,带有轻微的英国口音"——引擎会合成匹配的语音配置。
韵律控制
该引擎提供对语音韵律的精细控制:
- 语速 — 可在 0.5× 到 2.0× 正常速率之间调节
- 重音 — 标记需要强调的单词或短语
- 停顿 — 插入可配置时长的自然停顿
- 情感 — 微妙的情感色彩(中性、温暖、活力、平静)
多语言合成
NueSpeak Apex 原生支持 28+ 种语言,无需切换模型。引擎自动检测输入语言并应用适当的音素映射、韵律规则和口音模型。支持单句中的语码转换。
电话优化
对于电话通话,NueSpeak Apex 应用额外的处理:
- 兼容 8 kHz / μ-law 编码,适用于 PSTN 传输
- 底噪管理 — 最小化电话扬声器上可听到的伪影
- 自适应节奏 — 在电话场景中略微放慢传输速度以提高理解力
- 缓存 — 生成的音频按文本段缓存,消除冗余合成
性能
基准测试
在典型负载下的生产基础设施上测量:
| 指标 | 值 |
|---|---|
| 平均意见得分 (MOS) | 4.32 / 5.0 |
| 字符错误率(说话者相似度) | 3.1% |
| 首字节时间 (P50) | 245 ms |
| 首字节时间 (P95) | 410 ms |
| 吞吐量 | 每实例 4 个并发流 |
| 内存占用 | ~3.6 GB VRAM |
与行业标准对比
| 特性 | NueSpeak Apex | 云端 TTS(典型) | 开源 TTS |
|---|---|---|---|
| 延迟 | < 280 ms | 300–800 ms | 500–2000 ms |
| 语音克隆 | 零样本 | 需要微调 | 各异 |
| 多语言 | 28+ 种语言 | 40+ 种语言 | 5–15 种语言 |
| 流式传输 | 支持 | 部分支持 | 少见 |
| MOS 评分 | 4.32 | 4.0–4.3 | 3.5–4.0 |
集成
NueSpeak Apex 深度集成到 NueForm 平台中:
- 表单构建器 — 在发布时为所有符合条件的问题生成 TTS 音频。
- 电话 — 在实时电话通话中进行实时合成,延迟低于 300ms。
- 语音设计器 — 从文本描述或音频样本创建自定义语音。
- 缓存层 — 常用短语预先合成并缓存,实现即时传输。
音频质量
NueSpeak Apex 以 24 kHz 采样率生成录音室品质的语音。对于电话,音频被转码为 8 kHz μ-law 以实现最佳的电话网络传输,同时保持可懂度。
该模型擅长:
- 拼写和听写 — 对电子邮件地址、姓名和代码进行清晰的逐字符发音。
- 数字和日期 — 以适当的分组自然地朗读数字内容。
- 对话语气 — 响应听起来自然且引人入胜,而非机械化。
隐私与安全
- 用于克隆的语音样本加密存储,绝不与第三方共享。
- 音频在 NueForm 的专用 GPU 基础设施上生成——无外部 API 调用。
- 克隆的声音仅限于你的账户,其他用户无法访问。
- 语音数据可随时从电话设置中删除。