NueForm

NueSpeak Apex

NueSpeak Apex 技术文档,NueForm 自研的文本转语音引擎,为电话语音和表单朗读提供支持。

NueSpeak Apex 是 NueForm 自研的文本转语音引擎,专为对话式表单交互而设计。它同时为电话语音代理和浏览器内 TTS 朗读功能提供支持。

架构

NueSpeak Apex 是一个基于 Transformer 的神经 TTS 模型,采用多尺度生成架构。它通过分层管道处理文本——语义理解、韵律预测和声学波形合成——实时生成自然、类人的语音。

核心规格

规格
模型参数量~18 亿
Token 生成速率11 Hz
支持语言英语、西班牙语、法语、中文、日语、韩语、印地语、阿拉伯语及 20+ 其他语言
语音克隆零样本,仅需 ≥10 秒音频
延迟(首次音频时间)< 280 ms(中位数)
实时因子0.04x(生成速度比实时快 25 倍)
音频输出24 kHz, 16-bit PCM
流式传输基于分块的渐进式传输

功能

零样本语音克隆

NueSpeak Apex 能够从 10 秒或更长的单个音频样本中复制说话者的声音特征。克隆管道提取以下信息:

  • 音色 — 声音独特的音调品质
  • 音高轮廓 — 自然的语调模式
  • 语速 — 基础节奏和韵律
  • 口音特征 — 地区性发音标记

无需微调。克隆的声音在样本处理后即可使用(通常 2–4 秒)。

语音设计

除了克隆之外,NueSpeak Apex 还支持基于文本的语音设计。用自然语言描述你想要的声音——例如,"一个温暖、专业的女性声音,带有轻微的英国口音"——引擎会合成匹配的语音配置。

韵律控制

该引擎提供对语音韵律的精细控制:

  • 语速 — 可在 0.5× 到 2.0× 正常速率之间调节
  • 重音 — 标记需要强调的单词或短语
  • 停顿 — 插入可配置时长的自然停顿
  • 情感 — 微妙的情感色彩(中性、温暖、活力、平静)

多语言合成

NueSpeak Apex 原生支持 28+ 种语言,无需切换模型。引擎自动检测输入语言并应用适当的音素映射、韵律规则和口音模型。支持单句中的语码转换。

电话优化

对于电话通话,NueSpeak Apex 应用额外的处理:

  • 兼容 8 kHz / μ-law 编码,适用于 PSTN 传输
  • 底噪管理 — 最小化电话扬声器上可听到的伪影
  • 自适应节奏 — 在电话场景中略微放慢传输速度以提高理解力
  • 缓存 — 生成的音频按文本段缓存,消除冗余合成

性能

基准测试

在典型负载下的生产基础设施上测量:

指标
平均意见得分 (MOS)4.32 / 5.0
字符错误率(说话者相似度)3.1%
首字节时间 (P50)245 ms
首字节时间 (P95)410 ms
吞吐量每实例 4 个并发流
内存占用~3.6 GB VRAM

与行业标准对比

特性NueSpeak Apex云端 TTS(典型)开源 TTS
延迟< 280 ms300–800 ms500–2000 ms
语音克隆零样本需要微调各异
多语言28+ 种语言40+ 种语言5–15 种语言
流式传输支持部分支持少见
MOS 评分4.324.0–4.33.5–4.0

集成

NueSpeak Apex 深度集成到 NueForm 平台中:

  • 表单构建器 — 在发布时为所有符合条件的问题生成 TTS 音频。
  • 电话 — 在实时电话通话中进行实时合成,延迟低于 300ms。
  • 语音设计器 — 从文本描述或音频样本创建自定义语音。
  • 缓存层 — 常用短语预先合成并缓存,实现即时传输。

音频质量

NueSpeak Apex 以 24 kHz 采样率生成录音室品质的语音。对于电话,音频被转码为 8 kHz μ-law 以实现最佳的电话网络传输,同时保持可懂度。

该模型擅长:

  • 拼写和听写 — 对电子邮件地址、姓名和代码进行清晰的逐字符发音。
  • 数字和日期 — 以适当的分组自然地朗读数字内容。
  • 对话语气 — 响应听起来自然且引人入胜,而非机械化。

隐私与安全

  • 用于克隆的语音样本加密存储,绝不与第三方共享。
  • 音频在 NueForm 的专用 GPU 基础设施上生成——无外部 API 调用。
  • 克隆的声音仅限于你的账户,其他用户无法访问。
  • 语音数据可随时从电话设置中删除。
最后更新:2026年4月6日