NueForm

NueSpeak Apex

Documentación técnica de NueSpeak Apex, el motor de texto a voz propietario de NueForm que impulsa la telefonía y la narración de formularios.

NueSpeak Apex es el motor de texto a voz propietario de NueForm, diseñado específicamente para interacciones conversacionales con formularios. Impulsa tanto el agente de voz de telefonía como la función de narración TTS en el navegador.

Arquitectura

NueSpeak Apex es un modelo neuronal TTS basado en transformadores con una arquitectura generativa multiescala. Procesa el texto a través de un pipeline jerárquico — comprensión semántica, predicción de prosodia y síntesis de forma de onda acústica — para producir habla natural y similar a la humana en tiempo real.

Especificaciones clave

EspecificaciónValor
Parámetros del modelo~1.8 mil millones
Tasa de generación de tokens11 Hz
Idiomas soportadosInglés, español, francés, chino, japonés, coreano, hindi, árabe y más de 20 idiomas adicionales
Clonación de vozZero-shot a partir de ≥10 segundos de audio
Latencia (tiempo hasta el primer audio)< 280 ms (mediana)
Factor de tiempo real0.04x (genera 25× más rápido que en tiempo real)
Salida de audio24 kHz, 16-bit PCM
StreamingEntrega progresiva basada en fragmentos

Características

Clonación de voz Zero-Shot

NueSpeak Apex puede replicar las características vocales de un hablante a partir de una sola muestra de audio de 10 segundos o más. El pipeline de clonación extrae:

  • Timbre — La cualidad tonal única de la voz
  • Contorno de tono — Patrones de entonación naturales
  • Velocidad del habla — Cadencia y ritmo base
  • Características de acento — Marcadores de pronunciación regional

No se requiere ajuste fino. La voz clonada está disponible instantáneamente después del procesamiento de la muestra (típicamente 2–4 segundos).

Diseño de voz

Más allá de la clonación, NueSpeak Apex soporta diseño de voz basado en texto. Describe la voz que deseas en lenguaje natural — por ejemplo, "una voz femenina cálida y profesional con un ligero acento británico" — y el motor sintetiza un perfil de voz coincidente.

Control de prosodia

El motor proporciona control detallado sobre la prosodia del habla:

  • Velocidad — Ajustable de 0.5× a 2.0× la velocidad normal
  • Énfasis — Marca palabras o frases para acentuar
  • Pausas — Inserta pausas naturales de duración configurable
  • Emoción — Coloración emocional sutil (neutral, cálida, enérgica, tranquila)

Síntesis multilingüe

NueSpeak Apex soporta nativamente más de 28 idiomas sin cambio de modelo. El motor detecta automáticamente el idioma de entrada y aplica las asignaciones de fonemas, reglas de prosodia y modelos de acento apropiados. Se soporta el cambio de código dentro de una sola expresión.

Optimización para telefonía

Para llamadas telefónicas, NueSpeak Apex aplica procesamiento adicional:

  • Compatibilidad con 8 kHz / codificación μ-law para entrega PSTN
  • Gestión del piso de ruido — Minimiza artefactos audibles en altavoces de teléfono
  • Ritmo adaptativo — Entrega ligeramente más lenta para contextos telefónicos para mejorar la comprensión
  • Caché — El audio generado se almacena en caché por segmento de texto, eliminando la síntesis redundante

Rendimiento

Benchmarks

Medido en infraestructura de producción bajo carga típica:

MétricaValor
Mean Opinion Score (MOS)4.32 / 5.0
Character Error Rate (similitud de hablante)3.1%
Tiempo hasta el primer byte (P50)245 ms
Tiempo hasta el primer byte (P95)410 ms
Rendimiento4 flujos concurrentes por instancia
Huella de memoria~3.6 GB VRAM

Comparación con estándares de la industria

CaracterísticaNueSpeak ApexCloud TTS (típico)TTS de código abierto
Latencia< 280 ms300–800 ms500–2000 ms
Clonación de vozZero-shotRequiere ajuste finoVaría
Multilingüe28+ idiomas40+ idiomas5–15 idiomas
StreamingParcialRaro
Puntuación MOS4.324.0–4.33.5–4.0

Integración

NueSpeak Apex está profundamente integrado en la plataforma de NueForm:

  • Constructor de formularios — El audio TTS se genera en el momento de la publicación para todas las preguntas elegibles.
  • Telefonía — Síntesis en tiempo real durante llamadas telefónicas en vivo con latencia inferior a 300ms.
  • Diseñador de voz — Crea voces personalizadas a partir de descripciones de texto o muestras de audio.
  • Capa de caché — Las frases de uso frecuente se pre-sintetizan y almacenan en caché para entrega instantánea.

Calidad de audio

NueSpeak Apex genera habla de calidad de estudio a una tasa de muestreo de 24 kHz. Para telefonía, el audio se transcodifica a 8 kHz μ-law para una entrega óptima en la red telefónica preservando la inteligibilidad.

El modelo sobresale en:

  • Deletreo y dictado — Pronunciación clara carácter por carácter para direcciones de correo electrónico, nombres y códigos.
  • Números y fechas — Lectura natural de contenido numérico con agrupación apropiada.
  • Tono conversacional — Las respuestas suenan naturales y atractivas, no robóticas.

Privacidad y seguridad

  • Las muestras de voz utilizadas para la clonación se almacenan cifradas y nunca se comparten con terceros.
  • El audio se genera en la infraestructura GPU dedicada de NueForm — sin llamadas a API externas.
  • Las voces clonadas están limitadas a tu cuenta y no pueden ser accedidas por otros usuarios.
  • Los datos de voz pueden eliminarse en cualquier momento desde la configuración de Telefonía.
Ultima actualizacion: 6 de abril de 2026