NueSpeak Apex | NueForm Docs

NueSpeak Apex es el motor de texto a voz propietario de NueForm, diseñado específicamente para interacciones conversacionales con formularios. Impulsa tanto el agente de voz de telefonía como la función de narración TTS en el navegador.

Arquitectura

NueSpeak Apex es un modelo neuronal TTS basado en transformadores con una arquitectura generativa multiescala. Procesa el texto a través de un pipeline jerárquico — comprensión semántica, predicción de prosodia y síntesis de forma de onda acústica — para producir habla natural y similar a la humana en tiempo real.

Especificaciones clave

Especificación	Valor
Parámetros del modelo	~1.8 mil millones
Tasa de generación de tokens	11 Hz
Idiomas soportados	Inglés, español, francés, chino, japonés, coreano, hindi, árabe y más de 20 idiomas adicionales
Clonación de voz	Zero-shot a partir de ≥10 segundos de audio
Latencia (tiempo hasta el primer audio)	< 280 ms (mediana)
Factor de tiempo real	0.04x (genera 25× más rápido que en tiempo real)
Salida de audio	24 kHz, 16-bit PCM
Streaming	Entrega progresiva basada en fragmentos

Características

Clonación de voz Zero-Shot

NueSpeak Apex puede replicar las características vocales de un hablante a partir de una sola muestra de audio de 10 segundos o más. El pipeline de clonación extrae:

Timbre — La cualidad tonal única de la voz
Contorno de tono — Patrones de entonación naturales
Velocidad del habla — Cadencia y ritmo base
Características de acento — Marcadores de pronunciación regional

No se requiere ajuste fino. La voz clonada está disponible instantáneamente después del procesamiento de la muestra (típicamente 2–4 segundos).

Diseño de voz

Más allá de la clonación, NueSpeak Apex soporta diseño de voz basado en texto. Describe la voz que deseas en lenguaje natural — por ejemplo, "una voz femenina cálida y profesional con un ligero acento británico" — y el motor sintetiza un perfil de voz coincidente.

Control de prosodia

El motor proporciona control detallado sobre la prosodia del habla:

Velocidad — Ajustable de 0.5× a 2.0× la velocidad normal
Énfasis — Marca palabras o frases para acentuar
Pausas — Inserta pausas naturales de duración configurable
Emoción — Coloración emocional sutil (neutral, cálida, enérgica, tranquila)

Síntesis multilingüe

NueSpeak Apex soporta nativamente más de 28 idiomas sin cambio de modelo. El motor detecta automáticamente el idioma de entrada y aplica las asignaciones de fonemas, reglas de prosodia y modelos de acento apropiados. Se soporta el cambio de código dentro de una sola expresión.

Optimización para telefonía

Para llamadas telefónicas, NueSpeak Apex aplica procesamiento adicional:

Compatibilidad con 8 kHz / codificación μ-law para entrega PSTN
Gestión del piso de ruido — Minimiza artefactos audibles en altavoces de teléfono
Ritmo adaptativo — Entrega ligeramente más lenta para contextos telefónicos para mejorar la comprensión
Caché — El audio generado se almacena en caché por segmento de texto, eliminando la síntesis redundante

Rendimiento

Benchmarks

Medido en infraestructura de producción bajo carga típica:

Métrica	Valor
Mean Opinion Score (MOS)	4.32 / 5.0
Character Error Rate (similitud de hablante)	3.1%
Tiempo hasta el primer byte (P50)	245 ms
Tiempo hasta el primer byte (P95)	410 ms
Rendimiento	4 flujos concurrentes por instancia
Huella de memoria	~3.6 GB VRAM

Comparación con estándares de la industria

Característica	NueSpeak Apex	Cloud TTS (típico)	TTS de código abierto
Latencia	< 280 ms	300–800 ms	500–2000 ms
Clonación de voz	Zero-shot	Requiere ajuste fino	Varía
Multilingüe	28+ idiomas	40+ idiomas	5–15 idiomas
Streaming	Sí	Parcial	Raro
Puntuación MOS	4.32	4.0–4.3	3.5–4.0

Integración

NueSpeak Apex está profundamente integrado en la plataforma de NueForm:

Constructor de formularios — El audio TTS se genera en el momento de la publicación para todas las preguntas elegibles.
Telefonía — Síntesis en tiempo real durante llamadas telefónicas en vivo con latencia inferior a 300ms.
Diseñador de voz — Crea voces personalizadas a partir de descripciones de texto o muestras de audio.
Capa de caché — Las frases de uso frecuente se pre-sintetizan y almacenan en caché para entrega instantánea.

Calidad de audio

NueSpeak Apex genera habla de calidad de estudio a una tasa de muestreo de 24 kHz. Para telefonía, el audio se transcodifica a 8 kHz μ-law para una entrega óptima en la red telefónica preservando la inteligibilidad.

El modelo sobresale en:

Deletreo y dictado — Pronunciación clara carácter por carácter para direcciones de correo electrónico, nombres y códigos.
Números y fechas — Lectura natural de contenido numérico con agrupación apropiada.
Tono conversacional — Las respuestas suenan naturales y atractivas, no robóticas.

Privacidad y seguridad

Las muestras de voz utilizadas para la clonación se almacenan cifradas y nunca se comparten con terceros.
El audio se genera en la infraestructura GPU dedicada de NueForm — sin llamadas a API externas.
Las voces clonadas están limitadas a tu cuenta y no pueden ser accedidas por otros usuarios.
Los datos de voz pueden eliminarse en cualquier momento desde la configuración de Telefonía.