NueSpeak Apex es el motor de texto a voz propietario de NueForm, diseñado específicamente para interacciones conversacionales con formularios. Impulsa tanto el agente de voz de telefonía como la función de narración TTS en el navegador.
Arquitectura
NueSpeak Apex es un modelo neuronal TTS basado en transformadores con una arquitectura generativa multiescala. Procesa el texto a través de un pipeline jerárquico — comprensión semántica, predicción de prosodia y síntesis de forma de onda acústica — para producir habla natural y similar a la humana en tiempo real.
Especificaciones clave
| Especificación | Valor |
|---|---|
| Parámetros del modelo | ~1.8 mil millones |
| Tasa de generación de tokens | 11 Hz |
| Idiomas soportados | Inglés, español, francés, chino, japonés, coreano, hindi, árabe y más de 20 idiomas adicionales |
| Clonación de voz | Zero-shot a partir de ≥10 segundos de audio |
| Latencia (tiempo hasta el primer audio) | < 280 ms (mediana) |
| Factor de tiempo real | 0.04x (genera 25× más rápido que en tiempo real) |
| Salida de audio | 24 kHz, 16-bit PCM |
| Streaming | Entrega progresiva basada en fragmentos |
Características
Clonación de voz Zero-Shot
NueSpeak Apex puede replicar las características vocales de un hablante a partir de una sola muestra de audio de 10 segundos o más. El pipeline de clonación extrae:
- Timbre — La cualidad tonal única de la voz
- Contorno de tono — Patrones de entonación naturales
- Velocidad del habla — Cadencia y ritmo base
- Características de acento — Marcadores de pronunciación regional
No se requiere ajuste fino. La voz clonada está disponible instantáneamente después del procesamiento de la muestra (típicamente 2–4 segundos).
Diseño de voz
Más allá de la clonación, NueSpeak Apex soporta diseño de voz basado en texto. Describe la voz que deseas en lenguaje natural — por ejemplo, "una voz femenina cálida y profesional con un ligero acento británico" — y el motor sintetiza un perfil de voz coincidente.
Control de prosodia
El motor proporciona control detallado sobre la prosodia del habla:
- Velocidad — Ajustable de 0.5× a 2.0× la velocidad normal
- Énfasis — Marca palabras o frases para acentuar
- Pausas — Inserta pausas naturales de duración configurable
- Emoción — Coloración emocional sutil (neutral, cálida, enérgica, tranquila)
Síntesis multilingüe
NueSpeak Apex soporta nativamente más de 28 idiomas sin cambio de modelo. El motor detecta automáticamente el idioma de entrada y aplica las asignaciones de fonemas, reglas de prosodia y modelos de acento apropiados. Se soporta el cambio de código dentro de una sola expresión.
Optimización para telefonía
Para llamadas telefónicas, NueSpeak Apex aplica procesamiento adicional:
- Compatibilidad con 8 kHz / codificación μ-law para entrega PSTN
- Gestión del piso de ruido — Minimiza artefactos audibles en altavoces de teléfono
- Ritmo adaptativo — Entrega ligeramente más lenta para contextos telefónicos para mejorar la comprensión
- Caché — El audio generado se almacena en caché por segmento de texto, eliminando la síntesis redundante
Rendimiento
Benchmarks
Medido en infraestructura de producción bajo carga típica:
| Métrica | Valor |
|---|---|
| Mean Opinion Score (MOS) | 4.32 / 5.0 |
| Character Error Rate (similitud de hablante) | 3.1% |
| Tiempo hasta el primer byte (P50) | 245 ms |
| Tiempo hasta el primer byte (P95) | 410 ms |
| Rendimiento | 4 flujos concurrentes por instancia |
| Huella de memoria | ~3.6 GB VRAM |
Comparación con estándares de la industria
| Característica | NueSpeak Apex | Cloud TTS (típico) | TTS de código abierto |
|---|---|---|---|
| Latencia | < 280 ms | 300–800 ms | 500–2000 ms |
| Clonación de voz | Zero-shot | Requiere ajuste fino | Varía |
| Multilingüe | 28+ idiomas | 40+ idiomas | 5–15 idiomas |
| Streaming | Sí | Parcial | Raro |
| Puntuación MOS | 4.32 | 4.0–4.3 | 3.5–4.0 |
Integración
NueSpeak Apex está profundamente integrado en la plataforma de NueForm:
- Constructor de formularios — El audio TTS se genera en el momento de la publicación para todas las preguntas elegibles.
- Telefonía — Síntesis en tiempo real durante llamadas telefónicas en vivo con latencia inferior a 300ms.
- Diseñador de voz — Crea voces personalizadas a partir de descripciones de texto o muestras de audio.
- Capa de caché — Las frases de uso frecuente se pre-sintetizan y almacenan en caché para entrega instantánea.
Calidad de audio
NueSpeak Apex genera habla de calidad de estudio a una tasa de muestreo de 24 kHz. Para telefonía, el audio se transcodifica a 8 kHz μ-law para una entrega óptima en la red telefónica preservando la inteligibilidad.
El modelo sobresale en:
- Deletreo y dictado — Pronunciación clara carácter por carácter para direcciones de correo electrónico, nombres y códigos.
- Números y fechas — Lectura natural de contenido numérico con agrupación apropiada.
- Tono conversacional — Las respuestas suenan naturales y atractivas, no robóticas.
Privacidad y seguridad
- Las muestras de voz utilizadas para la clonación se almacenan cifradas y nunca se comparten con terceros.
- El audio se genera en la infraestructura GPU dedicada de NueForm — sin llamadas a API externas.
- Las voces clonadas están limitadas a tu cuenta y no pueden ser accedidas por otros usuarios.
- Los datos de voz pueden eliminarse en cualquier momento desde la configuración de Telefonía.