NueSpeak Apex | NueForm Docs

NueSpeak Apex est le moteur de synthèse vocale propriétaire de NueForm, conçu spécifiquement pour les interactions conversationnelles avec les formulaires. Il alimente à la fois l'agent vocal de téléphonie et la fonction de narration TTS dans le navigateur.

Architecture

NueSpeak Apex est un modèle TTS neuronal basé sur les Transformers avec une architecture générative multi-échelle. Il traite le texte à travers un pipeline hiérarchique — compréhension sémantique, prédiction de la prosodie et synthèse de forme d'onde acoustique — pour produire un discours naturel et humain en temps réel.

Spécifications clés

Spécification	Valeur
Paramètres du modèle	~1,8 milliard
Taux de génération de tokens	11 Hz
Langues supportées	Anglais, espagnol, français, chinois, japonais, coréen, hindi, arabe et plus de 20 langues supplémentaires
Clonage vocal	Zero-shot à partir de ≥10 secondes d'audio
Latence (temps jusqu'au premier audio)	< 280 ms (médiane)
Facteur temps réel	0,04x (génère 25× plus vite qu'en temps réel)
Sortie audio	24 kHz, 16-bit PCM
Streaming	Livraison progressive par fragments

Fonctionnalités

Clonage vocal Zero-Shot

NueSpeak Apex peut reproduire les caractéristiques vocales d'un locuteur à partir d'un seul échantillon audio de 10 secondes ou plus. Le pipeline de clonage extrait :

Timbre — La qualité tonale unique de la voix
Contour de hauteur — Les modèles d'intonation naturels
Débit de parole — La cadence et le rythme de base
Caractéristiques d'accent — Les marqueurs de prononciation régionale

Aucun réglage fin n'est nécessaire. La voix clonée est disponible instantanément après le traitement de l'échantillon (généralement 2 à 4 secondes).

Conception vocale

Au-delà du clonage, NueSpeak Apex prend en charge la conception vocale basée sur le texte. Décrivez la voix souhaitée en langage naturel — par exemple, « une voix féminine chaleureuse et professionnelle avec un léger accent britannique » — et le moteur synthétise un profil vocal correspondant.

Contrôle de la prosodie

Le moteur offre un contrôle précis de la prosodie du discours :

Vitesse — Ajustable de 0,5× à 2,0× le débit normal
Emphase — Marquez des mots ou des phrases pour l'accentuation
Pauses — Insérez des pauses naturelles de durée configurable
Émotion — Coloration émotionnelle subtile (neutre, chaleureuse, énergique, calme)

Synthèse multilingue

NueSpeak Apex prend nativement en charge plus de 28 langues sans changement de modèle. Le moteur détecte automatiquement la langue d'entrée et applique les correspondances phonémiques, les règles de prosodie et les modèles d'accent appropriés. L'alternance codique au sein d'une même énonciation est prise en charge.

Optimisation pour la téléphonie

Pour les appels téléphoniques, NueSpeak Apex applique un traitement supplémentaire :

Compatibilité encodage 8 kHz / μ-law pour la livraison PSTN
Gestion du bruit de fond — Minimise les artefacts audibles sur les haut-parleurs téléphoniques
Rythme adaptatif — Débit légèrement plus lent pour les contextes téléphoniques afin d'améliorer la compréhension
Mise en cache — L'audio généré est mis en cache par segment de texte, éliminant la synthèse redondante

Performance

Benchmarks

Mesuré sur l'infrastructure de production sous charge typique :

Métrique	Valeur
Score d'opinion moyen (MOS)	4,32 / 5,0
Taux d'erreur de caractères (similarité du locuteur)	3,1%
Temps jusqu'au premier octet (P50)	245 ms
Temps jusqu'au premier octet (P95)	410 ms
Débit	4 flux simultanés par instance
Empreinte mémoire	~3,6 GB VRAM

Comparaison avec les standards de l'industrie

Fonctionnalité	NueSpeak Apex	Cloud TTS (typique)	TTS open-source
Latence	< 280 ms	300–800 ms	500–2000 ms
Clonage vocal	Zero-shot	Réglage fin requis	Variable
Multilingue	28+ langues	40+ langues	5–15 langues
Streaming	Oui	Partiel	Rare
Score MOS	4,32	4,0–4,3	3,5–4,0

Intégration

NueSpeak Apex est profondément intégré dans la plateforme NueForm :

Constructeur de formulaires — L'audio TTS est généré au moment de la publication pour toutes les questions éligibles.
Téléphonie — Synthèse en temps réel pendant les appels téléphoniques en direct avec une latence inférieure à 300 ms.
Concepteur vocal — Créez des voix personnalisées à partir de descriptions textuelles ou d'échantillons audio.
Couche de cache — Les phrases fréquemment utilisées sont pré-synthétisées et mises en cache pour une livraison instantanée.

Qualité audio

NueSpeak Apex génère un discours de qualité studio à un taux d'échantillonnage de 24 kHz. Pour la téléphonie, l'audio est transcodé en 8 kHz μ-law pour une livraison optimale sur le réseau téléphonique tout en préservant l'intelligibilité.

Le modèle excelle dans :

Épellation et dictée — Prononciation claire caractère par caractère pour les adresses e-mail, les noms et les codes.
Nombres et dates — Lecture naturelle du contenu numérique avec un regroupement approprié.
Ton conversationnel — Les réponses sonnent naturelles et engageantes, pas robotiques.

Confidentialité et sécurité

Les échantillons vocaux utilisés pour le clonage sont stockés de manière chiffrée et ne sont jamais partagés avec des tiers.
L'audio est généré sur l'infrastructure GPU dédiée de NueForm — aucun appel API externe.
Les voix clonées sont limitées à votre compte et ne peuvent pas être consultées par d'autres utilisateurs.
Les données vocales peuvent être supprimées à tout moment depuis les paramètres de téléphonie.