NueForm

NueSpeak Apex

Documentation technique de NueSpeak Apex, le moteur de synthèse vocale propriétaire de NueForm alimentant la téléphonie et la narration des formulaires.

NueSpeak Apex est le moteur de synthèse vocale propriétaire de NueForm, conçu spécifiquement pour les interactions conversationnelles avec les formulaires. Il alimente à la fois l'agent vocal de téléphonie et la fonction de narration TTS dans le navigateur.

Architecture

NueSpeak Apex est un modèle TTS neuronal basé sur les Transformers avec une architecture générative multi-échelle. Il traite le texte à travers un pipeline hiérarchique — compréhension sémantique, prédiction de la prosodie et synthèse de forme d'onde acoustique — pour produire un discours naturel et humain en temps réel.

Spécifications clés

SpécificationValeur
Paramètres du modèle~1,8 milliard
Taux de génération de tokens11 Hz
Langues supportéesAnglais, espagnol, français, chinois, japonais, coréen, hindi, arabe et plus de 20 langues supplémentaires
Clonage vocalZero-shot à partir de ≥10 secondes d'audio
Latence (temps jusqu'au premier audio)< 280 ms (médiane)
Facteur temps réel0,04x (génère 25× plus vite qu'en temps réel)
Sortie audio24 kHz, 16-bit PCM
StreamingLivraison progressive par fragments

Fonctionnalités

Clonage vocal Zero-Shot

NueSpeak Apex peut reproduire les caractéristiques vocales d'un locuteur à partir d'un seul échantillon audio de 10 secondes ou plus. Le pipeline de clonage extrait :

  • Timbre — La qualité tonale unique de la voix
  • Contour de hauteur — Les modèles d'intonation naturels
  • Débit de parole — La cadence et le rythme de base
  • Caractéristiques d'accent — Les marqueurs de prononciation régionale

Aucun réglage fin n'est nécessaire. La voix clonée est disponible instantanément après le traitement de l'échantillon (généralement 2 à 4 secondes).

Conception vocale

Au-delà du clonage, NueSpeak Apex prend en charge la conception vocale basée sur le texte. Décrivez la voix souhaitée en langage naturel — par exemple, « une voix féminine chaleureuse et professionnelle avec un léger accent britannique » — et le moteur synthétise un profil vocal correspondant.

Contrôle de la prosodie

Le moteur offre un contrôle précis de la prosodie du discours :

  • Vitesse — Ajustable de 0,5× à 2,0× le débit normal
  • Emphase — Marquez des mots ou des phrases pour l'accentuation
  • Pauses — Insérez des pauses naturelles de durée configurable
  • Émotion — Coloration émotionnelle subtile (neutre, chaleureuse, énergique, calme)

Synthèse multilingue

NueSpeak Apex prend nativement en charge plus de 28 langues sans changement de modèle. Le moteur détecte automatiquement la langue d'entrée et applique les correspondances phonémiques, les règles de prosodie et les modèles d'accent appropriés. L'alternance codique au sein d'une même énonciation est prise en charge.

Optimisation pour la téléphonie

Pour les appels téléphoniques, NueSpeak Apex applique un traitement supplémentaire :

  • Compatibilité encodage 8 kHz / μ-law pour la livraison PSTN
  • Gestion du bruit de fond — Minimise les artefacts audibles sur les haut-parleurs téléphoniques
  • Rythme adaptatif — Débit légèrement plus lent pour les contextes téléphoniques afin d'améliorer la compréhension
  • Mise en cache — L'audio généré est mis en cache par segment de texte, éliminant la synthèse redondante

Performance

Benchmarks

Mesuré sur l'infrastructure de production sous charge typique :

MétriqueValeur
Score d'opinion moyen (MOS)4,32 / 5,0
Taux d'erreur de caractères (similarité du locuteur)3,1%
Temps jusqu'au premier octet (P50)245 ms
Temps jusqu'au premier octet (P95)410 ms
Débit4 flux simultanés par instance
Empreinte mémoire~3,6 GB VRAM

Comparaison avec les standards de l'industrie

FonctionnalitéNueSpeak ApexCloud TTS (typique)TTS open-source
Latence< 280 ms300–800 ms500–2000 ms
Clonage vocalZero-shotRéglage fin requisVariable
Multilingue28+ langues40+ langues5–15 langues
StreamingOuiPartielRare
Score MOS4,324,0–4,33,5–4,0

Intégration

NueSpeak Apex est profondément intégré dans la plateforme NueForm :

  • Constructeur de formulaires — L'audio TTS est généré au moment de la publication pour toutes les questions éligibles.
  • Téléphonie — Synthèse en temps réel pendant les appels téléphoniques en direct avec une latence inférieure à 300 ms.
  • Concepteur vocal — Créez des voix personnalisées à partir de descriptions textuelles ou d'échantillons audio.
  • Couche de cache — Les phrases fréquemment utilisées sont pré-synthétisées et mises en cache pour une livraison instantanée.

Qualité audio

NueSpeak Apex génère un discours de qualité studio à un taux d'échantillonnage de 24 kHz. Pour la téléphonie, l'audio est transcodé en 8 kHz μ-law pour une livraison optimale sur le réseau téléphonique tout en préservant l'intelligibilité.

Le modèle excelle dans :

  • Épellation et dictée — Prononciation claire caractère par caractère pour les adresses e-mail, les noms et les codes.
  • Nombres et dates — Lecture naturelle du contenu numérique avec un regroupement approprié.
  • Ton conversationnel — Les réponses sonnent naturelles et engageantes, pas robotiques.

Confidentialité et sécurité

  • Les échantillons vocaux utilisés pour le clonage sont stockés de manière chiffrée et ne sont jamais partagés avec des tiers.
  • L'audio est généré sur l'infrastructure GPU dédiée de NueForm — aucun appel API externe.
  • Les voix clonées sont limitées à votre compte et ne peuvent pas être consultées par d'autres utilisateurs.
  • Les données vocales peuvent être supprimées à tout moment depuis les paramètres de téléphonie.
Dernière mise à jour : 6 avril 2026