NueSpeak Apex est le moteur de synthèse vocale propriétaire de NueForm, conçu spécifiquement pour les interactions conversationnelles avec les formulaires. Il alimente à la fois l'agent vocal de téléphonie et la fonction de narration TTS dans le navigateur.
Architecture
NueSpeak Apex est un modèle TTS neuronal basé sur les Transformers avec une architecture générative multi-échelle. Il traite le texte à travers un pipeline hiérarchique — compréhension sémantique, prédiction de la prosodie et synthèse de forme d'onde acoustique — pour produire un discours naturel et humain en temps réel.
Spécifications clés
| Spécification | Valeur |
|---|---|
| Paramètres du modèle | ~1,8 milliard |
| Taux de génération de tokens | 11 Hz |
| Langues supportées | Anglais, espagnol, français, chinois, japonais, coréen, hindi, arabe et plus de 20 langues supplémentaires |
| Clonage vocal | Zero-shot à partir de ≥10 secondes d'audio |
| Latence (temps jusqu'au premier audio) | < 280 ms (médiane) |
| Facteur temps réel | 0,04x (génère 25× plus vite qu'en temps réel) |
| Sortie audio | 24 kHz, 16-bit PCM |
| Streaming | Livraison progressive par fragments |
Fonctionnalités
Clonage vocal Zero-Shot
NueSpeak Apex peut reproduire les caractéristiques vocales d'un locuteur à partir d'un seul échantillon audio de 10 secondes ou plus. Le pipeline de clonage extrait :
- Timbre — La qualité tonale unique de la voix
- Contour de hauteur — Les modèles d'intonation naturels
- Débit de parole — La cadence et le rythme de base
- Caractéristiques d'accent — Les marqueurs de prononciation régionale
Aucun réglage fin n'est nécessaire. La voix clonée est disponible instantanément après le traitement de l'échantillon (généralement 2 à 4 secondes).
Conception vocale
Au-delà du clonage, NueSpeak Apex prend en charge la conception vocale basée sur le texte. Décrivez la voix souhaitée en langage naturel — par exemple, « une voix féminine chaleureuse et professionnelle avec un léger accent britannique » — et le moteur synthétise un profil vocal correspondant.
Contrôle de la prosodie
Le moteur offre un contrôle précis de la prosodie du discours :
- Vitesse — Ajustable de 0,5× à 2,0× le débit normal
- Emphase — Marquez des mots ou des phrases pour l'accentuation
- Pauses — Insérez des pauses naturelles de durée configurable
- Émotion — Coloration émotionnelle subtile (neutre, chaleureuse, énergique, calme)
Synthèse multilingue
NueSpeak Apex prend nativement en charge plus de 28 langues sans changement de modèle. Le moteur détecte automatiquement la langue d'entrée et applique les correspondances phonémiques, les règles de prosodie et les modèles d'accent appropriés. L'alternance codique au sein d'une même énonciation est prise en charge.
Optimisation pour la téléphonie
Pour les appels téléphoniques, NueSpeak Apex applique un traitement supplémentaire :
- Compatibilité encodage 8 kHz / μ-law pour la livraison PSTN
- Gestion du bruit de fond — Minimise les artefacts audibles sur les haut-parleurs téléphoniques
- Rythme adaptatif — Débit légèrement plus lent pour les contextes téléphoniques afin d'améliorer la compréhension
- Mise en cache — L'audio généré est mis en cache par segment de texte, éliminant la synthèse redondante
Performance
Benchmarks
Mesuré sur l'infrastructure de production sous charge typique :
| Métrique | Valeur |
|---|---|
| Score d'opinion moyen (MOS) | 4,32 / 5,0 |
| Taux d'erreur de caractères (similarité du locuteur) | 3,1% |
| Temps jusqu'au premier octet (P50) | 245 ms |
| Temps jusqu'au premier octet (P95) | 410 ms |
| Débit | 4 flux simultanés par instance |
| Empreinte mémoire | ~3,6 GB VRAM |
Comparaison avec les standards de l'industrie
| Fonctionnalité | NueSpeak Apex | Cloud TTS (typique) | TTS open-source |
|---|---|---|---|
| Latence | < 280 ms | 300–800 ms | 500–2000 ms |
| Clonage vocal | Zero-shot | Réglage fin requis | Variable |
| Multilingue | 28+ langues | 40+ langues | 5–15 langues |
| Streaming | Oui | Partiel | Rare |
| Score MOS | 4,32 | 4,0–4,3 | 3,5–4,0 |
Intégration
NueSpeak Apex est profondément intégré dans la plateforme NueForm :
- Constructeur de formulaires — L'audio TTS est généré au moment de la publication pour toutes les questions éligibles.
- Téléphonie — Synthèse en temps réel pendant les appels téléphoniques en direct avec une latence inférieure à 300 ms.
- Concepteur vocal — Créez des voix personnalisées à partir de descriptions textuelles ou d'échantillons audio.
- Couche de cache — Les phrases fréquemment utilisées sont pré-synthétisées et mises en cache pour une livraison instantanée.
Qualité audio
NueSpeak Apex génère un discours de qualité studio à un taux d'échantillonnage de 24 kHz. Pour la téléphonie, l'audio est transcodé en 8 kHz μ-law pour une livraison optimale sur le réseau téléphonique tout en préservant l'intelligibilité.
Le modèle excelle dans :
- Épellation et dictée — Prononciation claire caractère par caractère pour les adresses e-mail, les noms et les codes.
- Nombres et dates — Lecture naturelle du contenu numérique avec un regroupement approprié.
- Ton conversationnel — Les réponses sonnent naturelles et engageantes, pas robotiques.
Confidentialité et sécurité
- Les échantillons vocaux utilisés pour le clonage sont stockés de manière chiffrée et ne sont jamais partagés avec des tiers.
- L'audio est généré sur l'infrastructure GPU dédiée de NueForm — aucun appel API externe.
- Les voix clonées sont limitées à votre compte et ne peuvent pas être consultées par d'autres utilisateurs.
- Les données vocales peuvent être supprimées à tout moment depuis les paramètres de téléphonie.