NueForm

NueSpeak Apex

NueSpeak Apex के लिए तकनीकी दस्तावेज़ीकरण, NueForm का स्वामित्व वाला टेक्स्ट-टू-स्पीच इंजन जो टेलीफोनी और फॉर्म नैरेशन को संचालित करता है।

NueSpeak Apex, NueForm का स्वामित्व वाला टेक्स्ट-टू-स्पीच इंजन है, जो संवादात्मक फॉर्म इंटरैक्शन के लिए विशेष रूप से बनाया गया है। यह टेलीफोनी वॉइस एजेंट और इन-ब्राउज़र TTS नैरेशन दोनों सुविधाओं को संचालित करता है।

आर्किटेक्चर

NueSpeak Apex एक Transformer-आधारित न्यूरल TTS मॉडल है जिसमें मल्टी-स्केल जेनरेटिव आर्किटेक्चर है। यह एक पदानुक्रमित पाइपलाइन के माध्यम से टेक्स्ट को प्रोसेस करता है — सिमेंटिक समझ, प्रोसोडी प्रिडिक्शन, और ध्वनिक तरंग संश्लेषण — रियल टाइम में प्राकृतिक, मानव-जैसी वाणी उत्पन्न करने के लिए।

मुख्य विनिर्देश

विनिर्देशमान
मॉडल पैरामीटर~1.8 अरब
टोकन जनरेशन दर11 Hz
समर्थित भाषाएँअंग्रेजी, स्पेनिश, फ्रेंच, चीनी, जापानी, कोरियाई, हिंदी, अरबी, और 20+ अतिरिक्त भाषाएँ
वॉइस क्लोनिंग≥10 सेकंड ऑडियो से Zero-shot
विलंबता (पहले ऑडियो तक का समय)< 280 ms (मध्यिका)
रियल-टाइम फैक्टर0.04x (रियल-टाइम से 25× तेज़ जनरेशन)
ऑडियो आउटपुट24 kHz, 16-bit PCM
स्ट्रीमिंगचंक-आधारित प्रगतिशील डिलीवरी

विशेषताएँ

Zero-Shot वॉइस क्लोनिंग

NueSpeak Apex 10 सेकंड या उससे अधिक की एक ऑडियो सैंपल से किसी वक्ता की आवाज़ की विशेषताओं को दोहरा सकता है। क्लोनिंग पाइपलाइन निम्नलिखित निकालती है:

  • टिम्ब्रे — आवाज़ की अनूठी स्वर गुणवत्ता
  • पिच कंटूर — प्राकृतिक स्वराघात पैटर्न
  • बोलने की दर — आधार ताल और लय
  • उच्चारण विशेषताएँ — क्षेत्रीय उच्चारण मार्कर

किसी फाइन-ट्यूनिंग की आवश्यकता नहीं है। सैंपल प्रोसेसिंग के बाद क्लोन की गई आवाज़ तुरंत उपलब्ध होती है (आमतौर पर 2–4 सेकंड)।

वॉइस डिज़ाइन

क्लोनिंग के अलावा, NueSpeak Apex टेक्स्ट-आधारित वॉइस डिज़ाइन का समर्थन करता है। आप जो आवाज़ चाहते हैं उसे प्राकृतिक भाषा में वर्णित करें — उदाहरण के लिए, "हल्के ब्रिटिश उच्चारण के साथ एक गर्म, पेशेवर महिला आवाज़" — और इंजन एक मेल खाता वॉइस प्रोफाइल संश्लेषित करता है।

प्रोसोडी नियंत्रण

इंजन वाणी प्रोसोडी पर सूक्ष्म नियंत्रण प्रदान करता है:

  • गति — 0.5× से 2.0× सामान्य दर तक समायोज्य
  • बल — तनाव के लिए शब्दों या वाक्यांशों को चिह्नित करें
  • विराम — कॉन्फ़िगर करने योग्य अवधि के प्राकृतिक विराम डालें
  • भावना — सूक्ष्म भावनात्मक रंग (तटस्थ, गर्म, ऊर्जावान, शांत)

बहुभाषी संश्लेषण

NueSpeak Apex मॉडल स्विचिंग के बिना 28+ भाषाओं का मूल रूप से समर्थन करता है। इंजन स्वचालित रूप से इनपुट भाषा का पता लगाता है और उचित फोनीम मैपिंग, प्रोसोडी नियम और उच्चारण मॉडल लागू करता है। एक ही उच्चारण के भीतर कोड-स्विचिंग समर्थित है।

टेलीफोनी अनुकूलन

फ़ोन कॉल के लिए, NueSpeak Apex अतिरिक्त प्रोसेसिंग लागू करता है:

  • PSTN डिलीवरी के लिए 8 kHz / μ-law एन्कोडिंग अनुकूलता
  • नॉइज़ फ्लोर प्रबंधन — फ़ोन स्पीकर पर सुनाई देने वाली कलाकृतियों को कम करता है
  • अनुकूली गति — समझ में सुधार के लिए फ़ोन संदर्भों में थोड़ी धीमी डिलीवरी
  • कैशिंग — उत्पन्न ऑडियो प्रति टेक्स्ट सेगमेंट कैश किया जाता है, अनावश्यक संश्लेषण को समाप्त करता है

प्रदर्शन

बेंचमार्क

सामान्य लोड के तहत प्रोडक्शन इंफ्रास्ट्रक्चर पर मापा गया:

मेट्रिकमान
मीन ओपिनियन स्कोर (MOS)4.32 / 5.0
कैरेक्टर एरर रेट (वक्ता समानता)3.1%
पहला बाइट प्राप्ति समय (P50)245 ms
पहला बाइट प्राप्ति समय (P95)410 ms
थ्रूपुटप्रति इंस्टेंस 4 समवर्ती स्ट्रीम
मेमोरी फुटप्रिंट~3.6 GB VRAM

उद्योग मानकों के साथ तुलना

विशेषताNueSpeak ApexCloud TTS (सामान्य)ओपन-सोर्स TTS
विलंबता< 280 ms300–800 ms500–2000 ms
वॉइस क्लोनिंगZero-shotफाइन-ट्यूनिंग आवश्यकभिन्न
बहुभाषी28+ भाषाएँ40+ भाषाएँ5–15 भाषाएँ
स्ट्रीमिंगहाँआंशिकदुर्लभ
MOS स्कोर4.324.0–4.33.5–4.0

एकीकरण

NueSpeak Apex, NueForm के प्लेटफ़ॉर्म में गहराई से एकीकृत है:

  • फॉर्म बिल्डर — प्रकाशन समय पर सभी योग्य प्रश्नों के लिए TTS ऑडियो उत्पन्न किया जाता है।
  • टेलीफोनी — लाइव फ़ोन कॉल के दौरान 300ms से कम विलंबता के साथ रियल-टाइम संश्लेषण।
  • वॉइस डिज़ाइनर — टेक्स्ट विवरण या ऑडियो सैंपल से कस्टम वॉइस बनाएँ।
  • कैशिंग लेयर — अक्सर उपयोग किए जाने वाले वाक्यांश पूर्व-संश्लेषित और तत्काल डिलीवरी के लिए कैश किए जाते हैं।

ऑडियो गुणवत्ता

NueSpeak Apex 24 kHz सैंपल रेट पर स्टूडियो-गुणवत्ता वाली वाणी उत्पन्न करता है। टेलीफोनी के लिए, ऑडियो को स्पष्टता बनाए रखते हुए इष्टतम फ़ोन नेटवर्क डिलीवरी के लिए 8 kHz μ-law में ट्रांसकोड किया जाता है।

मॉडल इनमें उत्कृष्ट है:

  • वर्तनी और श्रुतलेख — ईमेल पते, नाम और कोड के लिए स्पष्ट अक्षर-दर-अक्षर उच्चारण।
  • संख्याएँ और तिथियाँ — उचित समूहन के साथ संख्यात्मक सामग्री का प्राकृतिक पठन।
  • संवादात्मक स्वर — प्रतिक्रियाएँ प्राकृतिक और आकर्षक लगती हैं, रोबोटिक नहीं।

गोपनीयता और सुरक्षा

  • क्लोनिंग के लिए उपयोग किए जाने वाले वॉइस सैंपल एन्क्रिप्टेड रूप में संग्रहीत किए जाते हैं और कभी भी तीसरे पक्षों के साथ साझा नहीं किए जाते।
  • ऑडियो NueForm के समर्पित GPU इंफ्रास्ट्रक्चर पर उत्पन्न किया जाता है — कोई बाहरी API कॉल नहीं।
  • क्लोन की गई आवाज़ें आपके खाते तक सीमित हैं और अन्य उपयोगकर्ताओं द्वारा एक्सेस नहीं की जा सकतीं।
  • वॉइस डेटा को टेलीफोनी सेटिंग्स से किसी भी समय हटाया जा सकता है।
अंतिम अपडेट: 6 अप्रैल 2026