NueSpeak Apex | NueForm Docs

NueSpeak Apex هو محرك تحويل النص إلى كلام المملوك لـ NueForm، المصمم خصيصًا للتفاعلات الحوارية مع النماذج. يعمل على تشغيل كل من وكيل الصوت الهاتفي وميزة سرد TTS داخل المتصفح.

البنية

NueSpeak Apex هو نموذج TTS عصبي قائم على المحولات (Transformer) بهندسة توليدية متعددة المقاييس. يعالج النص من خلال خط أنابيب هرمي — الفهم الدلالي، والتنبؤ بالنبرة، وتركيب الموجة الصوتية — لإنتاج كلام طبيعي يشبه البشر في الوقت الفعلي.

المواصفات الرئيسية

المواصفة	القيمة
معلمات النموذج	~1.8 مليار
معدل توليد الرموز	11 Hz
اللغات المدعومة	الإنجليزية، الإسبانية، الفرنسية، الصينية، اليابانية، الكورية، الهندية، العربية، وأكثر من 20 لغة إضافية
استنساخ الصوت	Zero-shot من ≥10 ثوانٍ من الصوت
زمن الاستجابة (وقت أول صوت)	< 280 ms (الوسيط)
عامل الوقت الفعلي	0.04x (يولد أسرع بـ 25 مرة من الوقت الفعلي)
مخرجات الصوت	24 kHz, 16-bit PCM
البث	تسليم تدريجي قائم على الأجزاء

الميزات

استنساخ الصوت بدون تدريب (Zero-Shot)

يمكن لـ NueSpeak Apex تكرار خصائص صوت المتحدث من عينة صوتية واحدة مدتها 10 ثوانٍ أو أكثر. يستخرج خط أنابيب الاستنساخ:

الطابع الصوتي — الجودة النغمية الفريدة للصوت
محيط النغمة — أنماط التنغيم الطبيعية
سرعة الكلام — الإيقاع والوتيرة الأساسية
خصائص اللهجة — علامات النطق الإقليمية

لا يتطلب ضبطًا دقيقًا. يتوفر الصوت المستنسخ فورًا بعد معالجة العينة (عادةً 2–4 ثوانٍ).

تصميم الصوت

بالإضافة إلى الاستنساخ، يدعم NueSpeak Apex تصميم الصوت القائم على النص. صف الصوت الذي تريده بلغة طبيعية — على سبيل المثال، "صوت أنثوي دافئ ومهني مع لهجة بريطانية خفيفة" — وسيقوم المحرك بتوليف ملف صوتي مطابق.

التحكم في النبرة

يوفر المحرك تحكمًا دقيقًا في نبرة الكلام:

السرعة — قابلة للتعديل من 0.5× إلى 2.0× المعدل الطبيعي
التأكيد — تحديد الكلمات أو العبارات للتشديد
الوقفات — إدراج وقفات طبيعية بمدة قابلة للتكوين
العاطفة — تلوين عاطفي دقيق (محايد، دافئ، حيوي، هادئ)

التوليف متعدد اللغات

يدعم NueSpeak Apex أصلاً أكثر من 28 لغة بدون تبديل النموذج. يكتشف المحرك تلقائيًا لغة الإدخال ويطبق تعيينات الصوتيات وقواعد النبرة ونماذج اللهجات المناسبة. يُدعم التبديل بين اللغات داخل عبارة واحدة.

تحسين الهاتف

للمكالمات الهاتفية، يطبق NueSpeak Apex معالجة إضافية:

توافق ترميز 8 kHz / μ-law لتسليم PSTN
إدارة أرضية الضوضاء — تقليل التشوهات المسموعة على مكبرات صوت الهاتف
الإيقاع التكيفي — تسليم أبطأ قليلاً لسياقات الهاتف لتحسين الفهم
التخزين المؤقت — يتم تخزين الصوت المُنشأ مؤقتًا لكل مقطع نصي، مما يلغي التوليف المتكرر

الأداء

المعايير المرجعية

تم القياس على البنية التحتية للإنتاج تحت الحمل النموذجي:

المقياس	القيمة
درجة الرأي المتوسط (MOS)	4.32 / 5.0
معدل خطأ الأحرف (تشابه المتحدث)	3.1%
وقت أول بايت (P50)	245 ms
وقت أول بايت (P95)	410 ms
الإنتاجية	4 تدفقات متزامنة لكل مثيل
حجم الذاكرة	~3.6 GB VRAM

المقارنة مع معايير الصناعة

الميزة	NueSpeak Apex	Cloud TTS (نموذجي)	TTS مفتوح المصدر
زمن الاستجابة	< 280 ms	300–800 ms	500–2000 ms
استنساخ الصوت	Zero-shot	يتطلب ضبطًا دقيقًا	متفاوت
متعدد اللغات	28+ لغة	40+ لغة	5–15 لغة
البث	نعم	جزئي	نادر
درجة MOS	4.32	4.0–4.3	3.5–4.0

التكامل

NueSpeak Apex مدمج بعمق في منصة NueForm:

منشئ النماذج — يتم إنشاء صوت TTS وقت النشر لجميع الأسئلة المؤهلة.
الهاتف — توليف في الوقت الفعلي أثناء المكالمات الهاتفية المباشرة بزمن استجابة أقل من 300ms.
مصمم الصوت — إنشاء أصوات مخصصة من أوصاف نصية أو عينات صوتية.
طبقة التخزين المؤقت — يتم توليف العبارات المستخدمة بشكل متكرر مسبقًا وتخزينها مؤقتًا للتسليم الفوري.

جودة الصوت

ينتج NueSpeak Apex كلامًا بجودة الاستوديو بمعدل أخذ عينات 24 kHz. للهاتف، يتم تحويل الصوت إلى 8 kHz μ-law لتسليم شبكة الهاتف الأمثل مع الحفاظ على الوضوح.

يتفوق النموذج في:

التهجئة والإملاء — نطق واضح حرفًا بحرف لعناوين البريد الإلكتروني والأسماء والرموز.
الأرقام والتواريخ — قراءة طبيعية للمحتوى الرقمي مع التجميع المناسب.
النبرة الحوارية — تبدو الاستجابات طبيعية وجذابة، وليست آلية.

الخصوصية والأمان

يتم تخزين عينات الصوت المستخدمة للاستنساخ بشكل مشفر ولا تتم مشاركتها مع أطراف ثالثة أبدًا.
يتم إنشاء الصوت على البنية التحتية لـ GPU المخصصة لـ NueForm — بدون استدعاءات API خارجية.
الأصوات المستنسخة محدودة النطاق بحسابك ولا يمكن لمستخدمين آخرين الوصول إليها.
يمكن حذف بيانات الصوت في أي وقت من إعدادات الهاتف.