NueForm

NueSpeak Apex

الوثائق التقنية لـ NueSpeak Apex، محرك تحويل النص إلى كلام المملوك لـ NueForm الذي يدعم الهاتف وسرد النماذج.

NueSpeak Apex هو محرك تحويل النص إلى كلام المملوك لـ NueForm، المصمم خصيصًا للتفاعلات الحوارية مع النماذج. يعمل على تشغيل كل من وكيل الصوت الهاتفي وميزة سرد TTS داخل المتصفح.

البنية

NueSpeak Apex هو نموذج TTS عصبي قائم على المحولات (Transformer) بهندسة توليدية متعددة المقاييس. يعالج النص من خلال خط أنابيب هرمي — الفهم الدلالي، والتنبؤ بالنبرة، وتركيب الموجة الصوتية — لإنتاج كلام طبيعي يشبه البشر في الوقت الفعلي.

المواصفات الرئيسية

المواصفةالقيمة
معلمات النموذج~1.8 مليار
معدل توليد الرموز11 Hz
اللغات المدعومةالإنجليزية، الإسبانية، الفرنسية، الصينية، اليابانية، الكورية، الهندية، العربية، وأكثر من 20 لغة إضافية
استنساخ الصوتZero-shot من ≥10 ثوانٍ من الصوت
زمن الاستجابة (وقت أول صوت)< 280 ms (الوسيط)
عامل الوقت الفعلي0.04x (يولد أسرع بـ 25 مرة من الوقت الفعلي)
مخرجات الصوت24 kHz, 16-bit PCM
البثتسليم تدريجي قائم على الأجزاء

الميزات

استنساخ الصوت بدون تدريب (Zero-Shot)

يمكن لـ NueSpeak Apex تكرار خصائص صوت المتحدث من عينة صوتية واحدة مدتها 10 ثوانٍ أو أكثر. يستخرج خط أنابيب الاستنساخ:

  • الطابع الصوتي — الجودة النغمية الفريدة للصوت
  • محيط النغمة — أنماط التنغيم الطبيعية
  • سرعة الكلام — الإيقاع والوتيرة الأساسية
  • خصائص اللهجة — علامات النطق الإقليمية

لا يتطلب ضبطًا دقيقًا. يتوفر الصوت المستنسخ فورًا بعد معالجة العينة (عادةً 2–4 ثوانٍ).

تصميم الصوت

بالإضافة إلى الاستنساخ، يدعم NueSpeak Apex تصميم الصوت القائم على النص. صف الصوت الذي تريده بلغة طبيعية — على سبيل المثال، "صوت أنثوي دافئ ومهني مع لهجة بريطانية خفيفة" — وسيقوم المحرك بتوليف ملف صوتي مطابق.

التحكم في النبرة

يوفر المحرك تحكمًا دقيقًا في نبرة الكلام:

  • السرعة — قابلة للتعديل من 0.5× إلى 2.0× المعدل الطبيعي
  • التأكيد — تحديد الكلمات أو العبارات للتشديد
  • الوقفات — إدراج وقفات طبيعية بمدة قابلة للتكوين
  • العاطفة — تلوين عاطفي دقيق (محايد، دافئ، حيوي، هادئ)

التوليف متعدد اللغات

يدعم NueSpeak Apex أصلاً أكثر من 28 لغة بدون تبديل النموذج. يكتشف المحرك تلقائيًا لغة الإدخال ويطبق تعيينات الصوتيات وقواعد النبرة ونماذج اللهجات المناسبة. يُدعم التبديل بين اللغات داخل عبارة واحدة.

تحسين الهاتف

للمكالمات الهاتفية، يطبق NueSpeak Apex معالجة إضافية:

  • توافق ترميز 8 kHz / μ-law لتسليم PSTN
  • إدارة أرضية الضوضاء — تقليل التشوهات المسموعة على مكبرات صوت الهاتف
  • الإيقاع التكيفي — تسليم أبطأ قليلاً لسياقات الهاتف لتحسين الفهم
  • التخزين المؤقت — يتم تخزين الصوت المُنشأ مؤقتًا لكل مقطع نصي، مما يلغي التوليف المتكرر

الأداء

المعايير المرجعية

تم القياس على البنية التحتية للإنتاج تحت الحمل النموذجي:

المقياسالقيمة
درجة الرأي المتوسط (MOS)4.32 / 5.0
معدل خطأ الأحرف (تشابه المتحدث)3.1%
وقت أول بايت (P50)245 ms
وقت أول بايت (P95)410 ms
الإنتاجية4 تدفقات متزامنة لكل مثيل
حجم الذاكرة~3.6 GB VRAM

المقارنة مع معايير الصناعة

الميزةNueSpeak ApexCloud TTS (نموذجي)TTS مفتوح المصدر
زمن الاستجابة< 280 ms300–800 ms500–2000 ms
استنساخ الصوتZero-shotيتطلب ضبطًا دقيقًامتفاوت
متعدد اللغات28+ لغة40+ لغة5–15 لغة
البثنعمجزئينادر
درجة MOS4.324.0–4.33.5–4.0

التكامل

NueSpeak Apex مدمج بعمق في منصة NueForm:

  • منشئ النماذج — يتم إنشاء صوت TTS وقت النشر لجميع الأسئلة المؤهلة.
  • الهاتف — توليف في الوقت الفعلي أثناء المكالمات الهاتفية المباشرة بزمن استجابة أقل من 300ms.
  • مصمم الصوت — إنشاء أصوات مخصصة من أوصاف نصية أو عينات صوتية.
  • طبقة التخزين المؤقت — يتم توليف العبارات المستخدمة بشكل متكرر مسبقًا وتخزينها مؤقتًا للتسليم الفوري.

جودة الصوت

ينتج NueSpeak Apex كلامًا بجودة الاستوديو بمعدل أخذ عينات 24 kHz. للهاتف، يتم تحويل الصوت إلى 8 kHz μ-law لتسليم شبكة الهاتف الأمثل مع الحفاظ على الوضوح.

يتفوق النموذج في:

  • التهجئة والإملاء — نطق واضح حرفًا بحرف لعناوين البريد الإلكتروني والأسماء والرموز.
  • الأرقام والتواريخ — قراءة طبيعية للمحتوى الرقمي مع التجميع المناسب.
  • النبرة الحوارية — تبدو الاستجابات طبيعية وجذابة، وليست آلية.

الخصوصية والأمان

  • يتم تخزين عينات الصوت المستخدمة للاستنساخ بشكل مشفر ولا تتم مشاركتها مع أطراف ثالثة أبدًا.
  • يتم إنشاء الصوت على البنية التحتية لـ GPU المخصصة لـ NueForm — بدون استدعاءات API خارجية.
  • الأصوات المستنسخة محدودة النطاق بحسابك ولا يمكن لمستخدمين آخرين الوصول إليها.
  • يمكن حذف بيانات الصوت في أي وقت من إعدادات الهاتف.
آخر تحديث: 6 أبريل 2026