منذ أكثر من ثلاث سنوات، عندما كنت لا أزال أستخدم sovits، كان نموذج الصوت يتطلب فصل الصوت (إزالة الخلفية والبيئة) للحصول على الصوت النقي ثم إجراء التدريب.


ثم كان من الضروري تصفية مجموعة البيانات، وإزالة الأجزاء ذات الضوضاء الخلفية الكبيرة، ثم بدء التدريب.
عادةً ما يكون حوالي 8000 خطوة من التدريب، حيث يكون استعادة الصوت بأفضل شكل، وإذا تجاوزت 8000 خطوة وكانت التقييمات لا تزال أقل من 25، فإن مجموعة البيانات والتدريب يكونان قد أصبحا غير فعالين تقريبًا، وإذا أصررت على الاستمرار في التدريب، وتدربت بشكل متواصل حتى تتجاوز 14000 خطوة، فستظهر ما يسمى بـ"الانحراف"، مما يؤدي في النهاية إلى أن يكون الصوت الناتج إما "موسيقى إلكترونية شديدة" أو "لا إنسان ولا شيطان".
هل يشبه هذا خطوات تطوير التداول الكمي؟ عملية استخراج الصوت النقي هي عملية إعطاء الآلة مجموعة بيانات للتعلم الذاتي ونموذج التنبؤ، وإزالة الأجزاء ذات الضوضاء الخلفية الكبيرة تعني تصفية الأوضاع غير الفعالة (الأوضاع التي تتعرض لارتفاعات وانخفاضات حادة خلال دقيقة واحدة)، والتدريب على 8000 خطوة لن يؤدي إلى الإفراط في التكيف بشكل كبير، والتدريب على 14000 خطوة و"الانحراف" (الإفراط في التكيف) يؤدي في النهاية إلى نتائج عملية تشبه رمي العملة.
على الرغم من أننا لسنا في نفس المجال، إلا أن المنطق الأساسي هو نفسه.
ولا أحد يمكنه أن يقول على وجه اليقين، في المستقبل، أن من سيهزمنا ليس من داخل الصناعة نفسها، بل من خارجها يتخطى الحدود، وهذا أمر يصعب التنبؤ به...
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت