Xiaomi เปิดซอร์ส OmniVoice โมเดลโคลนเสียงแบบ Zero-Shot รองรับ 646 ภาษา

ตามการรายงานของ Beating ทีม Kaldi ของ AI Lab ของ Xiaomi ได้ปล่อยโอเพ่นซอร์ส OmniVoice ซึ่งเป็นโมเดล TTS โคลนเสียงแบบ zero-shot รองรับ 646 ภาษา โมเดลนี้โคลนลักษณะเสียงจากเพียงไม่กี่วินาทีของเสียงอ้างอิง และทำงานได้ข้ามภาษา—เสียงเดียวสามารถสังเคราะห์คำพูดได้ทั้งภาษาจีน ญี่ปุ่น เกาหลี และภาษาอื่นๆ ทั้งหมด ทั้งโค้ด น้ำหนัก และข้อมูลการฝึก ถูกเปิดซอร์สภายใต้ใบอนุญาต Apache-2.0

OmniVoice ใช้สถาปัตยกรรมที่เรียบง่ายด้วย Transformer แบบสองทิศทางเพียงตัวเดียว ซึ่งแมปข้อความไปยังโทเคนเสียงเชิงไม่ต่อเนื่องโดยตรง ทำให้การอนุมานเร็วกว่าเรียลไทม์ถึง 40 เท่าใน PyTorch โมเดลนี้ฝึกบนข้อมูลเสียง 580,000 ชั่วโมงจาก 50 ชุดข้อมูลโอเพ่นซอร์ส OmniVoice ทำผลงานได้ดีกว่าระบบเชิงพาณิชย์ในด้านความเหมือนของเสียงและความเข้าใจได้ใน 24 ภาษา ที่ทดสอบ และทำได้เท่าหรือเหนือกว่าการบันทึกของมนุษย์ใน 102 ภาษา

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น