XAI Grok เปิดให้ปรับ Custom Voices: โคลนเสียงใน 2 นาที, การยืนยันตัวตนแบบ 2 ขั้นตอน

ChainNewsAbmedia

xAI 2 พฤษภาคม เปิดตัวฟีเจอร์ Grok Custom Voices ผ่านบล็อกทางการ โดยผู้ใช้เพียงบันทึกเสียงพูดแบบเป็นธรรมชาติราว 1 นาทีในแดชบอร์ดของ xAI ระบบจะประมวลผลให้เสร็จภายใน 2 นาที และได้โมเดลเสียงแบบกำหนดเองที่ใช้ได้กับทั้ง TTS และ Voice Agent API พร้อมกันนี้ยังเปิดตัวโมเดล Grok 4.3 และอินเทอร์เฟซ Voice Library สำหรับรวบรวมทรัพยากรเสียงทั้งหมด Custom Voices ยังออกแบบกลไกยืนยันตัวตนแบบ 2 ขั้นตอน เพื่อลดความเสี่ยงจากการโคลนเสียงผู้อื่น

ฟีเจอร์: บันทึก 1 นาที, สร้าง 2 นาที, ผสานรวม TTS และ Voice Agent API

ผู้ใช้บันทึกเสียงพูดแบบเป็นธรรมชาติราว 1 นาทีในแดชบอร์ดของ xAI จากนั้นกระบวนการหลังบ้านจะดำเนินตามลำดับดังนี้: (1) การยืนยันตัวตน (2) การประมวลผลเสียง (3) การสร้างผลผลิตเป็นโมเดล โดยรวมแล้วภายใน 2 นาทีจะได้โมเดลเสียงที่นำไปใช้งานได้ Custom Voices สืบทอดความสามารถทั้งหมดของ TTS รวมถึง speech tags (แท็กเสียง) เอาต์พุตหลายภาษา และการสตรีมแบบ REST และ WebSocket สามารถนำไปใช้งานร่วมกับปลายทาง TTS ของ xAI หรือ Voice Agent API เพื่อสนทนาแบบเรียลไทม์กับเอเจนต์

Voice Library ที่เปิดพร้อมกันคืออินเทอร์เฟซสำหรับจัดการทรัพยากรเสียงทั้งหมดแบบศูนย์กลางในแดชบอร์ดของ xAI สามารถเรียกดู ดูตัวอย่าง และจัดการเสียงที่ผู้ใช้สร้างเองรวมถึงเสียงที่เตรียมไว้ เพื่อหลีกเลี่ยงการกระจายอยู่หลายหน้าจอ โดยคลังเสียงที่เตรียมไว้มีเสียงมากกว่า 80 แบบ และรองรับ 28 ภาษา

การยืนยันตัวตนแบบ 2 ขั้นตอน: ป้องกันการโคลนเสียงผู้อื่น

ก่อนการสร้างเสียง Custom Voices จะตั้งด่านยืนยันตัวตน 2 ชั้น: ชั้นที่ 1 ให้ผู้ใช้อ่านประโยคสำหรับยืนยัน ระบบจะถอดเสียงประโยคนั้นแบบทันที; ชั้นที่ 2 ระบบจะคำนวณ speaker embedding (เวกเตอร์ลักษณะเฉพาะของผู้พูด) จากทั้งประโยคยืนยันและบันทึกเสียงเต็ม จากนั้นนำมาเทียบว่าทั้งสองสอดคล้องกับบุคคลเดียวกันหรือไม่ หากผ่านทั้ง 2 ขั้นเท่านั้น จึงจะเข้าสู่ขั้นตอนการสร้างผลผลิตโมเดลเสียง

xAI ชัดเจนว่า ผู้ใช้ไม่สามารถใช้ไฟล์บันทึกเสียงที่มีอยู่เพื่อโคลนเสียงได้ และไม่สามารถโคลนเสียงของผู้อื่นได้ การออกแบบนี้ตัดโอกาสการใช้งานแบบ “นำเอาการบันทึกการพูดในที่สาธารณะของผู้อื่นที่เปิดเผยอยู่แล้วมาแค่ก็อปปี้” โดยจำกัดขอบเขตการโคลนเสียงไว้ที่ “การบันทึกแบบเรียลไทม์โดยตัวผู้ใช้เอง” เท่านั้น สำหรับผู้ที่ติดตามประเด็นการนำการสร้างเสียงด้วย AI ไปใช้ในทางที่ผิด (เช่น การโทรหลอกลวงหรือการพากย์เสียงโดยไม่ได้รับอนุญาต) กลไกนี้ถือเป็นคำตอบที่เป็นรูปธรรมของ xAI ต่อประเด็นการปลอมแปลง

การสังเกตในระยะถัดไป: ไปพร้อม Grok 4.3 และจังหวะการขยาย Voice Library

Custom Voices และโมเดล Grok 4.3 เปิดตัวในวันเดียวกัน โดย xAI ผูก “การอัปเกรดโมเดล + ทำให้เครื่องมือด้านเสียงครบถ้วนขึ้น” ไว้ในประกาศรอบเดียวกัน จุดสังเกตต่อไปคือจังหวะการขยายคลังเสียงที่เตรียมไว้ของ Voice Library จาก 80 แบบขึ้นไป และแผนที่รองรับ 28 ภาษา จะสามารถครอบคลุมภาษาจีนตัวเต็มและภาษากลุ่มย่อยอื่น ๆ เพิ่มเติมได้หรือไม่ อีกจุดสังเกตคือการเปิดเผยเคสการนำ Voice Agent API ไปใช้จริง โดยเฉพาะตัวอย่างการบูรณาการในสถานการณ์อย่างระบบบริการลูกค้าอัตโนมัติ การผลิตพอดแคสต์ และการบริการลูกค้าหลายภาษา

บทความนี้ xAI Grok เปิด Custom Voices: โคลนใน 2 นาที, ยืนยันตัวตนแบบ 2 ขั้นตอน เผยแพร่ครั้งแรกที่ 鏈新聞 ABMedia

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น