การอัปเกรดการแปลของ Google Gemini 3.5: ยุติการสะดุดของการล่ามแบบเรียลไทม์ 70 ภาษา

Google翻譯升級

Google ประกาศเปิดตัว Gemini 3.5 Live Translate เมื่อวันที่ 9 มิถุนายน ในบล็อกทางการ โดยเป็นโมเดลเสียงล่าสุดของ Gemini Live API เป้าหมายคือขจัดการสะดุดของบทสนทนาในการแปลเสียงแบบเรียลไทม์ที่เกิดจากการรอให้ประโยคจบ Gemini 3.5 Live Translate ตรวจจับภาษาได้มากกว่า 70 ภาษาโดยอัตโนมัติ และใช้การสร้างแบบต่อเนื่องเพื่อส่งออกคำแปล

คุณสมบัติทางเทคนิคที่ได้รับการยืนยันของ Gemini 3.5 Live Translate

กลไกการแปล: Gemini 3.5 Live Translate ใช้วิธีการแปลแบบ “เสียงต่อเสียง” (voice-to-voice) โดยจะปรับแบบเรียลไทม์ระหว่าง “รอข้อมูลบริบทเพิ่มเติมเพื่อเพิ่มความแม่นยำ” กับ “แปลและส่งออกทันทีเพื่อให้ทันผู้พูด” ทำให้โดยรวมแล้วความหน่วงของการแปลอยู่ที่ระดับไม่กี่วินาที

การคงไว้ซึ่งลักษณะเสียง: ผลลัพธ์การแปลยังคงโทนการพูดของผู้พูด (intonation) จังหวะ (pacing) และระดับเสียง (pitch) ไม่ได้แสดงออกมาในรูปแบบเสียงเครื่องแบบเดียวกัน

ความแตกต่างจากรุ่นก่อน (Google ยืนยันอย่างเป็นทางการ): ระบบแปลเสียงก่อนหน้านี้ต้องรอให้ผู้พูดพูดจบทั้งประโยคก่อนเริ่มแปล ทำให้เกิดการสะดุดในบทสนทนา ขณะที่ Gemini 3.5 Live Translate ใช้วิธีสร้างแบบต่อเนื่องเข้ามาแทนกลไกการรอเช่นนั้น

ช่องทางเปิดตัวในวันเดียวกันที่ได้รับการยืนยัน 3 ช่องทาง

เดฟเว่ลอปเปอร์ติดตามชมแบบเปิด: Gemini Live API และ Google AI Studio เริ่มเปิดให้ตั้งแต่ 9 มิถุนายน 2026

พรีวิวส่วนตัวสำหรับองค์กร: Google Meet เวอร์ชันองค์กร เริ่มเปิดพรีวิวส่วนตัวตั้งแต่เดือนมิถุนายน 2026

อัปเดตทั่วโลกสำหรับผู้บริโภค: แอป Google แปล เวอร์ชัน Android และ iOS ได้รับการอัปเดตพร้อมกัน โดย Android เพิ่มฟีเจอร์ “โหมดฟัง” (Listening mode) อีกด้วย คือเมื่อผู้ใช้ยกโทรศัพท์แนบหู ระบบจะแปลงเสียงที่ได้จากการพูดและส่งออกให้ได้ยินจากลำโพงหู โดยไม่จำเป็นต้องใช้หูฟังและไม่รบกวนสภาพแวดล้อมรอบข้าง Google ยกตัวอย่างสถานการณ์ที่เหมาะสม เช่น ทัวร์ไกด์ภาษาต่างประเทศนอกพิพิธภัณฑ์ หรือการรับสายโทรศัพท์ภาษาต่างประเทศในบรรยากาศเงียบ

ภาพการแข่งขันในตลาดและพาร์ทเนอร์ที่ได้รับการยืนยัน

คู่แข่งในกลุ่มเดียวกัน (เปิดให้ใช้งานแล้ว): Meta SeamlessM4T, การแปลสายสนทนาแบบเรียลไทม์ของ Samsung Galaxy AI, Apple Live Translation, OpenAI Realtime API

ทดสอบการผนวกรวมกับ Grab (ได้รับการยืนยัน): แพลตฟอร์มเรียกรถในเอเชียตะวันออกเฉียงใต้ Grab กำลังทดสอบการใช้ Gemini 3.5 Live Translate เพื่อทำให้คนขับและผู้โดยสารสื่อสารได้ทันทีหลายภาษา โดยผู้ใช้ Grab โทรผ่านแพลตฟอร์มของตนมากกว่า 10,000,000 สายต่อเดือน ครอบคลุมภาษาต่างๆ ได้แก่ ภาษาไทย เวียดนาม มาเลย์ อินโดนีเซีย และฟิลิปปินส์

ฟีดแบ็กจากพาร์ทเนอร์ยุคแรก (ได้รับการยืนยัน): CJ ENM และ LiveKit ระบุว่าคุณภาพการแปล ความแม่นยำ และความหน่วงอยู่ในระดับที่คาดหวัง

คำถามที่พบบ่อย

ความแตกต่างหลักระหว่าง Gemini 3.5 Live Translate กับฟีเจอร์เสียงแปลของ Google รุ่นก่อนหน้าคืออะไร?

จากคำอธิบายอย่างเป็นทางการของ Google ความแตกต่างหลักอยู่ที่ช่วงเวลาของการแปล เดิมระบบแปลเสียงต้องรอให้ผู้พูดพูดจบทั้งประโยคก่อนเริ่มแปล ทำให้บทสนทนาสะดุด ขณะที่ Gemini 3.5 Live Translate ใช้วิธีสร้างแบบต่อเนื่อง ทำให้ความหน่วงโดยรวมลดลงเหลือไม่กี่วินาที พร้อมทั้งยังคงโทนการพูด จังหวะ และระดับเสียงของผู้พูดไว้

วิธีใช้งาน “โหมดฟัง” บน Android และเหมาะกับสถานการณ์ใด?

“โหมดฟัง” เป็นฟีเจอร์ใหม่ของ Google แปลบน Android เมื่อผู้ใช้ยกโทรศัพท์แนบหู ระบบจะเล่นเสียงที่ได้จากการแปลผ่านลำโพงหูโดยตรง ไม่ต้องใช้หูฟังบลูทูธ และไม่ส่งผลให้เสียงจากลำโพงภายนอกรบกวนสภาพแวดล้อมรอบข้าง Google ยกตัวอย่างสถานการณ์ที่เหมาะสม เช่น ทัวร์ไกด์ภาษาต่างประเทศในพิพิธภัณฑ์ และการรับสายโทรศัพท์ภาษาต่างประเทศในที่ที่เงียบ

ตอนนี้ Gemini 3.5 Live Translate มีวิธีรับอย่างไร?

ณ วันที่ 9 มิถุนายน 2026 Gemini 3.5 Live Translate เปิดให้ผ่าน 3 ช่องทาง ได้แก่ การพรีวิวแบบเปิดสำหรับนักพัฒนาผ่าน Gemini Live API และ Google AI Studio, พรีวิวส่วนตัวของ Google Meet สำหรับองค์กร (เริ่มในเดือนนี้) และอัปเดตทั่วโลกของแอป Google แปลบน Android และ iOS

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น