
Google ประกาศเปิดตัว Gemini 3.5 Live Translate เมื่อวันที่ 9 มิถุนายน ในบล็อกทางการ โดยเป็นโมเดลเสียงล่าสุดของ Gemini Live API เป้าหมายคือขจัดการสะดุดของบทสนทนาในการแปลเสียงแบบเรียลไทม์ที่เกิดจากการรอให้ประโยคจบ Gemini 3.5 Live Translate ตรวจจับภาษาได้มากกว่า 70 ภาษาโดยอัตโนมัติ และใช้การสร้างแบบต่อเนื่องเพื่อส่งออกคำแปล
กลไกการแปล: Gemini 3.5 Live Translate ใช้วิธีการแปลแบบ “เสียงต่อเสียง” (voice-to-voice) โดยจะปรับแบบเรียลไทม์ระหว่าง “รอข้อมูลบริบทเพิ่มเติมเพื่อเพิ่มความแม่นยำ” กับ “แปลและส่งออกทันทีเพื่อให้ทันผู้พูด” ทำให้โดยรวมแล้วความหน่วงของการแปลอยู่ที่ระดับไม่กี่วินาที
การคงไว้ซึ่งลักษณะเสียง: ผลลัพธ์การแปลยังคงโทนการพูดของผู้พูด (intonation) จังหวะ (pacing) และระดับเสียง (pitch) ไม่ได้แสดงออกมาในรูปแบบเสียงเครื่องแบบเดียวกัน
ความแตกต่างจากรุ่นก่อน (Google ยืนยันอย่างเป็นทางการ): ระบบแปลเสียงก่อนหน้านี้ต้องรอให้ผู้พูดพูดจบทั้งประโยคก่อนเริ่มแปล ทำให้เกิดการสะดุดในบทสนทนา ขณะที่ Gemini 3.5 Live Translate ใช้วิธีสร้างแบบต่อเนื่องเข้ามาแทนกลไกการรอเช่นนั้น
เดฟเว่ลอปเปอร์ติดตามชมแบบเปิด: Gemini Live API และ Google AI Studio เริ่มเปิดให้ตั้งแต่ 9 มิถุนายน 2026
พรีวิวส่วนตัวสำหรับองค์กร: Google Meet เวอร์ชันองค์กร เริ่มเปิดพรีวิวส่วนตัวตั้งแต่เดือนมิถุนายน 2026
อัปเดตทั่วโลกสำหรับผู้บริโภค: แอป Google แปล เวอร์ชัน Android และ iOS ได้รับการอัปเดตพร้อมกัน โดย Android เพิ่มฟีเจอร์ “โหมดฟัง” (Listening mode) อีกด้วย คือเมื่อผู้ใช้ยกโทรศัพท์แนบหู ระบบจะแปลงเสียงที่ได้จากการพูดและส่งออกให้ได้ยินจากลำโพงหู โดยไม่จำเป็นต้องใช้หูฟังและไม่รบกวนสภาพแวดล้อมรอบข้าง Google ยกตัวอย่างสถานการณ์ที่เหมาะสม เช่น ทัวร์ไกด์ภาษาต่างประเทศนอกพิพิธภัณฑ์ หรือการรับสายโทรศัพท์ภาษาต่างประเทศในบรรยากาศเงียบ
คู่แข่งในกลุ่มเดียวกัน (เปิดให้ใช้งานแล้ว): Meta SeamlessM4T, การแปลสายสนทนาแบบเรียลไทม์ของ Samsung Galaxy AI, Apple Live Translation, OpenAI Realtime API
ทดสอบการผนวกรวมกับ Grab (ได้รับการยืนยัน): แพลตฟอร์มเรียกรถในเอเชียตะวันออกเฉียงใต้ Grab กำลังทดสอบการใช้ Gemini 3.5 Live Translate เพื่อทำให้คนขับและผู้โดยสารสื่อสารได้ทันทีหลายภาษา โดยผู้ใช้ Grab โทรผ่านแพลตฟอร์มของตนมากกว่า 10,000,000 สายต่อเดือน ครอบคลุมภาษาต่างๆ ได้แก่ ภาษาไทย เวียดนาม มาเลย์ อินโดนีเซีย และฟิลิปปินส์
ฟีดแบ็กจากพาร์ทเนอร์ยุคแรก (ได้รับการยืนยัน): CJ ENM และ LiveKit ระบุว่าคุณภาพการแปล ความแม่นยำ และความหน่วงอยู่ในระดับที่คาดหวัง
จากคำอธิบายอย่างเป็นทางการของ Google ความแตกต่างหลักอยู่ที่ช่วงเวลาของการแปล เดิมระบบแปลเสียงต้องรอให้ผู้พูดพูดจบทั้งประโยคก่อนเริ่มแปล ทำให้บทสนทนาสะดุด ขณะที่ Gemini 3.5 Live Translate ใช้วิธีสร้างแบบต่อเนื่อง ทำให้ความหน่วงโดยรวมลดลงเหลือไม่กี่วินาที พร้อมทั้งยังคงโทนการพูด จังหวะ และระดับเสียงของผู้พูดไว้
“โหมดฟัง” เป็นฟีเจอร์ใหม่ของ Google แปลบน Android เมื่อผู้ใช้ยกโทรศัพท์แนบหู ระบบจะเล่นเสียงที่ได้จากการแปลผ่านลำโพงหูโดยตรง ไม่ต้องใช้หูฟังบลูทูธ และไม่ส่งผลให้เสียงจากลำโพงภายนอกรบกวนสภาพแวดล้อมรอบข้าง Google ยกตัวอย่างสถานการณ์ที่เหมาะสม เช่น ทัวร์ไกด์ภาษาต่างประเทศในพิพิธภัณฑ์ และการรับสายโทรศัพท์ภาษาต่างประเทศในที่ที่เงียบ
ณ วันที่ 9 มิถุนายน 2026 Gemini 3.5 Live Translate เปิดให้ผ่าน 3 ช่องทาง ได้แก่ การพรีวิวแบบเปิดสำหรับนักพัฒนาผ่าน Gemini Live API และ Google AI Studio, พรีวิวส่วนตัวของ Google Meet สำหรับองค์กร (เริ่มในเดือนนี้) และอัปเดตทั่วโลกของแอป Google แปลบน Android และ iOS
news.related.news
Google ประกาศ Gemini 3.5 รองรับการแปลสดแบบถ่ายทอดด้วยเสียงสำหรับกว่า 70 ภาษา
สหภาพยุโรปสั่งให้ Meta คืนการเข้าถึงฟีเจอร์ AI ของ WhatsApp ภายใน 5 วัน
Apple ยืนยันว่า AI ของ Siri ทำงานบนเซิร์ฟเวอร์ของ Google ขณะยังคงยืนยันเรื่องความเป็นส่วนตัว
งาน WWDC 2026 ของ Apple: จับมือกับ Google Gemini อัปเกรด Siri ให้เป็น AI ขึ้น, iOS 27 เปิดตัวแอปแบบสแตนด์อโลน