
Google 於 9 tháng 6 năm 2026 công bố trên blog chính thức việc ra mắt Gemini 3.5 Live Translate, đây là mô hình âm thanh mới nhất của Gemini Live API, nhằm loại bỏ tình trạng ngắt quãng hội thoại trong dịch thuật giọng nói thời gian thực do phải chờ kết thúc cả câu. Gemini 3.5 Live Translate tự động phát hiện hơn 70 ngôn ngữ và sử dụng cơ chế tạo liên tục để xuất bản bản dịch.
Các tính năng kỹ thuật đã được xác nhận của Gemini 3.5 Live Translate
Cơ chế dịch: Gemini 3.5 Live Translate áp dụng phương thức “giọng nói sang giọng nói”, động thời điều chỉnh theo thời gian thực giữa “chờ thêm ngữ cảnh để nâng cao độ chính xác” và “xuất ngay để bắt kịp người nói”. Tổng độ trễ bản dịch là vài giây.
Giữ nguyên đặc điểm giọng nói: Bản dịch đầu ra giữ lại ngữ điệu (intonation), nhịp độ (pacing) và cao độ (pitch) của người nói, thay vì được thể hiện như giọng máy đồng nhất.
Khác biệt so với thế hệ trước (Google xác nhận chính thức): Trước đây, hệ thống dịch giọng nói phải chờ người nói hoàn tất một câu đầy đủ rồi mới bắt đầu dịch, gây gián đoạn hội thoại; Gemini 3.5 Live Translate thay cơ chế chờ này bằng phương thức tạo liên tục.
Ba kênh ra mắt đã được xác nhận trong cùng ngày
Dành cho nhà phát triển công khai thử nghiệm: Gemini Live API và Google AI Studio, từ 9 tháng 6 năm 2026 sẽ mở.
Thử nghiệm riêng cho doanh nghiệp: Google Meet phiên bản doanh nghiệp, bắt đầu thử nghiệm riêng từ tháng 6 năm 2026.
Cập nhật toàn cầu cho người dùng: Ứng dụng Google Dịch trên Android và iOS đã được cập nhật đồng bộ; Android còn bổ sung thêm “Chế độ lắng nghe”, khi đưa điện thoại sát tai để dịch giọng nói thì bản dịch sẽ phát ra từ loa ngoài, không cần tai nghe và không ảnh hưởng đến môi trường xung quanh. Google nêu ví dụ các tình huống áp dụng gồm hướng dẫn ngoại ngữ trong bảo tàng hoặc nghe điện thoại bằng ngoại ngữ trong không gian yên tĩnh.
Bức tranh cạnh tranh thị trường và các đối tác đã được xác nhận
Sản phẩm cạnh tranh cùng nhóm (đã ra mắt): Meta SeamlessM4T, bản dịch cuộc gọi thời gian thực của Samsung Galaxy AI, Apple Live Translation, OpenAI Realtime API.
Tích hợp thử nghiệm của Grab (đã xác nhận): Nền tảng gọi xe ở Đông Nam Á Grab đang thử nghiệm để đạt giao tiếp đa ngôn ngữ thời gian thực giữa tài xế và hành khách nhờ Gemini 3.5 Live Translate; người dùng Grab mỗi tháng thực hiện hơn 10 triệu cuộc gọi thoại thông qua nền tảng của họ, ngôn ngữ bao gồm tiếng Thái, tiếng Việt, tiếng Mã Lai, tiếng Indonesia và tiếng Philippines.
Phản hồi từ đối tác hợp tác giai đoạn đầu (đã xác nhận): CJ ENM và LiveKit đều cho biết chất lượng dịch, độ chính xác và độ trễ đạt kỳ vọng.
Câu hỏi thường gặp
Các khác biệt chính giữa Gemini 3.5 Live Translate và tính năng dịch giọng nói của Google trước đó là gì?
Theo phần giới thiệu chính thức của Google, khác biệt chính nằm ở việc thay đổi thời điểm bắt đầu dịch. Trước đây, dịch giọng nói cần chờ người nói nói trọn một câu mới bắt đầu dịch, gây gián đoạn hội thoại; Gemini 3.5 Live Translate áp dụng cơ chế tạo liên tục, khiến tổng độ trễ rút ngắn xuống còn vài giây, đồng thời giữ lại ngữ điệu, nhịp độ và cao độ của người nói.
Cách dùng và các tình huống phù hợp của “Chế độ lắng nghe” trên Android là gì?
“Chế độ lắng nghe” là tính năng mới trên ứng dụng Google Dịch bản Android. Khi người dùng đưa điện thoại sát tai, giọng nói được dịch sẽ được phát ra từ loa ngoài, không cần ghép với tai nghe Bluetooth và cũng không làm ảnh hưởng đến môi trường xung quanh thông qua loa ngoài. Google nêu các tình huống áp dụng gồm hướng dẫn ngoại ngữ trong bảo tàng và bắt máy gọi điện bằng ngoại ngữ ở nơi yên tĩnh.
Gemini 3.5 Live Translate hiện có thể nhận được bằng cách nào?
Tính đến ngày 9 tháng 6 năm 2026, Gemini 3.5 Live Translate được mở qua ba kênh: bản thử nghiệm công khai dành cho nhà phát triển của Gemini Live API và Google AI Studio; bản thử nghiệm riêng cho doanh nghiệp của Google Meet (khởi động trong tháng này); và bản cập nhật toàn cầu cho ứng dụng Google Dịch trên Android và iOS.