Google đã công bố Gemini 3.5 Live Translate, một mô hình AI chuyển giọng nói sang giọng nói (speech-to-speech) cung cấp dịch thuật tức thì giọng-đối-giọng trên hơn 70 ngôn ngữ. Bản ra mắt mở rộng khả năng dịch thời gian thực vượt xa các yêu cầu trước đó dành cho một số điện thoại hoặc tai nghe Google cụ thể, đồng thời có độ trễ thấp hơn so với các triển khai trước. Google đã theo đuổi dịch thời gian thực trong nhiều năm như một trong những thí nghiệm máy học tiên phong của hãng; trước đây, hãng đã tung ra dịch thời gian thực giới hạn trong ứng dụng Translate vào năm ngoái trước khi triển khai rộng rãi hơn như hôm nay.
Gemini 3.5 Live Translate Thông số kỹ thuật và Họ mô hình
Gemini 3.5 Live Translate thuộc họ phiên bản 3.5 đã ra mắt tại I/O. Trước hôm nay, Google chỉ triển khai phiên bản Flash, và một mô hình Pro dự kiến sẽ được phát hành trong vài tuần tới. Mô hình chuyển giọng sang giọng được tinh chỉnh để tự động nhận diện và dịch trên hơn 70 ngôn ngữ.
Theo Google, Gemini 3.5 Live Translate đủ nhanh để bắt kịp một cuộc trò chuyện bình thường, chỉ chậm hơn người nói vài giây đồng thời vẫn khớp nhịp điệu, tốc độ và cao độ. Mô hình tạo ra đầu ra giọng nói nghe giống người nói gốc hơn so với một robot chung chung. Google đã phát hành các bản demo được ghi lại trong điều kiện kiểm soát, cho thấy những khả năng này.
Triển khai trên hệ sinh thái Google và khả năng truy cập của người dùng
Gemini 3.5 Live Translate đang được triển khai trên một số mảng của hệ sinh thái Google. Mô hình có sẵn trong Google Meet để dịch giọng nói trong các cuộc gọi video. Người dùng có thể truy cập các tính năng dịch thuật mà không phải chờ các giai đoạn xác minh kéo dài.
Truy cập API cho nhà phát triển và các tính năng xử lý tự động
Các nhà phát triển có thể bắt đầu xây dựng với bản xem trước công khai trong Gemini Live API hoặc AI Studio. Mô hình xử lý giọng nói liên tục và tự động xử lý mọi đầu vào đa ngôn ngữ, giúp nhà phát triển không phải tự cấu hình cài đặt thủ công. Mô hình cũng lọc nhiễu nền trong các môi trường đông đúc.
Câu hỏi thường gặp
Gemini 3.5 Live Translate hỗ trợ những ngôn ngữ nào?
Gemini 3.5 Live Translate hỗ trợ hơn 70 ngôn ngữ với khả năng nhận diện và dịch tự động.
Người dùng có thể truy cập Gemini 3.5 Live Translate ở đâu?
Mô hình đang được triển khai trên nhiều phần của hệ sinh thái Google, bao gồm Google Meet để dịch giọng nói, và nhà phát triển có thể truy cập thông qua bản xem trước công khai của Gemini Live API hoặc AI Studio.
Gemini 3.5 Live Translate xử lý giọng nói như thế nào?
Mô hình xử lý giọng nói liên tục, tự động xử lý các đầu vào đa ngôn ngữ mà không cần cấu hình thủ công, đồng thời lọc nhiễu nền trong môi trường đông đúc trong khi vẫn khớp nhịp điệu, tốc độ và cao độ của người nói.