Google công bố Gemini 3.5 Live Translate cho dịch thuật giọng nói hơn 70 ngôn ngữ

Google đã công bố Gemini 3.5 Live Translate, một mô hình AI chuyển giọng nói sang giọng nói (speech-to-speech) cung cấp dịch thuật tức thì giọng-đối-giọng trên hơn 70 ngôn ngữ. Bản ra mắt mở rộng khả năng dịch thời gian thực vượt xa các yêu cầu trước đó dành cho một số điện thoại hoặc tai nghe Google cụ thể, đồng thời có độ trễ thấp hơn so với các triển khai trước. Google đã theo đuổi dịch thời gian thực trong nhiều năm như một trong những thí nghiệm máy học tiên phong của hãng; trước đây, hãng đã tung ra dịch thời gian thực giới hạn trong ứng dụng Translate vào năm ngoái trước khi triển khai rộng rãi hơn như hôm nay.

Gemini 3.5 Live Translate Thông số kỹ thuật và Họ mô hình

Gemini 3.5 Live Translate thuộc họ phiên bản 3.5 đã ra mắt tại I/O. Trước hôm nay, Google chỉ triển khai phiên bản Flash, và một mô hình Pro dự kiến sẽ được phát hành trong vài tuần tới. Mô hình chuyển giọng sang giọng được tinh chỉnh để tự động nhận diện và dịch trên hơn 70 ngôn ngữ.

Theo Google, Gemini 3.5 Live Translate đủ nhanh để bắt kịp một cuộc trò chuyện bình thường, chỉ chậm hơn người nói vài giây đồng thời vẫn khớp nhịp điệu, tốc độ và cao độ. Mô hình tạo ra đầu ra giọng nói nghe giống người nói gốc hơn so với một robot chung chung. Google đã phát hành các bản demo được ghi lại trong điều kiện kiểm soát, cho thấy những khả năng này.

Triển khai trên hệ sinh thái Google và khả năng truy cập của người dùng

Gemini 3.5 Live Translate đang được triển khai trên một số mảng của hệ sinh thái Google. Mô hình có sẵn trong Google Meet để dịch giọng nói trong các cuộc gọi video. Người dùng có thể truy cập các tính năng dịch thuật mà không phải chờ các giai đoạn xác minh kéo dài.

Truy cập API cho nhà phát triển và các tính năng xử lý tự động

Các nhà phát triển có thể bắt đầu xây dựng với bản xem trước công khai trong Gemini Live API hoặc AI Studio. Mô hình xử lý giọng nói liên tục và tự động xử lý mọi đầu vào đa ngôn ngữ, giúp nhà phát triển không phải tự cấu hình cài đặt thủ công. Mô hình cũng lọc nhiễu nền trong các môi trường đông đúc.

Câu hỏi thường gặp

Gemini 3.5 Live Translate hỗ trợ những ngôn ngữ nào?
Gemini 3.5 Live Translate hỗ trợ hơn 70 ngôn ngữ với khả năng nhận diện và dịch tự động.

Người dùng có thể truy cập Gemini 3.5 Live Translate ở đâu?
Mô hình đang được triển khai trên nhiều phần của hệ sinh thái Google, bao gồm Google Meet để dịch giọng nói, và nhà phát triển có thể truy cập thông qua bản xem trước công khai của Gemini Live API hoặc AI Studio.

Gemini 3.5 Live Translate xử lý giọng nói như thế nào?
Mô hình xử lý giọng nói liên tục, tự động xử lý các đầu vào đa ngôn ngữ mà không cần cấu hình thủ công, đồng thời lọc nhiễu nền trong môi trường đông đúc trong khi vẫn khớp nhịp điệu, tốc độ và cao độ của người nói.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận