Google 宣布 Gemini 3.5 可即時語音翻譯,支援 70+ 種語言

Google 宣布 Gemini 3.5 Live Translate,這是一款語音到語音(speech-to-speech)的 AI 模型,可在超過 70 種語言之間提供即時語音到語音翻譯。此次發布擴展了即時翻譯的可用性,超越了先前僅限特定 Google 手機或耳機的要求。其延遲比過往的實作更低。Google 已投入多年來推動即時翻譯,作為其先驅性的機器學習實驗之一;先前也曾在去年於 Translate 應用程式中推出有限的即時翻譯功能,然後才在今天進行更大範圍的部署。

Gemini 3.5 Live Translate 技術規格與模型家族

Gemini 3.5 Live Translate 屬於在 I/O 發表的 3.5 系列版本。就在今天之前,Google 只推出了 Flash 版本,而預計在接下來幾週推出 Pro 模型。該語音到語音模型可調校成自動偵測並翻譯超過 70 種語言。

根據 Google 的說法,Gemini 3.5 Live Translate 足夠快,能跟上一般對話;說話者之後僅延遲幾秒,同時還能匹配語調、節奏與音高。該模型產生的語音輸出聽起來更像原始說話者,而非通用的機器人語音。Google 也釋出了在受控條件下錄製的示範影片,以展示這些能力。

於 Google 生態系的全面部署與使用者存取

Gemini 3.5 Live Translate 正逐步在 Google 生態系的多個部分推出。該模型在 Google Meet 於視訊通話期間提供語音翻譯功能。使用者可在不必等待較長驗證期的情況下存取翻譯能力。

開發者 API 存取與自動處理功能

開發者可透過 Gemini Live API 或 AI Studio 的公開預覽開始使用並進行建置。該模型會持續處理語音,並自動處理所有多語輸入,讓開發者無需手動設定內容。它也能在繁忙環境中過濾背景噪音。

常見問答

Gemini 3.5 Live Translate 支援哪些語言? Gemini 3.5 Live Translate 支援超過 70 種語言,具備自動偵測與翻譯能力。

使用者可以在哪裡存取 Gemini 3.5 Live Translate? 該模型正在 Google 生態系的多個部分推出,包括用於語音翻譯的 Google Meet;開發者也可透過 Gemini Live API 或 AI Studio 的公開預覽存取。

Gemini 3.5 Live Translate 如何處理語音? 該模型會持續處理語音,自動處理多語輸入而無需手動設定,並能在繁忙環境中過濾背景噪音,同時也能匹配說話者的語調、節奏與音高。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆