Googleは、70以上の言語に対応し、音声から音声へと瞬時に翻訳するスピーチ・トゥ・スピーチのAIモデル「Gemini 3.5 Live Translate」を発表しました。このリリースにより、これまでの特定のGoogle端末やイヤホン向けの要件を超えて、リアルタイム翻訳の利用が拡大し、従来の実装よりも低いレイテンシーを実現しています。Googleは、その先駆的な機械学習の実験の1つとして、長年にわたりリアルタイム翻訳に取り組んできました。これまで同社は、今日のより広範な展開に先立ち、昨年にTranslateアプリで限定的なリアルタイム翻訳を展開していました。
Gemini 3.5 Live Translate の技術仕様とモデルファミリー
Gemini 3.5 Live Translateは、I/Oで発表されたバージョン3.5ファミリーの一部です。今日以前は、Flash版のみが提供されており、Proモデルは今後数週間で登場する見込みでした。スピーチ・トゥ・スピーチのモデルは、70以上の言語を自動的に検出して翻訳するよう調整されています。
Googleによると、Gemini 3.5 Live Translateは通常の会話に追いつくのに十分な速さで、話し手から数秒遅れるだけでありながら、抑揚、話すペース、ピッチも一致させます。このモデルは、汎用的なロボット音声というよりも、元の話し手により近い聞こえ方の音声出力を生成します。同社は、これらの機能を実証するデモを、管理された条件下で収録したものとして公開しています。
Googleエコシステム全体での展開と利用者アクセス
Gemini 3.5 Live Translateは、Googleエコシステムの複数の領域で展開中です。このモデルは、ビデオ通話中のスピーチ翻訳としてGoogle Meetで利用できます。利用者は、長い検証期間を待つことなく、翻訳機能にアクセスできます。
開発者向けAPIアクセスと自動処理機能
開発者は、Gemini Live APIまたはAI Studioでの公開プレビューを通じて、構築を始められます。このモデルは音声を継続的に処理し、あらゆる多言語入力を自動的に処理するため、開発者が設定を手作業で構成する必要がありません。また、騒がしい環境では環境音のノイズを除去します。
よくある質問
Gemini 3.5 Live Translateはどの言語に対応していますか?
Gemini 3.5 Live Translateは、自動検出と翻訳機能により70以上の言語に対応しています。
利用者はどこでGemini 3.5 Live Translateにアクセスできますか?
このモデルは、スピーチ翻訳のためのGoogle Meetを含むGoogleエコシステムの複数の領域で展開されており、開発者はGemini Live APIまたはAI Studioの公開プレビューを通じて利用できます。
Gemini 3.5 Live Translateは音声処理をどのように扱いますか?
このモデルは音声を継続的に処理し、手動での設定なしで多言語入力を自動的に処理するとともに、騒がしい環境で背景ノイズをフィルタしながら、話し手の抑揚、話すペース、ピッチにも合わせます。