GoogleがGemini 3.5のライブ翻訳で70以上の言語の音声翻訳に対応すると発表

Googleは、70以上の言語に対応し、音声から音声へと瞬時に翻訳するスピーチ・トゥ・スピーチのAIモデル「Gemini 3.5 Live Translate」を発表しました。このリリースにより、これまでの特定のGoogle端末やイヤホン向けの要件を超えて、リアルタイム翻訳の利用が拡大し、従来の実装よりも低いレイテンシーを実現しています。Googleは、その先駆的な機械学習の実験の1つとして、長年にわたりリアルタイム翻訳に取り組んできました。これまで同社は、今日のより広範な展開に先立ち、昨年にTranslateアプリで限定的なリアルタイム翻訳を展開していました。

Gemini 3.5 Live Translate の技術仕様とモデルファミリー

Gemini 3.5 Live Translateは、I/Oで発表されたバージョン3.5ファミリーの一部です。今日以前は、Flash版のみが提供されており、Proモデルは今後数週間で登場する見込みでした。スピーチ・トゥ・スピーチのモデルは、70以上の言語を自動的に検出して翻訳するよう調整されています。

Googleによると、Gemini 3.5 Live Translateは通常の会話に追いつくのに十分な速さで、話し手から数秒遅れるだけでありながら、抑揚、話すペース、ピッチも一致させます。このモデルは、汎用的なロボット音声というよりも、元の話し手により近い聞こえ方の音声出力を生成します。同社は、これらの機能を実証するデモを、管理された条件下で収録したものとして公開しています。

Googleエコシステム全体での展開と利用者アクセス

Gemini 3.5 Live Translateは、Googleエコシステムの複数の領域で展開中です。このモデルは、ビデオ通話中のスピーチ翻訳としてGoogle Meetで利用できます。利用者は、長い検証期間を待つことなく、翻訳機能にアクセスできます。

開発者向けAPIアクセスと自動処理機能

開発者は、Gemini Live APIまたはAI Studioでの公開プレビューを通じて、構築を始められます。このモデルは音声を継続的に処理し、あらゆる多言語入力を自動的に処理するため、開発者が設定を手作業で構成する必要がありません。また、騒がしい環境では環境音のノイズを除去します。

よくある質問

Gemini 3.5 Live Translateはどの言語に対応していますか? Gemini 3.5 Live Translateは、自動検出と翻訳機能により70以上の言語に対応しています。

利用者はどこでGemini 3.5 Live Translateにアクセスできますか? このモデルは、スピーチ翻訳のためのGoogle Meetを含むGoogleエコシステムの複数の領域で展開されており、開発者はGemini Live APIまたはAI Studioの公開プレビューを通じて利用できます。

Gemini 3.5 Live Translateは音声処理をどのように扱いますか? このモデルは音声を継続的に処理し、手動での設定なしで多言語入力を自動的に処理するとともに、騒がしい環境で背景ノイズをフィルタしながら、話し手の抑揚、話すペース、ピッチにも合わせます。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし