Googleの Vision Banana:統合型ビジョンモデルが、セグメンテーションと3Dジオメトリにおいてタスク特化モデルを上回る

ゲートニュースのメッセージ、4月23日 — Googleの研究者、He Kaiming と Xie Saining を含むが、Vision Banana を紹介する論文を発表した。Vision Banana は、同社の Nano Banana Pro (Gemini 3 Pro Image) の画像生成モデルを対象に、軽量な指示(インストラクション)のファインチューニングを行って作られた汎用の視覚理解モデル。主な革新は、すべての視覚タスクの出力をRGB画像として統一し、タスク固有のアーキテクチャや損失関数を使わずに画像生成によってセグメンテーション、奥行き推定、表面法線の予測を可能にする点にある。

意味セグメンテーションでは、Vision Banana は Cityscapes で専門モデル SAM 3 を 4.7 パーセントポイント上回った。指示表現セグメンテーションでは、SAM 3 Agent を上回った。だが、インスタンスセグメンテーションでは SAM 3 に遅れをとった。3D タスクでは、指標となる奥行き推定で、4つの標準データセット全体にわたり平均精度 0.929 を達成し、推論時に実際の奥行き情報やカメラパラメータを使わず、合成データのみで Depth Anything V3 の 0.918 を上回った。表面法線推定は、3つの屋内ベンチマークで最先端の結果を達成した。

ファインチューニングでは、元の画像生成学習に最小限の視覚タスクデータを混ぜるだけで、モデルの生成能力を維持した。生成品質テストでは、性能は元の Nano Banana Pro と一致した。論文は、視覚における画像生成の事前学習は、言語におけるテキスト生成の事前学習と並行していると提案する。つまり、モデルは生成中に画像理解に必要な内部表現を学び、指示のファインチューニングはその能力を解放するだけだという。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし