Vision Banana de Google : un modèle de vision unifié surpasse les modèles conçus pour des tâches spécifiques en segmentation et en géométrie 3D

Message de Gate News, 23 avril — Des chercheurs de Google, dont He Kaiming et Xie Saining, ont publié un article présentant Vision Banana, un modèle polyvalent de compréhension visuelle créé grâce à un réglage fin par instruction léger du modèle de génération d’images Nano Banana Pro (Gemini 3 Pro Image) de l’entreprise. L’innovation clé unifie les sorties de toutes les tâches de vision sous forme d’images RGB, permettant la segmentation, l’estimation de profondeur et la prédiction des normales de surface via la génération d’images, sans architectures ou fonctions de perte spécifiques aux tâches.

En segmentation sémantique, Vision Banana a surpassé le modèle spécialisé SAM 3 de 4,7 points de pourcentage sur Cityscapes ; en segmentation par expressions de référence, il a dépassé SAM 3 Agent. En revanche, il a pris du retard sur SAM 3 en segmentation d’instances. Pour les tâches 3D, l’estimation de profondeur métrique a atteint 0,929 de précision moyenne sur quatre ensembles de données standards, dépassant les 0,918 de Depth Anything V3, en n’utilisant que des données synthétiques sans informations de profondeur réelles ni paramètres de caméra lors de l’inférence. L’estimation des normales de surface a obtenu des résultats à l’état de l’art sur trois bancs d’essai en intérieur.

Le réglage fin a impliqué une quantité minimale de données de tâches visuelles mélangées à l’entraînement initial de génération d’images, préservant les capacités de génération du modèle — les performances étaient conformes au Nano Banana Pro original lors de tests de qualité de génération. L’article propose que le préentraînement à la génération d’images en vision soit analogue au préentraînement de la génération de texte en langage : les modèles apprennent les représentations internes nécessaires à la compréhension d’images pendant la génération, et le réglage fin par instruction ne fait que libérer cette capacité.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Le président des Émirats arabes unis discute des opportunités en matière d’IA et d’espace avec Musk et Fink

Message de Gate News, 23 avril — Le président des Émirats arabes unis, le cheikh Mohamed bin Zayed Al Nahyan, s’est entretenu avec le fondateur de SpaceX, Elon Musk, et avec le président de BlackRock, Larry Fink, au sujet d’opportunités potentielles dans l’intelligence artificielle et le secteur spatial. Selon les Émirats arabes unis

GateNewsIl y a 23m

Google Cloud et CVC s’associent pour accélérer la transformation par agents IA pour les sociétés du portefeuille

Message de Gate News, le 23 avril — Google Cloud et le géant du capital-investissement CVC ont annoncé un partenariat stratégique afin d’accélérer la transformation par agents IA pour CVC et des centaines d’entreprises au sein de son portefeuille d’investissement. La collaboration tirera parti de la plateforme d’intelligence artificielle de Google Cloud et

GateNewsIl y a 44m

Anker dévoile sa première puce d’IA Compute-in-Memory Thus, le PDG promet un investissement illimité dans la technologie avancée

Message de Gate News, 23 avril — Anker Innovation, une marque mondiale leader d’électronique grand public, a dévoilé son premier circuit audio à IA Compute-in-Memory de réseau neuronal (CIM) baptisé Thus™ le 22 avril. Le PDG et fondateur Yang Meng a révélé les trois grandes initiatives technologiques de l’entreprise dans l’IA de périphérie : la puce Thus™ chi

GateNewsIl y a 1h

D’anciens dirigeants de Meta lancent Sooth Labs, une startup de prédiction d’événements IA, lève $50M à $335M de valorisation

Message Gate News, 23 avril — Sooth Labs, un laboratoire de recherche en IA fondé par d’anciens employés de Meta, lève environ $50 million à une valorisation d’environ $335 million, avec Felicis Ventures en tête du tour. Yann LeCun et Jeff Dean, le directeur scientifique de Google, sont des investisseurs participants, tandis que Meta

GateNewsIl y a 1h

La société de données IA Mercor frappée par au moins 7 poursuites collectives pour une violation de données, surveillance informatique

Message de Gate News, 23 avril — La société d’étiquetage de données IA Mercor, valorisée à $10 milliards et basée à San Francisco, fait face, au cours des dernières semaines, à au moins sept poursuites collectives pour des violations de données impliquant des tiers. La société travaille avec des clients, dont OpenAI, Anthropic et Meta, en fournissant des données de retour pour l’entraînement de l’IA via des travailleurs sous contrat

GateNewsIl y a 1h

SpaceX estime le marché adressable total à 28,5 billions de dollars, dont 26,5 T proviennent du secteur de l’IA

Message de Gate News, 23 avril — SpaceX estime son marché adressable total (TAM) à 28,5 billions de dollars, selon des documents internes. La société prévoit qu’afinde 90 % du marché, soit environ 26,5 billions de dollars, proviendront de l’intelligence artificielle. L’IA d’entreprise devrait représenter la majorité des opportunités du marché de l’IA, représentant environ 22,7 billions de dollars de l’ensemble du TAM.

GateNewsIl y a 2h
Commentaire
0/400
Aucun commentaire