Gate News Meldung, 23. April — Forschende von Google, darunter He Kaiming und Xie Saining, haben eine Arbeit veröffentlicht, die Vision Banana vorstellt, ein allgemeines Modell zum Verstehen von Vision, erstellt durch leichtes Instruction-Fine-Tuning des hauseigenen Nano Banana Pro (Gemini 3 Pro Image)-Bildgenerierungsmodells. Die wichtigste Innovation vereint die Ausgaben aller Vision-Aufgaben als RGB-Bilder und ermöglicht Segmentierung, Tiefenschätzung und die Vorhersage von Oberflächennormalen durch Bildgenerierung, ohne aufgaben-spezifische Architekturen oder Verlustfunktionen.
Bei der semantischen Segmentierung übertraf Vision Banana das spezialisierte Modell SAM 3 um 4,7 Prozentpunkte auf Cityscapes; bei der Segmentierung von Bezugsausdrücken übertraf es SAM 3 Agent. Allerdings lag es bei der Instanzsegmentierung hinter SAM 3 zurück. Bei 3D-Aufgaben erreichte die metrische Tiefenschätzung eine durchschnittliche Genauigkeit von 0,929 über vier gängige Datensätze und übertraf damit Depth Anything V3 mit 0,918 — nur mit synthetischen Daten, ohne echte Tiefeninformationen oder Kamera-Parameter bei der Inferenz. Die Schätzung von Oberflächennormalen erzielte Ergebnisse auf dem Stand der Technik auf drei Indoor-Benchmarks.
Das Fine-Tuning bezog nur minimal Daten zu Vision-Aufgaben ein, die mit dem ursprünglichen Training zur Bildgenerierung vermischt wurden, und bewahrte dadurch die Generierungsfähigkeiten des Modells — die Leistung entsprach dem ursprünglichen Nano Banana Pro in Tests zur Generierungsqualität. Die Arbeit schlägt vor, dass das Pretraining zur Bildgenerierung in der Vision dem Pretraining zur Textgenerierung in der Sprache entspricht: Modelle lernen die internen Repräsentationen, die für das Verstehen von Bildern während der Generierung benötigt werden, wobei das Instruction-Fine-Tuning lediglich diese Fähigkeit freischaltet.
Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to
Disclaimer.
Verwandte Artikel
Weißes Haus wirft China vor, ein KI-Modell im „Industrie- Maßstab“ gestohlen zu haben
Das Weiße Haus warnte am 23. April 2026, dass ausländische Akteure, vor allem in China, „kampagnen im industriellen Maßstab“ durchführen, um amerikanische Modelle für künstliche Intelligenz zu kopieren, laut einem Memorandum von Michael Kratsios, Assistant to
CryptoFrontier46M her
OpenClaw 2026.4.22 vereinheitlicht den Plugin-Lebenszyklus in Codex- und Pi-Harnesses und reduziert die Plugin-Ladezeit um bis zu 90%
Gate News Nachricht, 23. April — OpenClaw, eine Open-Source-Plattform für KI-Agenten, hat am 22. April die Version 2026.4.22 veröffentlicht. Die größte Änderung besteht in der Abstimmung der Lebenszyklen des Codex-harness und des Pi-harness. Zuvor verhielten sich Plugins auf den beiden Harness-Pfaden uneinheitlich, wobei einige Hooks in bestimmten Umgebungen fehlten
GateNews1Std her
Reppo Foundation sichert sich eine $20M -Zusage von Bolts Capital für die KI-Trainingsdaten-Infrastruktur
Gate News-Meldung, 23. April — Die Reppo Foundation gab bekannt, dass sie eine strategische Finanzierungszusage in Höhe von $20 Millionen von Bolts Capital erhalten hat, um die Protokollentwicklung und die Erweiterung des Ökosystems voranzutreiben, mit dem Schwerpunkt auf dem Aufbau einer KI-Trainingsdaten-Infrastruktur, die durch Prognosemärkte angetrieben wird.
Reppos
GateNews2Std her
EU will Leitlinien ausarbeiten, die Google dazu verpflichten, Drittanbieter-KI den gleichen Android-Zugriff zu geben wie Gemini
Gate-News-Meldung, 23. April — Die Europäische Union wird Leitlinien ausarbeiten, die Google dazu verpflichten, ChatGPT und Claude auf Android den gleichen Funktionszugriff zu gewähren wie Gemini erhält, heißt es unter Verweis auf Marktausagen. Die Maßnahme soll sicherstellen, dass Drittanbieter-KI-Anwendungen über gleichwertige Berechtigungen und
GateNews2Std her
Cluster Protocol sammelt $5M in der Finanzierung ein, DAO5 führt die Runde an
Gate News-Mitteilung, 23. April — Cluster Protocol, ein Unternehmen für KI-Deep-Tech und Web3-Infrastruktur, gab die erfolgreiche Beendigung einer $5 millionen Finanzierungsrunde bekannt, die von DAO5 angeführt wurde. An der Runde nahmen Paper Ventures, JPEG Trading und Mapleblock Capital teil. Die gesamte bisherige Finanzierung des Unternehmens beläuft sich auf 7,75 Millionen US-Dollar
GateNews3Std her
UAE-Präsident erörtert mit Musk und Fink Chancen in der KI und im Weltraum
Gate-News-Meldung, 23. April — Der Präsident der Vereinigten Arabischen Emirate, Scheich Mohamed bin Zayed Al Nahyan, führte Gespräche mit dem SpaceX-Gründer Elon Musk und dem BlackRock-Vorsitzenden Larry Fink über potenzielle Chancen in der Künstlichen Intelligenz und im Raumfahrtsektor.
Laut den Angaben des UAE-Wam-Nachrichtendienstes sprach Musk telefonisch mit dem Emirati-Anführer)
GateNews3Std her