Der chinesische KI-Beobachter xiaohu teilte am 10. Mai ein Arbeitsablauf-Beispiel, das GPT und Gemini 3.1 Pro kombiniert: Zuerst erzeugt GPT ein Bild, dann wandelt Gemini 3.1 Pro das Bild in 3D-interaktive Inhalte um. So lassen sich alle Wissens-Themen in dreh- und bedienbare wissenschaftliche Anwendungen umsetzen. In dem von xiaohu geposteten Beispiel werden unter anderem 3D-Planeten-Darstellungen und interaktive Wissenschaftsmodelle gezeigt – das ist eine konkrete Umsetzung eines „Cross-Model-Workflows“ (multi-model workflow).
Aufbau des Workflows: GPT erzeugt Bilder → Gemini 3.1 Pro macht daraus 3D
Das Design des gesamten Workflows besteht aus zwei Phasen:
Phase 1: Mit GPT (GPT-image-1 oder die in ChatGPT integrierte Bildgenerierung) werden thematische Bilder erstellt und visuelle Grundlagen geliefert
Phase 2: Das Bild wird in Gemini 3.1 Pro eingespeist, und Gemini wandelt das 2D-Bild in 3D-interaktive Inhalte um
Ausgabeform: 3D-Objekte, die im Browser gedreht, gezoomt und interaktiv bedient werden können
Geeignete Einsatzszenarien: Wissenschaftsunterricht, Produktpräsentationen, interaktive Wissens-Content
„Cross-Model-Workflow“ ist eine der wichtigsten Schlüsseltrends in der KI-Anwendungsschicht des Jahres 2026 – nicht mehr ist ein einzelnes Modell „Allheilmittel“, Entwickler verbinden die jeweils stärksten Teile verschiedener Modelle und schaffen Anwendungen, die ein einzelnes Modell allein nicht leisten kann.
Konkrete Demonstration: 3D-Planeten, interaktive Wissenschafts-Content, Roboter-Verkaufsseiten
Mehrere Beispiele, die xiaohu parallel veröffentlicht hat:
3D-Planeten-Darstellung: drehbare Sonnensystem-Visualisierung oder ein einzelnes Planetenmodell
Interaktiver Wissenschafts-Content: abstraktes Wissen in 3D visualisieren, geeignet für Bildungszwecke
Zukünftige Website für Robotergeldautomaten: mit GPT-Bildgenerierung plus Tripo-3D-Plattform ein Showroom-artiges Webpage erstellen
Diese Beispiele haben gemeinsam, dass sie „visuelle Generierung + interaktive Umwandlung“ kombinieren: GPT übernimmt die kreative visuelle Komponente, während Gemini oder andere 3D-Tools dafür sorgen, dass statische Bilder in bedienbare interaktive Formen überführt werden. Jede einzelne Komponente allein genommen wäre nicht neu, aber die finale Nutzererfahrung nach der Verkettung ist stärker als bei jedem einzelnen Tool.
Bedeutung: Cross-Model-Workflows werden nach und nach zum gängigen Entwicklungsmodus
Konkrete Erkenntnisse für Entwickler:
Das richtige Tool wählen ist wichtiger als das stärkste Modell auswählen – GPT ist stark bei visueller Generierung, Gemini bei multimodaler Interpretation, Claude bei langem Kontext, jedes hat seine eigenen Sweet Spots
Kosten für die Integration von Modell-APIs sinken, wodurch das Zusammenspiel mehrerer Modelle auf Umsetzungsebene machbar wird
Neue Anwendungen sind sehr wahrscheinlich „Multi-Model-Pipelines“ – nicht nur die Weiterentwicklung „des stärksten Einzelmodells“
Der Wert dieses Vorhabens liegt nicht in einem technischen Durchbruch, sondern in einem Workflow-Design als Vorlage
Nachverfolgbare konkrete Ereignisse: Ob Google die 3D-Generierungsfähigkeit von Gemini 3.1 Pro in nachfolgenden Veranstaltungen offiziell als Produktfunktion ankündigt, ob Cross-Model-Workflows in Frameworks wie LangChain/LlamaIndex vorgefertigte Template-Unterstützung erhalten, und welche konkreten Anwendungsbeispiele es für die Kommerzialisierung gibt (z. B. Bildung, E-Commerce, Marketing).
Dieser Artikel, in dem xiaohu einen Cross-Model-Workflow demonstriert: GPT-Bildgenerierung + Gemini 3.1 Pro für die Umwandlung in 3D-interaktive Inhalte, erschien zuerst bei 鏈新聞 ABMedia.