
Google hat am 19. Mai 2026 auf der Google I/O 2026 die ersten Produkte der Gemini Omni-Serie angekündigt – Gemini Omni Flash – und am 22. Mai die technischen Details offiziell auf der offiziellen Website veröffentlicht. Die ersten integrierten Plattformen umfassen die Gemini-App, Google Flow und YouTube Shorts.
Bestätigte Kernfunktionen von Gemini Omni Flash
Dialogbasierte Video-Bearbeitung: Nutzer bearbeiten Videos über natürliche Sprachbefehle, wobei jeder Befehl auf der Grundlage des vorherigen Befehls kumulativ ausgeführt wird; das Modell hält die Rollen- Konsistenz aufrecht, sorgt für zuverlässige physikalische Effekte und eine Szenen-Erinnerung, unterstützt das Ändern von Hintergrund, Stil, Winkel oder konkreten Details, ohne dass der gesamte Clip neu generiert werden muss.
Erweiterte physikbasierte Engine-Simulation: Omnis intuitive Verfassung des Verständnisses von Gravitation, Impuls und Strömungsdynamik stärkt die Realitätsnähe der Szene und ermöglicht es Nutzern, präzisere physikalische Effekte zu erstellen, etwa dynamische Szenen wie Objektkollisionen, das Fließen von Flüssigkeiten und Kettenreaktionen.
Multimodale Eingabe-Generierung: Omni kann beliebige Eingaben (Bilder, Text, Videosequenzen, Audio) als eine einzelne Anweisung verarbeiten und ein einheitliches Ausgabe-Content erzeugen; in der Startphase unterstützt die Audioeingabe Sprach-Zitate, weitere Arten von Audioeingaben werden später eingeführt.
Wissensintegration und Konzept-Visualisierung: Omni greift auf Geminis Wissen über Geschichte, Wissenschaft und kulturellen Kontext zurück und geht über reines Muster-Matching hinaus. Es kann auf Basis kurzer Hinweise erklärende Inhalte erzeugen, zum Beispiel komplexe wissenschaftliche Konzepte wie das Falten von Proteinen mit einer Claymation erklären.
Funktion für digitale virtuelle Avatare: Nutzer können digitale Versionen erstellen, die die eigene Stimme enthalten, und Videos generieren, deren Aussehen und Ton sowohl der eigenen Person als auch der eigenen Stimme ähneln; Audio- und Sprachbearbeitungsfunktionen befinden sich weiterhin in der Testphase und sind noch nicht für alle Nutzer verfügbar.
SynthID-Wasserzeichen: Bestätigtes Mechanismus-Setup für Transparenz von KI-Inhalten
Alle über Gemini Omni erstellten Videos werden automatisch mit SynthID-Digital-Wasserzeichen versehen. Dabei handelt es sich um eine von Google DeepMind entwickelte unsichtbare Wasserzeichentechnologie. Das Einbetten beeinträchtigt nicht die visuelle Qualität des Videos. Nutzer können über drei bestätigte Kanäle prüfen, ob ein Video von Gemini Omni generiert wurde: Gemini in der App, Gemini im Chrome-Browser und Google Search. Google erklärt, dass das SynthID-Verifizierungs-Tool darauf ausgelegt ist, Nutzern zu helfen, zu verstehen, wie Inhalte im Internet erstellt und bearbeitet werden – als Bestandteil seiner Richtlinie für verantwortungsvolle KI-Entwicklung.
Bestätigte Zugangswege und Release-Zeitplan
Sofort verfügbar: Google AI Plus, Pro und Ultra bezahlte Abonnenten, über die Gemini-App und Google Flow
Innerhalb dieser Woche: Nutzer der YouTube Shorts- und YouTube Create-App, kostenlos verfügbar
In den kommenden Wochen: Entwickler und Unternehmenskunden, über Gemini API und Agent Platform API
Häufige Fragen
Welche technischen Unterschiede hat die „Weltmodell“-Positionierung in Gemini Omni Flash im Vergleich zu allgemeinen Videogenerierungsmodellen?
Google positioniert Gemini Omni als „Weltmodell“. Das bedeutet: Das Modell bildet nicht nur die Generierung als Abbildung von Eingabe zu Ausgabe ab, sondern verfügt auch über die Fähigkeit zu kausalen Schlussfolgerungen auf Basis einer echten Wissensbasis der realen Welt, die auf Gemini-Training basiert (einschließlich physikalischer Gesetze, kultureller Hintergründe sowie historischer und wissenschaftlicher Kenntnisse). Beispielsweise kann es vorhersagen, wie sich Objekte in einer Szene als Nächstes verhalten werden, Effekte echter physikalischer Engines anwenden oder sprachliche Beschreibungen in visuelle Inhalte mit semantischer Bedeutung umwandeln. Das unterscheidet sich in der Design-Zielsetzung auf Architektur-Ebene von rein auf Muster-Matching basierenden Videodiffusionsmodellen.
Kann das SynthID-Wasserzeichen entfernt oder umgangen werden?
In den offiziellen Informationen von Google wird bestätigt, dass SynthID-Wasserzeichen unsichtbar sind (ohne die visuellen Inhalte des Videos zu beeinflussen). Sie sind in der digitalen Struktur des Videos eingebettet und können über Googles offizielles Verifizierungs-Tool nachgeprüft werden. Google hat in offiziellen Dokumenten nicht offengelegt, wie die Wasserzeichen technisch konkret umgesetzt werden. Unabhängige technische Bewertungen zur Zuverlässigkeit von SynthID und zur Widerstandsfähigkeit gegen Manipulation sind derzeit nicht öffentlich dokumentiert.
Welche Eingabeformate unterstützt Gemini Omni Flash derzeit, und welche Ausgabearten werden in Zukunft erweitert?
Bestätigte Eingabeunterstützung: Text, statische Bilder, Videosequenzen, Audio (in der Anfangsphase). Google hat im offiziellen Blog bestätigt, dass andere Arten von Audioeingaben „bald“ als Ergänzung verfügbar gemacht werden. In Bezug auf die Ausgaben konzentriert sich die aktuelle Omni Flash-Version auf Video. Google sagt, dass in Zukunft im Omni-Portfolio auch Bild- und Audioausgabe unterstützt werden, aber ein konkreter Zeitplan ist in dieser Ankündigung noch nicht bestätigt.