Laut Beating.AI-Monitoring ist seit dem 17. Mai eine neue Modelloption namens gemini-3.2-flash-lite-live-preview in der Modellauswahlliste von Google Cloud aufgetaucht. Die Suffixe „lite“ und „live“ deuten darauf hin, dass Google eine spezialisierte Version entwickelt, die für Interaktionen in Echtzeit mit ultraschneller Latenz optimiert ist.
Der CEO von Abacus.AI, Bindu Reddy, hatte zuvor offengelegt, dass Gemini 3.2 Flash 92% der Codierungs- und Reasoning-Fähigkeiten von GPT-5.5 erreicht, während die Inferenzkosten nur bei 1/20 der von GPT-5.5 liegen. Dabei geben die meisten Anfragen Antworten zurück, die unter 200 Millisekunden liegen. Branchenbeobachter erwarten, dass dieses kostenoptimierte, leichte Modell am 20. Mai offiziell im Rahmen des Google I/O vorgestellt wird.