Google Cloud stellt das Gemini 3.2 Flash Lite-Modell vor, mit um 95% niedrigeren Inferenzkosten als bei GPT-5.5

Laut Beating.AI-Monitoring ist seit dem 17. Mai eine neue Modelloption namens gemini-3.2-flash-lite-live-preview in der Modellauswahlliste von Google Cloud aufgetaucht. Die Suffixe „lite“ und „live“ deuten darauf hin, dass Google eine spezialisierte Version entwickelt, die für Interaktionen in Echtzeit mit ultraschneller Latenz optimiert ist.

Der CEO von Abacus.AI, Bindu Reddy, hatte zuvor offengelegt, dass Gemini 3.2 Flash 92% der Codierungs- und Reasoning-Fähigkeiten von GPT-5.5 erreicht, während die Inferenzkosten nur bei 1/20 der von GPT-5.5 liegen. Dabei geben die meisten Anfragen Antworten zurück, die unter 200 Millisekunden liegen. Branchenbeobachter erwarten, dass dieses kostenoptimierte, leichte Modell am 20. Mai offiziell im Rahmen des Google I/O vorgestellt wird.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare