Von Mira Murati und John Schulman, den ehemaligen OpenAI-Top-Managern, gemeinsam gegründet – die KI-Startup Thinking Machines mit einer Bewertung von über 10 Milliarden US-Dollar – stellte am Dienstag eine Vorschau seines ersten „Sprechen-und-gleichzeitig-Zuhören“-fähigen voll-dublex (Full-Duplex) KI-Modells vor. Die Latenz liegt bei bis zu 0,4 Sekunden und stellt damit das gängige Muster der aktuellen Mensch-KI-Echtzeit-Interaktion infrage.
(„Nvidia investiert in Thinking Machines Lab: Vera Rubin wird eingesetzt, um die Leistungsfähigkeit der Vorreiter-Modelle zu steigern“)
Thinking Machines neues Modell: alte Muster des abwechselnden Sprechens durchbrechen
Alle gängigen KI-Modelle funktionieren derzeit nach dem Prinzip: „Der Nutzer gibt ein, das Modell wartet, und dann antwortet es.“ Mira Murati, ehemaliger CTO von OpenAI, und OpenAIs Mitgründer John Schulman sind der Ansicht, dass dieser abwechselnde Rückkopplungsprozess eher wie das Hin-und-her-Übermitteln von Nachrichten ist und nicht wie echtes Gespräch. Nun haben die beiden gemeinsam Thinking Machines Lab gegründet und am 11. Mai offiziell die neue „Interaktionsmodelle (Interaction Models)“-Forschungsvorschau vorgestellt – mit dem Ziel, diese Realität grundlegend zu verändern.
People talk, listen, watch, think, and collaborate at the same time, in real time. We’ve designed an AI that works with people the same way.
We share our approach, early results, and a quick look at our model in action. pic.twitter.com/uxl1InS6Ay
— Thinking Machines (@thinkymachines) May 11, 2026
Thinking Machines weist darauf hin, dass aktuelle KI-Modelle die Realität nur in einem einzigen Ausführungspfad wahrnehmen: Solange der Nutzer nicht fertig gesprochen hat, kann das Modell nur warten; sobald das Modell noch nicht komplett generiert hat, bleibt die Wahrnehmung eingefroren. Dieses Design werde zur Engstelle für die Mensch-KI-Zusammenarbeit und verhindere, dass die Zusammenarbeit so natürlich und flüssig wird wie beim Gespräch mit einem echten Menschen.
Die beiden glauben, dass die Lösung nicht darin besteht, das alte Architekturprinzip mit externen Bauteilen zu flicken, sondern von Grund auf ein Modell zu trainieren, das nativen Support für Echtzeit-Interaktionen bietet.
Voll-Duplex-Architektur: KI-System, das zwei Aufgaben gleichzeitig erledigen kann
Das von Thinking Machines veröffentlichte Modell heißt TML-Interaction-Small. Es handelt sich um ein Mixture-of-Experts-(MoE)-Modell mit 2760 Milliarden Parametern, das in der praktischen Ausführung beim Start 12.000 Millionen Parameter verwendet. Das System verarbeitet Eingaben und generierte Ausgaben fortlaufend in Zeiteinheiten von 200 Millisekunden und setzt dabei keinerlei künstliche Wechsel- oder Gesprächsgrenzen. So wird der vermeintliche „Full Duplex“-Modus wirklich umgesetzt: wie ein Telefonat – nicht wie Nachrichten.
Das System nutzt ein Design mit zwei Modellen: „Interaktionsmodell“ übernimmt die Echtzeit-Konversation, das Aufgreifen des Gesagten und die Antwort; das „Hintergrundmodell“ führt im Hintergrund asynchron komplexes Schlussfolgern, Web-Suche und Tool-Aufrufe aus und integriert die Ergebnisse nahtlos in das laufende Gespräch. Dadurch kann die KI still und unauffällig gleichzeitig sprechen oder zuhören und dabei die zugewiesenen Such- oder Diagramm-Erstellungsaufgaben erledigen.
Benchmark: Umfassend besser als OpenAI und Google
Die Ankündigung besagt, dass im Standardtest FD-bench zur Bewertung der Interaktionsqualität die Umschalt-Latenz von TML-Interaction-Small bei 0,40 Sekunden liegt, nahe an der Reaktionsgeschwindigkeit natürlicher menschlicher Gespräche – deutlich besser als Googles Gemini-3.1-flash-live mit 0,57 Sekunden sowie GPT-realtime-2.0 mit 1,18 Sekunden.
Dunkel steht für den jeweils besten Wert, Hell steht für das beste Sofortmodell
Im eigenen Testset des Teams, das speziell für die neue Interaktionsfähigkeit entwickelt wurde, erreicht TML-Interaction-Small bei der Aufgabe „TimeSpeak“ eine Trefferquote von 64,7%, während GPT-realtime-2.0 nur 4,3% schafft. Bei der Aufgabe „CueSpeak“ (sprachliche Auslösung) liegen die Werte bei 81,7% für das erste Modell und nur 2,9% für das zweite. Bei „RepCount-A“ (visuelles Zählen) kommt das erste Modell auf 35,4%, während das zweite nahezu bei null liegt (1,3%).
Thinking Machines sagt, dass derzeit kein beliebiges kommerzielles Modell diese Aufgaben sinnvoll bewältigen kann, einschließlich der fortgeschrittenen „thinking“-Modelle (Denken) von OpenAI und Google.
Potenzial für Unternehmensanwendungen: von Kundenservice bis Sicherheitsüberwachung
Neben einem natürlicheren Alltagserlebnis in Gesprächen ist der potenzielle Nutzen der Technik in Unternehmensszenarien ebenfalls beachtenswert.
Nehmen wir etwa die Fertigungsindustrie oder ein Labor: Eine KI, die Bilder in Echtzeit überwacht, kann bei einer Sicherheitsverletzung unmittelbar eine Warnmeldung auslösen, ohne dass erst Mitarbeitende gefragt werden müssen. Im Bereich Voice-Kundenservice haben bestehende Systeme typischerweise eine Verarbeitungslatenz von ein bis zwei Sekunden – genau der Punkt, der für Nutzer am direktesten zum Schmerz wird. Die Rückmeldung von 0,4 Sekunden könnte dieses Problem grundsätzlich lösen.
Aktuell ist TML-Interaction-Small sowie das dazugehörige Hintergrundmodell nur für wenige Kooperationspartner im Rahmen von Forschungsvorschauen verfügbar; die öffentliche Version soll später in diesem Jahr erscheinen. Thinking Machines kündigte außerdem an, ein Forschungsstipendienprogramm zu starten, um die akademische Community dabei zu ermutigen, weitere neue Bewertungsrahmen für die Interaktionsqualität zu entwickeln.
Von Jobwechseln zu stabilem Wachstum: der nächste Schritt von Thinking Machines Lab
Thinking Machines Lab wurde Anfang 2025 gegründet und hatte dieses Jahr früher bereits Aufmerksamkeit erregt, nachdem mehrere Gründungsmitglieder zu Meta gewechselt waren; außerdem wurde der PyTorch-Gründer und Senior Engineer bei Meta, Soumith Chintala, zum technischen Leiter berufen. Der aktuelle Personalbestand liegt inzwischen bei etwa 130 Personen.
(Zuckerbergs Abwerben in der Niederlage: Wer ist Andrew Tulloch, der ein Sechs-Jahres-Angebot von Meta über 1,5 Milliarden US-Dollar ablehnte?)
Im März dieses Jahres hatte das Unternehmen zudem bekanntgegeben, dass es mit Nvidia zusammenarbeitet, um mindestens ein Gigawatt an einer neuen Generation des Vera-Rubin-Systems einzusetzen, und außerdem die Zusammenarbeit mit Google Cloud ausbaut, um Vorreitermodelle-Training und Forschung zu Verstärkungslernen voranzutreiben.
Dieser Artikel – „Die milliardenschwere Startup Thinking Machines veröffentlicht ein KI-Modell für sofortige Interaktionen, mit dem Fokus auf ‚sagen, zuhören und dabei Aufgaben ausführen‘“ – erschien zuerst bei Ketten News ABMedia.