Laut Beating, Thinking Machines, dem Labor, das von der ehemaligen OpenAI-CTO Mira Murati gegründet wurde, hat eine Forschungs-Vorschau seines Interaction-Modells veröffentlicht, das native Echtzeit-Audio- und -Videoverarbeitung bietet, mit 200-Millisekunden-Micro-Turn-Antworten. Das Modell ermöglicht gleichzeitiges Zuhören, Ansehen und Sprechen und unterstützt dabei Echtzeit-Unterbrechungen durch Nutzer.
Das Modell TML-Interaction-Small nutzt eine MoE-Architektur mit 276 Milliarden Parametern, wobei pro Inferenz 12 Milliarden Parameter aktiviert werden. Offizielle Daten zeigen eine Speech-Turn-Taking-Latenz von 0,40 Sekunden sowie einen FD-bench V1.5-Score von 77,8, die beide GPT-Realtime-2.0 und Gemini 3.1 Flash Live übertreffen. Ein begrenzter Vorschauzugang ist für die kommenden Monate geplant.
Related News
Geht OpenAI auch den Palantir-Weg als Berater? Investiert 4 Milliarden, gründet ein unabhängiges Unternehmen und schickt FDE, um Unternehmen bei der tiefen Integration von AI-Workflows zu unterstützen
OpenAI bringt ein 4 Milliarden US-Dollar Deployment-Unternehmen auf den Weg: kauft Tomoro
OpenAI-Mitarbeiter verkaufen Aktien im Wert von 6,6 Milliarden US-Dollar, im Durchschnitt 11 Millionen US-Dollar Gewinn pro Person