Karpathy: KI sollte nicht bei Markdown aufhören! HTML ist die Zukunft, das Finale sind erforschbare interaktive Szenarien

ChainNewsAbmedia

Andrej Karpathy hat sich kürzlich auf X zu den Aussagen des Anthropic-Claude-Code-Teamingenieurs Thariq Shihipar geäußert und dabei darauf hingewiesen, dass die Wirkung beim Stellen von Fragen an große Sprachmodelle oft sehr gut ist, wenn man am Ende der Prompts nur noch einen Satz ergänzt: „Bitte gib die Antwort in einer HTML-Struktur aus“, und dann die generierte Datei im Browser ansieht. Er sagte sogar, dass er selbst versucht habe, das LLM dazu zu bringen, die Antwort in eine Folienform zu bringen, und auch damit gute Ergebnisse erzielt habe.

(Anthropic-Ingenieur: HTML ist das beste Ausgabeformat für Claude Code, nicht Markdown)

Vom Klartext zu HTML: KI-Ausgaben entwickeln sich von „lesbar“ zu „sichtbar“

Die Äußerungen führen die Diskussion in der KI-Entwickler-Community der letzten Tage darüber fort, ob „HTML eher als Markdown“ als Ausgabeformat für KI geeignet ist. Shihipar hatte zuvor in seinem Artikel „Using Claude Code: The Unreasonable Effectiveness of HTML“ argumentiert, dass HTML für Claude-Code-ähnliche KI-Coding-Agents nicht nur ein Format zur Auszeichnung ist, sondern eine Schnittstelle, die KI-Antworten von linearem Text zu interaktiven Dokumenten aufwertet.

Karpathy ging noch einen Schritt weiter und stellte das Thema als Entwicklung der Ein- und Ausgabeschnittstellen zwischen Menschen und KI dar. Karpathy ist der Ansicht, dass die meisten LLMs mit ihrer Standardausgabe noch immer auf der Markdown-Stufe stehen. Im Vergleich zum Rohtext verbessert Markdown zwar bereits das Leseerlebnis durch Überschriften, Fettdruck, Kursivschrift, Tabellen usw., aber grundsätzlich bleibt es eine lineare Darstellung, bei der Text im Mittelpunkt steht.

In seiner Einteilung lässt sich das Ausgabeformat für KI im Wesentlichen als Evolutionspfad betrachten: Erste Stufe ist Rohtext – die Lesekosten sind am höchsten; zweite Stufe ist Markdown, also das derzeitige Standardformat vieler KI-Produkte; dritte Stufe ist HTML. Obwohl HTML immer noch ein programmatisches Erzeugnis ist und auf der Ebene der Tags und Struktur arbeitet, bietet es deutlich mehr Flexibilität bei Grafiken, Layout und Stil – und kann sogar Interaktionselemente hinzufügen.

Markdown macht KI-Antworten „besser lesbar“, aber HTML könnte KI-Antworten zu Dokumenten machen, die „durchsuchen“, „bedienen“ und „visuell verstehen“ lassen.

Das ist auch der Kern der früheren Argumentation von Shihipar, weshalb HTML Markdown überlegen ist: HTML kann SVG-Grafiken und Diagramme, farbliche Kodierung, CSS-Stile, Warnbereich-Boxen, In-Page-Ankerpunkte, interaktive Komponenten und sogar nebeneinander angeordnete Vergleichstabellen tragen. Für Szenarien wie technische Dokumentation, Schwachstellenanalyse, Datenvisualisierung und erklärende Lehre kann HTML Informationen, die Leser sonst erst nach und nach verarbeiten müssten, in visuelle Dokumente umwandeln, bei denen man auf einen Blick Hierarchien, Risiken und Zusammenhänge erkennt.

Karpathy: Menschen bevorzugen Spracheingabe, aber bevorzugen bei KI-Ausgaben eher visuelle Ausgabe

Karpathys neue Sichtweise geht nicht nur um HTML, sondern um die Zukunft von KI-Schnittstellen.

Er weist darauf hin, dass Menschen an der Eingabeseite möglicherweise eher Sprache und KI-Interaktion bevorzugen, weil Sprechen eine natürliche und kostengünstige Ausdrucksform ist. An der Ausgabeseite hingegen sei es aber das Visuelle, das Menschen bevorzugen – einschließlich Bildern, Animationen und Videos.

Sein Grund: Das menschliche Gehirn nutzt etwa ein Drittel für die Verarbeitung visueller Informationen. Daher sollte, wenn die KI-Fähigkeiten steigen, die KI Antworten nicht nur in Text verpacken, sondern sich schrittweise zu einer höherdichten, intuitiveren visuellen Ausgabe hinentwickeln.

Damit wird die Bedeutung von HTML noch klarer. HTML ist kein Endpunkt, sondern möglicherweise eine Übergangsstufe, in der KI vom Textausgabeformat in die visuelle Visualisierung wechselt. Es kann Bilder, Layout und Interaktionen besser ausdrücken als Markdown, aber es ist zugleich stabiler und besser kontrollierbar als vollständig aus neuronalen Netzen generierte Videos oder Simulationen.

Karpathy spekuliert weiter, dass es zwar derzeit noch keine entsprechenden Technologien gebe, aber langfristig könnte das Endziel von KI-Ausgaben irgendein interaktives Video oder Simulationsinhalt sein, der direkt von Diffusionsmodellen generiert wird.

Das heißt: KI wird in Zukunft möglicherweise nicht nur „dir einen Textabschnitt beantworten“, nicht nur „dir ein HTML-Dokument erstellen“, sondern direkt visuelle Szenen generieren, die interaktiv, explorierbar und dynamisch veränderbar sind. Nutzer können darin handeln, Veränderungen beobachten und Kausalzusammenhänge verstehen – so, als würde man Lehrvideos, interaktive Simulationen und eine Echtzeit-Generierungsoberfläche miteinander kombinieren.

Allerdings räumt Karpathy auch ein, dass es hier noch viele offene Fragen gibt. Insbesondere ist noch nicht geklärt, wie man die „Software 1.0“-Artefakte aus der traditionellen Softwareentwicklung – also präzise, verifizierbare und prozedural programmierbare Produkte wie interaktive Simulationen, Frontend-Komponenten und mathematische Modelle – mit den von Diffusionsmodellen erzeugten neuronalen Netzwerkgrafiken, Animationen oder Videos zusammenführt, und dafür gibt es bisher keine reife Antwort.

Der Artikel Karpathy: KI sollte nicht bei Markdown aufhören! HTML ist die Zukunft, das Ende sind explorierbare interaktive Szenen ist zuerst erschienen bei Lianxin ABMedia.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare