George Hotz, der Hacker, der im Alter von 17 Jahren zuerst das iPhone geknackt und die PlayStation 3 rückentwickelt hat, veröffentlichte am Sonntag einen Blogbeitrag, in dem er argumentierte, dass die Massenadoption von KI-Coding-Agenten zu einer erheblichen Verschlechterung der Softwarequalität führen werde. Hotz schrieb: „Ich rufe es jetzt aus: Die Einführung von KI-Agenten in die Softwareentwicklung wird einer der kostspieligsten Fehler in der Geschichte des Fachgebiets sein.“ Seine Position steht in direktem Gegensatz zu Andrej Karpathy, einem der prominentesten KI-Forscher, der am 19. Mai 2026 dem Pre-Training-Team von Anthropic beitrat und dabei ausdrücklich erklärte, dass KI-Agenten die Softwareentwicklung bereits verändert hätten. Die beiden stehen für entgegengesetzte Pole einer ungelösten Branchen-Debatte – beide mit erheblicher Glaubwürdigkeit, um ihre Positionen zu stützen.
Hotz' Kernargument
Hotz verbrachte sechs Monate damit, KI-Agenten an echten Projekten zu testen: Teilen von Tinygrad, seinem quelloffenen Deep-Learning-Framework, sowie einer vollständigen Firmware-Rückentwicklung eines USB-PCIe-Chips. Auf Basis dieser Erfahrung argumentiert er, dass „Agenten nicht programmieren können, und es dauert immer länger, bis man begreift, dass sie es nicht können.“ Er beschreibt die Ausgabe als „kaputt, aber auf eine Weise, die immer schwerer zu erkennen wird. Genau das würde man von einem immer genaueren statistischen Modell erwarten.“
Seine zentrale Sorge ist organisatorisch. Top-Performer haben enge Feedback-Loops, um agentengenerierte Probleme abzufangen, bevor sie ausgeliefert werden – sie lesen den Code, finden Fehler und kalibrieren, wann sie dem Tool vertrauen. „Die unteren Performer werden diese Selbstprüfung nicht haben“, schreibt Hotz. Das kritische Problem: Schlechtere Performer nutzen Agenten, um das Zehnfache ihrer bisherigen Ausgabe zu produzieren. In großen Unternehmen führt das zu einer schnelleren Abwertung der durchschnittlichen Codequalität, verdeckt durch schiere Menge. Hotz beschreibt das Ergebnis als „eine Goldene Zeit für Haufen und Haufen von Schrott und ein dunkles Zeitalter für Juwelen von Qualität.“ Er verweist auf Meldungen, wonach Apple KI-Coding-Tools in seiner gesamten Engineering-Organisation vorantreibt, und fragt: „Glaubst du, dass macOS in den nächsten 2 Jahren besser oder schlechter wird?“
Nicht Ego
Hotz rechnet die Einwände vor, dass ein Programmierer, der einen Teil seiner Identität über sein Handwerk definiert, sich natürlich gegen Ersatzwerkzeuge wehren würde. Er nimmt das ernst und weist es der Sache nach zurück. „Googles AFL fand mehr Bugs als LLMs, und niemand hat sich so gefühlt. Schach und Go sind beliebter denn je“, schrieb er. KI-Schach hat Menschen seit Jahrzehnten dominiert, während das Spiel selbst nur noch beliebter wurde.
Hotz äußert außerdem Skepsis gegenüber den Motiven der Branche: „Ich glaube fast, das ist eine Art Psyop, um Agenten zu verkaufen. Angst vor Verlust ist eine der einzigen Möglichkeiten, große Unternehmen in Bewegung zu setzen. Obwohl ich denke, dass sie machen damit einen großen Fehler.“
Wo die Lager stehen
Hotz positioniert sich nun in dem, was er das „LeCun/Marcus-Lager“ nennt – in Bezug auf Yann LeCun, den Chef-KI-Wissenschaftler von Meta, und Gary Marcus, einen langjährigen Skeptiker bei LLMs. Beide haben argumentiert, dass Sprachmodelle im Kern hochentwickelte Muster-Erkennungsmaschinen sind: Sie können die Verteilung existierenden Codes nachahmen, aber nicht wirklich neue Probleme aus ersten Prinzipien heraus begründen.
Vibe Coding – das Beschreiben dessen, was man haben möchte, in Alltagssprache und das Überlassen der KI, die Implementierung zu erzeugen – ist im vergangenen Jahr regelrecht explodiert. Große KI-Labore haben agentenbasiertes Coden als Flaggschiff-Produkt positioniert. Microsoft hat GitHub Copilot 2025 in ein vollständiges agentisches System verwandelt, wobei CEO Satya Nadella es als verschiebungsähnliche Entwicklung auf Plattform-Ebene beschrieb, vergleichbar mit dem Umstieg auf die Cloud.
Karpathy war früher in 2025 skeptisch gegenüber Agenten, drehte aber seine Position nach neuen Modell-Veröffentlichungen. Anthropic-CEO Dario Amodei sagte in Davos, dass einige Ingenieure bei Anthropic bereits aufgehört hätten, selbst Code zu schreiben, und stattdessen die Modelle arbeiten ließen, während sie die Ausgabe überprüfen. Hotz, der denselben Ansatz ausprobiert hat, sagt, er habe sich jedes Mal dabei erwischt, zur manuellen Korrektur zu greifen.