孟醒,五源資本合夥人,近日發表矽谷考察報告,提出一個讓他自己都改變記筆記習慣的判斷:矽谷正在進入一個連造浪的人都被浪淹沒的階段。AI 的迭代速度已經從「按月」變成「按週」,連矽谷自己都跟不上自己。
Wenn KI die Produktivität eines Teams um das Fünffache verstärkt, kannst du 80 % der Arbeitskräfte reduzieren, um die ursprüngliche Output-Menge zu halten, oder die Mitarbeiterzahl beibehalten und das Fünffache an Arbeit erledigen. Meng Xings Beobachtung in diesem Mal in Silicon Valley ist gleichbedeutend mit einem ersten Entwurf der Antwort vor Ort: Wenn 100-fache Effizienz nicht zu 100-fachem Umsatz führt, wenn das Token-Budget sich den Arbeitskosten nähert und wenn die Dampfmaschine noch nicht schneller läuft als der Wagen, aber niemand es wagt, stehenzubleiben, wählt Silicon Valley jetzt den Weg „erst die Geschwindigkeit hochschieben, dann schauen“. Aber ob diese Route am Ende zu „Ausbau der Kapazitäten“ oder „Kostendruck“ führt, ist derzeit nicht geklärt.
YC wechselt von führenden zu nachlaufenden Indikatoren
Meng Xing saß dieses Jahr im März im Zuschauerbereich der YC W26 Batch Demo Day, als er beim Auftritt des fünften Unternehmens seinen Stift weglegte. Der Grund: Unter den über 100 Unternehmen in dieser Runde machten etwa 80 % vertikale Agenten, zum Beispiel dabei helfen, dass Anwälte Dokumente ordnen, Kundendienstanfragen Workorders verteilen, oder HR-Lebensläufe vorsortieren.
Wenn er diese Themen im vergangenen Oktober gesehen hätte, hätte er gesagt: „Ziemlich kreativ.“ Aber nachdem Claude Code von einem Entwickler-Tool zu einer Oberfläche wurde, die fast jeder nutzen kann, und Opus 4.6 die Einstiegshürde für Vibe Coding auf den Boden gedrückt hat, können diese vertikalen Agenten, bevor sie überhaupt Geschäftsbarrieren aufgebaut haben, von einem normalen Ingenieur in einem Wochenend-Block einfach repliziert werden.
Das Batch-System von YC – von Bewerbung, Vorauswahl, Aufnahme, Feinschliff bis zur Demo am Ende – ist nach einer Welt entworfen, die langsamer ist. In der aktuellen Iterationsgeschwindigkeit der KI reichen 5 Monate aus, um mehrere Musterwechsel auszulösen. Meng Xing beschreibt es so: YC ist dabei, von führenden Indikatoren nach und nach zu nachlaufenden Indikatoren zu werden.
Meta schreibt mit dem Produkt des Gegners Code für alle Mitarbeiter
Der größte Schock bei Meng Xings Besuch in Silicon Valley war, dass bei Meta im ganzen Unternehmen alle Claude Code nutzen. Für ein Unternehmen mit einem Börsenwert im Billionenbereich, das es macht, dass Zehntausende Ingenieure mit einer API eines Wettbewerbers auf den eigenen Code zugreifen, war vor einem halben Jahr völlig unvorstellbar.
Meta hatte intern schon ein Tool namens myclaw herausgebracht, um das Problem der Code-Sicherheit zu lösen, aber „es ist nicht gut, niemand nutzt es“. Am Ende hat das Unternehmen die Richtlinien direkt gelockert: Solange es keine Kundendaten betrifft, können Mitarbeiter Claude Code frei nutzen, und man begann interne Meetings und Schulungen zum Thema „wie man eine AI-native Organisation wird“ abzuhalten.
Google verbietet aus Sicherheitsgründen grundsätzlich die Nutzung von Tools der Konkurrenz durch Mitarbeitende, aber DeepMind ist eine Ausnahme: Mehrere Teams, die für Gemini und interne Anwendungen verantwortlich sind, nutzen Claude Code. Die eigenen internen Coding-Tools von Google, Antigravity, behaupten, dass derzeit etwa 50 % des neuen Codes von KI geschrieben werden, doch das kann die Präferenz von DeepMind nicht aufhalten.
Ein Schlüsselpunkt ist, dass Anthropic dafür eine private Bereitstellung gemacht hat, und dass Anthropics Inferenz und Training ohnehin zu einem großen Anteil auf Googles Cloud-TPUs laufen – es gibt also eine Vertrauensbasis zwischen beiden; andere Großunternehmen haben diese Art Beziehung nicht. Dort wird Code-Sicherheit wirklich vorübergehend beiseitegeschoben, um erst die Geschwindigkeit hochzuschieben.
Token-Ausgaben der Ingenieure sind teurer als die Ingenieure selbst
Unter den mehreren KI-native Start-ups, die Meng Xing bei seinem Besuch in Palo Alto abging, lag das Token-Budget eines einzelnen Ingenieurs pro Jahr bei etwa mehr als 200.000 US-Dollar; diese Zahl kommt bereits nahe an das Jahresgehalt eines Ingenieurs heran. Auf den ersten Blick scheint es so, als würde das Unternehmen durch KI Leute entlassen und Geld sparen, aber in Wahrheit könnten die Gesamtkosten sich überhaupt nicht senken: Man tauscht einfach die Kosten für Menschen gegen Token-Kosten.
Meta treibt das bis zum Extrem: Im Unternehmen gibt es eine Token-Verbrauchs-Rangliste. Wer am meisten verbraucht, kommt in die Rangliste; am Ende könnte es Kündigungen geben. Dafür „wetteifern“ die Mitarbeitenden sogar um einen inoffiziellen Titel namens „token legend“. Doch innerhalb derselben Zeit hat Meta zwei Runden Entlassungen hintereinander durchgeführt, insgesamt um die zehntausend Menschen. Einerseits stürmen alle auf Token zu, andererseits werden in großem Umfang Leute entlassen – das widerspricht sich nicht; es sind zwei Seiten derselben Sache.
Meng Xing hat vor Ort ein Unternehmen der C-Runde gesehen. Der Technikverantwortliche öffnete Slack und zeigte es ihm: Alles läuft aus Agenten heraus. Im Hintergrund laufen parallel über ein Dutzend Cursor-Agents, dann wird noch ein Claude-Code-Fenster geöffnet, das die Koordination übernimmt. Die verbreitetste Angst in der Engineering-Community ist: Vor dem Schlafengehen weiß man nicht, was meine über ein Dutzend Agenten eigentlich machen sollen, und ist dann total nervös.
100-fache Effizienz, keine 100-fachen Umsätze
Viele CTOs erzählen Meng Xing begeistert: „Früher brachten 60 Personen in einem Jahr das zustande, wofür jetzt zwei Personen mit Claude Code es in einer Woche erledigen können.“ Das sogenannte „hundertfache Engineering“, „Verzehnfachung der Effizienzsteigerung“.
Doch als Meng Xing sich wieder beruhigte, stellte er eine Frage: Okay, die Effizienz ist um das 100-Fache gestiegen – ist der Umsatz des Unternehmens um das 100-Fache gewachsen? Ist die Produktlinien-Erweiterung um das 100-Fache gewachsen? Er erhielt keine positive Antwort. Die Tatsache ist: Wenn die 100-fache Effizienz tatsächlich in den Umsatz übersetzt wird, zeigt sich das oft nur als 50 % oder als das Eine-Fache. Wo genau die Lücke liegt, kann jetzt niemand klar sagen.
„Wenn man so viele Token nutzt, müsste man eigentlich sprunghaft eine andere Art von Unternehmen werden. Aber zu welcher Art, das weiß ich auch nicht.“ So sagte es ihm ein Gründer. Sogar Anthropic hat Szenarien, in denen es nicht mithalten kann. Meng Xing fragte einen Anthropic-Freund: „Was ist das schmerzhafteste Szenario, wenn ihr eure eigenen Agenten nutzt?“ Die Antwort lautete: oncall als sofortige Reaktion.
Wenn API-Antworten langsamer werden, wenn Inferenz-Knoten ausfallen und wenn die Ausgabe der Nutzer-Feedbacks abnormal ist, muss der oncall-Ingenieur schnell herausfinden, ob es ein Bug im Code ist, ob es ein Problem bei der Rechenressourcen-Zuteilung ist oder ob die Modell-Instanz selbst das Problem ist. Anthropic ist das stärkste Unternehmen der Welt im Coding-Agent-Bereich – dieser Use Case liegt ihnen so nah wie nur irgendetwas an ihrer Kernkompetenz. Und trotzdem sind ihre internen oncall-Agenten immer noch nicht wirklich gut nutzbar.
Die Dampfmaschine läuft noch nicht schneller als der Wagen, aber niemand traut sich, stehenzubleiben und zu warten
Meng Xing beschreibt den Zustand so: Die Dampfmaschine wurde bereits erfunden, aber manchmal läuft sie noch nicht schneller als der Wagen. Entscheidend ist, dass alle wissen, dass die Dampfmaschine irgendwann noch schneller laufen wird, also sind Code-Sicherheitsfragen egal, Token-Budgets platzen, und Rankings geraten ins Wettrennen. Wann die Dampfmaschine dann wirklich schneller ist als der Wagen – das weiß niemand. Aber niemand traut sich, stehenzubleiben und auf diesen Tag zu warten, denn die Kosten fürs Anhalten könnten größer sein als das Verbrennen von Tokens aus Versehen.
Und der Token-Verbrauch wird sehr wahrscheinlich nicht linear wachsen. Meng Xing beruft sich auf Daten der Forschungsorganisation METR: Ein Indikator, der misst, wie lange AI-Agenten Aufgaben mit einer Erfolgsquote von 50 % bewältigen können (gerechnet nach der Zeit, die menschliche Experten dafür brauchen). Im März 2025 waren Claude 3.7 Sonnet noch 50 Minuten; bis zum Jahresende 2025 hat Claude Opus 4.6 bereits 14,5 Stunden erreicht.
Der Verdopplungs-Zyklus dieses Indikators in den vergangenen zwei Jahren hat sich von 7 Monaten auf 4 Monate verkürzt. Sobald die Zuverlässigkeit von Agenten noch eine Stufe weiter springt, ist Token-Verbrauch nicht mehr das Problem „+50 % pro Jahr“, sondern über Nacht ein ganzer Größenordnungs-Sprung nach oben. Meng Xing nennt außerdem eine Prognose, die im Freundeskreis als Konsens gilt: Bis Ende dieses Jahres brauchen viele Unternehmen (einschließlich Technologiegiganten) tatsächlich nur noch 20 % der Menschen.
( Antworte auf eine Frage: Wenn KI deine Effizienz um das Fünffache steigert, reduzierst du die Kosten um 80 % oder machst du fünfmal so viel? )
Der Autor hatte in einem Artikel, den ich im April dieses Jahres gelesen habe, gefragt: Wenn KI die Produktivität eines Teams um das Fünffache verstärkt, kannst du 80 % der Arbeitskräfte reduzieren, um den ursprünglichen Output zu halten, oder die Mitarbeiterzahl beibehalten und fünfmal so viel tun. Aaron Levie hat in einem a16z Podcast vorgeschlagen, dass die Zahl der Agenten in einem zukünftigen Unternehmen möglicherweise 100- bis 1.000-mal so hoch sein wird wie die Zahl der Mitarbeiter; Huang Renxun hat es wiederum ganz offen gesagt: Wenn die Welt keine neuen kreativen Ideen hervorbringt, wird sich die durch KI erzielte Produktivitätssteigerung am Ende nur in Arbeitslosigkeit umwandeln. Das Problem liegt nicht bei KI, sondern daran, ob Entscheidungsträger über Vorstellungskraft verfügen.
Meng Xings Beobachtung in dieser Runde in Silicon Valley entspricht gleich einem ersten Entwurf der Antwort vor Ort: Wenn 100-fache Effizienz nicht zu 100-fachem Umsatz führt, wenn das Token-Budget sich den Arbeitskosten annähert und wenn die Dampfmaschine noch nicht schneller läuft als der Wagen, aber niemand es wagt, stehenzubleiben, wählt Silicon Valley jetzt „erst die Geschwindigkeit hochschieben, dann schauen“. Aber ob dieser Weg am Ende zu „Ausbau der Kapazitäten“ oder „Kostendruck“ führt, ist derzeit nicht geklärt.
Am Ende des Artikels lässt Meng Xing noch einen ausgewogeneren Blick zurück: Er hat in diesen halben Monat so viele gesehen, die mit dem Tempo „nicht mithalten“ können, was schon ein wenig Angst macht. Aber wenn KI tatsächlich in ein paar Jahren Krebs in eine chronische Krankheit verwandeln und die Materialwissenschaft um zwanzig Jahre beschleunigen kann, dann könnte dieses „Nicht-mithalten“ die größte Beschleunigung in der Geschichte der menschlichen Entwicklung sein.
Für Unternehmensentscheider ist die eigentliche Frage nie, ob KI Menschen ersetzen wird. Sondern vielmehr: Wenn die Produktivität um das Fünf-, Zehn- oder Hundertfache gesteigert wird – entscheidest du dich, sie zu nutzen, um noch mehr Menschen zu entlassen, oder um mehr zu tun? Diese Entscheidung passiert gerade gleichzeitig in den Konferenzräumen von Silicon Valley und weltweit.
Dieser Artikel „Mit KI Output steigern oder Kosten senken? Hundertfache Effizienz, kein Hundertfacher Umsatz – aber in Silicon Valley wagt niemand zu rufen, dass man aufhören soll“ ist zuerst erschienen bei Kettennachrichten ABMedia.
Related News
YC-Partner teilen, wie man mit KI von Grund auf ein Unternehmen aufbaut, und dass Startups KI als Betriebssystem und nicht als Werkzeug betrachten sollten
Cursor AI-Agent hat einen Fehler! Eine einzige Codezeile leert in 9 Sekunden die Unternehmensdatenbank, die Sicherheitsprüfung wird zur leeren Rede
Guo Ming-qi n: OpenAI will ein KI-Agenten-Handy herstellen, MediaTek, Qualcomm und Luxshare Precision werden zur entscheidenden Lieferkette
Bloomberg-Strategist: Nach einem Rückgang von 50% bei BGCI wird sich eine großartige Gelegenheit für den Einstieg in Kryptowährungen ergeben
Stanford-AI-Kurs kombiniert Branchenführer Huang Renxun und Altman und fordert heraus, in zehn Wochen einen Mehrwert für die Welt zu schaffen!