Der KI-Chip-Wettbewerb der letzten zwei Jahre drehte sich fast ausschließlich um HBM, doch mit dem Übergang von KI-Anwendungen vom Modelltraining hin zu groß angelegter Inferenz könnte der nächste Engpass nicht mehr nur HBM sein, sondern HBF (High Bandwidth Flash, Hochfrequenz-Bandbreiten- und Schnell-Flash-Speicher). Der Turing-Preisträger und UC-Berkeley-Professor David Patterson sagte am 30. April in San Francisco (USA), er glaube, dass HBF sehr wahrscheinlich zur entscheidenden Speichertechnologie wird, bei der die Nachfrage als Nächstes stark ansteigt – ja sogar, die möglicherweise einen neuen Engpass bildet.

(Was hat NVIDIAs Vera Rubin verändert? Aufschlüsselung des Speicherkriegs im Zeitalter von SK Hynix, Samsung, Micron und SanDisk)

Warum David Patterson HBF für gut hält

Die Diskussionen über KI-Speicher drehen sich nahezu durchgehend um HBM (High Bandwidth Memory, Hochbandbreitenspeicher). Doch mit dem Wechsel von KI-Anwendungen vom Modelltraining hin zu groß angelegter Inferenz könnte der nächste Angebots-Engpass nicht mehr nur HBM sein, sondern HBF (High Bandwidth Flash, Hochfrequenz-Bandbreiten- und Schnell-Flash-Speicher).

Patterson ist eine Schwergewichtsfigur in der Informatik und gilt als einer der wichtigen Designer der RISC-Architektur. Er wies bei der Einordnung der nächsten Stufe nach HBM darauf hin, dass es zwar noch viele technische Herausforderungen zu lösen gebe, aber HBF, das von Unternehmen wie SK Hynix und SanDisk vorangetrieben werde, die Eigenschaft habe, „bei geringerem Energieverbrauch große Speicherkapazitäten bereitzustellen“. Für die Zukunft von KI-Systemen sei die entscheidende Variable nicht nur die Rechenleistung, sondern ob Daten effektiv gespeichert, verwaltet und bereitgestellt werden können.

Was ist HBF? NAND-Flash stapeln: nicht HBM ersetzen, sondern aufteilen

Der größte Unterschied zwischen HBF und HBM liegt im verwendeten Speicher-Material. HBM stapelt DRAM vertikal, um die für GPUs und KI-Beschleuniger benötigten Hochbandbreiten-Zugriffe bereitzustellen, und übernimmt vor allem die Aufgabe, „schnell Daten an die Recheneinheiten zu füttern“. HBF stapelt hingegen nichtflüchtigen NAND-Flash. Sein Kernvorteil ist nicht die maximale Geschwindigkeit, sondern dass er bei geringeren Kosten und geringerem Stromverbrauch mehr Datenkapazität liefert.

Kurz gesagt: HBM löst das „Tempo“-Problem im KI-Rechenprozess, HBF löst das immer größere „Kapazitäts“-Problem für KI-Systeme. Deshalb ersetzt HBF nicht einfach HBM, sondern bildet mit HBM eine neue Aufgabenteilung im Speichersystem. HBM übernimmt den unmittelbaren, schnellen Datenaustausch; HBF übernimmt den Bedarf an der Speicherung großer Mengen von Zwischendaten, Kontextdaten und wiederholt aufgerufenen Daten im Inferenzprozess.

Die Inferenzmarkt-Ausweitung rückt die HBF-Nachfrage stärker in den Fokus

Dass HBF im Jahr 2026 mehr Aufmerksamkeit erhält, hat vor allem einen Grund: Der Schwerpunkt des KI-Markts verlagert sich Schritt für Schritt vom Training hin zur Inferenz. Beim KI-Training werden große Mengen an Daten an das Modell verfüttert, damit es Parameter und Muster lernt; bei der Inferenz hingegen wird, nachdem das Modell trainiert wurde, auf Basis von Eingaben der Nutzer Antworten erzeugt, Aufgaben ausgeführt, der Kontext gespeichert und fortlaufend weiter abgewogen.

In typischen Inferenzszenarien ist KI nicht nur für eine einmalige Frage-und-Antwort-Antwort zuständig, sondern muss frühere Gespräche, Arbeitskontexte, Ergebnisse von Entscheidungen, Werkzeugaufrufs-Protokolle und sogar Zwischenwerte über Aufgaben hinweg behalten. Diese Datenmengen sind groß und müssen wiederholt gelesen und aktualisiert werden.

Das Problem: Wenn man diese Daten komplett in HBM ablegt, sind die Kosten zu hoch und die Kapazität ist nicht realistisch. HBM eignet sich für Daten, die man sofort in hoher Geschwindigkeit braucht, aber nicht dafür, alle Kontext- und Zwischenstatusdaten zu tragen, die im Inferenzprozess entstehen. Wenn KI-Agenten, Langkontext-Modelle, multimodale Inferenz und unternehmensweite KI-Workflows allgemein eingesetzt werden, braucht das System nicht nur schnelleren Speicher, sondern einen größeren Pool an Hochgeschwindigkeitsdaten. Genau deshalb gilt HBF als aussichtsreich.

SK Hynix und SNDK treiben die Standardisierung voran; die HBF-Nachfrage könnte 2038 HBM überholen

Um nach mehr Bandbreite zu streben, entwickeln SK Hynix und SanDisk HBF gemeinsam. Dabei handelt es sich um eine 3D-Stapeltechnologie, die HBM ähnelt, aber NAND-Wafer verwendet. Ziel ist es, eine mehrfache Durchsatzleistung im Vergleich zu herkömmlichen SSDs zu liefern – speziell für KI-Inferenz.

Der koreanische KAIST-Professor für Elektrotechnik und Elektronik, Kim Jeong-ho, hatte ebenfalls in einer HBF-Technologie-Vorstellung im Februar darauf hingewiesen, dass im PC-Zeitalter der Kern die CPU war, im Zeitalter von Smartphones der Kern die energiesparsame Auslegung und im KI-Zeitalter der Kern der Speicher sei. Er verteilte die Rollen von HBM und HBF sehr klar: Für die Geschwindigkeit steht HBM, für die Kapazität steht HBF. Zudem prognostizierte Kim, dass ab 2038 die HBF-Nachfrage die von HBM übersteigen könnte.

Der Hintergrund dieser Einschätzung lautet: Je größer der KI-Inferenzmarkt wird, desto umfangreicher werden der unmittelbare Kontext, historische Daten und Aufgabenstatus, die Modelle verarbeiten müssen. Wenn man nur HBM skaliert, wären nicht nur die Kosten hoch, sondern auch die Gesamtleistung und der Verpackungsdruck des Systems würden weiter steigen. Wenn HBF bei Bandbreite, Packaging, Haltbarkeit und Standardisierung Durchbrüche erzielt, könnte es zur neuen Schlüssel-Schicht des Speichers für KI-Datenzentren werden.

Von HBM zu HBF: Der KI-Wettbewerb wandert von „schnell rechnen“ zu „sich merken, steuern können“

In der Vergangenheit lag der Fokus bei Marktgesprächen über KI-Halbleiter meist auf GPU, fortschrittlichen Fertigungsprozessen und der HBM-Versorgung. Vor allem nachdem die Nachfrage nach NVIDIAs KI-Servern stark explodiert war, wurde HBM zeitweise zum zentralen Maßstab, um die Wettbewerbsfähigkeit von Speicherherstellern wie SK Hynix, Samsung und Micron zu bewerten. Patterson zufolge erinnert das jedoch daran, dass sich die Engpässe in der KI-Infrastruktur zunehmend komplexer gestalten.

Solange KI noch im Stadium des Wettbewerbs um das Training großer Modelle steckt, liegt der Fokus darauf, GPUs mit Speicher mit höherer Bandbreite zu versorgen. Doch sobald KI in groß angelegte Inferenz und Agent-Anwendungen übergeht, wird die Kernfrage: Wie kann das Modell den Kontext über lange Zeit hinweg stabil aufrechterhalten? Wie kann man Aufgabenstatus kostengünstig speichern? Und wie lässt sich der Datenfluss zwischen GPU, HBM, SSD, Flash und Netzwerkspeicher effizienter gestalten?

Damit könnte sich der nächste KI-Speicher-Wettbewerb möglicherweise nicht mehr nur als Kampf um HBM-Kapazitäten zeigen, sondern als komplette Neuorganisation der gesamten Speicherhierarchie. HBM bleibt wichtig, denn es bestimmt, ob KI-Chips schnell rechnen können; das Auftauchen von HBF bedeutet jedoch, dass KI-Systeme nun eine neue Art von Datenebene benötigen, die zwischen klassischem Massenspeicher und Hochbandbreiten-Speicher liegt. Sie ist nicht zwingend die schnellste, könnte aber in Bezug auf Kapazität, Leistungsaufnahme und Kosten ein neues Gleichgewicht finden.

Das bedeutet auch: Der nächste Schlüsselbegriff in der KI-Lieferkette könnte von „High Bandwidth Memory“ hin zu „High Bandwidth Flash“ erweitert werden. HBM löst den Engpass beim schnellen Rechnen von KI, während HBF den größeren Engpass beim Daten-Gedächtnis in der Inferenz-Ära adressieren könnte.

Ist dieser Artikel „Der HBM-nachgelagerte KI-Speicher-Engpass ist HBF?“ Der Turing-Preisträger David Patterson: Inferenz wird die Speicherarchitektur neu definieren Erstmals erschienen in Ketten-News ABMedia.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.