В гонке искусственного интеллекта с триллионом параметров в центре внимания часто оказывается вычислительная мощность GPU, однако стратегическую высоту в отрасли все чаще занимает менее заметный компонент — память с высокой пропускной способностью (HBM). Если сравнивать GPU с мощным двигателем с тысячами цилиндров, то HBM — это топливная система, обеспечивающая непрерывный поток данных. Как бы ни был силен двигатель, без достаточной подачи топлива он будет работать лишь на холостых оборотах.
В отрасли формируется новый консенсус: узким местом для вычислительных мощностей ИИ становится не столько производительность самих вычислительных блоков, сколько эффективность передачи данных. Согласно данным, в традиционных вычислительных архитектурах перемещение данных может составлять 60–80% от общего энергопотребления системы. В задачах инференса простои GPU достигают 99%. Ключевым ограничивающим фактором здесь выступает пропускная способность памяти.
Используя технологии 3D-укладки и сквозных кремниевых отверстий (Through-Silicon Via, TSV), HBM обеспечивает значительно более высокую пропускную способность и энергоэффективность на единицу площади по сравнению с традиционной памятью. Поэтому HBM стала стандартным элементом ускорителей ИИ от NVIDIA, AMD, Google и других лидеров отрасли.
Технические основы: как HBM меняет канал передачи данных между GPU и памятью
От «плоской гоночной трассы» к «вертикальному лифту»
HBM — это не новый тип носителя данных, а набор спецификаций интерфейса и упаковки, определяющих «как соединять DRAM с экстремально высокой пропускной способностью». Ключевая технологическая основа HBM состоит из трех уровней:
3D-укладка — Несколько слоев чипов DRAM укладываются вертикально друг на друга (типичные конфигурации сегодня — от 8 до 12 слоев, HBM4 выходит на уровень 16 слоев), что многократно увеличивает плотность хранения и число параллельных каналов на той же площади.
Сквозные кремниевые отверстия (TSV) — В каждом слое DRAM создаются микроскопические отверстия диаметром всего 5–10 микрон, которые заполняются проводящим материалом, формируя вертикальные каналы. Это позволяет создавать десятки тысяч межслойных соединений. В отличие от традиционной разводки на печатных платах, где длина трасс исчисляется сантиметрами и метрами, расстояние передачи сигнала по TSV сокращается до микрон, что резко снижает затухание и задержку сигнала.
Кремниевый интерпозер — Стеки HBM соединяются с кремниевым интерпозером через микро-бамперы, а затем — с чипами GPU/CPU на сверхкоротких расстояниях, формируя единый упаковочный модуль. Вся конструкция использует современные технологии 2.5D-упаковки, такие как CoWoS, для высокой плотности интеграции.
Главный прорыв архитектуры — в ширине шины. Один стек HBM обычно обеспечивает 1024-битную шину, а HBM3E масштабируется до 2048 бит. Например, последний массово выпускаемый чип HBM3E от SK hynix обладает емкостью 24 ГБ и пропускной способностью более 1 ТБ/с. Для сравнения, классические решения GDDR предлагают всего 32 бита на чип (или 384 бита в многоканальных конфигурациях), что приводит к разнице в пропускной способности на порядки.
Философия HBM — «широко и медленно»: общая пропускная способность достигается за счет огромного числа параллельных каналов, каждый из которых работает на относительно низкой частоте, что обеспечивает заметно лучшую энергоэффективность по сравнению с высокочастотными решениями. GDDR, напротив, придерживается логики «узко и быстро»: пропускная способность выжимается из небольшого числа каналов за счет увеличения рабочей частоты. Эти подходы рассчитаны на разные сценарии: HBM ориентирована на максимальную пропускную способность, а GDDR — на баланс между производительностью и стоимостью.
HBM против GDDR6: битва «широко и медленно» против «узко и быстро»
Обе технологии — HBM и GDDR6 — относятся к семейству DRAM и служат каналами доступа к данным для GPU, однако их цели, характеристики и структура затрат принципиально различаются.
Пропускная способность: HBM3E обеспечивает до 1,2 ТБ/с на стек, а следующее поколение HBM4 превысит 2,0 ТБ/с. GDDR6X достигает примерно 1 ТБ/с на карту, что уже близко к физическим пределам для топовых продуктов. Однако HBM значительно превосходит GDDR по энергоэффективности на единицу пропускной способности, что прямо влияет на операционные издержки в масштабных дата-центрах ИИ.
Питание и задержка: Благодаря сверхкоротким вертикальным каналам TSV, HBM потребляет примерно на 30% меньше энергии, чем GDDR5. По задержкам: GDDR использует трассы печатной платы для связи с GPU, что обычно приводит к задержкам в микросекундах; HBM, размещенная непосредственно рядом с кристаллом GPU, сокращает задержку до наносекунд. При этом в экстремальных сценариях с максимальной нагрузкой случайная задержка доступа у HBM чуть выше, чем у GDDR, однако для параллельного потокового доступа — типичного для обучения и инференса ИИ — решающим ограничением становится именно пропускная способность.
Стоимость: Это наиболее очевидный недостаток HBM. По данным отрасли, стоимость HBM превышает $25 за ГБ, тогда как GDDR6 стоит $5–8 за ГБ. HBM может составлять 60–80% от общей стоимости топовых GPU. При этом GDDR6 обеспечивает лучшую производительность по соотношению цена/пропускная способность — если не требуется абсолютный максимум, GDDR6 заметно выгоднее.
В итоге, выбор между HBM и GDDR — это баланс между пределами производительности и ограничениями бюджета. HBM необходима там, где «требуется достичь определенного порога пропускной способности для работы» — например, для инференса моделей с триллионом параметров. Без такой пропускной способности система просто не сможет функционировать эффективно. GDDR6 же подходит для сценариев, где важна «достаточная производительность при минимальных затратах», например, при запуске небольших и средних моделей (7B–13B параметров).
Эти технологии не заменяют друг друга, а представляют параллельные технические решения для разных задач. Тем не менее, в обучении ИИ и крупномасштабном инференсе преимущества HBM постепенно вытесняют GDDR из ядра вычислительных систем.
Проблема «стены памяти»: почему спрос на HBM экспоненциально растет с увеличением моделей ИИ
Чтобы понять взрывной рост спроса на HBM, необходимо вернуться к базовому ограничению вычислений ИИ — «стене памяти».
Растущий разрыв между ростом вычислений и пропускной способностью
За последние тридцать лет производительность процессоров удваивалась каждые 18–24 месяца согласно закону Мура, но пропускная способность памяти отставала. Исследования показывают: вычисления в ИИ-моделях увеличиваются примерно в 3 раза за два года, а пропускная способность памяти — лишь в 1,6 раза, пропускная способность межсоединений — еще медленнее. Это означает, что с каждым новым поколением вычислительных блоков относительная ценность пропускной способности памяти падает.
Это противоречие особенно остро проявляется в инференсе. Обучение строится на матричном умножении (GEMM) с высокой вычислительной плотностью — интенсивность вычислений превышает 100 FLOPS/байт. Инференс же основан на матрично-векторном умножении (GEMV), где интенсивность часто ниже 2 FLOPS/байт. Чем ниже вычислительная интенсивность, тем больше производительность системы зависит от пропускной способности памяти, а не от вычислительной мощности — это и есть эффект «стены пропускной способности».
«Транспортная нагрузка» инференса больших моделей
Базовый процесс инференса больших моделей таков: для каждого генерируемого токена все параметры модели должны быть загружены из памяти в вычислительное ядро. Например, у Llama 3 70B при точности FP16 вес модели составляет около 140 ГБ. Для генерации каждого токена требуется переместить все 140 ГБ параметров. Чтобы обеспечить плавную генерацию 30 токенов в секунду, пропускная способность между HBM и вычислительным ядром должна составлять примерно 4,2 ТБ/с.
Это уже предел для современного оборудования. H100 SXM5 от NVIDIA обеспечивает 3,35 ТБ/с пропускной способности HBM. То есть даже топовый ускоритель ИИ едва справляется с моделью на 70B параметров. По мере роста моделей до сотен миллиардов и триллионов параметров требования к пропускной способности будут расти линейно — а возможно, и сверхлинейно.
Двойное ограничение: емкость и пропускная способность
Емкость памяти — еще один критически важный фактор. Если размер параметров модели превышает объем HBM на одной GPU, модель приходится разбивать между несколькими GPU для параллельной работы — это называется тензорным параллелизмом. Но такой подход создает новый узкий участок: частый обмен промежуточными результатами между GPU, что может существенно снижать общую эффективность.
Таким образом, ценность HBM определяется двумя параметрами: пропускная способность определяет скорость инференса на одной карте и минимальную задержку, а емкость — возможность размещения модели на одной карте, необходимое количество карт и издержки на межкартовое взаимодействие.
Направление развития отрасли очевидно: HBM переходит из разряда «премиальных опций» в «стандартную конфигурацию» для вычислительных систем ИИ. По данным TrendForce, спрос на HBM вырастет более чем на 130% в 2025 году и продолжит расти более чем на 70% в 2026 году. HBM превратилась из вспомогательного элемента графических решений в незаменимый центр вычислительной цепочки ИИ.
Влияние на всю отрасль: от технических решений к дисбалансу спроса и предложения
Рост рынка
Рынок HBM растет быстрее прежних прогнозов большинства аналитиков. По данным SEMI China, объем рынка HBM увеличится на 58% и достигнет $54,6 млрд к 2026 году — почти 40% от всего рынка DRAM. По оценкам Micron, общий адресуемый рынок HBM (TAM) будет расти в среднем на 40% в год: с $35 млрд в 2025 году до $100 млрд в 2028 году, что превысит весь рынок DRAM в 2024 году.
Жесткие ограничения предложения
Однако стремительный рост спроса сталкивается с ограничениями производственных мощностей. По данным SEMI, Samsung, SK hynix и Micron уже перевели 70% новых и регулируемых мощностей на выпуск HBM, но общий дефицит остается на уровне 50–60%.
Узкое место — в высокой сложности производства HBM. Для выпуска требуются передовые техпроцессы DRAM (у лидеров уже освоен уровень 1β нм), а также TSV, микро-бампинг, упаковка на уровне пластины и другие современные упаковочные технологии. Мощности TSMC по упаковке CoWoS — ключевой платформе для интеграции HBM и GPU — к концу 2026 года вырастут до 125 000 пластин в месяц, что на 79% больше год к году, однако этого все равно недостаточно для удовлетворения спроса NVIDIA, AMD, Broadcom и других.
Риски цепочки поставок и ценовые последствия
Дефицит мощностей напрямую отражается на ценах. В 2025 году цены на HBM3E выросли на 5–10%. Более того, по мере перераспределения мощностей трех крупнейших производителей в пользу HBM, предложение потребительской DDR-памяти сокращается, и цены на нее также будут расти до конца 2026 года. Дефицит HBM сжимает возможности всей индустрии памяти.
В июне 2026 года Дженсен Хуанг подтвердил, что SK hynix, Samsung и Micron прошли сертификацию и начали массовые поставки чипов HBM4, при этом Samsung первой в отрасли запустила массовое производство HBM4 в феврале 2026 года. Тем не менее, даже при одновременном расширении всех трех гигантов, дефицит HBM сохранится на уровне около 50% в 2025–2026 годах. Быстро достичь баланса спроса и предложения не удастся. Темпы расширения на upstream-этапах, ограничения по упаковке и стремительный рост спроса на вычисления ИИ формируют динамичный, но постоянно напряженный рынок.
Заключение
От фундаментальных технологических инноваций до жесткой зависимости в ИИ-вычислениях и дисбаланса по всей цепочке поставок — HBM превратилась из одного из направлений развития памяти в ключевое поле битвы за инфраструктуру искусственного интеллекта.
Незаменимость HBM в обучении и инференсе ИИ объясняется базовым принципом вычислений: когда размер параметров модели превышает определенный порог, пропускная способность становится не «оптимизацией», а «условием работоспособности» — без нее система просто не функционирует. GDDR6 может выигрывать по стоимости, но ее архитектура с узкими каналами и высокой частотой не способна обеспечить нужную пропускную способность и энергоэффективность для моделей с триллионом параметров. Эта структурная разница означает, что HBM и GDDR — не просто конкуренты, а решения для разных уровней требований в вычислительном ядре ИИ.
В перспективе массовое производство HBM4 (с пропускной способностью одного стека более 2 ТБ/с), развитие 16-слойной укладки и новые упаковочные технологии, такие как гибридное соединение, будут продолжать поднимать планку производительности HBM. Однако стоит отметить, что такие компании, как Huawei, уже исследуют алгоритмические оптимизации для снижения зависимости от HBM, а альтернативные решения — SRAM и архитектуры вычислений в памяти — также развиваются параллельно. Сможет ли HBM сохранить лидерство в ходе технологических итераций и удастся ли снять ограничения по поставкам в будущих циклах расширения — это одни из ключевых вопросов для индустрии вычислений ИИ на ближайшие годы.




