HBM против GDDR: как высокоскоростная память преодолевает узкое место «памятной стены» в обучении и инфере?

Рынки
Обновлено: 06/10/2026 05:33

В гонке искусственного интеллекта с триллионом параметров в центре внимания часто оказывается вычислительная мощность GPU, однако стратегическую высоту в отрасли все чаще занимает менее заметный компонент — память с высокой пропускной способностью (HBM). Если сравнивать GPU с мощным двигателем с тысячами цилиндров, то HBM — это топливная система, обеспечивающая непрерывный поток данных. Как бы ни был силен двигатель, без достаточной подачи топлива он будет работать лишь на холостых оборотах.

В отрасли формируется новый консенсус: узким местом для вычислительных мощностей ИИ становится не столько производительность самих вычислительных блоков, сколько эффективность передачи данных. Согласно данным, в традиционных вычислительных архитектурах перемещение данных может составлять 60–80% от общего энергопотребления системы. В задачах инференса простои GPU достигают 99%. Ключевым ограничивающим фактором здесь выступает пропускная способность памяти.

Используя технологии 3D-укладки и сквозных кремниевых отверстий (Through-Silicon Via, TSV), HBM обеспечивает значительно более высокую пропускную способность и энергоэффективность на единицу площади по сравнению с традиционной памятью. Поэтому HBM стала стандартным элементом ускорителей ИИ от NVIDIA, AMD, Google и других лидеров отрасли.

Технические основы: как HBM меняет канал передачи данных между GPU и памятью

От «плоской гоночной трассы» к «вертикальному лифту»

HBM — это не новый тип носителя данных, а набор спецификаций интерфейса и упаковки, определяющих «как соединять DRAM с экстремально высокой пропускной способностью». Ключевая технологическая основа HBM состоит из трех уровней:

3D-укладка — Несколько слоев чипов DRAM укладываются вертикально друг на друга (типичные конфигурации сегодня — от 8 до 12 слоев, HBM4 выходит на уровень 16 слоев), что многократно увеличивает плотность хранения и число параллельных каналов на той же площади.

Сквозные кремниевые отверстия (TSV) — В каждом слое DRAM создаются микроскопические отверстия диаметром всего 5–10 микрон, которые заполняются проводящим материалом, формируя вертикальные каналы. Это позволяет создавать десятки тысяч межслойных соединений. В отличие от традиционной разводки на печатных платах, где длина трасс исчисляется сантиметрами и метрами, расстояние передачи сигнала по TSV сокращается до микрон, что резко снижает затухание и задержку сигнала.

Кремниевый интерпозер — Стеки HBM соединяются с кремниевым интерпозером через микро-бамперы, а затем — с чипами GPU/CPU на сверхкоротких расстояниях, формируя единый упаковочный модуль. Вся конструкция использует современные технологии 2.5D-упаковки, такие как CoWoS, для высокой плотности интеграции.

Главный прорыв архитектуры — в ширине шины. Один стек HBM обычно обеспечивает 1024-битную шину, а HBM3E масштабируется до 2048 бит. Например, последний массово выпускаемый чип HBM3E от SK hynix обладает емкостью 24 ГБ и пропускной способностью более 1 ТБ/с. Для сравнения, классические решения GDDR предлагают всего 32 бита на чип (или 384 бита в многоканальных конфигурациях), что приводит к разнице в пропускной способности на порядки.

Философия HBM — «широко и медленно»: общая пропускная способность достигается за счет огромного числа параллельных каналов, каждый из которых работает на относительно низкой частоте, что обеспечивает заметно лучшую энергоэффективность по сравнению с высокочастотными решениями. GDDR, напротив, придерживается логики «узко и быстро»: пропускная способность выжимается из небольшого числа каналов за счет увеличения рабочей частоты. Эти подходы рассчитаны на разные сценарии: HBM ориентирована на максимальную пропускную способность, а GDDR — на баланс между производительностью и стоимостью.

HBM против GDDR6: битва «широко и медленно» против «узко и быстро»

Обе технологии — HBM и GDDR6 — относятся к семейству DRAM и служат каналами доступа к данным для GPU, однако их цели, характеристики и структура затрат принципиально различаются.

Пропускная способность: HBM3E обеспечивает до 1,2 ТБ/с на стек, а следующее поколение HBM4 превысит 2,0 ТБ/с. GDDR6X достигает примерно 1 ТБ/с на карту, что уже близко к физическим пределам для топовых продуктов. Однако HBM значительно превосходит GDDR по энергоэффективности на единицу пропускной способности, что прямо влияет на операционные издержки в масштабных дата-центрах ИИ.

Питание и задержка: Благодаря сверхкоротким вертикальным каналам TSV, HBM потребляет примерно на 30% меньше энергии, чем GDDR5. По задержкам: GDDR использует трассы печатной платы для связи с GPU, что обычно приводит к задержкам в микросекундах; HBM, размещенная непосредственно рядом с кристаллом GPU, сокращает задержку до наносекунд. При этом в экстремальных сценариях с максимальной нагрузкой случайная задержка доступа у HBM чуть выше, чем у GDDR, однако для параллельного потокового доступа — типичного для обучения и инференса ИИ — решающим ограничением становится именно пропускная способность.

Стоимость: Это наиболее очевидный недостаток HBM. По данным отрасли, стоимость HBM превышает $25 за ГБ, тогда как GDDR6 стоит $5–8 за ГБ. HBM может составлять 60–80% от общей стоимости топовых GPU. При этом GDDR6 обеспечивает лучшую производительность по соотношению цена/пропускная способность — если не требуется абсолютный максимум, GDDR6 заметно выгоднее.

В итоге, выбор между HBM и GDDR — это баланс между пределами производительности и ограничениями бюджета. HBM необходима там, где «требуется достичь определенного порога пропускной способности для работы» — например, для инференса моделей с триллионом параметров. Без такой пропускной способности система просто не сможет функционировать эффективно. GDDR6 же подходит для сценариев, где важна «достаточная производительность при минимальных затратах», например, при запуске небольших и средних моделей (7B–13B параметров).

Эти технологии не заменяют друг друга, а представляют параллельные технические решения для разных задач. Тем не менее, в обучении ИИ и крупномасштабном инференсе преимущества HBM постепенно вытесняют GDDR из ядра вычислительных систем.

Проблема «стены памяти»: почему спрос на HBM экспоненциально растет с увеличением моделей ИИ

Чтобы понять взрывной рост спроса на HBM, необходимо вернуться к базовому ограничению вычислений ИИ — «стене памяти».

Растущий разрыв между ростом вычислений и пропускной способностью

За последние тридцать лет производительность процессоров удваивалась каждые 18–24 месяца согласно закону Мура, но пропускная способность памяти отставала. Исследования показывают: вычисления в ИИ-моделях увеличиваются примерно в 3 раза за два года, а пропускная способность памяти — лишь в 1,6 раза, пропускная способность межсоединений — еще медленнее. Это означает, что с каждым новым поколением вычислительных блоков относительная ценность пропускной способности памяти падает.

Это противоречие особенно остро проявляется в инференсе. Обучение строится на матричном умножении (GEMM) с высокой вычислительной плотностью — интенсивность вычислений превышает 100 FLOPS/байт. Инференс же основан на матрично-векторном умножении (GEMV), где интенсивность часто ниже 2 FLOPS/байт. Чем ниже вычислительная интенсивность, тем больше производительность системы зависит от пропускной способности памяти, а не от вычислительной мощности — это и есть эффект «стены пропускной способности».

«Транспортная нагрузка» инференса больших моделей

Базовый процесс инференса больших моделей таков: для каждого генерируемого токена все параметры модели должны быть загружены из памяти в вычислительное ядро. Например, у Llama 3 70B при точности FP16 вес модели составляет около 140 ГБ. Для генерации каждого токена требуется переместить все 140 ГБ параметров. Чтобы обеспечить плавную генерацию 30 токенов в секунду, пропускная способность между HBM и вычислительным ядром должна составлять примерно 4,2 ТБ/с.

Это уже предел для современного оборудования. H100 SXM5 от NVIDIA обеспечивает 3,35 ТБ/с пропускной способности HBM. То есть даже топовый ускоритель ИИ едва справляется с моделью на 70B параметров. По мере роста моделей до сотен миллиардов и триллионов параметров требования к пропускной способности будут расти линейно — а возможно, и сверхлинейно.

Двойное ограничение: емкость и пропускная способность

Емкость памяти — еще один критически важный фактор. Если размер параметров модели превышает объем HBM на одной GPU, модель приходится разбивать между несколькими GPU для параллельной работы — это называется тензорным параллелизмом. Но такой подход создает новый узкий участок: частый обмен промежуточными результатами между GPU, что может существенно снижать общую эффективность.

Таким образом, ценность HBM определяется двумя параметрами: пропускная способность определяет скорость инференса на одной карте и минимальную задержку, а емкость — возможность размещения модели на одной карте, необходимое количество карт и издержки на межкартовое взаимодействие.

Направление развития отрасли очевидно: HBM переходит из разряда «премиальных опций» в «стандартную конфигурацию» для вычислительных систем ИИ. По данным TrendForce, спрос на HBM вырастет более чем на 130% в 2025 году и продолжит расти более чем на 70% в 2026 году. HBM превратилась из вспомогательного элемента графических решений в незаменимый центр вычислительной цепочки ИИ.

Влияние на всю отрасль: от технических решений к дисбалансу спроса и предложения

Рост рынка

Рынок HBM растет быстрее прежних прогнозов большинства аналитиков. По данным SEMI China, объем рынка HBM увеличится на 58% и достигнет $54,6 млрд к 2026 году — почти 40% от всего рынка DRAM. По оценкам Micron, общий адресуемый рынок HBM (TAM) будет расти в среднем на 40% в год: с $35 млрд в 2025 году до $100 млрд в 2028 году, что превысит весь рынок DRAM в 2024 году.

Жесткие ограничения предложения

Однако стремительный рост спроса сталкивается с ограничениями производственных мощностей. По данным SEMI, Samsung, SK hynix и Micron уже перевели 70% новых и регулируемых мощностей на выпуск HBM, но общий дефицит остается на уровне 50–60%.

Узкое место — в высокой сложности производства HBM. Для выпуска требуются передовые техпроцессы DRAM (у лидеров уже освоен уровень 1β нм), а также TSV, микро-бампинг, упаковка на уровне пластины и другие современные упаковочные технологии. Мощности TSMC по упаковке CoWoS — ключевой платформе для интеграции HBM и GPU — к концу 2026 года вырастут до 125 000 пластин в месяц, что на 79% больше год к году, однако этого все равно недостаточно для удовлетворения спроса NVIDIA, AMD, Broadcom и других.

Риски цепочки поставок и ценовые последствия

Дефицит мощностей напрямую отражается на ценах. В 2025 году цены на HBM3E выросли на 5–10%. Более того, по мере перераспределения мощностей трех крупнейших производителей в пользу HBM, предложение потребительской DDR-памяти сокращается, и цены на нее также будут расти до конца 2026 года. Дефицит HBM сжимает возможности всей индустрии памяти.

В июне 2026 года Дженсен Хуанг подтвердил, что SK hynix, Samsung и Micron прошли сертификацию и начали массовые поставки чипов HBM4, при этом Samsung первой в отрасли запустила массовое производство HBM4 в феврале 2026 года. Тем не менее, даже при одновременном расширении всех трех гигантов, дефицит HBM сохранится на уровне около 50% в 2025–2026 годах. Быстро достичь баланса спроса и предложения не удастся. Темпы расширения на upstream-этапах, ограничения по упаковке и стремительный рост спроса на вычисления ИИ формируют динамичный, но постоянно напряженный рынок.

Заключение

От фундаментальных технологических инноваций до жесткой зависимости в ИИ-вычислениях и дисбаланса по всей цепочке поставок — HBM превратилась из одного из направлений развития памяти в ключевое поле битвы за инфраструктуру искусственного интеллекта.

Незаменимость HBM в обучении и инференсе ИИ объясняется базовым принципом вычислений: когда размер параметров модели превышает определенный порог, пропускная способность становится не «оптимизацией», а «условием работоспособности» — без нее система просто не функционирует. GDDR6 может выигрывать по стоимости, но ее архитектура с узкими каналами и высокой частотой не способна обеспечить нужную пропускную способность и энергоэффективность для моделей с триллионом параметров. Эта структурная разница означает, что HBM и GDDR — не просто конкуренты, а решения для разных уровней требований в вычислительном ядре ИИ.

В перспективе массовое производство HBM4 (с пропускной способностью одного стека более 2 ТБ/с), развитие 16-слойной укладки и новые упаковочные технологии, такие как гибридное соединение, будут продолжать поднимать планку производительности HBM. Однако стоит отметить, что такие компании, как Huawei, уже исследуют алгоритмические оптимизации для снижения зависимости от HBM, а альтернативные решения — SRAM и архитектуры вычислений в памяти — также развиваются параллельно. Сможет ли HBM сохранить лидерство в ходе технологических итераций и удастся ли снять ограничения по поставкам в будущих циклах расширения — это одни из ключевых вопросов для индустрии вычислений ИИ на ближайшие годы.

The content herein does not constitute any offer, solicitation, or recommendation. You should always seek independent professional advice before making any investment decisions. Please note that Gate may restrict or prohibit the use of all or a portion of the Services from Restricted Locations. For more information, please read the User Agreement
Нравится содержание