3月中旬にカリフォルニア州サンノゼで開催されるNVIDIAのGTC大会は、AI分野で最も注目されるイベントの一つです。これまで黄仁勋は、「世界で前例のない」新しいチップを発売すると発表しました。この発言により、資本市場は熱く議論しています。現在の主流の見方は、GTCで発表される予定のチップは、Groq LPU(言語処理ユニット)を組み込んだ全く新しい推論製品の可能性が高いというものです。庄昌磊氏(云岫资本AI/智能制造组董事)は記者に対し、「既存のGPUのプラグインとして使う場合、データ伝送はPCIeやNVLinkなどの外部インターフェースを経由する必要があり、これ自体が新たな遅延を引き起こし、SRAMの低遅延の利点を部分的に相殺してしまう」と分析しています。さらに、「より理想的な方案は、Cerebrasのように、推論専用に設計されたSRAMを中心とした全く新しい計算アーキテクチャを構築することだ」と付け加えました。**推論時代の到来**「OpenClaw(小龍虾)」を代表とする新世代のエージェントアプリケーションの爆発的な普及により、世界の計算能力需要構造は明らかに変化しており、市場の焦点もトレーニングから推論へと移っています。デロイトの「2026年のテクノロジー、メディア、通信産業予測」によると、2026年までに「推論」(AIモデルの実行)は全AI計算能力の約3分の2を占めると予測されています。さらに、数十億ドル規模の推論専用最適化チップが登場し、データセンターや企業サーバーに導入される見込みで、一部のチップは汎用AIチップと同等かそれ以上の電力消費を示すとされています。最近、記者はこの大会の最大の注目点について、英伟达(NVIDIA)がRubinおよび次世代FeynmanアーキテクチャGPUのコア技術詳細を正式に発表することに加え、LPU技術を統合した全く新しい推論チップを発表する可能性が高いと推測しています。GroqチームのLPU技術を統合した新しい推論チップシステムは、英伟达がコアAI計算力製品ラインに外部アーキテクチャを大規模に導入するのは初めてとなる可能性があります。中信証券は、以前NVIDIAがPreFillコスト削減のためにRubin CPXを発売し、Groqの買収後、今回LPUまたは「類LPU」チップを導入してDecodeの効率化を図ると予測しています。推論過程では、モデルは一般的に2段階を経ます。まずpre-fill段階でユーザー入力を処理し、次にdecode段階でトークンごとに出力結果を生成します。実際にユーザーの推論体験に影響を与えるのは、decode段階の生成速度と遅延です。GPUを基盤とした推論アーキテクチャでは、多くのモデルパラメータがHBMに格納されているため、計算コアとHBM間の頻繁なデータ移動が必要となり、モデルのdecode速度に影響します。一方、Groq LPUは推論の高速化に特化しており、計算コアに近いSRAMを用いてモデルパラメータを格納します。例えば、230MBのオンチップSRAMは最大80TB/sのメモリ帯域を提供し、データ処理速度はGPUアーキテクチャをはるかに上回ります。ただし、物理設計の観点から、SRAMを完全にHBMの代替とすることは不可能です。庄昌磊氏は、「現在の大規模モデルは数百億から数兆のパラメータを持ち、純粋なSRAM方案では容量が全く追いつかない」と説明しています。では、英伟达はどのように革新を図るのでしょうか。答えは「置き換え」ではなく、「積み重ね」だと考えられます。庄氏は、「業界の情報によると、英伟达はAMDの3D V-Cacheの技術に似た方法を採用し、TSMCのSoIC(集積チップシステム)を用いたハイブリッドボンディング技術により、推論高速化用に設計された大量のSRAMを含むLPUユニットをGPUコア上に3D積層する可能性が高い」と述べています。**サプライチェーンの変動も予想される**3D積層方案については、AMDなどの主要メーカーも既に取り組んでいます。2021年、AMDは3D垂直キャッシュ(3D V-Cache)技術を発表し、追加の7nm SRAMキャッシュをRyzen計算チップの上部に垂直積層してL3キャッシュを大幅に増加させました。2024年7月には富士通がMONAKAプロセッサに3D SRAM技術を採用し、2027年の出荷を計画しています。**この方案は主流となるのか?**「片上SRAMは製造工程の縮小に伴い論理回路の遅延が増加し、単一チップ上のSRAM占有面積とコストが増大する問題がある」と指摘されています。これに対し、一部の投資家は、SRAMアーキテクチャはAIチップのメモリの主要方案にはなり得ないと考えています。一方、東方証券は、SRAMの3D積層方案は垂直積層によるストレージユニットの密度向上により、従来の容量制限を回避できるとし、より高容量のSRAMを必要とするAI推論には3D積層方案が有望だと述べています。中信証券も、将来的にGPUやNPUが3D積層SRAMを採用し、メモリ帯域の飛躍的向上を実現し、LPUの利点を取り込みつつ、既存のソフトウェアエコシステムを維持できると予測しています。庄昌磊氏は、「複雑なAIチップは、まずSoICでLPUとGPUコアを積層し、その後CoWoSとHBMでパッケージングする必要がある」と指摘します。特定の用途で、HBM容量を必要としない純粋な推論チップは、完全に3D積層SRAMに依存して構築可能ですが、その場合はCoWoSを回避できます。ただし、これらのチップはニッチ市場向けであり、HBM+CoWoSの主流地位を揺るがす規模にはなりにくいとしています。また、台積電のSoICのようなSRAM3D積層は、ウエハ段階での正確なウエハ間接合を必要とし、先端製造技術と深く連動します。これにより、価値は後工程のパッケージングから前工程に移行します。一方、先端製造技術の価値はさらに高まります。庄氏は、「垂直積層において最高の相互接続密度とエネルギー効率を得るためには、最下層の計算用ウエハに最先端の工芸(例:A16)を採用する必要があり、これが業界の最先端技術への依存を強める」と指摘します。さらに、「高級チップの価値が前工程の製造と密接に結びつき、先端封装とともに高付加価値化が進むと、国内封装テスト企業は高級市場から排除されるリスクもある」と庄氏は述べています。これにより、成熟した3D積層方案やテスト、放熱、信頼性分析などの後工程での新たな技術的壁を築くチャンスも生まれます。
英伟达は「神秘的なチップ」を発表予定、推論専用に設計された新しいアーキテクチャか
3月中旬にカリフォルニア州サンノゼで開催されるNVIDIAのGTC大会は、AI分野で最も注目されるイベントの一つです。これまで黄仁勋は、「世界で前例のない」新しいチップを発売すると発表しました。
この発言により、資本市場は熱く議論しています。現在の主流の見方は、GTCで発表される予定のチップは、Groq LPU(言語処理ユニット)を組み込んだ全く新しい推論製品の可能性が高いというものです。
庄昌磊氏(云岫资本AI/智能制造组董事)は記者に対し、「既存のGPUのプラグインとして使う場合、データ伝送はPCIeやNVLinkなどの外部インターフェースを経由する必要があり、これ自体が新たな遅延を引き起こし、SRAMの低遅延の利点を部分的に相殺してしまう」と分析しています。
さらに、「より理想的な方案は、Cerebrasのように、推論専用に設計されたSRAMを中心とした全く新しい計算アーキテクチャを構築することだ」と付け加えました。
推論時代の到来
「OpenClaw(小龍虾)」を代表とする新世代のエージェントアプリケーションの爆発的な普及により、世界の計算能力需要構造は明らかに変化しており、市場の焦点もトレーニングから推論へと移っています。
デロイトの「2026年のテクノロジー、メディア、通信産業予測」によると、2026年までに「推論」(AIモデルの実行)は全AI計算能力の約3分の2を占めると予測されています。さらに、数十億ドル規模の推論専用最適化チップが登場し、データセンターや企業サーバーに導入される見込みで、一部のチップは汎用AIチップと同等かそれ以上の電力消費を示すとされています。
最近、記者はこの大会の最大の注目点について、英伟达(NVIDIA)がRubinおよび次世代FeynmanアーキテクチャGPUのコア技術詳細を正式に発表することに加え、LPU技術を統合した全く新しい推論チップを発表する可能性が高いと推測しています。
GroqチームのLPU技術を統合した新しい推論チップシステムは、英伟达がコアAI計算力製品ラインに外部アーキテクチャを大規模に導入するのは初めてとなる可能性があります。
中信証券は、以前NVIDIAがPreFillコスト削減のためにRubin CPXを発売し、Groqの買収後、今回LPUまたは「類LPU」チップを導入してDecodeの効率化を図ると予測しています。
推論過程では、モデルは一般的に2段階を経ます。まずpre-fill段階でユーザー入力を処理し、次にdecode段階でトークンごとに出力結果を生成します。
実際にユーザーの推論体験に影響を与えるのは、decode段階の生成速度と遅延です。GPUを基盤とした推論アーキテクチャでは、多くのモデルパラメータがHBMに格納されているため、計算コアとHBM間の頻繁なデータ移動が必要となり、モデルのdecode速度に影響します。
一方、Groq LPUは推論の高速化に特化しており、計算コアに近いSRAMを用いてモデルパラメータを格納します。例えば、230MBのオンチップSRAMは最大80TB/sのメモリ帯域を提供し、データ処理速度はGPUアーキテクチャをはるかに上回ります。
ただし、物理設計の観点から、SRAMを完全にHBMの代替とすることは不可能です。
庄昌磊氏は、「現在の大規模モデルは数百億から数兆のパラメータを持ち、純粋なSRAM方案では容量が全く追いつかない」と説明しています。では、英伟达はどのように革新を図るのでしょうか。
答えは「置き換え」ではなく、「積み重ね」だと考えられます。庄氏は、「業界の情報によると、英伟达はAMDの3D V-Cacheの技術に似た方法を採用し、TSMCのSoIC(集積チップシステム)を用いたハイブリッドボンディング技術により、推論高速化用に設計された大量のSRAMを含むLPUユニットをGPUコア上に3D積層する可能性が高い」と述べています。
サプライチェーンの変動も予想される
3D積層方案については、AMDなどの主要メーカーも既に取り組んでいます。2021年、AMDは3D垂直キャッシュ(3D V-Cache)技術を発表し、追加の7nm SRAMキャッシュをRyzen計算チップの上部に垂直積層してL3キャッシュを大幅に増加させました。2024年7月には富士通がMONAKAプロセッサに3D SRAM技術を採用し、2027年の出荷を計画しています。
この方案は主流となるのか?
「片上SRAMは製造工程の縮小に伴い論理回路の遅延が増加し、単一チップ上のSRAM占有面積とコストが増大する問題がある」と指摘されています。これに対し、一部の投資家は、SRAMアーキテクチャはAIチップのメモリの主要方案にはなり得ないと考えています。一方、東方証券は、SRAMの3D積層方案は垂直積層によるストレージユニットの密度向上により、従来の容量制限を回避できるとし、より高容量のSRAMを必要とするAI推論には3D積層方案が有望だと述べています。
中信証券も、将来的にGPUやNPUが3D積層SRAMを採用し、メモリ帯域の飛躍的向上を実現し、LPUの利点を取り込みつつ、既存のソフトウェアエコシステムを維持できると予測しています。
庄昌磊氏は、「複雑なAIチップは、まずSoICでLPUとGPUコアを積層し、その後CoWoSとHBMでパッケージングする必要がある」と指摘します。特定の用途で、HBM容量を必要としない純粋な推論チップは、完全に3D積層SRAMに依存して構築可能ですが、その場合はCoWoSを回避できます。ただし、これらのチップはニッチ市場向けであり、HBM+CoWoSの主流地位を揺るがす規模にはなりにくいとしています。
また、台積電のSoICのようなSRAM3D積層は、ウエハ段階での正確なウエハ間接合を必要とし、先端製造技術と深く連動します。これにより、価値は後工程のパッケージングから前工程に移行します。
一方、先端製造技術の価値はさらに高まります。庄氏は、「垂直積層において最高の相互接続密度とエネルギー効率を得るためには、最下層の計算用ウエハに最先端の工芸(例:A16)を採用する必要があり、これが業界の最先端技術への依存を強める」と指摘します。
さらに、「高級チップの価値が前工程の製造と密接に結びつき、先端封装とともに高付加価値化が進むと、国内封装テスト企業は高級市場から排除されるリスクもある」と庄氏は述べています。これにより、成熟した3D積層方案やテスト、放熱、信頼性分析などの後工程での新たな技術的壁を築くチャンスも生まれます。