كسر وهم الدورية! تحليل معادلة واحدة تفكك بنية طلب HBM: لماذا من المفترض أن يستمر ارتفاع الذاكرة فقط؟

ChainNewsAbmedia

تدفع موجة الذكاء الاصطناعي إلى ازدياد الطلب على الذاكرة وارتفاع الأسعار، ومع ذلك ما تزال بعض الجهات قلقة بشأن ما إذا كانت HBM ستكرر سيناريو «دوريًا» يتبدد فيه الزخم بسرعة بعد ذروة الطلب، كما حدث سابقًا مع DRAM. يشير محلل بنية أشباه الموصلات fin إلى أن منطق طلب HBM قد انفصل عن قواعد صناعة الذاكرة التقليدية، وهو يعيد التسعير عبر ‏token.

(هل يتباطأ صعود الذاكرة؟ تقديرات المؤسسات: اتساع الارتفاع في الربع الثاني يضيق إلى 30%، ومن المتوقع أن يبرد أكثر في النصف الثاني)

ذاكرة عصر CPU: ملحق يمكن الاستغناء عنه

يؤكد fin أنه في حقبة كانت فيها الحوسبة التي يقودها CPU هي السائدة، كان دور ذاكرة DDR دائمًا دورًا مساعدًا. طوّر مهندسو CPU سلسلة من تقنيات هندسية لإخفاء تأخر الذاكرة، بما في ذلك تصميم الفائق السوبراسكالر (الـ超纯量)، والذاكرة المؤقتة متعددة المستويات، وإعادة تسمية السجلات، بما يتيح للمعالج الحفاظ على أداء عالٍ دون الاعتماد على ذاكرة عالية السرعة بشروط محددة:

تتمثل قاعدة الخبرة في الصناعة في أنه حتى إذا تضاعفت عرضية DDR (الـ bandwidth) مباشرة، فإن التحسن الشامل في أداء CPU غالبًا لا يتجاوز 20%.

شكل هذا النوع من البنية مباشرة إيقاع نمو صناعة DRAM خلال العقود الماضية. من DDR3 إلى DDR5 استغرق الأمر 15 عامًا كاملة؛ وخلال العقد الماضي فقط، زادت سعة DDR في معظم أجهزة الكمبيوتر الشخصية من 7 إلى 8 جيجابايت إلى نحو 23 جيجابايت، أي أن النمو لم يتجاوز 3 أضعاف خلال 10 سنوات. وكانت مصادر أرباح شركات DRAM الرئيسية نابعة من حجم السعة، بينما كانت ترقيات العرضية مجرد وسيلة لرفع السعر للوحدة.

في عصر CPU، تعتبر الذاكرة أقل جزء في سلسلة المنفعة الحدّية داخل قطاع الشرائح، وغالبًا ما يكون التذبذب الدوري حالة مألوفة، بل قدرًا.

عندما يحل عصر استدلال AI ليعيد كتابة معيار قيمة الذاكرة من الأساس

لكن عندما يتحول دور البطل إلى محركات استدلال AI، تتغير أيضًا معايير القياس. في السابق كانت شركات الشرائح تقارن نفسها عبر عدد عمليات الفاصلة العائمة التي يمكن تنفيذها في الثانية؛ أما في عصر AI فهناك مؤشر أداء رئيسي واحد فقط (KPI): كم عدد ‏Token التي يمكن إنتاجها مقابل تكلفة وحدة واستهلاك وحدة طاقة.

والفكرة التي طرحها الرئيس التنفيذي لشركة NVIDIA، جينسن هوانغ، حول مفهوم «مصنع AI» تصف هذه المنطق الجديد بدقة: يتمثل معنى مصنع AI في إنتاج أكبر عدد ممكن من ‏Token بأقل تكلفة، وفي الوقت نفسه دفع سرعة إخراج ‏Token إلى أقصى حد. لم يعد الهدف تحسينًا بعدًا واحدًا فقط، بل امتد خارجه؛ إذ يلزم تعظيم إجمالي السعة/التمرير الكلي لـ ‏Token، مع السعي أيضًا إلى زيادة سرعة إخراج ‏Token لكل طلب.

وتحوّل هذا المؤشر هو نقطة الانعطاف الأولى في مصير HBM.

معادلة سعة تدفق ‏Token تكشف مبدأ الطلب على HBM من الدرجة الأولى

يفكك fin سعة تدفق ‏Token في استدلال AI إلى حاصل ضرب معاملين: «عدد دفعات الطلبات التي تتم معالجتها في وقت واحد × متوسط سرعة توليد ‏Token لكل طلب». ومن خلال تتبع عنق الزجاجة لكل من هذين المعاملين، تأتي الإجابة إلى قطعة واحدة بعينها.

أما عنق الزجاجة في عدد الدفعات فيكمن في سعة التخزين لدى HBM. كل طلب استدلال يحمل ذاكرة KV مؤقتة خاصة به، أي آلية لحفظ الحالات الوسيطة أثناء عملية الاستدلال، ولا بد من تخزين هذه الذاكرة المؤقتة داخل HBM فورًا حتى تتمكن النماذج من إعادة القراءة بسرعة عالية كلما ولّد كل ‏Token. كلما كبر حجم الدفعة، احتاجت HBM إلى مساحة تخزين أكبر، والعلاقتان تتناسبان طرديًا بشكل خطي.

وأما عنق الزجاجة في سرعة ‏Token فيكمن في عرضية HBM (HBM bandwidth). في مرحلة فك الترميز، في كل مرة يُنتَج فيها ‏Token واحد، يلزم تكرار قراءة أوزان بدء ضخمة وذاكرة KV المؤقتة. تحدد سرعة القراءة مباشرة كفاءة توليد ‏Token، والحد الأعلى لسرعة القراءة هو عرضية HBM.

ويذكر أن هذه العلاقة يمكن تشبيهها بحافلات النقل من وإلى المطار: سعة HBM هي حجم حجرة الحافلة، وهي ما يحدد كم عدد الركاب الذين يمكنهم الصعود في الرحلة الواحدة؛ وعرض باب الحافلة هو عرضية HBM، وهو ما يحدد سرعة صعود الركاب ونزولهم؛ أما إجمالي سعة نقل الركاب (السعة الكلية) فهو حاصل ضرب حجم حجرة الحافلة في سرعة النقل. ومن هذا يمكن استنتاج مبدأ أول لاحتياجات العتاد لاستدلال AI:

سعة تدفق ‏Token = سعة HBM × عرضية HBM

ولكي تُحافظ كل جيل من وحدات GPU على نمو مضاعف في سعة تدفق ‏Token عبر الأجيال، يجب أن يتضاعف حاصل ضرب سعة HBM وعرضية HBM في كل جيل.

لا يمكن للبرمجيات حل المسألة، وطلب HBM يتجه إلى مسار أسي

في مواجهة هذا الاستنتاج، فإن أكثر اعتراض يُطرح في السوق هو: أليست التحسينات البرمجية قادرة على تقليل الاعتماد على HBM؟ تكون إجابته أن كفاءة البرمجيات وتقدم مواصفات العتاد بُعدان منفصلان تمامًا ولا يستبدل أحدهما الآخر. هذا يشبه حقيقة أنه حتى لو كانت تحسينات برمجيات CPU أكثر شمولًا، فلن يمنع ذلك Intel أو AMD من الاضطرار إلى تحقيق درجات أعلى في الاختبارات المعيارية كل جيل، وإلا فلن تُباع المنتجات.

وتنطبق الحتمية نفسها على منطق GPU: طالما يستمر توسع الطلب العالمي على ‏Token، فلن يتوقف السعي نحو سعة تدفق ‏Token أعلى، ولن تتوقف كذلك المطالب بتحسينات في HBM على الجانبين.

والأكثر أهمية هو أن هذا الضغط لا يأتي من سحب خارجي بسبب تحسن المزاج في الاقتصاد، بل من طلب داخلي متولد من جانب التوريد. طالما ما زالت NVIDIA بحاجة لبيع جيل GPU التالي، فسيتعين عليها الضغط على SK hynix وسامسونغ وMicron ليتحقق قفز متزامن في سعة HBM وعرضيتها في كل جيل، لأن سقف HBM هو سقف أداء GPU.

عندما نقوم برسم سعة تدفق ‏Token لوحدات GPU من NVIDIA من A100 إلى Rubin Ultra عبر الأجيال المختلفة، مقابل القيم المقابلة لـ «سعة HBM × عرضية HBM»، على نفس شبكة الإحداثيات الثنائية، ستكون درجة تطابق المنحنيين مدهشة. وليس ذلك صدفة تاريخية، بل نتيجة حتمية لعملية تحسين النظام.

وداعًا للقدر الدوري لـ HBM، وما زال منطق تسعير السوق بحاجة لإعادة تقييم

استنادًا إلى الاستدلال البنيوي أعلاه، بات الفرق الجوهري بين HBM والـ DRAM التقليدية واضحًا. الذاكرة التقليدية مجرد ملحق في صناعة الشرائح، ودافع الطلب لديها ضعيف؛ وما إن يتجاوز إيقاع زيادة الطاقة الإنتاجية تعافي الطلب، تأتي الموجة المتوقعة من انهيار الأسعار الدورية.

لكن طلب HBM قد تم تثبيته بواسطة المنطق الفيزيائي لبنية استدلال AI على مسار نمو أسي. ولا توجد علاقة سببية مباشرة بين ذلك وبين تقلبات حرارة السوق الإجمالية لقطاع AI أو بدورات الازدهار الاقتصادية الكلية.

وبطبيعة الحال، ليست المشكلة الحقيقية في جانب الطلب، بل في جانب العرض: فهل يستطيع اللاعبون الثلاثة SK hynix وسامسونغ وMicron، رغم الطلب القوي، كبح اندفاع زيادة الطاقة الإنتاجية الأعمى الذي تكرر خلال العقود الماضية، وتجنب إعادة زرع لعنة دورة «العرض يفوق الطلب»؟ إن إجابة هذا السؤال ستكون المتغير الحاسم في ما إذا كان بإمكان دورة الذاكرة الحالية الاستمرار على المدى الطويل.

(هل يمكن شراء أسهم الذاكرة بعد انهيارها؟ محلل في سامسونغ للأوراق المالية: تصحيح داخل الدورة وليس بلوغ ذروة السوق)

هذه المقالة تكسر وهم الدورات! معادلة واحدة تفكك بنية طلب HBM: لماذا ستستمر الذاكرة في الارتفاع؟ ظهرت لأول مرة على شبكة أخبار السلسلة ABMedia.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات