ورقة بحثية أسقطت أسهم التخزين

DeepFlowTech · 2026-03-26T01:25:52+00:00

المؤلف: Deep Tide TechFlowفي 25 مارس، ارتفعت أسهم التكنولوجيا بالسوق الأمريكية بشكل عام، وكان مؤشر ناسداك 100 في المنطقة الإيجابية، لكن هناك فئة واحدة من الأسهم كانت تنزف عكس الاتجاه:انخفض SanDisk بنسبة 3.50%، وانخفض Micron بنسبة 3.4%، وانخفض Seagate بنسبة 2.59%، وانخفض Western Digital بنسبة 1.63%. كان قطاع التخزين بأكمله وكأنه في حفلة ثم فصل شخص ما الكهرباء فجأة.الجاني هو ورقة بحثية، أو بشكل أكثر دقة، هو الترويج الرسمي من قبل Google Research لورقة بحثية.ما الذي فعلته هذه الورقة البحثية في الواقعلفهم هذا الأمر، تحتاج أولاً إلى فهم مفهوم نادراً ما يلقى اهتماماً خارجياً في البنية الأساسية للذكاء الاصطناعي: KV Cache.عندما تتحاور مع نموذج لغة كبير، فإن النموذج لن يفهم سؤالك من الصفر في كل مرة. سيضع سياق المحادثة بأكملها بطريقة تسمى "زوج المفتاح والقيمة" (Key-Value Pair

DeepFlowTech

2026-03-26 01:25:52

作者: 深潮 TechFlow

في 25 مارس، شهدت أسهم التكنولوجيا الأمريكية ارتفاعًا عامًا، وارتفع مؤشر ناسداك 100، لكن هناك نوع من الأسهم تراجعت عكس الاتجاه:

انخفضت شركة SanDisk بنسبة 3.50%، وMicron بنسبة 3.4%، وSeagate بنسبة 2.59%، وWestern Digital بنسبة 1.63%. وكأن قطاع التخزين بأكمله تم قطعه فجأة عن مصدر الطاقة في حفلة.

القاتل هو ورقة بحثية، أو بشكل أدق، هو الترويج الرسمي لورقة بحثية من Google Research.

ماذا فعلت هذه الورقة بالضبط

لفهم الأمر، من الضروري أولاً توضيح مفهوم نادرًا ما يحظى بالاهتمام في بنية تحتية للذكاء الاصطناعي: ذاكرة التخزين المؤقت KV.

عندما تتفاعل مع نموذج لغة كبير، النموذج لا يبدأ من الصفر في فهم سؤالك في كل مرة. بل يخزن سياق الحوار بأكمله في ذاكرة مؤقتة بصيغة تسمى “زوج المفتاح والقيمة” (Key-Value Pair)، وهذه هي ذاكرة التخزين المؤقت KV، وهي الذاكرة قصيرة المدى للنموذج.

المشكلة أن حجم ذاكرة التخزين المؤقت KV يتناسب طرديًا مع طول نافذة السياق. وعندما تصل نافذة السياق إلى مليون رمز (Token)، قد يتجاوز استهلاك ذاكرة GPU لذاكرة التخزين المؤقت KV وزن النموذج نفسه. بالنسبة لمجموعة استنتاجات تخدم عددًا كبيرًا من المستخدمين في وقت واحد، فإن هذا يمثل عنق زجاجة حقيقيًا ومكلفًا يوميًا للبنية التحتية.

النسخة الأصلية من هذه الورقة ظهرت لأول مرة على arXiv في أبريل 2025، ومن المتوقع أن تُنشر رسميًا في مؤتمر ICLR 2026. أطلقت عليها Google Research اسم TurboQuant، وهو خوارزمية ضغط بدون فقدان تقلل من حجم ذاكرة التخزين المؤقت KV إلى 3 بت، وتخفض استهلاك الذاكرة على الأقل بمقدار 6 مرات، دون الحاجة لأي تدريب أو ضبط دقيق، وتعمل مباشرة عند الاستخدام.

النهج التقني المحدد يتبع خطوتين:

الخطوة الأولى، PolarQuant. لا يستخدم نظام الإحداثيات الديكارتية التقليدي لتمثيل المتجهات، بل يحولها إلى إحداثيات قطبية — تتكون من “نصف قطر” ومجموعة من “الزوايا” — مما يبسط بشكل جذري التعقيد الهندسي في الفضاء عالي الأبعاد، مما يسمح بإتمام عملية التكميم بدقة أقل.

الخطوة الثانية، QJL (Johnson-Lindenstrauss المكمم). بعد إتمام الضغط الرئيسي بواسطة PolarQuant، يستخدم TurboQuant تحويل QJL ذو 1 بت فقط، لتصحيح الأخطاء المتبقية بشكل غير متحيز، مما يضمن دقة تقدير الضرب الداخلي — وهو أمر حاسم لعمل آلية الانتباه في Transformer بشكل صحيح.

النتيجة: في اختبارات معيار LongBench التي تشمل مهام الأسئلة والأجوبة، وتوليد الشفرات، والملخصات، حقق TurboQuant أداءً يساوي أو يتفوق على أفضل الأساليب الحالية مثل KIVI؛ وفي مهمة استرجاع المعلومات “البحث عن إبرة في كومة قش”، حقق معدل استرجاع مثالي؛ وعلى منصة NVIDIA H100، حقق TurboQuant ذو 4 بت تسريعًا بمقدار 8 أضعاف في عمليات حساب الانتباه.

طرق التكميم التقليدية لها خطيئة أساسية: كل عملية ضغط لقطعة من البيانات تتطلب تخزين “ثابت التكميم” إضافي لتحديد كيفية فك الضغط، وتكلفة البيانات الوصفية هذه غالبًا تصل إلى 1 إلى 2 بت لكل قيمة. قد يبدو الأمر قليلًا، لكنه يتراكم بسرعة مذهلة عند سياق يتجاوز مليون رمز. من خلال استخدام PolarQuant للدوران الهندسي وQJL لتصحيح الأخطاء ببت واحد، قضت TurboQuant على هذا الحمل الإضافي تمامًا.

لماذا السوق بدأ يشعر بالهلع؟

الاستنتاج المباشر يجعل من الصعب تجاهله: نموذج يحتاج إلى 8 وحدات H100 لخدمة سياق يبلغ مليون رمز، يمكنه في الواقع أن يعمل باستخدام وحدتين فقط. يمكن لمزودي خدمات الاستنتاج أن يعالجوا أكثر من 6 أضعاف الطلبات المتزامنة ذات السياقات الطويلة باستخدام نفس العتاد.

هذه ضربة قاتلة للرواية الأساسية في قطاع التخزين.

على مدى العامين الماضيين، كان السبب وراء ارتفاع أسهم Seagate وWestern Digital وMicron إلى قمة السوق، هو منطق واحد فقط: النماذج الكبيرة أصبحت أكثر قدرة على “التذكر” للمزيد، ونافذة السياق الطويلة تستهلك ذاكرة لا حدود لها، وطلب التخزين يتزايد بشكل انفجاري. في عام 2025، ارتفعت أسهم Seagate بأكثر من 210%، وكانت طاقتها الإنتاجية لعام 2026 قد بيعت بالكامل بالفعل.

ظهور TurboQuant يهدد مباشرة هذا المنطق.

تحليل Andrew Rocha، محلل التكنولوجيا في Wells Fargo، كان واضحًا جدًا: “مع تزايد حجم نافذة السياق، يتزايد استهلاك ذاكرة التخزين المؤقت KV بشكل هائل، ويزداد الطلب على الذاكرة. TurboQuant يهاجم مباشرة منحنى التكاليف هذا… إذا تم اعتماده على نطاق واسع، فإنه يثير تساؤلات جوهرية حول الحاجة إلى سعة ذاكرة أكبر.”

لكن Rocha وضع شرطًا أساسيًا: إذا.

الجزء الذي يستحق النقاش حقًا

هل رد فعل السوق مبالغ فيه؟ على الأرجح: نعم، إلى حد ما.

أولاً، مشكلة تضخيم الادعاء بـ"ثمانية أضعاف تسريع". أشار العديد من المحللين إلى أن المقارنة التي تظهر زيادة الأداء بمقدار 8 أضعاف تعتمد على مقارنة التقنية الجديدة مع نظام غير معدل 32 بت غير مضغوط، وليس مع الأنظمة التي تم تحسينها بشكل واسع في التطبيقات الحالية. هناك تحسينات حقيقية، لكنها ليست بالدرامية التي يوحي بها العنوان.

ثانيًا، الورقة اختبرت نماذج صغيرة فقط. جميع تقييمات TurboQuant كانت على نماذج لا تتجاوز 8 مليارات معلمة. النماذج التي تثير قلق مزودي التخزين بشكل حقيقي، هي تلك ذات 70 مليار أو 400 مليار معلمة، حيث يكون حجم ذاكرة التخزين المؤقت KV هائلًا جدًا. أداء TurboQuant على هذه الأحجام لا يزال غير معروف.

ثالثًا، Google لم تصدر بعد أي رمز رسمي. حتى الآن، لا يوجد TurboQuant في vLLM أو llama.cpp أو Ollama أو أي إطار استنتاج رئيسي. قام مطورون من المجتمع بإعادة بناء النسخة المبكرة استنادًا إلى استنتاجات الورقة، وأشار أحدهم بوضوح إلى أن خطأ في تنفيذ وحدة تصحيح الأخطاء QJL قد يؤدي إلى إخراج غير مفهوم تمامًا.

لكن هذا لا يعني أن مخاوف السوق غير مبررة.

هذه الذكرى الجماعية التي خلفتها لحظة DeepSeek في 2025 لا تزال تؤثر. تلك الحادثة علمت السوق درسًا قاسيًا: أن الاختراقات في كفاءة الخوارزميات يمكن أن تغير بشكل جذري رواية الأجهزة باهظة الثمن بين ليلة وضحاها. ومنذ ذلك الحين، أي تقدم في الكفاءة من مختبرات الذكاء الاصطناعي الكبرى يثير رد فعل فوري من قطاع الأجهزة.

وعلاوة على ذلك، فإن الإشارة الحالية تأتي من Google Research، وليست من مختبر جامعي غير معروف، فهذه الشركة لديها القدرة الهندسية لتحويل الورقة إلى أدوات إنتاجية، وهي واحدة من أكبر مستهلكي استنتاجات الذكاء الاصطناعي في العالم. بمجرد أن يتم تطبيق TurboQuant داخليًا، ستتغير بشكل غير معلن سياسات شراء خوادم Waymo وGemini وGoogle Search.

سيناريو تكرار التاريخ

هناك جدل كلاسيكي يستحق الاهتمام: مفارقة جيفنز.

اكتشف الاقتصادي جيفنز في القرن التاسع عشر أن تحسين كفاءة المحرك البخاري لم يقلل من استهلاك الفحم في بريطانيا، بل أدى إلى زيادته بشكل كبير — لأن تحسين الكفاءة خفض تكلفة الاستخدام، مما حفز على تطبيقه على نطاق أوسع.

المنطق الداعم هو: إذا سمحت Google لنموذج ما بالعمل على 16 جيجابايت من ذاكرة الفيديو، فلن يتوقف المطورون عند هذا الحد، بل سيستخدمون القوة الحاسوبية التي وفروها لتشغيل نماذج أكثر تعقيدًا بمقدار 6 أضعاف، ومعالجة بيانات متعددة الوسائط أكبر، ودعم سياقات أطول. الكفاءة البرمجية في النهاية تفتح الطلبات التي كانت سابقًا غير ممكنة بسبب التكاليف العالية.

لكن هذا الرد يتطلب شرطًا: أن يحتاج السوق وقتًا لامتصاص التغييرات وإعادة التوسع. خلال الفترة التي يتحول فيها TurboQuant من ورقة بحثية إلى أداة إنتاجية، ومن أداة إلى معيار صناعي، هل يمكن أن يتسارع الطلب على الأجهزة بما يكفي لملء “الفجوة” التي تخلقها الكفاءة؟

لا أحد يعرف الإجابة. السوق يضع سعرًا لهذا الغموض.

المعنى الحقيقي لهذا الأمر لصناعة الذكاء الاصطناعي

أكثر من ارتفاع أو انخفاض أسهم التخزين، الأهم هو الاتجاه الأعمق الذي تكشفه TurboQuant.

سباق التسلح في الذكاء الاصطناعي يتحول من “تكديس الحوسبة” إلى “الكفاءة القصوى”.

إذا تمكنت TurboQuant من إثبات أدائها على نماذج ضخمة، فسيحدث تحول جذري: أن يصبح استنتاج السياقات الطويلة معيارًا صناعيًا، وليس رفاهية فقط للمختبرات الرائدة.

وأهم نقطة في هذا السباق، هي المجال الذي تتقنه Google بشكل خاص، وهو خوارزميات الضغط التي تكاد تكون مثالية من الناحية الرياضية، والتي تعتمد على حدود نظرية Shannon للمعلومات، وليس على الحشو الهندسي العشوائي. معدل التشويه النظري لـ TurboQuant يزيد فقط عن الحد الأدنى لنظرية المعلومات بمقدار ثابت يقارب 2.7 مرة.

هذا يعني أن مثل هذه الاختراقات لن تكون واحدة فقط في المستقبل، بل تمثل مسارًا بحثيًا يتجه نحو النضج.

بالنسبة لصناعة التخزين، السؤال الأكثر وعيًا هو: عندما يستمر انخفاض تكلفة استنتاجات الذكاء الاصطناعي عبر البرمجيات، إلى أي مدى يمكن أن تتسع الحواجز التنافسية في مستوى الأجهزة؟

الإجابة الحالية: لا تزال واسعة جدًا، لكنها ليست واسعة لدرجة تجاهل هذه الإشارات.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.