المؤلف: شاوجينج
يُشاع حالياً في وادي السيليكون مصطلح جديد: Tokenmaxxing (الاستفادة القصوى من التوكن).
داخل Meta وOpenAI، بدأ المهندسون في التنافس على ترتيب استخدام الذكاء الاصطناعي. وفقًا لتقارير وسائل الإعلام الأجنبية، حتى أن مهندسًا استهلك خلال أسبوع 210 مليار توكن، وهو ما يعادل حجم نصوص 33 موسوعة ويكيبييديا. وهناك من يدفع فاتورة AI شهريًا تصل إلى 150 ألف دولار.
مهندس من إريكسون مقره ستوكهولم أنفق على Claude أكثر من راتبه، لكن الشركة تتحمل الفاتورة. ميزانية التوكنات أصبحت نوعًا جديدًا من المزايا الوظيفية للمهندسين، “تمامًا مثل الوجبات الخفيفة المجانية أو الغداء المجاني سابقًا”.
أصدر توبى لوتكه، الرئيس التنفيذي لشوبفاي، في أبريل 2025 مذكرة داخلية أعلن فيها أن “استخدام AI هو الحد الأدنى المتوقع لشوبفاي”، مطالبًا جميع الفرق بإثبات عدم قدرة AI على أداء المهام قبل طلب توظيف موارد جديدة، ودمج استخدام AI في تقييم الأداء. وأعلنت Meta لاحقًا أنه ابتداءً من 2026، سيتم رسمياً إدراج “تأثير الذكاء الاصطناعي” في تقييم أداء جميع الموظفين.
عندما يبدأ استهلاك التوكنات في الظهور ضمن مؤشرات الأداء الرئيسية (KPI)، فإنه يتحول إلى إشارة سلوكية تنظيمية.
وفي الوقت نفسه، هناك إشارات كثيفة على مستوى الصناعة. في 16 مارس، وصف هوان جنون، مؤسس NVIDIA، التوكن بأنه “أساس عصر الذكاء الاصطناعي”، وذكر أنه سيصبح “أغلى سلعة أساسية”. وفي اليوم التالي، أعلنت Alibaba عن إنشاء مجموعة أعمال Alibaba Token Hub، بقيادة المدير التنفيذي وو يونمين، والتي تهدف إلى “خلق التوكن، نقل التوكن، وتطبيق التوكن”.
صورة: عرض هوان جنون في مؤتمر GTC يوضح علاقة تكلفة التوكن والإيرادات، حيث يقسم مراكز البيانات إلى طبقات مجانية ومتوسطة ومتقدمة وPremium، ويعرض توقعات بزيادة خمسة أضعاف في الإيرادات بفضل شرائح Vera Rubin مقارنة بـ Grace Blackwell.
قبل عام، كانت التوكنات مجرد وحدة قياس تقنية تهم المطورين فقط. الآن، أصبحت لغة تستخدمها شركات الرقائق لتعريف قيمة منتجاتها، وأساس لإعادة هيكلة مجموعات الأعمال حولها، وأصبحت مزايا جديدة في عروض العمل، ومؤشر أداء رئيسي (KPI).
لكن قائمة الترتيب لـ Tokenmaxxing التي تسجل الاستهلاك فقط، لا تسجل مدى إنجاز هذه التوكنات لمهام فعالة.
وهذا هو الثغرة الأكبر في اقتصاد التوكن اليوم.
210 مليار توكن تبدو رقمًا مذهلاً. لكن لفهم معناها الحقيقي، يجب التخلي عن فرضية أن التوكن منتج قياسي.
صورة: تصنيف استهلاك التوكنات العالمي عبر منصة Tokscale، وهي أداة مفتوحة المصدر لتتبع وترتيب استهلاك التوكن، تدعم منصات مثل Claude Code، Cursor، OpenCode، Codex، ويمكن للمستخدمين تقديم البيانات للمشاركة في التصنيف العالمي.
قبل عامين، كانت أسعار النماذج الكبيرة بسيطة، تعتمد غالبًا على سعرين أساسيين: توكن الإدخال وتوكن الإخراج؛ لكن اليوم، أنظمة التسعير لدى الشركات الرائدة أصبحت تتدرج بشكل واضح، حيث أن نفس “التوكن” قد يُحتسب بأسعار مختلفة تمامًا حسب ظروف الاستخدام.
على سبيل المثال، شركة Anthropic، سعر الإدخال القياسي لـ Claude Opus 4.6 هو 5 دولارات لكل مليون توكن، وسعر الإخراج 25 دولارًا؛ وإذا تم تفعيل التخزين المؤقت Prompt Caching، فإن كتابة التخزين المؤقت لمدة 5 دقائق تكلف 6.25 دولار، ومدة ساعة تكلف 10 دولارات، وقراءة التخزين المؤقت 0.50 دولار. وإذا استخدمت Batch API، يمكن خفض السعر إلى النصف، وإذا حُدد أن الحساب يتم داخل الولايات المتحدة فقط، يرتفع السعر بنسبة 10%، وفي وضع Fast Mode، يرتفع سعر الإدخال والإخراج إلى 6 أضعاف السعر القياسي.
وبالتالي، نفس الشركة، ونفس النموذج، ونفس وحدة الفوترة “التوكن”، يمكن أن تختلف أسعارها عدة أضعاف أو أكثر حسب التخزين المؤقت، والمعالجة الجماعية، والمنطقة، وسرعة الأداء.
وما يزيد من التكاليف هو ليس فقط استدعاء النموذج نفسه، بل أيضًا التكاليف المرتبطة بمكونات أخرى. تظهر جداول أسعار OpenAI أن البحث عبر الويب يُحتسب بشكل منفصل حسب نوع النموذج: البحث عبر الويب لنماذج GPT-4.1 وGPT-4o يُكلف 10 دولارات لكل ألف عملية، بينما لنماذج الاستنتاج مثل GPT-5 يُكلف 25 دولارًا لكل ألف عملية.
تكاليف البحث في الملفات تصل إلى 2.50 دولار لكل ألف عملية، بالإضافة إلى تخزين المتجهات 0.10 دولار لكل جيجابايت يوميًا، مع أول جيجابايت مجاني. حاويات الكود أصبحت أيضًا تُحتسب بشكل منفصل: حاوية 1 جيجابايت تكلف 0.03 دولار، و4 جيجابايت، و16 جيجابايت، و64 جيجابايت بأسعار أعلى؛ ومن 31 مارس 2026، ستُحسب هذه الأسعار بناءً على جلسة كل 20 دقيقة لكل حاوية.
خارج النماذج، أصبحت عمليات البحث، والاسترجاع، والتخزين، وبيئات التنفيذ، التي كانت تعتبر سابقًا “وظائف مرافقة”، الآن مراكز تكلفة مستقلة.
شركة Google تتبع نفس الاتجاه. صفحة التسعير الرسمية لـ Vertex AI تظهر أن من 11 فبراير 2026، ستبدأ رسوم رسمية على Code Execution وSessions وMemory Bank، حيث تُحسب الأسعار حسب ساعة vCPU وGiB الذاكرة.
وبالتالي، الحديث اليوم عن “أسعار النماذج الكبيرة” لم يعد يقتصر على سعر التوكنات المدخلة والمخرجة فقط. ما يتغير حقًا هو منطق الفوترة، حيث أن الشركات تبيع الآن مجموعة أدوات كاملة قابلة للتشغيل، والتخزين، والبحث، والاستدعاء، والتنفيذ المستدام للذكاء الاصطناعي.
صورة: لقطة من صفحة تسعير OpenAI، تظهر هيكل رسوم متعدد المستويات (بحث الويب، البحث في الملفات، الحاويات، وغيرها) بشكل مستقل.
إذا نظرنا فقط إلى أسعار واجهات برمجة التطبيقات (API)، فإن التوكنات تقترب من أن تكون رخيصة جدًا. شركة Anthropic خفضت سعر Opus من 15 دولارًا لكل مليون توكن إلى 5 دولارات، أي بنسبة انخفاض ثلثي. وDeepSeek V3.2 وصل إلى 0.28 دولار. وGoogle Gemini 2.5 Flash Lite منخفض إلى حوالي 0.10 دولار.
أما أسعار النماذج الصينية فهي أكثر وضوحًا، حيث تُظهر بيانات OpenRouter أن سعر التوكن في النماذج الصينية يُعادل حوالي سدس إلى عُشر سعر المنافسين في الخارج. حتى بعد أن رفعت Tencent Cloud Mulan HY2.0 Instruct سعرها بأكثر من 460% بعد انتهاء فترة التجربة المجانية، ليصل إلى حوالي 0.62 دولار لكل مليون توكن، لا يزال أقل من أرخص نموذج من Anthropic وهو Haiku 4.5 (1 دولار)، وأقل بكثير من Sonnet 4.6 الذي يبلغ حوالي خمس سعره.
صورة: Artificial Analysis يدير تصنيفًا حيًا لنماذج اللغة الكبيرة، مع فروقات سعرية هائلة بين النماذج المختلفة.
لكن إجمالي تكلفة استخدام الذكاء الاصطناعي لم ينخفض، بل استمرت في الارتفاع بسبب ثلاثة آليات تعمل معًا.
الأول، النماذج أصبحت أكثر ذكاءً، لكن ذلك جعلها تتحدث أكثر. تقرير Artificial Analysis يشير إلى أن متوسط استهلاك التوكنات في الإخراج للنماذج الاستنتاجية هو حوالي 5.5 أضعاف النماذج غير الاستنتاجية. وتقوم شركات مثل Anthropic وOpenAI بحساب التوكنات الممتدة (extended thinking) على أنها جزء من التوكنات المخرجة، فكلما زادت عمق التفكير، زاد طول الفواتير. على الرغم من انخفاض السعر، إلا أن إجمالي التوكنات المستخدمة لإنجاز نفس المهمة زاد عدة مرات.
الثاني، جعلت الوكيل (Agent) التوكن يُستهلك بشكل مستمر، وليس لمرة واحدة فقط. وهذا هو الدافع العميق وراء Tokenmaxxing، حيث أن المهندسين لا يستهلكون التوكنات يدويًا، بل أن وكلاء الذكاء الاصطناعي يعملون على مدار 24 ساعة، يقسمون المهام، يستدعون الأدوات، ويقومون بالتكرار الذاتي. وفقًا لبيانات Alibaba Cloud، استهلاك الحوسبة لوكيل واحد يعادل 100 إلى 1000 مرة من استهلاك روبوت الدردشة التقليدي. وبلغ استهلاك التوكن اليومي في الصين أكثر من 30 تريليون في منتصف 2025، وارتفع إلى 180 تريليون بحلول فبراير 2026.
الثالث، ارتفاع تكلفة إنتاج التوكنات من الأساس. في 18 مارس 2026، أعلنت Alibaba Cloud وBaidu Cloud عن رفع أسعار الحوسبة والتخزين للذكاء الاصطناعي، بزيادات تصل إلى 34%. ورفعت AWS في يناير سعر وحدات الحوسبة للتعلم الآلي بنسبة حوالي 15%، وأعلنت Google Cloud عن زيادات في تكاليف البنية التحتية للذكاء الاصطناعي بدءًا من مايو.
قال خبير في صناعة الحوسبة السحابية: “هذه الزيادات في السوق السحابي تعتمد بشكل رئيسي على العرض والطلب، وتُحدد بواسطة التكاليف. والأسعار المستقبلية تتبع اتجاهات سلسلة التوريد.”
بطاقات GPU، والتخزين المتوازي، والشبكات عالية السرعة، والطاقة لمراكز البيانات، كلها تتزايد تكاليفها، رغم انخفاض أسعار النماذج. وأكدت شركة Anthropic عند إصدارها لـ Opus 4.6 أن “السعر سيظل ثابتًا”، في إشارة إلى أن الشركات تتحمل تكاليف القدرات الأقوى.
بعبارة أخرى، النموذج هو المحرك، لكن تكاليف الوقود، ورسوم الوقوف، والعبور السريع، كلها في ارتفاع.
تتراكم هذه الآليات الثلاث، والنتيجة هي أن الفرق بين سعر التوكن المعلن وتكلفة المهام الحقيقية يتسع بشكل متزايد.
بالعودة إلى Tokenmaxxing، فإن الترتيب يسجل استهلاك التوكنات، لكنه لا يسجل جودة الإنتاج. مهندس يستهلك خلال أسبوع توكنات تعادل 33 موسوعة ويكيبييديا، لا يعني أنه أنجز 33 مهمة بقيمة موسوعة ويكيبييديا.
الشركات الكبرى تضع استهلاك التوكنات ضمن مؤشرات الأداء، أو تعتبره نوعًا من “المزايا”، فهل هو حقًا قفزة في الإنتاجية، أم مجرد “عرض إنتاجي”؟
هذا يلمس العيب الهيكلي الأهم في اقتصاد التوكن، حيث لم تُبنَ بعد مقاييس فعالة من استهلاك التوكنات إلى إنجاز المهام. التوكن يقيس المدخلات، وليس المخرجات. مهندس أنفق مليون توكن لإنجاز مهمة، وآخر أنفق 100 ألف لإنجاز نفس المهمة، ووفقًا لترتيب Tokenmaxxing، يكون الأداء للأول أعلى، رغم أن الثاني قد يكون أكثر كفاءة.
ذكر توبى لوتكه في مذكرته أن بعض الزملاء يحققون “عائدًا 10 أضعاف” لم يكن ممكنًا سابقًا، لكنه لم يحدد معايير قياس واضحة.
ظهرت نوعية جديدة من القلق المهني: أن عدم استهلاك التوكنات بشكل مرتفع لإظهار قدرات AI قد يُعتبر تخلفًا. هذا القلق يشبه تمامًا منطق الشركات في أوائل الألفين، التي كانت تتسابق لبناء مواقع إلكترونية، أو في 2010، التي كانت ترى أن كل علامة تجارية يجب أن تطور تطبيقًا، حيث أن تبني التقنية أصبح إشارة، والاستهلاك أصبح مؤشرًا، لكن القيمة الحقيقية تُؤجل للوقت لاحق.
لكن الاختلاف الآن هو أن تكلفة ذلك حقيقية وملموسة. فاتورة AI الشهرية التي تصل إلى 150 ألف دولار، واستهلاك 210 مليار توكن في أسبوع، وارتفاع تكاليف الحوسبة والتخزين المستمر، يجعل Tokenmaxxing ليست مجرد لعبة مجانية. عندما تصبح التكاليف عالية جدًا، فإن الفرق بين “حرق التوكنات” و"استخدام التوكنات لإنشاء قيمة" يتحول من مسألة فلسفية إلى مسألة مالية.
سعر التوكن سيستمر في الانخفاض، وهذا أمر لا شك فيه.
أما القلق الحقيقي فهو من يستطيع تحويل التوكنات بكفاءة أعلى إلى إنجازات فعلية. بالنسبة لكل مبرمج، وكل شركة، وكل مستخدم عادي، فإن قياس تكلفة الذكاء الاصطناعي لا يكون بسعر كل مليون توكن، بل بقيمة ما يُنجز مقابل كم توكن يُستهلك.
الفارق بين هذين الرقمين هو الفرصة التجارية الأكبر في المرحلة القادمة من “عصر الذكاء المبني على التوكن”، وأيضًا أكبر فخ تكاليفي.