
أعلنت Google DeepMind في 10 يونيو رسميًا عن نشر برنامج DiffusionGemma مفتوح المصدر، بوصفه العضو الجديد في عائلة Gemma 4 مفتوحة المصدر. يعتمد DiffusionGemma على بنية توليد نصوص بالانتشار، مع دمج تصميم الخبراء الهجينين (MoE). في جميع اختبارات القياس المعيارية العامة التي تم الإعلان عنها، تأتي درجات DiffusionGemma أقل من معيار Gemma 4.
بيانات اختبارات السرعة الرسمية ومواصفات العتاد
استنادًا إلى الأرقام المؤكدة التي نشرتها Google رسميًا:
اختبار السرعة (رسمي من Google، وليس تحققًا من طرف ثالث)
Nvidia RTX 5090 (مخصص للمستهلكين):حوالي 700 رمز/ثانية
Nvidia H100 (مخصص لمراكز البيانات):تجاوز 1,000 رمز/ثانية
مضاعف التقييم الذاتي:حوالي 4 مرات مقارنةً بنموذج Gemma الانعزالي بنفس الحجم
البنية والمعلمات
إجمالي عدد المعلمات:26 مليارًا (26B)
عدد المعلمات النشطة أثناء الاستدلال:3.8 مليار (3.8B)
متطلبات ذاكرة VRAM:يمكن تشغيله على بطاقات الرسومات المتقدمة بسعة 18GB VRAM (وغالبًا على نحو خاص في الإصدارات المُكمَّمة)
أقصى معالجة متوازية:ما يصل إلى 256 رمزًا في وقت واحد
الترخيص:Apache 2.0
آلية التوليد: الفرق الجوهري بين الانتشار والانحدار الذاتي
تولِّد النماذج الانحدارية الذاتية القياسية تسلسلًا حرفيًا واحدًا تلو الآخر؛ إذ يعتمد كل رمز على نتيجة الرمز السابق، وتكمن عنق الزجاجة في عرض النطاق الترددي للذاكرة——فكلما تم إخراج رمز واحد احتاج النموذج إلى قراءة أوزانه من الذاكرة.
تختلف عملية DiffusionGemma عن ذلك: فبدلًا من ذلك يتم أولًا وضع رموز شاغرة عبر منطقة الإخراج بالكامل، ثم يتم إجراء عدة جولات لإزالة الضجيج؛ في كل جولة يتم تحديث رموز جميع المواضع في الوقت نفسه مع تصحيح بعضها لبعض، حتى يتقارب المحتوى الكامل إلى الإخراج النهائي. وبفضل أسلوب الحوسبة المكثفة الذي يتيح حسابات متوازية، يتحول عنق الزجاجة من عرض النطاق الترددي للذاكرة إلى قدرة حساب وحدات GPU، مما يستغل على نحو أفضل إمكانات التوازي في وحدات GPU الحديثة.
ضربت Google في وثائقها الرسمية مثالًا، حيث تتمتع DiffusionGemma بميزة بنيوية في مهام منطق غير خطي من نوع حل ألغاز سودوكو؛ إذ غالبًا ما تتضمن هذه المهام علاقات اعتماد معقدة بين المواضع، وهو ما يحد طبيعيًا من أسلوب التوليد الخطي في النماذج الانحدارية الذاتية.
نتائج الاختبارات المعيارية: جميع درجات الاختبارات المُعلنة أقل من Gemma 4
أكدت Google في بيانات الإصدار أن جميع درجات اختبارات القياس المعيارية العامة التي تم الإعلان عنها تُظهر أن DiffusionGemma تسجل درجات أقل من معيار Gemma 4 القياسي. وهذا يعني أن الزيادة في السرعة بمقدار 4 مرات تقترن بانخفاض منهجي في جودة التوليد. أشارت مقالة BlockTempo إلى أن هذا المقايضة تحمل دلالات مختلفة تمامًا بالنسبة لسيناريوهات تطبيق متنوعة: ففي الحالات الحساسة للكمون أو التي تتطلب مخرجات على دفعات كبيرة، تكون ميزة السرعة عملية فعلاً؛ أما في المهام التي تتطلب جودة أعلى، فلا يزال معيار Gemma 4 القياسي أكثر موثوقية حاليًا.
سردت Google رسميًا حالات استخدام مناسبة لـ DiffusionGemma، بما يشمل: التعديل داخل السطر (in-line editing)، وتوليد تسلسلات الجزيئات، والرسم الرياضي، إضافة إلى المهام غير الخطية التي تتضمن علاقات اعتماد منطقية معقدة.
الأسئلة الشائعة
ما الاختلاف الجوهري في آلية التوليد بين DiffusionGemma ونماذج اللغات الانحدارية الذاتية القياسية؟
تقوم النماذج الانحدارية الذاتية القياسية بتوليد تسلسل خطي حرفًا بحرف، حيث يعتمد كل رمز على نتيجة الرمز السابق. أما DiffusionGemma فتقوم أولًا بتعبئة منطقة الإخراج بالكامل برموز شاغرة، ثم تُجري عدة جولات لإزالة الضجيج، بحيث يتم تحديث جميع المواضع في الوقت نفسه في كل جولة، وأخيرًا يتم إخراج المقطع النهائي مرة واحدة؛ ما يجعل منطق التوليد أقرب إلى طريقة توليد الصور في Stable Diffusion.
على أي عتاد يمكن تشغيل DiffusionGemma محليًا؟
وفقًا لشرح Google الرسمي، يمكن تشغيل DiffusionGemma على بطاقات رسومات متقدمة بسعة 18GB VRAM، وتكون النسخ المُكمَّمة مناسبة بشكل خاص لذلك. تُظهر اختبارات Google الرسمية أن Nvidia RTX 5090 الاستهلاكية يمكن أن تحقق نحو 700 رمز في الثانية، لكن الأرقام المذكورة هي تقييم ذاتي من Google وليست تحققًا مستقلاً من طرف ثالث.
هل أُجريت أي عملية تحقق من طرف ثالث على أرقام سرعة DiffusionGemma؟
لم يحدث ذلك بعد. أوضحت BlockTempo في مقالها صراحةً أن جميع أرقام اختبارات السرعة مصدرها اختبارات Google الرسمية، وليست تحققًا مستقلاً من طرف ثالث. كما قد تختلف المضاعفات الفعلية عن الأرقام الرسمية باختلاف السيناريوهات وأطوال التوليد.