
أوضحت دراسة جديدة من Oumi، نُشرت بواسطة صحيفة The New York Times، أن Google AI Overviews غير دقيقة 9% من الوقت — أي ما يعادل عشرات الملايين من الإجابات الخاطئة في كل ساعة على نطاق Google. كما أن أكثر من نصف الردود الدقيقة نفسها استشهدت بمصادر لا تدعم ادعاءاتها بالكامل، بينما وصف Google الدراسة بأنها “معيبة بشكل خطير.”
حللت Oumi 4,326 عملية بحث كانت الأجوبة فيها بواسطة Gemini 2 في أكتوبر وGemini 3 في فبراير، ووجدت أن Gemini 2 حقق دقة بنسبة 85% بينما تحسنت Gemini 3 إلى 91%. على نحو فردي، تُعد هذه أرقامًا قابلة للدفاع عنها بالنسبة لنظام ذكاء اصطناعي توليدي.
التحدي هو الحجم. وبمعدل Google المبلغ عنه وهو 5 تريليون+ عملية بحث في السنة، تُنتج الحسابات صورة مقلقة:
· ~14 مليون رد غير دقيق من إجابات الذكاء الاصطناعي في كل ساعة
· ~230,000 إجابة غير صحيحة تُسلَّم كل دقيقة
· ~4,000 أخطاء تُنتَج كل ثانية عند ذروة الاستخدام
يعيد طرح مسألة الحجم صياغة نقاش الدقة بأكمله: حتى معدل خطأ صغير، عند تطبيقه على نظام يُستخدم من قبل مليارات من الناس، يتحول إلى مشكلة تضليل واسعة النطاق من حيث الأثر المطلق.
بالإضافة إلى أرقام الدقة الخام، حددت Oumi مشكلة منفصلة وربما أكثر إثارة للقلق: “الربط” — أي ما إذا كانت المصادر المذكورة في AI Overviews تدعم بالفعل الادعاءات التي يتم تقديمها. تكشف النتائج أن Gemini 3، رغم أنها أكثر دقة من سابقتها، إلا أنها أسوأ بشكل ملحوظ في تقديم استشهادات داعمة حقًا.
في ظل Gemini 2، كانت 37% من الإجابات الصحيحة غير مرتبطة بمصادر داعمة. ارتفع هذا الرقم إلى 56% تحت Gemini 3 — ما يعني أن غالبية الردود الدقيقة ما زالت ترتبط بمصادر لا تدعم المعلومات المقدمة بالكامل. وهذا يخلق مشكلة تحقق: قد يجد المستخدمون الذين ينقرون “للتحقق” من إجابة ما أن المصدر يقول شيئًا مختلفًا أو ناقصًا.
كما أثارت دراسة تحليل المصادر عبر 5,380 مرجعًا مستشهدًا بها مخاوف تتعلق بالمنصة. جاءت Facebook في المرتبة الثانية كأكثر مصدر تمت الإشارة إليه إجمالًا، بينما جاءت Reddit في المركز الرابع. كلاهما منصتا وسائط اجتماعية ينتشر فيهما محتوى مُنشأ من المستخدمين وغير موثّق على نطاق واسع — فظهوره في أعلى نتيجة بحث مُركّبة بواسطة الذكاء الاصطناعي يمنحه سلطة غير مستحقة. تمت الإشارة إلى Facebook في 5% من الردود الدقيقة و7% من الردود غير الدقيقة، وهو ما يشير إلى نمط يستحق المراقبة.
لم تقبل Google استنتاجات الدراسة دون مواجهة. تساءل المتحدث باسم Google Ned Adriance عن التصميم الأساسي للتحليل: قيّمت Oumi دقة ذكاء Google الاصطناعي باستخدام نموذج الذكاء الاصطناعي الخاص بها، ما يخلق دائرة منهجية — فإذا كان نموذج Oumi أيضًا قد يخطئ، فقد لا تكون أحكامها حول أخطاء Google موثوقة بذاتها.
قال Adriance: “تحتوي هذه الدراسة على ثغرات خطيرة.” وأضاف: “لا تعكس ما يبحث عنه الناس فعليًا في Google.”
كما أصدرت Google بياناتها المقارنة الخاصة. ذكرت الشركة أن Gemini 3 المستقلة — التي تعمل دون السياق الإضافي الذي توفره AI Overviews — كانت غير دقيقة 28% من الوقت، ما يشير إلى أن نظام AI Overviews يقدم تحسينات ذات معنى في الدقة مقارنة بمخرجات النموذج الخام. وتحتفظ الشركة بإخلاء المسؤولية القياسي لديها في أسفل جميع AI Overviews: “يمكن للذكاء الاصطناعي أن يرتكب أخطاء، لذا تحقّق من الردود مرتين.”
Google AI Overviews هي ملخصات مُولدة بواسطة الذكاء الاصطناعي تظهر في أعلى نتائج Google Search، حيث تقوم بتجميع الإجابات عن استفسارات المستخدمين وتستشهد بمصادر ويب داعمة. وبفضل نماذج Gemini من Google، تم تقديم الميزة على نطاق واسع في عام 2024، وتظهر الآن في مليارات عمليات البحث عالميًا. وهي مختلفة عن نتائج البحث القياسية، لأنها تُنتج نصًا بدلًا من مجرد سرد الروابط.
يُعتبر AI Overview “غير موثّق” عندما لا تتحقق المواقع الإلكترونية التي تستشهد بها فعليًا أو لا تدعم بشكل كامل المعلومات المقدمة في الملخص. وتُعد هذه مشكلة لأن المستخدمين الذين يحاولون التحقق من ادعاء ما عبر النقر على المصدر المستشهد قد يجدون أن المصدر ينفي ما ورد، أو يدعم جزءًا منه جزئيًا، أو لا علاقة له تمامًا ببيان الذكاء الاصطناعي — ما يُضعف دور النظام كأداة موثوقة للمعلومات ويجعل التحقق المستقل أكثر صعوبة.
تقر Google نفسها بهذا القيد من خلال إخلاء المسؤولية المدمج لديها بأن الذكاء الاصطناعي يمكن أن يرتكب أخطاء. بالنسبة للاستفسارات منخفضة المخاطر، قد توفر AI Overviews نقطة انطلاق مفيدة. أما بالنسبة لقرارات تتعلق بالصحة أو القانون أو التمويل أو الحقائق، فينبغي للمستخدمين التحقق بشكل مستقل من المعلومات عبر مصادر موثوقة وأولية بدلًا من الاعتماد فقط على ملخصات مُركبة بواسطة الذكاء الاصطناعي. يُنصح أيضًا بالتحقق من المصادر المستشهد بها مباشرةً — بدلًا من قبول توصيف الذكاء الاصطناعي لها —.