أنثروبيك أخيرًا أطلق النسخة الآمنة من نموذج ميثوس Fable-5.


تم الحديث كثيرًا عن هذه المعلمات على الإنترنت، لذلك لن أكررها. الأهم هو اختبار المهام الحقيقي الذي أجرته أداة البرمجة من طرف ثالث Augment Code.
هذه المجموعة من الاختبارات أجريت على 489 مهمة برمجية، وكانت النتائج مثيرة للاهتمام:
Fable-5 يتفوق بشكل واضح في الأداء العام والدقة. الدرجة الإجمالية +0.224، والدقة +0.191، وهو بالفعل من بين الأفضل حتى الآن.
لكن تفصيلًا آخر مهم جدًا: GPT-5.5 لا يزال يتفوق بثبات على Opus-4.8.
الدرجة الإجمالية لـ GPT-5.5 هي +0.164، وOpus-4.8 هي +0.128؛ والدقة لـ GPT-5.5 هي +0.141، وOpus-4.8 هي +0.092.
وهذا يفسر أيضًا إحساسي الأخير: بعد إصدار Opus-4.8، لم أشعر بشكل واضح أنه أقوى من GPT-5.5، على الأقل في المهام البرمجية الفعلية، هذا الشعور ليس وهماً.
الأمر الأكثر واقعية هو مسألة التكلفة. على الرغم من قوة Fable-5، إلا أن استهلاك الرموز والتكلفة مرتفعة أيضًا: حوالي 14.6 ألف رمز لكل مهمة، وتكلفتها 3.09 دولارات؛ بالمقارنة، GPT-5.5 يستهلك 7.5 ألف رمز، وتكلفته 1.52 دولار. القوة حقيقية، لكن الثمن أيضًا حقيقي.
لذا، في النهاية، تظل تلك الجملة: نترقب وصول GPT-5.6 في أقرب وقت.
إذا كان بإمكان Fable-5 أن يُستخدم فقط لمدة 10 أيام ضمن خطة الاشتراك، ثم يتعين استدعاؤه بسعر API الأصلي، فربما لن يكون أداة إنتاجية يومية للمستخدم العادي، بل هو "نموذج ترف" لقلة من الناس، في قلة من السيناريوهات.
استخدام نماذج الذكاء الاصطناعي قد يبدأ فعلاً في التصنيف حسب الطبقات.
شاهد النسخة الأصلية
post-image
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت