Vision Banana من Google: نموذج رؤية موحد يتفوق على النماذج المخصصة في التقطيع والتعامد الهندسي ثلاثي الأبعاد

بوابة الأخبار، 23 أبريل — نشر باحثون من Google، من بينهم He Kaiming وXie Saining، ورقة بحثية تقدم Vision Banana، نموذج عام لفهم الرؤية تم إنشاؤه عبر ضبط تعليمي خفيف لتعليمات نموذج (Gemini 3 Pro Image) image generation model Nano Banana Pro من الشركة. تتمثل الابتكار الرئيسي في توحيد مخرجات جميع مهام الرؤية كصور RGB، ما يتيح إجراء التقطيع وتقدير العمق والتنبؤ بالاتجاهات السطحية عبر توليد الصور دون الحاجة إلى بنى أو دوال خسارة خاصة بكل مهمة.

في التقطيع الدلالي، تفوق Vision Banana على النموذج المتخصص SAM 3 بنسبة 4.7 نقطة مئوية على Cityscapes؛ وفي تجزئة تعبيرات الإحالة، تفوق على SAM 3 Agent. ومع ذلك، تراجع عن SAM 3 في تجزئة الحالات. بالنسبة لمهام ثلاثية الأبعاد، حقق تقدير العمق بمقياس متوسط دقة 0.929 عبر أربعة مجموعات بيانات معيارية، متجاوزًا 0.918 لدى Depth Anything V3، باستخدام بيانات صناعية فقط دون معلومات عمق حقيقية أو معلمات كاميرا أثناء الاستدلال. حقق تقدير الاتجاهات السطحية نتائج على مستوى الأفضل في ثلاثة اختبارات داخلية.

اشتمل الضبط الدقيق على بيانات مهام رؤية قليلة يتم مزجها في تدريب توليد الصور الأصلي، مع الحفاظ على قدرات التوليد لدى النموذج—كانت الأداء مطابقًا لـ Nano Banana Pro الأصلي في اختبارات جودة التوليد. تقترح الورقة أن ما قبل تدريب توليد الصور في مجال الرؤية يتوازي مع ما قبل تدريب توليد النص في اللغة: تتعلم النماذج التمثيلات الداخلية اللازمة لفهم الصور أثناء التوليد، فيما يقتصر الضبط التعليمي للتعليمات على إطلاق هذه القدرة.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

AI 数据公司 Mercor 因数据泄露遭至少 7 起集体诉讼,涉及计算机监控

Gate News 消息,4月23日——AI 数据标注公司 Mercor,估值 $10 十亿美元,总部位于旧金山,近几周至少面临七起集体诉讼,原因是第三方数据泄露。该公司与包括 OpenAI、Anthropic 和 Meta 在内的客户合作,为通过签约工人提供反馈数据,用于 AI 训练。

GateNewsمنذ 21 د

تقدّر SpaceX إجمالي السوق القابل للاستهداف بـ 28.5 تريليون دولار، مع 26.5 تريليون دولار من قطاع الذكاء الاصطناعي

رسالة بوابة الأخبار، 23 أبريل — تقدر شركة SpaceX إجمالي السوق القابل للاستهداف (TAM) بنحو 28.5 تريليون دولار، وفقًا لمستندات داخلية. تتوقع الشركة أن ما يزيد عن 90% من السوق، أي ما يقرب من 26.5 تريليون دولار، سيأتي من الذكاء الاصطناعي. من المتوقع أن يستحوذ الذكاء الاصطناعي الخاص بالشركات على غالبية فرصة سوق الذكاء الاصطناعي، بما يعادل نحو 22.7 تريليون دولار من إجمالي TAM.

GateNewsمنذ 57 د

《نصوص نوفال》Naval تطلق صندوقًا استثماريًا AI USVC، ويمكن للمتداولين الأفراد أيضًا الاستثمار قبل الإدراج في OpenAI وAnthropic

منصة AngelList التابعة للمستثمر المعروف في وادي السيليكون Naval أطلقت مؤخرًا صندوقًا جديدًا باسم USVC، يهدف إلى تمكين المستثمرين العاديين أيضًا من المشاركة بشكل غير مباشر في شركات تكنولوجية شهيرة غير مدرجة مثل OpenAI وAnthropic وxAI وVercel وCrusoe وSierra وLegora، وذلك عبر أقل حد أدنى للتمويل قدره 500 دولار. قامت الجهة الرسمية بتغليفه على أنه «الاستثمار في بناء شركات المستقبل قبل أن يصبح كل شيء واضحًا» وشددت على أنه صندوق متاح لجميع المستثمرين ولا يتطلب صفة مستثمر مؤهل، في محاولة لتحويل أصول استثمار رأس المال الجريء التي كانت في الماضي حكرًا على الأثرياء وأهل الدوائر المقربة إلى منتج يمكن للمستثمرين الأفراد أيضًا الوصول إليه. 500 دولار فقط للاستثمار في الشركات الناشئة المبكرة العاملة في مجال الذكاء الاصطناعي السرد الأساسي لـ USVC مباشر جدًا: عندما يختار عدد متزايد من الشركات الناشئة الجديدة والنجومية البقاء لفترة طويلة في السوق الخاص، فإن نمو التقييمات الذي يحمل طابع الانفجار الحقيقي غالبًا ما يحدث في I

ChainNewsAbmediaمنذ 1 س

تسلا للاستحواذ على شركة أجهزة للذكاء الاصطناعي مقابل ما يصل إلى $2 مليار دولار

رسالة بوابة الأخبار، 23 أبريل — أعلنت تسلا في 23 أبريل أنها وافقت على الاستحواذ على شركة لتجهيزات الذكاء الاصطناعي مقابل ما يصل إلى $2 مليار دولار من أسهم تسلا العادية وجوائز حقوق الملكية. حوالي $1.8 مليار

GateNewsمنذ 1 س

تتقاضى مكاتب المحاماة الرائدة رسومًا تتجاوز 2000 دولار أمريكي لكل ساعة، وقد انكشفت وثائق قضائية بسبب “هلوسات الذكاء الاصطناعي وأخطاء متكررة”

اعتذرت وثائق قضائية قُدِّمتها شركة المحاماة الرائدة في الولايات المتحدة سوليفان·كرينويل في قضية إفلاس في مانهاتن أمام القاضي عن نحو ثلاثين حالة من أخطاء توليدها الذكاء الاصطناعي، وإيرادها سوابق مزيفة، وافتعالها بنودًا غير صحيحة. ورغم وجود رسوم مرتفعة بالساعة وسياسات تدريب داخلية، لم يتم تطبيق المراجعة فعليًا أثناء التحضير، وقد أعاد هذا الحادث إلى الواجهة مناقشات حول استخدام الذكاء الاصطناعي في المجال القانوني والمسؤولية الأخلاقية.

ChainNewsAbmediaمنذ 1 س

DeepSeek开源TileKernels:面向大模型训练与推理的GPU内核库

Gate 新闻消息,4月23日——DeepSeek已在MIT许可证下开源TileKernels,这是一套用TileLang编写的GPU内核库,面向大语言模型的训练与推理。TileLang是tile-ai团队开发的一种领域专用语言,用于在Python中表达高性能GPU内核

GateNewsمنذ 1 س
تعليق
0/400
لا توجد تعليقات