أطلقت DeepSeek وضع الرؤية مع إطار عمل اللبنات البصرية للاستدلال المكاني

DEEPSEEK%5.30-

وفقاً لمراقبة Beating، أطلقت DeepSeek رسمياً وضع الرؤية (Vision Mode) على منصّتي الويب والتطبيق، مع ميزات تحليل المشاهد العميقة والاستدلال المكاني، والقدرة على تحويل لقطات شاشة لواجهة المستخدم مباشرة إلى كود منظم بهيكل HTML.

تستند ميزة الرؤية الجديدة إلى إطار أبحاث DeepSeek بعنوان "التفكير باستخدام عناصر مرئية أولية" (Thinking with Visual Primitives)، الذي جرى تطويره بالتعاون مع باحثين من جامعة بكين وجامعة تسينغهوا. تعالج المقاربة الأساسية فجوات الاستدلال المكاني لدى نماذج اللغات المرئية القائمة عبر اعتبار نقاط الإحداثيات والمربعات المحيطة (bounding boxes) وحدات تفكير جوهرية، بما يتيح للنموذج إجراء استدلال بصري مع مرجع مكاني مدمج أثناء الاستدلال (inference). نُشرت الورقة البحثية الأكاديمية الأساسية باختصار في 30 أبريل، لكن سحبتها DeepSeek في 1 مايو. يدعم وضع الرؤية حالياً إدخال الصور فقط، دون دعم للفيديو أو الصوت، ويفتقر إلى قدرات توليد الصور.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات