DeepSeek เปิดตัว Vision Mode พร้อมกรอบงาน Visual Primitives สำหรับการให้เหตุผลเชิงพื้นที่

DEEPSEEK-5.30%

อ้างอิงจากการติดตามของ Beating ระบุว่า DeepSeek ได้เปิดตัวโหมด Vision อย่างเป็นทางการแล้วทั้งบนแพลตฟอร์มเว็บและแอป โดยมีความสามารถวิเคราะห์ฉากเชิงลึก การให้เหตุผลเชิงพื้นที่ และความสามารถในการแปลงภาพหน้าจอจาก UI ให้เป็นโค้ดที่จัดโครงสร้างเป็น HTML ได้โดยตรง

ความสามารถด้านวิชันใหม่ถูกพัฒนาบนกรอบงานวิจัยของ DeepSeek เรื่อง "Thinking with Visual Primitives" ซึ่งร่วมพัฒนากับนักวิจัยจากมหาวิทยาลัยปักกิ่ง (Peking University) และมหาวิทยาลัย Tsinghua University แนวทางเบื้องหลังมุ่งแก้ช่องว่างด้านการให้เหตุผลเชิงพื้นที่ในโมเดลภาษาด้านภาพที่มีอยู่ ด้วยการมองจุดพิกัดและกรอบครอบ (bounding boxes) เป็นหน่วยคิดหลัก ทำให้โมเดลสามารถทำการให้เหตุผลด้านภาพโดยอ้างอิงเชิงพื้นที่แบบบูรณาการระหว่างการอนุมาน เอกสารวิชาการฉบับพื้นฐานเผยแพร่ชั่วคราวเมื่อวันที่ 30 เมษายน แต่ DeepSeek ได้ถอนเอกสารดังกล่าวในวันที่ 1 พฤษภาคม ขณะนี้โหมด Vision รองรับเฉพาะการป้อนภาพเท่านั้น ยังไม่รองรับวิดีโอหรือเสียง และยังไม่มีความสามารถในการสร้างภาพ

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น