Vision Banana ของ Google: โมเดลวิสัยทัศน์แบบรวมศูนย์ที่ทำได้ดีกว่าโมเดลเฉพาะงานในการแบ่งส่วนและเรขาคณิต 3D

ข้อความ Gate News ประจำวันที่ 23 เมษายน — นักวิจัยของ Google รวมถึง He Kaiming และ Xie Saining ได้เผยแพร่บทความที่นำเสนอ Vision Banana ซึ่งเป็นโมเดลความเข้าใจด้านภาพอเนกประสงค์ที่สร้างขึ้นผ่านการปรับจูนคำสั่งแบบน้ำหนักเบาของโมเดลสร้างภาพ Nano Banana Pro (Gemini 3 Pro Image) ของบริษัท นวัตกรรมหลักคือการรวมผลลัพธ์ของงานวิชันทั้งหมดให้เป็นภาพ RGB ทำให้สามารถทำการแบ่งส่วน การประมาณความลึก และการคาดการณ์เวกเตอร์ปกผิวได้ผ่านการสร้างภาพ โดยไม่ต้องใช้สถาปัตยกรรมหรือฟังก์ชันการสูญเสียที่เฉพาะเจาะจง

ในการแบ่งส่วนเชิงความหมาย Vision Banana ทำได้ดีกว่าโมเดลเฉพาะทาง SAM 3 ด้วยคะแนนที่มากกว่า 4.7 จุดเปอร์เซ็นต์บน Cityscapes; ในการแบ่งส่วนด้วยการอ้างอิง (referring expression segmentation) มันทำได้เหนือกว่า SAM 3 Agent อย่างไรก็ตาม มันยังตามหลัง SAM 3 ในการแบ่งส่วนแบบแยกเป็นอินสแตนซ์ สำหรับงาน 3D การประมาณความลึกแบบเมตริกทำได้ค่าเฉลี่ยความแม่นยำ 0.929 จากชุดข้อมูลมาตรฐาน 4 ชุด และสูงกว่า Depth Anything V3 ที่ 0.918 โดยใช้เพียงข้อมูลสังเคราะห์โดยไม่มีข้อมูลความลึกจริงหรือพารามิเตอร์ของกล้องในระหว่างการอนุมาน การประมาณค่าเวกเตอร์ปกผิวทำผลงานล้ำสมัยบนเกณฑ์ทดสอบในร่ม 3 รายการ

การปรับจูนทำโดยนำข้อมูลงานด้านภาพเพียงเล็กน้อยมาผสมกับการฝึกการสร้างภาพดั้งเดิม โดยรักษาความสามารถในการสร้างของโมเดลไว้—ผลการทดสอบด้านคุณภาพการสร้างเทียบเคียงกับ Nano Banana Pro รุ่นเดิม บทความเสนอว่า pretraining สำหรับการสร้างภาพในด้านภาพนั้นเทียบได้กับ pretraining สำหรับการสร้างข้อความในภาษา: โมเดลเรียนรู้การแทนภายในที่จำเป็นสำหรับความเข้าใจภาพระหว่างการสร้าง โดยการปรับจูนคำสั่งเพียงแค่ปลดล็อกความสามารถนี้ออกมาเท่านั้น

news.article.disclaimer

btc.bar.articles

ทำเนียบขาวกล่าวหาจีนว่า “ขโมยโมเดล AI ในระดับอุตสาหกรรม”

ทำเนียบขาวเตือนเมื่อวันที่ 23 เมษายน 2026 ว่า หน่วยงานต่างชาติ โดยส่วนใหญ่ในจีน กำลังดำเนินการแคมเปญ “ระดับอุตสาหกรรม” เพื่อคัดลอกแบบจำลองปัญญาประดิษฐ์ของอเมริกา ตามบันทึกข้อมาจาก Michael Kratsios ผู้ช่วยของ

CryptoFrontier46 นาที ที่แล้ว

OpenClaw 2026.4.22 รวมวงจรชีวิตของปลั๊กอินเข้ากับ Codex และ Pi Harness ลดเวลาในการโหลดปลั๊กอินได้สูงสุด 90%

ข่าว Gate ประจำวันที่ 23 เมษายน — OpenClaw แพลตฟอร์มตัวแทน AI แบบโอเพนซอร์ส ได้เปิดตัวเวอร์ชัน 2026.4.22 เมื่อวันที่ 22 เมษายน โดยการเปลี่ยนแปลงที่สำคัญที่สุดคือการทำให้วงจรชีวิตของ Codex harness และ Pi harness สอดคล้องกัน ก่อนหน้านี้ ปลั๊กอินทำงานไม่สอดคล้องกันในเส้นทาง harness ทั้งสอง โดยมีบาง hook ที่หายไปในบางสภาพแวดล้อม พร้อมด้วย

GateNews1 ชั่วโมง ที่แล้ว

Reppo Foundation คว้าคำมั่น $20M จาก Bolts Capital สำหรับโครงสร้างพื้นฐานข้อมูลการฝึก AI

ข้อความ Gate News ประจำวันที่ 23 เมษายน — Reppo Foundation ประกาศว่าได้รับคำมั่นสนับสนุนเงินทุนเชิงกลยุทธ์มูลค่า $20 ล้านดอลลาร์จาก Bolts Capital เพื่อเร่งการพัฒนาระบบโปรโตคอลและการขยายระบบนิเวศ โดยให้ความสำคัญกับการสร้างโครงสร้างพื้นฐานสำหรับข้อมูลการฝึก AI ที่ขับเคลื่อนด้วยตลาดคาดการณ์. แนวทางหลักของ Reppo's

GateNews2 ชั่วโมง ที่แล้ว

สหภาพยุโรปจะร่างแนวทางที่กำหนดให้ Google ให้การเข้าถึง Android แบบเท่าเทียมแก่ AI ของบุคคลที่สามเช่นเดียวกับ Gemini

ข้อความจาก Gate News วันที่ 23 เมษายน — แหล่งข่าวในตลาดระบุว่า สหภาพยุโรปจะร่างแนวทางที่กำหนดให้ Google ต้องให้ ChatGPT และ Claude เข้าถึงฟังก์ชันการทำงานได้เทียบเท่ากับที่ Gemini ได้รับบน Android ตามข้อมูลจากแหล่งข่าวในตลาด การเคลื่อนไหวครั้งนี้มีเป้าหมายเพื่อให้แอปพลิเคชัน AI ของบุคคลที่สามมีสิทธิ์และขีดความสามารถที่เทียบเท่ากัน และ

GateNews2 ชั่วโมง ที่แล้ว

Cluster Protocol ระดมทุน $5M ล้านดอลลาร์ โดย DAO5 เป็นผู้นำรอบ

ข้อความ Gate News ประจำวันที่ 23 เมษายน — Cluster Protocol ซึ่งเป็นบริษัทด้าน deep tech ด้าน AI และโครงสร้างพื้นฐาน Web3 ประกาศเสร็จสิ้นรอบระดมทุนจำนวน $5 ล้านดอลลาร์ที่นำโดย DAO5 โดยมี Paper Ventures, JPEG Trading และ Mapleblock Capital เข้าร่วมด้วย เงินทุนสะสมทั้งหมดของบริษัท ณ ปัจจุบันอยู่ที่ 7.75 ล้านดอลลาร์

GateNews3 ชั่วโมง ที่แล้ว

ประธานาธิบดีสหรัฐอาหรับเอมิเรตส์หารือโอกาสด้าน AI และอวกาศกับมัสก์และฟิงค์

ข้อความข่าว Gate News วันที่ 23 เมษายน — ประธานาธิบดีแห่งสหรัฐอาหรับเอมิเรตส์ เชค โมฮัมเหม็ด บิน ซาเยด อัล นาห์ยาน ได้หารือกับ อีลอน มัสก์ ผู้ก่อตั้ง SpaceX และ ลาร์รี ฟิงค์ ประธานของ BlackRock เกี่ยวกับโอกาสที่เป็นไปได้ในด้านปัญญาประดิษฐ์และภาคอวกาศ มัสก์ได้พูดคุยกับผู้นำเอมิเรตส์ทางโทรศัพท์ ตามรายงานของสำนักข่าว Wam ซึ่งดำเนินการโดยรัฐของสหรัฐอาหรับเอมิเรตส์

GateNews3 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น