Vision Banana của Google: Mô hình thị giác hợp nhất vượt trội các mô hình chuyên cho từng tác vụ trong phân đoạn và hình học 3D

Tin tức từ Gate, ngày 23 tháng 4 — Các nhà nghiên cứu của Google, bao gồm He Kaiming và Xie Saining, đã công bố một bài báo giới thiệu Vision Banana, một mô hình hiểu thị giác đa dụng được tạo ra thông qua tinh chỉnh hướng dẫn nhẹ của mô hình tạo ảnh Nano Banana Pro (Gemini 3 Pro Image) của công ty. Điểm đổi mới cốt lõi là hợp nhất đầu ra của mọi tác vụ thị giác dưới dạng các ảnh RGB, cho phép phân đoạn, ước lượng độ sâu và dự đoán pháp tuyến bề mặt thông qua tạo ảnh mà không cần kiến trúc hoặc hàm mất mát chuyên cho từng tác vụ.

Trong phân đoạn ngữ nghĩa, Vision Banana vượt trội mô hình chuyên biệt SAM 3 thêm 4,7 điểm phần trăm trên Cityscapes; trong phân đoạn theo biểu thức tham chiếu, nó vượt qua SAM 3 Agent. Tuy nhiên, nó chậm hơn SAM 3 trong phân đoạn theo thể hiện (instance segmentation). Với các tác vụ 3D, ước lượng độ sâu theo chuẩn metric đạt độ chính xác trung bình 0,929 trên bốn bộ dữ liệu chuẩn, vượt Depth Anything V3 ở mức 0,918, chỉ sử dụng dữ liệu tổng hợp mà không cần thông tin độ sâu thực hay tham số camera trong khi suy luận. Ước lượng pháp tuyến bề mặt đạt kết quả hiện đại nhất trên ba bộ benchmark trong nhà.

Việc tinh chỉnh liên quan đến dữ liệu tác vụ thị giác tối thiểu pha trộn vào quá trình huấn luyện tạo ảnh gốc, giữ lại năng lực tạo của mô hình—hiệu năng khớp với Nano Banana Pro ban đầu trong các bài kiểm tra chất lượng tạo ảnh. Bài báo đề xuất rằng việc tiền huấn luyện tạo ảnh trong thị giác song song với việc tiền huấn luyện tạo văn bản trong ngôn ngữ: các mô hình học các biểu diễn bên trong cần thiết cho hiểu ảnh trong quá trình tạo, và việc tinh chỉnh hướng dẫn chỉ đơn giản là mở khóa năng lực này.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận