Jessie A Ellis
26 tháng 2, 2025 09:32
Khám phá sự tiến hóa của Mô hình Ngôn ngữ Tầm nhìn (VLMs) từ phân tích hình ảnh đơn đến hiểu biết video toàn diện, nhấn mạnh khả năng của họ trong các ứng dụng khác nhau.
Mô hình Ngôn ngữ Tầm nhìn (VLMs) đã phát triển nhanh chóng, biến đổi cảnh quan của trí tuệ tổng hợp bằng cách tích hợp hiểu biết về hình ảnh với các mô hình ngôn ngữ lớn (LLMs). Ban đầu được giới thiệu vào năm 2020, VLMs bị hạn chế chỉ cho văn bản và đầu vào hình ảnh đơn. Tuy nhiên, những tiến bộ gần đây đã mở rộng khả năng của chúng để bao gồm đầu vào đa hình ảnh và video, cho phép thực hiện các nhiệm vụ ngôn ngữ-tầm nhìn phức tạp như trả lời câu hỏi dựa trên hình ảnh, viết chú thích, tìm kiếm và tóm tắt.
Theo NVIDIA, độ chính xác của VLM đối với các trường hợp sử dụng cụ thể có thể được nâng cao thông qua kỹ thuật kỹ thuật và điều chỉnh trọng lượng mô hình nhanh chóng. Các kỹ thuật như PEFT cho phép điều chỉnh tinh vi hiệu quả, mặc dù họ cần tài nguyên dữ liệu và tính toán đáng kể. Kỹ thuật kỹ thuật, åÊbên cạnh đó, có thể cải thiện chất lượng đầu ra bằng cách điều chỉnh đầu vào văn bản vào thời gian chạy.
VLMs xuất sắc trong việc hiểu ảnh đơn bằng cách xác định, phân loại và suy luận về nội dung hình ảnh. Chúng có thể cung cấp mô tả chi tiết và thậm chí dịch văn bản trong hình ảnh. Đối với luồng trực tiếp, VLMs có thể phát hiện sự kiện bằng cách phân tích các khung hình cá nhân, tuy nhiên phương pháp này hạn chế khả năng hiểu động lực thời gian.
Khả năng đa hình ảnh cho phép VLM so sánh và đối chiếu hình ảnh, cung cấp ngữ cảnh được cải thiện cho các tác vụ cụ thể theo miền. Ví dụ, trong bán lẻ, VLM có thể ước tính mức tồn kho bằng cách phân tích hình ảnh của các kệ hàng. Cung cấp ngữ cảnh bổ sung, chẳng hạn như hình ảnh tham chiếu, giúp tăng cường đáng kể độ chính xác của các ước tính này.
Các VLM tiên tiến hiện đã có khả năng hiểu video, xử lý nhiều khung hình để hiểu hành động và xu hướng theo thời gian. Điều này cho phép chúng giải quyết các truy vấn phức tạp về nội dung video, như xác định hành động hoặc bất thường trong một chuỗi. Hiểu biết hình ảnh tuần tự ghi lại sự tiến triển của sự kiện, trong khi các kỹ thuật địa phương hóa thời gian như LITA nâng cao khả năng xác định khi sự kiện cụ thể xảy ra.
Ví dụ, một VLM phân tích video kho có thể xác định một công nhân vừa đánh rơi một hộp, cung cấp các phản ứng chi tiết về tình hình và nguy cơ tiềm ẩn.
Để khám phá toàn bộ tiềm năng của VLMs, NVIDIA cung cấp tài nguyên và công cụ cho các nhà phát triển. Cá nhân quan tâm có thể đăng ký tham gia các buổi hội thảo trực tuyến và truy cập các luồng làm việc mẫu trên các nền tảng như GitHub để thử nghiệm VLMs trong các ứng dụng khác nhau.
Để biết thêm thông tin chi tiết về VLMs và các ứng dụng của chúng, hãy truy cập blog của NVIDIA.
Nguồn ảnh: Shutterstock