Jessie A Ellis
26 février 2025 09:32
Explorez l’évolution des modèles de langage Vision (VLMs) de l’analyse d’images individuelles à la compréhension vidéo complète, mettant en évidence leurs capacités dans diverses applications.
Les modèles de langage Vision (VLMs) ont rapidement évolué, transformant le paysage de l’IA générative en intégrant la compréhension visuelle avec de grands modèles de langue (LLMs). Initialement introduits en 2020, les VLM étaient limités aux entrées textuelles et monomédias. Cependant, des progrès récents ont élargi leurs capacités pour inclure des entrées multi-images et vidéo, permettant des tâches complexes de vision-langage telles que la réponse à des questions visuelles, la légende, la recherche et la synthèse.
Selon NVIDIA, la précision de VLM pour des cas d’utilisation spécifiques peut être améliorée grâce à une ingénierie rapide et à un réglage des poids du modèle. Des techniques comme PEFT permettent un ajustement fin efficace, bien qu’elles nécessitent des ressources de données et de calcul importantes. D’autre part, l’ingénierie de la commande peut améliorer la qualité de sortie en ajustant les entrées de texte à l’exécution.
Les VLM excellent dans la compréhension de l’image unique en identifiant, classifiant et raisonnant sur le contenu de l’image. Ils peuvent fournir des descriptions détaillées et même traduire du texte dans les images. Pour les diffusions en direct, les VLM peuvent détecter des événements en analysant des images individuelles, bien que cette méthode limite leur capacité à comprendre la dynamique temporelle.
Les fonctionnalités multi-images permettent aux VLM de comparer et de contraster les images, offrant ainsi un contexte amélioré pour les tâches spécifiques à un domaine. Par exemple, dans le commerce de détail, les VLM peuvent estimer les niveaux de stock en analysant les images des rayons des magasins. Le fait de fournir un contexte supplémentaire, tel qu’une image de référence, améliore considérablement la précision de ces estimations.
Les VLM avancées possèdent désormais des capacités de compréhension vidéo, traitant de nombreux trames pour comprendre les actions et les tendances au fil du temps. Cela leur permet de répondre à des requêtes complexes sur le contenu vidéo, telles que l’identification d’actions ou d’anomalies au sein d’une séquence. La compréhension visuelle séquentielle capture la progression des événements, tandis que des techniques de localisation temporelle comme LITA améliorent la capacité du modèle à déterminer quand des événements spécifiques se produisent.
Par exemple, un VLM analysant une vidéo d’entrepôt peut identifier un travailleur qui laisse tomber une boîte, fournissant des réponses détaillées sur la scène et les dangers potentiels.
Pour explorer tout le potentiel des VLM, NVIDIA propose des ressources et des outils aux développeurs. Les personnes intéressées peuvent s’inscrire à des webinaires et accéder à des exemples de flux de travail sur des plateformes telles que GitHub pour expérimenter les VLM dans diverses applications.
Pour plus d’informations sur les VLM et leurs applications, visitez le blog NVIDIA.
Source de l’image : Shutterstock