Baidu publie PP-OCRv6 avec prise en charge de 50 langues, des paramètres de niveau 10 millions compatibles avec des VLM d’ampleur milliardaire

L’équipe de PaddlePaddle de Baidu a récemment publié PP-OCRv6, un nouveau système d’OCR proposant trois versions : Tiny (1,5 million de paramètres), Small (7,7 millions) et Medium (34,5 millions). Le modèle Medium offre une amélioration de 4,6 % de la précision de détection et de 5,1 % de la précision de reconnaissance par rapport à PP-OCRv5, tout en intégrant le chinois, l’anglais, le japonais et 46 langues en écriture latine dans un seul modèle unifié.

Le système utilise des techniques de reparamétrisation structurelle pour réduire la charge de calcul tout en améliorant la précision. Avec l’optimisation OpenVINO, la version Medium atteint jusqu’à 5,2× une vitesse d’inférence CPU plus rapide. D’après les benchmarks officiels, PP-OCRv6 correspond ou dépasse les performances de certains modèles vision-langage à plusieurs milliards de paramètres malgré l’utilisation de seulement quelques millions de paramètres. Le code a été intégré au projet open source PaddleOCR.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire