Baidu lança o PP-OCRv6 com suporte a 50 idiomas, 10 milhões de parâmetros correspondem a VLMs em escala de bilhão

A equipe do PaddlePaddle, da Baidu, lançou recentemente o PP-OCRv6, um novo sistema de OCR que oferece três versões: Tiny (1,5 milhão de parâmetros), Small (7,7 milhões) e Medium (34,5 milhões). O modelo Medium proporciona uma melhoria de 4,6% na acurácia de detecção e de 5,1% na acurácia de reconhecimento em comparação ao PP-OCRv5, ao mesmo tempo em que integra chinês, inglês, japonês e 46 idiomas com alfabeto latino em um único modelo unificado.

O sistema usa técnicas de reparametrização estrutural para reduzir a carga computacional e aumentar a precisão. Com otimização do OpenVINO, a versão Medium alcança até 5,2x de velocidade mais rápida na inferência em CPU. De acordo com benchmarks oficiais, o PP-OCRv6 atinge ou supera o desempenho de alguns modelos de visão e linguagem com bilhões de parâmetros, apesar de usar apenas milhões de parâmetros. O código foi integrado ao projeto open-source PaddleOCR.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários