Команда PaddlePaddle от Baidu недавно выпустила PP-OCRv6 — новую систему оптического распознавания символов (OCR) с тремя версиями: Tiny (1,5 млн параметров), Small (7,7 млн) и Medium (34,5 млн). Модель Medium обеспечивает прирост на 4,6% в точности детекции и на 5,1% в точности распознавания по сравнению с PP-OCRv5, при этом объединяя в одном едином модели китайский, английский, японский и 46 языков латинской письменности.
Система использует техники структурной репараметризации, чтобы снизить вычислительные затраты и при этом повысить точность. При оптимизации под OpenVINO версия Medium достигает до 5,2x более быстрой инференции на CPU. Согласно официальным бенчмаркам, PP-OCRv6 соответствует или превосходит производительность некоторых моделей «зрение-язык» с миллиардами параметров, при том что использует лишь миллионы параметров. Код был интегрирован в проект PaddleOCR с открытым исходным кодом.