百度的 PaddlePaddle 團隊近期釋出了 PP-OCRv6,一套新的 OCR 系統,提供三個版本:Tiny(1.5M 參數)、Small(7.7M)與 Medium(34.5M)。相較於 PP-OCRv5,Medium 模型在偵測準確率提升 4.6%,在辨識準確率提升 5.1%,同時將中文、英文、日文以及 46 種拉丁字母語言整合到一個統一模型中。
該系統採用結構重參數化技術,以降低運算開銷並提升準確率。在 OpenVINO 最佳化下,Medium 版本的 CPU 推論速度最高可快 5.2 倍。根據官方基準測試,PP-OCRv6 以僅使用數百萬參數的規模,仍能與某些十億參數的視覺-語言模型相匹敵或超越其效能。程式碼已整合進開源的 PaddleOCR 專案。