PaddleOCR-VL能识别109种语言的文本、表格、公式和图表等复杂元素,包括全球主要语言以及俄语、阿拉伯语和印地语等多种语言。在最新的用于评估现实场景中多样化文档解析性能的基准测试工具OmniDocBench榜单中,PaddleOCR-VL以92.6综合得分拿下全球第一,并且在OmniDocBench v1.5、OmniDocBench v1.0均是第一。
PaddleOCR-VL在OmniDocBench v1.5上实现了整体、文本、公式、表格和阅读顺序的SOTA性能,在所有关键指标上均超越现有流水线工具、通用VLM和其他专用文档解析模型。

论文中提到,PaddleOCR-VL在文档解析任务中实现了最佳性能,其擅长识别复杂的文档元素,例如文本、表格、公式和图表,适用于手写文本和历史文档等各种具有挑战性的内容类型。
百度给出的官方手写文本示例中,图片中文字写作相对规范,有较少不清晰文字,模型识别结果中错误较少。
