目前各种OCR软件在处理图片及文字不太清晰时候依然存在识别不出、识别错误乃至错得离谱的问题。
BetterOCR 是一个开源OCR项目,BetterOCR的解决思路不是更强大的OCR引擎,而是多个OCR+LLM。
BetterOCR 将多个 OCR 引擎的结果与 LLM 结合起来,对输出结果进行校正和重建,实现对文本更准确的识别。
- OCR 引擎: 目前支持 EasyOCR 和 Tesseract。
- LLM:支持 OpenAI 的聊天模型
- 自定义上下文: 允许用户提供可选上下文,以使用专有名词和产品名称等特定关键词。这有助于拼写纠正和噪音识别,即使是罕见或非常规词汇也能确保准确性。
项目地址:https://github.com/junhoyeo/BetterOCR
作者在项目首页提供了一些使用BetterOCR 的例子,多OCR引擎+LLM的方案确实比单独使用EasyOCR或Tesseract在识别效果上有大幅改善。