最新消息:

开源BetterOCR,使用多OCR引擎+LLM提升OCR效果

产品 admin 283浏览 0评论

目前各种OCR软件在处理图片及文字不太清晰时候依然存在识别不出、识别错误乃至错得离谱的问题。

BetterOCR 是一个开源OCR项目,BetterOCR的解决思路不是更强大的OCR引擎,而是多个OCR+LLM。

BetterOCR 将多个 OCR 引擎的结果与 LLM 结合起来,对输出结果进行校正和重建,实现对文本更准确的识别。

  • OCR 引擎: 目前支持 EasyOCR 和 Tesseract。
  • LLM:支持 OpenAI 的聊天模型
  • 自定义上下文: 允许用户提供可选上下文,以使用专有名词和产品名称等特定关键词。这有助于拼写纠正和噪音识别,即使是罕见或非常规词汇也能确保准确性。

项目地址:https://github.com/junhoyeo/BetterOCR

作者在项目首页提供了一些使用BetterOCR 的例子,多OCR引擎+LLM的方案确实比单独使用EasyOCR或Tesseract在识别效果上有大幅改善。

转载请注明:出家如初,成佛有余 » 开源BetterOCR,使用多OCR引擎+LLM提升OCR效果

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址