网站首页 > 技术教程正文

LLM-Aided OCR :一款开源的OCR工具!

goqiw 2025-01-15 12:52:47 技术教程 123 ℃ 0 评论

LLM-Aided OCR 是一个通过应用大型语言模型(LLM)校正来增强 Tesseract OCR 输出的项目,主要用于扫描的 PDF 文件。它可以提高 OCR 的准确性和可读性，尤其是对于那些质量较差或包含复杂文本的文档。该项目结合了 OCR 技术和 LLM 的语言理解能力，使其可以将扫描版PDF文件转换成高准确度和格式规范的Markdown文档，显著提高了工作效率。

LLM-Aided OCR 的处理流程非常清晰，包含以下几个关键步骤：

PDF 转换为图像：首先将 PDF 文件转化为图像格式，便于进行 OCR 扫描。
OCR 处理：利用 OCR 技术扫描图像，提取出文中的文本内容。
LLM 纠错：通过本地 LLM 或 API 对 OCR 提取的文本进行纠错与格式调整，确保文本的准确性和可读性。
生成 Markdown：最后将处理后的文本转换为 Markdown 格式输出，方便后续编辑和使用。

GitHub：https://github.com/Dicklesworthstone/llm_aided_ocr

#AI开源项目推荐##github##AI技术##AI开源工具

上一篇：这么好用的离线OCR项目，我要摁着“狗头”安利给你
下一篇：免费，开源，可批量的离线OCR软件来了

网站首页 > 技术教程正文

LLM-Aided OCR :一款开源的OCR工具!

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术教程 正文

LLM-Aided OCR :一款开源的OCR工具!

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术教程正文

取消回复欢迎你发表评论: