RSS订阅王佳明的个人网站
你现在的位置:首页 / 技术 / 正文

如何在windows上部署OCRmyPDF

0 技术 | 2025年3月21日

OCRmyPDF是一个用于对PDF文件进行OCR识别的工具,可以添加可搜索的文本层。

以下内容为与DeepSeek共创

步骤1:安装必要依赖

1,下载Tesseract OCR(文字识别引擎)

UB-Mannheim的Windows版Tesseract

https://github.com/UB-Mannheim/tesseract/wiki

安装时勾选中文语言包(如chi_sim简体中文、chi_tra繁体中文)或其他需要的语言。

安装完成后将Tesseract路径(如 C:\Program Files\Tesseract-OCR)添加到系统环境变量 PATH。

2,下载Ghostscript(PDF处理工具)

https://www.ghostscript.com/releases/gsdnld.html

安装后确保 gswin64c.exe(或 gswin32c.exe)的路径(如 C:\Program Files\gs\gs10.05.0\bin)已添加到系统环境变量 PATH。

3,下载Python 3.7+

https://www.python.org/downloads/windows/

安装时务必勾选 "Add Python to PATH"。

步骤2:安装OCRmyPDF

4,打开命令提示符(CMD)或 PowerShell。

使用 pip 安装 OCRmyPDF:

pip install ocrmypdf

步骤3:验证安装

5,检查OCRmyPDF版本:

ocrmypdf --version

验证Tesseract和Ghostscript是否被识别:

ocrmypdf --list-languages

步骤4:基本使用

ocrmypdf --language chi_sim --rotate-pages input.pdf output.pdf

--language:指定OCR语言(如 chi_sim 简体中文)。

--rotate-pages:自动旋转倾斜页面。

其他常用参数:--deskew(纠偏)、--output-type pdfa(生成PDF/A格式)。


推荐您阅读更多有关于“ OCRmyPDF  windows  pdf  AI  deepseek   ”的文章

以上内容如果对你有用,请收藏。
上一篇:windows自带VPN如何实现分流

猜你喜欢

评论列表:

官方LOGO
    佳明one

    我们的使命是减少资金、技术和
    教育方面的障碍,以提供有效的
    IT科技支援。。。。。。。。。

    5ubg


    扫码从手机访问


网站分类
友情链接