OCRmyPDF是一个用于对PDF文件进行OCR识别的工具,可以添加可搜索的文本层。
以下内容为与DeepSeek共创
步骤1:安装必要依赖
1,下载Tesseract OCR(文字识别引擎)
UB-Mannheim的Windows版Tesseract
https://github.com/UB-Mannheim/tesseract/wiki
安装时勾选中文语言包(如chi_sim简体中文、chi_tra繁体中文)或其他需要的语言。
安装完成后将Tesseract路径(如 C:\Program Files\Tesseract-OCR)添加到系统环境变量 PATH。
2,下载Ghostscript(PDF处理工具)
https://www.ghostscript.com/releases/gsdnld.html
安装后确保 gswin64c.exe(或 gswin32c.exe)的路径(如 C:\Program Files\gs\gs10.05.0\bin)已添加到系统环境变量 PATH。
3,下载Python 3.7+
https://www.python.org/downloads/windows/
安装时务必勾选 "Add Python to PATH"。
步骤2:安装OCRmyPDF
4,打开命令提示符(CMD)或 PowerShell。
使用 pip 安装 OCRmyPDF:
pip install ocrmypdf
步骤3:验证安装
5,检查OCRmyPDF版本:
ocrmypdf --version
验证Tesseract和Ghostscript是否被识别:
ocrmypdf --list-languages
步骤4:基本使用
ocrmypdf --language chi_sim --rotate-pages input.pdf output.pdf
--language:指定OCR语言(如 chi_sim 简体中文)。
--rotate-pages:自动旋转倾斜页面。
其他常用参数:--deskew(纠偏)、--output-type pdfa(生成PDF/A格式)。
评论列表: