[ PROMPT_NODE_25662 ]

PDF Processing Pro

[ SKILL_DOCUMENTATION ]

# PDF Processing Pro 生产级 PDF 处理工具包，包含预构建脚本、全面的错误处理以及对复杂工作流的支持。 ## 快速入门 ### 从 PDF 提取文本 python import pdfplumber with pdfplumber.open("document.pdf") as pdf: text = pdf.pages[0].extract_text() print(text) ### 分析 PDF 表单（使用内置脚本） bash python scripts/analyze_form.py input.pdf --output fields.json # 返回: 包含所有表单字段、类型和位置的 JSON ### 填充带有验证的 PDF 表单 bash python scripts/fill_form.py input.pdf data.json output.pdf # 在填充前验证所有字段，包含错误报告 ### 从 PDF 提取表格 bash python scripts/extract_tables.py report.pdf --output tables.csv # 提取所有带有自动列检测的表格 ## 功能特点 ### ✅ 生产级脚本所有脚本均包含： - **错误处理**: 优雅的失败处理及详细的错误消息 - **验证**: 输入验证和类型检查 - **日志记录**: 可配置的带时间戳的日志 - **类型提示**: 完整的类型注解以支持 IDE - **CLI 接口**: 所有脚本均支持 `--help` 标志 - **退出代码**: 适合自动化的正确退出代码 ### ✅ 全面的工作流 - **PDF 表单**: 完整的表单处理流水线 - **表格提取**: 高级表格检测与提取 - **OCR 处理**: 扫描件 PDF 文本提取 - **批量操作**: 高效处理多个 PDF - **验证**: 前置与后置处理验证 ## 高级主题 ### PDF 表单处理用于完整的表单工作流，包括： - 字段分析与检测 - 动态表单填充 - 验证规则 - 多页表单 - 复选框和单选按钮处理参见 [FORMS.md](FORMS.md) ### 表格提取用于复杂的表格提取： - 多页表格 - 合并单元格 - 嵌套表格 - 自定义表格检测 - 导出为 CSV/Excel 参见 [TABLES.md](TABLES.md) ### OCR 处理用于扫描的 PDF 和基于图像的文档： - Tesseract 集成 - 语言支持 - 图像预处理 - 置信度评分 - 批量 OCR 参见 [OCR.md](OCR.md) ## 内置脚本 ### 表单处理 **analyze_form.py** - 提取表单字段信息 bash python scripts/analyze_form.py input.pdf [--output fields.json] [--verbose] **fill_form.py** - 使用数据填充 PDF 表单 bash python scripts/fill_form.py input.pdf data.json output.pdf [--validate] **validate_form.py** - 验证表单

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI