PDF工具发票与收据字段提取校验在线工具 AI 提示词 (Prompts)

这篇内容能帮你生成什么

你将得到一个可运行的在线 PDF 工具：把用户上传的 PDF 发票/收据做 OCR 识别，抽取关键字段（如开票日期、金额、税额、发票号、购买方/销售方信息等），并按可配置规则做校验，输出结构化 JSON/CSV 与校验报告页面。

交付物要求：完整项目源码、清晰文件树、可复制运行命令、Docker 部署说明、至少一组可自动执行的测试用例或 QA checklist（含异常/边界场景）。

覆盖场景与边界

适用于财务对账、报销审核、发票归档、付款前校验等场景。强调“处理/识别/校验/导出”，不做任何出图/渲染/配图方向的提示词。

建议边界：限制单文件大小与页数；对扫描件/倾斜/低清晰度做提示；敏感信息（身份证号/手机号/地址）支持脱敏显示；失败时返回可读错误与重试建议。

功能清单（建议）

上传与预览：拖拽上传、页数/尺寸提示、解析失败提示。

OCR 与抽取：可选 OCR 引擎（Tesseract/Cloud OCR 接口占位）、抽取模板（发票/收据两类）、字段置信度与原文定位（坐标/页码）。

规则校验：金额/税额计算一致性、日期范围、发票号格式、必填字段、重复检测（hash+关键字段组合）。

导出：JSON/CSV 下载、校验报告（HTML/打印友好）、日志审计（可选）。

Prompt（基础版：本地 OCR + 规则校验 + 报告）

你是资深全栈工程师+测试工程师。请为我生成一个“在线 PDF 发票/收据字段提取与校验工具”的完整可运行项目。

硬性要求：
1) 这是一个在线工具（Web），支持上传 PDF（多页）。
2) 对每页进行文本抽取（优先 pdf text layer），若为空则做 OCR（Tesseract.js 或 server-side tesseract 均可，但必须写清方案与依赖）。
3) 抽取字段：发票号、开票日期、含税金额/不含税金额/税额（至少其中两项）、购买方名称、销售方名称；并给出字段置信度与来源页码。
4) 规则校验：金额/税额一致性（可配置税率或自动推断）、日期格式与范围、字段缺失、发票号格式、重复发票检测（基于文件 hash + 字段组合）。
5) 输出：页面展示结构化结果与校验结论；支持一键导出 JSON 与 CSV；生成可打印的校验报告页面。
6) 交付物必须包含：
- 完整源码（建议 Next.js 或 Express+Vite 任一，但要说明选择理由）
- 文件树（tree）
- 开发运行命令、生产构建命令
- Dockerfile + docker-compose（可选）但至少要给出 Docker 运行方式
- 测试：至少 6 条自动化测试（字段解析、规则校验、错误处理、导出格式），或给出详细 QA checklist（>=15 条）
7) 安全与鲁棒性：限制文件大小/页数；对超时/识别失败要有清晰错误；不要把上传文件永久落盘（可用内存/临时目录并说明清理）。

输出格式：
A) 先给项目简介与功能点
B) 给出文件树
C) 逐文件贴出关键代码（保证可复制粘贴运行）
D) 给出运行/部署步骤
E) 给出测试用例或 QA checklist

Prompt（增强版：可配置规则 + 模板化字段映射）

请在“在线 PDF 发票/收据字段提取与校验工具”的基础上增强：

1) 增加“规则配置”界面：
- 税率配置（单税率/多税率列表）
- 必填字段开关
- 发票号/日期正则自定义
- 重复检测窗口（最近 N 次上传的缓存记录）

2) 增加“模板管理”：
- 预置两套模板：增值税发票、普通收据
- 每套模板定义：字段关键词、候选正则、优先级、后处理（如去空格、统一日期格式）

3) 增加“可解释性”：
- 在结果页展示每个字段的抽取依据（命中的文本片段），并标注所在页码

4) 交付物：
- 给出数据结构设计（Type  类型）
- 给出缓存策略与清理策略
- 增加至少 8 条测试，覆盖模板切换与规则配置

请输出完整可运行代码+文件树+运行命令+部署说明+测试。

Prompt（部署版：无状态部署 + 环境变量 + 观测）

请把该在线工具改造成“无状态可部署”的版本：

- 支持通过环境变量配置：最大文件大小、最大页数、OCR 超时、是否启用云 OCR（占位）、日志级别。
- 增加基础观测：请求耗时、OCR 耗时、错误码统计（可用简单的 /metrics JSON 或 Prometheus 格式）。
- 增加安全建议：CSP、上传文件校验、rate limit、防止路径穿越。
- 给出两套部署：
  1) Docker 单容器
  2) 适配常见 PaaS（如 Render/Fly.io/任意 Node 部署平台）的步骤

同样输出：完整代码、文件树、运行命令、部署说明、测试或 QA。