PDF工具 发票与收据字段提取校验 在线工具 AI 提示词 (Prompts)

这篇内容能帮你生成什么

你将得到一个可运行的在线 PDF 工具:把用户上传的 PDF 发票/收据做 OCR 识别,抽取关键字段(如开票日期、金额、税额、发票号、购买方/销售方信息等),并按可配置规则做校验,输出结构化 JSON/CSV 与校验报告页面。

交付物要求:完整项目源码、清晰文件树、可复制运行命令、Docker 部署说明、至少一组可自动执行的测试用例或 QA checklist(含异常/边界场景)。

覆盖场景与边界

适用于财务对账、报销审核、发票归档、付款前校验等场景。强调“处理/识别/校验/导出”,不做任何出图/渲染/配图方向的提示词。

建议边界:限制单文件大小与页数;对扫描件/倾斜/低清晰度做提示;敏感信息(身份证号/手机号/地址)支持脱敏显示;失败时返回可读错误与重试建议。

功能清单(建议)

上传与预览:拖拽上传、页数/尺寸提示、解析失败提示。

OCR 与抽取:可选 OCR 引擎(Tesseract/Cloud OCR 接口占位)、抽取模板(发票/收据两类)、字段置信度与原文定位(坐标/页码)。

规则校验:金额/税额计算一致性、日期范围、发票号格式、必填字段、重复检测(hash+关键字段组合)。

导出:JSON/CSV 下载、校验报告(HTML/打印友好)、日志审计(可选)。

Prompt(基础版:本地 OCR + 规则校验 + 报告)

你是资深全栈工程师+测试工程师。请为我生成一个“在线 PDF 发票/收据字段提取与校验工具”的完整可运行项目。 硬性要求: 1) 这是一个在线工具(Web),支持上传 PDF(多页)。 2) 对每页进行文本抽取(优先 pdf text layer),若为空则做 OCR(Tesseract.js 或 server-side tesseract 均可,但必须写清方案与依赖)。 3) 抽取字段:发票号、开票日期、含税金额/不含税金额/税额(至少其中两项)、购买方名称、销售方名称;并给出字段置信度与来源页码。 4) 规则校验:金额/税额一致性(可配置税率或自动推断)、日期格式与范围、字段缺失、发票号格式、重复发票检测(基于文件 hash + 字段组合)。 5) 输出:页面展示结构化结果与校验结论;支持一键导出 JSON 与 CSV;生成可打印的校验报告页面。 6) 交付物必须包含: - 完整源码(建议 Next.js 或 Express+Vite 任一,但要说明选择理由) - 文件树(tree) - 开发运行命令、生产构建命令 - Dockerfile + docker-compose(可选)但至少要给出 Docker 运行方式 - 测试:至少 6 条自动化测试(字段解析、规则校验、错误处理、导出格式),或给出详细 QA checklist(>=15 条) 7) 安全与鲁棒性:限制文件大小/页数;对超时/识别失败要有清晰错误;不要把上传文件永久落盘(可用内存/临时目录并说明清理)。 输出格式: A) 先给项目简介与功能点 B) 给出文件树 C) 逐文件贴出关键代码(保证可复制粘贴运行) D) 给出运行/部署步骤 E) 给出测试用例或 QA checklist

Prompt(增强版:可配置规则 + 模板化字段映射)

请在“在线 PDF 发票/收据字段提取与校验工具”的基础上增强: 1) 增加“规则配置”界面: - 税率配置(单税率/多税率列表) - 必填字段开关 - 发票号/日期正则自定义 - 重复检测窗口(最近 N 次上传的缓存记录) 2) 增加“模板管理”: - 预置两套模板:增值税发票、普通收据 - 每套模板定义:字段关键词、候选正则、优先级、后处理(如去空格、统一日期格式) 3) 增加“可解释性”: - 在结果页展示每个字段的抽取依据(命中的文本片段),并标注所在页码 4) 交付物: - 给出数据结构设计(Type 类型) - 给出缓存策略与清理策略 - 增加至少 8 条测试,覆盖模板切换与规则配置 请输出完整可运行代码+文件树+运行命令+部署说明+测试。

Prompt(部署版:无状态部署 + 环境变量 + 观测)

请把该在线工具改造成“无状态可部署”的版本: - 支持通过环境变量配置:最大文件大小、最大页数、OCR 超时、是否启用云 OCR(占位)、日志级别。 - 增加基础观测:请求耗时、OCR 耗时、错误码统计(可用简单的 /metrics JSON 或 Prometheus 格式)。 - 增加安全建议:CSP、上传文件校验、rate limit、防止路径穿越。 - 给出两套部署: 1) Docker 单容器 2) 适配常见 PaaS(如 Render/Fly.io/任意 Node 部署平台)的步骤 同样输出:完整代码、文件树、运行命令、部署说明、测试或 QA。

使用建议

把上面的 Prompt 直接丢给你常用的 AI(如代码模型),优先让它先输出文件树与关键依赖,再逐文件生成,最后补齐测试与部署。拿到代码后先跑测试,再用 3-5 份不同质量的 PDF(文本层/扫描件/倾斜/多页)做验证。

用户评论 (0)

登录后参与讨论

立即登录 注册账号

暂无评论,快来抢沙发吧~

操作成功