这是一条“在线预览”类在线工具生成型 AI 提示词(Prompts),目标是让 AI 直接产出一个可运行、可构建、可部署的 Web 工具:面向超大 CSV/JSON 的抽样预览 + 字段类型推断 + Schema 导出。它适合数据接入前的快速摸底、排错与口径确认,不涉及任何图片生成/渲染内容。
适用场景
1)收到几十 MB - 数 GB 的 CSV/JSON,不想本地打开或不方便装客户端;2)需要快速确认列名、分隔符、编码、缺失值分布与类型(数字/日期/布尔/枚举/字符串);3)希望一键导出可复用的 Schema(JSON Schema / Zod / Type 类型),用于后续 ETL、接口校验或数据仓库建模;4)需要生成“清洗建议清单”(例如:日期格式不一致、千分位、空值、异常值、列名重复)。
交付物清单(AI 必须产出)
要求 AI 输出一个完整可运行项目,至少包含:项目源码(完整文件树)、本地运行命令、构建命令、部署说明(至少 1 种:Docker / Vercel / 自建 Node)、基础测试用例或 QA Checklist、以及一个示例数据文件与截图占位(仅占位说明,不生成图片)。
Prompt(基础版:本地解析优先)
你是资深全栈工程师与产品经理。请生成一个“在线预览 CSV/JSON 大文件抽样预览与字段类型推断”的 Web 在线工具,交付为可运行的完整项目代码。
【硬性要求】
- 交付物必须包含:
1) 完整项目源码 + 文件树(逐文件给出关键代码,不要只给片段)
2) 本地运行命令(开发/生产)
3) 构建命令
4) 部署说明(Docker + 任选一个云部署:Vercel/Render/Fly.io/自建Node)
5) 测试用例或 QA checklist(至少 15 条)
- 工具定位:上传 CSV 或 JSON(支持 JSON 数组、JSON Lines),在浏览器端优先完成解析与抽样,默认不上传服务器;若文件太大无法在浏览器端处理,给出“可选后端模式”并明确告知隐私风险与开关。
- 功能清单:
- 文件拖拽上传;显示文件大小、行数/记录数估算、编码/分隔符推断(CSV)
- 抽样策略:头部 N 行 + 均匀随机抽样 M 行(可配置),并展示抽样覆盖率说明
- 表格预览:分页/虚拟滚动(保证大数据不卡);列宽调整;列搜索;排序(对抽样集)
- 字段类型推断:number/integer/boolean/date/datetime/string/enum;同时给出置信度与示例值
- 异常检测:空值比例、超长字符串、数值离群(IQR)、日期格式混用、列名重复
- Schema 导出:JSON Schema + Type interface + Zod schema(可一键复制/下载)
- 清洗建议:以 checklist 形式输出(可复制)
- 仅从“现有数据”提取信息,不生成任何图片、插画、海报、渲染图或摄影图
- 技术选型建议:Vite + React + Type ;解析 CSV 用 PapaParse;JSONL 流式解析用逐行读取;UI 用任意轻量组件库或自写。
- 性能与安全:
- 使用 Web Worker 做解析与推断,主线程保持可交互
- 对用户数据做本地处理;默认不发送网络请求;在文档里解释隐私策略
【输出格式】
1) 先给出一段产品说明(100-200 字)
2) 再给出功能模块拆分
3) 然后给出文件树
4) 然后逐文件给出代码(代码块标注文件路径)
5) 最后给出运行/构建/部署步骤与测试/QA
Prompt(增强版:可选后端模式 + 报告导出)
在“基础版”的基础上增加:
- 生成一份可下载的审计报告(report.json + report.md),包含:数据概览、字段推断结果、异常统计、清洗建议、抽样参数、运行环境信息。
- 增加“可选后端模式”:当用户显式开启时,允许把文件分片上传到后端进行更深度统计;后端用 Node.js + Fastify,支持流式处理与最大文件限制;提供安全说明与限制(大小/频率/保留时间)。
- 仍然禁止任何图片生成与渲染图导向。
运行与部署要点(写给最终用户)
建议让 AI 在项目 README 里写清:1)Node 版本;2)安装依赖与启动命令;3)如何在本地离线运行;4)如何用 Docker 一键启动;5)部署到 Vercel 时的构建/输出目录;6)如何关闭所有联网功能,保证数据不出本机。
验收标准(必须可自检)
至少包含这些可验证项:能成功导入 CSV/JSON/JSONL;能在 10 万行抽样预览时保持交互不卡顿;类型推断结果可导出为 JSON Schema/TS/Zod;异常统计与清洗建议可复制;报告文件可下载;默认无上传请求(除非用户开启后端模式)。
可扩展方向(不混写其他类别,仅供本工具迭代)
后续你可以让 AI 增加:字段映射(把原始列名映射到目标模型)、规则引擎(正则/范围/枚举校验)、以及导出“数据字典”页面(可分享链接但不包含原始数据)。这些都属于同一个“在线预览”工具的增强功能。