docs(requirements): 梳理注册资料审核Agent需求

This commit is contained in:
zhiye.sun
2026-06-03 14:00:33 +08:00
parent b2c1da3f02
commit 4017151218
6 changed files with 427 additions and 19 deletions

View File

@@ -42,6 +42,14 @@
必要时为后续 OCR 或图片扫描件预留扩展位。
结合题面“自动汇总文件夹文件目录与页数”的要求Documents 模块还需要支持资料包级导入,而不是只支持单文件:
- 多文件批量上传
- 文件夹选择或拖拽上传
- 压缩包上传并自动解包
压缩包建议覆盖 `zip``rar``7z` 等常见格式。解包后应保留压缩包内的原始相对路径,用于还原资料目录、识别章节点和判断是否存在目录层级异常。
除用户上传的申报资料外,系统还需要支持管理平台内置法规资料,例如:
- 注册申报资料要求及说明
@@ -194,6 +202,15 @@
如果是批量导入,系统还应支持一次性上传多个资料。
如果上传的是压缩包,流程应扩展为:
1. 保存原始压缩包。
2. 校验压缩包格式和大小。
3. 解包到当前项目 / 批次的隔离目录。
4. 遍历解包后的文件并创建文档记录。
5. 保留每个文件的原始相对路径和所属压缩包来源。
6. 对解包失败、空包、嵌套异常或不支持格式给出业务化提示。
### 6.2 文件识别与归类流程
上传后,系统应尽量自动识别文件属于哪个章节点。识别依据可以包括:
@@ -222,6 +239,14 @@
即便首版不能对所有 Word 做精确页数恢复,也需要在需求上明确“统计可信度”和“估算标识”。
页数结果建议拆分为:
- `page_count`
- `page_count_method`
- `page_count_confidence`
例如 PDF 解析可标记为“精确”DOCX 首版可标记为“估算”DOC 或解析失败文件可标记为“待人工复核”。
### 6.4 文本抽取与索引流程
系统应按文档类型采用不同策略:
@@ -289,9 +314,11 @@ Documents 模块应能直接输出一份“资料目录总览”,字段建议
文档列表页不应只是“文件上传记录”,而应成为资料治理面板。建议展示:
- 文件名
- 原始相对路径
- 章节点
- 资料名称
- 页数
- 页数可信度
- 所属项目 / 批次
- 解析状态
- 入库状态
@@ -364,6 +391,7 @@ Documents 不负责审计结论,但应为审计提供文档 ID、处理过程
4. 增加文档归类与页数统计能力。
5. 增加重复版本识别和疑似混档识别。
6. 增加法规资料类型识别与业务资料 / 法规资料隔离管理。
7. 增加资料包导入、压缩包解包、原始相对路径记录和解包异常提示。
## 13. 验收标准