docs(requirements): 梳理注册资料审核Agent需求

2026-06-03 14:00:33 +08:00
parent b2c1da3f02
commit 4017151218
6 changed files with 427 additions and 19 deletions
--- a/docs/需求分析/3.documents模块需求分析.md
+++ b/docs/需求分析/3.documents模块需求分析.md
@@ -42,6 +42,14 @@

 必要时为后续 OCR 或图片扫描件预留扩展位。

+结合题面“自动汇总文件夹文件目录与页数”的要求，Documents 模块还需要支持资料包级导入，而不是只支持单文件：
+
+- 多文件批量上传
+- 文件夹选择或拖拽上传
+- 压缩包上传并自动解包
+
+压缩包建议覆盖 `zip`、`rar`、`7z` 等常见格式。解包后应保留压缩包内的原始相对路径，用于还原资料目录、识别章节点和判断是否存在目录层级异常。
+
 除用户上传的申报资料外，系统还需要支持管理平台内置法规资料，例如：

 - 注册申报资料要求及说明
@@ -194,6 +202,15 @@

 如果是批量导入，系统还应支持一次性上传多个资料。

+如果上传的是压缩包，流程应扩展为：
+
+1. 保存原始压缩包。
+2. 校验压缩包格式和大小。
+3. 解包到当前项目 / 批次的隔离目录。
+4. 遍历解包后的文件并创建文档记录。
+5. 保留每个文件的原始相对路径和所属压缩包来源。
+6. 对解包失败、空包、嵌套异常或不支持格式给出业务化提示。
+
 ### 6.2 文件识别与归类流程

 上传后，系统应尽量自动识别文件属于哪个章节点。识别依据可以包括：
@@ -222,6 +239,14 @@

 即便首版不能对所有 Word 做精确页数恢复，也需要在需求上明确“统计可信度”和“估算标识”。

+页数结果建议拆分为：
+
+- `page_count`
+- `page_count_method`
+- `page_count_confidence`
+
+例如 PDF 解析可标记为“精确”，DOCX 首版可标记为“估算”，DOC 或解析失败文件可标记为“待人工复核”。
+
 ### 6.4 文本抽取与索引流程

 系统应按文档类型采用不同策略：
@@ -289,9 +314,11 @@ Documents 模块应能直接输出一份“资料目录总览”，字段建议
 文档列表页不应只是“文件上传记录”，而应成为资料治理面板。建议展示：

 - 文件名
+- 原始相对路径
 - 章节点
 - 资料名称
 - 页数
+- 页数可信度
 - 所属项目 / 批次
 - 解析状态
 - 入库状态
@@ -364,6 +391,7 @@ Documents 不负责审计结论，但应为审计提供文档 ID、处理过程
 4. 增加文档归类与页数统计能力。
 5. 增加重复版本识别和疑似混档识别。
 6. 增加法规资料类型识别与业务资料 / 法规资料隔离管理。
+7. 增加资料包导入、压缩包解包、原始相对路径记录和解包异常提示。

 ## 13. 验收标准