docs(requirements): 梳理注册资料审核Agent需求
This commit is contained in:
@@ -42,6 +42,14 @@
|
||||
|
||||
必要时为后续 OCR 或图片扫描件预留扩展位。
|
||||
|
||||
结合题面“自动汇总文件夹文件目录与页数”的要求,Documents 模块还需要支持资料包级导入,而不是只支持单文件:
|
||||
|
||||
- 多文件批量上传
|
||||
- 文件夹选择或拖拽上传
|
||||
- 压缩包上传并自动解包
|
||||
|
||||
压缩包建议覆盖 `zip`、`rar`、`7z` 等常见格式。解包后应保留压缩包内的原始相对路径,用于还原资料目录、识别章节点和判断是否存在目录层级异常。
|
||||
|
||||
除用户上传的申报资料外,系统还需要支持管理平台内置法规资料,例如:
|
||||
|
||||
- 注册申报资料要求及说明
|
||||
@@ -194,6 +202,15 @@
|
||||
|
||||
如果是批量导入,系统还应支持一次性上传多个资料。
|
||||
|
||||
如果上传的是压缩包,流程应扩展为:
|
||||
|
||||
1. 保存原始压缩包。
|
||||
2. 校验压缩包格式和大小。
|
||||
3. 解包到当前项目 / 批次的隔离目录。
|
||||
4. 遍历解包后的文件并创建文档记录。
|
||||
5. 保留每个文件的原始相对路径和所属压缩包来源。
|
||||
6. 对解包失败、空包、嵌套异常或不支持格式给出业务化提示。
|
||||
|
||||
### 6.2 文件识别与归类流程
|
||||
|
||||
上传后,系统应尽量自动识别文件属于哪个章节点。识别依据可以包括:
|
||||
@@ -222,6 +239,14 @@
|
||||
|
||||
即便首版不能对所有 Word 做精确页数恢复,也需要在需求上明确“统计可信度”和“估算标识”。
|
||||
|
||||
页数结果建议拆分为:
|
||||
|
||||
- `page_count`
|
||||
- `page_count_method`
|
||||
- `page_count_confidence`
|
||||
|
||||
例如 PDF 解析可标记为“精确”,DOCX 首版可标记为“估算”,DOC 或解析失败文件可标记为“待人工复核”。
|
||||
|
||||
### 6.4 文本抽取与索引流程
|
||||
|
||||
系统应按文档类型采用不同策略:
|
||||
@@ -289,9 +314,11 @@ Documents 模块应能直接输出一份“资料目录总览”,字段建议
|
||||
文档列表页不应只是“文件上传记录”,而应成为资料治理面板。建议展示:
|
||||
|
||||
- 文件名
|
||||
- 原始相对路径
|
||||
- 章节点
|
||||
- 资料名称
|
||||
- 页数
|
||||
- 页数可信度
|
||||
- 所属项目 / 批次
|
||||
- 解析状态
|
||||
- 入库状态
|
||||
@@ -364,6 +391,7 @@ Documents 不负责审计结论,但应为审计提供文档 ID、处理过程
|
||||
4. 增加文档归类与页数统计能力。
|
||||
5. 增加重复版本识别和疑似混档识别。
|
||||
6. 增加法规资料类型识别与业务资料 / 法规资料隔离管理。
|
||||
7. 增加资料包导入、压缩包解包、原始相对路径记录和解包异常提示。
|
||||
|
||||
## 13. 验收标准
|
||||
|
||||
|
||||
Reference in New Issue
Block a user