docs(requirements): 梳理注册资料审核Agent需求

This commit is contained in:
zhiye.sun
2026-06-03 14:00:33 +08:00
parent b2c1da3f02
commit 4017151218
6 changed files with 427 additions and 19 deletions

View File

@@ -16,7 +16,7 @@
系统需要覆盖的业务闭环至少包括:
1. 扫描申报文件夹,形成资料目录、文件清单、页数统计和章节点归属。
1. 导入申报资料包,支持批量文件、文件夹和压缩包形式,形成资料目录、文件清单、页数统计和章节点归属。
2. 基于法规要求和申报目录模板,判断资料是否齐全、是否放对位置、是否缺少关键附件。
3. 从说明书、申请表、产品列表、声明文件等材料中提取关键信息,形成统一字段池。
4. 利用统一字段池回填申请表、对照清单、章节目录或其他待生成文件。
@@ -134,6 +134,8 @@
7. 系统展示当前完整性结论所依据的公告附件、资料要求和模板来源。
导入环节建议明确支持两种演示路径:一是直接批量上传样例文件,二是上传包含多级目录的压缩包并由系统自动解压。压缩包格式建议覆盖 `zip``rar``7z`,其中 `rar``7z` 可在实现设计中根据本地依赖情况选择纯 Python 或系统工具方案。
## 7. 已确认事项
以下内容已根据最新沟通结果确认,并已同步进入后续模块需求:
@@ -221,6 +223,9 @@
2. 用户新写模板进入模板库后,模板版本、生效范围和审批流程是否需要管理。
3. 责任人配置是仅按章节点维护,还是同时支持按任务类型、项目角色双维度维护。
4. 后端知识库更新入口是否只允许管理员使用,还是允许业务审核人员参与人工校订。
5. “自动填写至目标文件”的目标文件具体是注册申请表、法规对照清单、章节目录,还是业务方另行提供的 Word 模板。
6. DOCX / DOC 页数统计是否要求达到精确页数,还是允许首版使用估算页数并标记可信度。
7. `rar``7z` 解包是否允许依赖本地系统工具,还是必须完全使用 Python 库实现。
## 9. 本轮需求分析采用的默认假设
@@ -237,6 +242,7 @@
9. 飞书接入属于本次 Demo 明确范围,需支持在飞书内完成任务选择、结果查看和责任人通知,并支持群聊机器人入口。
10. V1 的法规任务边界先聚焦“注册申报”,变更备案和延续注册在规则架构上预留扩展位,但不作为当前主验收范围。
11. 系统需要提供后端管理页面,支持人工校订、模板管理、责任人维护和知识库更新。
12. 资料包导入首版应支持批量文件和压缩包,压缩包解包后保留原始相对路径。
## 10. 结论

View File

@@ -51,7 +51,7 @@ V1 聚焦“可运行、可讲解、可演示”的注册资料审核闭环,
### 4.1 V1 必须覆盖
1. 资料上传与管理
2. 文件目录与页数汇总
2. 资料包导入、压缩包解包、文件目录与页数汇总
3. 法规完整性检查
4. 产品关键信息抽取
5. 跨文档一致性核查
@@ -72,6 +72,8 @@ V1 聚焦“可运行、可讲解、可演示”的注册资料审核闭环,
3. 首版法规校验可以本地规则为主,不强依赖联网抓取最新法规。
4. 首版需要支持飞书内完成任务选择、结果查看和责任人通知,并支持群聊机器人入口及手动维护责任人 / 飞书账号映射。
5. 首版法规任务边界以“注册申报”主流程为核心,变更备案和延续注册暂作为规则扩展方向。
6. 首版如 DOCX / DOC 页数无法精确恢复,可标记为估算页数或待复核,但必须在目录汇总中明确可信度。
7. 回填目标文件在业务未最终确认前,先以结构化回填字段表和模板回填预览作为交付口径。
## 5. 业务闭环
@@ -95,6 +97,8 @@ V1 聚焦“可运行、可讲解、可演示”的注册资料审核闭环,
2. 同步建设结构化规则文件,避免让完整性校验完全依赖检索文本。
3. 提供后台管理页面,支持人工校订和知识库更新。
资料导入层需要按“资料包”而不是“单文件”设计。V1 至少应支持批量文件上传,并预留文件夹导入和压缩包导入能力。压缩包导入建议支持 `zip``rar``7z`,解包后保留原始相对路径,用于生成目录汇总、识别章节点和发现文件夹结构异常。
在法规维度上,建议把完整流程理解为:
1. 识别当前审核任务属于“注册申报”主流程。

View File

@@ -42,6 +42,14 @@
必要时为后续 OCR 或图片扫描件预留扩展位。
结合题面“自动汇总文件夹文件目录与页数”的要求Documents 模块还需要支持资料包级导入,而不是只支持单文件:
- 多文件批量上传
- 文件夹选择或拖拽上传
- 压缩包上传并自动解包
压缩包建议覆盖 `zip``rar``7z` 等常见格式。解包后应保留压缩包内的原始相对路径,用于还原资料目录、识别章节点和判断是否存在目录层级异常。
除用户上传的申报资料外,系统还需要支持管理平台内置法规资料,例如:
- 注册申报资料要求及说明
@@ -194,6 +202,15 @@
如果是批量导入,系统还应支持一次性上传多个资料。
如果上传的是压缩包,流程应扩展为:
1. 保存原始压缩包。
2. 校验压缩包格式和大小。
3. 解包到当前项目 / 批次的隔离目录。
4. 遍历解包后的文件并创建文档记录。
5. 保留每个文件的原始相对路径和所属压缩包来源。
6. 对解包失败、空包、嵌套异常或不支持格式给出业务化提示。
### 6.2 文件识别与归类流程
上传后,系统应尽量自动识别文件属于哪个章节点。识别依据可以包括:
@@ -222,6 +239,14 @@
即便首版不能对所有 Word 做精确页数恢复,也需要在需求上明确“统计可信度”和“估算标识”。
页数结果建议拆分为:
- `page_count`
- `page_count_method`
- `page_count_confidence`
例如 PDF 解析可标记为“精确”DOCX 首版可标记为“估算”DOC 或解析失败文件可标记为“待人工复核”。
### 6.4 文本抽取与索引流程
系统应按文档类型采用不同策略:
@@ -289,9 +314,11 @@ Documents 模块应能直接输出一份“资料目录总览”,字段建议
文档列表页不应只是“文件上传记录”,而应成为资料治理面板。建议展示:
- 文件名
- 原始相对路径
- 章节点
- 资料名称
- 页数
- 页数可信度
- 所属项目 / 批次
- 解析状态
- 入库状态
@@ -364,6 +391,7 @@ Documents 不负责审计结论,但应为审计提供文档 ID、处理过程
4. 增加文档归类与页数统计能力。
5. 增加重复版本识别和疑似混档识别。
6. 增加法规资料类型识别与业务资料 / 法规资料隔离管理。
7. 增加资料包导入、压缩包解包、原始相对路径记录和解包异常提示。
## 13. 验收标准

View File

@@ -93,10 +93,12 @@
### 处理逻辑
1. 遍历当前项目 / 批次所有资料
2. 汇总文件名、章节点、页数、状态
3. 识别目录类文档与普通文档
4. 输出目录总表
1. 接收 Documents 模块提供的资料包、批量文件或压缩包解包结果
2. 遍历当前项目 / 批次所有资料
3. 保留原始相对路径、文件名、文件类型、页数、页数可信度和处理状态
4. 识别目录类文档与普通文档
5. 识别章节点、资料名称和是否命中法规目录项。
6. 输出目录总表。
### 输出要求
@@ -105,6 +107,7 @@
- 文件清单
- 文件数量
- 总页数
- 页数统计可信度
- 已识别章节点
- 待确认文档
@@ -123,6 +126,8 @@
- 题面中提及的 NMPA / CMDE 法规来源
- `关于公布体外诊断试剂注册申报资料要求和批准证明文件格式的公告` 附件包
V1 默认以 `docs/原始材料/关于公布体外诊断试剂注册申报资料要求和批准证明文件格式的公告/` 下的公告附件包作为主规则源。NMPA / CMDE 官网链接用于说明法规来源和后续在线更新方向,不作为当前演示时的唯一实时依赖。
结合新增公告附件包,法规规则来源建议分层管理:
1. 注册申报资料要求及说明
@@ -241,6 +246,8 @@
- 新的 Word 文档生成与导出能力
- 基于模板库的高保真版式回填能力
当前题面只说明“自动填写至目标文件”但未明确目标文件是哪一类表格。结合现有材料V1 默认先把 `目标产品说明书` 中抽取的产品名称、检测靶标、适用范围、储存条件、性能指标等字段写入统一字段池,并输出申请表 / 对照清单方向的回填预览。目标模板一旦确认,再通过模板库字段映射生成具体 Word 文件。
### 处理逻辑
1. 根据目标模板定义字段映射。
@@ -441,19 +448,22 @@ LLM 负责把这些动作组织成自然语言建议,但不能改变底层规
建议工具方向包括:
1. 文档页数统计工具
2. 章节点识别工具
3. 必交项检查工具
4. 字段抽取工具
5. 字段一致性比对工具
6. 风险汇总工具
7. 审核范围确认工具
8. 法规流程识别工具
9. 格式模板映射工具
10. Word 模板回填与导出工具
11. 飞书消息摘要生成与通知载荷组装工具
12. 责任人映射解析工具
13. 规则切片与结构化回写工具
1. 资料包扫描工具
2. `zip` / `rar` / `7z` 压缩包解包工具
3. 文档页数统计工具
4. 章节点识别工具
5. 必交项检查工具
6. 字段抽取工具
7. 字段一致性比对工具
8. 文档结构规范检查工具
9. 风险汇总工具
10. 审核范围确认工具
11. 法规流程识别工具
12. 格式模板映射工具
13. Word 模板回填与导出工具
14. 飞书消息摘要生成与通知载荷组装工具
15. 责任人映射解析工具
16. 规则切片与结构化回写工具
这些工具都应通过 Tool Registry 注册,符合项目既有边界要求。

View File

@@ -32,6 +32,7 @@
7. 法规知识按“章 -> 条 -> 要求项 -> 模板字段”四级结构维护。
8. 飞书接入属于本次 Demo 范围,需要支持群聊机器人,并在飞书内完成任务选择、结果查看和责任人通知。
9. 系统需要提供后台管理页面,支持人工校订、知识库更新、模板管理和责任人维护。
10. 资料导入应按资料包处理,首版支持批量文件和压缩包,压缩包建议覆盖 `zip``rar``7z`
---
@@ -158,6 +159,30 @@
- 决定一致性冲突是“核心演示点”还是“样本噪声”。
### Q6-1 资料包导入需要支持哪些输入形式?
建议提问方式:
> 资料一般会以什么形式交给系统?是直接选择一个文件夹、批量选择多个文件,还是上传一个压缩包?
建议引导业务按下列类型回答:
1. 批量文件
2. 文件夹
3. zip 压缩包
4. rar 压缩包
5. 7z 压缩包
建议记录答案:
- 必须支持:
- 可后续支持:
- 是否需要保留压缩包内原始目录:
为什么要问:
- 决定 Documents 模块的上传、解包、目录还原和异常提示实现。
---
## 4.3 自动审核与人工复核边界