docs(requirements): 明确核心信息自动回填目标

This commit is contained in:
zhiye.sun
2026-06-03 14:13:53 +08:00
parent 56a332a7dd
commit 11c20593d5
7 changed files with 44 additions and 32 deletions

View File

@@ -32,8 +32,9 @@ V1 采用:
2. 汇总文件目录与页数。 2. 汇总文件目录与页数。
3. 对照法规要求检查完整性。 3. 对照法规要求检查完整性。
4. 抽取产品关键信息。 4. 抽取产品关键信息。
5. 核查跨文档一致性 5. 自动填入注册申报表格或对照清单
6. 输出风险预警与处理建议 6. 核查跨文档一致性
7. 输出风险预警与处理建议。
## 模块划分 ## 模块划分
@@ -100,7 +101,7 @@ V1 需要完成:
- 文档解析与入库。 - 文档解析与入库。
- 目录与页数汇总。 - 目录与页数汇总。
- 法规完整性检查。 - 法规完整性检查。
- 关键信息抽取与回填预览 - 关键信息抽取与注册申报表格 / 对照清单自动回填。
- 一致性核查。 - 一致性核查。
- 风险预警与审计日志。 - 风险预警与审计日志。
- 模型 API 可配置。 - 模型 API 可配置。

View File

@@ -128,12 +128,12 @@ V1 规则建议拆成三层:
| conflict_status | 一致、冲突、待确认 | | conflict_status | 一致、冲突、待确认 |
| fillable | 是否可回填 | | fillable | 是否可回填 |
回填目标当前仍需确认。默认建议按两步走: 回填目标已确认。V1 应按两步走:
1. V1 先输出结构化回填表和回填预览,覆盖注册申报表格或法规对照清单字段。 1. 先输出结构化回填表,并自动填入注册申报表格或法规对照清单字段。
2. 后续基于 Word 模板库生成可导出的目标文件。 2. 基于 Word 模板库生成可导出的目标文件。
如果业务方确认“目标文件”就是某个指定申报表对照清单应在模板库中建立字段映射,而不是把回填逻辑写死在 Prompt 中。 注册申报表格和对照清单应在模板库中建立字段映射,而不是把回填逻辑写死在 Prompt 中。
### 3.4 文档结构、信息一致性与章节规范性核查 ### 3.4 文档结构、信息一致性与章节规范性核查
@@ -204,7 +204,8 @@ V1 规则建议拆成三层:
-> 字段抽取与统一字段池 -> 字段抽取与统一字段池
-> 一致性核查 -> 一致性核查
-> 风险汇总 -> 风险汇总
-> 回填预览 / Word 生成 -> 申报表格 / 对照清单自动回填
-> Word 生成
-> 审计记录与责任人通知 -> 审计记录与责任人通知
``` ```
@@ -246,7 +247,7 @@ Agent Core 后续应注册以下工具:
7. `compare_field_consistency`:执行字段一致性比对。 7. `compare_field_consistency`:执行字段一致性比对。
8. `check_document_structure`:检查章节和必检项目。 8. `check_document_structure`:检查章节和必检项目。
9. `build_risk_alerts`:汇总风险和处理建议。 9. `build_risk_alerts`:汇总风险和处理建议。
10. `build_fill_preview`:生成回填预览 10. `build_fill_outputs`:生成注册申报表格或对照清单回填结果
11. `render_word_template`:按模板生成 Word 文件。 11. `render_word_template`:按模板生成 Word 文件。
12. `build_owner_notification`:生成责任人通知载荷。 12. `build_owner_notification`:生成责任人通知载荷。
@@ -312,7 +313,7 @@ Audit 需要记录:
5. 从目标产品说明书抽取产品名称、靶标、适用范围、储存条件、性能指标。 5. 从目标产品说明书抽取产品名称、靶标、适用范围、储存条件、性能指标。
6. 对说明书、申请表、产品列表做字段一致性核查。 6. 对说明书、申请表、产品列表做字段一致性核查。
7. 输出综合风险报告和处理建议。 7. 输出综合风险报告和处理建议。
8. 回填预览和 Word 模板导出。 8. 注册申报表格 / 对照清单自动回填和 Word 模板导出。
9. 责任人通知载荷与飞书机器人演示。 9. 责任人通知载荷与飞书机器人演示。
## 7. 已确认约束与剩余待确认事项 ## 7. 已确认约束与剩余待确认事项
@@ -327,7 +328,7 @@ Audit 需要记录:
剩余待确认事项: 剩余待确认事项:
1. “目标文件”具体是注册申请表、对照清单,还是另一个业务方指定模板 1. 后续如业务方另行提供专用 Word 模板,需要确认模板版本、生效范围和字段映射审批机制
## 8. 结论 ## 8. 结论

View File

@@ -19,7 +19,7 @@
1. 导入申报资料包,支持批量文件、文件夹和压缩包形式,形成资料目录、文件清单、页数统计和章节点归属。 1. 导入申报资料包,支持批量文件、文件夹和压缩包形式,形成资料目录、文件清单、页数统计和章节点归属。
2. 基于法规要求和申报目录模板,判断资料是否齐全、是否放对位置、是否缺少关键附件。 2. 基于法规要求和申报目录模板,判断资料是否齐全、是否放对位置、是否缺少关键附件。
3. 从说明书、申请表、产品列表、声明文件等材料中提取关键信息,形成统一字段池。 3. 从说明书、申请表、产品列表、声明文件等材料中提取关键信息,形成统一字段池。
4. 利用统一字段池回填申请表、对照清单、章节目录或其他待生成文件 4. 利用统一字段池自动填入注册申报表格或法规对照清单
5. 对跨文档的名称、规格、适用范围、靶标、机构、日期、标准清单等信息做一致性检查。 5. 对跨文档的名称、规格、适用范围、靶标、机构、日期、标准清单等信息做一致性检查。
6. 输出可讲解、可演示、可追踪的风险预警和处理建议。 6. 输出可讲解、可演示、可追踪的风险预警和处理建议。
@@ -108,7 +108,7 @@
### 5.4 本题不仅需要审核,还需要回填与生成 ### 5.4 本题不仅需要审核,还需要回填与生成
题面第三项写得很明确:从产品文件中提取关键信息并自动填写至目标文件。因此系统不是只出一份报告,还要支持“结构化字段输出 + 对目标文件字段回填”。 题面第三项写得很明确:从产品文件中提取关键信息并自动填写至目标文件。当前已确认回填目标为“注册申报表格或对照清单”,因此系统不是只出一份报告,还要支持“结构化字段输出 + 申报表格 / 对照清单自动回填”。
### 5.5 本题存在历史申报与监管沟通情境 ### 5.5 本题存在历史申报与监管沟通情境
@@ -179,6 +179,7 @@
- 压缩包内多层目录按原目录结构作为章节点识别依据。 - 压缩包内多层目录按原目录结构作为章节点识别依据。
- `rar``7z` 解压必须采用纯 Python 实现,允许增加第三方依赖包。 - `rar``7z` 解压必须采用纯 Python 实现,允许增加第三方依赖包。
- 责任人先通过后台或配置文件手动维护,按资料章节配置责任人。 - 责任人先通过后台或配置文件手动维护,按资料章节配置责任人。
- 系统需要自动提取产品名称、检测靶标、适用范围、储存条件、性能指标等核心信息,并自动填入注册申报表格或对照清单。
### 7.6 输出文档形式 ### 7.6 输出文档形式
@@ -232,7 +233,7 @@
2. 用户新写模板进入模板库后,模板版本、生效范围和审批流程是否需要管理。 2. 用户新写模板进入模板库后,模板版本、生效范围和审批流程是否需要管理。
3. 责任人配置首版按资料章节手动维护,后续再扩展按任务类型、项目角色双维度维护。 3. 责任人配置首版按资料章节手动维护,后续再扩展按任务类型、项目角色双维度维护。
4. 后端知识库更新入口是否只允许管理员使用,还是允许业务审核人员参与人工校订。 4. 后端知识库更新入口是否只允许管理员使用,还是允许业务审核人员参与人工校订。
5. “自动填写至目标文件”的目标文件具体是注册申请表、法规对照清单、章节目录,还是业务方另行提供 Word 模板。 5. 后续如业务方另行提供专用 Word 模板,需要确认模板版本、生效范围和字段映射审批机制
## 9. 本轮需求分析采用的默认假设 ## 9. 本轮需求分析采用的默认假设
@@ -255,6 +256,7 @@
15. `rar``7z` 解压必须纯 Python 实现,允许增加第三方依赖包。 15. `rar``7z` 解压必须纯 Python 实现,允许增加第三方依赖包。
16. 责任人首版按资料章节手动配置。 16. 责任人首版按资料章节手动配置。
17. 第 2 至第 6 章首版不补充企业样本,按公告附件包做规则级初步确认。 17. 第 2 至第 6 章首版不补充企业样本,按公告附件包做规则级初步确认。
18. 产品核心信息抽取后必须自动填入注册申报表格或对照清单。
## 10. 结论 ## 10. 结论

View File

@@ -19,7 +19,7 @@
1. 自动汇总注册资料目录与页数。 1. 自动汇总注册资料目录与页数。
2. 对照法规要求检查资料完整性。 2. 对照法规要求检查资料完整性。
3. 抽取产品关键信息并形成统一字段池。 3. 抽取产品关键信息并形成统一字段池。
4. 支持目标文件字段回填准备 4. 支持将产品核心信息自动填入注册申报表格或对照清单
5. 核查跨文档信息一致性与章节规范性。 5. 核查跨文档信息一致性与章节规范性。
6. 输出合规风险预警和处理建议。 6. 输出合规风险预警和处理建议。
@@ -73,7 +73,7 @@ V1 聚焦“可运行、可讲解、可演示”的注册资料审核闭环,
4. 首版需要支持飞书内完成任务选择、结果查看和责任人通知,并支持群聊机器人入口及手动维护责任人 / 飞书账号映射。 4. 首版需要支持飞书内完成任务选择、结果查看和责任人通知,并支持群聊机器人入口及手动维护责任人 / 飞书账号映射。
5. 首版法规任务边界以“注册申报”主流程为核心,变更备案和延续注册暂作为规则扩展方向。 5. 首版法规任务边界以“注册申报”主流程为核心,变更备案和延续注册暂作为规则扩展方向。
6. DOCX 页数必须精确统计,不能以估算页数作为 V1 验收结果DOC 如受格式限制无法精确统计,应标记为待复核。 6. DOCX 页数必须精确统计,不能以估算页数作为 V1 验收结果DOC 如受格式限制无法精确统计,应标记为待复核。
7. 回填目标文件在业务未最终确认前,先以结构化回填字段表和模板回填预览作为交付口径 7. 回填目标已确认为注册申报表格或对照清单,首版应输出结构化回填结果,并支持按模板生成 Word 文件
## 5. 业务闭环 ## 5. 业务闭环
@@ -83,8 +83,9 @@ V1 聚焦“可运行、可讲解、可演示”的注册资料审核闭环,
2. 识别文档、统计页数、构建目录。 2. 识别文档、统计页数、构建目录。
3. 依据法规目录进行完整性核查。 3. 依据法规目录进行完整性核查。
4. 从说明书、申请表、产品列表等材料中抽取统一字段。 4. 从说明书、申请表、产品列表等材料中抽取统一字段。
5. 对同名字段进行跨文档一致性比对 5. 将产品名称、检测靶标、适用范围、储存条件、性能指标等核心信息自动填入注册申报表格或对照清单
6. 形成风险清单、回填结果和审计记录 6. 对同名字段进行跨文档一致性比对
7. 形成风险清单、回填结果和审计记录。
在规则执行层,建议采用“双层知识底座”: 在规则执行层,建议采用“双层知识底座”:

View File

@@ -40,7 +40,7 @@
法规完整性核查助手 法规完整性核查助手
3. `registration_field_extraction` 3. `registration_field_extraction`
产品关键信息抽取助手 产品关键信息抽取与回填助手
4. `registration_consistency_review` 4. `registration_consistency_review`
跨文档一致性核查助手 跨文档一致性核查助手
@@ -168,12 +168,15 @@
- 从说明书、申请表、产品列表等材料提取产品名称、靶标、适用范围、规格、储存条件、性能信息等 - 从说明书、申请表、产品列表等材料提取产品名称、靶标、适用范围、规格、储存条件、性能信息等
- 形成统一字段池 - 形成统一字段池
- 将产品名称、检测靶标、适用范围、储存条件、性能指标等核心信息自动填入注册申报表格或对照清单
配置上需要指定: 配置上需要指定:
- 目标字段 schema - 目标字段 schema
- 字段来源优先级 - 字段来源优先级
- 是否允许 LLM 兜底抽取 - 是否允许 LLM 兜底抽取
- 注册申报表格 / 对照清单的字段映射关系
- 是否生成 Word 输出和导出入口
### 7.4 一致性核查任务 ### 7.4 一致性核查任务
@@ -290,6 +293,7 @@ configs/registration/
2. 每个任务的输入前提、输出类型和所依赖规则清晰可见。 2. 每个任务的输入前提、输出类型和所依赖规则清晰可见。
3. 任务配置变更主要通过 YAML 完成,不需要频繁改 Python 代码。 3. 任务配置变更主要通过 YAML 完成,不需要频繁改 Python 代码。
4. 至少能清楚区分“目录汇总、完整性检查、字段抽取、一致性核查、风险预警”五类任务。 4. 至少能清楚区分“目录汇总、完整性检查、字段抽取、一致性核查、风险预警”五类任务。
5. 字段抽取任务必须能表达“抽取核心信息并自动填入注册申报表格或对照清单”的输出目标。
## 12. 当前代码基线下的重构建议 ## 12. 当前代码基线下的重构建议

View File

@@ -75,14 +75,15 @@
用户输入类似: 用户输入类似:
- “从说明书和产品列表抽取产品名称、规格、靶标、适用范围、储存条件” - “从说明书和产品列表抽取产品名称、检测靶标、适用范围、储存条件、性能指标,并填入申报表或对照清单
系统返回: 系统返回:
- 统一字段表 - 统一字段表
- 字段来源文档 - 字段来源文档
- 置信度或待确认状态 - 置信度或待确认状态
- 可回填目标字段 - 注册申报表格或对照清单的回填结果
- 字段冲突时的拦截提示
### 5.3 发起一致性核查 ### 5.3 发起一致性核查
@@ -144,7 +145,7 @@
- “汇总当前资料目录及页数” - “汇总当前资料目录及页数”
- “检查 CH1 监管信息是否齐套” - “检查 CH1 监管信息是否齐套”
- “抽取说明书中的核心产品信息” - “抽取说明书中的核心产品信息并填入对照清单
- “检查说明书与申请表是否一致” - “检查说明书与申请表是否一致”
这样能降低演示时的自由输入风险。 这样能降低演示时的自由输入风险。
@@ -194,10 +195,11 @@
- 展示字段值 - 展示字段值
- 展示来源文档 - 展示来源文档
- 展示是否存在冲突 - 展示是否存在冲突
- 展示已填入的注册申报表格或对照清单字段
- 展示是否已生成新的 Word 文档 - 展示是否已生成新的 Word 文档
- 展示导出入口 - 展示导出入口
输出结果不仅要展示回填数据,还应明确展示“已按模板生成可直接报送版 Word”及其导出入口。 输出结果不仅要展示回填数据,还应明确展示“已自动填入注册申报表格 / 对照清单”“已按模板生成可直接报送版 Word”及其导出入口。
### 7.5 飞书端结果展示 ### 7.5 飞书端结果展示

View File

@@ -12,7 +12,7 @@
本模块需要完成以下目标: 本模块需要完成以下目标:
1. 基于题面要求完成文件目录汇总、完整性核查、字段抽取、回填准备、一致性检查和风险预警。 1. 基于题面要求完成文件目录汇总、完整性核查、字段抽取、自动回填、一致性检查和风险预警。
2. 形成规则优先、模型辅助的审核框架,而不是完全依赖自由生成。 2. 形成规则优先、模型辅助的审核框架,而不是完全依赖自由生成。
3. 提供结构化、可追溯、可测试的输出。 3. 提供结构化、可追溯、可测试的输出。
4. 保持与 Django 页面层和数据层的边界清晰。 4. 保持与 Django 页面层和数据层的边界清晰。
@@ -178,7 +178,7 @@ V1 默认以 `docs/原始材料/关于公布体外诊断试剂注册申报资料
### 目标 ### 目标
从产品文件中提取关键信息并自动填写到目标文件或结构化结果中。 从产品文件中提取关键信息并自动填写到注册申报表格或对照清单中。
### 目标字段建议 ### 目标字段建议
@@ -231,13 +231,13 @@ V1 默认以 `docs/原始材料/关于公布体外诊断试剂注册申报资料
- 来源文档 - 来源文档
- 来源片段 - 来源片段
- 是否冲突 - 是否冲突
- 是否可直接回填 - 是否已填入注册申报表格或对照清单
## 5.4 自动回填准备能力 ## 5.4 自动回填能力
### 目标 ### 目标
将抽取得到的信息填入目标文件或目标字段 将抽取得到的产品名称、检测靶标、适用范围、储存条件、性能指标等核心信息填入注册申报表格或对照清单
### 首版建议范围 ### 首版建议范围
@@ -245,18 +245,19 @@ V1 默认以 `docs/原始材料/关于公布体外诊断试剂注册申报资料
- 申请表字段回填数据集 - 申请表字段回填数据集
- 对照清单字段回填数据集 - 对照清单字段回填数据集
- 页面可视化回填预览 - 页面可视化回填结果
- 新的 Word 文档生成与导出能力 - 新的 Word 文档生成与导出能力
- 基于模板库的高保真版式回填能力 - 基于模板库的高保真版式回填能力
当前题面只说明“自动填写至目标文件”,但未明确目标文件是哪一类表格。结合现有材料,V1 默认先把 `目标产品说明书` 中抽取的产品名称、检测靶标、适用范围、储存条件、性能指标等字段写入统一字段池,并输出申请表 / 对照清单方向的回填预览。目标模板一旦确认,再通过模板库字段映射生成具体 Word 文件。 当前已确认回填目标为注册申报表格或对照清单。V1 默认先把 `目标产品说明书` 中抽取的产品名称、检测靶标、适用范围、储存条件、性能指标等字段写入统一字段池,再按申请表 / 对照清单字段映射自动生成回填结果。若后续提供专用 Word 模板,则通过模板库字段映射生成具体 Word 文件。
### 处理逻辑 ### 处理逻辑
1. 根据目标模板定义字段映射。 1. 根据目标模板定义字段映射。
2. 从统一字段池读取值。 2. 从统一字段池读取值。
3. 对冲突字段进行拦截或提示。 3. 对冲突字段进行拦截或提示。
4. 生成回填预览结果 4. 写入注册申报表格或对照清单的目标字段
5. 生成回填结果、导出文件和审计记录。
### 后续扩展 ### 后续扩展
@@ -531,7 +532,7 @@ Audit 负责记录过程和结果Agent Core 负责产出可记录的结构化
2. 增加法规完整性规则和目录模板匹配逻辑。 2. 增加法规完整性规则和目录模板匹配逻辑。
3. 增加统一字段池。 3. 增加统一字段池。
4. 增加一致性核查与风险汇总工具。 4. 增加一致性核查与风险汇总工具。
5. 将“回填准备结果”纳入正式输出结构。 5. 将“注册申报表格 / 对照清单回填结果”纳入正式输出结构。
6. 增加“是否通过”和“风险评分明细”输出字段。 6. 增加“是否通过”和“风险评分明细”输出字段。
7. 增加法规分层规则管理,以及注册申报 / 变更 / 延续三类流程的扩展边界。 7. 增加法规分层规则管理,以及注册申报 / 变更 / 延续三类流程的扩展边界。
8. 增加模板库驱动的高保真 Word 生成链路。 8. 增加模板库驱动的高保真 Word 生成链路。