diff --git a/README.md b/README.md index 1a1bfcb..d7184ac 100644 --- a/README.md +++ b/README.md @@ -32,8 +32,9 @@ V1 采用: 2. 汇总文件目录与页数。 3. 对照法规要求检查完整性。 4. 抽取产品关键信息。 -5. 核查跨文档一致性。 -6. 输出风险预警与处理建议。 +5. 自动填入注册申报表格或对照清单。 +6. 核查跨文档一致性。 +7. 输出风险预警与处理建议。 ## 模块划分 @@ -100,7 +101,7 @@ V1 需要完成: - 文档解析与入库。 - 目录与页数汇总。 - 法规完整性检查。 -- 关键信息抽取与回填预览。 +- 关键信息抽取与注册申报表格 / 对照清单自动回填。 - 一致性核查。 - 风险预警与审计日志。 - 模型 API 可配置。 diff --git a/docs/设计文档/1.注册资料审核Agent设计思路.md b/docs/设计文档/1.注册资料审核Agent设计思路.md index c8c7c3b..aa1dc5e 100644 --- a/docs/设计文档/1.注册资料审核Agent设计思路.md +++ b/docs/设计文档/1.注册资料审核Agent设计思路.md @@ -128,12 +128,12 @@ V1 规则建议拆成三层: | conflict_status | 一致、冲突、待确认 | | fillable | 是否可回填 | -回填目标当前仍需确认。默认建议按两步走: +回填目标已确认。V1 应按两步走: -1. V1 先输出结构化回填表和回填预览,覆盖注册申报表格或法规对照清单字段。 -2. 后续基于 Word 模板库生成可导出的目标文件。 +1. 先输出结构化回填表,并自动填入注册申报表格或法规对照清单字段。 +2. 基于 Word 模板库生成可导出的目标文件。 -如果业务方确认“目标文件”就是某个指定申报表或对照清单,应在模板库中建立字段映射,而不是把回填逻辑写死在 Prompt 中。 +注册申报表格和对照清单都应在模板库中建立字段映射,而不是把回填逻辑写死在 Prompt 中。 ### 3.4 文档结构、信息一致性与章节规范性核查 @@ -204,7 +204,8 @@ V1 规则建议拆成三层: -> 字段抽取与统一字段池 -> 一致性核查 -> 风险汇总 - -> 回填预览 / Word 生成 + -> 申报表格 / 对照清单自动回填 + -> Word 生成 -> 审计记录与责任人通知 ``` @@ -246,7 +247,7 @@ Agent Core 后续应注册以下工具: 7. `compare_field_consistency`:执行字段一致性比对。 8. `check_document_structure`:检查章节和必检项目。 9. `build_risk_alerts`:汇总风险和处理建议。 -10. `build_fill_preview`:生成回填预览。 +10. `build_fill_outputs`:生成注册申报表格或对照清单回填结果。 11. `render_word_template`:按模板生成 Word 文件。 12. `build_owner_notification`:生成责任人通知载荷。 @@ -312,7 +313,7 @@ Audit 需要记录: 5. 从目标产品说明书抽取产品名称、靶标、适用范围、储存条件、性能指标。 6. 对说明书、申请表、产品列表做字段一致性核查。 7. 输出综合风险报告和处理建议。 -8. 回填预览和 Word 模板导出。 +8. 注册申报表格 / 对照清单自动回填和 Word 模板导出。 9. 责任人通知载荷与飞书机器人演示。 ## 7. 已确认约束与剩余待确认事项 @@ -327,7 +328,7 @@ Audit 需要记录: 剩余待确认事项: -1. “目标文件”具体是注册申请表、对照清单,还是另一个业务方指定模板。 +1. 后续如业务方另行提供专用 Word 模板,需要确认模板版本、生效范围和字段映射审批机制。 ## 8. 结论 diff --git a/docs/需求分析/0.需求重构总览与待确认事项.md b/docs/需求分析/0.需求重构总览与待确认事项.md index 26c28d4..adf1593 100644 --- a/docs/需求分析/0.需求重构总览与待确认事项.md +++ b/docs/需求分析/0.需求重构总览与待确认事项.md @@ -19,7 +19,7 @@ 1. 导入申报资料包,支持批量文件、文件夹和压缩包形式,形成资料目录、文件清单、页数统计和章节点归属。 2. 基于法规要求和申报目录模板,判断资料是否齐全、是否放对位置、是否缺少关键附件。 3. 从说明书、申请表、产品列表、声明文件等材料中提取关键信息,形成统一字段池。 -4. 利用统一字段池回填申请表、对照清单、章节目录或其他待生成文件。 +4. 利用统一字段池自动填入注册申报表格或法规对照清单。 5. 对跨文档的名称、规格、适用范围、靶标、机构、日期、标准清单等信息做一致性检查。 6. 输出可讲解、可演示、可追踪的风险预警和处理建议。 @@ -108,7 +108,7 @@ ### 5.4 本题不仅需要审核,还需要回填与生成 -题面第三项写得很明确:从产品文件中提取关键信息并自动填写至目标文件。因此系统不是只出一份报告,还要支持“结构化字段输出 + 对目标文件字段回填”。 +题面第三项写得很明确:从产品文件中提取关键信息并自动填写至目标文件。当前已确认回填目标为“注册申报表格或对照清单”,因此系统不是只出一份报告,还要支持“结构化字段输出 + 申报表格 / 对照清单自动回填”。 ### 5.5 本题存在历史申报与监管沟通情境 @@ -179,6 +179,7 @@ - 压缩包内多层目录按原目录结构作为章节点识别依据。 - `rar`、`7z` 解压必须采用纯 Python 实现,允许增加第三方依赖包。 - 责任人先通过后台或配置文件手动维护,按资料章节配置责任人。 +- 系统需要自动提取产品名称、检测靶标、适用范围、储存条件、性能指标等核心信息,并自动填入注册申报表格或对照清单。 ### 7.6 输出文档形式 @@ -232,7 +233,7 @@ 2. 用户新写模板进入模板库后,模板版本、生效范围和审批流程是否需要管理。 3. 责任人配置首版按资料章节手动维护,后续再扩展按任务类型、项目角色双维度维护。 4. 后端知识库更新入口是否只允许管理员使用,还是允许业务审核人员参与人工校订。 -5. “自动填写至目标文件”的目标文件具体是注册申请表、法规对照清单、章节目录,还是业务方另行提供的 Word 模板。 +5. 后续如业务方另行提供专用 Word 模板,需要确认模板版本、生效范围和字段映射审批机制。 ## 9. 本轮需求分析采用的默认假设 @@ -255,6 +256,7 @@ 15. `rar`、`7z` 解压必须纯 Python 实现,允许增加第三方依赖包。 16. 责任人首版按资料章节手动配置。 17. 第 2 至第 6 章首版不补充企业样本,按公告附件包做规则级初步确认。 +18. 产品核心信息抽取后必须自动填入注册申报表格或对照清单。 ## 10. 结论 diff --git a/docs/需求分析/1.V1总需求文档.md b/docs/需求分析/1.V1总需求文档.md index b992f7d..fa6f404 100644 --- a/docs/需求分析/1.V1总需求文档.md +++ b/docs/需求分析/1.V1总需求文档.md @@ -19,7 +19,7 @@ 1. 自动汇总注册资料目录与页数。 2. 对照法规要求检查资料完整性。 3. 抽取产品关键信息并形成统一字段池。 -4. 支持目标文件字段回填准备。 +4. 支持将产品核心信息自动填入注册申报表格或对照清单。 5. 核查跨文档信息一致性与章节规范性。 6. 输出合规风险预警和处理建议。 @@ -73,7 +73,7 @@ V1 聚焦“可运行、可讲解、可演示”的注册资料审核闭环, 4. 首版需要支持飞书内完成任务选择、结果查看和责任人通知,并支持群聊机器人入口及手动维护责任人 / 飞书账号映射。 5. 首版法规任务边界以“注册申报”主流程为核心,变更备案和延续注册暂作为规则扩展方向。 6. DOCX 页数必须精确统计,不能以估算页数作为 V1 验收结果;DOC 如受格式限制无法精确统计,应标记为待复核。 -7. 回填目标文件在业务未最终确认前,先以结构化回填字段表和模板回填预览作为交付口径。 +7. 回填目标已确认为注册申报表格或对照清单,首版应输出结构化回填结果,并支持按模板生成 Word 文件。 ## 5. 业务闭环 @@ -83,8 +83,9 @@ V1 聚焦“可运行、可讲解、可演示”的注册资料审核闭环, 2. 识别文档、统计页数、构建目录。 3. 依据法规目录进行完整性核查。 4. 从说明书、申请表、产品列表等材料中抽取统一字段。 -5. 对同名字段进行跨文档一致性比对。 -6. 形成风险清单、回填结果和审计记录。 +5. 将产品名称、检测靶标、适用范围、储存条件、性能指标等核心信息自动填入注册申报表格或对照清单。 +6. 对同名字段进行跨文档一致性比对。 +7. 形成风险清单、回填结果和审计记录。 在规则执行层,建议采用“双层知识底座”: diff --git a/docs/需求分析/2.scenarios模块需求分析.md b/docs/需求分析/2.scenarios模块需求分析.md index 13642e3..1ecca7c 100644 --- a/docs/需求分析/2.scenarios模块需求分析.md +++ b/docs/需求分析/2.scenarios模块需求分析.md @@ -40,7 +40,7 @@ 法规完整性核查助手 3. `registration_field_extraction` - 产品关键信息抽取助手 + 产品关键信息抽取与回填助手 4. `registration_consistency_review` 跨文档一致性核查助手 @@ -168,12 +168,15 @@ - 从说明书、申请表、产品列表等材料提取产品名称、靶标、适用范围、规格、储存条件、性能信息等 - 形成统一字段池 +- 将产品名称、检测靶标、适用范围、储存条件、性能指标等核心信息自动填入注册申报表格或对照清单 配置上需要指定: - 目标字段 schema - 字段来源优先级 - 是否允许 LLM 兜底抽取 +- 注册申报表格 / 对照清单的字段映射关系 +- 是否生成 Word 输出和导出入口 ### 7.4 一致性核查任务 @@ -290,6 +293,7 @@ configs/registration/ 2. 每个任务的输入前提、输出类型和所依赖规则清晰可见。 3. 任务配置变更主要通过 YAML 完成,不需要频繁改 Python 代码。 4. 至少能清楚区分“目录汇总、完整性检查、字段抽取、一致性核查、风险预警”五类任务。 +5. 字段抽取任务必须能表达“抽取核心信息并自动填入注册申报表格或对照清单”的输出目标。 ## 12. 当前代码基线下的重构建议 diff --git a/docs/需求分析/4.chat模块需求分析.md b/docs/需求分析/4.chat模块需求分析.md index d013d32..f3a8341 100644 --- a/docs/需求分析/4.chat模块需求分析.md +++ b/docs/需求分析/4.chat模块需求分析.md @@ -75,14 +75,15 @@ 用户输入类似: -- “从说明书和产品列表抽取产品名称、规格、靶标、适用范围、储存条件” +- “从说明书和产品列表抽取产品名称、检测靶标、适用范围、储存条件、性能指标,并填入申报表或对照清单” 系统返回: - 统一字段表 - 字段来源文档 - 置信度或待确认状态 -- 可回填目标字段 +- 注册申报表格或对照清单的回填结果 +- 字段冲突时的拦截提示 ### 5.3 发起一致性核查 @@ -144,7 +145,7 @@ - “汇总当前资料目录及页数” - “检查 CH1 监管信息是否齐套” -- “抽取说明书中的核心产品信息” +- “抽取说明书中的核心产品信息并填入对照清单” - “检查说明书与申请表是否一致” 这样能降低演示时的自由输入风险。 @@ -194,10 +195,11 @@ - 展示字段值 - 展示来源文档 - 展示是否存在冲突 +- 展示已填入的注册申报表格或对照清单字段 - 展示是否已生成新的 Word 文档 - 展示导出入口 -输出结果不仅要展示回填数据,还应明确展示“已按模板生成可直接报送版 Word”及其导出入口。 +输出结果不仅要展示回填数据,还应明确展示“已自动填入注册申报表格 / 对照清单”“已按模板生成可直接报送版 Word”及其导出入口。 ### 7.5 飞书端结果展示 diff --git a/docs/需求分析/6.agent_core模块需求分析.md b/docs/需求分析/6.agent_core模块需求分析.md index 57c80e1..67e7b69 100644 --- a/docs/需求分析/6.agent_core模块需求分析.md +++ b/docs/需求分析/6.agent_core模块需求分析.md @@ -12,7 +12,7 @@ 本模块需要完成以下目标: -1. 基于题面要求完成文件目录汇总、完整性核查、字段抽取、回填准备、一致性检查和风险预警。 +1. 基于题面要求完成文件目录汇总、完整性核查、字段抽取、自动回填、一致性检查和风险预警。 2. 形成规则优先、模型辅助的审核框架,而不是完全依赖自由生成。 3. 提供结构化、可追溯、可测试的输出。 4. 保持与 Django 页面层和数据层的边界清晰。 @@ -178,7 +178,7 @@ V1 默认以 `docs/原始材料/关于公布体外诊断试剂注册申报资料 ### 目标 -从产品文件中提取关键信息并自动填写到目标文件或结构化结果中。 +从产品文件中提取关键信息,并自动填写到注册申报表格或对照清单中。 ### 目标字段建议 @@ -231,13 +231,13 @@ V1 默认以 `docs/原始材料/关于公布体外诊断试剂注册申报资料 - 来源文档 - 来源片段 - 是否冲突 -- 是否可直接回填 +- 是否已填入注册申报表格或对照清单 -## 5.4 自动回填准备能力 +## 5.4 自动回填能力 ### 目标 -将抽取得到的信息填入目标文件或目标字段。 +将抽取得到的产品名称、检测靶标、适用范围、储存条件、性能指标等核心信息填入注册申报表格或对照清单。 ### 首版建议范围 @@ -245,18 +245,19 @@ V1 默认以 `docs/原始材料/关于公布体外诊断试剂注册申报资料 - 申请表字段回填数据集 - 对照清单字段回填数据集 -- 页面可视化回填预览 +- 页面可视化回填结果 - 新的 Word 文档生成与导出能力 - 基于模板库的高保真版式回填能力 -当前题面只说明“自动填写至目标文件”,但未明确目标文件是哪一类表格。结合现有材料,V1 默认先把 `目标产品说明书` 中抽取的产品名称、检测靶标、适用范围、储存条件、性能指标等字段写入统一字段池,并输出申请表 / 对照清单方向的回填预览。目标模板一旦确认,再通过模板库字段映射生成具体 Word 文件。 +当前已确认回填目标为注册申报表格或对照清单。V1 默认先把 `目标产品说明书` 中抽取的产品名称、检测靶标、适用范围、储存条件、性能指标等字段写入统一字段池,再按申请表 / 对照清单字段映射自动生成回填结果。若后续提供专用 Word 模板,则通过模板库字段映射生成具体 Word 文件。 ### 处理逻辑 1. 根据目标模板定义字段映射。 2. 从统一字段池读取值。 3. 对冲突字段进行拦截或提示。 -4. 生成回填预览结果。 +4. 写入注册申报表格或对照清单的目标字段。 +5. 生成回填结果、导出文件和审计记录。 ### 后续扩展 @@ -531,7 +532,7 @@ Audit 负责记录过程和结果;Agent Core 负责产出可记录的结构化 2. 增加法规完整性规则和目录模板匹配逻辑。 3. 增加统一字段池。 4. 增加一致性核查与风险汇总工具。 -5. 将“回填准备结果”纳入正式输出结构。 +5. 将“注册申报表格 / 对照清单回填结果”纳入正式输出结构。 6. 增加“是否通过”和“风险评分明细”输出字段。 7. 增加法规分层规则管理,以及注册申报 / 变更 / 延续三类流程的扩展边界。 8. 增加模板库驱动的高保真 Word 生成链路。