docs(requirements): 补充飞书接入与法规规则源口径

This commit is contained in:
2026-06-02 23:49:25 +08:00
parent 59d522be0c
commit dc4c605723
8 changed files with 409 additions and 82 deletions

View File

@@ -57,7 +57,6 @@
对以下事项由 LLM 作为辅助:
- 长段文本中的字段归纳
- 语义等价判断
- 风险说明文案生成
- 处理建议生成
- 无法通过简单规则覆盖的异常解释
@@ -66,6 +65,14 @@
用于在文档较长、规则或用户问题较细时,从已入库资料中定位证据片段,为回答和审计提供支撑。
对本题而言RAG 不仅要覆盖业务申报资料,也要覆盖公告附件包等法规原文资料。但它的职责应限定为:
1. 为规则判断提供证据定位。
2. 为结果解释提供法规引用。
3. 为审计留痕提供可追溯片段。
不能把 RAG 检索命中的段落直接等同于最终合规判断。
### 4.5 结构化输出
将每类任务输出为明确 schema而不是一段随意文本。
@@ -114,6 +121,16 @@
- `附件 4 体外诊断试剂注册申报资料要求及说明`
- `CH1.2 监管信息目录`
- 题面中提及的 NMPA / CMDE 法规来源
- `关于公布体外诊断试剂注册申报资料要求和批准证明文件格式的公告` 附件包
结合新增公告附件包,法规规则来源建议分层管理:
1. 注册申报资料要求及说明
2. 医疗器械注册申报资料和批准证明文件格式要求(体外诊断试剂)
3. 体外诊断试剂安全和性能基本原则清单
4. 中华人民共和国医疗器械注册证(体外诊断试剂)格式
5. 变更备案 / 变更注册申报资料要求及说明
6. 延续注册申报资料要求及说明
### 处理逻辑
@@ -135,6 +152,12 @@
- 目录中声明有但实际文件找不到
- 文件存在但内容不符合该章节点用途
此外,还需要区分:
- 资料要求缺失
- 文件格式要求不满足
- 安全和性能基本原则映射不完整
### 输出要求
- 命中项列表
@@ -171,6 +194,8 @@
- 标准清单
- 申报日期
考虑到系统目标是“通用的试剂盒临床注册文件准备与审核智能体”,字段 schema 应优先沉淀通用注册字段,而不是只对某一具体产品定制。
### 字段来源优先级
需要明确来源优先级,例如:
@@ -208,11 +233,12 @@
### 首版建议范围
首版不必以“完整保真写回 Word 模板”为核心验收,而可以先实现
首版可以分阶段建设,但目标应明确指向
- 申请表字段回填数据集
- 对照清单字段回填数据集
- 页面可视化回填预览
- 新的 Word 文档生成与导出能力
### 处理逻辑
@@ -223,7 +249,16 @@
### 后续扩展
如需求方确认需要真实文档导出,再增加 Word 模板写回。
Word 输出阶段建议逐步增强为:
1. 字段映射与预览
2. 模板占位写回
3. 尽量保留原始样式、表格和版式的高保真导出
结合新增公告附件包中的批准证明文件格式材料,回填能力的后续扩展方向应进一步明确为:
1. 按注册证 / 批准证明文件格式模板生成字段映射。
2. 按不同法规流程类型切换不同输出模板。
## 5.5 一致性核查能力
@@ -241,13 +276,16 @@
- 分类编码
- 申报产品名称对应的章节点标题
### 语义一致字段
结合最新确认,当前阶段不采用“语义一致即可通过”的宽松规则。对于被纳入同一审核范围的相同字段,默认按完全一致处理;如出现措辞差异,也应先判为冲突或待复核。
可按语义一致或近似一致处理的字段包括:
### 审核范围前置规则
- 预期用途 / 适用范围
- 储存条件描述
- 适用样本类型
一致性核查前必须先明确:
1. 哪些文档属于同一项目 / 批次 / 审核范围。
2. 哪些文档只是通用样本材料,不能直接混入同一轮一致性比对。
因此,一致性核查链路应包含“审核范围确认”这一步,而不是直接对全部文档做全量比较。
### 结构核查
@@ -262,8 +300,8 @@
根据当前样例,系统应能识别:
- 说明书产品是“2019-nCoV”,申请表和产品列表是“呼吸道合胞病毒、肺炎支原体”。
- 这类冲突应被直接标记为高风险或至少中高风险
- 若这些文档被划入同一审核范围,则“2019-nCoV”“呼吸道合胞病毒、肺炎支原体”构成明确冲突
- 若这些文档本身被认定属于不同资料组,则系统应提示“存在跨产品样例混入,不应直接合并审核”
### 输出要求
@@ -287,6 +325,7 @@
- 章节不规范风险
- 历史申报事项风险
- 资料真实性 / 版本一致性风险
- 法规适用情形错误风险
### 风险分级建议
@@ -295,7 +334,24 @@
- 高风险
- 中风险
- 低风险
- 待人工确认
另行保留“待人工复核”状态,但它不是风险等级,而是处理状态。
### 风险准入规则
风险判定应采用综合分析机制,对至少以下维度分别评分:
1. 法规完整性
2. 跨文档字段一致性
3. 文档结构与章节规范性
4. 历史事项与版本风险
5. 法规流程适用性风险
综合规则如下:
1. 任一维度出现高风险项,则本次审核直接判定为不通过。
2. 无高风险但存在多个中风险项时,应给出“待整改后复核”的建议。
3. 低风险项可进入整改建议清单,但不单独阻断。
### 处理建议生成逻辑
@@ -334,6 +390,12 @@ LLM 负责把这些动作组织成自然语言建议,但不能改变底层规
- 当前资料是否命中
- 缺失是否构成高风险
这里应进一步拆为三个子层:
1. 资料要求层完整性规则
2. 结构目录层完整性规则
3. 格式模板层完整性规则
### 7.2 抽取规则
用于:
@@ -342,17 +404,31 @@ LLM 负责把这些动作组织成自然语言建议,但不能改变底层规
- 表格字段映射
- 固定格式声明提取
对于法规资料本身,还应支持抽取:
- 附件编号
- 法规流程类型
- 适用范围说明
- 批准证明文件格式字段
### 7.3 一致性规则
用于定义:
- 哪些字段必须完全一致
- 哪些字段允许近似匹配
- 如何判断冲突严重度
- 如何在执行前确认审核范围
### 7.4 风险映射规则
用于把缺失、冲突、不确定结果映射为风险级别和处理建议。
用于把缺失、冲突、不确定结果映射为风险级别、综合得分、是否通过和处理建议。
新增公告材料后,风险映射还应能够体现“适用情形错误”的风险,例如:
1. 把变更备案规则误用于首次注册申报
2. 把延续注册格式误用于注册申报输出
同时,若系统生成 Word 输出失败、模板字段无法落位或导出格式破坏严重,也应形成独立的交付风险提示。
## 8. 工具体系需求
@@ -366,6 +442,11 @@ LLM 负责把这些动作组织成自然语言建议,但不能改变底层规
4. 字段抽取工具
5. 字段一致性比对工具
6. 风险汇总工具
7. 审核范围确认工具
8. 法规流程识别工具
9. 格式模板映射工具
10. Word 模板回填与导出工具
11. 飞书消息摘要生成与通知载荷组装工具
这些工具都应通过 Tool Registry 注册,符合项目既有边界要求。
@@ -431,6 +512,8 @@ Audit 负责记录过程和结果Agent Core 负责产出可记录的结构化
3. 增加统一字段池。
4. 增加一致性核查与风险汇总工具。
5. 将“回填准备结果”纳入正式输出结构。
6. 增加“是否通过”和“风险评分明细”输出字段。
7. 增加法规分层规则管理,以及注册申报 / 变更 / 延续三类流程的扩展边界。
## 13. 验收标准
@@ -441,3 +524,4 @@ Audit 负责记录过程和结果Agent Core 负责产出可记录的结构化
3. 规则和模型分工清晰,法规判断不完全依赖大模型生成。
4. 输出能关联到具体文档和证据片段。
5. 测试环境下可以通过 Mock Provider 验证主要编排逻辑。
6. 法规原文可切片入 RAG但最终完整性与准入判断仍由规则链路主导。