Files
DEMO-AGENT/docs/1.需求分析/5.第1章监管信息材料包生成.md

20 KiB
Raw Blame History

第1章监管信息材料包生成需求分析

文档信息

项目 内容
原始输入 docs/0.原始材料/目标产品说明书.docx
样例模板 docs/0.原始材料/第1章 监管信息
法规材料 docs/0.原始材料/关于公布体外诊断试剂注册申报资料要求和批准证明文件格式的公告
功能主题 从产品说明书生成第1章监管信息材料包
工作流名称 第1章监管信息材料包生成
工作流编码 regulatory_info_package
批次号规则 RIP-YYYYMMDDHHMMSS-abcdef
分析日期 2026-06-10
分析版本 V1.0

一、需求背景

体外诊断试剂注册申报资料中第1章监管信息包含监管信息目录、申请表、产品列表、申报前沟通说明、符合标准清单、真实性声明和符合性声明等材料。注册人员通常需要根据产品说明书、企业信息和法规要求手工整理这些文件容易出现产品名称、包装规格、组成成分、预期用途等字段重复录入、漏填、格式不一致和待补信息不醒目的问题。

本需求新增独立工作流:用户上传或选择一个产品说明书后,系统以既有 第1章 监管信息 样例文件作为模板抽取说明书中的产品关键信息生成一套类似样例目录的第1章监管信息材料包。生成结果以 zip 压缩包作为主下载入口,同时保留单文件辅助下载。

该工作流可以复用现有自动填表工作流中已拆分出的字段抽取、LLM 调用、Word 写入、导出下载、批次事件和通知能力,但不并入 application_form_fill,而是作为独立工作流建设。


二、需求范围

2.1 本期范围

序号 范围项 说明
1 独立工作流 新增 regulatory_info_package,不复用 application_form_fill 的 workflow_type
2 单说明书输入 本期只支持一个产品说明书作为主输入
3 模板复用 docs/0.原始材料/第1章 监管信息 下的样例文件作为生成模板
4 固定输出文件 固定生成 7 个第1章监管信息文件
5 代码抽取与 LLM 抽取并行 规则/代码抽取与 LLM 结构化抽取并行处理,合并后写入模板
6 尽量多填 对说明书中可识别的产品名称、包装规格、预期用途、组成成分、储存条件、适用仪器、样本类型、检测靶标等字段尽量填入
7 缺失项标记 系统新填入的缺失项使用 /,并设置黄色底色提醒负责人补充
8 LLM-only 标记 代码抽取未取到但 LLM 抽取到的字段,也需要在输出文件中高亮提示人工复核
9 doc 能力增强 .doc 文档需要具备与 .docx 等价的原始处理能力,不能只依赖预转换作为唯一方案
10 zip 主输出 生成 第1章 监管信息(预生成版).zip 作为主下载入口,单文件作为辅助下载
11 对话唤起提示 在对话框底部增加本工作流的唤起提示词
12 LLM 意图判断 触发判断不能只依赖固定关键词,需要引入 LLM 判断用户是否要生成第1章监管信息材料包

2.2 非本期范围

序号 范围项 说明
1 多资料综合生成 本期不从产品技术要求、检验报告、企业证照等多文件综合生成
2 人工在线编辑 本期只生成文件并标记待确认项,不提供网页内字段编辑
3 自动保证法规最终准确 标准清单、分类编码、管理类别等无法从说明书确认的信息仍需负责人确认
4 自动提交监管系统 本期只生成申报材料包,不对接外部申报平台
5 版式人工校订替代 系统尽量保持模板版式,但最终提交前仍需人工核对

三、输入与触发

3.1 输入文件规则

场景 处理规则
用户上传一个 .docx 说明书 直接作为本次输入
用户上传多个文件 优先选择文件名包含“说明书”的 .docx
多个说明书候选 工作流进入待确认状态,提示用户选择
未找到说明书 提示用户上传产品说明书
.docx 说明书 本期可提示格式不支持,后续扩展 .doc、PDF 或 OCR

3.2 对话触发规则

固定提示词需要支持:

触发表达 触发结果
根据说明书生成第1章监管信息 启动第1章监管信息材料包生成
生成监管信息材料包 启动第1章监管信息材料包生成
从说明书生成第1章材料 启动第1章监管信息材料包生成

除固定表达外,系统需要引入 LLM 意图判断。当用户自然语言表达包含“根据说明书”“第1章”“监管信息”“材料包”“申请表/产品列表/声明”等意图组合时LLM 可判断为 regulatory_info_package。规则命中优先,规则未命中时再进入 LLM 路由,避免只靠固定模板。

3.3 对话框底部唤起提示

对话框底部快捷提示词新增:

根据说明书生成第1章监管信息

后续可追加:

生成监管信息材料包
从说明书生成第1章材料

四、输出文件范围

本期固定生成与样例目录一致的 7 个文件:

序号 输出文件 模板来源 生成规则
1 CH1.2 监管信息目录.docx 样例 CH1.2 监管信息目录.docx 替换产品名称,目录结构和页码沿用样例
2 CH1.4 申请表.docx 样例 CH1.4 申请表.docx 尽量填入说明书字段,未知项填 / 并黄底
3 CH1.5 产品列表.docx 样例 CH1.5 产品列表.docx 按样例表头重建产品列表,货号留空并黄底
4 CH1.9 产品申报前沟通的说明.doc 样例 CH1.9 产品申报前沟通的说明.doc .doc 应支持与 .docx 等价替换能力
5 CH1.11.1 符合标准的清单.docx 样例 CH1.11.1 符合标准的清单.docx 从说明书和 RAG/法规知识库提取或推荐标准,非明确项需高亮待确认
6 CH1.11.5 真实性声明.docx 样例 CH1.11.5 真实性声明.docx 保留样例正文结构,替换产品名称,公司名位置黄底 /
7 CH1.11.6 符合性声明.docx 样例 CH1.11.6 符合性声明.docx 保留样例正文结构,替换产品名称,公司名位置黄底 /

4.1 下载形态

输出类型 要求
zip 主入口 生成 第1章 监管信息(预生成版).zip,只包含成功或兜底成功的文件
单文件下载 每个生成文件均可作为辅助下载项展示
追溯清单 建议生成 JSON/Excel记录字段来源、抽取方式、高亮原因和待确认项

五、字段抽取与填写规则

5.1 抽取字段范围

系统应从说明书中尽量抽取以下字段:

字段 示例来源
产品名称 【产品名称】
包装规格 【包装规格】
预期用途 【预期用途】
检测原理/方法原理 【检测原理】
主要组成成分 【主要组成成分】 及其下方表格
储存条件及有效期 【储存条件及有效期】
样本类型 【样本要求】 中的适用样本类型
检测靶标 预期用途或检测原理中的基因、病原体、抗原、抗体等
适用仪器 【适用仪器】
检验方法 【检验方法】
生产日期和使用期限描述 储存条件章节

字段抽取采用规则/代码抽取与 LLM 结构化抽取并行模式:

读取说明书
-> 规则/代码抽取
-> LLM 结构化抽取
-> 字段合并
-> 标记字段来源和置信度
-> 写入模板

5.2 合并与高亮规则

场景 处理规则
代码抽取和 LLM 都命中且结果一致 正常写入,不强制高亮
代码抽取和 LLM 都命中但结果不一致 优先按规则配置选择,写入值高亮并进入追溯清单
代码抽取未命中LLM 命中 写入 LLM 值,并高亮提示人工复核
代码抽取命中LLM 未命中 正常写入,追溯记录代码抽取来源
两者均未命中 写入 / 并设置黄色底色
企业信息缺失 写入 / 并设置黄色底色

高亮含义:

高亮类型 视觉要求 含义
缺失项高亮 黄色底色 说明书无法提供,负责人需填写
LLM-only 高亮 黄色底色,可在追溯清单标记 llm_only 代码未抽到,仅 LLM 推断,需要复核
冲突高亮 黄色底色,可配合红色字体 规则结果与 LLM 结果不一致

仅标记系统新填入的缺失项或需复核项。样例模板中原本存在的 / 不统一高亮,避免整份文件过度标记。


六、各文件生成规则

6.1 CH1.2 监管信息目录

项目 规则
产品名称 替换为说明书抽取的产品名称
目录条目 沿用样例目录结构
适用情况 沿用样例
资料名称 沿用样例
页码 沿用样例页码

6.2 CH1.4 申请表

字段类型 规则
产品名称 从说明书抽取
包装规格 从说明书抽取
主要组成成分 优先使用说明书组成成分摘要或附件提示
预期用途 从说明书抽取
产品储存条件及有效期 从说明书抽取
方法原理 从说明书检测原理抽取
产品类别 缺失,填 / 并黄底
分类编码 缺失,填 / 并黄底
临床评价路径 缺失,填 / 并黄底
申请人信息 缺失,填 / 并黄底
联系人、法定代表人、邮箱、组织机构代码 缺失,填 / 并黄底
生产地址 缺失,填 / 并黄底

管理类别、分类编码、临床评价路径、UDI、国家标准品/强制标准等不得根据经验自动下结论,全部按待确认处理。

6.3 CH1.5 产品列表

产品列表需要转成样例表头:

包装规格 货号 组成 组分 主要组成成分 规格/数量

生成规则:

字段 规则
包装规格 从说明书组成成分表的规格列或包装规格章节抽取
货号 说明书未提供,填 / 并黄底
组成 根据组分名称推断为反应液、质控品、处理液、增强剂等;无法判断则填 / 并黄底
组分 使用说明书表格中的组分名称
主要组成成分 使用说明书表格中的主要组成成分
规格/数量 使用说明书表格中的对应规格数量

目标产品说明书中存在规格A大包装、规格A分管包装、规格B大管包装等多个组成表系统应尽量展开为多行产品列表。

6.4 CH1.9 产品申报前沟通的说明

CH1.9 当前为 .doc 格式。本工作流要求 .doc 文档具备与 .docx 等价的原始功能,即模板复制、文本定位、字段替换、高亮标记、导出和打包均应支持 .doc

实现上不应只把转换作为唯一方案。可选技术路径包括:

路径 说明
原生 .doc 处理 优先探索可直接读取和写入 .doc 的库、COM 或二进制文档处理能力
Office/COM 自动化 Windows 环境下通过 Word COM 直接打开 .doc 并原格式写入保存
LibreOffice UNO/API 通过 LibreOffice API 直接处理旧版 Word而不只作为离线预转换
转换兜底 当原生处理不可用时,可作为兜底手段,但不能作为需求定义中的唯一能力

如运行环境不具备 .doc 写入能力,工作流应明确失败原因或降级提示,不应静默输出未改写文件。

6.5 CH1.11.1 符合标准的清单

生成规则:

来源 处理方式
说明书明确出现的标准号 可直接写入,并记录来源片段
RAG/法规知识库命中的候选标准 可作为候选写入或追溯提示,但需高亮待确认
样例中的标准清单 不可无条件沿用
无法确认的标准 / 并黄底

法规材料目录中存在 医疗器械注册申报资料和批准证明文件格式要求(体外诊断试剂).doc体外诊断试剂注册申报资料要求及说明.doc体外诊断试剂安全和性能基本原则清单.doc 等材料。其中安全和性能基本原则清单属于第3章非临床资料不直接等同于 CH1.11.1 符合标准的清单。系统应优先查询已上传 RAG/法规知识库来确认标准清单要求;未命中时不得强行套用样例标准。

6.6 CH1.11.5 真实性声明

项目 规则
正文结构 保留样例结构
产品名称 替换为说明书抽取的产品名称
公司名/申请人 / 并黄底
日期 使用当天日期
材料列表 沿用样例材料列表

6.7 CH1.11.6 符合性声明

项目 规则
正文结构 保留样例结构
产品名称 替换为说明书抽取的产品名称
公司名/申请人 / 并黄底
日期 使用当天日期

七、工作流设计

7.1 主流程

用户上传或选择产品说明书
-> 用户触发“根据说明书生成第1章监管信息”
-> 系统通过规则和 LLM 判断工作流意图
-> 创建 regulatory_info_package 批次
-> 校验输入说明书
-> 复制第1章监管信息样例模板到批次目录
-> 抽取说明书文本、段落和表格
-> 规则/代码抽取字段
-> LLM 结构化抽取字段
-> 合并字段并识别缺失、LLM-only 和冲突项
-> 生成 7 个目标文件
-> 对缺失项、LLM-only 项和冲突项进行高亮
-> 生成追溯清单
-> 打包第1章监管信息 zip
-> 写入导出记录
-> 对话框展示 zip 主下载入口、单文件下载和待确认摘要

7.2 节点建议

节点编码 节点名称 成功条件
prepare 准备资料 找到唯一说明书输入
template_copy 复制模板 7 个样例模板复制到批次目录
text_extract 抽取说明书 提取说明书段落和表格
field_extract 抽取字段 规则和 LLM 抽取结果均留底
field_merge 合并字段 输出最终字段、缺失项、LLM-only 项和冲突项
generate_docs 生成材料 7 个文件生成完成
highlight_review_items 标记待确认 缺失项、LLM-only、冲突项完成高亮
trace_export 追溯清单 生成 JSON/Excel 追溯清单
zip_export 打包下载 生成 第1章 监管信息(预生成版).zip
completed 完成 更新批次状态并返回下载摘要

7.3 状态建议

状态 含义
pending 已创建,等待执行
running 执行中
waiting_user 多个说明书或缺少说明书,等待用户确认
success zip 和必要单文件生成成功
partial_success zip 已生成,但部分 .doc、追溯清单或高亮处理失败
failed 关键文件均未生成

八、数据与产物

8.1 批次数据

建议新增独立批次模型或等价数据结构,记录:

字段 说明
batch_no RIP 批次号
workflow_type regulatory_info_package
conversation 所属对话
user 发起用户
trigger_message 触发消息
source_instruction_file 输入说明书
product_name 抽取到的产品名称
status 批次状态
work_dir 批次工作目录
missing_fields 缺失字段清单
llm_only_fields 仅 LLM 命中的字段
conflict_fields 冲突字段
risk_notes .doc 处理、标准清单待确认等风险提示

8.2 追溯清单

追溯清单至少记录:

字段 说明
target_file 目标文件
target_field 目标字段
final_value 写入值
extraction_source rule、llm、missing、rag_candidate
evidence 来源片段
highlight_reason missing、llm_only、conflict、rag_candidate
needs_review 是否需要负责人确认

九、界面与交互

9.1 对话回复

工作流完成后,对话框展示:

信息 说明
批次号 RIP 批次号
产品名称 抽取到的产品名称
主下载 第1章 监管信息(预生成版).zip
单文件下载 7 个文件列表
待确认摘要 缺失字段数、LLM-only 字段数、冲突字段数
.doc 状态 CH1.9 是否成功完成 .doc 写入
标准清单提示 标准来源和待确认说明

9.2 工作流卡片

前端需新增 regulatory_info_package 工作流卡片,展示节点状态和导出结果。对话框底部新增快捷唤起提示词:

根据说明书生成第1章监管信息

十、异常与降级

异常场景 处理方式
未上传说明书 提示用户上传产品说明书
多个说明书候选 进入 waiting_user提示选择
产品名称未抽到 目标文件产品名位置填 / 并黄底
企业信息缺失 相关位置填 / 并黄底
LLM 调用失败 使用规则抽取结果继续生成,并记录风险提示
规则抽取失败 使用 LLM 结果继续生成LLM-only 字段高亮
RAG/法规知识库不可用 标准清单不自动套用样例,写入 / 并黄底
.doc 原生处理失败 批次标记 partial_success 或 failed明确提示 CH1.9 处理失败原因
zip 打包失败 保留单文件下载,并提示压缩包生成失败

十一、验收标准

序号 验收项 标准
1 触发识别 用户输入“根据说明书生成第1章监管信息”可启动 regulatory_info_package
2 LLM 路由 非固定话术但语义明确时,可由 LLM 判断进入本工作流
3 输入选择 单说明书可直接执行,多说明书进入待确认
4 输出文件 生成 7 个与样例同名或同语义的第1章文件
5 zip 下载 生成 第1章 监管信息(预生成版).zip 作为主下载入口
6 单文件下载 7 个生成文件均可单独下载
7 产品名称替换 目录、申请表、声明类文件中的产品名称替换为说明书产品名称
8 产品列表 CH1.5 使用样例表头展开说明书组成成分,货号填 / 并黄底
9 缺失项高亮 系统新填入的 / 均有黄色底色
10 LLM-only 高亮 代码未抽到但 LLM 抽到的字段在文件中高亮
11 标准清单 不无条件沿用样例标准;无法确认时填 / 并黄底
12 日期 声明类文件日期使用当天日期
13 .doc 支持 CH1.9 .doc 具备与 .docx 等价的处理能力,失败时明确提示
14 追溯清单 输出字段来源、抽取方式和高亮原因
15 权限隔离 用户只能访问自己对话下的批次和导出文件

十二、已确认结论

编号 结论
D1 输出范围固定为样例第1章监管信息目录下的 7 个文件
D2 样例文件作为模板使用,不只是效果参考
D3 企业信息、申请人信息缺失时不沿用样例公司,填 / 并黄底
D4 管理类别、分类编码、临床评价路径等无法从说明书确认的信息填 / 并黄底
D5 产品列表货号留空,填 / 并黄底
D6 标准清单不得无条件沿用样例,优先从说明书和 RAG/法规知识库确认
D7 声明日期使用当天日期
D8 新建独立工作流,可复用原自动填表工作流拆出的 skill/service
D9 需求分析文档新增为 docs/1.需求分析/5.第1章监管信息材料包生成.md
D10 zip 作为主入口,单文件作为辅助下载
D11 对话框底部增加工作流唤起提示词
D12 .doc 要实现与 .docx 等价能力,不能只依赖转换作为需求唯一方案
D13 触发判断需要引入 LLM不只依赖固定关键词