第1章监管信息材料包生成需求分析
文档信息
| 项目 |
内容 |
| 原始输入 |
docs/0.原始材料/目标产品说明书.docx |
| 样例模板 |
docs/0.原始材料/第1章 监管信息 |
| 法规材料 |
docs/0.原始材料/关于公布体外诊断试剂注册申报资料要求和批准证明文件格式的公告 |
| 功能主题 |
从产品说明书生成第1章监管信息材料包 |
| 工作流名称 |
第1章监管信息材料包生成 |
| 工作流编码 |
regulatory_info_package |
| 批次号规则 |
RIP-YYYYMMDDHHMMSS-abcdef |
| 分析日期 |
2026-06-10 |
| 分析版本 |
V1.0 |
一、需求背景
体外诊断试剂注册申报资料中,第1章监管信息包含监管信息目录、申请表、产品列表、申报前沟通说明、符合标准清单、真实性声明和符合性声明等材料。注册人员通常需要根据产品说明书、企业信息和法规要求手工整理这些文件,容易出现产品名称、包装规格、组成成分、预期用途等字段重复录入、漏填、格式不一致和待补信息不醒目的问题。
本需求新增独立工作流:用户上传或选择一个产品说明书后,系统以既有 第1章 监管信息 样例文件作为模板,抽取说明书中的产品关键信息,生成一套类似样例目录的第1章监管信息材料包。生成结果以 zip 压缩包作为主下载入口,同时保留单文件辅助下载。
该工作流可以复用现有自动填表工作流中已拆分出的字段抽取、LLM 调用、Word 写入、导出下载、批次事件和通知能力,但不并入 application_form_fill,而是作为独立工作流建设。
二、需求范围
2.1 本期范围
| 序号 |
范围项 |
说明 |
| 1 |
独立工作流 |
新增 regulatory_info_package,不复用 application_form_fill 的 workflow_type |
| 2 |
单说明书输入 |
本期只支持一个产品说明书作为主输入 |
| 3 |
模板复用 |
以 docs/0.原始材料/第1章 监管信息 下的样例文件作为生成模板 |
| 4 |
固定输出文件 |
固定生成 7 个第1章监管信息文件 |
| 5 |
代码抽取与 LLM 抽取并行 |
规则/代码抽取与 LLM 结构化抽取并行处理,合并后写入模板 |
| 6 |
尽量多填 |
对说明书中可识别的产品名称、包装规格、预期用途、组成成分、储存条件、适用仪器、样本类型、检测靶标等字段尽量填入 |
| 7 |
缺失项标记 |
系统新填入的缺失项使用 /,并设置黄色底色提醒负责人补充 |
| 8 |
LLM-only 标记 |
代码抽取未取到但 LLM 抽取到的字段,也需要在输出文件中高亮提示人工复核 |
| 9 |
模板字段化 |
优先将样例模板整理为 Agent/代码可识别字段模板,使用内容控件 Tag 或稳定占位符,代码只填内容不手改格式 |
| 10 |
doc 能力增强 |
.doc 文档按能力驱动处理:有原生能力时优先原生写入,无原生能力时明确记录并允许 .docx 兜底,不静默输出未改写文件 |
| 11 |
zip 主输出 |
生成 第1章 监管信息(预生成版).zip 作为主下载入口,单文件作为辅助下载 |
| 12 |
对话唤起提示 |
在对话框底部增加本工作流的唤起提示词 |
| 13 |
LLM 意图判断 |
触发判断不能只依赖固定关键词,需要引入 LLM 判断用户是否要生成第1章监管信息材料包 |
2.2 非本期范围
| 序号 |
范围项 |
说明 |
| 1 |
多资料综合生成 |
本期不从产品技术要求、检验报告、企业证照等多文件综合生成 |
| 2 |
人工在线编辑 |
本期只生成文件并标记待确认项,不提供网页内字段编辑 |
| 3 |
自动保证法规最终准确 |
标准清单、分类编码、管理类别等无法从说明书确认的信息仍需负责人确认 |
| 4 |
自动提交监管系统 |
本期只生成申报材料包,不对接外部申报平台 |
| 5 |
版式人工校订替代 |
系统尽量保持模板版式,但最终提交前仍需人工核对 |
三、输入与触发
3.1 输入文件规则
| 场景 |
处理规则 |
用户上传一个 .docx 说明书 |
直接作为本次输入 |
| 用户上传多个文件 |
优先选择文件名包含“说明书”的 .docx |
| 多个说明书候选 |
工作流进入待确认状态,提示用户选择 |
| 未找到说明书 |
提示用户上传产品说明书 |
非 .docx 说明书 |
本期可提示格式不支持,后续扩展 .doc、PDF 或 OCR |
3.2 对话触发规则
固定提示词需要支持:
| 触发表达 |
触发结果 |
| 根据说明书生成第1章监管信息 |
启动第1章监管信息材料包生成 |
| 生成监管信息材料包 |
启动第1章监管信息材料包生成 |
| 从说明书生成第1章材料 |
启动第1章监管信息材料包生成 |
除固定表达外,系统需要引入 LLM 意图判断。当用户自然语言表达包含“根据说明书”“第1章”“监管信息”“材料包”“申请表/产品列表/声明”等意图组合时,LLM 可判断为 regulatory_info_package。规则命中优先,规则未命中时再进入 LLM 路由,避免只靠固定模板。
3.3 对话框底部唤起提示
对话框底部快捷提示词新增:
后续可追加:
四、输出文件范围
本期固定生成与样例目录一致的 7 个文件:
| 序号 |
输出文件 |
模板来源 |
生成规则 |
| 1 |
CH1.2 监管信息目录.docx |
样例 CH1.2 监管信息目录.docx |
替换产品名称,目录结构和页码沿用样例 |
| 2 |
CH1.4 申请表.docx |
样例 CH1.4 申请表.docx |
尽量填入说明书字段,未知项填 / 并黄底 |
| 3 |
CH1.5 产品列表.docx |
样例 CH1.5 产品列表.docx |
按样例表头重建产品列表,货号留空并黄底 |
| 4 |
CH1.9 产品申报前沟通的说明.doc |
样例 CH1.9 产品申报前沟通的说明.doc |
.doc 应支持与 .docx 等价替换能力 |
| 5 |
CH1.11.1 符合标准的清单.docx |
样例 CH1.11.1 符合标准的清单.docx |
从说明书和 RAG/法规知识库提取或推荐标准,非明确项需高亮待确认 |
| 6 |
CH1.11.5 真实性声明.docx |
样例 CH1.11.5 真实性声明.docx |
保留样例正文结构,替换产品名称,公司名位置黄底 / |
| 7 |
CH1.11.6 符合性声明.docx |
样例 CH1.11.6 符合性声明.docx |
保留样例正文结构,替换产品名称,公司名位置黄底 / |
4.1 下载形态
| 输出类型 |
要求 |
| zip 主入口 |
生成 第1章 监管信息(预生成版).zip,只包含成功或兜底成功的文件 |
| 单文件下载 |
每个生成文件均可作为辅助下载项展示 |
| 追溯清单 |
建议生成 JSON/Excel,记录字段来源、抽取方式、高亮原因和待确认项 |
五、字段抽取与填写规则
5.1 抽取字段范围
系统应从说明书中尽量抽取以下字段:
| 字段 |
示例来源 |
| 产品名称 |
【产品名称】 |
| 包装规格 |
【包装规格】 |
| 预期用途 |
【预期用途】 |
| 检测原理/方法原理 |
【检测原理】 |
| 主要组成成分 |
【主要组成成分】 及其下方表格 |
| 储存条件及有效期 |
【储存条件及有效期】 |
| 样本类型 |
【样本要求】 中的适用样本类型 |
| 检测靶标 |
预期用途或检测原理中的基因、病原体、抗原、抗体等 |
| 适用仪器 |
【适用仪器】 |
| 检验方法 |
【检验方法】 |
| 生产日期和使用期限描述 |
储存条件章节 |
字段抽取采用规则/代码抽取与 LLM 结构化抽取并行模式:
5.2 合并与高亮规则
| 场景 |
处理规则 |
| 代码抽取和 LLM 都命中且结果一致 |
正常写入,不强制高亮 |
| 代码抽取和 LLM 都命中但结果不一致 |
优先按规则配置选择,写入值高亮并进入追溯清单 |
| 代码抽取未命中,LLM 命中 |
写入 LLM 值,并高亮提示人工复核 |
| 代码抽取命中,LLM 未命中 |
正常写入,追溯记录代码抽取来源 |
| 两者均未命中 |
写入 / 并设置黄色底色 |
| 企业信息缺失 |
写入 / 并设置黄色底色 |
高亮含义:
| 高亮类型 |
视觉要求 |
含义 |
| 缺失项高亮 |
黄色底色 |
说明书无法提供,负责人需填写 |
| LLM-only 高亮 |
黄色底色,可在追溯清单标记 llm_only |
代码未抽到,仅 LLM 推断,需要复核 |
| 冲突高亮 |
黄色底色,可配合红色字体 |
规则结果与 LLM 结果不一致 |
仅标记系统新填入的缺失项或需复核项。样例模板中原本存在的 / 不统一高亮,避免整份文件过度标记。
六、各文件生成规则
6.1 CH1.2 监管信息目录
| 项目 |
规则 |
| 产品名称 |
替换为说明书抽取的产品名称 |
| 目录条目 |
沿用样例目录结构 |
| 适用情况 |
沿用样例 |
| 资料名称 |
沿用样例 |
| 页码 |
沿用样例页码 |
6.2 CH1.4 申请表
| 字段类型 |
规则 |
| 产品名称 |
从说明书抽取 |
| 包装规格 |
从说明书抽取 |
| 主要组成成分 |
优先使用说明书组成成分摘要或附件提示 |
| 预期用途 |
从说明书抽取 |
| 产品储存条件及有效期 |
从说明书抽取 |
| 方法原理 |
从说明书检测原理抽取 |
| 产品类别 |
缺失,填 / 并黄底 |
| 分类编码 |
缺失,填 / 并黄底 |
| 临床评价路径 |
缺失,填 / 并黄底 |
| 申请人信息 |
缺失,填 / 并黄底 |
| 联系人、法定代表人、邮箱、组织机构代码 |
缺失,填 / 并黄底 |
| 生产地址 |
缺失,填 / 并黄底 |
管理类别、分类编码、临床评价路径、UDI、国家标准品/强制标准等不得根据经验自动下结论,全部按待确认处理。
6.3 CH1.5 产品列表
产品列表需要转成样例表头:
| 包装规格 |
货号 |
组成 |
组分 |
主要组成成分 |
规格/数量 |
生成规则:
| 字段 |
规则 |
| 包装规格 |
从说明书组成成分表的规格列或包装规格章节抽取 |
| 货号 |
说明书未提供,填 / 并黄底 |
| 组成 |
根据组分名称推断为反应液、质控品、处理液、增强剂等;无法判断则填 / 并黄底 |
| 组分 |
使用说明书表格中的组分名称 |
| 主要组成成分 |
使用说明书表格中的主要组成成分 |
| 规格/数量 |
使用说明书表格中的对应规格数量 |
目标产品说明书中存在规格A大包装、规格A分管包装、规格B大管包装等多个组成表,系统应尽量展开为多行产品列表。
6.4 CH1.9 产品申报前沟通的说明
CH1.9 当前为 .doc 格式。本工作流要求 .doc 文档具备与 .docx 等价的原始功能,即模板复制、文本定位、字段替换、高亮标记、导出和打包均应支持 .doc。
实现上不应只把转换作为唯一方案。可选技术路径包括:
| 路径 |
说明 |
原生 .doc 处理 |
优先探索可直接读取和写入 .doc 的库、COM 或二进制文档处理能力 |
| Office/COM 自动化 |
Windows 环境下通过 Word COM 直接打开 .doc 并原格式写入保存 |
| LibreOffice UNO/API |
通过 LibreOffice API 直接处理旧版 Word,而不只作为离线预转换 |
| 转换兜底 |
当原生处理不可用时,可作为兜底手段,但不能作为需求定义中的唯一能力 |
如运行环境不具备 .doc 写入能力,工作流应明确失败原因或降级提示,不应静默输出未改写文件。
6.5 CH1.11.1 符合标准的清单
生成规则:
| 来源 |
处理方式 |
| 说明书明确出现的标准号 |
可直接写入,并记录来源片段 |
| RAG/法规知识库命中的候选标准 |
可作为候选写入或追溯提示,但需高亮待确认 |
| 样例中的标准清单 |
不可无条件沿用 |
| 无法确认的标准 |
填 / 并黄底 |
法规材料目录中存在 医疗器械注册申报资料和批准证明文件格式要求(体外诊断试剂).doc、体外诊断试剂注册申报资料要求及说明.doc、体外诊断试剂安全和性能基本原则清单.doc 等材料。其中安全和性能基本原则清单属于第3章非临床资料,不直接等同于 CH1.11.1 符合标准的清单。系统应优先查询已上传 RAG/法规知识库来确认标准清单要求;未命中时不得强行套用样例标准。
6.6 CH1.11.5 真实性声明
| 项目 |
规则 |
| 正文结构 |
保留样例结构 |
| 产品名称 |
替换为说明书抽取的产品名称 |
| 公司名/申请人 |
填 / 并黄底 |
| 日期 |
使用当天日期 |
| 材料列表 |
沿用样例材料列表 |
6.7 CH1.11.6 符合性声明
| 项目 |
规则 |
| 正文结构 |
保留样例结构 |
| 产品名称 |
替换为说明书抽取的产品名称 |
| 公司名/申请人 |
填 / 并黄底 |
| 日期 |
使用当天日期 |
七、工作流设计
7.1 主流程
7.2 节点建议
| 节点编码 |
节点名称 |
成功条件 |
| prepare |
准备资料 |
找到唯一说明书输入 |
| template_copy |
复制模板 |
7 个样例模板复制到批次目录 |
| text_extract |
抽取说明书 |
提取说明书段落和表格 |
| field_extract |
抽取字段 |
规则和 LLM 抽取结果均留底 |
| field_merge |
合并字段 |
输出最终字段、缺失项、LLM-only 项和冲突项 |
| generate_docs |
生成材料 |
7 个文件生成完成 |
| highlight_review_items |
标记待确认 |
缺失项、LLM-only、冲突项完成高亮 |
| trace_export |
追溯清单 |
生成 JSON/Excel 追溯清单 |
| zip_export |
打包下载 |
生成 第1章 监管信息(预生成版).zip |
| completed |
完成 |
更新批次状态并返回下载摘要 |
7.3 状态建议
| 状态 |
含义 |
| pending |
已创建,等待执行 |
| running |
执行中 |
| waiting_user |
多个说明书或缺少说明书,等待用户确认 |
| success |
zip 和必要单文件生成成功 |
| partial_success |
zip 已生成,但部分 .doc、追溯清单或高亮处理失败 |
| failed |
关键文件均未生成 |
八、数据与产物
8.1 批次数据
建议新增独立批次模型或等价数据结构,记录:
| 字段 |
说明 |
| batch_no |
RIP 批次号 |
| workflow_type |
regulatory_info_package |
| conversation |
所属对话 |
| user |
发起用户 |
| trigger_message |
触发消息 |
| source_instruction_file |
输入说明书 |
| product_name |
抽取到的产品名称 |
| status |
批次状态 |
| work_dir |
批次工作目录 |
| missing_fields |
缺失字段清单 |
| llm_only_fields |
仅 LLM 命中的字段 |
| conflict_fields |
冲突字段 |
| risk_notes |
.doc 处理、标准清单待确认等风险提示 |
8.2 追溯清单
追溯清单至少记录:
| 字段 |
说明 |
| target_file |
目标文件 |
| target_field |
目标字段 |
| final_value |
写入值 |
| extraction_source |
rule、llm、missing、rag_candidate |
| evidence |
来源片段 |
| highlight_reason |
missing、llm_only、conflict、rag_candidate |
| needs_review |
是否需要负责人确认 |
九、界面与交互
9.1 对话回复
工作流完成后,对话框展示:
| 信息 |
说明 |
| 批次号 |
RIP 批次号 |
| 产品名称 |
抽取到的产品名称 |
| 主下载 |
第1章 监管信息(预生成版).zip |
| 单文件下载 |
7 个文件列表 |
| 待确认摘要 |
缺失字段数、LLM-only 字段数、冲突字段数 |
.doc 状态 |
CH1.9 是否成功完成 .doc 写入 |
| 标准清单提示 |
标准来源和待确认说明 |
9.2 工作流卡片
前端需新增 regulatory_info_package 工作流卡片,展示节点状态和导出结果。对话框底部新增快捷唤起提示词:
十、异常与降级
| 异常场景 |
处理方式 |
| 未上传说明书 |
提示用户上传产品说明书 |
| 多个说明书候选 |
进入 waiting_user,提示选择 |
| 产品名称未抽到 |
目标文件产品名位置填 / 并黄底 |
| 企业信息缺失 |
相关位置填 / 并黄底 |
| LLM 调用失败 |
使用规则抽取结果继续生成,并记录风险提示 |
| 规则抽取失败 |
使用 LLM 结果继续生成,LLM-only 字段高亮 |
| RAG/法规知识库不可用 |
标准清单不自动套用样例,写入 / 并黄底 |
.doc 原生处理失败 |
批次标记 partial_success 或 failed,明确提示 CH1.9 处理失败原因 |
| zip 打包失败 |
保留单文件下载,并提示压缩包生成失败 |
十一、验收标准
| 序号 |
验收项 |
标准 |
| 1 |
触发识别 |
用户输入“根据说明书生成第1章监管信息”可启动 regulatory_info_package |
| 2 |
LLM 路由 |
非固定话术但语义明确时,可由 LLM 判断进入本工作流 |
| 3 |
输入选择 |
单说明书可直接执行,多说明书进入待确认 |
| 4 |
输出文件 |
生成 7 个与样例同名或同语义的第1章文件 |
| 5 |
zip 下载 |
生成 第1章 监管信息(预生成版).zip 作为主下载入口 |
| 6 |
单文件下载 |
7 个生成文件均可单独下载 |
| 7 |
产品名称替换 |
目录、申请表、声明类文件中的产品名称替换为说明书产品名称 |
| 8 |
产品列表 |
CH1.5 使用样例表头展开说明书组成成分,货号填 / 并黄底 |
| 9 |
缺失项高亮 |
系统新填入的 / 均有黄色底色 |
| 10 |
LLM-only 高亮 |
代码未抽到但 LLM 抽到的字段在文件中高亮 |
| 11 |
标准清单 |
不无条件沿用样例标准;无法确认时填 / 并黄底 |
| 12 |
日期 |
声明类文件日期使用当天日期 |
| 13 |
.doc 支持 |
CH1.9 .doc 具备与 .docx 等价的处理能力,失败时明确提示 |
| 14 |
追溯清单 |
输出字段来源、抽取方式和高亮原因 |
| 15 |
权限隔离 |
用户只能访问自己对话下的批次和导出文件 |
十二、已确认结论
| 编号 |
结论 |
| D1 |
输出范围固定为样例第1章监管信息目录下的 7 个文件 |
| D2 |
样例文件作为模板使用,不只是效果参考 |
| D3 |
企业信息、申请人信息缺失时不沿用样例公司,填 / 并黄底 |
| D4 |
管理类别、分类编码、临床评价路径等无法从说明书确认的信息填 / 并黄底 |
| D5 |
产品列表货号留空,填 / 并黄底 |
| D6 |
标准清单不得无条件沿用样例,优先从说明书和 RAG/法规知识库确认 |
| D7 |
声明日期使用当天日期 |
| D8 |
新建独立工作流,可复用原自动填表工作流拆出的 skill/service |
| D9 |
需求分析文档新增为 docs/1.需求分析/5.第1章监管信息材料包生成.md |
| D10 |
zip 作为主入口,单文件作为辅助下载 |
| D11 |
对话框底部增加工作流唤起提示词 |
| D12 |
模板优先字段化,使用内容控件 Tag 或稳定占位符服务 Agent/代码填充,行标签定位仅作为兜底 |
| D13 |
.doc 要按能力驱动实现与 .docx 等价能力;原生能力不可用时允许 .docx 兜底并明确提示 |
| D14 |
触发判断需要引入 LLM,不只依赖固定关键词 |