Files
DEMO-AGENT/docs/1.需求分析/3.产品关键信息提取与申报文件自动填表.md

20 KiB
Raw Permalink Blame History

产品关键信息提取与申报文件自动填表需求分析

文档信息

项目 内容
原始材料 docs/原始材料/【模拟题二】试剂盒临床注册文件准备与审核Agent.docx
法规模板来源 docs/原始材料/关于公布体外诊断试剂注册申报资料要求和批准证明文件格式的公告
功能主题 从产品文件中提取关键信息并自动填写至指定申报模板
分析日期 2026-06-07
分析版本 V1.0

一、需求背景

试剂盒及体外诊断试剂注册申报过程中,注册人员需要将同一批产品关键信息重复填写到注册证格式文件、变更注册或备案文件、安全和性能基本原则清单等申报材料中。人工复制粘贴容易出现字段遗漏、表述不一致、来源不可追溯和模板误改等问题。

原始任务中的第 3 条能力要求系统能够“从产品文件中提取关键信息并自动填写至目标文件”。本功能目标是:系统基于用户上传的产品说明书、产品技术要求、检测报告、性能研究资料等文件,自动抽取产品名称、检测靶标、适用范围、储存条件、性能指标等核心信息,复制指定法规模板生成可填写副本,将抽取结果写入模板,并输出 Word 与 PDF 两种下载文件。

本功能是前两批能力的后续增强依赖第一批文件汇总结果定位产品文件复用第二批文本抽取、适用条件确认和一致性核查能力同时新增“模板识别、字段映射、模板填充、冲突高亮、PDF 转换、来源追溯”能力。


二、需求范围

2.1 本期范围

序号 范围项 说明
1 目标模板复制 从原始法规资料中复制指定模板,不覆盖原始文件
2 注册类型选择 首次注册填写注册证格式;变更注册或备案填写变更注册(备案)文件格式
3 安全和性能基本原则清单填写 无论首次注册或变更注册,均生成并填写安全和性能基本原则清单
4 产品信息提取 从产品说明书、产品技术要求、检测报告、性能研究资料等文件中抽取模板所需字段
5 模板字段识别 读取目标模板中的表格、段落、占位栏位和清单条目,建立字段映射
6 自动填入模板 将抽取字段写入模板副本,缺失字段保持留空
7 冲突标记 同一字段在多个文件中不一致时,按说明书为准填写,并在模板中黄色底色、红色字体标记
8 冲突摘要展示 AI 对话框展示冲突字段、采用值、冲突来源和待用户下载确认提示
9 Word 导出 输出填好的 .docx 或可编辑 Word 文件
10 PDF 导出 将填好的 Word 转换为 PDF尽量保持原 Word 模板版式一致,可用于正式提交前预览
11 来源追溯 允许额外输出字段来源追溯清单,记录字段来源文件、文本片段、冲突状态和填入目标

2.2 非本期范围

序号 范围项 说明
1 直接覆盖原始法规模板 原始材料只作为模板来源,不允许被改写
2 自动代替人工最终确认 系统生成带标记文件,用户自行下载核对确认
3 在线提交 NMPA 系统 本期只生成申报文件,不对接外部申报系统
4 全部法规表单覆盖 本期仅覆盖用户指定的三个目标模板
5 复杂版式人工校订 系统尽量保持模板版式,复杂错位仍需人工最终复核

三、目标模板

本期一共处理三个目标模板。用户此前重复提到“体外诊断试剂安全和性能基本原则清单”,经确认属于误填,实际只有一个该清单模板。

序号 模板名称 原始文件 使用条件 输出要求
1 中华人民共和国医疗器械注册证(体外诊断试剂)(格式) 中华人民共和国医疗器械注册证(体外诊断试剂)(格式).docx 首次注册 Word + PDF
2 中华人民共和国医疗器械变更注册(备案)文件(体外诊断试剂)(格式) 中华人民共和国医疗器械变更注册(备案)文件(体外诊断试剂)(格式).doc 变更注册或备案 Word + PDF
3 体外诊断试剂安全和性能基本原则清单 体外诊断试剂安全和性能基本原则清单.doc 首次注册、变更注册、备案均适用 Word + PDF

3.1 已识别注册证模板字段

中华人民共和国医疗器械注册证(体外诊断试剂)(格式).docx 中已识别到以下表格栏目:

字段 填写规则
注册人名称 从申请人、注册人、企业信息类文件中抽取
注册人住所 从申请人、注册人、企业信息类文件中抽取
生产地址 从注册资料、说明书、质量体系或生产信息文件中抽取
代理人名称 进口体外诊断试剂适用,境内产品可留空
代理人住所 进口体外诊断试剂适用,境内产品可留空
产品名称 优先取说明书字段
包装规格 对应型号规格、包装规格
主要组成成分 优先取说明书和产品技术要求
预期用途 对应适用范围、预期用途
产品储存条件及有效期 对应储存条件、有效期
附件 默认包含产品技术要求、说明书,可根据实际文件匹配补充
其他内容 未识别或需人工确认时留空
备注 未识别或需人工确认时留空

3.2 模板解析约束

变更注册(备案)文件格式和安全和性能基本原则清单当前为 .doc 格式。系统实施时需要支持以下任一方案:

方案 说明
LibreOffice 转换 使用 LibreOffice/soffice 将 .doc 转为 .docx 后识别和填写
预转换模板 项目内预先保存经人工确认的 .docx 模板副本
OOXML/COM 方案 在 Windows 环境通过 Office 自动化读取和转换模板

无论采用哪种方式转换后的模板必须保留原文件表格结构、分页、字体和版式PDF 导出需以填好的 Word 为来源。


四、用户角色与使用场景

角色 诉求 典型场景
注册人员 减少重复填表,提高字段一致性 上传注册资料包后生成已填注册证格式和基本原则清单
变更注册负责人 根据变更类型生成变更注册或备案文件 上传变更资料后生成已填变更注册(备案)文件
审核人员 快速定位字段来源和冲突 下载带冲突高亮的 Word/PDF并查看 AI 对话框冲突摘要
系统管理员 维护模板版本和转换能力 更新法规模板、检查 PDF 转换服务和导出记录

五、业务流程分析

5.1 主流程

用户上传产品注册资料
-> 系统执行文件目录与页数汇总
-> 系统执行法规核查前置文本抽取
-> 系统识别注册类型:首次注册、变更注册或备案
-> 系统选择本次适用目标模板
-> 系统复制原始模板到批次工作目录
-> 系统读取目标模板栏目和清单条目
-> 系统从产品文件中抽取模板所需字段
-> 系统按字段优先级合并抽取结果
-> 如字段存在跨文件冲突,系统按说明书为准填入,并做黄色底色、红色字体标记
-> 缺失字段保持留空
-> 系统逐条判断安全和性能基本原则清单的适用性、符合性证据和证明文件位置
-> 系统生成已填 Word 文件
-> 系统将已填 Word 转换为 PDF
-> 系统生成来源追溯清单
-> AI 对话框展示生成结果、冲突字段摘要和下载链接
-> 用户下载 Word/PDF 自行确认

5.2 注册类型分支

注册类型 生成文件
首次注册 注册证格式 Word/PDF安全和性能基本原则清单 Word/PDF
变更注册 变更注册(备案)文件 Word/PDF安全和性能基本原则清单 Word/PDF
备案 变更注册(备案)文件 Word/PDF安全和性能基本原则清单 Word/PDF
注册类型无法识别 AI 对话框提示待确认;默认不生成注册证或变更文件,只可生成带待确认标记的草稿版本

5.3 异常流程

异常场景 处理方式
模板文件不存在 批次标记失败,对话框提示缺少目标模板
.doc 模板无法转换 对应模板导出失败,其他模板继续生成
字段未提取到 目标栏位留空,来源追溯清单记录为空
字段冲突 按说明书为准填入,模板内高亮标记,对话框展示冲突摘要
PDF 转换失败 保留 Word 下载,提示 PDF 生成失败原因
模板版式明显错位 标记为需人工复核,不阻断 Word 文件下载

六、信息提取与字段规则

6.1 字段范围

字段范围不固定写死应以三个目标模板的实际栏目和清单条目为准动态建立。Demo 阶段优先覆盖以下字段:

字段 说明
产品名称 产品标准名称
检测靶标 被检测物、基因、抗原、抗体、病原体或生物标志物
适用范围/预期用途 适用人群、样本类型、检测目的、临床用途
储存条件 温度、避光、防潮等保存条件
性能指标 分析灵敏度、特异性、重复性、准确度、检出限等
型号规格/包装规格 规格型号、包装规格、人份数或测试数
样本类型 血清、血浆、全血、咽拭子等
有效期 产品有效期或稳定性期限
主要组成成分 试剂、校准品、质控品、耗材等组成
检验原理 反应原理、方法学或检测平台
注册人/申请人 注册申请主体
生产地址 生产场所地址

6.2 来源文件优先级

优先级 文件类型 说明
1 说明书 字段冲突时默认以说明书为准
2 产品技术要求 用于补充性能指标、检验方法、组成成分等字段
3 注册检验报告/检测报告 用于补充性能指标、样本信息、检验依据和结论
4 性能研究资料 用于补充安全和性能基本原则清单证据
5 其他注册资料 用于补充申请人、生产地址、附件清单等信息

6.3 冲突处理规则

场景 处理方式
说明书与其他文件字段不一致 按说明书值填入模板
多个非说明书文件不一致,说明书缺失 目标字段留空或取最高优先级来源,具体规则由实现阶段配置
字段被高亮标记 黄色底色、红色字体,提示用户下载后确认
AI 对话框展示 展示字段名、采用值、冲突值、来源文件和目标模板

七、安全和性能基本原则清单填写规则

安全和性能基本原则清单不只填写基础产品信息,还需要根据产品文件内容逐条判断清单条目的适用性、符合性证据和证明文件位置。

填写项 规则
适用/不适用 根据产品特性、检测方法、样本类型、是否含仪器/软件/灭菌/生物材料等信息判断
符合性说明 从产品技术要求、说明书、风险管理、性能研究、稳定性研究等文件中提取证据摘要
证明文件位置 填写证据文件名、章节、页码或可定位文本片段
无法判断 留空或标记待人工确认,来源追溯清单记录原因
冲突证据 如不同文件对同一条款适用性或证据描述冲突,保留高亮并在对话框列出

逐条判断结果需要可追溯,不能只输出“适用”或“不适用”结论。


八、输出要求

8.1 文件命名

文件命名规则:

批次号-产品名称-注册证格式.docx
批次号-产品名称-注册证格式.pdf
批次号-产品名称-变更注册备案文件.docx
批次号-产品名称-变更注册备案文件.pdf
批次号-产品名称-安全和性能基本原则清单.docx
批次号-产品名称-安全和性能基本原则清单.pdf
批次号-产品名称-字段来源追溯清单.xlsx

产品名称为空时,可使用 未识别产品名称 作为文件名占位。

8.2 AI 对话框摘要

AI 对话框应展示生成结果、下载链接和冲突字段摘要。

已生成申报模板自动填表文件。

| 文件 | Word | PDF |
| --- | --- | --- |
| 注册证格式 | 下载 | 下载 |
| 安全和性能基本原则清单 | 下载 | 下载 |

| 冲突字段 | 采用值 | 冲突来源 | 处理 |
| --- | --- | --- | --- |
| 储存条件 | 2-8℃保存 | 产品技术要求:-20℃保存 | 已按说明书填入,并在模板中高亮 |

8.3 Word 输出

要求 说明
模板副本 从原始法规模板复制生成,不覆盖原始文件
版式保持 保留原模板表格、段落、分页、字体和标题结构
冲突高亮 黄色底色、红色字体
缺失字段 留空,不填“待补充”
可编辑 用户可下载后继续人工修改

8.4 PDF 输出

要求 说明
来源 由填好的 Word 转换生成
版式 尽量与原 Word 模板一致
用途 可作为正式提交前预览
失败处理 PDF 失败不影响 Word 下载

8.5 来源追溯清单

来源追溯清单允许额外生成,建议至少包含:

字段 说明
目标模板 字段填入哪个模板
目标栏位/条目 字段对应的表格栏位或清单条目
填入值 实际写入模板的值
来源文件 取值来源文件
来源片段 支撑取值的文本片段
是否冲突 是/否
冲突值 其他文件中的不同值
处理方式 采用说明书、留空、高亮、待人工确认等

九、功能模块梳理

序号 功能名称 功能描述 优先级
1 模板管理 维护三个目标模板路径、版本和适用注册类型 P0
2 模板副本生成 将原始模板复制到批次工作目录 P0
3 模板结构识别 识别模板中的表格字段、段落占位、清单条目 P0
4 产品字段抽取 从上传文件中抽取模板所需产品字段 P0
5 字段合并与冲突检测 按说明书优先级合并字段,并识别跨文件冲突 P0
6 Word 模板填充 将字段写入 Word 模板副本 P0
7 冲突高亮 对冲突字段应用黄色底色和红色字体 P0
8 基本原则逐条判断 判断安全和性能条目的适用性、符合性证据和证明文件位置 P0
9 PDF 转换 将填好的 Word 转为 PDF P0
10 下载链接生成 在 AI 对话框提供 Word/PDF 下载链接 P0
11 来源追溯清单导出 输出字段来源、冲突和填入目标 P1
12 版式 QA 对 Word/PDF 版式进行自动或人工可见检查 P1

十、数据实体分析

实体名称 字段说明 关联实体
自动填表批次 批次编号、用户、会话、注册类型、产品名称、状态、错误信息、创建时间、完成时间 文件汇总批次、法规核查批次
模板副本 模板名称、模板类型、原始模板路径、副本路径、模板版本、适用条件 自动填表批次
提取字段 字段名、填入值、来源文件、来源片段、来源优先级、是否冲突、冲突详情 自动填表批次
填表结果文件 文件类型、文件名、Word 路径、PDF 路径、下载状态 自动填表批次
清单条目判断 条目编号、条目内容、适用性、符合性证据、证明文件位置、判断来源 自动填表批次

十一、非功能性需求

11.1 可追溯性

要求 说明
字段来源可追溯 每个填入字段应能追溯到来源文件和文本片段
模板版本可追溯 每次生成记录原始模板文件名、版本和路径
冲突处理可追溯 冲突字段记录采用值、冲突值和处理规则
输出文件可追溯 Word/PDF 文件关联批次、用户和会话

11.2 安全要求

要求 说明
原始模板保护 不允许覆盖或修改原始法规资料目录中的模板
下载权限 Word/PDF/追溯清单仅允许当前会话授权用户下载
敏感信息保护 对话框只展示必要冲突摘要,不展示大段敏感原文
文件隔离 不同用户、不同批次的模板副本和导出文件隔离存储

11.3 版式要求

要求 说明
Word 版式 尽量保持原模板表格、字体、分页和段落结构
PDF 版式 与填好后的 Word 一致,可用于正式提交前预览
高亮可见 冲突字段在 Word 和 PDF 中均应能被用户识别
缺失字段不污染模板 未提取字段留空,不填入系统提示语

11.4 性能要求

场景 要求
小批次资料 50 个文件以内,应在 1 分钟内完成字段抽取和模板生成
中等批次资料 200 个文件以内支持后台异步处理和进度提示
单个模板失败 不影响其他适用模板生成
单个字段失败 不影响整份模板生成,字段留空并记录原因

十二、待后续确认事项

序号 待确认项 当前建议
1 .doc 模板转换方案 优先使用 LibreOffice/soffice 转 docx无法部署时预置人工确认版 docx 模板
2 变更注册(备案)文件字段清单 需在模板可解析后补充字段映射
3 安全和性能基本原则清单条目结构 需在模板可解析后拆解条目编号、要求、适用性和证据栏
4 说明书识别规则 需明确如何从上传资料中判定哪份文件是说明书
5 PDF 转换质量标准 需明确是否要求逐页渲染检查、页数一致和关键表格不跨页错位
6 注册类型无法识别时是否允许生成草稿 建议允许生成安全和性能基本原则清单,注册证或变更文件等待确认

十三、验收标准

序号 验收项 验收标准
1 模板复制 系统生成模板副本,不修改原始法规模板
2 首次注册文件选择 首次注册场景生成注册证格式和安全和性能基本原则清单
3 变更注册/备案文件选择 变更注册或备案场景生成变更注册(备案)文件和安全和性能基本原则清单
4 字段自动填写 产品名称、预期用途、储存条件、包装规格等字段能自动写入对应栏目
5 缺失字段留空 未提取到的字段保持空白
6 冲突字段高亮 字段冲突时按说明书值填入,并在 Word/PDF 中黄色底色、红色字体标记
7 冲突摘要展示 AI 对话框展示冲突字段、采用值、冲突来源和处理方式
8 基本原则清单判断 系统能逐条输出适用/不适用、符合性证据和证明文件位置
9 Word 下载 对话框提供填好后的 Word 下载链接
10 PDF 下载 对话框提供由 Word 转换生成的 PDF 下载链接
11 来源追溯 可导出字段来源追溯清单,记录字段来源和冲突情况
12 异常不中断 单个字段、单个模板或 PDF 转换失败时,其他结果仍可正常输出

十四、下一步建议

  1. 将两个 .doc 原始模板转换为可解析的 .docx 工作模板,并人工确认版式无明显变化。
  2. 拆解三个模板的字段、表格和清单条目,形成模板字段映射配置。
  3. 扩展产品信息抽取字段,优先覆盖注册证模板已识别字段和安全和性能基本原则清单证据字段。
  4. 设计冲突高亮写入规则,确保 Word 与 PDF 中均可见。
  5. 接入 Word 到 PDF 转换能力,并建立页数、版式和关键表格的转换质量检查。