Files
DEMO-AGENT/docs/需求分析/0.需求重构总览与待确认事项.md

257 lines
14 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 需求重构总览与待确认事项
## 1. 文档目的
本轮需求分析不再沿用“通用 AI Agent Demo 框架”的抽象表述,而是基于 `docs/` 目录下已经提供的真实笔试材料,重构为一个面向 **NMPA 境内第三类体外诊断试剂注册申报资料准备与审核** 的业务系统需求。
本文档作为总览,主要说明三件事:
1. 本次重构后的业务目标是什么。
2. 后续模块化需求分析采用什么拆分方式。
3. 当前原始材料中有哪些必须尽快向需求方确认的地方。
## 2. 原始材料所反映的真实业务目标
根据 `docs/【模拟题二】试剂盒临床注册文件准备与审核Agent/【模拟题二】试剂盒临床注册文件准备与审核Agent.md``docs/目标产品说明书.docx``docs/附件 4 体外诊断试剂注册申报资料要求及说明.doc``docs/原始材料/关于公布体外诊断试剂注册申报资料要求和批准证明文件格式的公告/` 下公告附件,以及 `docs/第1章 监管信息/` 下样例文件,可以确认本题的核心目标不是“泛化问答 Agent”而是一个围绕注册申报资料整理、核查、回填、比对和预警的垂直 Agent 系统。
系统需要覆盖的业务闭环至少包括:
1. 扫描申报文件夹,形成资料目录、文件清单、页数统计和章节点归属。
2. 基于法规要求和申报目录模板,判断资料是否齐全、是否放对位置、是否缺少关键附件。
3. 从说明书、申请表、产品列表、声明文件等材料中提取关键信息,形成统一字段池。
4. 利用统一字段池回填申请表、对照清单、章节目录或其他待生成文件。
5. 对跨文档的名称、规格、适用范围、靶标、机构、日期、标准清单等信息做一致性检查。
6. 输出可讲解、可演示、可追踪的风险预警和处理建议。
## 3. 建议的系统定位
### 3.1 不再定位为“通用题型适配器”
当前项目 README 中强调“拿到任何题都能快速适配”,这适合作为框架背景,但已经不适合作为本题需求文档主线。对于本次笔试题,系统更适合定位为:
> 试剂盒临床注册文件准备与审核智能体平台
它仍然保留配置化和可扩展能力,但产品叙事必须切换为“注册申报资料准备助手”,否则会削弱题目贴合度。
### 3.2 建议保留的底层架构
尽管业务定位变化较大,现有的架构边界仍然是合理的:
- `config`:系统配置、环境变量、路径、部署入口。
- `apps.scenarios`:场景定义与任务入口,但需要从“多题型模板”转向“注册申报子任务配置”。
- `apps.documents`:上传、解析、入库、目录构建、资料状态管理。
- `apps.chat`:面向操作人员的交互入口,展示审核结果与回填结果。
- `apps.audit`:记录每次审核、抽取、回填、预警的执行痕迹。
- `agent_core`法规规则、抽取逻辑、结构化输出、工具编排、RAG 检索。
因此,本次需求分析采用“保留模块边界,重写模块职责”的方式推进,而不是推翻现有项目结构。
## 4. 本轮需求分析文档拆分方式
后续需求分析将按照现有项目主模块输出,不做过细拆分,避免把一个可演示系统拆成过多碎文件:
1. `1.config模块需求分析.md`
2. `2.scenarios模块需求分析.md`
3. `3.documents模块需求分析.md`
4. `4.chat模块需求分析.md`
5. `5.audit模块需求分析.md`
6. `6.agent_core模块需求分析.md`
这样的拆分有三个好处:
1. 与当前代码目录一致,后续重构时容易对照落地。
2. 每个模块既能写清职责,也能覆盖该模块承担的真实业务流程。
3. 复试讲解时可以从“页面层、资料层、编排层、合规层”自然展开。
## 5. 从原始材料中已经识别出的关键业务特征
### 5.1 本题的审核对象是“注册申报资料包”,不是单篇文档
题面要求明确包含“自动汇总注册申报文件夹中的所有文件及页数”“对照法规要求核查文件完整性”,这说明系统输入是一个资料集合,而不是只上传一个 PDF 后做问答。
因此,系统设计必须支持“文件夹视角”的审核。
### 5.2 本题非常强调“章节点”和“法规目录”
`附件 4 体外诊断试剂注册申报资料要求及说明` 以及 `关于公布体外诊断试剂注册申报资料要求和批准证明文件格式的公告` 附件可看出,资料并不是简单的“有或没有”,而是存在固定层级结构和明确的附件格式要求,至少包含:
- 第 1 章 监管信息
- 第 2 章 综述资料
- 第 3 章 非临床资料
- 第 4 章 临床评价资料
- 第 5 章 产品说明书和标签样稿
- 第 6 章 质量管理体系文件
这意味着审核规则必须识别“资料缺失”“章节点错误”“章节目录与实际文件不一致”等不同问题类型。
同时,新增公告材料还表明系统不能只停留在“目录齐套性”这一层,还应预留以下法规校验层级:
1. 注册申报资料要求及说明。
2. 医疗器械注册申报资料和批准证明文件格式要求。
3. 体外诊断试剂安全和性能基本原则清单。
4. 注册证、变更注册(备案)文件等批准证明文件格式。
### 5.3 本题非常强调跨文档字段一致性
现有样例材料中已经出现多个明显的潜在冲突点,例如:
- 题面说明书是“新型冠状病毒 2019-nCoV 核酸检测试剂盒”。
- 监管信息目录、申请表、产品列表则是“呼吸道合胞病毒、肺炎支原体核酸检测试剂盒”。
结合当前已确认口径,本项目目标是建立“通用的试剂盒临床注册文件准备与审核智能体”,因此这些样例差异不要求在需求阶段统一到某一个具体产品,而是要求系统具备:
1. 按项目、批次、文档范围界定审核对象的能力。
2. 对同一审核对象内文档执行严格一致性校验的能力。
3. 对疑似混档、跨产品资料混入给出风险提示的能力。
因此,需求分析必须把“跨文档字段冲突检测”写成核心能力,而不是附属功能。
### 5.4 本题不仅需要审核,还需要回填与生成
题面第三项写得很明确:从产品文件中提取关键信息并自动填写至目标文件。因此系统不是只出一份报告,还要支持“结构化字段输出 + 对目标文件字段回填”。
### 5.5 本题存在历史申报与监管沟通情境
`CH1.9 产品申报前沟通的说明.doc` 体现出:
- 当前申报可能是二次申报。
- 历史受理号、撤回信息、临床机构调整、总结报告重形成都需要保留痕迹。
因此,系统应考虑“申报轮次”“历史沟通记录”“版本来源说明”等能力,而不应只把资料看成静态附件。
## 6. 建议的演示主线
为了后续 Demo 更贴合复试陈述,建议整个系统的业务主线固定为:
1. 导入一批注册资料。
2. 系统自动形成申报目录与页数清单。
3. 系统根据法规目录检查缺失项、错放项、待补项。
4. 系统抽取产品核心信息并形成字段总表。
5. 系统检查说明书、申请表、产品列表、声明文件之间的一致性。
6. 系统输出风险清单、建议动作以及需要人工确认的问题。
如果演示时间允许,建议再增加一个“法规依据展示”环节:
7. 系统展示当前完整性结论所依据的公告附件、资料要求和模板来源。
## 7. 已确认事项
以下内容已根据最新沟通结果确认,并已同步进入后续模块需求:
### 7.1 产品目标范围
- 系统目标是建立“通用的试剂盒临床注册文件准备与审核智能体”。
- 因此不需要把当前样例材料统一解释为同一个具体产品的唯一资料包。
- 实际审核时,应由系统或用户先界定当前参与核查的项目批次或文档范围。
### 7.2 飞书接入方向
- 系统需要支持飞书接入,不再仅停留在“可扩展预留”层面。
- 目标交互包括:通过飞书访问智能体,以及通过飞书机器人 `@` 对应责任人或责任角色。
- 首版主体仍以 Web Demo 为主,但需求文档中应把飞书入口、回传摘要、责任通知链路写成明确建设项。
### 7.3 一致性核查口径
- 当前阶段按完全一致处理。
- 不采用“语义相近即可视为一致”的放宽规则。
- 因此同一字段只要文案不一致,就应判为冲突或至少进入人工复核。
### 7.4 风险分级与准入规则
- 风险按高 / 中 / 低三级分类。
- 存在必须拦截提交的情形。
- 风险需要综合分析并分别打分。
- 只要存在任一高风险项,本次审核结果就不允许通过。
### 7.5 第 2 至第 6 章样本与模板口径
- 结合补充的公告附件包,可以确认第 2 至第 6 章对应的法规要求、章节点结构和资料模板口径已经存在。
- 这些材料可以作为系统进行完整性检查、章节归类、字段回填和生成审核结论的“监管模板 / 结构模板”。
- 但它们并不等于每一章都有完整可直接复用的企业填充样本,因此需求上应表述为“可作为法规模板与结构模板”,而不是“已经具备全量业务样本”。
### 7.6 输出文档形式
- 最好支持输出新的 Word 文档。
- 输出结果需要支持导出下载。
- 对目标模板的格式、标题层级、表格样式、盖章位和版式应尽量保持原始格式。
### 7.7 法规主规则源与 RAG 口径
- 当前版本默认以 `关于公布体外诊断试剂注册申报资料要求和批准证明文件格式的公告` 附件包为主规则来源。
- `附件 4` 视为同源补充材料,不另立异源规则体系。
- 现版本不必把“法规可在线更新”做成显式能力。
- 但法规材料仍建议切片入库到 RAG用于证据检索、条款引用和审计追溯。
- 合规判断逻辑仍应坚持“结构化规则优先RAG 辅助解释”,不能把 RAG 当成唯一规则引擎。
### 7.8 飞书技术接入口径
- 飞书接入可参考飞书开放平台提供的 AI Agent 接入路线,而不是自定义一个模糊的消息转发方案。
- 首版需求应明确两条接入路径:
1. 飞书机器人 / Channel SDK 作为用户入口。
2. 飞书 CLI / OpenAPI MCP 作为 Agent 访问飞书消息、文档、日历、多维表格等能力的工具接入方式。
- 若需要责任人 `@`、回传摘要、文档评论回复或群消息触发,应在后续设计中按飞书应用权限、事件订阅和可见范围来实现。
## 8. 重新整理后的待确认事项
以下问题是在前序确认基础上重新收敛后的剩余待确认项。它们不影响当前需求分析继续推进,但会影响后续设计取舍和开发优先级。
### 8.1 V1 演示深度是否要求真正覆盖全六章流程
原因:
- 当前样例文件主要集中在第 1 章监管信息。
- 题面与法规附件实际要求覆盖六大章。
需确认的问题:
1. Demo 是否允许以第 1 章样本做主演示,同时以法规模板覆盖第 2 至第 6 章的完整性校验口径。
2. 若后续要把第 2 至第 6 章做成更强的“内容级抽取与回填演示”,是否还会补充企业真实样本。
### 8.2 Word 导出的保真要求边界
已确认方向是“最好输出新的 Word 文档并保留原始格式”,但仍建议确认:
1. 首版是否要求所有回填任务都必须产出 Word还是允许部分任务先输出结构化预览。
2. 保真要求是“尽量接近模板”还是“必须达到可直接报送级版式”。
3. 是否需要同时导出 PDF 供审核留档。
### 8.3 飞书接入的最小可用范围
已确认要实现飞书接入,但仍建议确认首版最小可用范围:
1. 首版是“飞书消息触发 + 返回摘要 + 结果链接”即可,还是要做到“在飞书内完成任务选择、结果查看和责任人通知”。
2. 责任关系是按章节点、按任务类型还是按项目角色维护。
3. 是否需要支持文档评论区 `@bot` 回复、群聊机器人、还是独立飞书应用会话三种入口中的一种或多种。
### 8.4 规则切片的颗粒度与维护方式
已确认法规材料建议切片入 RAG但还可进一步确认
1. 切片是按“章 -> 条 -> 要求项 -> 模板字段”四级结构维护,还是先按文档段落切片即可。
2. 是否需要在首版中同步建设结构化规则文件,以便让完整性校验不完全依赖检索文本。
3. 后续谁来维护规则包与法规切片,是否需要保留人工校订入口。
## 9. 本轮需求分析采用的默认假设
在需求方未进一步确认前,后续模块文档将先基于以下假设展开:
1. 系统以“注册申报资料审核与准备”作为唯一主线,不再强调通用多题型产品定位。
2. Demo 首版可先覆盖监管信息章,并为全章扩展预留结构。
3. 一致性检查前需要先确定当前审核范围,不能默认把所有原始材料视为同一产品资料包。
4. 法规完整性检查首版以本地结构化规则和本地法规材料为准,不强依赖联网抓取法规。
5. 法规材料会同步切片入 RAG但规则判断以结构化规则优先RAG 负责检索、引用和解释。
6. 回填能力目标默认包含“生成新的 Word 文档并支持导出”,但允许分阶段落地,先完成字段映射与预览,再补高保真写回。
7. 一致性判断当前默认按完全一致执行。
8. 风险判断采用高 / 中 / 低三级,且任一高风险项直接判定不通过。
9. 飞书接入属于明确建设方向,首版主体仍以 Web Demo 为主,但设计阶段要把飞书入口与通知链路纳入范围。
10. V1 的法规任务边界先聚焦“注册申报”,变更备案和延续注册在规则架构上预留扩展位,但不作为当前主验收范围。
## 10. 结论
本次需求重构的关键,不是再补几条场景配置,而是把项目从“通用 Demo 基座”转向“IVD 注册申报资料审核平台”。只要模块需求始终围绕以下四件事展开,后续设计和实现就会比较稳:
1. 文件夹级资料治理。
2. 法规目录级完整性校验。
3. 跨文档字段抽取与一致性核查。
4. 可追踪的风险预警与回填辅助。