docs(详细设计): 新增字段抽取与字段池设计

2026-06-03 21:00:28 +08:00
parent 759939b446
commit 4208f29d77
10 changed files with 1423 additions and 0 deletions
--- a/docs/详细设计/3.字段抽取与统一字段池.md
+++ b/docs/详细设计/3.字段抽取与统一字段池.md
@@ -0,0 +1,658 @@
+# 3. 字段抽取与统一字段池详细设计
+
+## 1. 设计目标
+
+本步骤承接“资料包导入与目录汇总”和“法规完整性检查”的输出，目标是从说明书、申请表、产品列表、声明类文件等注册申报资料中抽取产品核心字段，形成可复用、可追溯、可回填、可一致性核查的统一字段池。
+
+本步骤需要完成以下业务结果：
+
+1. 明确本轮字段抽取的资料范围和目标字段范围。
+2. 加载注册申报通用字段 schema。
+3. 按字段来源优先级选择候选文档。
+4. 对固定格式、标题段落、表格字段执行规则抽取。
+5. 对长文本字段使用 LLM 辅助归纳。
+6. 对字段值进行标准化、去噪和来源绑定。
+7. 将字段结果写入统一字段池。
+8. 标记字段置信度、冲突状态和待人工确认状态。
+9. 输出结构化 `registration_field_extraction_report`。
+
+本步骤不负责最终一致性判定，不负责 Word 文件生成。字段池会为后续“一致性核查”和“Word 回填导出”提供输入。
+
+## 2. 所属模块与边界
+
+### 2.1 Documents
+
+`apps.documents` 提供文档主数据、正文文本、标题结构、表格结构和处理状态。
+
+本步骤读取：
+
+1. 文档 ID。
+2. 文件名和相对路径。
+3. 章节点。
+4. 文档角色。
+5. 正文文本。
+6. 表格结构。
+7. 文档处理状态。
+8. 是否待人工复核。
+
+如果某文档尚未完成文本或表格抽取，本步骤应给出业务提示，而不是默认字段缺失。
+
+### 2.2 Agent Core
+
+`agent_core` 是本步骤的执行主体，负责编排字段 schema 加载、抽取范围确认、规则抽取、表格抽取、LLM 归纳、字段标准化、字段池写入和报告生成。
+
+本步骤建议产生以下中文 Skill：
+
+1. `字段抽取编排Skill`
+2. `字段抽取范围确认Skill`
+3. `字段Schema加载Skill`
+4. `规则字段抽取Skill`
+5. `表格字段抽取Skill`
+6. `长文本字段归纳Skill`
+7. `字段标准化Skill`
+8. `统一字段池写入Skill`
+9. `字段抽取报告生成Skill`
+
+### 2.3 LLM Provider
+
+LLM 只用于长文本归纳和无法通过规则稳定提取的字段。
+
+LLM 可以处理：
+
+1. 适用范围 / 预期用途归纳。
+2. 性能指标摘要。
+3. 储存条件段落归纳。
+4. 检测靶标从说明书长段落中提取。
+
+LLM 不应处理：
+
+1. 明确表格字段的直接读取。
+2. 申请表中固定字段的直接抽取。
+3. 字段冲突最终裁判。
+4. 没有来源证据的字段编造。
+
+所有 LLM 调用必须经过 Provider，并支持 Mock Provider 离线测试。
+
+### 2.4 RAG
+
+RAG 在本步骤中只作为来源片段定位能力使用。
+
+可用于：
+
+1. 从长文档中定位字段候选段落。
+2. 为 LLM 归纳提供限定上下文。
+3. 为字段来源证据提供片段引用。
+
+RAG 不负责最终字段值裁判。
+
+### 2.5 Audit
+
+`apps.audit` 记录字段抽取任务的执行范围、目标字段、抽取结果、来源证据、LLM 使用情况和失败原因。
+
+审计中必须保留：
+
+1. `batch_id`
+2. `scenario_id`
+3. `selected_document_ids`
+4. `field_schema_version`
+5. `extracted_fields`
+6. `manual_review_fields`
+7. `llm_provider_name`
+8. `tool_calls`
+9. `evidence_refs`
+
+## 3. 输入输出
+
+### 3.1 输入
+
+```json
+{
+  "batch_id": 1001,
+  "scenario_id": "registration_field_extraction",
+  "field_schema_id": "ivd_registration_fields_v1",
+  "selected_document_ids": [11, 12, 13],
+  "target_field_keys": [
+    "product_name",
+    "detection_target",
+    "intended_use",
+    "storage_condition",
+    "performance_index"
+  ],
+  "enable_llm_fallback": true,
+  "enable_rag_context": true
+}
+```
+
+### 3.2 输出
+
+本步骤输出 `registration_field_extraction_report`：
+
+```json
+{
+  "report_type": "registration_field_extraction_report",
+  "batch_id": 1001,
+  "field_schema_id": "ivd_registration_fields_v1",
+  "field_schema_version": "2026-06-03",
+  "summary": {
+    "target_field_count": 5,
+    "extracted_field_count": 4,
+    "manual_review_field_count": 1,
+    "conflict_candidate_count": 1,
+    "field_pool_status": "partial_completed"
+  },
+  "field_pool_items": [],
+  "manual_review_fields": [],
+  "evidence_refs": [],
+  "tool_calls": []
+}
+```
+
+### 3.3 字段池条目结构
+
+```json
+{
+  "field_key": "product_name",
+  "field_label": "产品名称",
+  "standard_value": "新型冠状病毒 2019-nCoV 核酸检测试剂盒",
+  "raw_value": "新型冠状病毒2019-nCoV核酸检测试剂盒",
+  "source_document_id": 11,
+  "source_document_name": "目标产品说明书.docx",
+  "source_location": {
+    "chapter_title": "一、产品名称",
+    "table_index": null,
+    "page_no": null
+  },
+  "extract_method": "rule_heading",
+  "confidence": "high",
+  "conflict_status": "not_checked",
+  "manual_review_required": false,
+  "fillable": true
+}
+```
+
+## 4. 主工作流
+
+```text
+用户发起字段抽取任务
+-> 读取资料包和完整性检查上下文
+-> 确认抽取文档范围
+-> 加载字段 schema
+-> 加载字段来源优先级
+-> 读取文档文本和表格结构
+-> 执行规则字段抽取
+-> 执行表格字段抽取
+-> 对长文本字段执行 RAG 定位与 LLM 归纳
+-> 标准化字段值
+-> 绑定字段来源证据
+-> 写入统一字段池
+-> 生成字段抽取报告
+-> 写入审计留痕
+-> 返回字段池视图
+```
+
+## 5. 节点详细设计
+
+### 5.1 节点一：抽取任务上下文加载
+
+业务功能：
+
+1. 读取资料包批次。
+2. 读取第一步目录汇总。
+3. 读取第二步完整性检查报告。
+4. 获取命中的申请表、产品列表、说明书等候选文档。
+5. 确认当前资料是否满足字段抽取前置条件。
+
+使用技术：
+
+1. Django ORM
+2. JSONField 报告快照
+3. dataclass/Pydantic schema
+
+产生方法：
+
+1. `load_field_extraction_context(batch_id, scenario_id) -> FieldExtractionContext`
+2. `load_candidate_documents(context, selected_document_ids) -> list[DocumentFact]`
+3. `validate_extraction_prerequisites(context) -> ExtractionPrerequisiteResult`
+
+对应 Skill：
+
+1. `字段抽取编排Skill`
+
+### 5.2 节点二：字段抽取范围确认
+
+业务功能：
+
+1. 确认参与字段抽取的文档范围。
+2. 按文档角色筛选候选资料。
+3. 排除法规资料和待处理失败资料。
+4. 对待人工复核文档保留可用但低可信状态。
+
+默认候选来源：
+
+1. 申请表。
+2. 产品说明书。
+3. 产品列表。
+4. 声明类文件。
+5. 历史沟通说明。
+
+使用技术：
+
+1. 文档角色规则
+2. 来源优先级 YAML
+3. 文档状态过滤
+
+产生方法：
+
+1. `resolve_extraction_scope(documents, selected_document_ids, target_field_keys) -> ExtractionScope`
+2. `filter_extractable_documents(documents) -> list[DocumentFact]`
+3. `rank_documents_by_field_source(field_key, documents) -> list[DocumentFact]`
+
+对应 Skill：
+
+1. `字段抽取范围确认Skill`
+
+### 5.3 节点三：字段 Schema 加载
+
+业务功能：
+
+1. 加载注册申报字段 schema。
+2. 确认目标字段、字段类型、来源优先级、抽取方式和回填属性。
+3. 为后续 Word 回填建立字段映射基础。
+
+建议 schema 目录：
+
+```text
+configs/registration/fields/
+  ivd_registration_fields_v1.yaml
+```
+
+字段 schema 示例：
+
+```yaml
+field_schema_id: ivd_registration_fields_v1
+version: "2026-06-03"
+fields:
+  - field_key: product_name
+    field_label: 产品名称
+    value_type: text
+    fillable: true
+    consistency_required: true
+    source_priority:
+      - application_form
+      - product_instruction
+      - product_list
+    extraction_methods:
+      - rule_heading
+      - table_cell
+```
+
+使用技术：
+
+1. YAML
+2. Pydantic schema
+3. Django cache
+
+产生方法：
+
+1. `load_field_schema(field_schema_id) -> FieldSchema`
+2. `validate_field_schema(schema) -> FieldSchemaValidationResult`
+3. `select_target_fields(schema, target_field_keys) -> list[FieldDefinition]`
+
+对应 Skill：
+
+1. `字段Schema加载Skill`
+
+### 5.4 节点四：规则字段抽取
+
+业务功能：
+
+1. 从标题、段落、固定标签中提取字段。
+2. 优先处理产品名称、申请人名称、储存条件等明确字段。
+3. 记录抽取方法和来源片段。
+
+适用字段：
+
+1. 产品名称。
+2. 申请人名称。
+3. 包装规格。
+4. 储存条件。
+5. 申报日期。
+
+使用技术：
+
+1. 正则表达式
+2. 标题层级解析
+3. 标签后取值规则
+4. 中文标点标准化
+
+产生方法：
+
+1. `extract_fields_by_rules(document, field_definitions) -> list[FieldCandidate]`
+2. `extract_by_heading(text_structure, field_definition) -> FieldCandidate | None`
+3. `extract_by_label(text, labels) -> FieldCandidate | None`
+4. `build_source_location(document, match) -> SourceLocation`
+
+对应 Skill：
+
+1. `规则字段抽取Skill`
+
+### 5.5 节点五：表格字段抽取
+
+业务功能：
+
+1. 从申请表、产品列表、标准清单等表格中提取字段。
+2. 识别表头和字段标签。
+3. 抽取规格型号、分类编码、标准清单等结构化字段。
+
+适用字段：
+
+1. 产品名称。
+2. 包装规格。
+3. 分类编码。
+4. 申请人名称。
+5. 生产地址。
+6. 标准清单。
+
+使用技术：
+
+1. `python-docx` 表格解析
+2. PDF 表格解析可选 `pdfplumber`
+3. 表头标准化
+4. 单元格坐标记录
+
+产生方法：
+
+1. `extract_fields_from_tables(document, field_definitions) -> list[FieldCandidate]`
+2. `normalize_table_headers(table) -> NormalizedTable`
+3. `match_table_field(table, field_definition) -> FieldCandidate | None`
+4. `build_table_source_location(table_index, row_index, col_index) -> SourceLocation`
+
+对应 Skill：
+
+1. `表格字段抽取Skill`
+
+### 5.6 节点六：长文本字段归纳
+
+业务功能：
+
+1. 对规则和表格无法稳定抽取的长文本字段进行归纳。
+2. 先用 RAG 或关键词定位候选片段。
+3. 将有限上下文交给 LLM Provider。
+4. 要求 LLM 返回结构化字段值和引用片段。
+
+适用字段：
+
+1. 检测靶标。
+2. 适用范围 / 预期用途。
+3. 性能指标。
+4. 临床评价路径。
+
+使用技术：
+
+1. RAG fallback / Chroma
+2. LLM Provider
+3. JSON schema 输出约束
+4. Mock Provider 测试
+
+产生方法：
+
+1. `locate_field_context(document, field_definition) -> list[EvidenceChunk]`
+2. `summarize_long_text_field(field_definition, chunks) -> FieldCandidate`
+3. `call_llm_for_field_extraction(prompt, schema) -> dict`
+4. `validate_llm_field_output(output) -> FieldCandidate`
+
+对应 Skill：
+
+1. `长文本字段归纳Skill`
+
+### 5.7 节点七：字段标准化
+
+业务功能：
+
+1. 对抽取候选值做清洗和标准化。
+2. 合并空格、全半角、中文标点差异。
+3. 标准化单位、日期、枚举值。
+4. 计算字段置信度。
+5. 标记疑似冲突候选，但不做最终一致性裁判。
+
+使用技术：
+
+1. Python 字符串标准化
+2. 字段类型规则
+3. 日期解析
+4. 单位标准化表
+
+产生方法：
+
+1. `normalize_field_candidate(candidate, field_definition) -> NormalizedFieldCandidate`
+2. `normalize_text_value(value) -> str`
+3. `normalize_date_value(value) -> str`
+4. `calculate_field_confidence(candidate, source_priority) -> str`
+5. `detect_conflict_candidates(candidates) -> list[ConflictCandidate]`
+
+对应 Skill：
+
+1. `字段标准化Skill`
+
+### 5.8 节点八：统一字段池写入
+
+业务功能：
+
+1. 将字段候选写入统一字段池。
+2. 按字段来源优先级选择推荐值。
+3. 保留所有候选值和来源证据。
+4. 标记字段是否可回填。
+5. 标记字段是否需要一致性核查。
+
+建议模型：
+
+```python
+class RegistrationFieldPoolItem(models.Model):
+    batch = models.ForeignKey(SubmissionBatch, on_delete=models.CASCADE)
+    field_key = models.CharField(max_length=128)
+    field_label = models.CharField(max_length=255)
+    standard_value = models.TextField(blank=True)
+    raw_value = models.TextField(blank=True)
+    source_document_id = models.IntegerField(null=True)
+    source_location = models.JSONField(default=dict)
+    extract_method = models.CharField(max_length=64)
+    confidence = models.CharField(max_length=32)
+    conflict_status = models.CharField(max_length=32, default="not_checked")
+    manual_review_required = models.BooleanField(default=False)
+    fillable = models.BooleanField(default=False)
+```
+
+使用技术：
+
+1. Django ORM
+2. JSONField
+3. 批量写入
+4. 字段池版本号
+
+产生方法：
+
+1. `write_field_pool(batch_id, normalized_candidates, field_schema) -> FieldPoolWriteResult`
+2. `select_recommended_field_value(field_key, candidates, source_priority) -> FieldPoolItem`
+3. `persist_field_candidates(field_pool_item, candidates) -> None`
+4. `mark_manual_review_fields(field_pool_items) -> list[FieldPoolItem]`
+
+对应 Skill：
+
+1. `统一字段池写入Skill`
+
+### 5.9 节点九：字段抽取报告生成
+
+业务功能：
+
+1. 汇总字段抽取结果。
+2. 输出字段池表格。
+3. 输出待人工复核字段。
+4. 输出字段来源证据。
+5. 生成页面展示和飞书摘要载荷。
+6. 写入审计记录。
+
+使用技术：
+
+1. dataclass/Pydantic
+2. JSONField
+3. Audit 服务
+4. 页面展示 schema
+
+产生方法：
+
+1. `build_field_extraction_report(context, field_pool_items) -> RegistrationFieldExtractionReport`
+2. `build_field_pool_display_rows(field_pool_items) -> list[dict]`
+3. `build_field_extraction_audit_payload(report) -> dict`
+4. `record_field_extraction_audit(report, context) -> AuditLog`
+
+对应 Skill：
+
+1. `字段抽取报告生成Skill`
+
+## 6. Skill 清单
+
+本步骤产生以下 Skill 设计文档：
+
+1. [字段抽取编排Skill](skill/字段抽取编排Skill.md)
+2. [字段抽取范围确认Skill](skill/字段抽取范围确认Skill.md)
+3. [字段Schema加载Skill](skill/字段Schema加载Skill.md)
+4. [规则字段抽取Skill](skill/规则字段抽取Skill.md)
+5. [表格字段抽取Skill](skill/表格字段抽取Skill.md)
+6. [长文本字段归纳Skill](skill/长文本字段归纳Skill.md)
+7. [字段标准化Skill](skill/字段标准化Skill.md)
+8. [统一字段池写入Skill](skill/统一字段池写入Skill.md)
+9. [字段抽取报告生成Skill](skill/字段抽取报告生成Skill.md)
+
+## 7. 字段 Schema 设计
+
+### 7.1 V1 目标字段
+
+| 字段编码 | 中文名 | 是否回填 | 是否强一致 |
+|---|---|---|---|
+| `product_name` | 产品名称 | 是 | 是 |
+| `detection_target` | 检测靶标 | 是 | 是 |
+| `intended_use` | 适用范围 / 预期用途 | 是 | 是 |
+| `storage_condition` | 储存条件 | 是 | 是 |
+| `performance_index` | 性能指标 | 是 | 否 |
+| `package_specification` | 包装规格 | 是 | 是 |
+| `applicant_name` | 申请人名称 | 是 | 是 |
+| `classification_code` | 分类编码 | 是 | 是 |
+
+### 7.2 字段来源优先级
+
+| 字段 | 来源优先级 |
+|---|---|
+| 产品名称 | 申请表 > 说明书 > 产品列表 |
+| 检测靶标 | 说明书 > 产品列表 > 申请表 |
+| 适用范围 | 说明书 > 申请表 |
+| 储存条件 | 说明书 > 标签样稿 |
+| 性能指标 | 说明书 > 性能研究资料 |
+| 包装规格 | 产品列表 > 申请表 > 说明书 |
+
+## 8. 页面展示
+
+字段抽取结果页面建议展示：
+
+1. 当前字段 schema 版本。
+2. 抽取文档范围。
+3. 字段总数。
+4. 已抽取字段数。
+5. 待人工复核字段数。
+6. 字段池表格。
+7. 字段来源证据。
+8. 工具调用记录。
+9. 审计入口。
+
+字段池表格字段：
+
+1. 字段名。
+2. 推荐值。
+3. 原始值。
+4. 来源文档。
+5. 来源位置。
+6. 抽取方法。
+7. 置信度。
+8. 是否待人工复核。
+9. 是否可回填。
+
+## 9. 异常处理
+
+1. 无可抽取文档：返回业务提示，不写空字段池。
+2. 文档未完成文本抽取：标记前置条件不足。
+3. 字段 schema 缺失：任务不可执行，写失败审计。
+4. 表格解析失败：跳过表格抽取，保留规则抽取和 LLM 归纳。
+5. LLM 不可用：仅输出规则和表格抽取结果。
+6. LLM 输出非法 JSON：丢弃该候选并记录工具失败。
+7. 多候选值不一致：写入候选值，字段状态标记 `conflict_candidate`。
+8. 来源文档待复核：字段置信度不超过 `medium`。
+
+## 10. 与后续步骤的接口
+
+后续一致性核查读取：
+
+1. `field_key`
+2. `standard_value`
+3. `raw_value`
+4. `source_document_id`
+5. `source_location`
+6. `confidence`
+7. `conflict_status`
+8. `manual_review_required`
+
+后续 Word 回填读取：
+
+1. `field_key`
+2. `standard_value`
+3. `fillable`
+4. `manual_review_required`
+5. `conflict_status`
+6. `template_field_refs`
+
+## 11. 测试设计
+
+### 11.1 单元测试
+
+1. 字段 schema 加载成功。
+2. 字段来源优先级排序正确。
+3. 标题字段抽取正确。
+4. 表格字段抽取正确。
+5. LLM 输出 schema 校验正确。
+6. 字段标准化正确。
+7. 推荐值选择正确。
+
+### 11.2 服务层测试
+
+1. 基于说明书抽取产品名称。
+2. 基于说明书抽取检测靶标。
+3. 基于申请表抽取申请人名称。
+4. 多来源候选写入字段池。
+5. LLM 不可用时任务仍能完成部分结果。
+6. 字段池报告写入审计。
+
+### 11.3 页面测试
+
+1. 页面展示字段池表格。
+2. 页面展示字段来源文档。
+3. 页面展示待人工复核字段。
+4. 页面展示工具调用记录。
+5. 页面展示审计入口。
+
+## 12. V1 实现建议
+
+V1 建议先完成以下最小闭环：
+
+1. 建立字段 schema YAML。
+2. 从 `目标产品说明书.docx` 抽取产品名称、检测靶标、适用范围、储存条件、性能指标。
+3. 从 `CH1.4 申请表.docx` 和 `CH1.5 产品列表.docx` 抽取可比对字段。
+4. 写入统一字段池。
+5. 输出字段抽取报告。
+6. 支持 Mock Provider 离线测试。
+
+增强阶段再补齐：
+
+1. 更多字段类型。
+2. PDF 表格抽取。
+3. OCR 兜底。
+4. 后台人工修正字段池。
+5. 字段池版本管理。
+
--- a/docs/详细设计/skill/字段Schema加载Skill.md
+++ b/docs/详细设计/skill/字段Schema加载Skill.md
@@ -0,0 +1,75 @@
+# 字段Schema加载Skill 设计
+
+## 1. Skill 定位
+
+`字段Schema加载Skill` 负责加载注册申报字段 schema，提供字段定义、来源优先级、抽取方式、回填属性和一致性要求。
+
+英文实现标识建议使用 `FieldSchemaLoadSkill`。
+
+## 2. 输入
+
+```python
+@dataclass
+class FieldSchemaLoadInput:
+    field_schema_id: str
+    target_field_keys: list[str] = field(default_factory=list)
+```
+
+## 3. 输出
+
+```python
+@dataclass
+class FieldSchemaLoadOutput:
+    field_schema_id: str
+    version: str
+    fields: list[FieldDefinition]
+    source_priority: dict
+    validation_warnings: list[dict]
+```
+
+## 4. 核心方法
+
+### 4.1 `run(input) -> FieldSchemaLoadOutput`
+
+主入口方法。
+
+### 4.2 `load_schema_file(field_schema_id) -> dict`
+
+从 YAML 读取字段 schema。
+
+### 4.3 `validate_field_schema(raw_schema) -> FieldSchemaValidationResult`
+
+校验字段定义。
+
+### 4.4 `select_target_fields(schema, target_field_keys) -> list[FieldDefinition]`
+
+筛选目标字段。
+
+## 5. 技术实现
+
+使用技术：
+
+1. `PyYAML`
+2. Pydantic
+3. Django cache
+
+建议路径：
+
+```text
+configs/registration/fields/ivd_registration_fields_v1.yaml
+```
+
+## 6. 异常处理
+
+1. schema 文件不存在：任务失败。
+2. 字段定义缺少 `field_key`：校验失败。
+3. 目标字段不存在：返回业务错误。
+4. 来源优先级缺失：允许执行，但记录警告。
+
+## 7. 测试要点
+
+1. schema 加载成功。
+2. 目标字段筛选正确。
+3. 缺少必填字段时报错。
+4. 来源优先级输出正确。
+
--- a/docs/详细设计/skill/字段抽取报告生成Skill.md
+++ b/docs/详细设计/skill/字段抽取报告生成Skill.md
@@ -0,0 +1,89 @@
+# 字段抽取报告生成Skill 设计
+
+## 1. Skill 定位
+
+`字段抽取报告生成Skill` 负责将字段池写入结果组装成稳定的 `registration_field_extraction_report`，并生成页面展示、审计和飞书摘要所需的数据结构。
+
+英文实现标识建议使用 `FieldExtractionReportBuildSkill`。
+
+## 2. 输入
+
+```python
+@dataclass
+class FieldExtractionReportBuildInput:
+    context: FieldExtractionContext
+    field_pool_items: list[FieldPoolItem]
+    manual_review_fields: list[dict]
+    tool_calls: list[dict]
+```
+
+## 3. 输出
+
+```python
+@dataclass
+class FieldExtractionReportBuildOutput:
+    report: dict
+    display_sections: list[dict]
+    audit_payload: dict
+    feishu_summary_payload: dict
+```
+
+## 4. 报告结构
+
+报告必须包含：
+
+1. `report_type`
+2. `batch_id`
+3. `field_schema_id`
+4. `field_schema_version`
+5. `summary`
+6. `field_pool_items`
+7. `manual_review_fields`
+8. `evidence_refs`
+9. `tool_calls`
+
+## 5. 核心方法
+
+### 5.1 `run(input) -> FieldExtractionReportBuildOutput`
+
+主入口方法。
+
+### 5.2 `build_summary(field_pool_items) -> dict`
+
+汇总字段数量、已抽取数量、待复核数量和冲突候选数量。
+
+### 5.3 `build_field_rows(field_pool_items) -> list[dict]`
+
+生成字段池页面表格。
+
+### 5.4 `build_audit_payload(report, context) -> dict`
+
+生成审计载荷。
+
+### 5.5 `build_feishu_summary_payload(report) -> dict`
+
+生成飞书摘要载荷。
+
+## 6. 技术实现
+
+使用技术：
+
+1. dataclass/Pydantic
+2. JSONField
+3. Audit 服务
+4. 页面展示 schema
+
+## 7. 异常处理
+
+1. 字段池为空：输出空报告并提示无可用字段。
+2. 报告字段缺失：任务失败。
+3. 审计写入失败：报告仍返回，但记录系统警告。
+4. 飞书摘要构建失败：不影响 Web 报告。
+
+## 8. 测试要点
+
+1. 输出 schema 稳定。
+2. 字段池行展示完整。
+3. 审计载荷包含字段 schema 版本。
+4. 飞书摘要不包含敏感信息。
+
--- a/docs/详细设计/skill/字段抽取编排Skill.md
+++ b/docs/详细设计/skill/字段抽取编排Skill.md
@@ -0,0 +1,114 @@
+# 字段抽取编排Skill 设计
+
+## 1. Skill 定位
+
+`字段抽取编排Skill` 是第三步工作流的总入口 Skill，负责组织字段抽取范围确认、字段 schema 加载、规则抽取、表格抽取、长文本归纳、字段标准化、统一字段池写入和报告生成。
+
+英文实现标识建议使用 `FieldExtractionOrchestrateSkill`。
+
+本 Skill 不直接完成每一种抽取细节，而是负责执行顺序和结果合并。
+
+## 2. 输入
+
+```python
+@dataclass
+class FieldExtractionOrchestrateInput:
+    batch_id: int
+    scenario_id: str = "registration_field_extraction"
+    field_schema_id: str = "ivd_registration_fields_v1"
+    selected_document_ids: list[int] = field(default_factory=list)
+    target_field_keys: list[str] = field(default_factory=list)
+    enable_llm_fallback: bool = True
+    enable_rag_context: bool = True
+```
+
+## 3. 输出
+
+```python
+@dataclass
+class FieldExtractionOrchestrateOutput:
+    report_type: str
+    batch_id: int
+    field_schema_id: str
+    summary: dict
+    field_pool_items: list[dict]
+    manual_review_fields: list[dict]
+    evidence_refs: list[dict]
+    audit_id: int | None = None
+```
+
+## 4. 依赖 Skill
+
+1. `字段抽取范围确认Skill`
+2. `字段Schema加载Skill`
+3. `规则字段抽取Skill`
+4. `表格字段抽取Skill`
+5. `长文本字段归纳Skill`
+6. `字段标准化Skill`
+7. `统一字段池写入Skill`
+8. `字段抽取报告生成Skill`
+
+## 5. 核心方法
+
+### 5.1 `run(input) -> FieldExtractionOrchestrateOutput`
+
+主入口方法。
+
+执行顺序：
+
+1. 加载执行上下文。
+2. 调用 `字段抽取范围确认Skill`。
+3. 调用 `字段Schema加载Skill`。
+4. 调用 `规则字段抽取Skill`。
+5. 调用 `表格字段抽取Skill`。
+6. 按需调用 `长文本字段归纳Skill`。
+7. 调用 `字段标准化Skill`。
+8. 调用 `统一字段池写入Skill`。
+9. 调用 `字段抽取报告生成Skill`。
+10. 写入审计记录。
+
+### 5.2 `load_execution_context(input) -> FieldExtractionContext`
+
+加载批次、文档、完整性检查报告和已有字段池状态。
+
+### 5.3 `merge_field_candidates(*candidate_groups) -> list[FieldCandidate]`
+
+合并规则抽取、表格抽取和长文本归纳结果。
+
+### 5.4 `filter_target_fields(schema, target_field_keys) -> list[FieldDefinition]`
+
+筛选本次需要抽取的字段。
+
+## 6. 技术实现
+
+使用技术：
+
+1. Python dataclass 或 Pydantic
+2. Tool Registry
+3. LLM Provider
+4. Django 服务层
+5. Audit 服务
+
+建议注册名：
+
+```python
+tool_registry.register(
+    name="field_extraction_orchestrate",
+    handler=FieldExtractionOrchestrateSkill().run,
+)
+```
+
+## 7. 异常处理
+
+1. 无可抽取文档：返回业务提示。
+2. 字段 schema 不存在：任务失败并写审计。
+3. LLM 不可用：跳过 LLM，保留规则和表格结果。
+4. 所有抽取方式均失败：返回待人工复核报告。
+
+## 8. 测试要点
+
+1. 能按顺序调用依赖 Skill。
+2. LLM 关闭时仍可执行规则抽取。
+3. 无文档时返回清晰错误。
+4. 输出报告结构稳定。
+
--- a/docs/详细设计/skill/字段抽取范围确认Skill.md
+++ b/docs/详细设计/skill/字段抽取范围确认Skill.md
@@ -0,0 +1,79 @@
+# 字段抽取范围确认Skill 设计
+
+## 1. Skill 定位
+
+`字段抽取范围确认Skill` 负责确定本次字段抽取使用哪些文档，以及每个目标字段优先从哪些文档角色中抽取。
+
+英文实现标识建议使用 `FieldExtractionScopeResolveSkill`。
+
+## 2. 输入
+
+```python
+@dataclass
+class FieldExtractionScopeResolveInput:
+    documents: list[DocumentFact]
+    selected_document_ids: list[int]
+    target_field_keys: list[str]
+    field_source_priority: dict
+```
+
+## 3. 输出
+
+```python
+@dataclass
+class FieldExtractionScopeResolveOutput:
+    extractable_documents: list[DocumentFact]
+    excluded_documents: list[dict]
+    field_document_plan: dict[str, list[DocumentFact]]
+    warnings: list[dict]
+```
+
+## 4. 文档筛选规则
+
+参与抽取的文档必须满足：
+
+1. `source_role = submission`
+2. 文档处理状态可用。
+3. 文档存在文本或表格结构。
+4. 文档角色属于字段来源配置。
+
+排除：
+
+1. 法规依据资料。
+2. 不支持文件。
+3. 解析失败且无可用文本。
+4. 用户未选择且不在默认来源范围内的文档。
+
+## 5. 核心方法
+
+### 5.1 `run(input) -> FieldExtractionScopeResolveOutput`
+
+主入口方法。
+
+### 5.2 `filter_extractable_documents(documents) -> list[DocumentFact]`
+
+筛选可抽取文档。
+
+### 5.3 `build_field_document_plan(fields, documents, priority) -> dict`
+
+为每个字段构建候选文档顺序。
+
+### 5.4 `collect_scope_warnings(documents) -> list[dict]`
+
+收集待复核、解析失败、文本缺失等警告。
+
+## 6. 技术实现
+
+使用技术：
+
+1. 文档角色枚举
+2. YAML 来源优先级
+3. Python 排序规则
+
+## 7. 测试要点
+
+1. 法规资料被排除。
+2. 申请表、说明书、产品列表被纳入。
+3. 用户选择文档时只使用选中范围。
+4. 待复核文档会降低抽取可信度。
+
--- a/docs/详细设计/skill/字段标准化Skill.md
+++ b/docs/详细设计/skill/字段标准化Skill.md
@@ -0,0 +1,83 @@
+# 字段标准化Skill 设计
+
+## 1. Skill 定位
+
+`字段标准化Skill` 负责对字段候选值进行清洗、标准化、置信度计算和冲突候选标记。
+
+英文实现标识建议使用 `FieldNormalizeSkill`。
+
+## 2. 输入
+
+```python
+@dataclass
+class FieldNormalizeInput:
+    candidates: list[FieldCandidate]
+    field_definitions: list[FieldDefinition]
+    source_priority: dict
+```
+
+## 3. 输出
+
+```python
+@dataclass
+class FieldNormalizeOutput:
+    normalized_candidates: list[NormalizedFieldCandidate]
+    conflict_candidates: list[dict]
+    manual_review_candidates: list[dict]
+```
+
+## 4. 标准化规则
+
+1. 去除首尾空白。
+2. 合并连续空白。
+3. 全角半角标准化。
+4. 中文标点标准化。
+5. 日期格式标准化。
+6. 单位格式标准化。
+7. 空值和异常长值标记待复核。
+
+## 5. 核心方法
+
+### 5.1 `run(input) -> FieldNormalizeOutput`
+
+主入口方法。
+
+### 5.2 `normalize_text_value(value) -> str`
+
+文本清洗。
+
+### 5.3 `normalize_date_value(value) -> str`
+
+日期标准化。
+
+### 5.4 `calculate_confidence(candidate, field_definition) -> str`
+
+计算置信度。
+
+### 5.5 `detect_conflict_candidates(candidates) -> list[dict]`
+
+检测同字段多候选值差异。
+
+## 6. 技术实现
+
+使用技术：
+
+1. Python 字符串处理
+2. 正则表达式
+3. 日期解析
+4. 字段类型规则
+
+## 7. 异常处理
+
+1. 值为空：标记待复核。
+2. 值过长：标记待复核。
+3. 日期无法解析：保留原值并标记低可信。
+4. 多候选不一致：标记 `conflict_candidate`。
+
+## 8. 测试要点
+
+1. 空白和标点标准化正确。
+2. 日期标准化正确。
+3. 多候选冲突可识别。
+4. 低可信候选进入待复核。
+
--- a/docs/详细设计/skill/统一字段池写入Skill.md
+++ b/docs/详细设计/skill/统一字段池写入Skill.md
@@ -0,0 +1,83 @@
+# 统一字段池写入Skill 设计
+
+## 1. Skill 定位
+
+`统一字段池写入Skill` 负责将标准化后的字段候选写入统一字段池，并为每个字段选择推荐值、保留候选值和来源证据。
+
+英文实现标识建议使用 `UnifiedFieldPoolWriteSkill`。
+
+## 2. 输入
+
+```python
+@dataclass
+class UnifiedFieldPoolWriteInput:
+    batch_id: int
+    normalized_candidates: list[NormalizedFieldCandidate]
+    field_definitions: list[FieldDefinition]
+    source_priority: dict
+```
+
+## 3. 输出
+
+```python
+@dataclass
+class UnifiedFieldPoolWriteOutput:
+    field_pool_items: list[FieldPoolItem]
+    candidate_records: list[dict]
+    manual_review_fields: list[dict]
+    write_status: str
+```
+
+## 4. 推荐值选择规则
+
+1. 优先选择高置信候选。
+2. 同置信度时按来源优先级选择。
+3. 来源优先级一致时选择规则抽取结果。
+4. 多候选值明显不同则标记 `conflict_candidate`。
+5. 待人工复核字段不作为无条件回填值。
+
+## 5. 核心方法
+
+### 5.1 `run(input) -> UnifiedFieldPoolWriteOutput`
+
+主入口方法。
+
+### 5.2 `group_candidates_by_field(candidates) -> dict`
+
+按 `field_key` 分组。
+
+### 5.3 `select_recommended_value(field_key, candidates, priority) -> FieldPoolItem`
+
+选择推荐值。
+
+### 5.4 `persist_field_pool_item(item) -> RegistrationFieldPoolItem`
+
+写入字段池。
+
+### 5.5 `persist_field_candidates(item, candidates) -> None`
+
+保留所有候选值。
+
+## 6. 技术实现
+
+使用技术：
+
+1. Django ORM
+2. JSONField
+3. 批量写入
+4. 唯一约束：`batch + field_key`
+
+## 7. 异常处理
+
+1. 没有候选值：写入空字段并标记待复核。
+2. 数据库写入失败：任务失败并写审计。
+3. 字段重复写入：更新字段池版本或覆盖当前批次结果。
+4. 候选冲突：保留候选并标记冲突候选。
+
+## 8. 测试要点
+
+1. 高置信候选被选为推荐值。
+2. 来源优先级生效。
+3. 冲突候选被保留。
+4. 可回填字段标记正确。
+
--- a/docs/详细设计/skill/表格字段抽取Skill.md
+++ b/docs/详细设计/skill/表格字段抽取Skill.md
@@ -0,0 +1,81 @@
+# 表格字段抽取Skill 设计
+
+## 1. Skill 定位
+
+`表格字段抽取Skill` 负责从申请表、产品列表、标准清单等表格结构中抽取字段候选值。
+
+英文实现标识建议使用 `TableFieldExtractSkill`。
+
+## 2. 输入
+
+```python
+@dataclass
+class TableFieldExtractInput:
+    documents: list[DocumentContent]
+    field_definitions: list[FieldDefinition]
+```
+
+## 3. 输出
+
+```python
+@dataclass
+class TableFieldExtractOutput:
+    candidates: list[FieldCandidate]
+    failed_tables: list[dict]
+    tool_calls: list[dict]
+```
+
+## 4. 适用字段
+
+1. 产品名称。
+2. 包装规格。
+3. 申请人名称。
+4. 分类编码。
+5. 生产地址。
+6. 标准清单。
+
+## 5. 核心方法
+
+### 5.1 `run(input) -> TableFieldExtractOutput`
+
+主入口方法。
+
+### 5.2 `normalize_table(table) -> NormalizedTable`
+
+标准化表头、空单元格和合并单元格。
+
+### 5.3 `match_table_header(table, field_definition) -> TableMatch | None`
+
+匹配表头。
+
+### 5.4 `extract_cell_value(table, match) -> FieldCandidate`
+
+抽取单元格值。
+
+### 5.5 `build_table_source_location(table_index, row_index, col_index) -> SourceLocation`
+
+记录表格来源位置。
+
+## 6. 技术实现
+
+使用技术：
+
+1. `python-docx`
+2. `pdfplumber`
+3. 表头关键词映射
+4. 合并单元格兼容处理
+
+## 7. 异常处理
+
+1. 无表格：跳过。
+2. 表头无法识别：记录待复核。
+3. 合并单元格解析失败：记录表格失败。
+4. 多行多值：保留所有候选。
+
+## 8. 测试要点
+
+1. 能从申请表抽取产品名称。
+2. 能从产品列表抽取包装规格。
+3. 能记录表格坐标。
+4. 表格解析失败不影响规则抽取。
+
--- a/docs/详细设计/skill/规则字段抽取Skill.md
+++ b/docs/详细设计/skill/规则字段抽取Skill.md
@@ -0,0 +1,78 @@
+# 规则字段抽取Skill 设计
+
+## 1. Skill 定位
+
+`规则字段抽取Skill` 负责从标题、段落和固定标签中抽取字段候选值，适合处理格式稳定、标签明确的注册申报字段。
+
+英文实现标识建议使用 `RuleFieldExtractSkill`。
+
+## 2. 输入
+
+```python
+@dataclass
+class RuleFieldExtractInput:
+    documents: list[DocumentContent]
+    field_definitions: list[FieldDefinition]
+```
+
+## 3. 输出
+
+```python
+@dataclass
+class RuleFieldExtractOutput:
+    candidates: list[FieldCandidate]
+    failed_fields: list[dict]
+    tool_calls: list[dict]
+```
+
+## 4. 抽取方式
+
+1. 标题后取值。
+2. 标签后取值。
+3. 固定段落规则。
+4. 正则匹配。
+
+## 5. 核心方法
+
+### 5.1 `run(input) -> RuleFieldExtractOutput`
+
+主入口方法。
+
+### 5.2 `extract_by_heading(document, field_definition) -> FieldCandidate | None`
+
+从标题结构中抽取。
+
+### 5.3 `extract_by_label(document, field_definition) -> FieldCandidate | None`
+
+从标签字段中抽取。
+
+### 5.4 `extract_by_regex(document, field_definition) -> FieldCandidate | None`
+
+使用字段配置中的正则规则抽取。
+
+### 5.5 `build_candidate(field, value, source) -> FieldCandidate`
+
+构建字段候选。
+
+## 6. 技术实现
+
+使用技术：
+
+1. `re`
+2. 文本结构解析结果
+3. 中文标点标准化
+
+## 7. 异常处理
+
+1. 文本为空：跳过该文档。
+2. 多个候选：全部保留。
+3. 正则异常：记录工具失败。
+4. 候选值过长：标记待复核。
+
+## 8. 测试要点
+
+1. 能从标题抽取产品名称。
+2. 能从标签抽取储存条件。
+3. 多候选值全部保留。
+4. 空文本不报错。
+
--- a/docs/详细设计/skill/长文本字段归纳Skill.md
+++ b/docs/详细设计/skill/长文本字段归纳Skill.md
@@ -0,0 +1,83 @@
+# 长文本字段归纳Skill 设计
+
+## 1. Skill 定位
+
+`长文本字段归纳Skill` 负责对规则和表格无法稳定抽取的长文本字段进行证据限定后的 LLM 归纳。
+
+英文实现标识建议使用 `LongTextFieldSummarizeSkill`。
+
+本 Skill 必须通过 LLM Provider 调用模型，并支持 Mock Provider。
+
+## 2. 输入
+
+```python
+@dataclass
+class LongTextFieldSummarizeInput:
+    documents: list[DocumentContent]
+    field_definitions: list[FieldDefinition]
+    enable_rag_context: bool = True
+```
+
+## 3. 输出
+
+```python
+@dataclass
+class LongTextFieldSummarizeOutput:
+    candidates: list[FieldCandidate]
+    evidence_refs: list[EvidenceRef]
+    tool_calls: list[dict]
+    failed_fields: list[dict]
+```
+
+## 4. 处理字段
+
+1. 检测靶标。
+2. 适用范围 / 预期用途。
+3. 性能指标。
+4. 临床评价路径。
+
+## 5. 核心方法
+
+### 5.1 `run(input) -> LongTextFieldSummarizeOutput`
+
+主入口方法。
+
+### 5.2 `locate_field_context(document, field_definition) -> list[EvidenceChunk]`
+
+通过 RAG 或关键词定位候选片段。
+
+### 5.3 `build_llm_prompt(field_definition, chunks) -> str`
+
+构造限定上下文提示词。
+
+### 5.4 `call_provider(prompt, output_schema) -> dict`
+
+调用 LLM Provider。
+
+### 5.5 `validate_output(output) -> FieldCandidate`
+
+校验结构化输出。
+
+## 6. 技术实现
+
+使用技术：
+
+1. RAG fallback / Chroma
+2. LLM Provider
+3. JSON schema
+4. Mock Provider
+
+## 7. 异常处理
+
+1. 找不到候选片段：字段标记待人工复核。
+2. Provider 不可用：跳过 LLM。
+3. 输出 JSON 非法：丢弃结果。
+4. 输出没有来源片段：标记低可信。
+
+## 8. 测试要点
+
+1. Mock Provider 可返回固定字段。
+2. 找不到上下文时不会编造字段。
+3. 非法 JSON 被拦截。
+4. LLM 关闭时主流程仍可完成。
+