Files
DEMO-AGENT/docs/详细设计/3.字段抽取与统一字段池.md

1.2 KiB

3. 字段抽取与统一字段池详细设计

1. 设计目标

本步骤负责从说明书、申请表、产品列表等资料中抽取关键字段,并写入统一字段池,供一致性核查、风险判断和 Word 回填复用。

2. 输入

  1. batch_id
  2. conversation_id
  3. product_name
  4. document_scope
  5. field_schema
  6. source_priority

3. 字段池模型

字段项至少包含:

  1. field_code
  2. field_name
  3. field_value
  4. source_document_id
  5. source_location
  6. confidence
  7. review_status
  8. fillable

4. 抽取策略

  1. 规则抽取显式字段
  2. 表格抽取规格与结构化字段
  3. LLM 归纳长文本字段
  4. 来源优先级合并同名字段

5. 输出对象

registration_field_extraction_report 至少包含:

  1. field_items
  2. source_documents
  3. low_confidence_items
  4. fillable_items

6. 对话节点要求

字段抽取节点应展示:

  1. 已抽取字段数
  2. 待复核字段数
  3. 关键字段来源
  4. 是否可回填

7. 验收标准

  1. 统一字段池可支撑后续一致性核查和回填。
  2. 低置信度字段有明确待复核标记。
  3. 对话中可解释字段来源和采用逻辑。