59 lines
1.2 KiB
Markdown
59 lines
1.2 KiB
Markdown
# 3. 字段抽取与统一字段池详细设计
|
|
|
|
## 1. 设计目标
|
|
|
|
本步骤负责从说明书、申请表、产品列表等资料中抽取关键字段,并写入统一字段池,供一致性核查、风险判断和 Word 回填复用。
|
|
|
|
## 2. 输入
|
|
|
|
1. `batch_id`
|
|
2. `conversation_id`
|
|
3. `product_name`
|
|
4. `document_scope`
|
|
5. `field_schema`
|
|
6. `source_priority`
|
|
|
|
## 3. 字段池模型
|
|
|
|
字段项至少包含:
|
|
|
|
1. `field_code`
|
|
2. `field_name`
|
|
3. `field_value`
|
|
4. `source_document_id`
|
|
5. `source_location`
|
|
6. `confidence`
|
|
7. `review_status`
|
|
8. `fillable`
|
|
|
|
## 4. 抽取策略
|
|
|
|
1. 规则抽取显式字段
|
|
2. 表格抽取规格与结构化字段
|
|
3. LLM 归纳长文本字段
|
|
4. 来源优先级合并同名字段
|
|
|
|
## 5. 输出对象
|
|
|
|
`registration_field_extraction_report` 至少包含:
|
|
|
|
1. `field_items`
|
|
2. `source_documents`
|
|
3. `low_confidence_items`
|
|
4. `fillable_items`
|
|
|
|
## 6. 对话节点要求
|
|
|
|
字段抽取节点应展示:
|
|
|
|
1. 已抽取字段数
|
|
2. 待复核字段数
|
|
3. 关键字段来源
|
|
4. 是否可回填
|
|
|
|
## 7. 验收标准
|
|
|
|
1. 统一字段池可支撑后续一致性核查和回填。
|
|
2. 低置信度字段有明确待复核标记。
|
|
3. 对话中可解释字段来源和采用逻辑。
|