docs(详细设计): 新增字段抽取与字段池设计

2026-06-03 21:00:28 +08:00
parent 759939b446
commit 4208f29d77
10 changed files with 1423 additions and 0 deletions
--- a/docs/详细设计/skill/长文本字段归纳Skill.md
+++ b/docs/详细设计/skill/长文本字段归纳Skill.md
@@ -0,0 +1,83 @@
+# 长文本字段归纳Skill 设计
+
+## 1. Skill 定位
+
+`长文本字段归纳Skill` 负责对规则和表格无法稳定抽取的长文本字段进行证据限定后的 LLM 归纳。
+
+英文实现标识建议使用 `LongTextFieldSummarizeSkill`。
+
+本 Skill 必须通过 LLM Provider 调用模型，并支持 Mock Provider。
+
+## 2. 输入
+
+```python
+@dataclass
+class LongTextFieldSummarizeInput:
+    documents: list[DocumentContent]
+    field_definitions: list[FieldDefinition]
+    enable_rag_context: bool = True
+```
+
+## 3. 输出
+
+```python
+@dataclass
+class LongTextFieldSummarizeOutput:
+    candidates: list[FieldCandidate]
+    evidence_refs: list[EvidenceRef]
+    tool_calls: list[dict]
+    failed_fields: list[dict]
+```
+
+## 4. 处理字段
+
+1. 检测靶标。
+2. 适用范围 / 预期用途。
+3. 性能指标。
+4. 临床评价路径。
+
+## 5. 核心方法
+
+### 5.1 `run(input) -> LongTextFieldSummarizeOutput`
+
+主入口方法。
+
+### 5.2 `locate_field_context(document, field_definition) -> list[EvidenceChunk]`
+
+通过 RAG 或关键词定位候选片段。
+
+### 5.3 `build_llm_prompt(field_definition, chunks) -> str`
+
+构造限定上下文提示词。
+
+### 5.4 `call_provider(prompt, output_schema) -> dict`
+
+调用 LLM Provider。
+
+### 5.5 `validate_output(output) -> FieldCandidate`
+
+校验结构化输出。
+
+## 6. 技术实现
+
+使用技术：
+
+1. RAG fallback / Chroma
+2. LLM Provider
+3. JSON schema
+4. Mock Provider
+
+## 7. 异常处理
+
+1. 找不到候选片段：字段标记待人工复核。
+2. Provider 不可用：跳过 LLM。
+3. 输出 JSON 非法：丢弃结果。
+4. 输出没有来源片段：标记低可信。
+
+## 8. 测试要点
+
+1. Mock Provider 可返回固定字段。
+2. 找不到上下文时不会编造字段。
+3. 非法 JSON 被拦截。
+4. LLM 关闭时主流程仍可完成。
+