Files
common_agent/需求分析/2.知识资产与文件解析模块需求.md

37 lines
1.9 KiB
Markdown

# 知识资产与文件解析模块需求
## 1. 模块目标
知识资产与文件解析模块负责把外部文件变成可检索知识资产,覆盖知识库维护、文件上传、文本解析、切片、向量化和索引状态管理。
## 2. 核心场景
1. 知识维护者创建知识库并批量上传文档。
2. 系统保存附件元数据并创建 `rag_document`
3. 文档解析管道抽取文本并保存解析快照。
4. 用户选择切片策略生成 `rag_chunk`
5. 系统调用 Embedding 模型写入 `rag_chunk_embedding`
6. 知识库达到可检索状态后供 Workflow 和 Agent 调用。
## 3. 功能需求
- 知识库支持新增、编辑、删除、查询和概览统计。
- 文档支持上传、解析、解析失败重试、切片和索引状态查看。
- 解析结果必须落到 `rag_document_parse_result`,切片不能直接依赖原始附件。
- 同一文档重新切片时,必须替换旧切片并推动索引重建。
- 知识库必须绑定稳定的 Embedding 模型和向量维度。
- 前端需要展示文档健康度、解析失败数、待向量化任务数和发布影响。
## 4. 验收标准
- 能从知识库视角看到文档数量、解析状态、索引状态和切片数量。
- 能从文件解析管道看到上传、解析、切片、向量化、可检索的阶段。
- 枚举值与现有 `RagParseStatusEnum``RagIndexStatusEnum``RagChunkStrategyEnum` 一致。
## 5. 关联资料
- 表:`rag_store``rag_document``rag_document_parse_result``rag_chunk``rag_chunk_embedding``rag_store_model_config`
- 枚举:`rag/parse_status``rag/index_status``rag/chunk_strategy`
- 脚本:`script/sql/rag_store.sql``script/sql/rag_document.sql``script/sql/rag_document_parse_result.sql``script/sql/rag_chunk.sql``script/sql/rag_chunk_embedding.sql`
- 前端原型:`KnowledgeWorkspacePage.vue``IngestionPipelinePage.vue`