1.9 KiB
1.9 KiB
知识资产与文件解析模块需求
1. 模块目标
知识资产与文件解析模块负责把外部文件变成可检索知识资产,覆盖知识库维护、文件上传、文本解析、切片、向量化和索引状态管理。
2. 核心场景
- 知识维护者创建知识库并批量上传文档。
- 系统保存附件元数据并创建
rag_document。 - 文档解析管道抽取文本并保存解析快照。
- 用户选择切片策略生成
rag_chunk。 - 系统调用 Embedding 模型写入
rag_chunk_embedding。 - 知识库达到可检索状态后供 Workflow 和 Agent 调用。
3. 功能需求
- 知识库支持新增、编辑、删除、查询和概览统计。
- 文档支持上传、解析、解析失败重试、切片和索引状态查看。
- 解析结果必须落到
rag_document_parse_result,切片不能直接依赖原始附件。 - 同一文档重新切片时,必须替换旧切片并推动索引重建。
- 知识库必须绑定稳定的 Embedding 模型和向量维度。
- 前端需要展示文档健康度、解析失败数、待向量化任务数和发布影响。
4. 验收标准
- 能从知识库视角看到文档数量、解析状态、索引状态和切片数量。
- 能从文件解析管道看到上传、解析、切片、向量化、可检索的阶段。
- 枚举值与现有
RagParseStatusEnum、RagIndexStatusEnum、RagChunkStrategyEnum一致。
5. 关联资料
- 表:
rag_store、rag_document、rag_document_parse_result、rag_chunk、rag_chunk_embedding、rag_store_model_config - 枚举:
rag/parse_status、rag/index_status、rag/chunk_strategy - 脚本:
script/sql/rag_store.sql、script/sql/rag_document.sql、script/sql/rag_document_parse_result.sql、script/sql/rag_chunk.sql、script/sql/rag_chunk_embedding.sql - 前端原型:
KnowledgeWorkspacePage.vue、IngestionPipelinePage.vue