# 知识资产与文件解析模块需求 ## 1. 模块目标 知识资产与文件解析模块负责把外部文件变成可检索知识资产,覆盖知识库维护、文件上传、文本解析、切片、向量化和索引状态管理。 ## 2. 核心场景 1. 知识维护者创建知识库并批量上传文档。 2. 系统保存附件元数据并创建 `rag_document`。 3. 文档解析管道抽取文本并保存解析快照。 4. 用户选择切片策略生成 `rag_chunk`。 5. 系统调用 Embedding 模型写入 `rag_chunk_embedding`。 6. 知识库达到可检索状态后供 Workflow 和 Agent 调用。 ## 3. 功能需求 - 知识库支持新增、编辑、删除、查询和概览统计。 - 文档支持上传、解析、解析失败重试、切片和索引状态查看。 - 解析结果必须落到 `rag_document_parse_result`,切片不能直接依赖原始附件。 - 同一文档重新切片时,必须替换旧切片并推动索引重建。 - 知识库必须绑定稳定的 Embedding 模型和向量维度。 - 前端需要展示文档健康度、解析失败数、待向量化任务数和发布影响。 ## 4. 验收标准 - 能从知识库视角看到文档数量、解析状态、索引状态和切片数量。 - 能从文件解析管道看到上传、解析、切片、向量化、可检索的阶段。 - 枚举值与现有 `RagParseStatusEnum`、`RagIndexStatusEnum`、`RagChunkStrategyEnum` 一致。 ## 5. 关联资料 - 表:`rag_store`、`rag_document`、`rag_document_parse_result`、`rag_chunk`、`rag_chunk_embedding`、`rag_store_model_config` - 枚举:`rag/parse_status`、`rag/index_status`、`rag/chunk_strategy` - 脚本:`script/sql/rag_store.sql`、`script/sql/rag_document.sql`、`script/sql/rag_document_parse_result.sql`、`script/sql/rag_chunk.sql`、`script/sql/rag_chunk_embedding.sql` - 前端原型:`KnowledgeWorkspacePage.vue`、`IngestionPipelinePage.vue`