Files
common_agent/需求分析/2.知识资产与文件解析模块需求.md

1.9 KiB

知识资产与文件解析模块需求

1. 模块目标

知识资产与文件解析模块负责把外部文件变成可检索知识资产,覆盖知识库维护、文件上传、文本解析、切片、向量化和索引状态管理。

2. 核心场景

  1. 知识维护者创建知识库并批量上传文档。
  2. 系统保存附件元数据并创建 rag_document
  3. 文档解析管道抽取文本并保存解析快照。
  4. 用户选择切片策略生成 rag_chunk
  5. 系统调用 Embedding 模型写入 rag_chunk_embedding
  6. 知识库达到可检索状态后供 Workflow 和 Agent 调用。

3. 功能需求

  • 知识库支持新增、编辑、删除、查询和概览统计。
  • 文档支持上传、解析、解析失败重试、切片和索引状态查看。
  • 解析结果必须落到 rag_document_parse_result,切片不能直接依赖原始附件。
  • 同一文档重新切片时,必须替换旧切片并推动索引重建。
  • 知识库必须绑定稳定的 Embedding 模型和向量维度。
  • 前端需要展示文档健康度、解析失败数、待向量化任务数和发布影响。

4. 验收标准

  • 能从知识库视角看到文档数量、解析状态、索引状态和切片数量。
  • 能从文件解析管道看到上传、解析、切片、向量化、可检索的阶段。
  • 枚举值与现有 RagParseStatusEnumRagIndexStatusEnumRagChunkStrategyEnum 一致。

5. 关联资料

  • 表:rag_storerag_documentrag_document_parse_resultrag_chunkrag_chunk_embeddingrag_store_model_config
  • 枚举:rag/parse_statusrag/index_statusrag/chunk_strategy
  • 脚本:script/sql/rag_store.sqlscript/sql/rag_document.sqlscript/sql/rag_document_parse_result.sqlscript/sql/rag_chunk.sqlscript/sql/rag_chunk_embedding.sql
  • 前端原型:KnowledgeWorkspacePage.vueIngestionPipelinePage.vue