docs(agent): 同步 RAG 当前能力文档

2026-05-24 19:38:45 +08:00
parent 7575fbfeb0
commit 5a872ef197
5 changed files with 237 additions and 200 deletions
--- a/AGENT.md
+++ b/AGENT.md
@@ -11,7 +11,8 @@
 - 文件上传与附件管理
 - 前后端统一的管理控制台

-当前阶段以"先搭平台骨架，再逐步补智能能力"为主，优先保证工程结构、接口规范、知识库链路和可扩展性。
+当前阶段已经完成平台骨架、公共接口规范、知识库/知识文档管理、文档上传与解析入口。
+后续重点从"元数据可管"推进到"RAG 可检索"和"Agent 可运行"。

 ## 2. 总体设计思路

@@ -37,6 +38,7 @@

 - `sys_enum`：系统枚举配置（已完成 CRUD、批量新增、管理端查询）
 - `sys_attachment`：附件与文件上传（已完成本地上传、元数据持久化）
+- 文档解析抽象：`DocumentParser`、`DocumentParserFactory` 与 Tika 解析实现（已完成 TXT/Markdown/LOG、PDF、Word、Excel 文本抽取）
 - 统一 DTO / `RequestResult`（已完成）
 - 通用状态枚举、启用禁用枚举（已完成）
 - 全局异常处理 `GlobalExceptionHandler`（已完成）
@@ -45,19 +47,23 @@

 ### 3.2 RAG 知识库模块

-当前已有完整的元数据管理层：
+当前已有元数据管理、文档上传和解析入口：

 - `rag_store`：知识库主表（已完成 CRUD、编码唯一性校验）
- `rag_document`：知识库文档表（已完成实体、Mapper、Service、条件查询）
+- `rag_document`：知识库文档表（已完成 CRUD、条件查询、批量上传、启停用）
+- `rag_chunk`：知识切片表结构、实体、Mapper、Service（已完成结构，待生成逻辑）
+- `rag_chunk_embedding`：切片向量表结构、实体、Mapper、Service（已完成结构，待向量化逻辑）
 - RAG 解析状态枚举 `RagParseStatusEnum`（已完成）
 - RAG 索引状态枚举 `RagIndexStatusEnum`（已完成）
+- RAG 切片策略枚举 `RagChunkStrategyEnum`（已完成）
+- 文档解析接口 `/api/rag/documents/parse`（已完成状态流转和文本抽取，尚未落切片）

 后续计划继续扩展：

- 文档切片
- 向量化
- 检索召回
- 索引任务
+- 将解析结果按切片策略写入 `rag_chunk`
+- 调用 Embedding 模型并写入 `rag_chunk_embedding`
+- 检索召回与重排序
+- 索引任务、失败重试和任务日志

 当前设计原则：

@@ -94,8 +100,8 @@
 - 工作台（占位）
 - 系统枚举管理页（完整 CRUD + 批量新增）
 - 附件管理入口（占位）
- 知识库管理页（完整 CRUD + 双栏详情）
- 知识文档入口（占位）
+- 知识库管理页（完整 CRUD + 概览卡片 + 双栏详情 + 批量上传入口）
+- 知识文档页（条件查询 + 批量上传 + 批量解析入口 + 编辑/启停用/删除）

 前端技术要点：

@@ -115,7 +121,7 @@
 后续控制台至少继续覆盖：

 - 附件管理页面前端联调
- 知识文档管理页面前端联调
+- RAG 检索配置、索引任务和最近任务页面联调
 - Agent 调试页
 - 执行日志查看

@@ -177,25 +183,28 @@
 1. ~~统一接口层规范~~ DTO、返回体、基础校验、通用异常处理（已完成）
 2. ~~收紧基础模块~~ `sys_enum`、`sys_attachment`（已完成）
 3. ~~补全 RAG 基础元数据管理~~ `rag_store`、`rag_document`（已完成）
-4. 接入 Spring AI
-5. 建立 Agent 运行时骨架
-6. ~~补前端控制台基础骨架~~（已完成，部分页面待联调）
+4. ~~补全 RAG 文档上传与解析入口~~ 批量上传、Tika 文本抽取、解析状态流转（已完成）
+5. 接入切片生成与切片持久化
+6. 接入 Spring AI Embedding / Chat 模型
+7. 建立 Agent 运行时骨架
+8. ~~补前端控制台基础骨架~~（已完成，部分高级页面待联调）

 剩余重点：

- 完善 RAG 文档上传、解析、索引的业务闭环
- 补齐前端附件管理、知识文档页面的表单与接口联调
- 接入 Spring AI 并实现模型调用链路
+- 完成 RAG 解析结果到 `rag_chunk` 的落库闭环
+- 接入 Embedding，生成并保存 `rag_chunk_embedding`
+- 补齐索引任务、重试、重建索引和最近任务接口
+- 接入 Spring AI 并实现最小模型调用链路

 ## 7. 下一步建议

 结合当前代码状态，接下来建议重点做：

- 实现知识库文档上传并自动创建 `rag_document` 记录
- 建立文档解析任务入口与状态流转
- 为后续切片与向量化预留任务入口
- 补齐前端附件管理、知识文档页面的联调
- 接入 Spring AI，实现最小模型调用链路
+- 实现解析结果切片：根据 `RagChunkStrategyEnum` 生成 `rag_chunk`
+- 实现索引入口：对切片调用 Embedding 模型并写入 `rag_chunk_embedding`
+- 把 `indexStatus` 从手工字段推进为真实状态流转
+- 补齐重建索引、失败重试、最近任务接口和前端展示
+- 接入 Spring AI，实现最小 Chat / Embedding 调用链路

 ## 8. 文档用途说明

@@ -210,4 +219,4 @@
 - `agent-runtime.md`
 - `rag-design.md`
 - `api-style.md`
- `frontend-console.md`
+- `frontend-console.md`