docs(project): 更新 RAG 与模型平台现状

This commit is contained in:
2026-05-25 00:39:11 +08:00
parent 705034d41b
commit 58a6786f17
5 changed files with 110 additions and 60 deletions

View File

@@ -193,10 +193,29 @@
请求体:
```json
{
"documentIds": [1, 2]
}
```
当前行为:
- 根据附件后缀或 content type 选择 Tika 解析器
- 解析结果写入 `rag_document_parse_result`
- 解析成功后更新 `parseStatus=PARSED`
- 解析失败后更新 `parseStatus=FAILED``errorMessage`
### 3.8 批量切片知识文档
- `POST /api/rag/documents/chunk`
请求体:
```json
{
"documentIds": [1, 2],
"chunkStrategy": "FIXED_LENGTH",
"chunkStrategy": 1,
"chunkSize": 800,
"chunkOverlap": 120,
"delimiter": "。"
@@ -205,15 +224,14 @@
当前行为:
- 校验 `chunkStrategy` 是否属于 `RagChunkStrategyEnum`
- 根据附件后缀或 content type 选择 Tika 解析器
- 解析成功后更新 `parseStatus=PARSED`
- 解析失败后更新 `parseStatus=FAILED``errorMessage`
- 当前暂不写入 `rag_chunk`
- `chunkStrategy` 使用 `RagChunkStrategyEnum` 的整型枚举值,例如 `1` 表示固定长度切片,`5` 表示按分隔符切片。
- 只处理已经存在解析快照的文档。
- 按策略生成 `rag_chunk`,写入前会替换该文档已有切片。
- 当前尚未调用 Embedding 模型写入 `rag_chunk_embedding`
## 4. 下一批建议补充的接口
当前已有接口能支撑知识库、文档、上传解析入口。下一批建议聚焦切片、索引和任务化。
当前已有接口能支撑知识库、文档、上传解析和手动切片入口。下一批建议聚焦向量索引、模型配置和任务化。
### 4.1 知识库列表查询增强版
@@ -386,8 +404,9 @@
当前知识库页和知识文档页已经接入基础接口。下一步联调顺序建议:
1. 完成切片入库:
- `POST /api/rag/documents/parse` 解析后写入 `rag_chunk`
1. 完成向量入库:
- `POST /api/rag/documents/chunk` 生成 `rag_chunk`
- 通过模型网关调用 Embedding 并写入 `rag_chunk_embedding`
2. 完成索引入口:
- `POST /api/rag/documents/index`
@@ -408,10 +427,12 @@
- 批量上传:`/api/rag/documents/batchUpload`
- 知识文档列表:`/api/rag/documents/query`
- 批量解析:`/api/rag/documents/parse`
- 批量切片:`/api/rag/documents/chunk`
仍待后端补齐后再联调:
- 重建索引
- 最近任务
- 模型服务商与 Embedding 模型配置
- 检索配置
- 检索测试/召回预览