feat:添加 LPMM 知识刷新脚本并更新指南

引入脚本 scripts/refresh_lpmm_knowledge.py，用于从磁盘手动重新加载并验证 LPMM 知识库。更新用户指南和参数指南，明确说明在导入或删除 LPMM 数据后，需要重新启动或重新初始化主程序。为导入和删除脚本添加面向用户的提示，提醒用户在操作后需要重新启动或重新初始化，以使变更生效。
2025-11-27 17:26:23 +08:00 · 2025-11-27 17:26:23 +08:00 · dc3ee9bc27
parent 1383caf249
commit dc3ee9bc27
5 changed files with 101 additions and 3 deletions
--- a/docs-src/lpmm_parameters_guide.md
+++ b/docs-src/lpmm_parameters_guide.md
@ -2,6 +2,8 @@

 > 本文是对 `config/bot_config.toml` 中 `[lpmm_knowledge]` 段的补充说明。  
 > 如果你只想使用默认配置，可以不改这些参数，脚本仍然可以正常工作。
+>
+> 重要提醒：无论是修改 `[lpmm_knowledge]` 段的参数，还是通过脚本导入 / 删除 LPMM 知识库数据，主程序都需要重启（或在内部调用一次 `lpmm_start_up()`）后，新的参数和知识才会真正生效到聊天侧。

 所有与 LPMM 相关的参数，都集中在：

@ -111,6 +113,10 @@ ppr_relation_cap      = 50    # 命中关系数超过该值时自动跳过PPR
 >   - 或暂时将 `enable_ppr = false`  （除非真的出现问题，否则不建议禁用此项，大幅影响检索效果）
 > - 调整后重新执行导入或检索，观察日志与系统资源占用。

+> 小提示：每次大改参数或批量删除知识后，建议用  
+> - `scripts/test_lpmm_retrieval.py` 看回答风格是否如预期；  
+> - 如需确认当前磁盘数据能否正常初始化，可执行 `scripts/refresh_lpmm_knowledge.py` 做一次快速自检。
+
 ---

 ## 三、开启/关闭 LPMM 与模式说明
--- a/docs-src/lpmm_user_guide.md
+++ b/docs-src/lpmm_user_guide.md
@ -7,8 +7,11 @@
 - 导入 / 删除后的自检与检索效果验证

 > 说明：本文默认你已经完成 MaiBot 的基础安装，并能在项目根目录打开命令行终端。
+> 重要提醒：每次使用导入 / 删除相关脚本（如 `import_openie.py`、`delete_lpmm_items.py`）修改 LPMM 知识库后，聊天机器人 / WebUI 端要想看到最新知识，需要重启主程序，或在主程序内部显式调用一次 `lpmm_start_up()` 重新初始化 LPMM

 ---
+。
+

 ## 一、需要用到的脚本一览

@ -21,11 +24,9 @@
    调用大模型，从每个段落里抽取实体和三元组，生成中间的 OpenIE JSON 文件。
  - `scripts/import_openie.py`  
    把 `data/openie` 目录中的 OpenIE JSON 文件导入到 LPMM 知识库（向量库 + 知识图）。
-
 - 删除相关：
  - `scripts/delete_lpmm_items.py`  
    LPMM 知识库删除入口，支持按批次、按原始文本段落、按哈希列表、按关键字模糊搜索删除。
-
 - 自检相关：
  - `scripts/inspect_lpmm_global.py`  
    查看整个知识库的当前状态：段落/实体/关系条数、知识图节点/边数量、示例内容等。
@ -33,6 +34,8 @@
    针对某个 OpenIE JSON 批次，检查它在向量库和知识图中的“残留情况”（导入与删除前后对比）。
  - `scripts/test_lpmm_retrieval.py`  
    使用几条预设问题测试 LPMM 检索能力，帮助你判断知识库是否正常工作。
+    - `scripts/refresh_lpmm_knowledge.py`  
+      手动重新加载 `data/embedding` 和 `data/rag` 到内存，用来确认当前磁盘上的 LPMM 知识库能正常初始化。

 > 注意：所有命令示例都假设你已经在虚拟环境中，命令行前缀类似 `(.venv)`，并且当前目录是项目根目录。

@ -209,7 +212,7 @@
   ```bash
   .\.venv\Scripts\python.exe scripts/inspect_lpmm_batch.py ^
     --openie-file data/openie/<OPENIE>.json
-
+   
   .\.venv\Scripts\python.exe scripts/inspect_lpmm_global.py
   ```

@ -346,8 +349,21 @@
 通过对比不同时间点的输出，你可以判断：

 - 某些知识是否已经被成功删除（不再出现在回答中）；
+
 - 新增的知识是否已经能被检索到。

+### 4.4 进阶：一键刷新（可选）
+
+- 想简单确认“现在这份 data/embedding + data/rag 是否健康”？执行：
+
+  `.\.venv\Scripts\python.exe scripts/refresh_lpmm_knowledge.py `
+
+  它会尝试初始化 LPMM，并打印当前段落/实体/关系条数和图大小。
+
+
+
+
+
 ---

 ## 五、常见提示与注意事项
--- a/scripts/delete_lpmm_items.py
+++ b/scripts/delete_lpmm_items.py
@ -354,6 +354,11 @@ def main():
    )

    logger.info("删除流程完成")
+    print(
+        "\n[NOTICE] 删除脚本执行完毕。如主程序（聊天 / WebUI）已在运行，"
+        "请重启主程序，或在主程序内部调用一次 lpmm_start_up() 以应用最新 LPMM 知识库。"
+    )
+    print("[NOTICE] 如果不清楚 lpmm_start_up 是什么，直接重启主程序即可。")


 if __name__ == "__main__":
--- a/scripts/import_openie.py
+++ b/scripts/import_openie.py
@ -258,6 +258,11 @@ def main():
    try:
        # 在新的事件循环中运行异步主函数
        loop.run_until_complete(main_async())
+        print(
+            "\n[NOTICE] OpenIE 导入脚本执行完毕。如主程序（聊天 / WebUI）已在运行，"
+            "请重启主程序，或在主程序内部调用一次 lpmm_start_up() 以应用最新 LPMM 知识库。"
+        )
+        print("[NOTICE] 如果不清楚 lpmm_start_up 是什么，直接重启主程序即可。")
    finally:
        # 确保事件循环被正确关闭
        if not loop.is_closed():
--- a/scripts/refresh_lpmm_knowledge.py
+++ b/scripts/refresh_lpmm_knowledge.py
@ -0,0 +1,66 @@
+import os
+import sys
+
+try:
+    if hasattr(sys.stdout, "reconfigure"):
+        sys.stdout.reconfigure(encoding="utf-8")
+    if hasattr(sys.stderr, "reconfigure"):
+        sys.stderr.reconfigure(encoding="utf-8")
+except Exception:
+    pass
+
+# 确保能导入 src.*
+sys.path.append(os.path.abspath(os.path.join(os.path.dirname(__file__), "..")))
+
+from src.common.logger import get_logger
+from src.config.config import global_config
+from src.chat.knowledge import lpmm_start_up, get_qa_manager
+
+logger = get_logger("refresh_lpmm_knowledge")
+
+
+def main() -> None:
+    logger.info("开始刷新 LPMM 知识库（重新加载向量库与 KG）...")
+
+    if not global_config.lpmm_knowledge.enable:
+        logger.warning(
+            "当前配置中 lpmm_knowledge.enable = false，本次仅刷新磁盘数据与内存结构，"
+            "但聊天侧如未启用 LPMM 仍不会在问答中使用知识库。"
+        )
+
+    # 调用标准启动逻辑，内部会加载 data/embedding 与 data/rag
+    lpmm_start_up()
+
+    qa_manager = get_qa_manager()
+    if qa_manager is None:
+        logger.error("刷新后 qa_manager 仍为 None，请检查是否已经成功导入过 LPMM 知识库。")
+        return
+
+    # 简要输出当前知识库规模，方便人工确认
+    embed_manager = qa_manager.embed_manager
+    kg_manager = qa_manager.kg_manager
+
+    para_vec = len(embed_manager.paragraphs_embedding_store.store)
+    ent_vec = len(embed_manager.entities_embedding_store.store)
+    rel_vec = len(embed_manager.relation_embedding_store.store)
+    nodes = len(kg_manager.graph.get_node_list())
+    edges = len(kg_manager.graph.get_edge_list())
+
+    logger.info("LPMM 知识库刷新完成，当前规模：")
+    logger.info(
+        "段落向量=%d, 实体向量=%d, 关系向量=%d, KG节点=%d, KG边=%d",
+        para_vec,
+        ent_vec,
+        rel_vec,
+        nodes,
+        edges,
+    )
+
+    print("\n[REFRESH] 刷新完成，请注意：")
+    print("- 本脚本是在独立进程内执行的，用于验证磁盘数据可以正常加载。")
+    print("- 若主程序已在运行且未在内部调用 lpmm_start_up() 重新初始化，仍需重启或新增管理入口来热刷新。")
+    print("- 如果不清楚 lpmm_start_up 是什么，只需要重启主程序即可。")
+
+
+if __name__ == "__main__":
+    main()