docs(requirements): 补充飞书接入与法规规则源口径

This commit is contained in:
2026-06-02 23:49:25 +08:00
parent 59d522be0c
commit dc4c605723
8 changed files with 409 additions and 82 deletions

View File

@@ -23,7 +23,7 @@
题面要求系统处理的是“整包注册资料”,这意味着配置层必须面向文件密集型、规则密集型场景设计。与普通问答系统相比,本题配置上至少多出以下关注点:
- 上传目录不仅要按场景分,还要考虑按项目批次、申报轮次、资料章节分层。
- 规则来源不止一个 YAML可能包括法规目录模板、字段抽取模板、一致性校验规则风险分级规则。
- 规则来源不止一个 YAML可能包括法规目录模板、字段抽取模板、一致性校验规则风险分级规则,以及公告附件原文所对应的结构化法规包
- 文档解析链路中可能同时使用 `pdfplumber``PyMuPDF`、Word 解析库、OCR 预留能力,因此要有可切换的解析策略配置。
- 审计数据不能只保留“问答日志”,还要能关联具体资料批次和审核任务。
@@ -54,6 +54,7 @@
需要统一管理以下路径:
- 原始上传文件根目录
- 法规原文资料目录
- 文本抽取中间结果目录
- 结构化抽取结果目录
- 向量库目录
@@ -75,6 +76,8 @@
本题的法规完整性核查、一致性检查,很多内容应以规则为主、模型为辅,因此配置层应支持这种策略切换。
同时,考虑到新增公告附件包中同时存在“注册申报”“变更备案 / 变更注册”“延续注册”等不同业务类型,配置层还应支持按任务类型切换规则集。
### 4.4 环境隔离与安全控制
负责确保:
@@ -108,9 +111,15 @@
- `REPORT_EXPORT_ROOT`
审核报告导出目录。
- `WORD_EXPORT_ROOT`
Word 回填结果与新生成文档导出目录。
- `RULESET_DIR`
法规目录模板、字段规则、风险规则所在目录。
- `REG_SOURCE_DIR`
法规原文与公告附件所在目录。
- `CHROMA_PATH`
向量库目录。
@@ -162,8 +171,25 @@
- `FIELD_SCHEMA_VERSION`
当前产品关键信息字段定义版本。
- `REG_WORKFLOW_TYPE`
当前审核任务所对应的法规流程类型,如 `registration``change``renewal`
- `REG_FORMAT_TEMPLATE_VERSION`
当前启用的批准证明文件格式模板版本。
- `FEISHU_APP_ID`
- `FEISHU_APP_SECRET`
- `FEISHU_BOT_NAME`
- `FEISHU_ENABLE_CHANNEL`
- `FEISHU_CALLBACK_URL`
- `FEISHU_CLI_ENABLED`
用于支持飞书应用、机器人入口、事件回调和 CLI / MCP 工具接入。
这三个配置很关键,因为题面中的法规条目和样例材料未来可能变化,系统必须能讲清楚“按哪个版本在审”。
新增公告附件包后,这类版本配置的重要性进一步提高,因为系统不仅要说明“按哪个资料目录模板在审”,还要说明“按哪个公告附件包和哪个文件格式要求在审”。
## 6. 路径与目录结构需求
### 6.1 建议的目录设计
@@ -187,6 +213,8 @@ data/
rules/
registration/
completeness/
format/
essential-principles/
extraction/
consistency/
risk/
@@ -198,6 +226,8 @@ rules/
- 同一项目多批资料
- 原始文件与处理中间结果分离
- 规则版本独立维护
- 注册申报、变更备案、延续注册可分开维护规则包
- Word 输出模板与导出结果独立管理
### 6.2 路径命名要求
@@ -277,6 +307,8 @@ rules/
2. 增加抽取结果目录、报告目录、规则目录等配置。
3. 增加法规规则版本与字段 schema 版本配置。
4.`.doc``.docx`、PDF 页数统计和解析策略提供显式配置位。
5. 增加法规原文目录、法规流程类型和文件格式模板版本配置。
6. 增加 Word 导出目录和飞书应用接入相关配置。
## 11. 本模块验收标准