docs(requirements): 固化资料包解析确认口径

This commit is contained in:
zhiye.sun
2026-06-03 14:10:20 +08:00
parent 5125f79037
commit 56a332a7dd
7 changed files with 85 additions and 46 deletions

View File

@@ -25,6 +25,7 @@
- 上传目录不仅要按场景分,还要考虑按项目批次、申报轮次、资料章节分层。
- 规则来源不止一个 YAML可能包括法规目录模板、字段抽取模板、一致性校验规则、风险分级规则以及公告附件原文所对应的结构化法规包。
- 文档解析链路中可能同时使用 `pdfplumber``PyMuPDF`、Word 解析库、OCR 预留能力,因此要有可切换的解析策略配置。
- 压缩包处理链路需要支持 `zip``rar``7z`,其中 `rar``7z` 必须使用纯 Python 依赖实现,不能依赖服务器系统级解压工具。
- 审计数据不能只保留“问答日志”,还要能关联具体资料批次和审核任务。
### 3.2 Demo 与真实业务之间要有明确边界
@@ -161,11 +162,17 @@
是否启用 OCR 兜底。
- `PAGE_COUNT_STRATEGY`
页数统计策略,如 PDF 直接取页数、Word 按分页符或估算策略
页数统计策略PDF 和 DOCX 必须精确统计页数DOC 如无法精确统计,应标记为待人工复核
- `DOCX_PARSE_STRATEGY`
例如“仅提取文本”“提取文本和表格”“保留章节层级”。
- `ARCHIVE_EXTRACT_STRATEGY`
压缩包解包策略。V1 要求 `zip``rar``7z` 均通过 Python 依赖实现,并保留原始相对路径。
- `ARCHIVE_CHAPTER_SOURCE`
章节点识别依据。V1 默认使用压缩包内多层目录作为章节点识别依据。
### 5.4 规则与版本配置项
- `REG_RULESET_VERSION`
@@ -321,10 +328,11 @@ admin/
1. 将当前偏“通用 Demo”的命名改造成更贴近注册申报业务的配置语义。
2. 增加抽取结果目录、报告目录、规则目录等配置。
3. 增加法规规则版本与字段 schema 版本配置。
4.`.doc``.docx`、PDF 页数统计和解析策略提供显式配置位。
4.`.doc``.docx`、PDF 页数统计和解析策略提供显式配置位,其中 DOCX 页数必须精确统计
5. 增加法规原文目录、法规流程类型和文件格式模板版本配置。
6. 增加 Word 导出目录和飞书应用接入相关配置。
7. 增加模板库目录、规则管理目录和责任人映射配置。
8. 增加纯 Python 压缩包解包依赖与策略配置,覆盖 `zip``rar``7z`
## 11. 本模块验收标准