docs(requirements): 固化资料包解析确认口径

2026-06-03 14:10:20 +08:00
parent 5125f79037
commit 56a332a7dd
7 changed files with 85 additions and 46 deletions
--- a/docs/需求分析/3.documents模块需求分析.md
+++ b/docs/需求分析/3.documents模块需求分析.md
@@ -48,7 +48,9 @@
 - 文件夹选择或拖拽上传
 - 压缩包上传并自动解包

-压缩包建议覆盖 `zip`、`rar`、`7z` 等常见格式。解包后应保留压缩包内的原始相对路径，用于还原资料目录、识别章节点和判断是否存在目录层级异常。
+压缩包覆盖 `zip`、`rar`、`7z` 等常见格式。解包后应保留压缩包内的原始相对路径，并将多层目录按原目录作为章节点识别依据，用于还原资料目录、识别章节点和判断是否存在目录层级异常。
+
+`rar`、`7z` 解压必须采用纯 Python 实现，允许新增第三方 Python 包依赖，避免服务器部署时依赖系统级解压工具。

 除用户上传的申报资料外，系统还需要支持管理平台内置法规资料，例如：

@@ -234,10 +236,11 @@
 页数统计是本题显式要求，需支持：

 - PDF 精确页数统计
- Word 文件页数估算或格式解析策略
+- DOCX 精确页数统计
+- DOC 文件页数统计或待人工复核策略
 - 目录页码与实际文件页数比对

-即便首版不能对所有 Word 做精确页数恢复，也需要在需求上明确“统计可信度”和“估算标识”。
+DOCX 页数必须精确，不能以估算页数作为 V1 验收结果。DOC 如受格式限制无法精确统计，应标记为“待人工复核”。

 页数结果建议拆分为：

@@ -245,7 +248,7 @@
 - `page_count_method`
 - `page_count_confidence`

-例如 PDF 解析可标记为“精确”，DOCX 首版可标记为“估算”，DOC 或解析失败文件可标记为“待人工复核”。
+例如 PDF 和 DOCX 解析应标记为“精确”，DOC 或解析失败文件可标记为“待人工复核”。

 ### 6.4 文本抽取与索引流程