docs(requirements): 固化资料包解析确认口径

This commit is contained in:
zhiye.sun
2026-06-03 14:10:20 +08:00
parent 5125f79037
commit 56a332a7dd
7 changed files with 85 additions and 46 deletions

View File

@@ -48,7 +48,9 @@
- 文件夹选择或拖拽上传
- 压缩包上传并自动解包
压缩包建议覆盖 `zip``rar``7z` 等常见格式。解包后应保留压缩包内的原始相对路径,用于还原资料目录、识别章节点和判断是否存在目录层级异常。
压缩包覆盖 `zip``rar``7z` 等常见格式。解包后应保留压缩包内的原始相对路径,并将多层目录按原目录作为章节点识别依据,用于还原资料目录、识别章节点和判断是否存在目录层级异常。
`rar``7z` 解压必须采用纯 Python 实现,允许新增第三方 Python 包依赖,避免服务器部署时依赖系统级解压工具。
除用户上传的申报资料外,系统还需要支持管理平台内置法规资料,例如:
@@ -234,10 +236,11 @@
页数统计是本题显式要求,需支持:
- PDF 精确页数统计
- Word 文件页数估算或格式解析策略
- DOCX 精确页数统计
- DOC 文件页数统计或待人工复核策略
- 目录页码与实际文件页数比对
即便首版不能对所有 Word 做精确页数恢复,也需要在需求上明确“统计可信度”和“估算标识”。
DOCX 页数必须精确,不能以估算页数作为 V1 验收结果。DOC 如受格式限制无法精确统计,应标记为“待人工复核”。
页数结果建议拆分为:
@@ -245,7 +248,7 @@
- `page_count_method`
- `page_count_confidence`
例如 PDF 解析可标记为“精确”,DOCX 首版可标记为“估算DOC 或解析失败文件可标记为“待人工复核”。
例如 PDF DOCX 解析应标记为“精确DOC 或解析失败文件可标记为“待人工复核”。
### 6.4 文本抽取与索引流程