【AI无限职场】用 SOLO 做了一个「PDF 文档解析」:科技赋能生活和工作

PDF文档解析

需求分析与项目规划

──────────────────────────────

技术调研·方案对比·项目规划·实施路线 图

20264

版本v1 .0

一 、需求分析

1.1 背景与目标

PDF是企业和个人信息交换中最常见的文档格式之一。然而,PDF的固定布局特性使得其内容提取和结构化解析成为一个技术挑战。本文档旨在对PDF解析需求进行系统化分析,并制定可执 行的项目规划。

核心目标:构建一套高效、准确、可扩展的PDF文档解析方案,能够处理多种类型的PDF文档,提取文本、表格、图 片等结构化信息。

1.2 P DF文档类型分类

不同类型的PDF文档需要 采用不同的解析策略:

类型

特征描述

解析难度

推荐方案

纯文本型 PDF

可直接复制文字,如报告、论文、合同

★☆☆

PyMuPDF / pdfplumber

扫 描件/图片型PDF

图片格式,需OCR识别

★★★

Paddl eOCR / Tesseract +布局分析

混合型PDF

文字页+扫描页 混合

★ ★☆中高

智能检测+分 类处理

表格密 集型

含大量数据表格,如财报、招标

★★☆中高

pdfplumber / Camel ot / TATR

复杂布局型

多栏、图文混排,如学术论文

★★★

Marker / Docling / AI方案

1 .3提取内容需求

根据业务场景,通常需要提取以下一种或多种内容:

纯文本内容:段落、标题、正文(用于搜索索引、全文检 索)

表格数据:结构化表格提取(用于数据录入、分析 )

图片/图表:提取嵌入的图片和图表(用于内容 管理)

文档结构:标题层级、目录 、页眉页脚(用于文档重建)

元数据 :作者、创建日期、修改记录等(用于 文档管理)

1.4使用场 景分类

场景

规模

频率

关键要求

快速提 取

少量/一次性

速度、易用性

批量处理

中等规模

定期

自动化、稳定性

系统 集成

大规模

持续

高可用、可 扩展

RAG/知识库

中大规模

持续

切片质量、语义保留

数据录入

中等规模

定期

表格 准确率、异常处理

二、技 术方案对比

2.1 Py thon核心库对比

以下是 2025-2026年主流Python PDF解析库 的综合对比:

工具

文本 提取

表格

图片

速度

许可证

荐指数

PyMuPDF (fitz )

极佳

良好

极佳

极快

AGPL/商业

★★★★★

pdfplumber

优秀

极佳

良好

中等

MIT

★★★★☆

pypdf

良好

简单

基础

Apache 2.0

★★★☆☆

p dfminer.six

良好

最慢

MIT

★ ★☆☆☆

键发现:根据arXiv 2025年跨 6类文档的系统性基准测试, PyMuPDF在词序保持和BLEU-4 分数上表现最优。

2.2 AI/深 度学习驱动工具

工具

核心能力

表格

公式

OCR

许可证

适合场景

Marker

PDF Markdown/JSON

极佳

LaTeX

集成

GPL-3.0

学术论文 /RAG

Do cling (IBM)

端到端文档理解

极佳

支持

集成

Apache 2.0

企业RA G管线

Unstructured.io

文档预处理管线

部分

有限

支持

Apa che 2.0

ML 管线预处理

PyMuPDF4 LLM

LLM优化提取

良好

有 限

集成

AGPL

LLM输入准备

★ Doclin g最新进展:IBM发布Granite-Docli ng-258M开源视觉语言模型,在布局忠 实度上MAP 0.27F1 0 .86

2.3 OCR方案 对比

对于扫描件/图片 型PDF,需要OCR技术支持:

工具

准确率

速度

语言支持

安装大小

GP U

许可证

PaddleOCR 3 .4

100% (0错误 )

4. 85s

100+

~500MB

推荐

Apache 2.0

Tesseract 5.5

87.5% (3错误)

0.162s

100+

~1 0MB

不需要

Apache 2.0

Surya 0.9

95.8% (1错误 )

~2.1s

90+

~500MB

推荐

GPL 3.0

DocTR 0.10

91.7 % (2错误)

~1.8s

~15

~4 00MB

可选

Apache 2.0

★ 2026趋势:LLM-based O CR(如Qwen 2.5- VLMistral OC R)在复杂文档上的准确率已超 越所有传统OCR库,但成本约$0.01-0. 03/页。

2.4云端API服务 对比

服务

文本

表格

表单/K V

价格(每页)

免费额度

A WS Textract

极 佳

极佳

极佳

$0.001 5-$0.05

1000 /

Google Doc AI

极佳

极佳

极佳

~$0. 015-$0.03

1000/

Azure Doc Intel

极佳

极佳

极佳

$1.50-$30/千页

500/

Adobe PDF API

极佳

良好

良好

500/月免费

500文档/

2.5 Node.js方案 对比

工具

文本提取

布局感知

表格

流式处理

许可

pdf-parse

良好

支持

MIT

pdfjs-dist

优秀

极佳

需手动

部分

Apache 2.0

pdf2json

良好

极佳

需后处理

MIT

pdfreader

良好

良好

有限

极佳

MIT

三、场景推荐方案

3.1 简单文本提取

适用场景:搜索索引、全文检索、快速阅读

首选: PyMuPDF(速度最快,质量最高)

Node.js方案:pdf-parse(轻量, 易用)

轻量 方案:pypdfApache 2.0,无 许可证风险)

3.2复杂布局文档

适用场景:多栏文档、学术论文、图文混排

首选:Marker(学术论文/书籍转Markdown

企业级:Docling(结构化输出,Apache 2.0

云方案:Google Document AI(最全面的布局分析)

3.3扫描文档 / OCR

适用场景:扫描件、图片型 PDF、手写内容

精度优先:P addleOCR100% 准确率,免费)

速度优先:Tesser act 5.530x更快,适合批量)

复杂文档:Qwen 2.5-VLGPT-5(理解级别识别)

3.4表格密集型文档

适用场景:财报、招标文档、数据报告

数 字PDFpdfplumber(综合 最佳)或Camelot(无边框 表格)

扫 描PDFAWS Textract / A zure Document Intelli gence

学术文档:TATRT able Transformer,深度学习 )

3.5生产系统/大规模

适 用场景:企业级部署,需要高可用和可 扩展性

预算充足:AW S TextractAz ure Document In telligenceSLA 保障)

开源方案:PyMuPDF + P addleOCR组合(本地部署)

RAG 管线:DoclingUnstructured.io(专为 AI管线设计)

3.6 隐私敏感/本地部署

适用场景 :数据不能离开内网,需要完全本地处理

OCRPaddl eOCRTesseract (完全本地)

文档理解:Qwen 2.5-VL(开源V LM,自托管)

解析管线 :DoclingApach e 2.0,可本地部署)

四、项目规划

4.1项目分阶段规划

建议采用分阶段迭代的方式推进,每个 阶段都有明确的交付物和验收标准:

第一阶段:基础能力建设(2-3周)

任务

说明

交付

先级

环境搭建

Python环境、依赖安装、项目结构

可运行的项目框架

P0

文本提取 模块

基于PyMuPDF实现基础文本 提取

文本提 取API

P0

元数据提取

提取标题、作者、页数等

元数据API

P1

单元 测试

核心功能的测试用例

测试覆盖率> 80%

P1

第二阶段:表格与图片提 取(2-3周)

任务

说明

交付物

优先级

表格提取模块

基于pdfplumber实现表格识别 和提取

表格提取APICSV/JS ON

P0

图片提取 模块

提 取嵌入图片并保存

图片提取API

P1

布局分析

识别标题 、段落、多栏等结构

结构化输出(JSON

P1

集成 测试

多类型PDF的集成 测试

测试报告

P1

第三阶段:OCR 与智能解析(2-4周)

任务

说明

交付物

优先级

OCR集成

集成PaddleOCR/ Tesseract处理扫描件

OCR解析API

P0

智能检测

自动判断PDF 类型,选择最优解析策略

智 能路由模块

P1

AI增强(可选)

集成Mar ker/Docling处理复杂布局

AI解析接口

P2

性能优化

批量处理、并行加速、内存优化

性能测试报告

P1

第四阶段: 系统集成与上线(2-3周)

任务

说明

交付物

优先级

API封装

提供RESTful API接口

API文档+ SDK

P0

异常处理

完善错误处理、日志、 监控

监控管线

P1

Docker

容器化部署方案

Docker镜像+部署文档

P1

文档 与培训

用户手册、API文档、示例代码

完整文档体系

P2

4.2技术架构建议

推荐的技术架构分为三层:

解析层(Pars er Layer

PyMuPDF:基础文本提取、 元数据、图片提取

pdfplumber:表格提 取、布局分析

PaddleOCR:扫描件OCR识别

Marker/Docling:复杂布局AI解析(可选)

服务层(Service Layer

FastAPI / FlaskRESTful API服务

Celery / RQ:异步任务队列(批量处理)

Redis:缓存+任务队列

接入层(Inte rface Layer

RESTful API:标准HTTP接口

Python SDK:客 户端库

CLI工具 :命令行直接调用

4.3风险与应对

风险

影响

应对策略

PyMuPDF AGPL许 可证

商业使用需购买许可

评估商业授权成本,或替换为pypdf

复杂布局准确率

提取结果不准确

采用AI方案(Marker/Docling)充分测试

扫描件OCR质量

图片质量影响识别

预处理(去噪、二值化)+多引擎融合

大文件性能

处理时间过长

流式处理+分页并行+缓存

云服务成本

大规模处理费用高

混合架构:简单任务本地,复杂任务云端

五、总结与建议

5.1核心结论

PyMuPDF2025-2026年最推荐的通用PDF库,在速度和质量上全面领先,但需注意AGPL许可证约束

AI驱动的文档解析正在快速成熟,DoclingMarker代表了开源方案的前沿

PaddleOCR仍是免费OCR方案中的精度王者,但LLM-based OCR在复杂文档上已展现出压倒性优势

云服务价格持续下降,大规模场景下云方案的成本效益日益突出

5.2快速启动建议

如果您希望快速开始,建议采用以下技术组合:

推荐技术栈:PyMuPDF + pdfplumber + PaddleOCR + FastAPI

基础文本提取:PyMuPDF(极快速度)

表格提取:pdfplumber(综合最佳)

OCR识别:PaddleOCR(免费最高精度)

API服务:FastAPI(高性能,自动文档)

异步任务:Celery + Redis(批量处理)

5.3下一步行动

建议您根据实际需求,从以下方向选择推进:

1. 确认您的PDF文档类型和提取需求(可提供样本文档进行测试)

2. 选择技术栈并搭建开发环境

3. 实现MVP(最小可行产品)并用样本数据验证

4. 根据测试结果调整方案,逐步扩展功能

如需进入实施阶段,请告知您的具体需求场景,我将为您制定更精细的实施方案。

Code with SOLO】用SOLO01搭建离线状态下的pdf的文档解析工具,含完整开发

PDF 文档解析 — 需求分析与项目规划

版本 v1.0 | 2026年4月


一、需求分析

1.1 背景与目标

PDF 是企业和个人信息交换中最常见的文档格式之一。然而,PDF 的固定布局特性使得其内容提取和结构化解析成为一个技术挑战。本文档旨在对 PDF 解析需求进行系统化分析,并制定可执行的项目规划。

核心目标:构建一套高效、准确、可扩展的 PDF 文档解析方案,能够处理多种类型的 PDF 文档,提取文本、表格、图片等结构化信息。

1.2 PDF 文档类型分类

不同类型的 PDF 文档需要采用不同的解析策略:

类型 特征描述 解析难度 推荐方案
纯文本型 PDF 可直接复制文字,如报告、论文、合同 ★☆☆ 低 PyMuPDF / pdfplumber
扫描件/图片型 PDF 图片格式,需 OCR 识别 ★★★ 高 PaddleOCR / Tesseract + 布局分析
混合型 PDF 文字页 + 扫描页混合 ★★☆ 中高 智能检测 + 分类处理
表格密集型 含大量数据表格,如财报、招标 ★★☆ 中高 pdfplumber / Camelot / TATR
复杂布局型 多栏、图文混排,如学术论文 ★★★ 高 Marker / Docling / AI方案

1.3 提取内容需求

根据业务场景,通常需要提取以下一种或多种内容:

  • 纯文本内容:段落、标题、正文(用于搜索索引、全文检索)
  • 表格数据:结构化表格提取(用于数据录入、分析)
  • 图片/图表:提取嵌入的图片和图表(用于内容管理)
  • 文档结构:标题层级、目录、页眉页脚(用于文档重建)
  • 元数据:作者、创建日期、修改记录等(用于文档管理)

1.4 使用场景分类

场景 规模 频率 关键要求
快速提取 少量/一次性 速度、易用性
批量处理 中等规模 定期 自动化、稳定性
系统集成 大规模 持续 高可用、可扩展
RAG/知识库 中大规模 持续 切片质量、语义保留
数据录入 中等规模 定期 表格准确率、异常处理

二、技术方案对比

2.1 Python 核心库对比

工具 文本提取 表格 图片 速度 许可证 推荐指数
PyMuPDF (fitz) 极佳 良好 极佳 极快 AGPL/商业 ★★★★★
pdfplumber 优秀 极佳 良好 中等 MIT ★★★★☆
pypdf 良好 简单 基础 Apache 2.0 ★★★☆☆
pdfminer.six 良好 最慢 MIT ★★☆☆☆

关键发现:根据 arXiv 2025 年跨 6 类文档的系统性基准测试,PyMuPDF 在词序保持和 BLEU-4 分数上表现最优。

2.2 AI/深度学习驱动工具

工具 核心能力 表格 公式 OCR 许可证 适合场景
Marker PDF转Markdown/JSON 极佳 LaTeX 集成 GPL-3.0 学术论文/RAG
Docling (IBM) 端到端文档理解 极佳 支持 集成 Apache 2.0 企业RAG管线
Unstructured.io 文档预处理管线 部分 有限 支持 Apache 2.0 ML管线预处理
PyMuPDF4LLM LLM优化文本提取 良好 有限 集成 AGPL LLM输入准备

Docling 最新进展:IBM 发布 Granite-Docling-258M 开源视觉语言模型(Apache 2.0),在布局忠实度上 MAP 0.27,F1 0.86。

2.3 OCR 方案对比

工具 准确率 速度 语言支持 安装大小 GPU 许可证
PaddleOCR 3.4 100% (0错误) 4.85s 100+ ~500MB 推荐 Apache 2.0
Tesseract 5.5 87.5% (3错误) 0.162s 100+ ~10MB 不需要 Apache 2.0
Surya 0.9 95.8% (1错误) ~2.1s 90+ ~500MB 推荐 GPL 3.0
DocTR 0.10 91.7% (2错误) ~1.8s ~15 ~400MB 可选 Apache 2.0

2026 趋势:LLM-based OCR(如 Qwen 2.5-VL、Mistral OCR)在复杂文档上的准确率已超越所有传统 OCR 库,但成本约 $0.01-0.03/页。

2.4 云端 API 服务对比

服务 文本 表格 表单/KV 价格(每页) 免费额度
AWS Textract 极佳 极佳 极佳 $0.0015-$0.05 1000页/月
Google Doc AI 极佳 极佳 极佳 ~$0.015-$0.03 1000页/月
Azure Doc Intel 极佳 极佳 极佳 $1.50-$30/千页 500页/月
Adobe PDF API 极佳 良好 良好 500次/月免费 500文档/月

2.5 Node.js 方案对比

工具 文本提取 布局感知 表格 流式处理 许可证
pdf-parse 良好 支持 MIT
pdfjs-dist 优秀 极佳 需手动 部分 Apache 2.0
pdf2json 良好 极佳 需后处理 MIT
pdfreader 良好 良好 有限 极佳 MIT

三、场景推荐方案

3.1 简单文本提取

适用场景:搜索索引、全文检索、快速阅读

  • 首选:PyMuPDF(速度最快,质量最高)
  • Node.js 方案:pdf-parse(轻量,易用)
  • 轻量方案:pypdf(Apache 2.0,无许可证风险)

3.2 复杂布局文档

适用场景:多栏文档、学术论文、图文混排

  • 首选:Marker(学术论文/书籍转 Markdown)
  • 企业级:Docling(结构化输出,Apache 2.0)
  • 云方案:Google Document AI(最全面的布局分析)

3.3 扫描文档 / OCR

适用场景:扫描件、图片型 PDF、手写内容

  • 精度优先:PaddleOCR(100% 准确率,免费)
  • 速度优先:Tesseract 5.5(30x 更快,适合批量)
  • 复杂文档:Qwen 2.5-VL 或 GPT-5(理解级别识别)

3.4 表格密集型文档

适用场景:财报、招标文档、数据报告

  • 数字 PDF:pdfplumber(综合最佳)或 Camelot(无边框表格)
  • 扫描 PDF:AWS Textract / Azure Document Intelligence
  • 学术文档:TATR(Table Transformer,深度学习)

3.5 生产系统 / 大规模

适用场景:企业级部署,需要高可用和可扩展性

  • 预算充足:AWS Textract 或 Azure Document Intelligence(SLA 保障)
  • 开源方案:PyMuPDF + PaddleOCR 组合(本地部署,无 API 依赖)
  • RAG 管线:Docling 或 Unstructured.io(专为 AI 管线设计)

3.6 隐私敏感 / 本地部署

适用场景:数据不能离开内网,需要完全本地处理

  • OCR:PaddleOCR 或 Tesseract(完全本地)
  • 文档理解:Qwen 2.5-VL(开源 VLM,自托管)
  • 解析管线:Docling(Apache 2.0,可本地部署)

四、项目规划

4.1 项目分阶段规划

建议采用分阶段迭代的方式推进,每个阶段都有明确的交付物和验收标准:

第一阶段:基础能力建设(2-3 周)

任务 说明 交付物 优先级
环境搭建 Python 环境、依赖安装、项目结构 可运行的项目框架 P0
文本提取模块 基于 PyMuPDF 实现基础文本提取 文本提取 API P0
元数据提取 提取标题、作者、页数等 元数据 API P1
单元测试 核心功能的测试用例 测试覆盖率 > 80% P1

第二阶段:表格与图片提取(2-3 周)

任务 说明 交付物 优先级
表格提取模块 基于 pdfplumber 实现表格识别和提取 表格提取 API(CSV/JSON) P0
图片提取模块 提取嵌入图片并保存 图片提取 API P1
布局分析 识别标题、段落、多栏等结构 结构化输出(JSON) P1
集成测试 多类型 PDF 的集成测试 测试报告 P1

第三阶段:OCR 与智能解析(2-4 周)

任务 说明 交付物 优先级
OCR 集成 集成 PaddleOCR/Tesseract 处理扫描件 OCR 解析 API P0
智能检测 自动判断 PDF 类型,选择最优解析策略 智能路由模块 P1
AI 增强(可选) 集成 Marker/Docling 处理复杂布局 AI 解析接口 P2
性能优化 批量处理、并行加速、内存优化 性能测试报告 P1

第四阶段:系统集成与上线(2-3 周)

任务 说明 交付物 优先级
API 封装 提供 RESTful API 接口 API 文档 + SDK P0
异常处理 完善错误处理、日志、监控 监控管线 P1
Docker 化 容器化部署方案 Docker 镜像 + 部署文档 P1
文档与培训 用户手册、API 文档、示例代码 完整文档体系 P2

4.2 技术架构建议

推荐的技术架构分为三层:

解析层(Parser Layer)

  • PyMuPDF:基础文本提取、元数据、图片提取
  • pdfplumber:表格提取、布局分析
  • PaddleOCR:扫描件 OCR 识别
  • Marker/Docling:复杂布局 AI 解析(可选)

服务层(Service Layer)

  • FastAPI / Flask:RESTful API 服务
  • Celery / RQ:异步任务队列(批量处理)
  • Redis:缓存 + 任务队列

接入层(Interface Layer)

  • RESTful API:标准 HTTP 接口
  • Python SDK:客户端库
  • CLI 工具:命令行直接调用

4.3 风险与应对

风险 影响 应对策略
PyMuPDF AGPL 许可证 商业使用需购买许可 评估商业授权成本,或替换为 pypdf
复杂布局准确率 提取结果不准确 采用 AI 方案(Marker/Docling)充分测试
扫描件 OCR 质量 图片质量影响识别 预处理(去噪、二值化)+ 多引擎融合
大文件性能 处理时间过长 流式处理 + 分页并行 + 缓存
云服务成本 大规模处理费用高 混合架构:简单任务本地,复杂任务云端

五、总结与建议

5.1 核心结论

  • PyMuPDF 是 2025-2026 年最推荐的通用 PDF 库,在速度和质量上全面领先,但需注意 AGPL 许可证约束
  • AI 驱动的文档解析正在快速成熟,Docling 和 Marker 代表了开源方案的前沿
  • PaddleOCR 仍是免费 OCR 方案中的精度王者,但 LLM-based OCR 在复杂文档上已展现出压倒性优势
  • 云服务价格持续下降,大规模场景下云方案的成本效益日益突出

5.2 快速启动建议

如果您希望快速开始,建议采用以下技术组合:

推荐技术栈:PyMuPDF + pdfplumber + PaddleOCR + FastAPI

组件 选型 理由
基础文本提取 PyMuPDF 极快速度
表格提取 pdfplumber 综合最佳
OCR 识别 PaddleOCR 免费最高精度
API 服务 FastAPI 高性能,自动文档
异步任务 Celery + Redis 批量处理

5.3 下一步行动

  1. 确认您的 PDF 文档类型和提取需求(可提供样本文档进行测试)
  2. 选择技术栈并搭建开发环境
  3. 实现 MVP(最小可行产品)并用样本数据验证
  4. 根据测试结果调整方案,逐步扩展功能

六、离线 PDF 解析工具 — 项目实施

6.1 项目概述

基于上述分析,已构建一个完全离线的 PDF 文档解析工具,具备以下特性:

  • :page_facing_up: 文本提取:基于 PyMuPDF,高速高质量提取 PDF 文本
  • :bar_chart: 表格提取:基于 pdfplumber,智能识别表格并转为结构化数据
  • :framed_picture: 图片提取:提取 PDF 中嵌入的所有图片
  • :magnifying_glass_tilted_left: OCR 识别:基于 PaddleOCR,离线识别扫描件/图片型 PDF
  • :brain: 智能路由:自动判断页面类型,选择最优解析策略
  • :memo: 多格式输出:支持 Markdown、JSON、TXT、HTML 等多种输出格式
  • :globe_with_meridians: Web API:FastAPI 提供 RESTful 接口服务
  • :package: 完全离线:无需联网,所有处理均在本地完成

6.2 技术选型

组件 技术 理由
语言 Python 3.10+ PDF/OCR 生态最成熟
文本提取 PyMuPDF 离线最快、质量最高
表格提取 pdfplumber 离线表格提取综合最佳
图片提取 PyMuPDF 原生支持,质量极佳
OCR PaddleOCR 离线精度最高(100%),完全本地
Web 框架 FastAPI 高性能,自动文档,异步支持
打包 Docker + PyInstaller 容器化部署 + 独立可执行文件

6.3 项目结构

pdf-parser/
├── src/
│   ├── parsers/              # 解析器模块
│   │   ├── text_parser.py        # 文本提取(PyMuPDF)
│   │   ├── table_parser.py       # 表格提取(pdfplumber)
│   │   ├── image_parser.py       # 图片提取(PyMuPDF)
│   │   └── smart_router.py       # 智能路由(自动判断页面类型)
│   ├── ocr/                  # OCR 模块
│   │   └── paddle_ocr.py         # PaddleOCR 封装
│   ├── output/               # 输出格式化
│   │   └── formatter.py          # 多格式输出(MD/JSON/TXT/HTML)
│   ├── api/                  # Web API
│   │   └── main.py               # FastAPI 入口
│   ├── engine.py             # 统一解析引擎(核心入口)
│   ├── cli.py                # 命令行工具
│   └── config.py             # 配置管理
├── tests/                    # 测试
│   └── test_parser.py            # 单元测试(16/16 通过)
├── models/                   # OCR 模型文件
├── output/                   # 输出目录
├── Dockerfile                # Docker 配置
├── docker-compose.yml        # Docker Compose
├── start.sh                  # 启动脚本
├── requirements.txt          # 依赖清单
└── README.md                 # 使用文档

6.4 使用方式

命令行解析:

# 安装依赖
pip install -r requirements.txt

# 解析 PDF 文件
python -m src.cli parse -i document.pdf -o ./output -f markdown

# 分析文档结构
python -m src.cli analyze -i document.pdf

启动 Web API 服务:

python -m src.cli serve --port 8000
# 访问 http://localhost:8000/docs 查看 API 文档

API 调用示例:

# 同步解析
curl -X POST "http://localhost:8000/api/v1/parse" \
  -F "file=@document.pdf" \
  -F "output_format=json"

# 异步解析(大文件)
curl -X POST "http://localhost:8000/api/v1/parse/async" \
  -F "file=@document.pdf" \
  -F "output_format=markdown"

# 查询异步任务状态
curl "http://localhost:8000/api/v1/tasks/{task_id}"

# 下载解析结果文件
curl -X POST "http://localhost:8000/api/v1/parse/download" \
  -F "file=@document.pdf" \
  -F "output_format=markdown" \
  -o result.md

# 分析文档结构
curl -X POST "http://localhost:8000/api/v1/analyze" \
  -F "file=@document.pdf"

Docker 部署:

# 构建并启动
docker-compose up -d

# 查看日志
docker-compose logs -f

6.5 API 接口一览

方法 路径 说明
GET /api/v1/health 健康检查
POST /api/v1/parse 同步解析 PDF
POST /api/v1/parse/download 解析并下载结果文件
POST /api/v1/parse/async 异步解析(大文件)
GET /api/v1/tasks/{task_id} 查询异步任务状态
POST /api/v1/analyze 分析文档结构
1 个赞

没绷住,有多又长又细 :rofl:

能用到就很好。

1 个赞