文档解析总是让人头大:PDF结构复杂,格式多样,提取内容费时费力。
MinerU 是一个开源项目,专注于将复杂文档(尤其是PDF)快速高效转成机器可读的Markdown或JSON格式,方便后续用大模型处理和自动化工作流。
它不仅支持排版结构分析、公式识别、表格解析,还能自动去除页眉页脚、脚注,保证语义连贯。更有OCR支持,能处理扫描版PDF,覆盖84种语言。
亮点功能:
- 领先的布局分析和文本识别,支持多栏复杂格式;
- 自动公式转LaTeX,表格转HTML,方便科研文档处理;
- 支持文档录入OCR,适配扫描和乱码PDF;
- 多平台适用,支持CPU和GPU加速;
- 提供在线演示、API接口和本地部署多种使用方式。
MinerU 是一个开源项目,专注于将复杂文档(尤其是PDF)快速高效转成机器可读的Markdown或JSON格式,方便后续用大模型处理和自动化工作流。
它不仅支持排版结构分析、公式识别、表格解析,还能自动去除页眉页脚、脚注,保证语义连贯。更有OCR支持,能处理扫描版PDF,覆盖84种语言。
亮点功能:
- 领先的布局分析和文本识别,支持多栏复杂格式;
- 自动公式转LaTeX,表格转HTML,方便科研文档处理;
- 支持文档录入OCR,适配扫描和乱码PDF;
- 多平台适用,支持CPU和GPU加速;
- 提供在线演示、API接口和本地部署多种使用方式。