# MinerU：将复杂文档转化为LLM友好格式的开源利器

> 本文介绍MinerU开源文档解析工具，它可以将PDF、图片和DOCX等复杂文档转换为机器可读的Markdown和JSON格式，支持公式识别、表格提取、OCR等功能，是构建Agent工作流的理想数据预处理工具。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-03-30T17:44:55.000Z
- 最近活动: 2026-03-30T17:53:07.177Z
- 热度: 159.9
- 关键词: 文档解析, PDF, OCR, Markdown, LLM, Agent, 表格识别, 公式识别
- 页面链接: https://www.zingnex.cn/forum/thread/mineru-llm
- Canonical: https://www.zingnex.cn/forum/thread/mineru-llm
- Markdown 来源: ingested_event

---

# MinerU：将复杂文档转化为LLM友好格式的开源利器\n\n在大型语言模型（LLM）和智能代理（Agent）快速发展的今天，如何高效地将人类日常使用的文档格式（如PDF、Word）转化为机器可处理的结构化数据，成为了一个关键的技术挑战。MinerU项目正是为解决这一问题而生的开源文档解析工具，它能够将复杂的PDF、图像和DOCX文档转换为LLM友好的Markdown和JSON格式。\n\n## 项目起源与背景\n\nMinerU诞生于InternLM大模型的预训练过程中。开发团队专注于解决科学文献中的符号转换问题，希望为大模型时代的技术发展做出贡献。与知名的商业产品相比，MinerU虽然相对年轻，但其开源特性和持续迭代的速度使其迅速成为文档解析领域的重要玩家。\n\n## 核心功能全景\n\n### 多格式输入支持\n\nMinerU支持PDF、图像和DOCX三种主要输入格式，覆盖了绝大多数文档处理场景。最新发布的3.0.0版本更是原生支持DOCX解析，相比传统的"DOCX转PDF再解析"流程，端到端速度提升了数十倍，特别适合对准确性和吞吐量都有高要求的场景。\n\n### 智能内容提取\n\nMinerU能够自动识别并移除页眉、页脚、脚注和页码等元素，确保提取内容的语义连贯性。它按照人类阅读顺序输出文本，支持单列、多列和复杂布局的文档。同时，MinerU保留了原文档的结构信息，包括标题、段落、列表等层级关系。\n\n### 公式与表格识别\n\n对于学术和技术文档，MinerU提供了强大的公式识别功能，能够自动检测文档中的数学公式并转换为LaTeX格式。表格识别功能则将文档中的表格转换为HTML格式，保持行列结构的完整性。新版本还增加了对表格内图像/公式的解析支持，以及行间公式编号识别。\n\n### OCR与多语言支持\n\nMinerU能够自动检测扫描版PDF和乱码PDF，并启用OCR功能。OCR支持109种语言的检测和识别，使其成为一个真正的全球化工具。此外，新版本还增加了对竖排文字和印章文字的识别支持。\n\n## 技术架构与性能\n\n### 双后端设计\n\nMinerU采用了灵活的架构设计，提供两种解析后端：\n\n**Pipeline后端**：\n- 在OmniDocBench (v1.5)上达到86.2分\n- 纯CPU环境支持\n- 最低仅需4GB显存（GPU加速模式）\n- 支持长文档的滑动窗口处理\n\n**VLM后端**：\n- 精度更高（90+分）\n- 需要8GB以上显存\n- 兼容OpenAI API的服务器\n\n### 最新3.0版本升级亮点\n\n2026年3月发布的3.0.0版本是MinerU的一次系统性升级，主要改进包括：\n\n1. **架构升级**：pipeline后端精度超越上一代主流VLM模型\n2. **API/CLI/Router编排**：mineru现在作为基于mineru-api的编排客户端运行\n3. **异步任务支持**：新增POST /tasks端点，支持任务提交、状态查询和结果获取\n4. **多GPU部署**：mineru-router支持统一入口部署和跨多服务的任务路由\n5. **内存优化**：滑动窗口机制显著降低长文档场景的峰值内存占用\n6. **线程安全**：完成线程安全优化，全面支持多线程并发推理\n\n### 许可证清理\n\n一个重要进展是，新版本完全移除了两个AGPLv3模型（doclayoutyolo和mfd_yolov8）和一个CC-BY-NC-SA 4.0模型（layoutreader），使项目的许可证更加清晰友好。\n\n## 部署与使用\n\n### 安装方式\n\nMinerU提供多种安装方式，最简单的通过pip安装：\n\n```bash\npip install --upgrade pip\npip install uv\nuv pip install -U \"mineru[all]\"\n```\n\n同时也支持从源码安装和Docker部署，后者特别适合需要快速搭建环境或解决兼容性问题的场景。\n\n### 使用方式\n\nMinerU提供CLI、FastAPI、Gradio WebUI等多种使用方式：\n\n**CLI快速使用**：\n```bash\n# GPU加速\nmineru -p <input_path> -o <output_path>\n\n# 纯CPU运行\nmineru -p <input_path> -o <output_path> -b pipeline\n```\n\n**WebUI体验**：\n- 官方在线版：https://mineru.net/OpenSourceTools/Extractor\n- ModelScope版：https://www.modelscope.cn/studios/OpenDataLab/MinerU\n- HuggingFace版：https://huggingface.co/spaces/opendatalab/MinerU\n\n## 应用场景与价值\n\n### RAG系统构建\n\n在检索增强生成（RAG）系统中，MinerU可以将企业内部的PDF文档库转换为结构化的Markdown，供向量数据库存储和检索。其保留的文档结构信息有助于提升检索的准确性。\n\n### 训练数据准备\n\n对于需要大量文本数据的大模型预训练或微调任务，MinerU可以批量处理学术论文、技术报告等PDF文档，输出干净的训练文本。\n\n### Agent工作流集成\n\nMinerU的JSON输出格式非常适合集成到Agent工作流中。通过API方式调用，Agent可以实时解析上传的文档，提取关键信息用于后续处理。\n\n## 局限性与未来方向\n\n项目文档坦诚地列出了当前的一些局限性：\n- 极端复杂布局下的阅读顺序可能出错\n- 竖排文字支持有限\n- 代码块尚未在布局模型中支持\n- 漫画、画册、小学教材等特殊格式解析效果不佳\n- 复杂表格可能出现行列识别错误\n\n开发团队表示将持续改进这些问题，并欢迎社区通过GitHub issue提交反馈和样本文件。\n\n## 结语\n\nMinerU正在从一个独立的数据生产工具，演变为面向高并发、高吞吐场景的大规模文档解析基础设施。通过3.0版本的架构升级，它在保持高准确率的同时，大幅降低了资源占用，并支持一键多GPU部署和自动负载均衡。对于需要处理大量文档的LLM应用开发者来说，MinerU无疑是一个值得关注和尝试的开源工具。\n\n项目采用AGPLv3许可证开源，并有一系列相关论文发表，包括MinerU-Diffusion、MinerU2.5等后续研究成果。