2025/11/04 2.6.4 发布
MINERU_PDF_RENDER_TIMEOUT进行配置,防止部分异常pdf文件导致渲染过程长时间阻塞。MINERU_INTRA_OP_NUM_THREADS和MINERU_INTER_OP_NUM_THREADS进行配置,以减少高并发场景下的对cpu资源的抢占冲突。2025/10/31 2.6.3 发布
2025/10/24 2.6.2 发布
pipline后端优化
export MINERU_FORMULA_CH_SUPPORT=1开启。该功能可能会导致MFR速率略微下降、部分长公式识别失败等问题,建议仅在需要解析中文公式的场景下开启。如需关闭该功能,可将环境变量设置为0。OCR速度大幅提升200%~300%,感谢 @cjsdurj 提供的优化方案OCR模型优化拉丁文识别的准度和广度,并更新西里尔文(cyrillic)、阿拉伯文(arabic)、天城文(devanagari)、泰卢固语(te)、泰米尔语(ta)语系至ppocr-v5版本,精度相比上代模型提升40%以上vlm后端优化
table_caption、table_footnote匹配逻辑优化,提升页内多张连续表场景下的表格标题和脚注的匹配准确率和阅读顺序合理性vllm后端时高并发时的cpu资源占用,降低服务端压力vllm0.11.0版本MINERU_TABLE_MERGE_ENABLE,表格合并功能默认开启,可通过设置该变量为0来关闭表格合并功能2025/09/26 2.5.4 发布
pdf文件被识别成ai文件导致无法解析的问题2025/09/20 2.5.3 发布
pipeline后端对torch 2.8.0的一些兼容性修复。2025/09/19 2.5.2 发布 我们正式发布 MinerU2.5,当前最强文档解析多模态大模型。仅凭 1.2B 参数,MinerU2.5 在 OmniDocBench 文档解析评测中,精度已全面超越 Gemini2.5-Pro、GPT-4o、Qwen2.5-VL-72B等顶级多模态大模型,并显著领先于主流文档解析专用模型(如 dots.ocr, MonkeyOCR, PP-StructureV3 等)。 模型已发布至HuggingFace和ModelScope平台,欢迎大家下载使用!
此外,伴随vlm 2.5的发布,我们对仓库做出一些调整:
sglang切换至vllm,并实现对vllm生态的完全兼容,使得用户可以在任何支持vllm框架的平台上使用MinerU2.5模型并加速推理。middle.json和结果文件content_list.json的结构做出一些调整,请参考文档了解详情。其他仓库优化:
pipeline后端的表格识别能力。pipeline和vlm后端,进一步提升了表格解析的完整性和准确性。pipeline后端增加270度旋转的表格解析能力,现已支持0/90/270度三个方向的表格解析pipeline增加对泰文、希腊文的ocr能力支持,并更新了英文ocr模型至最新,英文识别精度提升11%,泰文识别模型精度 82.68%,希腊文识别模型精度 89.28%(by PPOCRv5)content_list.json中增加了bbox字段(映射至0-1000范围内),方便用户直接获取每个内容块的位置信息pipeline_old_linux安装可选项,不再支持老版本的Linux系统如Centos 7等,以便对uv的sync/run等命令进行更好的支持pipeline后端因block覆盖导致的解析结果与预期不符 #3232transformers 4.54.1 版本适配sglang 0.4.9.post5 版本适配transformers 4.54.0 版本适配vlm后端解析部分手写文档时的表格异常问题sglang 0.4.9 版本适配,同步升级dockerfile基础镜像为sglang 0.4.9.post3pipeline后端中MFR步骤在某些情况下显存消耗过大的问题 #2771image/table与caption/footnote匹配不准确的问题 #3129pipeline在某些情况可能发生的文本块内容丢失问题 #3005sglang-client需要安装torch等不必要的包的问题 #2968dockerfile以修复linux字体缺失导致的解析文本内容不完整问题 #2915compose.yaml,便于用户直接启动sglang-server、mineru-api、mineru-gradio服务这是 MinerU 2 的第一个大版本更新,包含了大量新功能和改进,包含众多性能优化、体验优化和bug修复,具体更新内容如下:
pipeline后端批量处理大量页数较少(<10)文档时的后处理速度pipeline后端的layout分析速度提升约20%pipeline后端更新 PP-OCRv5 多语种文本识别模型,支持法语、西班牙语、葡萄牙语、俄语、韩语等 37 种语言的文字识别,平均精度涨幅超30%。详情pipeline后端增加对竖排文本的有限支持vlm模式下,某些偶发的无效块内容导致解析中断问题vlm模式下,某些不完整的表结构导致的解析中断问题sglang-client模式下依然需要下载模型的问题sglang-client模式需要依赖torch等实际运行不需要的包的问题sglang-client实例时,只有第一个生效的问题all时,配置文件出现键值更新错误的问题sglang-engine模式下,0.4.7版本sglang的兼容性问题pymupdf 的依赖,推动项目向更开放、合规的开源方向迈进。middle_json 格式,兼容多数基于该格式的二次开发场景,确保生态业务无缝迁移。sglang 加速,达到峰值吞吐量超过 10,000 token/s,轻松应对大规模文档处理需求。magic-pdf 更改为 mineru,命令行工具也由 magic-pdf 改为 mineru,请同步更新脚本与调用命令。ch_server模型更新为PP-OCRv5_rec_server,ch_lite模型更新为PP-OCRv5_rec_mobile(需更新模型)
PP-OCRv4_server_rec_doc。lang='ch_server'(python api)或--lang ch_server(命令行)自行选择相应的模型:
ch :PP-OCRv4_rec_server_doc(默认)(中英日繁混合/1.5w字典)ch_server :PP-OCRv5_rec_server(中英日繁混合+手写场景/1.8w字典)ch_lite :PP-OCRv5_rec_mobile(中英日繁混合+手写场景/1.8w字典)ch_server_v4 :PP-OCRv4_rec_server(中英混合/6k字典)ch_lite_v4 :PP-OCRv4_rec_mobile(中英混合/6k字典)huggingface和modelscope的demo已更新为支持手写识别和ppocrv5模型的版本,可自行在线体验magic-pdf.json文件中的latex-delimiter-config项实现。ocr默认模型(ch)更新为PP-OCRv4_server_rec_doc(需更新模型)
PP-OCRv4_server_rec_doc是在PP-OCRv4_server_rec的基础上,在更多中文文档数据和PP-OCR训练数据的混合数据训练而成,增加了部分繁体字、日文、特殊字符的识别能力,可支持识别的字符为1.5万+,除文档相关的文字识别能力提升外,也同时提升了通用文字的识别能力。PP-OCRv4_server_rec_doc模型在中英日繁单种语言或多种语言混合场景均有明显精度提升,且速度与PP-OCRv4_server_rec相当,适合绝大部分场景使用。PP-OCRv4_server_rec_doc在小部分纯英文场景可能会发生单词粘连问题,PP-OCRv4_server_rec则在此场景下表现更好,因此我们保留了PP-OCRv4_server_rec模型,用户可通过增加参数lang='ch_server'(python api)或--lang ch_server(命令行)调用。cpu模式下ocr和表格解析速度大幅下降的问题layoutlmv3的使用,解决了由detectron2导致的兼容问题unimernet(2503),解决多行公式中换行丢失的问题paddleocr2torch,完全替代paddle框架以及paddleocr在项目中的使用,解决了paddle和torch的冲突问题,和由于paddle框架导致的线程不安全问题MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。 相比国内外知名商用产品MinerU还很年轻,如果遇到问题或者结果不及预期请到issue提交问题,同时附上相关PDF。
https://github.com/user-attachments/assets/4bea02c9-6d54-4cd6-97ed-dff14340982c
如果安装或使用中遇到任何问题,请先查询 FAQ
如果遇到解析效果不及预期,参考 Known Issues
官网在线版功能与客户端一致,界面美观,功能丰富,需要登录使用
基于gradio开发的webui,界面简洁,仅包含核心解析功能,免登录
[!WARNING] 安装前必看——软硬件环境支持说明
为了确保项目的稳定性和可靠性,我们在开发过程中仅对特定的软硬件环境进行优化和测试。这样当用户在推荐的系统配置上部署和运行项目时,能够获得最佳的性能表现和最少的兼容性问题。
通过集中资源和精力于主线环境,我们团队能够更高效地解决潜在的BUG,及时开发新功能。
在非主线环境中,由于硬件、软件配置的多样性,以及第三方依赖项的兼容性问题,我们无法100%保证项目的完全可用性。因此,对于希望在非推荐环境中使用本项目的用户,我们建议先仔细阅读文档以及FAQ,大多数问题已经在FAQ中有对应的解决方案,除此之外我们鼓励社区反馈问题,以便我们能够逐步扩大支持范围。
| 解析后端 | pipeline (精度1 82+) | vlm (精度1 90+) | |||
|---|---|---|---|---|---|
| transformers | mlx-engine | vllm-engine / vllm-async-engine | http-client | ||
| 后端特性 | 速度快, 无幻觉 | 兼容性好, 速度较慢 | 比transformers快 | 速度快, 兼容vllm生态 | 适用于OpenAI兼容服务器5 |
| 操作系统 | Linux2 / Windows / macOS | macOS3 | Linux2 / Windows4 | 不限 | |
| CPU推理支持 | ✅ | ❌ | 不需要 | ||
| GPU要求 | Volta及以后架构, 6G显存以上或Apple Silicon | Apple Silicon | Volta及以后架构, 8G显存以上 | 不需要 | |
| 内存要求 | 最低16GB以上, 推荐32GB以上 | 8GB | |||
| 磁盘空间要求 | 20GB以上, 推荐使用SSD | 2GB | |||
| python版本 | 3.10-3.13 | ||||
1 精度指标为OmniDocBench (v1.5)的End-to-End Evaluation Overall分数,基于MinerU最新版本测试
2 Linux仅支持2019年及以后发行版
3 MLX需macOS 13.5及以上版本支持,推荐14.0以上版本使用
4 Windows vLLM通过WSL2(适用于 Linux 的 Windows 子系统)实现支持
5 兼容OpenAI API的服务器,如通过vLLM/SGLang/LMDeploy等推理框架部署的本地模型服务器或远程模型服务
[!TIP] 除以上主流环境与平台外,我们也收录了一些社区用户反馈的其他平台支持情况,详情请参考其他加速卡适配。
如果您有意将自己的环境适配经验分享给社区,欢迎通过show-and-tell提交或提交PR至其他加速卡适配文档。
pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple
pip install uv -i https://mirrors.aliyun.com/pypi/simple
uv pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple
git clone https://github.com/opendatalab/MinerU.git
cd MinerU
uv pip install -e .[core] -i https://mirrors.aliyun.com/pypi/simple
[!TIP]
mineru[core]包含除vLLM加速外的所有核心功能,兼容Windows / Linux / macOS系统,适合绝大多数用户。 如果您有使用vLLM加速VLM模型推理,或是在边缘设备安装轻量版client端等需求,可以参考文档扩展模块安装指南。
MinerU提供了便捷的docker部署方式,这有助于快速搭建环境并解决一些棘手的环境兼容问题。 您可以在文档中获取Docker部署说明。
最简单的命令行调用方式:
mineru -p <input_path> -o <output_path>
您可以通过命令行、API、WebUI等多种方式使用MinerU进行PDF解析,具体使用方法请参考使用指南。
本项目目前部分模型基于YOLO训练,但因其遵循AGPL协议,可能对某些使用场景构成限制。未来版本迭代中,我们计划探索并替换为许可条款更为宽松的模型,以提升用户友好度及灵活性。
@misc{niu2025mineru25decoupledvisionlanguagemodel, title={MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing}, author={Junbo Niu and Zheng Liu and Zhuangcheng Gu and Bin Wang and Linke Ouyang and Zhiyuan Zhao and Tao Chu and Tianyao He and Fan Wu and Qintong Zhang and Zhenjiang Jin and Guang Liang and Rui Zhang and Wenzheng Zhang and Yuan Qu and Zhifei Ren and Yuefeng Sun and Yuanhong Zheng and Dongsheng Ma and Zirui Tang and Boyu Niu and Ziyang Miao and Hejun Dong and Siyi Qian and Junyuan Zhang and Jingzhou Chen and Fangdong Wang and Xiaomeng Zhao and Liqun Wei and Wei Li and Shasha Wang and Ruiliang Xu and Yuanyuan Cao and Lu Chen and Qianqian Wu and Huaiyu Gu and Lindong Lu and Keming Wang and Dechen Lin and Guanlin Shen and Xuanhe Zhou and Linfeng Zhang and Yuhang Zang and Xiaoyi Dong and Jiaqi Wang and Bo Zhang and Lei Bai and Pei Chu and Weijia Li and Jiang Wu and Lijun Wu and Zhenxiang Li and Guangyu Wang and Zhongying Tu and Chao Xu and Kai Chen and Yu Qiao and Bowen Zhou and Dahua Lin and Wentao Zhang and Conghui He}, year={2025}, eprint={2509.22186}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2509.22186}, } @misc{wang2024mineruopensourcesolutionprecise, title={MinerU: An Open-Source Solution for Precise Document Content Extraction}, author={Bin Wang and Chao Xu and Xiaomeng Zhao and Linke Ouyang and Fan Wu and Zhiyuan Zhao and Rui Xu and Kaiwen Liu and Yuan Qu and Fukai Shang and Bo Zhang and Liqun Wei and Zhihao Sui and Wei Li and Botian Shi and Yu Qiao and Dahua Lin and Conghui He}, year={2024}, eprint={2409.18839}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2409.18839}, } @article{he2024opendatalab, title={Opendatalab: Empowering general artificial intelligence with open datasets}, author={He, Conghui and Li, Wei and Jin, Zhenjiang and Xu, Chao and Wang, Bin and Lin, Dahua}, journal={arXiv preprint arXiv:2407.13773}, year={2024} }