新项目pdf转md : MarkMuse

MarkMuse:内部 RAG 大规模文档预处理解决方案

背景

  • 公司正在建设基于 RAG 的知识库,急需高质量的文档预处理与数据清洗方案。

目前功能

  • 高精度 PDF→Markdown:基于 Mistral AI OCR,精确提取文本与结构。

  • 多模态支持:图片提取与增强(支持 OpenAI/千帆),为多模态分析打基础。

  • 模板化提示词:内置 Jinja2 与 LangChain,灵活自定义转换规则。

  • 批量与云存储:一键批量转换,原生集成 S3/MinIO 存储。

Mistral AI 获取

快速上手


pip install -r requirements.txt

cp env.sample .env && 编辑 .env 填写 API 密钥

python markmuse.py --file input.pdf --output-dir output_folder

更多使用细节请参考 使用指南

应用场景

  • RAG 系统知识库的数据预处理与清洗

  • 自动生成 Markdown 文档,减少手动校验成本

  • 支持多源文件批量处理,提升效率

后期规划

  1. 文档自动摘要:生成章节级别摘要,提取核心要点

  2. 多模态图片总结:AI 自动概览图片内容

  3. 结构化重排版:优化文档层级与可读性

  4. 统一 RAG 分块:按检索需求输出标准化数据片段

欢迎留言讨论,或访问源码仓库进行试用与贡献!

仓库链接

仓库readme中有群二维码: 欢迎交流

43 Likes

感谢分享

1 Like

和markitdown相比如何

好太多。

感觉像是个大厂的产品啊

还是调用平台的API哇,跟内部没啥关系了吧

1 Like

是的,说明使用了 Mistral AI OCR

刚好有需求。拿来和mineru对比。

感谢大佬!

蹲一下测评 :drooling_face:

mistral ocr挺好的,给的量也大

请问中文 pdf 效果怎么样

感谢分享

这可是好东西啊

感谢分享

感谢分享,关注一下:heart:

刚看到mistralocr的宣传就刷到了

多语言完美。我还增加了自定llm对图片进行解释

已经star支持

感谢,感谢,感谢