MarkMuse:内部 RAG 大规模文档预处理解决方案
背景
- 公司正在建设基于 RAG 的知识库,急需高质量的文档预处理与数据清洗方案。
目前功能
-
高精度 PDF→Markdown:基于 Mistral AI OCR,精确提取文本与结构。
-
多模态支持:图片提取与增强(支持 OpenAI/千帆),为多模态分析打基础。
-
模板化提示词:内置 Jinja2 与 LangChain,灵活自定义转换规则。
-
批量与云存储:一键批量转换,原生集成 S3/MinIO 存储。
Mistral AI 获取
- 平台地址
- 免费申请key量大管饱
- 可以看一看文档效果pdf的ocr识别可以说第一
快速上手
pip install -r requirements.txt
cp env.sample .env && 编辑 .env 填写 API 密钥
python markmuse.py --file input.pdf --output-dir output_folder
更多使用细节请参考 使用指南。
应用场景
-
RAG 系统知识库的数据预处理与清洗
-
自动生成 Markdown 文档,减少手动校验成本
-
支持多源文件批量处理,提升效率
后期规划
-
文档自动摘要:生成章节级别摘要,提取核心要点
-
多模态图片总结:AI 自动概览图片内容
-
结构化重排版:优化文档层级与可读性
-
统一 RAG 分块:按检索需求输出标准化数据片段
欢迎留言讨论,或访问源码仓库进行试用与贡献!
仓库readme中有群二维码: 欢迎交流