PDF转Markdown神器:OCR+GPT-4,让复杂公式轻松转换!

留个印记,好好学习

有些小trick可能需要注意一下:

  • 这个库连续使用了两个相同角色 user 的 messages 列表作为 API 输入:第一个 message 对象用于设定任务和引导输出格式,第二个 message 用于提示在多页面中保持一致的输出风格。有些中转目前还不支持对 Claude API 连续使用相同角色的 messages 列表,但 Claude API 官方目前已经支持这个特性了。也可以手动修改源码把两个 text prompt 对象追加到同一个 message 对象中进行请求。

  • 分享我调整后的 prompt:

    Convert the following PDF page to text in  Markdown format:
    1. Enclose C code snippets in code blocks (```c ... ```) and use the c directive for language specification.
    2. Convert supported diagrams to mermaid code blocks (```mermaid ... ```) and use the mermaid directive for language specification.
    
    Return only the page content with no explanation text.
    Do not exclude any content from the page.
    

    转义后:

    Convert the following PDF page to text in  Markdown format:\n1. Enclose C code snippets in code blocks (\`\`\`c ... \`\`\`) and use the c directive for language specification.\n2. Convert supported diagrams to mermaid code blocks (\`\`\`mermaid ... \`\`\`) and use the mermaid directive for language specification.\n\nReturn only the page content with no explanation text.\nDo not exclude any content from the page.
    
1 Like

感谢大佬 已经用上了

谢谢,收藏了

感谢佬友分享,实测这个prompt搭配gemini-1.5-pro效果很惊艳

有用 mark了

From 人工智能 to 资源荟萃

试了下,文字和表格还行。要是能把文档中“图x”的图片也提取出来就更好了。

个人感觉绝对会卡爆,原先用4c 16g的跑tesseract和飞桨,速度慢的不行。

1 Like

为啥我没这一行,我中转的api还是不行