绝大部分论文都是以PDF形式存储的,据我所知也就Gemini有能力读取PDF,剩下的都得以文字或者图片形式发给他
一般文字还好,要是有示意图也可以截个图给AI;
主要是各种公式跟图表,根本没法复制,直接是乱码,而且识图也有问题,经常识别错误,公式错一点后面的分析根本没法看
请问各位有啥方法把整个PDF内容尽可能完整的发给AI呢?
非常感谢
绝大部分论文都是以PDF形式存储的,据我所知也就Gemini有能力读取PDF,剩下的都得以文字或者图片形式发给他
一般文字还好,要是有示意图也可以截个图给AI;
主要是各种公式跟图表,根本没法复制,直接是乱码,而且识图也有问题,经常识别错误,公式错一点后面的分析根本没法看
请问各位有啥方法把整个PDF内容尽可能完整的发给AI呢?
非常感谢
Google的Notebooklm
没懂,gpt和Claude不是都可以看懂pdf吗
cherry studio应该可以,不过我还没试过
没有Gemini会员
我也想问这个问题,麻烦有答案了踢一下我
Claude确实能,不过有的AI,比如o1和Deepseek就不能读取PDF,很头疼
自己想办法转md吧,然后搭建知识库
推荐用zerox
getomni-ai/zerox: OCR & Document Extraction using vision models
视觉模型OCR,刚好最近nebius又能白嫖25刀了,用里面的Qwen72b的视觉模型,多白嫖几个号,感觉能用好久
先用gpt4o对话读取,让他提取主要过程和公司,再让o1思考回答
试下Zerox,最近还有免费资源。
都是转markdown和提取图片识别表格公式的啊,太长就rag
目前转换效果好的有minerU olmOCR,docling可能也还好
发给deepresearch()
世界第一行列的公司
现在还有不支持 PDF 的客户端吗?
无论是 ChatGPT 还是 Claude 的网页端都支持上传 PDF,而且是原生多模态。
DeepSeek 官网是先 OCR 成文本,再传给 LLM。
claude好像不能读取pdf图片?
这个还是用谷歌吧,上下文长
千问也支持pdf,现在不支持pdf的大模型少吧