首先这个是原图
本来想让ChatGPT帮忙用python求解的,结果却很怪异:
(官网的结果)
它直接调用了python的OCR功能。这似乎是遗留的老问题,在gpt-4o发布之前,它就很喜欢把图片当成文件进行OCR(当然结果很糟糕)
然后我再shared上把图片直接发给它,问它看到了什么,结果在胡说八道:
用Perplexity的GPT-4o倒是没问题,反应很快:
猜测 是不是因为官网的多模态不能处理带有透明背景的图片,还是说难以处理PNG格式的文件……?
首先这个是原图
本来想让ChatGPT帮忙用python求解的,结果却很怪异:
它直接调用了python的OCR功能。这似乎是遗留的老问题,在gpt-4o发布之前,它就很喜欢把图片当成文件进行OCR(当然结果很糟糕)
然后我再shared上把图片直接发给它,问它看到了什么,结果在胡说八道:
用Perplexity的GPT-4o倒是没问题,反应很快:
猜测 是不是因为官网的多模态不能处理带有透明背景的图片,还是说难以处理PNG格式的文件……?
模型不能处理透明通道挺正常的,毕竟带透明通道的训练集就不多
所以后端把图片输入模型前要加个背景,可能有的实现是添加的白色背景,有的加黑色背景,凑巧背景就把文字盖住了
楼主可以试一下把文字换一个颜色看看效果
那如果是pdf白色背景,然后灰色水印有什么办法优化咩佬
我还没遇到过水印对内容识别影响特别大的情况
如果pdf没有加保护,可以试试直接用Acrobat一类的编辑器删掉水印
谢谢佬
4-vision和4o一样,
我只能直接对着题目截图然后CTRL V
感觉是老问题
离谱