官网ChatGPT奇怪Bug:GPT-4o无法识别带有透明背景的图片

image
:arrow_up:首先这个是原图

本来想让ChatGPT帮忙用python求解的,结果却很怪异:


(官网的结果)

它直接调用了python的OCR功能。这似乎是遗留的老问题,在gpt-4o发布之前,它就很喜欢把图片当成文件进行OCR(当然结果很糟糕)

然后我再shared上把图片直接发给它,问它看到了什么,结果在胡说八道:

用Perplexity的GPT-4o倒是没问题,反应很快:

猜测 是不是因为官网的多模态不能处理带有透明背景的图片,还是说难以处理PNG格式的文件……?

2 个赞

模型不能处理透明通道挺正常的,毕竟带透明通道的训练集就不多

所以后端把图片输入模型前要加个背景,可能有的实现是添加的白色背景,有的加黑色背景,凑巧背景就把文字盖住了

楼主可以试一下把文字换一个颜色看看效果

6 个赞

确实仅仅靠修改字体颜色就能让它识别出来了

这个是灰白色的字:


识别效果很好

这个是黑色的字:


开始胡说八道了

3 个赞

那如果是pdf白色背景,然后灰色水印有什么办法优化咩佬

我还没遇到过水印对内容识别影响特别大的情况

如果pdf没有加保护,可以试试直接用Acrobat一类的编辑器删掉水印

1 个赞

谢谢佬

4-vision和4o一样,
我只能直接对着题目截图然后CTRL V

1 个赞

感觉是老问题

1 个赞

离谱