gpt4o画图 网络逆向工程的发现与启示

原帖https://www.reddit.com/r/LocalLLaMA/comments/1jlptqu/reverse_engineering_gpt4o_image_gen_via_network/

推测:GPT-4o的图像生成很可能不是其核心Transformer模型直接完成的,而是通过一个独立的生成模型(可能是DALL-E的变种或新设计的扩散模型)实现的。

支撑点:

  1. 单独的websocket链接
  2. url分离
  3. 图片先模糊再清晰 和 耗时 符合类Stable Diffusion的扩散模型特点
  4. json数据中 有task_id
3 个赞

啥意思,不是原生输出图像吗?这个意思是oai说谎了?

(看了一下帖子,是类似豆包的那种vae?)