推测:GPT-4o的图像生成很可能不是其核心Transformer模型直接完成的,而是通过一个独立的生成模型(可能是DALL-E的变种或新设计的扩散模型)实现的。
支撑点:
- 单独的websocket链接
- url分离
- 图片先模糊再清晰 和 耗时 符合类Stable Diffusion的扩散模型特点
- json数据中 有task_id
推测:GPT-4o的图像生成很可能不是其核心Transformer模型直接完成的,而是通过一个独立的生成模型(可能是DALL-E的变种或新设计的扩散模型)实现的。
支撑点:
啥意思,不是原生输出图像吗?这个意思是oai说谎了?
(看了一下帖子,是类似豆包的那种vae?)