GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器

最近,科研机构推出GPT-ImgEval,首次系统评估了GPT-4o在图像生成上的真实表现,揭示其可能采用自回归主干+扩散头的混合结构。

评估结果显示,GPT-4o在文本生成图像、指令编辑图像和基于世界知识的语义合成任务中表现优异,但在尺寸控制、色调变化和复杂场景处理等方面存在不足。

此外,GPT-4o生成的图像在被主流图像取证模型检测时,识别准确率普遍超过95%,表明这些图像仍可被检测出来。

[原文链接]

上一篇:

下一篇:

微信