Harmon:协调视觉表征,统一多模态理解和生成(模型已开源)

吴思泽等人提出的Harmon模型在统一多模态理解与生成方面取得了显著成果。该模型通过共享MAR编码器在图像理解和生成任务中实现协同优化,显著提升了生成图像的质量和一致性,并在多个基准测试中表现出色。

Harmon在多模态理解基准上接近Janus-Pro的效果,在文生图基准上则大幅领先同类统一模型,并在GenEval基准上显著优于其他模型。

[原文链接]

上一篇:

下一篇:

微信