计算机系统应用教程网站

网站首页 > 技术文章 正文

MIGC: 文本到图像合成的多实例生成控制器(CVPR2024)

btikc 2024-09-11 01:36:53 技术文章 8 ℃ 0 评论

论文题目

MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis

1、简介

本文提出了一个多实例生成(Multi-Instance Generation, MIG)任务,在一个图像中同时生成具有不同控件的多个实例。给定一组预定义的坐标及其相应的描述,任务是确保生成的实例准确地位于指定位置,并且所有实例的属性都符合其相应的描述,这扩大了当前单实例生成研究的范围,将其提升到一个更通用和实用的维度。受分而治之思想的启发,引入了一种名为多实例生成控制器(MIGC)的创新方法来解决MIG任务的挑战。将MIG任务分解为几个子任务,每个子任务都涉及单个实例的着色,为了保证每个实例的精确着色,引入了一个实例增强注意机制,然后汇总了所有阴影实例,为在稳定扩散(SD)中准确生成多个实例提供了必要的信息。为了评估生成模型在MIG任务上的执行情况,提供了一个COCO-MIG基准以及一个评估管道。在提出的COCO-MIG基准以及各种常用基准上进行了大量实验,评估结果表明模型在数量、位置、属性和交互方面的卓越控制能力。

贡献总结如下:

1)为了推进视觉生成的发展,提出了MIG任务来解决学术和工业领域的当前挑战。同时提出了COCO-MIG基准来评估生成模型固有的MIG能力。

2)受分而治之原则的启发,引入了一种新的MIG方法,通过改进MIG能力来增强预训练的稳定扩散。

3)在三个基准上进行了大量的实验,表明我们的MIGC在保证推理速度接近原始稳定扩散的情况下,显著超过了以前的SOTA方法。

2、背景

由于文本不能精确控制生成实例的位置。一些layout -to- image方法扩展了预训练的T2I模型,将布局信息整合到生成中,实现对实例位置的控制。然而,它们难以隔离多个实例的属性,从而生成具有混合属性的图像,本文提出了一种新的模糊控制方法来实现精确的位置和属性控制。

3、方法

1)在分而治之策略的激励下,提出了多实例生成控制器(MIGC)方法。该方法旨在将MIG分解为多个子任务,然后将这些子任务的结果组合在一起。虽然稳定扩散在MIG中的直接应用仍然是一个挑战,但单实例生成中突出的稳定扩散能力可以促进这一任务。如图2所示,MIGC包括三个步骤:1)Divide: MIGC仅在SD的Cross-Attention层将MIG分解为多个instanceshading子任务,以加快每个子任务的分辨率,使生成的图像更加和谐。2)征服:MIGC使用增强注意层(Enhancement Attention Layer)来增强通过冻结的交叉注意(Cross-Attention)获得的着色结果,确保每个实例的着色成功。3)组合:MIGC通过Layout Attention层获得遮阳模板,然后将其与遮阳背景和遮阳实例一起输入到遮阳聚合控制器中,从而获得最终的遮阳结果。

2)阶段一:将MIG划分为实例着色子任务,交叉注意是文本和图像特征在稳定扩散中相互作用的唯一途径,输出决定了生成的内容,这看起来像是对图像特征的着色操作。在这个视图中,MIG任务可以定义为对图像特征进行正确的多实例着色,subtask可以定义为找到满足以下条件的单实例着色结果,在交叉注意空间中划分有两个好处,1)征服效率更高:对于N个实例生成,MIGC仅在Cross-Attention层上征服N个子任务,而不是整个Unet网络,这将更有效率;2)更和谐地组合:与网络最终输出的组合相比,在中间层组合子任务增强了生成图像的整体凝聚力。

3)阶段二:征服实例着色,着色阶段1:交叉注意的着色结果,预训练的交叉注意会注意到高注意权重的区域,并根据文本语义进行着色,MIGC使用掩码的Cross-Attention输出作为第一个着色结果,着色阶段2:增强注意解决实例缺失。

4)阶段三:组合着色结果,全局提示残差作为阴影背景,获得n个实例的着色结果作为着色前景,MIGC的下一步是获得着色背景,MIGC利用全局提示符获得阴影背景结果Rbg,背景掩码为Mbg,其中包含实例的位置赋值为0,其他位置均标记为1。

4、实验

1)提出的COCO-MIG基准的定量结果

2)MIGC与其他方法在COCO-MIG上的基线进行了定性比较

3)COCO-Position的定量结果

4)MIGC与其他COCO-Position基线的定性比较

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表