以下文章来源于深圳大学可视计算研究中心 ,作者施蔚然
导读
本文是VCC施蔚然同学对论文 Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold 的解读,该工作来自马克思普朗克研究所、宾夕法尼亚大学、麻省理工学院和Google,并已被发表在计算机图形学顶级会议SIGGRAPH 2023上。
项目主页:
https://vcai.mpi-inf.mpg.de/projects/DragGAN/
该工作提出了一种基于GAN的交互式图像生成方法,用户可以通过拖动图像中的点来对图像进行编辑。通过Drag GAN,任何人都可以对图像进行形变,精确控制像素的移动位置,从而操纵动物、汽车、人类、景观等各种类别的姿势、形状、表情和布局。
I
引言
近年来,深度生成模型,如生成对抗网络(GANs),在合成逼真图像方面取得了前所未有的成功。在实际应用中,图像合成方法的关键功能要求是对合成的视觉内容具有可控性。为了满足用户的不同需求,理想的可控图像合成方法应具备以下特性:1)灵活性:能够控制生成对象的位置、姿势、形状、表情和布局等不同属性;2)精确性:能够高精度地控制空间属性;3)通用性:适用于不同的对象类别而不仅限于某一类别。然而,以往的方法只满足其中一种或两种特性,本工作旨在同时实现上述特性。
过去基于GAN的可控性生成方法往往是通过3D模型或者依赖于手动注释数据的监督学习来实现。最近,文本引导的图像合成引起了关注,但在图像编辑方面缺少精确性和灵活性。本文探索了一种强大的交互式图像编辑方法,允许用户在图像上放置任意数量的控制点和目标点,并通过将控制点移动到目标点来对整个图像进行编辑。该操作可以使用户控制多种空间属性,并且不受对象类别的限制。
为了实现这种基于点的交互式编辑,本文提出了Drag GAN,解决了两个子问题:1)监督控制点朝目标点移动;2)跟踪控制点,以便在每个编辑步骤中了解它们的位置。Drag GAN的技术基于一个关键观点,即GAN的特征空间足够有区别性,可以实现运动监督和精确的点跟踪。通过优化潜在编码,运动监督通过平移特征点损失实现,每一步优化使控制点靠近目标点;然后通过特征空间中的最近邻搜索进行点跟踪。这个优化过程重复进行,直到控制点到达目标点。Drag GAN还允许用户绘制区域,从而进行区域特定的编辑。由于Drag GAN不依赖于任何额外的网络,它在大多数情况下只需要几秒钟就可以实现高效的操作。这样就可以进行实时的交互式编辑会话,用户可以快速迭代不同的布局,直到达到期望的输出。
II
技术贡献
本工作主要贡献如下:
提出了一种基于GAN的交互式图像编辑与生成方法;
提出一种优化潜在编码的方法和一种点跟踪方法,实现像素级精度的图像变形和交互。
下图是DragGAN与UserControllableLT的结果对比,可以看到本文提出的的方法在各种数据集上有着更自然、更优越的结果。
图1 本文方法与UserControllableLT的定性比较
III
方法介绍
该工作旨在为生成对抗网络(GAN)开发一种交互式图像操作方法,用户只需要通过点击即可定义一些初始点和目标点,该方法可以让初始点到达目标点以实现对图像的编辑。该方法基于StyleGAN2 架构。
基于点的交互式编辑
该方法的图像处理管线如下图所示。对于任意一对由GAN生成的图像和潜在编码,该方法允许用户输入一系列操纵点和其对应的目标点。目标是移动图像中的对象,使操纵点的语义位置到达其相应的目标点。(如图中的鼻子和下巴)。该方法也允许用户绘制一个遮罩来表示图像中的哪个区域是可以移动的。
图2 图像处理管道
给定这些输入,DragGAN以优化的方法对图像进行操作,每一步优化包括两个子步骤:运动监督和关键点跟踪。在运动监督过程中,用一个损失函数来优化潜在编码,用于使控制点移动到目标点。经过优化过程的第一步之后,会获得一个新的潜在编码和图像。接下来需要更新控制点的位置,使其跟踪目标上的对应点。在更新控制点之后,重复进行上面的优化步骤,直到控制点到达目标点为止。
移动监督
该工作提出了一种不依赖于任何额外神经网络的运动监督损失。由于生成器的中间特征非常有区分性,以至于一个简单的损失函数就足以进行移动监督。
图3 移动监督流程
如图3所示,为了将控制点(图中p点)移动到目标点(图中t点),本文提出的方法是监督p点周围的一小块区域(图中红圈),将其向t点移动一小步(图中蓝圈)。用 表示p点周围的一小块区域,该方法中的移动监督损失如下:
其中 表示单个像素的特征值, 是一个从 指向 的归一化向量, 是对应于初始图像的特征值。
关键点跟踪
上一步移动监督的过程产生了新的潜在编码与特征向量以及对应的图像,由于移动监督过程没有提供关键点更新之后的准确位置,这一步操作的目标是将每一个控制点,使得其跟踪对象上的对应点。由于之前的一些点跟踪方法效率较低,本文提出了一种新的针对GAN网络的点跟踪方法,由于GAN的判别特征很好地捕捉到了相关性,因此可以通过特征块中的最近邻搜索来有效地进行跟踪。
IV
部分结果展示
图4展示的是该方法的真实图像操作。给定真实图像,使用GAN将其映射到StyleGAN的潜在空间,然后分别编辑姿势、头发、形状和表情。
图4 真实图像操作
图5展示的是与UserControllableLT方法的定性比较,可以看到本文提出的方法在各种数据集上实现了更好更自然的结果。
图5 对比结果
V
总结与展望
本文提出了DragGAN,一种基于关键点的交互式图像编辑方法。该方法使用预训练的GAN来合成图像,这些图像不仅精确地遵循用户输入,并且非常逼真。与之前的许多方法相比,作者提出了一个通用框架,不依赖于特定领域的建模或辅助网络。这是通过移动监督和关键点跟踪两个方法实现的。可以看到该方法在基于GAN的操作方面优于现有技术,并为生成图像编辑领域开辟了新的方向。
VI
思考与讨论
Q: 本文提出的方法还可以应用在哪些工作上?
A: DragGAN提出了一种通用的图像编辑方法,这种方法可以应用于大部分基于GAN的内容生成领域,比如三维对象生成。
Q: DragGAN有哪些局限性?
A: 尽管有一定外推能力,但该方法的编辑质量仍然受到训练数据多样性的影响。如图所示,创建偏离训练分布的人体姿势可能会导致伪影。
图6 方法局限性
以下是开放性问题,欢迎读者朋友留言讨论:
Q: 本文提出的交互式生成方法利用了生成对抗网络在潜空间上连续分布的特点,这种方法能否适用于其他生成模型(如Transformer,Diffusion等)?能否用于解决其他领域的内容生成问题?
转自:“arXiv每日学术速递”微信公众号
如有侵权,请联系本站删除!