投稿问答最小化  关闭

万维书刊APP下载

论文一起读 | Text2Human: 文本驱动的可控人物图像生成

2023/1/16 14:28:07  阅读:311 发布者:

以下文章来源于深圳大学可视计算研究中心 ,作者高旭

导读

本文是VCC高旭同学对论文 Text2Human: Text-Driven Controllable Human Image Generation 的解读,该工作由南洋理工大学和商汤科技研究人员合作完成,并已发表在计算机图形学顶级会议SIGGRAPH 2022上。

项目主页:

https://yumingj.github.io/projects/Text2Human.html

该工作提出了一种文本驱动的可控人物图像合成方法。在人物图像合成任务中,一些经典的方法往往依赖于一张简单的人体姿势图,可以控制人物的姿势,但对人物的服装缺少直观有效的控制。因此,作者提出了使用文本对人物服装的形状和纹理进行控制,并通过纹理感知的分层VQVAE,生成真实多样的人物图像。

I

 引言

近年来,生成对抗网络的出现极大地促进了图像生成领域的研究工作。通过一个预训练的StyleGAN,我们可以轻易生成多样且高质量的人脸图像,并进行人脸属性编辑或人脸风格化等下游任务。但对全身的人物图像却缺少足够的研究。一方面,相比于人脸,人物图像在内容上更加丰富多样,对细粒度的要求更高,使得该任务具有很强的挑战性;另一方面,人物图像生成又有着广阔的应用前景,如人体姿势迁移、虚拟试穿和动画等都离不开这项技术。现有的人物图像生成方法,往往倾向于生成纯色的简单纹理,缺少对服装材质的细粒度控制。

1 通过文本控制人物的服装

本次导读论文介绍了一种新的人物图像合成方法,该方法使用文本对人物服装的形状和纹理进行控制。由于人物图像的复杂性,很难用一个生成模型满足所有要求,因此该工作将人物图像生成任务分解成两个阶段。在第一个阶段,从人体姿势图生成人体解析图;在第二个阶段,从人体解析图生成最终的人物图像。两者都是在文本的驱动下完成的。考虑到服装纹理的多样性,作者引入了纹理感知的分层VQVAE,从两个不同的尺度学习图像纹理的离散表征,并将不同的纹理表征存储在不同的编码本(Codebook)中。其中,粗尺度的表征包含更多的结构信息,细尺度的表征包含更多的纹理细节。为了从粗尺度的表征中采样出新的样本,作者采用了基于扩散模型的Transformer,并针对自身有多个编码本的特点,融入了混合专家的思想来分别预测每一种纹理。细尺度的表征采用了前馈的预测网络,该网络也是纹理感知的,可以提高采样速度并确保生成质量。正是通过这种纹理感知的分层表征学习,该工作可以生成细腻的复杂纹理。

II

 技术贡献

本工作主要贡献如下:

提出了一种文本驱动的可控人物图像合成方法;

构建了纹理感知的分层VQVAE,并使用融合了混合专家思想的采样器;

提出了一个前馈的索引预测网络,提高了采样速度;

贡献了一个带有细粒度标注的多模态人物图像数据集。

如表1所示,Text2Human与先前方法相比,在多个评价指标上都取得了最高评分。该方法不仅达到了文本控制服装属性的效果,还可生成更加细腻复杂的纹理和高质量人脸。

1 与其他几种方法的定量比较

III

 方法介绍

Text2Human的目标是,根据一张人体姿势图  以及描述服装形状的文本  和描述服装纹理的文本  生成对应的人物图像  整个网络架构如图2所示。

2 Text2Human的网络架构图

该网络主要分为两个部分,分别对应两个生成阶段:

阶段一:从姿势图到解析图

该阶段可以看作以文本为条件,对人体姿势图进行分割任务。对于给定的人体姿势图P和描述服装形状的文本  我们希望生成对应的人体解析图  以此确定人物的部位和服装的形状。首先,文本  会被转换成一组One-hot编码,代表服装的形状属性,并经过全连接层融合为一个特征向量  该特征向量就作为分割网络的条件输入。而分割网络作者采用了经典的UNet模型。训练所用的损失与传统的分割任务相同,即交叉熵损失。

阶段二:从解析图到人物图像

在这一阶段,作者使用了VQVAE的方法,先将图像量化为离散的表征,进而将原本的图像生成问题转化为序列生成问题。VQVAE由编码器  、解码器  和编码本  组成:

图像I首先经过编码器  得到连续表征  :

然后量化为编码本  中的离散表征  

经过解码器  进行图像重建:

最终通过下面的目标函数,即图像重建损失和表征量化损失,对编码器  、解码器  和编码本  端到端训练:

其中  不计算梯度。

考虑到服装纹理复杂性,使用单尺度特征表示纹理是不够的,作者提出了带有纹理感知的分层VQVAE,如图3所示。

3 分层的VQVAE和纹理感知的编码本

具体来说,纹理感知是指作者使用了不同的编码本来分别存储不同的纹理表征,个编码本就代表了  种不同的纹理。之所以这样做,是因为作者认为不同的纹理经过编码后可能会变得相似,此时量化会产生歧义,通过这种纹理感知的方式可以提高纹理量化和预测的准确性。

分层是指作者对图像进行了两种不同尺度的表征量化。在上层的VQVAE中,学习带有纹理结构的图像表征。首先使用编码器  对人体图像  进行下采样,得到粗尺度的表征  再经过编码本  量化为  最终通过解码器  和  重建为图像:

底层的VQVAE则是在  的基础上,进一步学习带有纹理细节的图像表征。首先使用编码器  对人体图像I进行下采样,得到细尺度的表征  再经过编码本  量化为  最终和  一起通过解码器  和  重建为图像:

为了从学习好的编码本中采样图像,在上层的VQVAE中,作者使用了基于扩散模型的Transformer,该模型可以考虑全局双向的上下文信息,以人体解析图S和文本  为条件,并行预测索引序列,采样速度和质量都要优于以往使用的自回归模型(如PixelCNNGPT2)。针对多个编码本,作者进一步融入了混合专家的思想,输入的数据将根据纹理信息被路由到指定的专家网络进行预测,每个专家网络的输出只对应一个编码本的索引。

在底层的VQVAE中,作者不再使用扩散模型。一方面,该模型需要多次的去噪采样,消耗大量的计算资源;另一方面,两层编码本学习到的表征具有某种隐式的关系,上层的预测结果可以有效地指导下层的预测。因此,作者在此设计了一个前馈的索引预测网络 该网络也是纹理感知的,以  作为输入,经过相同的特征提取层,再根据纹理信息被输入到不同的分类网络预测出索引   

IV

部分结果展示

以下图像的分辨率均为512×256。其中,图4展示了本文方法与其他几种方法从人体解析图生成人物图像的对比结果。可以看出,本文方法可以生成更加细腻的复杂纹理和高质量的人脸。图5展示了本文方法与最先进的两种方法TryOnGANHumanGAN从人体姿势图生成人物图像的对比结果。需要注意的是,这两种方法不能对服装的形状和纹理进行控制,本文的方法则是实现了文本控制服装属性的效果。图6展示了消融实验的结果。结果表明,作者提出的分层表征学习,可以有效提高服装纹理质量;纹理感知和混合专家模型的设计,可以生成更加贴合文本描述的服装纹理。

4 从人体解析图生成人物图像的对比结果

5 从人体姿势图生成人物图像的对比结果

6 验证分层设计和混合专家模型有效性的消融实验

V

总结与展望

该工作提出了一种新的文本驱动的可控人物图像生成方法,通过文本控制服装的形状和纹理。该方法将人物图像生成任务分解为两个子阶段,分别进行服装形状和服装纹理的控制,降低了模型的学习难度。并通过带有纹理感知的分层VQVAE学习不同尺度的图像表征,进一步提升了图像的生成质量。混合专家思想的引入,大大提高了生成纹理与文本描述的一致性;前馈的索引预测网络的使用,则加快了多层序列的采样速度。同时,作者为此构建了一个高质量的多模态人物图像数据集,使整个任务得以在有监督的条件下进行训练,这是本文成功的关键,也将极大地促进该领域的研究和发展。

VI

思考与讨论

Q: 作者为什么采用VQVAE

A: VQVAE的思想来源于这样一个现象:在自然界中,很多重要的事物都是离散的,比如我们每天都在使用的语言,那么将图像压缩为离散的数据有可能学习到更有用的表征。而且图像生成问题的一个难点就在于图像分布的学习,通过编码本的形式,我们最终可以将图像量化为由索引组成的序列,图像分布的学习就转化成了序列分布的学习。相对来说,离散数据组成的序列可以更容易地建模,如自回归模型PixelCNNGPT2等都有着很强的序列建模能力。近两年所提出的离散扩散模型,则是进一步克服了自回归模型单向、误差累积等缺点,采样速度和质量都得到了明显提升。

Q: 本文方法有哪些局限性?

A: 本文所提出的方法完全是在有监督的条件下进行训练的,作者为此构建的高质量的多模态数据集是本文方法成功的关键,也是造成局限性的主要原因。对于数据集中不常见的姿势和纹理,本文方法的生成结果并不理想,如图7所示:本应生成侧脸却生成了诡异的正脸,格子纹理出现了模糊。而且所谓的文本控制生成,也只是将用户输入的文本转换成预置的属性编码,这些编码是离散有限的(比如,作者将数据集中的纹理划分为18类),那么文本嵌入过程也是一个量化过程,对于不在预置编码之内的新纹理,量化会造成语义误差,导致最终生成结果与文本描述并不一致。

7 不常见的姿势和纹理的生成结果

以下是开放性问题,欢迎读者朋友留言讨论:

Q: 受设计的限制,本文方法只能较好地生成预置的服装形状和纹理,在未来的工作中将如何提高模型的泛化能力,生成任意的服装形状和纹理?

转自:arXiv每日学术速递”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com