清华团队提出“高分辨率”图像生成方法：任意分辨率无缝衔接，极大降低训练和采样成本

2023/9/15 17:14:22　阅读：75　发布者：

在火热的“AI 图像生成”领域，任意不同分辨率的无缝衔接扩散模型，出现了。

近日，来自清华大学和智谱 AI 的研究团队联合提出了一个新型级联模型——Relay Diffusion（RDM）。据介绍，运用该模型，扩散过程可以在任何新的分辨率或模型下无缝进行，而无需从纯噪声重新开始生成。

相关研究论文以“Relay Diffusion: Unifying diffusion process across resolutions for image synthesis”为题已发表在预印本网站 arXiv 上，相关代码已发布在 GitHub 上。

论文链接：

https://arxiv.org/abs/2309.03350

GitHub地址：

https://github.com/THUDM/RelayDiffusion

近些年来，扩散模型（Diffusion）在图像合成方面取得了巨大的成功，显著提升了

合成的质量。然而，扩散模型在合成高分辨率

时仍面临较大挑战，一是低分辨率的噪声调度很难直接用于高分辨率，研究者们需要为高分辨的场景谨慎地调节噪声调度表，且仍难以获得良好的结果；二是高分辨的训练过程需要大量资源，计算成本较高。

目前，一种普遍采用的解决方案是 latent (stable) diffusion 提出的在隐空间内训练，再映射回像素空间，但这种方法不可避免地会受到底层伪影（low-level artifacts）的影响；另一种方案则是训练一系列不同分辨率的超分扩散模型构成级联，现有的级联方法是有效的，但它需要在每个阶段从噪音开始完整采样，效率较低，且效果严重依赖于条件增强等训练技巧。

为了更好地解决上述问题，研究团队提出的级联模型 Relay Diffusion 在具备原有级联方法优点的同时，借助模糊扩散过程（blurring diffusion）和块状噪音（block noise），可以在任意不同分辨率间无缝衔接，就像“接力赛”一样，极大地减少了训练和采样的成本。

据论文描述，通过离散余弦变换频谱分析发现，相同噪声强度在更高的分辨率下对应于频率空间的信噪比（SNR）在低频部分更高，这意味着自然图像的低频信息没有被很好地破坏掉。

为此，该研究提出了一种像素点间具有相关性的块状噪音——block noise，它在高分辨率下对应的 SNR 在低频部分和高斯噪音在低分辨率下的 SNR 相当。

以 64×64 和 256×256 为例，Relay Diffusion 的整体流程为：先通过标准扩散过程生成低分辨率

，再将其上采样为每个 4×4 网格具有相同像素值的模糊高分辨率

，之后对每个 4×4 的网格独立进行模糊扩散过程（blurring diffusion）。

这样使得前向过程的终态和上采样的模糊

对齐，因此 Relay Diffusion 的第二阶段可以直接以模糊

为起始点，而不是现有级联方法中的纯高斯噪音。

实验结果显示，相比传统的级联扩散模型，Relay Diffusion 在生成高分辨率

时，省去了生成低频信息的部分，极大地节约了计算成本，同时更加简单，不需要以低分辨率

为条件和各种条件增强技巧，而且不需要重新设计或调节噪声调度表。

另外，Relay Diffusion 在节省成本的同时，还可以更快地达到更好的生成性能，在无条件数据集 CelebA-HQ-256 上达到了 SoTA 的 FID，在条件数据集 ImageNet-256 上达到了 SoTA 的 sFID 以及具有竞争力的 FID，大幅超过了 ADM、LDM、DiT 等模型。当不使用无分类器指导（CFG）时，Relay Diffusion 也显示出强大的性能优势。

研究团队表示，本次研究提出的级联模型有助于创建更先进的文本到图像模型。

未来，他们将继续把 Relay Diffusion 中的相关技术应用到通用领域的文生图模型中，从而推动该领域进一步的研究。

转自：“学术头条”微信公众号

如有侵权，请联系本站删除！

投稿问答最小化 关闭

清华团队提出“高分辨率”图像生成方法：任意分辨率无缝衔接，极大降低训练和采样成本

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

清华团队提出“高分辨率”图像生成方法：任意分辨率无缝衔接，极大降低训练和采样成本

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭