商汤科技提出FouriScale 实现生成图像尺寸、分辨率自由 - 谷动谷力

4月8日消息:近日，来自香港中文大学 - 商汤科技联合实验室等机构的研究者们提出了 FouriScale，旨在通过一种全新方法实现生成图像的尺寸和分辨率自由。

扩散模型因其卓越的性能，已逐渐超越GAN和自回归模型，成为生成式模型的主流选择。这些模型通常在特定分辨率下进行训练，以确保在现有硬件上实现高效处理和稳定的模型训练。然而，当这些预训练的扩散模型在超出训练分辨率时生成图像，常会出现模式重复和人工伪影问题。

为了解决这一问题，研究者们深入研究了扩散模型中常用的UNet结构的卷积层，并从频域分析的角度提出了FouriScale。

该方法通过引入空洞卷积操作和低通滤波操作来替换预训练扩散模型中的原始卷积层，旨在实现不同分辨率下的结构和尺度一致性。配合“填充然后裁剪”策略，FouriScale能够灵活生成不同尺寸和长宽比的图像。此外，该方法无需任何离线预计算，具有良好的兼容性和可扩展性。

FouriScale的核心在于空洞卷积和低通滤波的结合。空洞卷积保证了跨分辨率下的结构一致性，而低通滤波则确保了尺度一致性，过滤掉高频分量，去除空间下采样后的频率混叠问题。

此外，FouriScale还能够适应于任意尺寸的图像生成，通过“填充然后裁剪”的方式，以及将FouriScale作为引导，保证了图像质量。

实验结果表明，FouriScale在利用预训练扩散模型生成高分辨率图像方面取得了显著提升。作者测试了三个文生图模型（包括SD1.5，SD2.1和 SDXL1.0），生成四种更高分辨率的图像。

在Laion-5B上随机采样的图文对测试结果显示，他们的方法在各个预训练模型，不同分辨率下都获得了最优的结果。定性试验结果也显示，该方法能够保证图像生成质量与一致的结构。

FouriScale的提出，为增强预训练扩散模型生成高分辨率图像的能力提供了新的思路。通过空洞卷积和低通滤波操作改善了不同分辨率下的结构和尺度一致性，解决了重复模式和结构失真等关键挑战。

采用“填充然后裁剪”策略并利用FouriScale作为指导，增强了文本到图像生成的灵活性和生成质量，同时适应了不同的长宽比生成。定量和定性的实验对比表明，FouriScale能够在不同预训练模型，不同分辨率下都能够保证更高的图像生成质量。