CVPR 2020 | 让合成图像更真实,上交大提出基于域验证的图像和谐化

CVPR 2020 | 让合成图像更真实,上交大提出基于域验证的图像和谐化
2020年02月26日 11:53 机器之心

作者:牛力

近日,计算机视觉顶会 CVPR 2020 接收论文结果公布,从 6656 篇有效投稿中录取了 1470 篇论文,录取率约为 22%。本文介绍了上海交通大学被此顶会接收的一篇论文《Deep Image Harmonization via Domain Verification》。

图像合成 (image composition) 是图像处理的常用操作,把前景从一张图上剪贴下来粘贴到另一张图上,获得一张合成图。合成图可以用来获取感兴趣的目标图像,也可以用于数据增广,有着广泛的应用的前景。但通过这种方式得到的合成图存在诸多问题,比如前景的大小或位置不合理、前景和背景看起来不和谐等等。我们的工作侧重于解决合成图中前景和背景不和谐的问题。具体来说,在合成图中,前景和背景是在不同的拍摄条件 (比如时刻、季节、光照、天气) 下拍摄的,所以在亮度色泽等方面存在明显的不匹配问题。图像和谐化 (image harmonization) 旨在调整合成图中的前景,使其与背景和谐。

传统的图像和谐化方法一般是从背景或者其他图片转移颜色信息到前景上,但这样无法保证调整之后的前景看起来真实并且与背景和谐。近年来,已经有少量的工作尝试用深度学习做图像和谐化,但成对的合成图和真实图极难获得。如果没有成对的合成图和真实图,深度学习的训练过程缺乏足够强的监督信息,合成图和谐化之后的结果也没有 ground-truth 用于评测。截至目前还没有公开的大规模图像和谐化数据库,我们构建并公布了由四个子数据库组成的图像和谐化数据库。并且,我们提出了域验证 (domain verification) 的概念,尝试了基于域验证的图像和谐化算法。

数据库和代码已公布: 

https://github.com/bcmi/Image_Harmonization_Datasets

论文地址: https://arxiv.org/abs/1911.13239

我们构建数据库的方法仿照 [1] 中的策略,具体来说,给定一张真实图,选择一个前景进行调整使其和背景不和谐,得到一张人造的合成图。这种构建数据库的方式可以产生大规模成对的训练数据用以训练深度学习模型。但是 [1] 没有公布其构建的数据库,并且 [1] 建库的方式在合成图的合理性和多样性上存在明显不足。对前景进行调整使其和背景不和谐并不困难,简单的改变前景亮度即可快速生成大量的合成图。然而,如果要保证合成图的合理性和多样性并且接近实际的应用场景,则非常困难。因此,我们构建了一个 [1] 中数据库的增广增强版本,共包含 73,146 对合成图和真实图的数据库。我们的数据库包含四个子数据库:HCOCO, HAdobe5k, HFlickr, Hday2night,其中 Hday2night 是 [1] 中没有的子数据库。Hday2night 的合成图更接近真实的合成图,因此相比较其他三个子数据库有特殊的参考价值。我们针对产生合成图的种种问题,用两轮自动筛选和逐张人工筛选保证最终保留图片的质量。我们对最终的数据库做了全面细致的分析,包括不同的前景比例、不同的前景调整方法、不同的语义种类对图像和谐化数据库以及图像和谐化算法结果的影响,详见论文的补充材料。接下来,我们从每个子数据库选两个例子展示我们的数据库。如下图所示,我们对真实图片 (real image) 的前景 (mask 对应的区域) 进行调整,得到合成图 (synthesized composite)。可以看出在合成图中,前景虽然真实,但是和背景明显违和,整张图看起来不真实。图像和谐化的任务是调整合成图的前景,使其与背景和谐。

域 (domain) 是一个非常宽泛的概念,在不同的应用任务中被赋予了不同的含义。围绕域 (domain) 相关的应用也吸引了越来越多研究者的兴趣,比如域适应 (domain adaptation)、域泛化 (domain generalization)、域分类 (domain classification)、域翻译 (domain translation) 等等。最近很多流行的图像到图像翻译 (image-to-image translation) 的方法比如 pix2pix, cycleGAN, MUNIT, DRIT 等都属于域翻译的范畴。域翻译的一个经典应用是把白天的风景图转化成夜景图,其中白天 (daytime) 和夜晚 (night) 可以当作两个域 (domain)。类似的,我们把每一种拍摄条件(比如时刻、季节、光照、天气)当作一个域 (domain),因此真实图片存在无穷多个可能的域。真实图的前景和背景是在相同的拍摄条件下拍摄的,因此属于相同的域。合成图的前景和背景可能是在不同的拍摄条件下拍摄的,因此属于不同的域。我们不知道合成图中前景和背景的域标签 (domain label), 只需要把前景迁移到和背景相同的域。因此图像和谐化 (image harmonization) 可以看成是特殊场景下的域翻译 (domain translation)。据此,我们提出了域验证 (domain verification) 的概念,即判断前景和背景是否属于同一个域,并设计了域验证鉴别器(domain verification discriminator),用于拉近和谐后的前景和背景的域。我们的整体网络结构如下图所示。

我们生成器的结构基于 UNet 实现,但是增加了类似于 [2] 中的注意力机制 (attention block)。另外,我们引入了两个鉴别器,第一个鉴别器是生成对抗网络(GAN)里面标准的鉴别器,作用于整张图片,使得生成图片的数据分布和真实图片的数据分布接近。第二个鉴别器就是我们提出的域验证鉴别器,使得生成图中前景和背景的域尽可能接近。具体来说,我们首先用部分卷积 (partial convolution) 分别提取前景和背景的域表征。部分卷积最早应用于图像填充 (image inpainting),在这里用来提取形状不规则的前景和背景的域表征,可以避免其他区域的信息泄露和默认填充方法的干扰。基于前景和背景的域表征,我们提出了域验证损失 (domain verification loss)。我们的域验证损失虽然最终包装成了对抗损失 (adversarial loss) 的形式,但本质上是基于前景和背景域表征相似度的验证损失 (verification loss)。在我们构建的数据库上,我们比较了我们的方法、传统的图像和谐化方法和基于深度学习的图像和谐化方法。实验结果表明我们的方法优于现有的方法。可视化结果的比较见下图,我们比较了之前的图像和谐化深度学习方法 DIH 和 S2AM,也比较了我们不用域验证鉴别器(domain verification discriminator)的方法。

数据库深度学习
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片