周杰伦cos油画、钢铁侠穿越，北大微软新方法让换脸更惊艳|钢铁侠_新浪科技

作者：Lingzhi Li等

机器之心编译

参与：王子嘉、思

换脸效果不够真实，能让你看出破绽？看看北大和微软的研究者如何生成更加真实的换脸效果，如何解决遮挡、光线等各种问题。

换脸是非常吸引人的一种应用，开发者可以用 VAE 或 GAN 做出非常炫酷的效果。一般而言，换脸会将 A 脸特征换到 B 脸上，同时保留 B 脸的神情或动态。像 FaceSwap 这样开源项目已经能生成非常真实的假脸视频，不过仔细看看仍然会发现有的地方存在模糊，有的地方转换不太自然。

那么怎样才能生成转换更自然，效果更真实的换脸视频？这就是这篇论文的研究目的，研究者新模型不仅感官上更真实，同时还保留了比其它前沿方法更多的个人特征。

下面我们先看看效果：

研究者同时从网络上下载人脸图像以展示 FaceShifter 的强大能力。如图 11 所示，新方法可以处理不同情况下（如夸张的动作、非常见光照以及极其复杂的面部遮挡）的人脸图像。

研究者此次提出了一种新型的两段式框架——FaceShifter。这个框架可以完成高保真的换脸过程，在面部有遮挡时依然可以很好地工作。不像那些只利用有限信息就完成换脸任务的框架，该框架中的第一部分就自适应地整合了目标图像的所有属性以生成高保真的换脸图片。

此外，研究者提出了一种新型的属性编码器以提取人脸图像的多级属性，同时提出了一种基于 Adaptive Attentional Denormalization (AAD) 的新型生成器，自适应地整合人脸合成时所需的特征和属性。

为了解决脸部遮挡的问题，研究者在框架中加入了第二部分——Heuristic Error Acknowledging Refinement Network (HEAR-Net)。这个网络通过自监督的方式，在没有人工标注的情况下实现异常区域的修复。

下面，让我们看看这种高逼真度的换脸到底是怎么样的。

论文：FaceShifter: Towards High Fidelity And Occlusion Aware Face Swapping

论文地址：https://arxiv.org/pdf/1912.13457.pdf

换脸的缺陷与改进

换脸技术就是将目标图像中人脸的面部特征替换为源图像人脸的对应部分，同时还要保留一些如头部动作、脸部表情、光线、背景等基本属性。由于这一技术在电影合成、电脑游戏以及隐私保护等方面有很广泛的应用前景，这一技术已经广泛引起了视觉和图像领域的关注。

最近，基于 GAN 的一些工作已经取得了很不错的结果。但是，如何生成真实且保真的图像依旧是个很大的难题。

因此我们这项工作的重点之一就是提高换脸后图像的保真度。为了让结果在感官上更具吸引力，如何让合成的换脸图像无缝融入新脸，同时保持原有姿势表情，这就是我们要研究的重点。也就是说，换脸图像的渲染应当忠于目标图像的光线（方向，强度，颜色等），被交换的脸也应该跟目标图像有相同的分辨率。

这些都不是仅仅 Alpha 或是 Poisson 混合能够解决的，我们真正需要的是让换脸过程可以自适应地继承目标图像完整属性信息，这样目标图像的属性（亮度、分辨率等）就可以让换脸后的图像变得更加真实。

然而，以前的方法要么忽略了这一需求，要么就是无法自适应或者完整地集成这些信息。具体来说，以往的许多方法仅利用目标图像的姿态和表情来指导换脸过程，然后利用目标人脸 Mask 将人脸混合到目标图像中。这一过程容易产生一些缺陷，因为：

1）在合成换脸图像时，除了姿态和表情外，对目标图像的了解很少，很难保证场景光照或图像分辨率等目标属性不发生变化；2）这样的混合将丢弃位于目标 Mask 外部的源面部特征。

因此，这些方法不能保持源标识的面形，我们在图 2 中展示了一些典型的失败案例。

图 2：之前方法在 FaceForensics++数据集上的失败案例

为了实现高保真的人脸交换结果，在框架的第一阶段，我们设计了一个基于 GAN 的网络以对目标属性进行彻底的自适应集成，并称之为自适应嵌入集成网络（Adaptive Embedding Integration Network，AEI-Net）。我们对网络结构做了两个改进：

1）我们提出了一种新的多级属性编码器，用于提取各种空间分辨率下的目标属性，而不是像 RSGAN[28] 和 IPGAN[5] 那样将其压缩成单个向量；

2）提出了一种有 Adaptive Attentional Denormalization(AAD) 层的新型生成器器，该发生器自适应地学习了在何处集成属性以及特征的嵌入。与 RSGAN[28]、FSNet[27] 和 IPGAN[5] 的单级集成相比，这种自适应集成为结果带来了相当大的改进。

通过这两个改进，我们提出的 AEI-Net 可以解决图 2 中光照不一致和人脸形状不一致的问题。

此外，处理面部的遮挡一直是换脸的挑战。Nirkin 等人的方法中对人脸进行分割并训练以使其能感知到脸部的遮挡部分，我们的方法可以以一种自监督的方式学习恢复人脸异常区域，而且不需要任何人工标注。我们观察到，当把同一张人脸图像同时作为目标图像和源图像，并输入到一个训练良好的 AEI 网络时，重建的人脸图像跟输入图像有多处改变，这些改变所在的位置基本上就是脸部遮挡的区域。

因此，我们提出了一种新的 Heuristic Error Acknowledging Refinement Network (HEAR-Net)，在这种重构误差的指导下进一步精化结果。重要的是，这个方法不止是能修正脸部遮挡，它还可以识别很多其他的异常类型，如眼镜、阴影和反射效应。

我们提出的两段式换脸框架 FaceShifter 与场景无关。一旦训练完成，该模型就可以应用于任何新的人脸对，而不需要像 DeepFakes 和 Korshunova 等人的 [21] 那样找特定的受试者训练。实验结果表明，与其他先进的方法相比，我们的方法获得的结果更真实、更可靠。

FaceShifter 模型什么样

我们的方法需要输入两张图像——提供人脸特征的源图像 X_s 以及提供动作、表情、光线、背景等属性的目标图像 X_t。最终的换脸图像是通过两段式框架 FaceShifter 生成的。在第一阶段中, 我们的 AEINet 自适应地基于集成信息生成了一个高保真的换脸结果

。在第二阶段，我们使用 Heuristic Error Acknowledging Network (HEARNet) 来处理面部遮挡，并对结果进行改进，最后的结果用

表示。

自适应嵌入集成网络（Adaptive Embedding Integration Network）

在第一阶段，我们希望生成一个高保真（拥有源图像 X_s 特征，且保留目标图像 X_t 动作等属性）的人脸图像

。为了达到这一目标，我们的方法包含三个模块：

i）从源图像中抽取特征的特征编码器 z_id(X_s)；

ii）从目标图像 X_t 抽取属性的多级属性编码器 z_att(X_t)；

iii）基于 Adaptive Attentional Denormalization (AAD) 生成换脸图像的生成器。

启发式误差修正网络（Heuristic Error Acknowledging Refinement Network）

尽管 AEINet 第一阶段的换脸结果

已经能很好的获取目标图像的动作、表情、光照等属性，但是当目标脸部图像 Xt 中对脸部有遮挡时，这种遮挡就很难被继承下来。为了解决这个问题，过去的一些方法 [30,29] 加入了一个新的脸部分割网络。这个网络的训练数据需要进行大量标注（哪一部分有遮挡），而且这种有监督方式可能很难识别出未知的遮挡方式。

对于面部遮挡问题，我们提出了一种启发式的方法。如图 4(a) 所示，当目标图像中的脸被遮挡时（头发或是帽子上的铁链），有一部分遮挡会在换脸过程中小时。同时，我们发现，就算我们把同一张图同时作为源图像和目标图像输入给训练好的 AEI-Net，这种遮挡还是会在重建的图像中消失。此时这种输出与输入的误差，就可以作为我们定位面部遮挡的依据，我们把这种依据叫做输入图像的启发式错误，因为这个误差启发性的表征了异常发生的位置。

实验效果怎么样

与过去方法的比较

1. 定性对比

图 5 展示了我们在 FaceForensics++数据集上与 FaceSwap [2], Nirkin et al. [30], DeepFakes [1] 和 IPGAN [5] 的比较。

图 6 则展示了我们的方法与最新方法 FSGAN 的对比。

由于 FaceSwap [2], Nirkin et al. [30], DeepFakes [1] 和 IPGAN [5] 的策略都是先生成脸部区域图像，然后将其嵌入到目标脸中，我们可以从比较中明显的看出这些方法的嵌入误差。

这些方法生成的所有人脸与其目标人脸有着完全相同的人脸轮廓，而且源人脸的形状也被忽略了（图 5 第 1-4 行及图 6 第 1-2 行）。除此之外, 他们的研究结果一定程度上忽略了目标图像的一些重要信息，如光照（图 5 第 3 行，图 6 第 3 - 5 行），图像分辨率（图 5 第 2 行和第 4 行）。由于 IPGAN[5] 的矩阵只描述了单一级别的属性，因此其所有样本都显示出了分辩率下降的问题。同时，IPGAN 也不能很好地保存目标面部的表情，如闭上的眼睛（图 5 第 2 行）。

我们的方法很好地解决了所有这些问题，实现了更高的保真度——保留了源人脸（而非过去的目标人脸）的脸部轮廓，且保证了目标图像（而非过去的源人脸）的光线与图像分辨率。我们的方法在处理面部遮挡问题上的表现甚至可以超过 FSGAN [29]。

2. 定量对比

我们使用不同的人脸识别模型 [41] 提取特征向量，并采用余弦相似度来度量特征差距。我们从 FaceForensics++的原始视频中为每个测试集中的换脸结果匹配了一张最接近的脸，以检查这张脸是否属于正确的源视频。表 1 中的 ID 就是使用该方法获得的平均准确率，这个方法可以用来测试特征保留能力。我们提出的框架获得了更高的 ID 分数，且检索范围很大。