科技首页创事记互联网电信 IT业界投稿

高清还原破损视频，参数和训练时间减少三分之二，台大这项研究登上了BMVC 2019

2019-07-23 07:58:13 创事记作者：

小刺猬的视频，被泼了墨。

用AI“清洗”一下，就干净了。

支离破碎的滑板视频。

这下变了回来。

一位黑哥哥在撸巨型老鼠，但是画面破损，看不清。

AI还原一下，现在好了。

每个被破损的视频，经过AI还原之后，仿佛从来没有被破坏过一样，完整清晰。

这是台湾大学发表在BMVC 2019的一项研究，一作是台大通讯与多媒体实验室学生Ya-Liang Chang。

核心创造：LGTSM

之所以能将视频画面修补的那么完美，要归功于研究者们提出的可学习的门控时移模块，Learnable Gated Temporal Shift Module，LGTSM。

LGTSM改进自2018年MIT-IBM沃森实验室提出的TSM模块，增加了门控卷积滤波器，设计了可学习的时间移位内核（temporal shifting kernels）。

由于移位操作仅使用1/4通道大小的附加缓冲器，因此与传统的2D卷积相比，它在计算时间和运行时内存方面成本很低。

这样，这个模块就能将模型的参数和训练时间都减少到原来的33%，达到几乎相同的表现效果。

在这个模块之外，整体的模型则是由U-net类生成器和TSMGAN鉴别器构成，LGTSM模块所处的位置就是生成器内，除此之外生成器还包括11个卷积层。

在不同数据集上跑的结果

用到的数据集是基于YouTube视频制作的FaceForensics和FVI数据集，总共视频数量超过16000个。

在两个数据集上，LGTSM和目前成绩最好的3DGated非常接近，但参数的数量却只有前者的三分之一。

传送门

（声明：本文仅代表作者观点，不代表新浪网立场。）

分享到:

保存 | 打印 | 关闭

作者简介