设为书签 Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。 您也可下载桌面快捷方式。点击下载 | 新浪科技 | 新浪首页 | 新浪导航

MIT韩松团队开发「万金油」母网,嵌套10^19个子网,包下全球所有设备

2020-04-26 12:57:48    创事记 微博 作者:   

如今,训练和搜索一个神经网络体系结构所需的电量,需要造成60多万磅,折合将近300吨的二氧化碳排放。

这相当于多少?相当于一个普通人类活60年所需要排放的二氧化碳。

也相当于整整5辆车的使用寿命,从制造到报废。

去年6月,马萨诸塞州大学阿默斯特分校的研究人员发布了这份惊人的报告

当我们需要在不同的属性和计算资源的硬件平台上部署深度神经网络时,这个问题变得更加严重。

常规方法是手动设计或使用神经体系结构搜索(neural architecture search,NAS)来找到专门的神经网络,并针对每种情况从头开始训练它,但是如上所说,这造成的能源消耗将是天价,因此无法扩展。

如何在跨平台的模型部署中降低成本,顺便还能提升运算效率呢?这就是这篇MIT论文想要突破的问题。“目标是建立更小,更绿色的神经网络,”研究作者之一,MIT教授韩松说。

他们的主要思想是将模型训练与体系结构搜索分离。为此,他们训练了一种支持所有体系结构设置(深度,宽度,内核大小和分辨率)的“全包式”网络,研究人员称其为“一劳永逸网络”( Once-For-All Network,简称OFA)。

这个万能网络可以在各种架构配置下直接部署,从而分摊培训成本。通过仅选择一次全部网络的一部分来执行推断,它可以灵活地支持不同的深度,宽度,内核大小和分辨率,而无需重新训练。

结果表明,通过提高系统计算效率的某些关键方式,系统可以减少所涉及的碳排放量,在某些情况下,甚至可以降低三个数量级。 

为了防止训练过程中许多子网之间的干扰,他们还提出了一种新颖的渐进式收缩算法,该算法可以同时训练出惊人数量的子网,并使其达到相同的精度水平。有多惊人?1后面跟着19个零。

让我们再来感受一下,就是

10,000,000,000,000,000,000个。

这可能涵盖了地球上的所有平台。

让我们来看看最终成果:用“一劳永逸网络”训练计算机视觉模型,与当今最先进的神经体系结构搜索方法相比,该过程所需的碳排放量大约为1/300,同时将推理时间减少了1.5-2.6倍。 

那么,这么牛的项目,是谁做出来的呢?是韩松教授和MIT电气工程和计算机科学系(EECS)、MIT-IBM Watson AI Lab和上海交大的四名本科生和研究生做出来的。而且,韩教授的名字只放在了五作。

那一天,程序员又想起了来自本科生和研究生学霸的碾压。

开发思路:渐进式收缩算法

本文介绍了一种新的解决方案来应对这一挑战-设计一个可以在各种架构配置下直接部署的“万金油”网络,从而分摊培训成本。

通过仅选择一次全部网络的一部分来执行推断,它可以灵活地支持不同的深度,宽度,内核大小和分辨率,而无需重新训练。

OFA的简单示例。在给定部署方案的情况下,无需培训即可直接从一次性网络中选择一个专用子网。

具体来说,我们将模型训练阶段与模型专业化阶段分离。在模型训练阶段,我们专注于提高通过选择一次性网络的不同部分而派生的所有子网的准确性。

与需要重复训练的传统方法相比,带有模型选择的OFA网络可以通过仅训练一次来获得许多精度-延迟权衡。

在模型专业化阶段,我们对子网的一个子集进行采样,以训练准确性预测器和等待时间预测器。给定目标硬件和约束条件,进行了以预测器为指导的架构搜索(Liu等人,2018)以获取专用子网,并且成本可以忽略不计。

因此,我们将专业深度学习部署的总成本从O(N)降低到O(1)。(见下图)

但是,训练“一劳永逸”的网络并非易事,因为它需要对权重进行联合优化以维持大量子网的准确性(在我们的实验中超过10^19个)。

支持不同深度D,宽度W,内核大小为K,分辨率为R。这导致包含不同子网(> 1019)的广阔空间。

在计算上禁止枚举所有子网以在每个更新步骤中获得准确的梯度,而在每个步骤中随机采样几个子网会导致准确性显着下降。挑战在于不同的子网之间会相互干扰,从而使整个“一劳永逸”网络的训练过程效率低下。

为了解决这一挑战,我们提出了一种渐进式收缩算法,用于训练OFA。

我们建议首先训练具有最大深度,宽度和内核大小的最大神经网络,然后再逐步微调OFA以支持与较大的网络共享权重的较小的子网络,而不是从头开始直接优化一次性网络。

这样,它通过选择较大子网的最重要权重来提供更好的初始化,并有机会提取较小子网的机会,从而大大提高了训练效率。

弹性宽度逐渐收缩。在此示例中,我们逐步支持4、3和2通道设置。我们执行频道排序并选择最重要的频道(L1规范较大)以初始化较小的频道设置。重要频道的权重是共享的。

我们使用许多硬件平台(CPU,GPU,mCPU,mGPU,FPGA加速器)和效率约束,广泛评估了ImageA上OFA的有效性。在所有部署方案下,与SOTA硬件感知的NAS方法相比,OFA始终可以将ImageNet精度提高很多,同时将GPU的时间,成本和二氧化碳排放量节省了几个数量级。

图5:与NAS方法相比,OFA节省了数量级的设计成本。

在ImageNet移动设备设置(少于6亿个FLOP)上,OFA通过595M的FLOP实现了新的SOTA 80.0%top1精度。据我们所知,这是SOTA ImageNet top1在移动设置下的精度首次达到80%。

论文作者之一:韩松

韩松博士,清华大学电子系本科,斯坦福大学电子系博士,师从Nvidia(英伟达)首席科学家William J. Dally教授。现任MIT EECS助理教授。

他是深鉴科技的联合创始人、首席科学家,该公司已被Xilinx(赛灵思)收购。

韩松的研究广泛涉足深度学习和计算机体系结构,他提出的 Deep Compression 模型压缩技术曾获得 ICLR2016最佳论文,论文ESE 稀疏神经网络推理引擎2017年曾获得芯片领域顶级会议——FPGA最佳论文奖,引领了世界深度学习加速研究,对业界影响深远。

他被MIT科技评论(MIT Technology Review)选为35名35岁以下的创新者。

近两年,韩松博士的一系列论文获得了工业界与学术界的广泛关注,加州伯克利大学和纽约大学均把论文内容纳入专题课程。

而工业界中,Google, Facebook、Baidu、NVIDIA、Xilinx等诸多大型科技公司也开始采用“深度压缩”技术,应用于云端和移动端的人工智能产品中。

他的爱好包括骑自行车、滑雪板、鼓和设计。

参考链接:

减少人工智能的碳足迹

http://news.mit.edu/2020/artificial-intelligence-ai-carbon-footprint-0423

(声明:本文仅代表作者观点,不代表新浪网立场。)

分享到:
保存   |   打印   |   关闭