设为书签 Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。 您也可下载桌面快捷方式。点击下载 | 新浪科技 | 新浪首页 | 新浪导航

如何突破Decoder性能瓶颈?英伟达专家揭秘FasterTransformer2.0的原理与应用 | NLP公开课

2020-04-03 14:02:14    创事记 微博 作者:   

原标题:如何突破Decoder性能瓶颈?英伟达专家揭秘FasterTransformer2.0的原理与应用 | NLP公开课 来源:量子位

关注前沿科技 量子位

位来 发自 凹非寺
量子位 报道 | 公众号 QbitAI


自从 “Attention is All You Need” 在2017年提出以来,Transformer已成为 NLP 领域中非常热门的深度学习网络架构。但是在推理部署阶段,其计算性能往往难以满足在线业务对于低延迟和高吞吐的要求。

在英伟达开源的FasterTransformer 1.0版本中,针对BERT中的 Transformer Encoder进行了优化和加速,经过高度优化之后,降低了用户使用transformer编码的时延。

在解决了Encoder性能问题之后,英伟达将重点放到了同样重要的Transformer Decoder推理上。

因此,英伟达推出了FasterTransformer 2.0版本,提供针对解码器进行高度优化的transformer layer。同时,还提供了优化过后的整个翻译流程,满足想要在翻译场景中大幅降低时延的用户们。

那么,FasterTransformer 2.0背后的优化原理是什么?如何针对decoder和decoding进行优化?




(声明:本文仅代表作者观点,不代表新浪网立场。)

分享到:
保存   |   打印   |   关闭