原标题:如何突破Decoder性能瓶颈?英伟达专家揭秘FasterTransformer2.0的原理与应用 | NLP公开课 来源:量子位
关注前沿科技 量子位
自从 “Attention is All You Need” 在2017年提出以来,Transformer已成为 NLP 领域中非常热门的深度学习网络架构。但是在推理部署阶段,其计算性能往往难以满足在线业务对于低延迟和高吞吐的要求。
在英伟达开源的FasterTransformer 1.0版本中,针对BERT中的 Transformer Encoder进行了优化和加速,经过高度优化之后,降低了用户使用transformer编码的时延。
在解决了Encoder性能问题之后,英伟达将重点放到了同样重要的Transformer Decoder推理上。
因此,英伟达推出了FasterTransformer 2.0版本,提供针对解码器进行高度优化的transformer layer。同时,还提供了优化过后的整个翻译流程,满足想要在翻译场景中大幅降低时延的用户们。
那么,FasterTransformer 2.0背后的优化原理是什么?如何针对decoder和decoding进行优化?
(声明:本文仅代表作者观点,不代表新浪网立场。)