图文:简约纳电子系统工程总监梁敏演讲

http://www.sina.com.cn 2008年05月22日 11:24  新浪科技
科技时代_图文:简约纳电子系统工程总监梁敏演讲
图为:简约纳电子系统工程总监梁敏

  第43届世界通信大会于2008年5月19日至23日在北京举行,这是IEEE旗下通信领域最具权威的国际学术会议首次在我国举行。5月21日上午,未来宽带无线移动通信网与LTE分论坛召开,新浪科技作为独家门户支持对本次论坛进行了全程直播。

  图为简约纳电子系统工程总监梁敏演讲。

  以下为其演讲实录:

  梁敏:尊敬的周主席,胡主席,还有各位来宾,各位专家大家早上好!

  我今天代表北京简约纳电子,跟大家分享一些我们的工作。在芯片设计方面,我们需要系统的分析上,考虑哪些问题呢。

  首先就是说我今天的题目可以讲到芯片设计会考虑的因素,还有涉及到LTE系统的指标的一些介绍,还有终端处理复杂度的分析,最后给出一个芯片的系统架构,以及芯片开发的周期的预估。

  在我们芯片设计之初的话,我们会有一个最初的需求的分析,主要包括功能的需求分析,性能的需求分析,那么我们会在性能需求分析的时候,可能会发现很多的性能要求比较高的时候,需要增加新的功能模块,来提高整个芯片的性能,还有就是说对整个硬件和软件的一个分工,这个系统分析的初期,会来做这个分工,来做一个系统地架构分析,那么系统的指标,结合系统指标需要哪些考虑呢,最主要的是要处理的带宽,那么这个带宽,对应着我们会有不同的处理量的一个需求,还有不同的采样率,还有总线的带宽,还有对外的通信口的一些带宽,还有对外的接口器的一些带宽。那么实质性方面的要求,可能对指标的帧结构的一些方式。我们先简单地看看LTE的涉及到芯片复杂度的一些性能指标,我们知道就是说LTE整个峰值的速率要求,下行需要达到100M,上行需要达到50M,这个频谱利用率非常高,那么一个RB的定义,12个子载波,频率间隔15KHZ,6或者7个OFDM符号,在LTE的系统需求里面,它的带宽有六种配置,1.4-20M,所以我们终端的芯片的话,就是说对应这六种不同的配置,可能有不同的复杂度分析。对应它的不同的带宽处理的资源块的数量,就是不一样的,那么从我这张表可以看出来,相应的不同的带宽的采样率,有一个从1.2M的采样率还有到30.72M的采样率。

  第二就是说其中资源块,我们在这里比较提出来看一下,一个是时频的定义的资源块,是我们不同的终端等级意味着不同的RB数量,RB是芯片关于运算量处理复杂度的分析。

  那么帧结构我们看到是说两种帧结构的定义,就FDD和TDD的帧结构,会在一个什么样的时间窗处理它。其中大家可以看到这个RB的分布,其中可以看到八个导频在一个RB里面。那么有五种等级的分布,对应的不同的终端的吞吐量。

  后面我根据前面提到的系统指标,对应的来对整个终端,终端芯片里面,需要处理的上下行链路对应的物理层算法的运算量对应的一个评估的数据,主要采用的方法,针对上下行运算量的一个评估,不是说基于什么样的平台,可能指令不一样,一个指令可以操作的数据也不一样,我们主要先根据这个运算,再来确定我们会涉及一个什么平台,评估的时候,我们假设一些条件,主要是根据系统的指标来的,第一就是它是两个接收通道,一个发射频道,上行和下行的处理各占用一半的时间片来进行配置这种方式进行估计。其中编码的的方式,我们Turbo来说复杂一些,整个运算量复杂一些,对其解码过程,包括8状态ViterbI运算,还有估计4次迭代过程。

  调制,QAM16。脉冲成型,根据终端等级不同,对应不同的滤波器阶数做一个评估。假设1个RB内信道参数平稳,用8个导频的估计结果的平均值来做的均衡运算参数。后续表中的等级1对应的带宽是3MHz。

  简单看一下这个LTE终端上下行处理的流程,下行有两个接收通道,先做CP、IFFT的工作,然后进行一个MIMO的一个运算。这张表我们根据整个算法的会进行的一个数学运算,这样一个算法来评估的。那么其中一些信道编码的算法,是根据Turbo的信道编码算出来。其中每个算法,DFT的算法我们采用分解的加速的算法。因为其中的DFT的点数不是2的N次方,我们可以用一些分解的方式进行一个快速的运算。

  总的来说,这是一个发射链,这个运算量的估计,也是一个比较粗略的,就是最后可以看到等级一大概在60M这样一个每秒钟的一个操作,等级2,130M,等级5是680M,基本的运算一看,如果看到一个终端的平台,有这样一个大的运算。

  如果我们把上一张表里面红色的部分,把DFT和FFT进行专门的硬件处理之后,还可以看一下线下地的运算量,可以考虑用软件的方式来做,我们可以看到等级1再一个30M的一个操作,那么等级5在400M的一个操作,一个很大的跨度。我们可以看到上行的分析,硬件的模块加上软件的模块,我们可能对LTE的芯片进行设计,其中来说,DFT和IFFT的硬件,我们考虑硬件的运算过程当中,那么同样的我们看到等级5,因为软件的对发射链的部分来说是400而DFT是100M的,也是一个基本的运行。而IFFT也是这样的,等级1是20M的这样的操作,同类类推可以看出,基本上DFT单从上行这个角度来看的话,DFT和IFFT的模块的话,硬件的模块可以和软件的配合起来,设计这个芯片。

  因为下行分了很多的步骤,其中红色的部分,也是运算量相当大的部分。其中Fft运算量很大,比上行大了一倍。按照一个其他的比特需要60的基本运算量的话,那么这个运算量是非常惊人的,那么上行是用同样的方法,我们可以对下行的部分,也做这样一个分布。就是说接收部分的软件部分,它的运算量如果我们把刚才的红色的部分,作出硬件交出去之后,还剩下的运算量就比较少了,基本上等级1只有十几兆,那么等级I就是70M的一个操作,那么它也是并行了等级4和等级5的时候。那么Turbo的运行度更高了,最高的时候达到9000的运算量,等级1是4,等级5就是6,这样的一个芯片,除了自己有软件运行部分,还有很多硬件的单元,里面又有不同的并行度的一个处理的单元在里面。

  其中需要提到的是说因为我们在Decoder并行度考虑的时候,它的并行单元必须是8的一个约束过的倍数。

  从前面的分析来看,我们在这个芯片里面,一定要涉及这样的一些芯片加速器,对于不同的终端等级芯片的加速器设计也有区别,基本上有5个等级的需求,需求的差异非常大。所以我们希望定位的终端芯片需要达到的等级,然后在进行设计,因为我们考虑FFT的上行和下行都需要,我们在设计的时候,可以结合起来考虑,这个并行度可以结合起来考虑,Decoder我们分析的时候,只是针对Turbo的码,也需要单独的进行一些考虑。

  上行和下行一起结合起来,然后Demapper是为下行的部分,还有Decoder也是一个下行的部分,这个主要是LTE的物理层的复杂度进行较为详细的分析,对整个协议栈的复杂度可以进行分析,粗略的评估,可以得知协议栈需要一个单独的处理器与物理层并行处理,且对其性能要求与物理层的要求应属于同一个数量级。

  TDMA引擎,引擎的定时精度根据不同等级的终端需求,亦有不同的需求。我们从协议栈的整个需求处理考虑,如果有宽带的通信的通道,那么应用会非常的丰富多彩,那么这个应用处理的芯片的需求,会什么样呢,我这里没有再去做更多的分析,但是可能是一个很多彩的,但是也是跟现在的应用处理芯片,性能要求更高的一个芯片。

  那么最后我前面讲的时候,都没有单独的提LTE还是LTE-FDD,对于芯片设计来说,前面几位专家也提到了,其实FDD和TDD来看,帧结构来看,FDD是十个子帧是下行,10个子帧上行,TDD是帧结构可以根据下表有多种上下行配置的选择。针对LTE的芯片来说,是对TDD也好,FDD也好,可以说是一个兼容的平台。整个芯片的架构,可以看到,一定是一个双核,或者说单核多线程的一个架构,同时又多个硬件加速器在里面,还有硬件结构引擎,共同构成一个LTE芯片的架构。

  那么最后给了一张简单的图表示LTE的芯片的架构,会是一个什么样的。

  那么我们可以看到,其实在LTE这个芯片设计当中,最具挑战的是它必须要支持大量的实时数据的处理,整个芯片我觉得就是一个多核多线程的架构,每个核可能还是一个多线程的机构,这样的一个处理的架构,能够降低整个芯片的功耗,可以达到整个芯片,它从运行频率到整个功耗的压力可以减低,每个硬件加速模块,一定有它所拥有的独立的存储单元,如果没有独立的存储单元的话,那么总线带宽的压力非常大,这个地方需要考虑的。在系统控制方面,整个一颗芯片的控制方面,需要考虑整个的控制,这样大的数据处理,怎么样降低功耗,如果功耗做得不好的话,对整个芯片的产业化,也将是一个瓶颈。对于芯片的开发周期的话,因为这个系统现在已经有比较好的一个定义的系统,那么我们需要对它提供很多细节进行分析,进行架构分析,然后再加上它的其中关键的那些因素加速模块的一个设计,以及到整个系统的,整个SOC系统的整个的本身的集成,还有整个芯片的开发,对芯片系统很好的验证。还有到芯片的生产,还有完成整个芯片的仿真软件,还有样片出来,还有板级的验证工作,会经过一年半到两年的一个时间。这是我们一个估计。

  最后在运营商和多个芯片厂家,还有系统厂家的一个共同的推动下,TD-LTE的产业会得到一个很好的发展。

发表评论 _COUNT_条
Powered By Google
不支持Flash
·《对话城市》直播中国 ·新浪特许频道免责公告 ·诚招合作伙伴 ·企业邮箱畅通无阻
不支持Flash