不支持Flash

英特尔白皮书:扩展全球最流行的处理器架构

http://www.sina.com.cn 2007年11月15日 13:35  ChinaByte

  前言

  通过不断为计算机架构添加新的功能,协助业内企业提供具有较强性能及丰富特性的高级应用,英特尔在创新方面的经验可谓源远流长。从最初的英特尔8086 处理器,到英特尔酷睿2 双核处理器中的追加 SIMD 流指令扩展 3(Supplemental SSE3)技术,英特尔始终领导着业内最流行、使用最广泛的计算机架构 — 英特尔架构的功能的不断扩展。秉承上一代产品的创新特性,英特尔架构的最新扩展将构成 SSE2 出现以来最具影响力的指令集,它表明英特尔在快速推出产品的道路中将实现又一次重大飞跃,未来数年,英特尔将提供具有强大性能、丰富功能,以及高能效特性的优异产品。

  这些新指令构建于现有的 Intel(R) 64 指令集架构(ISA)之上,并支持在所有规模的市场中推出微处理器,从而为广泛的 32 位和 64 位应用提供卓越的性能和出色的能效表现。这些新指令包括:

  *SIMD 流指令扩展 4 (SSE4)

  对于大多数应用而言,这种指令提供的构建模块具有更出色的能效表现,可提供更为广泛的能力和更强大的性能。

  *应用目标加速器

  将为目标应用提供低延迟、低功耗、固定功能等能力奠定坚实的基础。

  在英特尔宏伟的发展蓝图中,这些指令的出现代表了下一代芯片工艺和处理器架构的性能已经提高到了一个全新高度。包括图形、视频编码和处理、三维图像、游戏在内的诸多应用及 Web 服务器和应用服务器都将从中收益。此外,许多高性能应用也将受益于这些指令,如数据采掘、数据库、复杂搜索和模式匹配算法、音频、视频、图像和数据压缩算法、解析和基于状态机的算法以及其他更多应用。

  本白皮书将简要介绍 ISA 的相关知识,并对 SSE4 矢量化编译器和媒体加速器、高效加速字符串和文本处理以及应用目标加速器等新指令进行说明。

  引领指令集新变革

  英特尔利用 ISA 使其微体系结构更强大,同时在各代处理器之间保持了必要的应用级兼容性。保持指令集兼容性的有力证明就是英特尔(R) 酷睿(TM)2 双核处理器。这款处理器采用了与前代英特尔(R) 奔腾(R) D 处理器几乎相同的 ISA 版本,尽管二者的内部设计不尽相同,但英特尔(R) 酷睿(TM)2 双核处理器却具有应用级兼容性。几乎所有构建用于支持英特尔(R) 奔腾(R) D 处理器的应用无需任何更改,即可运行于英特尔(R) 酷睿(TM)2 双核处理器之上。更妙的是,几乎所有运行于英特尔(R) 酷睿(TM)2 双核处理器上的应用都能够获得卓越的性能,并拥有出色的能效表现。与英特尔制程技术与微体系结构一样,英特尔指令集也在持续演进,并保持着稳步的发展步伐。对于每一次新演进:

  1. 英特尔对现有的指令进行了更新,使其从最新的微体系结构改进中获得最大优势,且无需任何更改即可为现有应用带来更强大的性能和更出色的能耗表现。

  2. 此外,英特尔还推出新指令集,专门用于优化广泛的现有应用和新应用的性能,并满足降低功耗的需求,为了高效地利用这些新指令的优势,还需要利用英特尔及其他厂商提供的最新编译器对现有应用进行重新编译。(如欲了解详细信息,请访问www.intel.com/software)。

  微体系结构和指令集架构

  为了认识到这新指令的优势,您需要了解在开发当今微处理器过程中所使用的不同架构及其所发挥的作用。

  * ISA 是与编程有关的整体计算机架构的组成部分,包括本地数据类型、指令、寄存器、寻址模式、中断和异常处理以及外部 I/O。此外,一个 ISA 还具有一个根据特定微处理器设计而实施的操作代码规范(机器指令)。在处理器家族中,通常,随着新指令的加入,ISA 的功能愈加强大,并将提供更卓越的性能、拥有更出色的能效表现,同时还保持了与现有应用的兼容性。

  *微体系结构是指芯片中 ISA 的设计、布局与实施,其中包括整体的模块设计、内核、执行单元和类型(如浮点型、整数分支预测及 SIMD 等)、流水线、高速缓存设计以及外围设备支持等。在处理器家族中,通常,随着新指令的加入,微体系结构的性能、能效与功愈加强大,同时还保持了与ISA 的兼容性。

  英特尔在 ISA 方面的领先优势已扩展至广泛的操作系统价值链中,这些操作系统包括, Microsoft Windows* 和 Vista*、UNIX*、Linux* 以及目前的Macintosh*。我们将继续致力于为行业扩展 ISA:

  *通过扩大行业价值链的支持范围,在所有操作系统上确保架构的一致性。

  *为 32 位和 64 位扩展提供统一的方案,以便实现出色的技术创新。

  *在开发新指令的过程中听取软件开发商和独立软件厂商(ISV)的意见,以便帮助开发商与我们展开更轻松愉快的合作,从而走向成功。

  *确保现有应用正确运行、应用性能更出色。

  *确保使用新指令的应用正常运行,且应用性能和能效表现更出色。

  *英特尔 ISA 保留了非分段特性,并作为一项标准加以执行,从而简化了 ISV 团队的工作流程,与其它架构厂商相比,英特尔在 ISA 方面具有领先优势。

  ISA的发展进程

  开发人员知道,通过增加同时处理的指令数量,他们可缩短应用用于代码请求(多个处理器周期处理数据)的时间。长期以来,英特尔鼓励这种代码实践,以便帮助提高整体的处理器吞吐率。英特尔很早就开始推行前瞻性计划,旨在通过开发特定的指令集来提高英特尔处理器运行的应用的性能,其中包括面向8086 芯片的浮点型(FP)指令集扩展。最近的开发的相关技术包括单指令、多数据流(SIMD)和英特尔(R)MMX(TM) 技术。英特尔开发出的 SIMD 技术相当出色,通过使用同时在多个数据段上运行的特定的指令,可在 P5 微体系结构上提高并行性。采用英特尔(R) MMX(TM)技术指令集,程序员能够在加载至 MMX 技术寄存器中的多个数据元素上运行指令,在诸如图形、游戏、视频流及其它媒体应用中,这些寄存器可提供出色的性能。在 P6 微体系结构中,英特尔介绍了 SIMD 流指令扩展(SSE)。专为英特尔(R) 奔腾(R)III 处理器而设计的 SSE 扩展了 MMX 技术,并支持利用 128 位寄存器(称为 XMM0-XMM7)在四个单精度 FP 数据元素上同时执行 SIMD 计算。借助英特尔(R) NetBurst(R) 微体系结构(英特尔(R) 奔腾(R) 4 处理器),英特尔推出了 SSE2,进一步扩展了 SSE(和 MMX 技术)。通过扩展 MMX 技术和 SSE 的指令,SSE2 能够并行执行更多计算,并可为 128 位整数和双精度 FP 数据类型提供支持。SSE2 共添加了 144 条能够在广泛的应用上提升性能的指令。

  例如,在执行算法并提升 MPEG-2 视频、MP3、3D 图形等更多软件性能的过程中,SSE2 指令可为软件开发人员提供最大程度的灵活性。

  下面是 英特尔架构(IA)指令集共3页。

  英特尔架构(IA)指令集

  英特尔推出面向不同市场领域和应用而优化的 ISA。这使我们能够为各种 64 位和 32 位配置提供最全面的领先解决方案。

  *IA-64 专门用于最高端的服务器和计算应用,这类 ISA 面向英特尔(R) 安腾(R) 处理器家族。

  *Intel(R) 64 专门用于运行 64 位计算主流应用的客户端或服务器。这类 ISA 面向:

  –英特尔(R) 至强(R) 处理器

  –英特尔(R) 酷睿(TM)2 双核处理器

  *IA-32 专门用于仅运行 32 位主流应用的客户端。这类 ISA 面向:

  –采用引脚 FC-PGA2 的英特尔(R) 赛扬(R) 处理器和英特尔(R) 奔腾(R) 处理器

  –超低压处理器

  –英特尔(R) 酷睿(TM) 双核处理器

  需要注意的是 Intel(R) 64 是一种 64 位 ISA,同时也是 IA-32 ISA 的超集并能够之其兼容。这种更新的 ISA 还支持处理器运行最新编写的 64 位软件。此外,与 32 位软件相比,这类 ISA 还支持访问更大容量的内存。

  基于 90 纳米制程的英特尔(R) 奔腾(R) 4 处理器采用了SSE3。与 SSE2 相比,SSE3 又添加了 13 条 SIMD 指令专门用于提升线程同步和 x87-FP 数学特性等。现在,英特尔(R) 酷睿(TM) 微体系结构中已添加了 SSE3 的改进指令集 — 追加 SSE3(Supplemental SSE3)。追加 SSE3 指令集包含于英特尔(R) 至强(R) 5100 处理器(面向服务器和工作站)与英特尔(R) 酷睿(TM)2 双核处理器(面向笔记本电脑和台式机)之中,添加了 32 个包括执行对齐和乘加操作在内的新操作码,从而获得了大幅的性能提升。

  

英特尔白皮书:扩展全球最流行的处理器架构

   面向英特尔架构的 SSE4

  自 SSE2 出现以来,SSE4 是英特尔推出的范围和影响最大的 ISA 指令扩展集。SSE4 具有几个编译器矢量基元,以增强媒体性能,并提高创新的字符串处理指令的效率。预计从 2007 年生产基于 45 纳米英特尔微体系结构的处理器开始,这些新指令将出现于大部分市场领域中,包括台式机、笔记本电脑和服务器中。

  英特尔与包括独立软件开发商 (ISV)和操作系统厂商(OSV)在内的合作伙伴通力协作,共同致力于开发 SSE4,并将其作为一项新指令集标准。我们为满足广泛的 ISV 需求,专门为其提供了出色指令集,以便充分利用英特尔微体系结构的独特能力、性能和功耗优化其软件。

  SSE4 的一系列创新指令,主要分为两类:

  *SSE4 矢量化编译器和媒体加速器

  *SSE4 高效加速字符串和文本处理

   构建于英特尔(R) 酷睿(TM) 微体系结构之上

  向多核处理的移植打开了微体系结构和指令集创新之门,通过创新可进一步提高性能和能效表现。其中一个微体系结构的实例是基于英特尔(R) 酷睿(TM) 微体系结构的英特尔(R) 高级数字媒体增强。这一改进可在执行 SSE 指令时显著提升性能,并加速执行包括视频、语音和图像、照片处理、加密、金融、工程设计和科学应用等多种应用。英特尔(R) 高级数字媒体增强特性支持这些 128 位指令以每个时钟周期一次的吞吐率完全执行,从而有效地将这些指令的执行速度提高了一倍(与前代相比)。从这个实例中可以看出微体系结构和指令集是如何相互取长补短、协同工作,从而充分利用软件优势的。

  在设计和实施高性能和能效的 ISA 扩展(如 SSE3 和追加 SSE3)的过程中,英特尔初战告捷。利用几种能够提高性能并降低广泛应用功耗的创新技术,这些新扩展指令对英特尔(R) 架构的能力进行了扩展。

  SSE4 矢量化编译器和媒体加速器

  SSE4 添加了几种新的编译器矢量化原语(compiler vectorization primitives)(可执行更加复杂的运算中的基本运算),从而通过支持以性能优化、降低功耗为目标生成代码来扩展英特尔架构的能力。充分利用这些改进的编译器矢量化基元的编译器,将能够为包括媒体和高性能计算(HPC)服务器应用在内的广泛应用提供巨大的优势。

  新编译器矢量化基元包括改进的整数和浮点型运算,支持Packed DWORD 和 QWORD 运算、单精度 FP 运算、快速的寄存器运算、性能优化的内存运算及更多运算。借助这些指令,图像处理、图形及视频处理、2-D/3-D 生成、多媒体、游戏、内存密集型工作负载、HPC 工作负载等应用性能将得到大幅提升。

  

英特尔白皮书:扩展全球最流行的处理器架构
共3页。

  SSE4 高效加速字符串和文本处理

  SSE4 可提供最新的字符串和文本处理指令,这些指令将提高字符串和文本处理的运算的性能,从而增强广泛的数据处理搜索及其它文本应用的性能。此外,这些指令还将包括高级压缩字符串对比指令(advanced packed string comparison instruction),这样一条指令可执行多种比较和搜索运算。总体而言,每一种新指令都具有丰富的创新字符串处理能力,足以在运算中替代前一代 ISA 中的指令,且能够提供相同的功能。

  将从中获益的应用包括:数据库、文本搜索、病毒扫描、字符串处理库(如 ZLIB)、令牌解析(Token parsing)/识别应用(如编译器和面向状态机的应用)。

  

英特尔白皮书:扩展全球最流行的处理器架构

  应用目标加速器概述

  应用目标加速器可扩展英特尔(R) 架构的能力,通过在处理器芯片上增加性能优化、低延迟、低功率的固定功能加速器,使应用的性能获得大幅提升。这类加速器是在处理器中更出色实施固定功能能力的最初演进成果。 如果45 纳米向 32 纳米芯片技术的演进将使晶体管支持更多内核和高速缓存,这样还可支持芯片上固定功能的实施。在处理特定应用过程中,这些出色的能力将会实现性能提升,并带来出色的能效表现。

  应用目标加速器的首要功能是在数据完整性应用中加速循环冗余校验(CRC)的计算过程。这种新的 CRC 指令将能促使基于处理器的 CRC 操作更快,能够以低于独立专用芯片的成本实现高效的数据完整性校验,比如在网络小型计算机系统接口(iSCSI)、远程直接内存存取(RDMA)等上层数据传输协议中 CRC 能力往往是整个系统的瓶颈所在,在任意的用户环境联网存储中,基于处理器的 CRC 操作将支持高数据传输速率的企业级数据保障。否则,服务提供商不得不得在系统中安装非常昂贵的且耗电的加速卡来确保性能。凭借基于英特尔(R) 酷睿(TM) 微体系结构的多核处理器的强大性能,新的 CRC 指令将加速目标网络协议(如 iSCSI 和 RDMA)的性能,且无需添加任何成本。这有助于广泛实施基于低成本存储域网络的 iSCSI 解决方案。此类网络可作为主要的可选方案来替代更加昂贵的光纤信道网络,并可使众多企业以较低成本即可解决数据存储问题。

  此外,英特尔的应用指令扩展集可提供高效加速相关大型数据集搜索的单指令 POPCNT,该指令用于计算数据对象中的位的数目。基因挖掘、手写识别、数字化健康工作量和汉明距离/人口快速计算等应用都可因执行该指令而获得性能的提升。

  

英特尔白皮书:扩展全球最流行的处理器架构

  总结

  自 SSE2 出现以来,作为最大范围、最具影响力的 ISA 扩展指令集,SSE4 和应用目标加速器标志着英特尔指令集已达到了一个重要的里程碑,借助该指令集,英特尔将推出具有更卓越性能、更出色能效表现的产品,并将在未来利用可扩展功能实现更大价值。英特尔凭借其在英特尔架构指令集扩展领域的领先优势及不懈努力,为提高广泛软件的性能、功效和能力铺平了持续发展的道路。借助 SSE4 和应用目标加速器,英特尔将继续与 ISV 团队通力协作,致力于提供指令集扩展,使这些指令集真正提高产品性能,从而为我们的客户带来实际的优势(从提高性能到显著节约成本)。共3页。

爱问(iAsk.com)
不支持Flash
·《对话城市》走进城市 ·城市发现之旅有奖活动 ·企业邮箱换新颜 ·邮箱大奖等你拿
不支持Flash
不支持Flash