英特尔与AMD的x86服务器战争编年史_打桩机介绍

当前位置： 打桩机 >> 打桩机介绍 >> 英特尔与AMD的x86服务器战争编年史

英特尔与AMD的x86服务器战争编年史

发布时间:2023/5/21 17:38:03

作者:痴汉水球

本篇文章将带你了解:

x86是怎么一步一步取得服务器市场的主导地位？「x86Everywhere」怎么产生的？x86双雄将如何面对服务器市场巨变

英特尔前阵子「总算」正式发布拖延已久的第三代Xeon-SP平台Whitley与IceLake-SP（ICX）处理器，也顺势表示，自从年推出第一款Xeon-SP以来，英特尔向全球客户交货了超过5千万颗Xeon-SP处理器。此外，从年开始，云端服务业者总计部署超过10亿个Xeon核心，超过家云端服务供应商导入Xeon处理器。

诞生于年6月29日的Xeon，是英特尔第一个货真价实的服务器产品品牌，历经超过20年的光阴，更早已成为x86指令集兼容处理器，站稳服务器市场的不动象征。

英特尔有支撑获利的服务器产品线Xeon，从年到年，AMD也曾经拥有过Opteron，更曾在~年这段期间，在服务器市场极盛一时，象征AMD最辉煌的黄金岁月。

如同在GPU战场，对英特尔和AMD最重要的议题，在于能否重返高性能运算和人工智能应用，并摆脱软件生态系统远不如nVidiaCUDA的困境。在CPU领域，英特尔和AMD真正的决战焦点，更绝非桌机笔电，而是带来更高获利的服务器与数据中心，而英特尔这市场曾经拥有超过九成占有率。

但很不幸的，英特尔却在今年第一季财报，上演英特尔财报出现「服务器毛利率低于个人电脑」的世界奇观（这应该是年Xeon品牌诞生以来首次），以及AMD靠反攻数据中心的战果，交出营收年增93%的漂亮财报。背后代表的意涵，不言可喻。

笔者曾在年夏天，发布《为何AMD近十年x86CPU打不过英特尔？战局会改观吗？》一文，以编年史体裁，写了落落长流水帐，也预言AMD的反攻机会，将来自云端服务业者的真实需求。现在我们就以服务器角度，重新检视英特尔和AMD那将近30年的服务器市场开拓史，并留给各位认真思考「x86双雄的未来」的空间。

经过超过25年的努力，英特尔和AMD携手建立x86指令集兼容处理器，在今日数据中心与服务器的主宰地位。昔日难登大雅之堂、只能屈居个人电脑的吴下阿蒙，突破众多「RISC诸神」（MIPS、SPARC、PA-RISC、Power、Alpha）建立的马奇诺防线，并让「RISC诸神的黄昏」成为众多「计算机组机结构正统教义派」和「RISC十字军」不愿面对的现实。

踏入时间轴之前，笔者先分别以「技术」、「商业」和「政治」的角度，剖析为何x86走到这一步，然后未来又将面对哪些挑战。

第一个大哉问：就「技术」的角度，x86是怎么一步一步取得服务器市场的主导地位？

我们就先从技术层面开始讲起。

x86处理器在服务器市场最重要的一天？

年11月1日，英特尔发布P6微架构的PentiumPro，这是这间公司史上最重要的芯片，没有之一。

年开始萌芽的当代高性能处理器微架构，有所谓的「4S指标」：超标量（Superscalar）、超流水线（Superpipeline）、多处理器可扩展性（Scalability）、系统管理能力（SystemManagement）。

PentiumPro是当时x86处理器唯一兼顾4S者，同期Cyrix与AMD均难以望其项背，且PentiumPro的整数运算性能，足以跟同期高端RISC处理器分庭抗礼。至于浮点运算全面超车RISC阵营，是SSE2指令集诞生后的事了。

PentiumPro到底厉害在哪？

结合高效率的系统总线、改良后的内建式可编程中断控制器（APIC）、丝毫不会浪费系统总线带宽的独立第二阶快取存储器，与处理器核心具备非循序存储器存取能力，PentiumPro替x86敲开服务器天堂的大门，让英特尔过了快7年的好日子，直到被宿敌AMD用名为K8的大榔头（Hammer）狠狠敲昏为止。

那一天x86处理器奠定在服务器市场的不动地位？

年6月29日问世的Xeon品牌，从此成为x86服务器的象征，以及英特尔最重要的现金母牛（CashCow）。

依据英特尔的既定战略，服务器的大旗应由Itanium一肩扛起，那为何失败？

因为英特尔一连串策略失误，加上缺乏对高端服务器市场的基本认知，让「64位元真命天子」IA-64指令集和Itanium处理器，不得不消失在历史的洪流，也结束了英特尔企图消灭80x86的野心。现在看来这伟大的「历史使命」，似乎落在ARM阵营的肩上？

AMD又是如何踏入服务器市场？

理所当然的是年4月24日发布的Opteron品牌，「刚刚好」微软也在同一天宣布即将推出x86-64版Windows操作系统。

骨灰级电脑玩家一定记得年6月5日的AthlonMP，但源自Alpha的EV6总线，大幅提高实做多处理器平台的门槛，基本上可谓无疾而终，很快就被Opteron取代。

AMD的Opteron又厉害在哪些地方？

讲白了，AMDK8微架构从内到外的每个环节，几乎比照高端RISC办理，假若把K7看成「x86世界的Alpha」，那K8就是「穷人版的Alpha」。

AMDK8微架构的Hyper-Transport系统总线、处理器整合存储器控制器、更先进的MOSEI快取数据一致性协定、强大的RAS（可靠性、可用性、可服务性）、与诸多节能特色等优势，为x86服务器带来前所未有的多处理器及多核心延展能力，勿需价高量少的特殊服务器芯片组，任何一家服务器厂商都可轻松打造「四颗甚至八颗处理器的x86服务器」。

AMDK8带领x86进入64位元的世界，彻底摧毁了中低端RISC/Unix服务器仅存的脆弱保护伞。K8激增AMD的市场影响力，让AMD在高性能x86处理器技术领域，拥有足以和英特尔平起平坐的地位。Xeon与Opteron两大品牌双日争辉、兄弟登山各自努力，扩大x86在服务器世界的版图。

那为何RISC诸神就从此一蹶不振，只剩下IBMPower硕果仅存？

因为它叫「IBM」。

第二个大哉问：就商业和政治角度，「x86Everywhere」又怎么产生的？

天底下任何产品演进和市场发展，都是「技术」、「商业」与「政治」彼此交错影响的结果。x86指令集兼容处理器能够「反淘汰」RISC诸神，相较冷冰冰的技术，商业和政治更举足轻重。

年代末期，x86处理器逐步支配服务器市场的关键性因素？

WindowsNT。Linux（笔者私心想加上FreeBSD）。出货量持续激增的个人电脑市场。没了，就这样。

个人电脑市场跟服务器又有什么关系？

年全球出货量突破「1亿」大关的个人电脑市场，成为英特尔和AMD长期维系半导体业界最先进制程与最庞大研发团队的基本盘，不仅对「RISC诸神」享有压倒性成本优势，让更多的电晶体数量，充分弥补x86指令集的众多先天缺陷（Pentium比PowerPC多30%电晶体，只为了维持x86指令集兼容性），更分摊天文数字般的产品研发开销。x86处理器在服务器市场的成长，可视为「下克上」的日本战国时代故事。

RISC指令集应该更容易打造能耗比更高的处理器，但到头来在服务器市场并不是这么回事？

这跟x86处理器在年代末期延伸到笔记型电脑，有根深蒂固的关联，尤其当英特尔为了Centrino量身订做PentiumM处理器，奠定「追求高能耗比」的长期发展方向后，服务器产品线也雨露均沾。年Merom微架构一统服务器、桌机和笔电，更让Xeon产品线「强迫中奖」，让IBMPower和Oracle/Sun的SPARC相较之下，根本毫无优势。

这些年来，假如各位也有关心那票前仆后继、有一阵没一阵的「ARM服务器」，也势必会注意到，那些规格看起来很暴力的ARM处理器，怎么好像也没省电到那去？其实当处理器微架构的复杂度抵达「某条看不见的临界点」，「相对复杂又毫无道理可寻的」x86指令集带来的额外「赋税」也就不会那么明显了。

IBM不是一直想推动PowerEverywhere，为何难以成功？

因为IBM自己也在做服务器，会有「球员兼裁判」的疑虑，这就是非常显而易见的政治因素。

谁能动摇x86处理器在近代数据中心的主导地位？

唯有这票大型云端服务业者通通自研自制自家专用的「非x86」（不见得是ARM，如Google的TPU）处理器并全部取而代之，否则将难以动摇x86的地位。况且先进制程晶圆代工厂的产能，也是处于供不应求的紧绷状态，贸然放弃拥有大量自有产能的英特尔处理器，风险不能说不小。看看AMD的缺货窘境就知道了，产品再好，出不了货也只是白费力气。

至于一般商用服务器市场，也是要等到ARM在企业服务器应用的生态系统，成熟到连一般的MIS都愿意采用，这之前讲再多都多余。

无论英特尔还是AMD，近代主流x86微架构都是「服务器、桌机、笔电」共用，那眼前的Xeon-SP和EPYC，难道真是「%服务器最佳化」设计吗？

这就是x86指令集的原罪：超级长的产品开发及验证时程，强迫拥有巨大研发能量的英特尔和AMD，也只能将资源聚焦在极为少数的专案，也难以迅速应对新兴的应用需求，这就是ARM等IP授权商、EDA工具软件和专业晶圆代工，会主导消费性产品芯片的主因。

这才是ARM阵营在服务器领域的最佳切入点，但偏偏也只有「实际的使用者」才知道需要的产品规格究竟是什么，而他们却都有自己开发芯片的本钱。

最后，ARM能在服务器市场引发迅速的「典范转移」吗？

坦白讲，怎么想都非常的困难，除非革命性的应用，像软件定义网络、网络功能虚拟化和25G＋以太网络，让从1G迈向10G花了整整十年以太网络，只花不到3年就跑出一狗票SmartNIC，让整体数据中心应用架构出现颠覆性演化，要不然都是难如登天。也许大家可以多多关切Nvidia企图发动的革命，以及云端巨头又有哪些风吹草动。

更何况英特尔和AMD又不会躺着等死，一切都还很有得瞧。当然，AMD自己带头做ARM版EPYC的话，那又是另一条截然不同的世界线了。

现在就让我们想像搭上时光机，回到世人对x86的刻板印象，难以与「服务器」划上等号的古老年代。

~年：英特尔发动的酝酿期

个人电脑普及化，带来更惨烈的价格竞争，年代后期的英特尔和AMD为了维持获利，投入服务器市场，实乃不得不然。在年第一季，主频MHz的Pentium可卖到「美元」（今天都足以组出一台顶规桌机），只过个半年就要打七折了。

个人电脑出货量抵达1亿台历史新高的年，「美元个人电脑」蔚为风潮，引爆低端处理器的价格战争，导致英特尔的Celeron和AMD的K6-2大打出手，还「顺便」打垮一票x86处理器小厂（Cyrix、Centaur、Rise），入门级CPU的平均售价（ASP），更是下探到美元之谱。

Xeon并非英特尔首次进军服务器市场，第二代Pentium（P54C）内建支持双处理器组态的先进可程式化中断控制器（APIC），和PentiumPro（P6）带来革命性处理器微架构与崭新系统平台，都是以功败垂成黯然收场的尝试。好吧，MHzPentiumPro「胆敢」开价1,美元，也算很了不起的丰功伟业了。

反观那票从年代末期开始，已经盘据服务器市场已久的「RISC诸神」，早就享受丰厚利润，以Sun的UltraSPARC为例，年第二季，也是个人电脑市场的削价战杀声震天之际，主频MHz的UltraSPARCII模组，要价高达3,美元。

我们也知道，今天即使同样晶粒，封装印着不同品牌，价格就天差地远。AMD还曾为了解释单处理器的Opteron系列和桌机的Athlon64究竟有何不同，特别制作说明用简报，大意就是Opteron用的晶粒品质比较好、验证项目比较多、微码（Microcode）修补bug重点不同之类的。

这也是为何这些年来，连发迹于消费性电子产品的RISC指令集，像目前最普及的ARM，阵营也汲汲营营服务器市场。x86处理器世界快没存在感的VIA也沉潜多年，生出目标5G边缘服务器（MEC）的CHA系统单芯片。充满神秘俄系血统的俄罗斯Elbrus，更在多处理器服务器耕耘已久，只为了让CPU不受制于「邪恶的美国帝国主义者」。

对技术有深度认知的读者，或多或少也了解，服务器用的CPU不仅需要更好性能、出色的多处理器扩充性与性能延展性、更完备的高可靠性、滴水不漏的可用性，并搭配强大的系统芯片组和更高容量的系统主存储器。

但商业因素却远比技术门槛更严峻：英特尔和AMD要如何说服企业客户，一间长期研制美元桌上型便宜货的厂商，有资格销售3,美元等级的服务器高级品，所以就像另外成立「豪华车专属品牌」的汽车厂商，英特尔必须创造Xeon以区隔市场。英特尔的老对手AMD，于兼容AlphaEV6总线的AthlonMP企图抢滩服务器市场失败之后，年4月24日也借Opteron之名，踏上一条殊途同归的荆棘之路。

~年：Xeon诞生的开创期

英特尔首要之务莫过于推出「一看就知道是服务器专用」的产品，巨大Slot-2「弹夹」就为此而生。

但英特尔并非只为了让Xeon看起来比较专业，才搞出这样的巨大塑胶盒，更为了因应更高容量的同核心主频L2快取存储器，原先只针脚的Slot-1无法满足供电需求，Slot-2扩展为只，趁机塞入系统管理总线（SMBus），并将原生的多处理器支持性，恢复到PentiumPro的4颗（PentiumII仅2颗）。此外，为确保四处理器时，系统总线可跑到MHz，在英特尔拥有专利的GTL+之外，进一步引进AGTL+讯号，在PentiumIII世代再提升到MHz。

「扩大存储器容量」和「快取存储器的定址范围」也是另一场重头戏。为了突破32位元的4GB限制，除了PentiumPro问世的PAE-36模式，PentiumII世代Xeon追加「性能较低，但比较不需要修改操作系统」的PSE-36。PentiumII世代Xeon的L2快取存储器可涵盖到整个64GB可定址存储器范围，不像早期的PentiumII有MB或4GB限制。提高数据可靠度的ECC纠错，更是必备的制式武装。

如同低价电脑Celeron，PentiunIII时代后期的Xeon，随着制程技术的进步，逐步将外部快取存储器塞回CPU本体。年3月21日登场的XeonA，内建多达2MB的L2快取，开英特尔实作超大型化快取存储器之先例。也难怪日后英特尔常被取笑：这间公司最大的业务不是CPU，而是制造快取存储器。

~4年：Xeon的扩张期与AMDOpteron即将带来的风暴

英特尔年之后的Xeon产品线命名，完全拿掉Pentium字样，借此彻底摆脱个人电脑形象，也在这段32位元NetBurst微架构期间，确立了XeonDP（双处理器）和XeonMP（四处理器）分立的局面，也结束了PentiumII/PentiumIII时期，桌机处理器可以同时插两颗的美好年代。要支持多处理器，请乖乖掏钱购买更贵的Xeon。

因服务器产品追求更高的可靠性和稳定性，导致验证时期较长，XeonMP通常推出时程较晚，且主频也较低，也有更大容量的快取存储器。相较之下，XeonDP比较像桌机处理器换成另一种封装产物。从NetBurst开始出现的xAPIC，将APIC的3位元专属总线，直接融入系统总线的通讯协定，避免APIC运作时影响存储器存取性能，并将处理器核心上限激增到个。

如同初代nm制程Pentium4被批评空有高主频，但部分性能不如前代PentiumIII甚至AMDAthlonMP，初期的XeonDP也被指责整体性能不及拥有2MBL2快取存储器的末代PentiumIIIXeon，这问题到了纳米制程世代，主频大幅提升后，才渐渐消失。

此外，一般资深电脑玩家对英特尔的HyperThreading的初次登场，印象多半是年11月之后的纳米制程Pentium4，但其实早在当年2月的纳米制程XeonDP就问世了。对于多人多工作业的服务器来说，可改善整体输出率的同步多线程（SMT）技术，确实是天作之合。

更重要的是，英特尔以实际行动证实纳米制程的NetBurst核心，已经内建HyperThreading的谣传，年3月的XeonMP就支持这「一颗当两颗用」的神秘功能。至今英特尔尚未透露为何初代Pentium4要这样留一手，主因可能是个人电脑操作系统的多处理器支持性。

面对来势汹汹的AMDK8，英特尔在年9月，抢在Athlon64和Athlon64FX前一周，发布将Xeon专用核心「下放」到桌机的Pentium4ExtremeEdition，但仍然难以挽回颓势，也让4年2月的90纳米制程Pentium4Prescott产品定位，显得更尴尬。

XeonMP一次连接四颗CPU的SMP系统总线，以及共用的存储器控制器，成为明显的性能瓶颈，也突显AMDK8内建存储器控制器与HyperTransport总线的绝大优势。在年4月22日，AMDOpteron的降临，让英特尔做了好几年恶梦，也让英特尔的处理器产品时程表，陷入了前所未见的极大混乱。

年：开启AMD全盛期的Opteron

英特尔跟HP合作的IA-64指令集与Itanium处理器，策略失当与出师不利，送给了AMD伺机杀入服务器市场的大好机会。相较于英特尔，AMDOpteron不仅享有压倒性的技术优势，其产品编号也极度的清晰易懂，可以想见「有备而来」的程度。

1开头：单处理器。2开头：双处理器。8开头：多处理器（四颗或八颗）。迈进DDR2存储器后，编码变成x，以此类推，2即代表「第二世代」。

加上当时正是x86服务器也需要直接定址超过4GB主存储器的心理关键时刻，让AMD发布于年的x86-64指令集，因具备x86回溯兼容性兼具倍增数据暂存器，变成很具吸引力的64位元方案。

年4月24日，AMD公布Opteron品牌，同一天微软也「很巧合」宣布将发行x86-64版Windows，让英特尔钦定的「64位元真命天子」Itanium处理器的未来，蒙上不祥的阴霾。

同场加映AMD其他K8产品线品牌的发布日期，这也代表着64位元x86指令集，逐步推广到其他应用领域的里程碑。

Athlon64（桌机）：年11月19日。Sempron（低价产品）：4年6月7日。BBS连线硬体版戏称为「散步龙」，和英特尔的「洗地龙」（Celeron）相互辉映，唯一的共同点就是「散步」和「洗地」都象征「跑不快」。Turion64（笔电）：5年1月10日，笔者还依稀记得HP还是带头冲第一的笔电厂商。AMD之所以能短短两年就席卷服务器市场，从英特尔手上硬抢下超过30%市场占有率，除了64位元，还有很多重要因素。

服务器等级的侦错容错机制：从ECC单位元纠错的L1数据快取与L2快取、预防存储器多位元错误的存储器Chipkill技术、Parity位元侦错的L1指令快取、巨大的转译后备缓冲区（TLB）、到回报系统错误的MCA（MachineCheckArchitecture）机能，都充分展现了AMD抢攻服务器市场的决心。

HyperTransport总线：Opteron直接提供点对点连接处理器的方式，不像英特尔的传统北桥架构，每个处理器都要共用有限的FSB频宽外，打造大型系统也需要昂贵复杂的芯片组、如桥接芯片，这让实作Opteron多处理器环境远比Xeon轻松。

也因此，大型Opteron多处理器平台享有比XeonMP更短的研发时间，不仅成本比较低廉，性能和可靠度上更是毫无妥协，一度让AMD在四处理器以上x86服务器，曾有40%以上市占率。英特尔是到8年的Nehalem有了QPI，才追上AMD。

高效率的快取数据一致性协议（CacheCoherenceProtocol）：这对多处理器环境性能有着举足轻重的影响，而AMD的MOESI协定有极为出色的表现。

和处理器核心同主频的整合型存储器控制器：多处理器环境变成CC-NUMA（CacheCoherence-NonUnifiedMemoryArchitecture）分散式存储器架构，让Opteron整体存储器性能，远胜过英特尔的系统前端总线（FSB）连接北桥（NorthBridge）的架构。

整合式存储器控制器让处理器数量越多，可扩增的存储器容量也会更大。5年，企业需要GB主存储器容量的服务器，采用Itanium的HPSuperDome要价4千万台币，但八颗Opteron的系统，如SunX4和IwillH，每颗安装16GB存储器，价格却仅十分之一，巨大优势不言可喻。

直冲原生双核心：当北桥存储器控制器都位于在处理器晶粒之中，自然也不必担忧双核心什至多核心的内部频宽与延迟问题。AMD打从年，就宣布让K8直奔原生双核心（请注意下图的CPU0和CPU1），更在4年8月31日（4年秋季IDF）就公开双核心样品，5年4月准时登场，这是AMDx86处理器发展史上最重大的战略胜利。

K7演进而来的成熟微架构：K8是以K7为基础进行改良的产物，相较于同时期的英特尔NetBurst体系，也享有压倒性的低功耗。AMD在年2月26日（年春季IDF）首次展示单核心K8，隔年4月正式上市，屡次用较低的运作主频「屠杀」英特尔NetBurst体系的产品线。

强大动态分支预测和存储器转译后备缓冲区：足以应付「分支密集且狂吃存储器频宽」的服务器端应用软件的行为模式。

值得一提的是，因为K8的L1/L2快取数据「互斥」（Exclusive），AMD还利用「L1指令快取的数据，被挤回L2时，L2的ECC形同浪费」（L1指令快取只有Parity）特色，将分支选择器「偷放」在这个栏位，以增强分支预测器的容量，并兼顾性能与成本，堪称非常厉害的巧思，毕竟L1指令快取被侦测到数据受损，顶多从存储器重新撷取一次就好了。

年底上市的Opteron，售价高达「3,美元」，这对过去只能在个人电脑市场跟英特尔打削价战的AMD来说，简直是连想都不敢想的梦。

4年6月14日，AMD发新闻稿，昭告天下「我们已经设计完毕原生双核产品」，并大方摊开产品时程表给大家看。

4年7月17日：Cray宣布将建造由颗Opteron构建出来的RedStorm超级电脑。

4年8月23日：AMD与Newisys在IEEEHotChips16发布Horus芯片组，这是AMD史上首款32处理器的大型系统架构（即使后来胎死腹中）。

5年4月21日，AMD风光发布双核心的Opteron系列，领先英特尔的Core2家族整整超过一年，堪称这间公司最意气风发的时刻。

只不过，再多好运也有用完的一天。当时无人预料到，AMD不仅将面对英特尔即将发动的帝国大反击（还是由PatGelsinger领军），更将在迈向原生四核心处理器之路，重重跌了一跤，还再不能爬起来。

4~年：陷入空前混乱的英特尔

AMD在服务器市场趁势崛起的期间，英特尔的64位元布局，被AMD搞得阵脚大乱，陷入内外交逼困境，结果就是一连串赶鸭子上架的64位元x86指令集、东拼西凑的性能改进方案、以及换汤不换药的「双馅水饺」双核心。

这时期的Xeon，除了具备大型化L3快取的XeonMP，和看起来有点像勉强赶工出来的双核XeonDP，清一色都是桌机体系的衍生品，只差在芯片封装是包一颗还是包两颗，然后顺便「解放」被封印的64位元。

此外，值得一提的是，后来在这NetBurst混乱期的末期，英特尔确立了XeonMP和XeonDP0命名体系。你现在看到Xeon的四码数字型号，就是以这时候为起点。

但AMD在服务器市场带来的空前威胁，逼出英特尔全部潜力，也让Xeon逐渐具备了更强大的多处理器竞争力。以XeonMP平台Truland为例，E8系列芯片组不仅藉由两条系统前端总线稍微弥补跟AMDOpteron的频宽差距，更「外挂」存储器缓冲控制器（XMB，ExternalMemoryBuffer），实现更高的存储器容量与频宽。

芯片组的管脚数量有限，就算不惜血本，在北桥芯片组内「硬干」八通道存储器，届时单一存储器通道能够「推的动」几条模组，也将会是个大难题。不如分而治之，把部份存储器控制器的机能分割出来，反正高单价的多处理器服务器，也足以吸收这些额外的成本。有点年纪的读者也应当知晓，这早已是众多高端服务器（像IBM的Power和Z系列大型主机）行之有年的特色。

日后一系列的XeonMP也依循同样方式，像八核的Nehalem-EX、十核的Westmere-EX、十五核的IvyBridge-EX、十八核的Haswell-EX和二十四核的Broadwell-EX，直到英特尔从14纳米制程「牙膏期」的Xeon-SP之后，将存储器控制器机能全数收回到CPU内部。

为了提升服务器的网络存取性能，微软年3月发布ScalableNetworkingPack（SNP）与NDIS5.2Miniport驱动程式架构，技术核心的NetDMA规范，企图打通一条从网络卡直奔应用程式存储器的「烟囱」，而英特尔的XeonDPBensley平台就成为首款对应I/OAT的产品。英特尔的I/OAT也陆续演进了好几个世代，唯一不变的就是「从CPU到芯片组到网络卡，都要用英特尔的东西」。

总之，以5年为起点，以XeonMP和Opteronx系列为主的x86处理器，在四处理器以上高端服务器的出货量急速攀升，蚕食鲸吞传统高端RISC服务器的地盘，到了年，英特尔的Xeon足足吃下94%市场，即使产品单价较低，也吞食超过80%营收，RISC服务器的出货量更从一年32,台掉到9,台。

顺便一提，在这块市场，年IBM是12%~15%，并购Sun的Oracle更只剩下5%。既然连四处理器都如此，单处理器和双处理器平台就更连想都不用想了。这些年来，昔日呼风唤雨的众多「RISC诸神」，沦落至此，令人不胜唏嘘。

~8年：英特尔开始转型并准备反攻AMD

英特尔原先预定的「三轨共构」（服务器Itanium、桌机NetBurst、笔电PentiumM）产品发展计画，5年完全推翻，确立回归x86为中心，集中资源发展同时满足笔电、桌机和服务器的x86处理器微架构，为对AMD发动帝国大反击的开路先锋。英特尔的钟摆巨轮（Tick-Tock）开始缓缓转动，彻底辗碎AMD的服务器战线。

英特尔看到Google这些云端服务业者，为了降低成本，数据中心大量采用单处理器平台（Google第一世代自制服务器使用单颗PentiumIII），英特尔也将Xeon产品线延伸到单处理器、和桌机相同管脚、相同产品代号的3系列，落后AMDOpteron系列好几年。挂上Xeon品牌的价格当然比较昂贵，至于产品有没有比较可靠，就只有这些客户才会知道了。

根据不同管脚，Xeon产品线分成3块：

单处理器XeonUP：LGA的3双处理器XeonDP：LGA的0四处理器XeonMP：Socket的，这个看似老旧的管脚，生命周期长到让人讶异。相对应的系统芯片组，也采取同样的命名方式，让客户更容易理解哪些CPU应该搭配哪些芯片组。在数字编号之外，以65纳米制程的四核心为起点，型号另外加注E（高能耗）、L（低功耗）和X（高性能），突显产品属性。

这时的Xeon，排除英特尔在印度班加罗尔的研发团队所负责操刀的原生六核Dunnington，其余的四核心，也都还是包两颗芯片的「双馅水饺」，整合式存储器控制器和分散式主存储器仍付之阙如，相较AMD在年底就发布原生四核K8（K10），英特尔Xeon仍看似落后AMD一大截。

眼尖的读者势必察觉到某颗XeonDP很不一样，特别标示超低电压（ULV）的特色。XeonLV的存在理由不外乎当时流行的刀锋服务器，带动超低功耗服务器CPU的需求，虽然以事后诸葛的角度回顾这段历史，刀锋服务器的风潮，「昙花一现」差可比拟。

其实这颗双核心的XeonLV，源自于Core微架构（Merom）的前身Yonah，也同样出自于以色列海法研发团队之手，可视为从NetBurst转型到Core的「过渡时期实验性产品」。除了没有64位元，众多Merom的特点，像双核心共用大型化L2快取存储器，Yonah都看得到。英特尔研发资源之充沛，由此可见一班。

当CPU核心倍增，更需要大幅度提升存储器容量与频宽，也因此，英特尔在XeonDP与XeonMP的系统芯片组，导入FB-DIMM（Fully-BufferedDIMM），透过近似PCIExpress的序列式（Serial）总线与通讯协定，连接存储器控制器与存储器模组上的AMB（AdvancedMemoryBuffer）。

如果读者还记得前面提到的英特尔E8芯片组的IMI与XMB，就可以把FB-DIMM想像成「把IMI/XMB概念，转移到存储器模组的JEDEC标准」。不过，FB-DIMM存活在市场上的时间并不长，主因在于高昂的成本与过长的存储器存取延迟，导致普及度不高，搞到连AMD都不想用，也仅SunUltraSPARCT2共襄盛举，最终默默的消失在所有厂商的产品时程表。

那时入门级服务器导向的5芯片组（SanClemente）因维持「传统」的DDR2存储器，加上性能表现也没比那票FB-DIMM的产品来得差，被视为「一股清流」。比较高端的芯片组，如0X（Greencreek）、（Seaburg）和（Clarksboro），均内建快取数据一致性协定窥探过滤器（SnoopFilter），一个纪录存储器区块位址共享状态的快取存储器，减少窥探广播的次数，以减轻系统总线的负担。

Core2世代的英特尔Xeon并未一举击倒在系统平台架构仍享有技术优势的AMDOpteron，到了Nehalem/Westmere才开花结果，让AMD从此一蹶不振到年。

8~年：英特尔倾尽全力打垮AMD

这张图片是原生八核、24MBL3快取存储器、晶粒面积高达平方公厘的Nehalem-EX（Beckton），这颗「巨兽」也是英特尔彻底终结AMD优势（以及摧毁自家的Itanium）的终极象征。虽然源自于笔电需求的Core微架构，已经明显优于AMDK8与K10，但系统架构层面仍落后于AMD。英特尔在Nehalem世代一次「补好补满」，彻底瓦解AMD的服务器战线。

虽然说自从Merom之后，英特尔所有x86处理器微架构，都须兼顾服务器、桌机和笔电，但Nehalem最重要的任务，只有「尽速将AMD逐出服务器市场」，所以一切以服务器和高性能桌机为最高优先权，到了32纳米制程的Westmere才抢滩笔电市场。

这段期间，除了单处理器3、双处理器0和四处理器，Xeon产品命名规则，新增以下项目：

双处理器的核心代号多了EP（EfficientPerformance），多处理器则是EX（Expandable）。0系列：将最高端系列的处理器，「下放」成双处理器版本。因QPI大幅提升多处理器延展性，/0系列可直接对应8处理器平台，不再是AMDOpteronx系列的特权。英特尔主流桌机脚座的SocketH系列，以H1（LGA）为起点，直到今天的H5（LGA1）。JasperForest是内建PCIExpressNTB（Non-TransperentBridge）技术的特规版Nehalem，白话一点，就是方便厂商研制双控制器（DualController）相互备援的高可靠度硬体平台，如双控制器的企业级储存设备等。

相较于Merom，Nehalem最重大的突破，由内到外，可简述为以下几点：

HyperThreading复活，CPU再度一颗当两颗用。所有核心独享L2快取，共用内建的L3快取存储器。CPU整合存储器控制器，MCH就此消失。引进源自于AlphaEV7的QPI总线，并一并翻修快取数据一致性协定（CacheCoherenceProtocol）成MESIF。Nehalem的x2APIC处理器核心数目上限是-1=，可视为无限大。八核心的Nehalem-EX，也导入处理器内的环状（Ring）总线，奠定未来数年英特尔「恐龙化」多核心x86处理器的技术基础，到了Xeon-Phi和Xeon-SP才更替换成网状结构（Mesh）。

微架构层面，今日成为英特尔AMD处理器共通制式武装的「微指令快取」（uOpCache），只要命中就不须启动复杂又耗电的指令解码器，可同时改善功耗和性能，从NetBurst那失败的TraceCache为起点，一路演进到Nehalem，才算出现真正雏型。

这也让Nehalem微架构的Xeon平台，呈现和过去截然不同的风貌，也长得更像过去几年的AMDOpteron，即使多一颗有点碍眼、到SandyBridge才消失的IOH。不再受制于系统前端总线和MCH的Nehalem世代，拥有更巨大的系统总线与存储器频宽，整体性能表现更是脱胎换骨，让AMD再也没有翻身的可能。

四处理器和八处理器Xeon平台为了支持高容量存储器与更多的存储器通道，NetBurst时代XeonMP的IMI（InternalMemoryInterface）界面XMB（ExternalMemoryBuffer），替换成更先进SMI（ScalableMemoryInterface）界面的SMB（ScalableMemoryBuffer）。

此外，为了强化服务器的RAS（可靠性、可用性、可服务性），英特尔在Nehalem-EX（Xeon7系列）将Itanium那一整套RAS架构原封不动的移植到x86平台，「MCA（MachineCheckArchitecture）Recovery」可在存储器区块标示硬体无法修复的错误，通知操作系统或虚拟机器管理员（Hypervisor），不能再使用这些单元，关闭标示错误的数据，并重新启动程式。

当然，这也需要操作系统的配合，例如从8年WindowsVista和WindowsServer8开始引进的WHEA（WindowsHardwareErrorArchitecture）。持续不断的补强，让x86处理器正式站稳高端服务器的舞台。

从Merom到Nehalem的「帝国大反击」，让AMD在x86服务器的市占率急速下滑，更一举跌破10%到个位数水准，让一度响亮的Opteron品牌黯淡无光。AMD从Zen世代开始企图「重返农药」，也将服务器品牌重新更名为EPYC，不再使用这曾代表AMD最辉煌岁月的名称。

这段期间AMD发生了什么事？

这张照片是原生四核心的K10Barcelona，也是AMDOpteron极盛而衰的转捩点。

AMD从~年，压着英特尔猛打了好几年。但英特尔从年吹起反攻号角，AMD在年的夏天，耗资54亿美元并购ATi，也严重影响AMD内部产品研发时程，并造成一连串骨牌效应。

当年的圣诞节，AMD宣布原生四核心的K10完成设计，并由执行长HectorRuiz亲自主持庆功的圣诞晚会时，全世界都感受的到AMD早已力不从心。结果年11月，爆发会造成系统死当的TLB臭虫事件，但透过更新BIOS关闭TLB，将会降低10%~30%的性能。AMD在服务器市场的气势，就如同自由落体直线下坠，再也没有挽回的可能。

AMD在9年6月准时推出原生六核K10Istanbul，并在产品行销简报内大肆宣扬「使命必达的执行力」，但这也是AMD成功的极限，融合CPU与GPU的Fusion大战略，让AMD从此备多力分，产品时程也渐渐脱轨，接着得来不易的服务器市占率，就被英特尔的钟摆巨轮狠狠辗碎，让AMD陷入长达十年的黑暗期。

AMD从SocketG34「包双晶粒水饺」时，也将Opteron产品线精简成4（单处理器或双处理器，SocketC32）与0（双处理器或多处理器，SocketG34）系列，但x86服务器市占率依旧跌至个位数。姗姗来迟的「救世主」推土机（Bulldozer）家族能否救驾成功？但事后证明，根本只是提油救火。

~年：英特尔的钟摆巨轮辗碎AMD

英特尔不动声色在22纳米制程，默默导入3D立体结构的Tri-Gate（三闸极）电晶体，并在年5月才正式昭告天下，领先其他厂商的FinFET起码超过三年，堪称这间以摩尔定律奉为登山宝训的公司，在先进半导体制程领域最意气风发的时刻。

当英特尔在年2月10日的旧金山IEEEISSCC（国际固态电路研讨会），正式公布代号Ivytown的IvyBridge-EX的技术细节，核心数量相较前代SandyBridge-EP几乎倍增的原生十五核，象征AMDOpteron被英特尔Xeon彻底压垮，连想利用双馅水饺的倍增核心数量，勉强抗衡英特尔的机会都没有。

以年SandyBridge（Tock）为起点，英特尔的钟摆（Tick-Tock）巨轮开始全速转动，接连的IvyBridge（Tick）、Haswell（Tock）和Broadwell（Tick），制程从32纳米、22纳米演进到14纳米，稳定推陈出新，让英特尔Xeon在服务器市场的优势更难以撼动。

英特尔在精准执行钟摆节奏的几年内，为了因应不同产品线需求，同一世代微架构的处理器组态，逐渐成形成LCC（LowCoreCount，低数量核心）、HCC（HighCoreCount，高数量核心）与XCC（ExtremeCoreCount，超级多核心）等三种等级晶粒。Xeon的推出时程，因较长的产品开发与验证时间，和桌机笔电的「时差」也越拉越长，最高端产品甚至可晚两年以上。

眼光移向英特尔的钟摆节奏，就不难理解为何这些年是AMD最难过、最不堪回首的日子。知名技术评论家、RealWorldTech站长DavidKanter曾这样形容英特尔的钟摆「DamnExcellentAtExecution」，的确是最贴切的写照。

年（Tock）：SandyBridge，系统架构扬弃又热又烫的IOH，引进AVX指令集，具备货真价实的微指令快取（uOpcache），换装NetBurst体系的非循序指令执行引擎，指令重新排序缓冲区与实体数据暂存器分而治之，以减少CPU内部的数据流动量，利于省电。这时AMD推土机家族的Opteron，仍可用两倍的核心数勉强抗衡。

年（Tick）：IvyBridge，最主要的改进还是跑出十五核IvyBridge-EX这个妖怪，不给AMD的「双馅十六核」任何反击的机会。

分配、协调各I/O周边装置存取处理器需求，发出中断（Interrupt）时，知道该由哪个处理器负责，是近代多处理器环境的必要条件，而起源于3年Pentium的先进可程式化中断控制器（APIC,AdvancedProgrammableInterruptController）则是技术核心。但和存储器虚拟化的状况如出一辙，让VMM建立软件模拟的ShadowAPIC不仅耗费处理器性能，更会造成虚拟机频繁的进出执行环境。英特尔则是在年发布APICv（APICVirtualization）实用于IvyBridge微架构的XeonE5-2v2。

因应激增的核心数，为了确保充裕的存储器频宽与容量，继Boxboro-EX（Nehalem-EX/Westmere-EX）平台的SMI之后，Brickland平台（IvyBridge-EX/Haswell-EX/Broadwell-EX）升级成SMI2，数据传输界面从序列（Serial）转为64位元并列（Parallel），讯号线从70根爆增到根，电气特性也截然不同，总之就是砍掉重练。

年（Tock）：Haswell，新增AVX2指令集，并带来英特尔x86处理器微架构史上，最大规模的执行单元扩张行动，并大幅强化虚拟化机能，进一步追求控制不同虚拟机器占用L3快取空间与存储器频宽的精细调控机制，实现「L3快取存储器层级的QoS（Quality-Of-Service）」，避免系统资源被少数虚拟机吃光，或让VMM集中资源在最需要的虚拟机。Haswell-EP/EX最大核心组态再度略增到十八核，让AMD连核心数都占不了便宜。

年（Tick）：Broadwell，虚拟化机能更精进，如更彻底的硬体化APICv（APICVirtualization）和正名为ResouceDirectorTechnology的L3快取存储器QoS，Broadwell-EX更将核心数推进到二十四核。

为了阻止ARM或其他RISC阵营，藉由低功耗和网络储存等应用「渗透」服务器市场，英特尔推出整合网络控制器和一堆I/O界面的Xeon-D系统单芯片Broadwell-DE，在入门级企业储存与网通产品大受欢迎，日后并升级成Skylake-DE。

这时AMDOpteron已走到生命尽头。

AMD当初挖角IBMPower4首席工程师ChuckMoore，开发「号称可以只增加50%晶粒面积，即可提升80%输出率」的丛集多执行绪（CMT，Cluster-basedMulti-Threading），却被一再延宕的产品研发时程拖累。

AMD也仿照英特尔，同时开发大核与小核，后者虽然在游戏机领域得到重大战果，却也挽回不了整间公司的颓势。

AMD错估英特尔钟摆节奏的进步幅度，规格四处偷工减料的推土机（Bulldozer），也注定对抗不了融合P6与NetBurst技术大成的SandyBridge，AMD服务器战线就此彻底崩盘，直到年EPYC才重返战场。

各位读者可先复习一下AMD近代x86处理器的家族简史，你会对年之后AMD产品线乱象更有感。

原本AMD打算靠着连续四个世代的丛集多执行绪微架构：推土机（Bulldozer）、打桩机（Piledriver）、压路机（Steamroller）、挖土机（Excavator），用两个比较简单的整数运算核心打英特尔一个大核，双核心共用的浮点运算器则「依据Fusion大战略，假以时日替换成GPU」，重夺Opteron的技术优势。

结果到头来AMDOpteron连核心数都输人，这场走音工地秀也无法走到尽头，丛集多执行绪的Opteron实际只进展到第二代（挖土机的X3是沿用桌机的低端产品），还乱入毫无竞争优势的ARMCortex-A57核心的A1系列。「正统」Opteron处理器的发展只撑到了年，就黯然划下句点，接着就是等到LisaSu走马上任，将满天飞舞的简报通通束之高阁，倾尽全力研发Zen。

物极必反，否极泰来，就轮到AMD吹起反攻的号角了，虽然在年6月初代EPYC准备跟姗姗来迟的Skylake-SPPurley平台对垒时，声音还是相当微弱，几乎没有人听见。

~年：乱挤牙膏的英特尔再次被AMD反打一枪

可能领先优势已经拉太开，IBM也迟迟难以有效将Power「下放」到一般平民百姓家，看在毫无竞争对手的份上，英特尔年（Tock）「集技术之大成的最终英特尔x86处理器微架构」Skylake问世后，钟摆巨轮慢慢停下，转型成「14纳米制程Skylake牙膏厂」。

英特尔金鸡母的Xeon亦不可免俗，意图「一次到位」、满足所有市场需求的Skylake-SPPurley平台，历经多次延宕，到年7月才姗姗来迟，接着就被AMD一口咬住，启动「重返农药」大反击。

既然Skylake微架构是「奋钟摆六世之余烈」的技术集大成，那以它为心脏的Xeon当然也不能丢脸，不让世人感到「耳目一新」实在说不过去。Skylake-SP之所以多出那个SP（ScalablePlatform，可延展性平台），充分彰显了英特尔的企图：统合过去XeonMP和XeonDP及EN/EP/EX的系统架构，不再分而治之，并企图降低整体成本。

所以Skylake-SP呈现了和过去的Xeon平台截然不同的崭新面貌，笔者仅列出几个比较显眼的重点：

Skylake-SP核心比一般桌机笔电版，多了AVX-指令集，为此新增两个专用执行单元（部份低端型号Xeon仅启动一个），L2/L3快取存储器也针对服务器，调整容量与区块置换策略，这也让单一核心面积肥大化，也在日后「吸引」了不少事后诸葛的批判，像LinusTorvalds就希望「AVX-应该痛苦的死去」。UPI（UltraPathInterconnect）总线取代QPI。省略掉XMB、SMB、SMB2存储器缓冲器，存储器模组通通直连CPU，从双处理器、四处理器、八处理器，统一成六通道DDR4存储器。系统芯片组整合对应iWARP的10GbE以太网络控制器，与提升数据压缩和加解密运算的QuickAssist辅助处理器。部分型号内建英特尔自订的OmniPath总线控制器，超低延迟的特性利于高性能运算（HPC）等应用。不过英特尔在年宣布放弃OmniPath了。3DXPoint存储器模组OptaneApachePass，但却延后到2年后的微幅改进版CascadeLake-SP。产品命名系统除了数字，更加上白金、金牌、银牌、铜牌等名称，看似80PLUS电源供应器的效率等级认证。至于年4月登场的CascadeLake-SP，则在AVX-追加以DeepLearningBoost为名的VNNI指令（重点在于支持人工智能推论需要的INT8/INT16短整数）与「幽灵（Spectre）、熔断（Meltdown）」资安攻击的防御措施，年6月的CooperLake-P则再补上深度学习必备的BFloat16数据格式，补强重点都集中在人工智能，制程也依旧「死守」14纳米。

面对AMDEPYC来势汹汹的压倒性核心数量优势，英特尔也得重演「双馅水饺」的旧戏码，创造了W功耗、最多56核的CascadeLake-AP。

这张表格应可帮助读者迅速理解英特尔Xeon-SP「牙膏期」的更迭史。

挺过CooperLake-SP被腰斩的风波，随着英特尔「终于」在年的夏天，在HotChips32公开IceLake-SP技术细节，看似漫长的「14纳米Skylake牙膏期」即将划下句点，但IceLake-SP推迟到年第二季。

值得注意的是，英特尔在第三代Xeon-SP短暂重现XeonMP和XeonDP分立的样貌，在第四代的EagleStream平台和SapphireRapids处理器之前，如果需要BF16浮点格式做人工智能深度学习，就请乖乖掏钱购买比较贵的CedarIsland平台和CooperLake-P处理器。

时过境迁，AMD总算挺过了最黑暗的10年，但服务器市场的市占率，却仍看不到当年Opteron全盛时期的车尾灯。身为Opteron继承者，EPYC跟英特尔的Xeon-SP之间的激战，依旧是未来数年内，泛用处理器技术领域最值得

转载请注明:http://www.aideyishus.com/lkyy/4501.html

------分隔线----------------------------

上一篇文章：新锐龙让AMD重返巅峰但逆袭的50年里这
下一篇文章： CFG桩技术与造价的融合问答一组

热点文章

一个打桩机钻头价格不过几万,请一

英特尔与AMD的x86服务器战争编年史

最新文章

热点文章

推荐文章