当前位置: 打桩机 >> 打桩机介绍 >> 英特尔与AMD的x86服务器战争编年史
作者:痴汉水球
本篇文章将带你了解:
x86是怎么一步一步取得服务器市场的主导地位?「x86Everywhere」怎么产生的?x86双雄将如何面对服务器市场巨变
英特尔前阵子「总算」正式发布拖延已久的第三代Xeon-SP平台Whitley与IceLake-SP(ICX)处理器,也顺势表示,自从年推出第一款Xeon-SP以来,英特尔向全球客户交货了超过5千万颗Xeon-SP处理器。此外,从年开始,云端服务业者总计部署超过10亿个Xeon核心,超过家云端服务供应商导入Xeon处理器。
诞生于年6月29日的Xeon,是英特尔第一个货真价实的服务器产品品牌,历经超过20年的光阴,更早已成为x86指令集兼容处理器,站稳服务器市场的不动象征。
英特尔有支撑获利的服务器产品线Xeon,从年到年,AMD也曾经拥有过Opteron,更曾在~年这段期间,在服务器市场极盛一时,象征AMD最辉煌的黄金岁月。
如同在GPU战场,对英特尔和AMD最重要的议题,在于能否重返高性能运算和人工智能应用,并摆脱软件生态系统远不如nVidiaCUDA的困境。在CPU领域,英特尔和AMD真正的决战焦点,更绝非桌机笔电,而是带来更高获利的服务器与数据中心,而英特尔这市场曾经拥有超过九成占有率。
但很不幸的,英特尔却在今年第一季财报,上演英特尔财报出现「服务器毛利率低于个人电脑」的世界奇观(这应该是年Xeon品牌诞生以来首次),以及AMD靠反攻数据中心的战果,交出营收年增93%的漂亮财报。背后代表的意涵,不言可喻。
笔者曾在年夏天,发布《为何AMD近十年x86CPU打不过英特尔?战局会改观吗?》一文,以编年史体裁,写了落落长流水帐,也预言AMD的反攻机会,将来自云端服务业者的真实需求。现在我们就以服务器角度,重新检视英特尔和AMD那将近30年的服务器市场开拓史,并留给各位认真思考「x86双雄的未来」的空间。
经过超过25年的努力,英特尔和AMD携手建立x86指令集兼容处理器,在今日数据中心与服务器的主宰地位。昔日难登大雅之堂、只能屈居个人电脑的吴下阿蒙,突破众多「RISC诸神」(MIPS、SPARC、PA-RISC、Power、Alpha)建立的马奇诺防线,并让「RISC诸神的黄昏」成为众多「计算机组机结构正统教义派」和「RISC十字军」不愿面对的现实。
踏入时间轴之前,笔者先分别以「技术」、「商业」和「政治」的角度,剖析为何x86走到这一步,然后未来又将面对哪些挑战。
第一个大哉问:就「技术」的角度,x86是怎么一步一步取得服务器市场的主导地位?
我们就先从技术层面开始讲起。
x86处理器在服务器市场最重要的一天?
年11月1日,英特尔发布P6微架构的PentiumPro,这是这间公司史上最重要的芯片,没有之一。
年开始萌芽的当代高性能处理器微架构,有所谓的「4S指标」:超标量(Superscalar)、超流水线(Superpipeline)、多处理器可扩展性(Scalability)、系统管理能力(SystemManagement)。
PentiumPro是当时x86处理器唯一兼顾4S者,同期Cyrix与AMD均难以望其项背,且PentiumPro的整数运算性能,足以跟同期高端RISC处理器分庭抗礼。至于浮点运算全面超车RISC阵营,是SSE2指令集诞生后的事了。
PentiumPro到底厉害在哪?
结合高效率的系统总线、改良后的内建式可编程中断控制器(APIC)、丝毫不会浪费系统总线带宽的独立第二阶快取存储器,与处理器核心具备非循序存储器存取能力,PentiumPro替x86敲开服务器天堂的大门,让英特尔过了快7年的好日子,直到被宿敌AMD用名为K8的大榔头(Hammer)狠狠敲昏为止。
那一天x86处理器奠定在服务器市场的不动地位?
年6月29日问世的Xeon品牌,从此成为x86服务器的象征,以及英特尔最重要的现金母牛(CashCow)。
依据英特尔的既定战略,服务器的大旗应由Itanium一肩扛起,那为何失败?
因为英特尔一连串策略失误,加上缺乏对高端服务器市场的基本认知,让「64位元真命天子」IA-64指令集和Itanium处理器,不得不消失在历史的洪流,也结束了英特尔企图消灭80x86的野心。现在看来这伟大的「历史使命」,似乎落在ARM阵营的肩上?
AMD又是如何踏入服务器市场?
理所当然的是年4月24日发布的Opteron品牌,「刚刚好」微软也在同一天宣布即将推出x86-64版Windows操作系统。
骨灰级电脑玩家一定记得年6月5日的AthlonMP,但源自Alpha的EV6总线,大幅提高实做多处理器平台的门槛,基本上可谓无疾而终,很快就被Opteron取代。
AMD的Opteron又厉害在哪些地方?
讲白了,AMDK8微架构从内到外的每个环节,几乎比照高端RISC办理,假若把K7看成「x86世界的Alpha」,那K8就是「穷人版的Alpha」。
AMDK8微架构的Hyper-Transport系统总线、处理器整合存储器控制器、更先进的MOSEI快取数据一致性协定、强大的RAS(可靠性、可用性、可服务性)、与诸多节能特色等优势,为x86服务器带来前所未有的多处理器及多核心延展能力,勿需价高量少的特殊服务器芯片组,任何一家服务器厂商都可轻松打造「四颗甚至八颗处理器的x86服务器」。
AMDK8带领x86进入64位元的世界,彻底摧毁了中低端RISC/Unix服务器仅存的脆弱保护伞。K8激增AMD的市场影响力,让AMD在高性能x86处理器技术领域,拥有足以和英特尔平起平坐的地位。Xeon与Opteron两大品牌双日争辉、兄弟登山各自努力,扩大x86在服务器世界的版图。
那为何RISC诸神就从此一蹶不振,只剩下IBMPower硕果仅存?
因为它叫「IBM」。
第二个大哉问:就商业和政治角度,「x86Everywhere」又怎么产生的?
天底下任何产品演进和市场发展,都是「技术」、「商业」与「政治」彼此交错影响的结果。x86指令集兼容处理器能够「反淘汰」RISC诸神,相较冷冰冰的技术,商业和政治更举足轻重。
年代末期,x86处理器逐步支配服务器市场的关键性因素?
WindowsNT。Linux(笔者私心想加上FreeBSD)。出货量持续激增的个人电脑市场。没了,就这样。
个人电脑市场跟服务器又有什么关系?
年全球出货量突破「1亿」大关的个人电脑市场,成为英特尔和AMD长期维系半导体业界最先进制程与最庞大研发团队的基本盘,不仅对「RISC诸神」享有压倒性成本优势,让更多的电晶体数量,充分弥补x86指令集的众多先天缺陷(Pentium比PowerPC多30%电晶体,只为了维持x86指令集兼容性),更分摊天文数字般的产品研发开销。x86处理器在服务器市场的成长,可视为「下克上」的日本战国时代故事。
RISC指令集应该更容易打造能耗比更高的处理器,但到头来在服务器市场并不是这么回事?
这跟x86处理器在年代末期延伸到笔记型电脑,有根深蒂固的关联,尤其当英特尔为了Centrino量身订做PentiumM处理器,奠定「追求高能耗比」的长期发展方向后,服务器产品线也雨露均沾。年Merom微架构一统服务器、桌机和笔电,更让Xeon产品线「强迫中奖」,让IBMPower和Oracle/Sun的SPARC相较之下,根本毫无优势。
这些年来,假如各位也有关心那票前仆后继、有一阵没一阵的「ARM服务器」,也势必会注意到,那些规格看起来很暴力的ARM处理器,怎么好像也没省电到那去?其实当处理器微架构的复杂度抵达「某条看不见的临界点」,「相对复杂又毫无道理可寻的」x86指令集带来的额外「赋税」也就不会那么明显了。
IBM不是一直想推动PowerEverywhere,为何难以成功?
因为IBM自己也在做服务器,会有「球员兼裁判」的疑虑,这就是非常显而易见的政治因素。
谁能动摇x86处理器在近代数据中心的主导地位?
唯有这票大型云端服务业者通通自研自制自家专用的「非x86」(不见得是ARM,如Google的TPU)处理器并全部取而代之,否则将难以动摇x86的地位。况且先进制程晶圆代工厂的产能,也是处于供不应求的紧绷状态,贸然放弃拥有大量自有产能的英特尔处理器,风险不能说不小。看看AMD的缺货窘境就知道了,产品再好,出不了货也只是白费力气。
至于一般商用服务器市场,也是要等到ARM在企业服务器应用的生态系统,成熟到连一般的MIS都愿意采用,这之前讲再多都多余。
无论英特尔还是AMD,近代主流x86微架构都是「服务器、桌机、笔电」共用,那眼前的Xeon-SP和EPYC,难道真是「%服务器最佳化」设计吗?
这就是x86指令集的原罪:超级长的产品开发及验证时程,强迫拥有巨大研发能量的英特尔和AMD,也只能将资源聚焦在极为少数的专案,也难以迅速应对新兴的应用需求,这就是ARM等IP授权商、EDA工具软件和专业晶圆代工,会主导消费性产品芯片的主因。
这才是ARM阵营在服务器领域的最佳切入点,但偏偏也只有「实际的使用者」才知道需要的产品规格究竟是什么,而他们却都有自己开发芯片的本钱。
最后,ARM能在服务器市场引发迅速的「典范转移」吗?
坦白讲,怎么想都非常的困难,除非革命性的应用,像软件定义网络、网络功能虚拟化和25G+以太网络,让从1G迈向10G花了整整十年以太网络,只花不到3年就跑出一狗票SmartNIC,让整体数据中心应用架构出现颠覆性演化,要不然都是难如登天。也许大家可以多多关切Nvidia企图发动的革命,以及云端巨头又有哪些风吹草动。
更何况英特尔和AMD又不会躺着等死,一切都还很有得瞧。当然,AMD自己带头做ARM版EPYC的话,那又是另一条截然不同的世界线了。
现在就让我们想像搭上时光机,回到世人对x86的刻板印象,难以与「服务器」划上等号的古老年代。
~年:英特尔发动的酝酿期
个人电脑普及化,带来更惨烈的价格竞争,年代后期的英特尔和AMD为了维持获利,投入服务器市场,实乃不得不然。在年第一季,主频MHz的Pentium可卖到「美元」(今天都足以组出一台顶规桌机),只过个半年就要打七折了。
个人电脑出货量抵达1亿台历史新高的年,「美元个人电脑」蔚为风潮,引爆低端处理器的价格战争,导致英特尔的Celeron和AMD的K6-2大打出手,还「顺便」打垮一票x86处理器小厂(Cyrix、Centaur、Rise),入门级CPU的平均售价(ASP),更是下探到美元之谱。
Xeon并非英特尔首次进军服务器市场,第二代Pentium(P54C)内建支持双处理器组态的先进可程式化中断控制器(APIC),和PentiumPro(P6)带来革命性处理器微架构与崭新系统平台,都是以功败垂成黯然收场的尝试。好吧,MHzPentiumPro「胆敢」开价1,美元,也算很了不起的丰功伟业了。
反观那票从年代末期开始,已经盘据服务器市场已久的「RISC诸神」,早就享受丰厚利润,以Sun的UltraSPARC为例,年第二季,也是个人电脑市场的削价战杀声震天之际,主频MHz的UltraSPARCII模组,要价高达3,美元。
我们也知道,今天即使同样晶粒,封装印着不同品牌,价格就天差地远。AMD还曾为了解释单处理器的Opteron系列和桌机的Athlon64究竟有何不同,特别制作说明用简报,大意就是Opteron用的晶粒品质比较好、验证项目比较多、微码(Microcode)修补bug重点不同之类的。
这也是为何这些年来,连发迹于消费性电子产品的RISC指令集,像目前最普及的ARM,阵营也汲汲营营服务器市场。x86处理器世界快没存在感的VIA也沉潜多年,生出目标5G边缘服务器(MEC)的CHA系统单芯片。充满神秘俄系血统的俄罗斯Elbrus,更在多处理器服务器耕耘已久,只为了让CPU不受制于「邪恶的美国帝国主义者」。
对技术有深度认知的读者,或多或少也了解,服务器用的CPU不仅需要更好性能、出色的多处理器扩充性与性能延展性、更完备的高可靠性、滴水不漏的可用性,并搭配强大的系统芯片组和更高容量的系统主存储器。
但商业因素却远比技术门槛更严峻:英特尔和AMD要如何说服企业客户,一间长期研制美元桌上型便宜货的厂商,有资格销售3,美元等级的服务器高级品,所以就像另外成立「豪华车专属品牌」的汽车厂商,英特尔必须创造Xeon以区隔市场。英特尔的老对手AMD,于兼容AlphaEV6总线的AthlonMP企图抢滩服务器市场失败之后,年4月24日也借Opteron之名,踏上一条殊途同归的荆棘之路。
~年:Xeon诞生的开创期
英特尔首要之务莫过于推出「一看就知道是服务器专用」的产品,巨大Slot-2「弹夹」就为此而生。
但英特尔并非只为了让Xeon看起来比较专业,才搞出这样的巨大塑胶盒,更为了因应更高容量的同核心主频L2快取存储器,原先只针脚的Slot-1无法满足供电需求,Slot-2扩展为只,趁机塞入系统管理总线(SMBus),并将原生的多处理器支持性,恢复到PentiumPro的4颗(PentiumII仅2颗)。此外,为确保四处理器时,系统总线可跑到MHz,在英特尔拥有专利的GTL+之外,进一步引进AGTL+讯号,在PentiumIII世代再提升到MHz。
「扩大存储器容量」和「快取存储器的定址范围」也是另一场重头戏。为了突破32位元的4GB限制,除了PentiumPro问世的PAE-36模式,PentiumII世代Xeon追加「性能较低,但比较不需要修改操作系统」的PSE-36。PentiumII世代Xeon的L2快取存储器可涵盖到整个64GB可定址存储器范围,不像早期的PentiumII有MB或4GB限制。提高数据可靠度的ECC纠错,更是必备的制式武装。
如同低价电脑Celeron,PentiunIII时代后期的Xeon,随着制程技术的进步,逐步将外部快取存储器塞回CPU本体。年3月21日登场的XeonA,内建多达2MB的L2快取,开英特尔实作超大型化快取存储器之先例。也难怪日后英特尔常被取笑:这间公司最大的业务不是CPU,而是制造快取存储器。
~4年:Xeon的扩张期与AMDOpteron即将带来的风暴
英特尔年之后的Xeon产品线命名,完全拿掉Pentium字样,借此彻底摆脱个人电脑形象,也在这段32位元NetBurst微架构期间,确立了XeonDP(双处理器)和XeonMP(四处理器)分立的局面,也结束了PentiumII/PentiumIII时期,桌机处理器可以同时插两颗的美好年代。要支持多处理器,请乖乖掏钱购买更贵的Xeon。
因服务器产品追求更高的可靠性和稳定性,导致验证时期较长,XeonMP通常推出时程较晚,且主频也较低,也有更大容量的快取存储器。相较之下,XeonDP比较像桌机处理器换成另一种封装产物。从NetBurst开始出现的xAPIC,将APIC的3位元专属总线,直接融入系统总线的通讯协定,避免APIC运作时影响存储器存取性能,并将处理器核心上限激增到个。
如同初代nm制程Pentium4被批评空有高主频,但部分性能不如前代PentiumIII甚至AMDAthlonMP,初期的XeonDP也被指责整体性能不及拥有2MBL2快取存储器的末代PentiumIIIXeon,这问题到了纳米制程世代,主频大幅提升后,才渐渐消失。
此外,一般资深电脑玩家对英特尔的HyperThreading的初次登场,印象多半是年11月之后的纳米制程Pentium4,但其实早在当年2月的纳米制程XeonDP就问世了。对于多人多工作业的服务器来说,可改善整体输出率的同步多线程(SMT)技术,确实是天作之合。
更重要的是,英特尔以实际行动证实纳米制程的NetBurst核心,已经内建HyperThreading的谣传,年3月的XeonMP就支持这「一颗当两颗用」的神秘功能。至今英特尔尚未透露为何初代Pentium4要这样留一手,主因可能是个人电脑操作系统的多处理器支持性。
面对来势汹汹的AMDK8,英特尔在年9月,抢在Athlon64和Athlon64FX前一周,发布将Xeon专用核心「下放」到桌机的Pentium4ExtremeEdition,但仍然难以挽回颓势,也让4年2月的90纳米制程Pentium4Prescott产品定位,显得更尴尬。
XeonMP一次连接四颗CPU的SMP系统总线,以及共用的存储器控制器,成为明显的性能瓶颈,也突显AMDK8内建存储器控制器与HyperTransport总线的绝大优势。在年4月22日,AMDOpteron的降临,让英特尔做了好几年恶梦,也让英特尔的处理器产品时程表,陷入了前所未见的极大混乱。
年:开启AMD全盛期的Opteron
英特尔跟HP合作的IA-64指令集与Itanium处理器,策略失当与出师不利,送给了AMD伺机杀入服务器市场的大好机会。相较于英特尔,AMDOpteron不仅享有压倒性的技术优势,其产品编号也极度的清晰易懂,可以想见「有备而来」的程度。
1开头:单处理器。2开头:双处理器。8开头:多处理器(四颗或八颗)。迈进DDR2存储器后,编码变成x,以此类推,2即代表「第二世代」。
加上当时正是x86服务器也需要直接定址超过4GB主存储器的心理关键时刻,让AMD发布于年的x86-64指令集,因具备x86回溯兼容性兼具倍增数据暂存器,变成很具吸引力的64位元方案。
年4月24日,AMD公布Opteron品牌,同一天微软也「很巧合」宣布将发行x86-64版Windows,让英特尔钦定的「64位元真命天子」Itanium处理器的未来,蒙上不祥的阴霾。
同场加映AMD其他K8产品线品牌的发布日期,这也代表着64位元x86指令集,逐步推广到其他应用领域的里程碑。
Athlon64(桌机):年11月19日。Sempron(低价产品):4年6月7日。BBS连线硬体版戏称为「散步龙」,和英特尔的「洗地龙」(Celeron)相互辉映,唯一的共同点就是「散步」和「洗地」都象征「跑不快」。Turion64(笔电):5年1月10日,笔者还依稀记得HP还是带头冲第一的笔电厂商。AMD之所以能短短两年就席卷服务器市场,从英特尔手上硬抢下超过30%市场占有率,除了64位元,还有很多重要因素。
服务器等级的侦错容错机制:从ECC单位元纠错的L1数据快取与L2快取、预防存储器多位元错误的存储器Chipkill技术、Parity位元侦错的L1指令快取、巨大的转译后备缓冲区(TLB)、到回报系统错误的MCA(MachineCheckArchitecture)机能,都充分展现了AMD抢攻服务器市场的决心。
HyperTransport总线:Opteron直接提供点对点连接处理器的方式,不像英特尔的传统北桥架构,每个处理器都要共用有限的FSB频宽外,打造大型系统也需要昂贵复杂的芯片组、如桥接芯片,这让实作Opteron多处理器环境远比Xeon轻松。
也因此,大型Opteron多处理器平台享有比XeonMP更短的研发时间,不仅成本比较低廉,性能和可靠度上更是毫无妥协,一度让AMD在四处理器以上x86服务器,曾有40%以上市占率。英特尔是到8年的Nehalem有了QPI,才追上AMD。
高效率的快取数据一致性协议(CacheCoherenceProtocol):这对多处理器环境性能有着举足轻重的影响,而AMD的MOESI协定有极为出色的表现。
和处理器核心同主频的整合型存储器控制器:多处理器环境变成CC-NUMA(CacheCoherence-NonUnifiedMemoryArchitecture)分散式存储器架构,让Opteron整体存储器性能,远胜过英特尔的系统前端总线(FSB)连接北桥(NorthBridge)的架构。
整合式存储器控制器让处理器数量越多,可扩增的存储器容量也会更大。5年,企业需要GB主存储器容量的服务器,采用Itanium的HPSuperDome要价4千万台币,但八颗Opteron的系统,如SunX4和IwillH,每颗安装16GB存储器,价格却仅十分之一,巨大优势不言可喻。
直冲原生双核心:当北桥存储器控制器都位于在处理器晶粒之中,自然也不必担忧双核心什至多核心的内部频宽与延迟问题。AMD打从年,就宣布让K8直奔原生双核心(请注意下图的CPU0和CPU1),更在4年8月31日(4年秋季IDF)就公开双核心样品,5年4月准时登场,这是AMDx86处理器发展史上最重大的战略胜利。
K7演进而来的成熟微架构:K8是以K7为基础进行改良的产物,相较于同时期的英特尔NetBurst体系,也享有压倒性的低功耗。AMD在年2月26日(年春季IDF)首次展示单核心K8,隔年4月正式上市,屡次用较低的运作主频「屠杀」英特尔NetBurst体系的产品线。
强大动态分支预测和存储器转译后备缓冲区:足以应付「分支密集且狂吃存储器频宽」的服务器端应用软件的行为模式。
值得一提的是,因为K8的L1/L2快取数据「互斥」(Exclusive),AMD还利用「L1指令快取的数据,被挤回L2时,L2的ECC形同浪费」(L1指令快取只有Parity)特色,将分支选择器「偷放」在这个栏位,以增强分支预测器的容量,并兼顾性能与成本,堪称非常厉害的巧思,毕竟L1指令快取被侦测到数据受损,顶多从存储器重新撷取一次就好了。
年底上市的Opteron,售价高达「3,美元」,这对过去只能在个人电脑市场跟英特尔打削价战的AMD来说,简直是连想都不敢想的梦。
4年6月14日,AMD发新闻稿,昭告天下「我们已经设计完毕原生双核产品」,并大方摊开产品时程表给大家看。
4年7月17日:Cray宣布将建造由颗Opteron构建出来的RedStorm超级电脑。
4年8月23日:AMD与Newisys在IEEEHotChips16发布Horus芯片组,这是AMD史上首款32处理器的大型系统架构(即使后来胎死腹中)。
5年4月21日,AMD风光发布双核心的Opteron系列,领先英特尔的Core2家族整整超过一年,堪称这间公司最意气风发的时刻。
只不过,再多好运也有用完的一天。当时无人预料到,AMD不仅将面对英特尔即将发动的帝国大反击(还是由PatGelsinger领军),更将在迈向原生四核心处理器之路,重重跌了一跤,还再不能爬起来。
4~年:陷入空前混乱的英特尔
AMD在服务器市场趁势崛起的期间,英特尔的64位元布局,被AMD搞得阵脚大乱,陷入内外交逼困境,结果就是一连串赶鸭子上架的64位元x86指令集、东拼西凑的性能改进方案、以及换汤不换药的「双馅水饺」双核心。
这时期的Xeon,除了具备大型化L3快取的XeonMP,和看起来有点像勉强赶工出来的双核XeonDP,清一色都是桌机体系的衍生品,只差在芯片封装是包一颗还是包两颗,然后顺便「解放」被封印的64位元。
此外,值得一提的是,后来在这NetBurst混乱期的末期,英特尔确立了XeonMP和XeonDP0命名体系。你现在看到Xeon的四码数字型号,就是以这时候为起点。
但AMD在服务器市场带来的空前威胁,逼出英特尔全部潜力,也让Xeon逐渐具备了更强大的多处理器竞争力。以XeonMP平台Truland为例,E8系列芯片组不仅藉由两条系统前端总线稍微弥补跟AMDOpteron的频宽差距,更「外挂」存储器缓冲控制器(XMB,ExternalMemoryBuffer),实现更高的存储器容量与频宽。
芯片组的管脚数量有限,就算不惜血本,在北桥芯片组内「硬干」八通道存储器,届时单一存储器通道能够「推的动」几条模组,也将会是个大难题。不如分而治之,把部份存储器控制器的机能分割出来,反正高单价的多处理器服务器,也足以吸收这些额外的成本。有点年纪的读者也应当知晓,这早已是众多高端服务器(像IBM的Power和Z系列大型主机)行之有年的特色。
日后一系列的XeonMP也依循同样方式,像八核的Nehalem-EX、十核的Westmere-EX、十五核的IvyBridge-EX、十八核的Haswell-EX和二十四核的Broadwell-EX,直到英特尔从14纳米制程「牙膏期」的Xeon-SP之后,将存储器控制器机能全数收回到CPU内部。
为了提升服务器的网络存取性能,微软年3月发布ScalableNetworkingPack(SNP)与NDIS5.2Miniport驱动程式架构,技术核心的NetDMA规范,企图打通一条从网络卡直奔应用程式存储器的「烟囱」,而英特尔的XeonDPBensley平台就成为首款对应I/OAT的产品。英特尔的I/OAT也陆续演进了好几个世代,唯一不变的就是「从CPU到芯片组到网络卡,都要用英特尔的东西」。
总之,以5年为起点,以XeonMP和Opteronx系列为主的x86处理器,在四处理器以上高端服务器的出货量急速攀升,蚕食鲸吞传统高端RISC服务器的地盘,到了年,英特尔的Xeon足足吃下94%市场,即使产品单价较低,也吞食超过80%营收,RISC服务器的出货量更从一年32,台掉到9,台。
顺便一提,在这块市场,年IBM是12%~15%,并购Sun的Oracle更只剩下5%。既然连四处理器都如此,单处理器和双处理器平台就更连想都不用想了。这些年来,昔日呼风唤雨的众多「RISC诸神」,沦落至此,令人不胜唏嘘。
~8年:英特尔开始转型并准备反攻AMD
英特尔原先预定的「三轨共构」(服务器Itanium、桌机NetBurst、笔电PentiumM)产品发展计画,5年完全推翻,确立回归x86为中心,集中资源发展同时满足笔电、桌机和服务器的x86处理器微架构,为对AMD发动帝国大反击的开路先锋。英特尔的钟摆巨轮(Tick-Tock)开始缓缓转动,彻底辗碎AMD的服务器战线。
英特尔看到Google这些云端服务业者,为了降低成本,数据中心大量采用单处理器平台(Google第一世代自制服务器使用单颗PentiumIII),英特尔也将Xeon产品线延伸到单处理器、和桌机相同管脚、相同产品代号的3系列,落后AMDOpteron系列好几年。挂上Xeon品牌的价格当然比较昂贵,至于产品有没有比较可靠,就只有这些客户才会知道了。
根据不同管脚,Xeon产品线分成3块:
单处理器XeonUP:LGA的3双处理器XeonDP:LGA的0四处理器XeonMP:Socket的,这个看似老旧的管脚,生命周期长到让人讶异。相对应的系统芯片组,也采取同样的命名方式,让客户更容易理解哪些CPU应该搭配哪些芯片组。在数字编号之外,以65纳米制程的四核心为起点,型号另外加注E(高能耗)、L(低功耗)和X(高性能),突显产品属性。
这时的Xeon,排除英特尔在印度班加罗尔的研发团队所负责操刀的原生六核Dunnington,其余的四核心,也都还是包两颗芯片的「双馅水饺」,整合式存储器控制器和分散式主存储器仍付之阙如,相较AMD在年底就发布原生四核K8(K10),英特尔Xeon仍看似落后AMD一大截。
眼尖的读者势必察觉到某颗XeonDP很不一样,特别标示超低电压(ULV)的特色。XeonLV的存在理由不外乎当时流行的刀锋服务器,带动超低功耗服务器CPU的需求,虽然以事后诸葛的角度回顾这段历史,刀锋服务器的风潮,「昙花一现」差可比拟。
其实这颗双核心的XeonLV,源自于Core微架构(Merom)的前身Yonah,也同样出自于以色列海法研发团队之手,可视为从NetBurst转型到Core的「过渡时期实验性产品」。除了没有64位元,众多Merom的特点,像双核心共用大型化L2快取存储器,Yonah都看得到。英特尔研发资源之充沛,由此可见一班。
当CPU核心倍增,更需要大幅度提升存储器容量与频宽,也因此,英特尔在XeonDP与XeonMP的系统芯片组,导入FB-DIMM(Fully-BufferedDIMM),透过近似PCIExpress的序列式(Serial)总线与通讯协定,连接存储器控制器与存储器模组上的AMB(AdvancedMemoryBuffer)。
如果读者还记得前面提到的英特尔E8芯片组的IMI与XMB,就可以把FB-DIMM想像成「把IMI/XMB概念,转移到存储器模组的JEDEC标准」。不过,FB-DIMM存活在市场上的时间并不长,主因在于高昂的成本与过长的存储器存取延迟,导致普及度不高,搞到连AMD都不想用,也仅SunUltraSPARCT2共襄盛举,最终默默的消失在所有厂商的产品时程表。
那时入门级服务器导向的5芯片组(SanClemente)因维持「传统」的DDR2存储器,加上性能表现也没比那票FB-DIMM的产品来得差,被视为「一股清流」。比较高端的芯片组,如0X(Greencreek)、(Seaburg)和(Clarksboro),均内建快取数据一致性协定窥探过滤器(SnoopFilter),一个纪录存储器区块位址共享状态的快取存储器,减少窥探广播的次数,以减轻系统总线的负担。
Core2世代的英特尔Xeon并未一举击倒在系统平台架构仍享有技术优势的AMDOpteron,到了Nehalem/Westmere才开花结果,让AMD从此一蹶不振到年。
8~年:英特尔倾尽全力打垮AMD
这张图片是原生八核、24MBL3快取存储器、晶粒面积高达平方公厘的Nehalem-EX(Beckton),这颗「巨兽」也是英特尔彻底终结AMD优势(以及摧毁自家的Itanium)的终极象征。虽然源自于笔电需求的Core微架构,已经明显优于AMDK8与K10,但系统架构层面仍落后于AMD。英特尔在Nehalem世代一次「补好补满」,彻底瓦解AMD的服务器战线。
虽然说自从Merom之后,英特尔所有x86处理器微架构,都须兼顾服务器、桌机和笔电,但Nehalem最重要的任务,只有「尽速将AMD逐出服务器市场」,所以一切以服务器和高性能桌机为最高优先权,到了32纳米制程的Westmere才抢滩笔电市场。
这段期间,除了单处理器3、双处理器0和四处理器,Xeon产品命名规则,新增以下项目:
双处理器的核心代号多了EP(EfficientPerformance),多处理器则是EX(Expandable)。0系列:将最高端系列的处理器,「下放」成双处理器版本。因QPI大幅提升多处理器延展性,/0系列可直接对应8处理器平台,不再是AMDOpteronx系列的特权。英特尔主流桌机脚座的SocketH系列,以H1(LGA)为起点,直到今天的H5(LGA1)。JasperForest是内建PCIExpressNTB(Non-TransperentBridge)技术的特规版Nehalem,白话一点,就是方便厂商研制双控制器(DualController)相互备援的高可靠度硬体平台,如双控制器的企业级储存设备等。
相较于Merom,Nehalem最重大的突破,由内到外,可简述为以下几点:
HyperThreading复活,CPU再度一颗当两颗用。所有核心独享L2快取,共用内建的L3快取存储器。CPU整合存储器控制器,MCH就此消失。引进源自于AlphaEV7的QPI总线,并一并翻修快取数据一致性协定(CacheCoherenceProtocol)成MESIF。Nehalem的x2APIC处理器核心数目上限是-1=,可视为无限大。八核心的Nehalem-EX,也导入处理器内的环状(Ring)总线,奠定未来数年英特尔「恐龙化」多核心x86处理器的技术基础,到了Xeon-Phi和Xeon-SP才更替换成网状结构(Mesh)。
微架构层面,今日成为英特尔AMD处理器共通制式武装的「微指令快取」(uOpCache),只要命中就不须启动复杂又耗电的指令解码器,可同时改善功耗和性能,从NetBurst那失败的TraceCache为起点,一路演进到Nehalem,才算出现真正雏型。
这也让Nehalem微架构的Xeon平台,呈现和过去截然不同的风貌,也长得更像过去几年的AMDOpteron,即使多一颗有点碍眼、到SandyBridge才消失的IOH。不再受制于系统前端总线和MCH的Nehalem世代,拥有更巨大的系统总线与存储器频宽,整体性能表现更是脱胎换骨,让AMD再也没有翻身的可能。
四处理器和八处理器Xeon平台为了支持高容量存储器与更多的存储器通道,NetBurst时代XeonMP的IMI(InternalMemoryInterface)界面XMB(ExternalMemoryBuffer),替换成更先进SMI(ScalableMemoryInterface)界面的SMB(ScalableMemoryBuffer)。
此外,为了强化服务器的RAS(可靠性、可用性、可服务性),英特尔在Nehalem-EX(Xeon7系列)将Itanium那一整套RAS架构原封不动的移植到x86平台,「MCA(MachineCheckArchitecture)Recovery」可在存储器区块标示硬体无法修复的错误,通知操作系统或虚拟机器管理员(Hypervisor),不能再使用这些单元,关闭标示错误的数据,并重新启动程式。
当然,这也需要操作系统的配合,例如从8年WindowsVista和WindowsServer8开始引进的WHEA(WindowsHardwareErrorArchitecture)。持续不断的补强,让x86处理器正式站稳高端服务器的舞台。
从Merom到Nehalem的「帝国大反击」,让AMD在x86服务器的市占率急速下滑,更一举跌破10%到个位数水准,让一度响亮的Opteron品牌黯淡无光。AMD从Zen世代开始企图「重返农药」,也将服务器品牌重新更名为EPYC,不再使用这曾代表AMD最辉煌岁月的名称。
这段期间AMD发生了什么事?
这张照片是原生四核心的K10Barcelona,也是AMDOpteron极盛而衰的转捩点。
AMD从~年,压着英特尔猛打了好几年。但英特尔从年吹起反攻号角,AMD在年的夏天,耗资54亿美元并购ATi,也严重影响AMD内部产品研发时程,并造成一连串骨牌效应。
当年的圣诞节,AMD宣布原生四核心的K10完成设计,并由执行长HectorRuiz亲自主持庆功的圣诞晚会时,全世界都感受的到AMD早已力不从心。结果年11月,爆发会造成系统死当的TLB臭虫事件,但透过更新BIOS关闭TLB,将会降低10%~30%的性能。AMD在服务器市场的气势,就如同自由落体直线下坠,再也没有挽回的可能。
AMD在9年6月准时推出原生六核K10Istanbul,并在产品行销简报内大肆宣扬「使命必达的执行力」,但这也是AMD成功的极限,融合CPU与GPU的Fusion大战略,让AMD从此备多力分,产品时程也渐渐脱轨,接着得来不易的服务器市占率,就被英特尔的钟摆巨轮狠狠辗碎,让AMD陷入长达十年的黑暗期。
AMD从SocketG34「包双晶粒水饺」时,也将Opteron产品线精简成4(单处理器或双处理器,SocketC32)与0(双处理器或多处理器,SocketG34)系列,但x86服务器市占率依旧跌至个位数。姗姗来迟的「救世主」推土机(Bulldozer)家族能否救驾成功?但事后证明,根本只是提油救火。
~年:英特尔的钟摆巨轮辗碎AMD
英特尔不动声色在22纳米制程,默默导入3D立体结构的Tri-Gate(三闸极)电晶体,并在年5月才正式昭告天下,领先其他厂商的FinFET起码超过三年,堪称这间以摩尔定律奉为登山宝训的公司,在先进半导体制程领域最意气风发的时刻。
当英特尔在年2月10日的旧金山IEEEISSCC(国际固态电路研讨会),正式公布代号Ivytown的IvyBridge-EX的技术细节,核心数量相较前代SandyBridge-EP几乎倍增的原生十五核,象征AMDOpteron被英特尔Xeon彻底压垮,连想利用双馅水饺的倍增核心数量,勉强抗衡英特尔的机会都没有。
以年SandyBridge(Tock)为起点,英特尔的钟摆(Tick-Tock)巨轮开始全速转动,接连的IvyBridge(Tick)、Haswell(Tock)和Broadwell(Tick),制程从32纳米、22纳米演进到14纳米,稳定推陈出新,让英特尔Xeon在服务器市场的优势更难以撼动。
英特尔在精准执行钟摆节奏的几年内,为了因应不同产品线需求,同一世代微架构的处理器组态,逐渐成形成LCC(LowCoreCount,低数量核心)、HCC(HighCoreCount,高数量核心)与XCC(ExtremeCoreCount,超级多核心)等三种等级晶粒。Xeon的推出时程,因较长的产品开发与验证时间,和桌机笔电的「时差」也越拉越长,最高端产品甚至可晚两年以上。
眼光移向英特尔的钟摆节奏,就不难理解为何这些年是AMD最难过、最不堪回首的日子。知名技术评论家、RealWorldTech站长DavidKanter曾这样形容英特尔的钟摆「DamnExcellentAtExecution」,的确是最贴切的写照。
年(Tock):SandyBridge,系统架构扬弃又热又烫的IOH,引进AVX指令集,具备货真价实的微指令快取(uOpcache),换装NetBurst体系的非循序指令执行引擎,指令重新排序缓冲区与实体数据暂存器分而治之,以减少CPU内部的数据流动量,利于省电。这时AMD推土机家族的Opteron,仍可用两倍的核心数勉强抗衡。
年(Tick):IvyBridge,最主要的改进还是跑出十五核IvyBridge-EX这个妖怪,不给AMD的「双馅十六核」任何反击的机会。
分配、协调各I/O周边装置存取处理器需求,发出中断(Interrupt)时,知道该由哪个处理器负责,是近代多处理器环境的必要条件,而起源于3年Pentium的先进可程式化中断控制器(APIC,AdvancedProgrammableInterruptController)则是技术核心。但和存储器虚拟化的状况如出一辙,让VMM建立软件模拟的ShadowAPIC不仅耗费处理器性能,更会造成虚拟机频繁的进出执行环境。英特尔则是在年发布APICv(APICVirtualization)实用于IvyBridge微架构的XeonE5-2v2。
因应激增的核心数,为了确保充裕的存储器频宽与容量,继Boxboro-EX(Nehalem-EX/Westmere-EX)平台的SMI之后,Brickland平台(IvyBridge-EX/Haswell-EX/Broadwell-EX)升级成SMI2,数据传输界面从序列(Serial)转为64位元并列(Parallel),讯号线从70根爆增到根,电气特性也截然不同,总之就是砍掉重练。
年(Tock):Haswell,新增AVX2指令集,并带来英特尔x86处理器微架构史上,最大规模的执行单元扩张行动,并大幅强化虚拟化机能,进一步追求控制不同虚拟机器占用L3快取空间与存储器频宽的精细调控机制,实现「L3快取存储器层级的QoS(Quality-Of-Service)」,避免系统资源被少数虚拟机吃光,或让VMM集中资源在最需要的虚拟机。Haswell-EP/EX最大核心组态再度略增到十八核,让AMD连核心数都占不了便宜。
年(Tick):Broadwell,虚拟化机能更精进,如更彻底的硬体化APICv(APICVirtualization)和正名为ResouceDirectorTechnology的L3快取存储器QoS,Broadwell-EX更将核心数推进到二十四核。
为了阻止ARM或其他RISC阵营,藉由低功耗和网络储存等应用「渗透」服务器市场,英特尔推出整合网络控制器和一堆I/O界面的Xeon-D系统单芯片Broadwell-DE,在入门级企业储存与网通产品大受欢迎,日后并升级成Skylake-DE。
这时AMDOpteron已走到生命尽头。
AMD当初挖角IBMPower4首席工程师ChuckMoore,开发「号称可以只增加50%晶粒面积,即可提升80%输出率」的丛集多执行绪(CMT,Cluster-basedMulti-Threading),却被一再延宕的产品研发时程拖累。
AMD也仿照英特尔,同时开发大核与小核,后者虽然在游戏机领域得到重大战果,却也挽回不了整间公司的颓势。
AMD错估英特尔钟摆节奏的进步幅度,规格四处偷工减料的推土机(Bulldozer),也注定对抗不了融合P6与NetBurst技术大成的SandyBridge,AMD服务器战线就此彻底崩盘,直到年EPYC才重返战场。
各位读者可先复习一下AMD近代x86处理器的家族简史,你会对年之后AMD产品线乱象更有感。
原本AMD打算靠着连续四个世代的丛集多执行绪微架构:推土机(Bulldozer)、打桩机(Piledriver)、压路机(Steamroller)、挖土机(Excavator),用两个比较简单的整数运算核心打英特尔一个大核,双核心共用的浮点运算器则「依据Fusion大战略,假以时日替换成GPU」,重夺Opteron的技术优势。
结果到头来AMDOpteron连核心数都输人,这场走音工地秀也无法走到尽头,丛集多执行绪的Opteron实际只进展到第二代(挖土机的X3是沿用桌机的低端产品),还乱入毫无竞争优势的ARMCortex-A57核心的A1系列。「正统」Opteron处理器的发展只撑到了年,就黯然划下句点,接着就是等到LisaSu走马上任,将满天飞舞的简报通通束之高阁,倾尽全力研发Zen。
物极必反,否极泰来,就轮到AMD吹起反攻的号角了,虽然在年6月初代EPYC准备跟姗姗来迟的Skylake-SPPurley平台对垒时,声音还是相当微弱,几乎没有人听见。
~年:乱挤牙膏的英特尔再次被AMD反打一枪
可能领先优势已经拉太开,IBM也迟迟难以有效将Power「下放」到一般平民百姓家,看在毫无竞争对手的份上,英特尔年(Tock)「集技术之大成的最终英特尔x86处理器微架构」Skylake问世后,钟摆巨轮慢慢停下,转型成「14纳米制程Skylake牙膏厂」。
英特尔金鸡母的Xeon亦不可免俗,意图「一次到位」、满足所有市场需求的Skylake-SPPurley平台,历经多次延宕,到年7月才姗姗来迟,接着就被AMD一口咬住,启动「重返农药」大反击。
既然Skylake微架构是「奋钟摆六世之余烈」的技术集大成,那以它为心脏的Xeon当然也不能丢脸,不让世人感到「耳目一新」实在说不过去。Skylake-SP之所以多出那个SP(ScalablePlatform,可延展性平台),充分彰显了英特尔的企图:统合过去XeonMP和XeonDP及EN/EP/EX的系统架构,不再分而治之,并企图降低整体成本。
所以Skylake-SP呈现了和过去的Xeon平台截然不同的崭新面貌,笔者仅列出几个比较显眼的重点:
Skylake-SP核心比一般桌机笔电版,多了AVX-指令集,为此新增两个专用执行单元(部份低端型号Xeon仅启动一个),L2/L3快取存储器也针对服务器,调整容量与区块置换策略,这也让单一核心面积肥大化,也在日后「吸引」了不少事后诸葛的批判,像LinusTorvalds就希望「AVX-应该痛苦的死去」。UPI(UltraPathInterconnect)总线取代QPI。省略掉XMB、SMB、SMB2存储器缓冲器,存储器模组通通直连CPU,从双处理器、四处理器、八处理器,统一成六通道DDR4存储器。系统芯片组整合对应iWARP的10GbE以太网络控制器,与提升数据压缩和加解密运算的QuickAssist辅助处理器。部分型号内建英特尔自订的OmniPath总线控制器,超低延迟的特性利于高性能运算(HPC)等应用。不过英特尔在年宣布放弃OmniPath了。3DXPoint存储器模组OptaneApachePass,但却延后到2年后的微幅改进版CascadeLake-SP。产品命名系统除了数字,更加上白金、金牌、银牌、铜牌等名称,看似80PLUS电源供应器的效率等级认证。至于年4月登场的CascadeLake-SP,则在AVX-追加以DeepLearningBoost为名的VNNI指令(重点在于支持人工智能推论需要的INT8/INT16短整数)与「幽灵(Spectre)、熔断(Meltdown)」资安攻击的防御措施,年6月的CooperLake-P则再补上深度学习必备的BFloat16数据格式,补强重点都集中在人工智能,制程也依旧「死守」14纳米。
面对AMDEPYC来势汹汹的压倒性核心数量优势,英特尔也得重演「双馅水饺」的旧戏码,创造了W功耗、最多56核的CascadeLake-AP。
这张表格应可帮助读者迅速理解英特尔Xeon-SP「牙膏期」的更迭史。
挺过CooperLake-SP被腰斩的风波,随着英特尔「终于」在年的夏天,在HotChips32公开IceLake-SP技术细节,看似漫长的「14纳米Skylake牙膏期」即将划下句点,但IceLake-SP推迟到年第二季。
值得注意的是,英特尔在第三代Xeon-SP短暂重现XeonMP和XeonDP分立的样貌,在第四代的EagleStream平台和SapphireRapids处理器之前,如果需要BF16浮点格式做人工智能深度学习,就请乖乖掏钱购买比较贵的CedarIsland平台和CooperLake-P处理器。
时过境迁,AMD总算挺过了最黑暗的10年,但服务器市场的市占率,却仍看不到当年Opteron全盛时期的车尾灯。身为Opteron继承者,EPYC跟英特尔的Xeon-SP之间的激战,依旧是未来数年内,泛用处理器技术领域最值得
转载请注明:http://www.aideyishus.com/lkyy/4501.html