Arm服务器的第一波浪潮,是一家叫Calexda开始,也是由它结束的。虽然我觉得2011的官宣Armv8架构,就是32bit服务器的终结。但是第一波的浪潮的起伏,并不仅仅是32bit,64bit那么简单,还有一个词Microserver,微服务器。也是当时产业界,包括x86阵营的共同探索。技术上,商业逻辑上,都不错的产品,在市场上,没有成功。
2008年,Arm内部开始酝酿服务器计划。心动就行动,Arm参与投资了一家当时叫Smooth Stone,后来改名为Calxeda的startup公司。当时的第一轮总投资金额是$48M。
Calxeda的一开始目标就是降低数据中心的耗能,并且提高相同空间的计算力密度。请记住这两个目标,此时此刻,我们的初心依旧。
我还在一家叫EZchip的公司做NP3,此处NP不是Neural Processor而是Network Processor。那是一个网络处理器大繁荣的时代,我能说出一长串名字,可惜现在都湮灭了。低调的炫耀一下,其实我最擅长的部分是TM-Traffic Manager而不仅仅是处理器部分,这也是这家100多人的以色列公司(年营收大约$60M)最突出的特色。此处省略若干文字,真讲起来,我能一个人讲一周的培训,收美金的那种。
2011年,我加入Arm网络市场部。那时我关注的是还在设计阶段的LSI Axxia AXM5500 16-core ARMCortex-A15,Freescale的QorIQ Layerscape系列,TI的KeyStone,还有海思的hixxxx系列,那真是一个Arm在网络市场大爆发的时代。但是很快,一年后,我跟着当时的老板,一位有电影明星气质的印度裔资深美女,从网络市场转为服务器市场,从那时到现在,全心全意的投入服务器市场与生态建设。
提到Arm服务器,Ian Ferguson必须有姓名(他教我了一句做市场工作的最基本的一句话,“你是打算report news,还是make news?”,现在我也愿意和小伙伴一起说,来来来,我们一起搞事情。)如他在大会上的发言,从Arm打算考虑服务器市场的第一天起,整个业界都充满了怀疑的论调。不仅仅怀疑是否能成功,甚至从根上,怀疑动机。
虽然顶着编年史这种文艺的名字,我是想把它写成一个技术分析文章,重点在Arm服务器芯片的特点与演进,不是解释为什么这个公司成功,那个公司不成功。其实一个产品分析好做,一个公司的成败,偶然因素真的影响很大。
第二波的三个关键词是自研核心(custom core),主流性能,标准设计。在Arm服务器的初始岁月里,芯片设计公司来自各个不同的领域,带着自己对服务器CPU芯片的理解,各自交出了自己的产品。我把重点放在APM的X-gene,Cavium的ThunderX与高通的Centriq 2400上。同时也努力把所有的其它芯片都给一个线索,供有兴趣的人,自己深入。
再说一段,因为在这一段历史中自研核占了多数,而且关于架构,ISA的争论一直不断,我不想展开说,因为会偏题。在一个做私有云的大牛那里学到一个词,“累计优势”,做CPU,做ISA,做芯片,其实也在一个缓慢的累计优势。这些年,我有带着客户的需求,案例,测试数据,信心满满地前往公司总部找架构师或者产品经理,要求改设计,增加指令的时候(是的,我还管这事),结果么?我不能说我一次也没有成功,但是我家架构师和产品经理,都是狠角色,在对拼数据和应用案例方面,鲜有败绩。
另外,Hock Tang一定要提一下,这人简直就是Arm服务器的发展道路和我职业生涯中的荆棘,一个拿了double kill双杀的男人。他先收购Broadcom,卖掉服务器芯片项目,然后提出收购Qualcomm,高通的管理层为了自保,提出每年消减1B的开销,因此自我了断所有长期投资项目,运作良好的服务器项目就这样躺枪了。
2011年10月,在Arm第一次宣布ARMv8架构的同时,Applied Micro公布了它们的自架构x-gene计划(大新闻都是和关键客户一起发布的)。
如果你在那个时代读新闻,你会留意到SoC这个概念,当然现在,SoC这个概念不用解释了。那个时候,还是需要强调SoC等于chip + chipset的集成设计。
现在,连手机CPU都奔着6 issue去了,从这点上看,自研核,还是展现自己对业界发展洞见的好武器。
我对X-Gene设计印象最深的部分是MSLIM,这是4个A5组成的小处理器cluster,提供加速功能。我不知道到底有没有客户使用这个处理器组,也不知道当年的设计理念。
从设计到成品,有多少设计被客户忽略,有多少设计到了客户手里超常发挥,我觉得架构师也会感觉迷茫,工程的世界里竟然也有许多的不确定性。
没有整个die的信息,不过有处理器模块的信息。每个处理器模块,有2个core,共享的L2,在40nm的工艺下,14.8mm²,84M transistors。照着这个尺寸,我估计整个die是300 mm
Anandtech曾经有篇蛮详细,也蛮负面的评测报告。中心意思就是尚未成熟,性能,能效比优势也不明显。它测试的是HPE的moonshot系统,HPE的官方文件其实对X-gene评价颇高,因为X-gene是第一款量产的Arm 64bit服务器芯片,初期的软件伙伴们,都是用着它家的系统的。
我知道Applied Micro-APM的时候,它还叫AMCC。AMCC团队算是硅谷老牌做CPU的不多团队之一,不过是做PowerPC的。它在多核路上不太顺利,所以换了Arm重新开始。大约因为是老牌CPU设计团队,他们一上手就选了最高难度的架构授权,自研核的路线。我曾经为了它和同事争论到面红耳赤,跟他说,我站起来是条汉子,倒下去还是条汉子。我同事,性别男,气笑了,说,行,行,你是条汉子。
32核List price是$850,一个相对非常有竞争力的价格。框架图看起来很熟悉,不分析了。
在Armv8架构推出一年之后,Arm发布了A57和A53两款cortex-A5x系列的产品,按照国际惯例,一个重磅的合作伙伴在发布会与Arm一起闪亮登场,AMD。
这款内部代码名为Seattle,属于Opteron系列,后面的正式产品名字是A1100的芯片,现在在AMD主线产品历史上找不到的产品。
某种意义上,AMD这颗Seattle虽然被列入第二波浪潮中。它的设计理论完全是第一波的。K12才是第二波的。
Cavium做为一家仅仅有AMD1/10大的公司,很早就有超多核处理器的设计能力,只是之前是MIPS网络应用处理。
这是很纠结的一节。如果说Broadcom Vulcan,那是2016的左右的事情。如果说Cavium的Thunder X2那是2018年的产品。然后就迅速变成了Marvell的ThunderX2。本来是同期规划的产品,结果,各种曲折离奇的竟然二合一。有的时候,我都不相信,我们这个产业,也有这么多戏剧化的故事。
说起来,源自RMI的Broadcom的CPU设计团队,和Cavium的CPU设计团队,有好多共同点,都是MIPS系的,都是做网络出身。但是跟Cavium老是做2 issue小核不同,Broadcom团队从一开始就擅长做多线程。因此在规划的时候Vulcan就是逆天的4线程。此时ARM阵营里,还没有多线程的处理器呢。
这颗含着金钥匙出生的芯片,一路顺风顺水的到tape out,直到那位叫Hock Tang的黑天鹅的出现。
Samsung的Arm服务器的故事,在国内知道的人少,但是上过华尔街日报的。Samsung也从来没有官宣过,整个项目起的时候,大家是猜测,灭的时候,大家也都是传闻。
3.7Nvidia Project Denver 2011-2014Nvidia是一个我非常尊敬的公司,也是硅谷现存的仍然是创始人做CEO的极少数公司了。但是这一章,我写了几次,都写不下去。大约是Nvidia仍然是GPU为主线的公司,它的CPU的发展逻辑,属于面向应用规划的那种放飞型。这是一个从Tegra开始,到Carmel,集成Arm CPU在复杂功能芯片的路径。其实,看起来更像是系统公司的芯片规划路径。因为本文集中在通用服务器芯片的分析,否则Nvidia家的产品路线,绝对值得一个完整的大章分析。
3.8Balkal俄罗斯的第一颗28n芯片BE-M1000,其实不应该算在服务器类,不过它涵盖了工作站。这个芯片公司跟日本的Fujitsu,中国的飞腾,一样都是从超算项目中孵化出来,独立运作,更注重商业成功一点。我当年是看过他们计划的超强路标的。但是从路标到产品落地,这中间的三五年的时间,太多变数,因此风消云散的多了。
海思的1616是鲲鹏920的前一代,比较低调的一代。华为官网上没有介绍。我也就不放任何外网资料。
关于海思,我觉得可以按照《明朝那些事》的风格写部史诗级的著作,再补一个《海思群雄谱》的人物传记做后传。文科生写像海思这种公司,写不出气势,得我这种理工科的文艺青年。万事俱备,就差两件事就可以动手,一是海思宣传部预付的稿费,当然网友众筹也可以考虑, 二是要等我退休哈。
2012-2014这几年,我飞台湾飞到吐血。我在我的硬盘了找到一份当时的资料。当时台湾的业界有个说法,ODM Direct模式改写产业链生态。ODM Direct模式确实立住了,但是生态系统中的强者并不是ODM,是End Users,是那些个写着我们可以控制从power grid到gate的Hyperscale们。
Drew Henry(建议大家去读读他在linkedin上的简介,堪称高管简历模版)这个男人也是要在Arm服务器历史上留下名字的。在他加入Arm一年之后,2018年10月Arm Tech上,他宣布Arm在Infrastructure市场上有了自己的品牌(Neoverse)和冰公布了每年一代,每代提升30%的路线图。
最喜欢的要放到最后。我的同事,在跟与一位伙伴讨论memory选择的时候,说“高吞吐,大容量和便宜三者之间,你只能选两个”,这句话非常有哲理了,如果有三项都可以兼顾的方案,大家就不纠结了。有纠结,肯定是有难选的地方,我个人偏好那种“除了贵,没别的毛病”的方案,但是请放心,给伙伴推荐的时候,我绝对不会表露这种个人倾向性的。
富士通的这款A64FX其实不是服务器芯片,是用来做超算的,恰恰就是那种“除了贵,没别的毛病”的产品。
欧洲的欧洲处理器联盟-EPI()也是一个以设计服务器级的CPU为目标的努力。不多说,看路标。
我在试图回答Arm为什么要做服务器的时候,我能想到的就是“先进生产力”这5个字。什么叫先进生产力,Frank Frankovsky,Facebook VP of Hardware Design and Supply Chain Operations也是个要有名字的男人。他提出the most useful work per watt per dollar。真正能用上的算力除以买服务器花费与运营服务器所花的电费就是这个服务器的代表的生产力,这个值标志了先进性。
延伸一下,对产业链上的人就是the total useful work per total investment,提供有用计算力除以总投入的资金(时间,工程师的智慧与心血),这就是这个技术/方案/ISA/产品的生产力是否先进的指标。这也是我写这篇编年史的一条暗线,多少投入,第三波浪潮会带来多少产出。

