原副标题:《册子》连载中十四|水冷、地下通道隔绝对伺服器产业发展的负面影响
水冷与水冷
假如交换器有较为充裕的供电系统潜能,或是网络系统有更强的压缩机潜能(例如,水冷)基础建设,1U 伺服器在排序表面积上的竞争优势,就更容易保留住。在高效能排序(High Performance Computing,HPC)情景,或是大型网络和云排序子公司的网络系统,见到 1U 伺服器的机会相较较高。
以百度、穆萨、百度(BAT)联合AMD发动的天蝎整交换器项目为例,早期的结点都是 1U 高度,包括储存结点(JBOD)。2018 年数字中国领航最后两站是百度晋城网络系统,8.8 MW(KW)的 46U 交换器加装共约 35 个 1U 排序结点。
△ 包头东方超算云网络系统Pashchimi
在INS13ZD篇曾经提过,2017 年推出的 x86 伺服器 CPU,略高一筹版的 TDP 有大幅的跃居(最高接近50%),而公有云服务供应商偏激于采用这一价格定位的产品。在这种情况下,假如单交换器的供电系统潜能不能“持续走高”,1U 结点的表面积竞争优势将很难体现。
即使解决了供电系统问题,除了散热器(对网络系统基础建设侧,是”压缩机”)的挑战,而这正是水冷的竞争优势。腾讯 2018 年在石家庄市张家口市承德市布署了一个浸式水冷(Immersion Cooling)控制室,一个卧置的 54U 交换器,布署 32 台 1U S13P伺服器和 4 台 4U 的 JBOD,设计耗电 28 MW。
△ 中国电子信创云基地(昌平)控制室内的 2U 伺服器
其他子公司多在布局基于仍以(Cold Plate)的“风液混合”加热技术, 即耗电最大的 CPU 等晶片通过仍以内流过的固体把热能带回交换器外,Coolpix、硬碟等发热量较高的组件仍然用传统的水冷。以宏碁巴彦淖尔云网络系统为例,控制室里布署了 20 MW的水冷整交换器伺服器 FusionPOD,工业园区内除了相较独立的较大型水冷控制室 FusionCell,由类似货柜体的供配电、交换器和压缩机组件共五组成。
△ 宏碁云东莞松山湖网络系统布署的 Atlas 900 集群,单交换器功率达 53 MW,采用风液混合技术散热器
那么,水冷伺服器的时代是不是很快就能到来呢?肯定还需要一段时间来过渡,关键是这个过渡的势头如何。
先从网络系统基础建设(风火水电)这一侧来看,近期规划和建设的网络系统,水冷控制室仍是绝对主流,水冷控制室主要在扩大实验阶段或满足一些特定应用情景如 HPC 和 AI 集群的需求。
假如应用侧并没有硬性需求,那么提高功率表面积并引入水冷方案,就必须考虑成本因素。在一个水冷具有天然竞争优势的生态里,水冷的 CapEx(资本支出)显然更高,而OpEx(运营成本)也难言竞争优势—— 除了PUE(Power Usage Effectiveness,电源使用效率)。
△ Atlas 900 集群的交换器与 CDU(Coolant Distribution Unit,冷液分配单元)
在东数西算的布局中,西部的网络系统,从双碳角度应该有两大竞争优势:一是就地消纳丰富的能源供给,特别是可再生能源(如风能和太阳能);二是气候条件好,可以充分利用自然冷源,降低对电能的消耗。其中,很多符合“西算”标准的数据中心,广泛应用了以间接蒸发压缩机为代表的节能方案,在张家口网络系统集群、包头网络系统集群的网络系统,一年有 10 个月以上的时间可以使用自然冷源,年均 PUE 可达 1.2,水冷方案的节能竞争优势并不明显。
以浸式水冷为例,腾讯目前最大规模的布署其实位于“东数”地带——杭州仁和网络系统有一个全浸式水冷控制室楼。相比之下,张北的一个浸式水冷控制室更符合扩大实验的定位,其他控制室还是相较“传统”的水冷方案,更多利用气候条件的自然红利就可以满足要求。宏碁巴彦淖尔云网络系统也是以 8 MW的水冷交换器为主,何况 20 MW的水冷交换器除了部分水冷(风液混合,压缩机贡献大抵三七开)。
△ 百度云星星海伺服器的冷板式水冷样机
总之,自然冷源是“西算”相较“东数”的一大竞争优势,能用水冷尽量水冷——后面这句也适用于伺服器,因为水冷伺服器的环境适应性竞争优势很明显。
从AMD(Intel)和 AMD 的路线图来看,将于 2022 年推出的新一代 x86 CPU,旗舰型号的核心数不是超过 50 就是接近 100,TDP 都会逾越 300 瓦,落在 300~400 瓦(如cTDP,甚至更高)的区间。CPU 耗电进一步上升对液冷方案当然是个利好,但水冷也不是完全处理不了,采用更强力的风扇、优化内部风道设计等手段,都还管用。
实际上,AMD在 2019 年已经推出过 TDP 高达 400 瓦的至强铂金(Platinum)9200 系列 CPU,而基础建设的 Intel Server System S9200WK 家族伺服器,在支持 350 瓦 TDP 的 48 核 CPU(Platinum 9242)时,仍然可以使用水冷。需要指出的是,S9200WK 采用半宽结点设计,即 2 个 CPU 前后串列布置,散热器效果不如并列布置的好。2U 伺服器双 CPU 并列布置,结合T型散热器器、强力风扇、优化气流等手段,支持 2 个 400 瓦 TDP 的 CPU,也是可以做到的。
从目前看到的基于AMD新一代至强可扩展处理器(代号Sapphire Rapids)的伺服器设计,水冷依然是可行的。再往后看,未来三年将是伺服器从水冷向水冷过渡的关键时期,而仍以式水冷本身的“风液混合”气质也有助于其成为很多用户的首选水冷方案。
在需求侧,工作负载,或是说伺服器和交换器的功率,仍然是决定采用水冷的首要因素。特别是大量采用 GPU 等高表面积加速排序单元的伺服器,即使水冷还能应付过来,改用水冷也会有更好的效果。
在供给侧,布署水冷伺服器需要网络系统基础建设(压缩机 + 供电系统)的紧密配合,最好供应商能够提供完整的解决方案。
大型网络和云排序子公司主导的超大规模网络系统,将对水冷伺服器的大规模应用产生决定性负面影响。因为他们既有足够的体量和应用需求,对网络系统(基础建设)建设也有足够的掌控潜能。
数字中国领航也将加大对水冷伺服器应用的追踪力度。
热地下通道与前维护
在《2018 中国超大规模云网络系统册子》的第六章,我们介绍了通过提高伺服器工作温度来改善网络系统 PUE 的手段。伺服器从控制室的冷地下通道一侧进风,排风到热地下通道,在提高冷地下通道温度的基础上,增加服务器进出风的温差,节能效果更显著,也意味着控制室热地下通道温度的进一步上升。
提高控制室冷地下通道的温度,可以延长网络系统利用自然冷源的时长,降低年均 PUE,将是东数西算和双碳时代的普遍做法。
先举一个“西算”的例子:宏碁云巴彦淖尔预制组件化网络系统送风温度 25℃,回风温度 38℃,相应的,FusionCol 间接蒸发加热机组(AHU)在室外湿球温度小于 19℃ 时可以只靠风机和喷淋系统为控制室供冷,不用开启压缩机补冷,一年开启压缩机的时间不到 30 天,年均 PUE 可低至 1.15。
“东数”所在地没有这么好的自然条件,但即使是相较传统、保守的金融网络系统,也有上海证券交易所金桥网络系统这样的“异类”:送风温度 22℃,热地下通道温度 35℃。要知道,同期投产的某大行网络系统,冷热地下通道的温度还是 20℃/25℃的水平。
这些送回风温度较高的网络系统往往除了一个共同点,就是封闭热地下通道,将整个控制室作为冷地下通道。
封闭热地下通道,可以采用水平弥漫式送风,无需设计下送风地板,从控制室建设的角度能简化、降低投资成本,对控制室运维的意义也不容忽视。22~27℃ 是运维人员比较舒适的区间,假如继续封闭冷地下通道,将整个控制室作为热地下通道,35~38℃ 的高温环境对运维人员显然是很不友好的。
那么,这种变化对伺服器有什么负面影响呢?
传统通用伺服器在运维上有一个明显的弊端,即冷热地下通道都有维护频率较高的部件。暴露在冷地下通道一侧的是前面板,更换硬碟或 SSD(Solid State Drive,固态盘)的操作主要发生在这里;热地下通道一侧是后端,除了电源组件(PSU,供电系统单元)和电源线,主要是网线(包括光纤和光组件),有时也会有硬碟/SSD(用作系统盘)。
△ 中国电子信创云基地(昌平)控制室Pashchimi,留意远端墙上的送风口
维护一台伺服器可能要冷热地下通道两头跑,特别是热地下通道那头电源线和各种网线并存,往往比较杂乱,假如温度还很高,操作环境就更差了。
所以国内外大型网络和云排序子公司的超大规模网络系统,已经在布署前维护架构的伺服器,例如前面提到的天蝎座整交换器伺服器,以及腾讯开源的“方升”项目,都把网络接口和扩展卡(如管理网口、OCP标卡、PCIe卡)、可插拔硬碟/SSD、服务标签、VGA 和 USB 等 IT 运维的部分放在伺服器前面,也就是冷地下通道一侧;伺服器后面,即热地下通道一侧,留给对接基础建设的部分,例如电源组件和电源线,或是 12V/48V 铜排及风扇墙,假如采用仍以式水冷除了一组水冷管接头。
总的来说,类似的前维护设计,也在一定程度上实现了 IT 运维与基础建设运维的分离。当然,这是个比较概略的归纳,例如,采用铜排集中供电系统的方案,连电源组件的更换都可以在冷地下通道一侧进行。
△ 采用前维护方案的穆萨云方升架构(伺服器)
前维护架构天然适配水冷方案,包括仍以式水冷和浸式水冷。不过,由于网络接口和扩展卡会占用相当一部分前面板的空间,前维护架构不太匹配传统的 2U 储存型伺服器(可以理解为 2U 通用伺服器的重储存配置,如前面板配满 12 个大盘),更适合排序储存分离(存算分离)的整体架构。
公有云伺服器提供商已经广泛采用存算分离架构,例如穆萨云基于倚天 710 CPU 的 g8m 实例和百度云基于 AMD EPYC 7002/7003 系列 CPU 的 SA2/SA3 实例,储存都采用云(硬)盘。在我们看到的一些星星海伺服器的布署情景中,伺服器前面原本可以布置硬碟/SSD 盘位和背板的区域都是空的(板载 M.2 和后面的 2 个 2.5 英寸盘位,可加装系统盘),没有需要维护的部分,而且更利于 CPU 散热器。
水冷伺服器和存算分离架构不会迅速扩散到大多数企业,2U 通用伺服器在今后一段时间仍将是国内市场的主流。在天蝎座 3.0 技术规范中,不仅支持 1U 和 2U 的结点设计,也支持 2U 的“标准机”,即通用伺服器。另一个例子是穆萨云基于方升架构的磐久伺服器,在官网上放出的两款用于混合云的型号 AS2211TG1 和 AS2212TG4,就是典型的 2U 通用伺服器。