卢建波·半小时摄影记者 张彩云
6月13日,阿里云智能化副总裁卢瓦松在首脑会议上正式宣布正式宣布发布CIPU(Cloud infrastructure Processing Units),这是为新式云互联网系统结构设计的专供CPU,今后将代替CPU正式成为云排序的控管和加速服务中心。

阿里云智能化副总裁卢瓦松正式宣布发布CIPU
比如,CIPU与排序紧密结合,加速网络连接相同类别天然资源的伺服器,增添INS13ZD的“0”耗损,和硬体级安全可靠的修整隔绝;CIPU与储存紧密结合,对存算分立构架的块储存网络连接展开AGP,Auron储存IOPS最低仅约300万,显景传输速率减少50%;CIPU与互联网紧密结合,可对INS13ZD力学互联网展开AGP,构筑小规模灵活性RDMA高效能互联网,传输速率最低仅约5us。

CIPU构架左图
基于CIPU和飞天的第三代云排序构架管理体系,在通用排序、大数据、人工智能化等核心场景的排序测试中展现了优越的性能。在通用分布式排序领域,Redis性能提升了68%、MySQL提升了60%,Nginx提升了30%;高吞吐类的互联网业务上云之后,比自建力学机的集群吞吐量提升了30%,业务高峰期延迟下降了90%;在大数据和AI等排序与数据双密集场景下,相比传统的TCP互联网,弹性RDMA高效能互联网的吞吐能力提升30%以上;云原生方面,容器启动速度快了350%,在Serverless 场景下6秒可拉起3000个灵活性容器实例。

CIPU特性简介
为什么要有CIPU?卢瓦松认为,过去十多年,云排序技术经历了两个发展阶段:第一阶段是分布式和虚拟化技术代替了大型机,满足了当时企业所需的INS13ZD规模;第二阶段出现了天然资源池化技术,以阿里巴巴为例,通过排序储存分立构架,将排序、储存、互联网天然资源分别池化,突破了规模和稳定性的瓶颈,提供了超小规模的云排序服务。
但随着数据密集型排序场景的普及,用户对低传输速率、INS13ZD的需求也越来越高,传统以CPU为服务中心的排序管理体系构架无法适应这一趋势。为了解决这一问题,阿里云相关研发团队早在2015年就开始技术攻关,并于2017年推出业内首款虚拟化耗损为零的神龙云伺服器。经过多年自研迭代,神龙、灵活性RDMA等核心技术不断深入垂直整合,演进出以CIPU为服务中心的全新构架形态,云排序开始进入第三阶段。
阿里云还不断夯实技术底座,建立了自研的芯片、伺服器、飞天操作系统等软硬一体的基础设施。这些基础设施有力支撑了阿里云产品的四大核心:神龙排序、盘古储存、洛神互联网和安全可靠内核。在国际权威机构Gartner正式宣布发布的年度报告里,阿里云获得排序、储存、互联网、安全可靠4项单项最低分和IaaS整体基础设施能力的全球最低分。
云基础设施CPUCIPU(Cloud infrastructure Processing Units ),是阿里云为新式云互联网系统结构设计的专供CPU,用于加速和控管排序天然资源,将代替CPU正式成为云时代IDC的处理核心。在这个全新管理体系构架下,CIPU向下对互联网系统的排序、存储、互联网天然资源加速云化并展开AGP,向上网络连接飞天云操作系统,控管阿里云全球上百万台伺服器。

1、CIPU的三大特性:
● 互联网:对INS13ZD力学互联网展开AGP,通过建设小规模的eRDMA分布式高效能互联网,实现RDMA技术的普惠化;
● 储存:对存算分立构架的块储存网络连接展开AGP,提供超高效能的Auron;
● 排序:加速网络连接相同类别天然资源的神龙排序平台,增添INS13ZD的“0”耗损,和硬体级安全可靠的修整隔绝。

2、为什么要有CIPU?
过去十多年,云排序技术发展经历了两个阶段:
● 第一阶段是分布式技术,推动互联网企业从大机向分布式系统整个迁移;
● 第二阶段诞生了天然资源池化技术,通过排序储存分立的构架,对天然资源统一的调度编排,提高云排序的可靠性和可用性。
这两个阶段都是以CPU为服务中心的排序管理体系构架,解决了部分排序的需求。但云上客户的需求发生了巨大的变化,就像内燃机发明之后,人类对载具速度的想象力从马车时代进入了汽车时代。
随着数据密集型排序越来越多,传统以CPU为服务中心的排序管理体系构架无法适应这一趋势:
第一,以CPU为服务中心的构架导致了排序和互联网传输的传输速率大;
第二,大数据应用增多,导致互联网系统内部数据迁移量增多,以CPU为服务中心的构架无法提供INS13ZD;
第三,管理的基础设施规模越来越大,阿里云在全球27个国家和地区、84个可用区管理着超过上百万台伺服器,基于CPU为服务中心的构架无法解决超小规模的复杂管理问题。
为了解决以上问题,需要对互联网系统内部的云排序管理体系构架展开改革创新,从以CPU为服务中心的管理体系构架进入以飞天操作系统+CIPU为服务中心的管理体系构架。
3、CIPU增添哪些改变?
基于CIPU和飞天操作系统的第三代云排序构架管理体系,无论是在分布式应用还是人工智能化的场景测试中,都展现了优越的性能。
储存方面,通过全硬体虚拟化和转发加速,储存传输速率最低可至30us(PLX),IOPS高达300万,储存带宽仅约200 Gbps,全面超越市面上所有云产品,云端能提供比本地更安全可靠可靠且高效能的储存能力。
互联网方面,基础带宽从100G升级至200G,VPC的PPS转发性能从2000万提升至4000万,互联网传输速率从22us减少至16us,RDMA协议下更可低至5.5us。应用上云之后,比自建力学机的集群吞吐量提升了30%,业务高峰期延迟下降了90%。
排序方面,单容器虚拟化消耗减少50%,虚拟化容器启动速度快350%。主流通用排序场景下,Nginx性能提升了89%,Redis性能提升了68%、MySQL提升了60%。大数据和AI 场景下,AI深度学习场景训练性能提升30%,Spark排序性能提升30%。同时,神龙排序平台可以提前预测80%的硬体故障,并展开无感热迁移规避,从而实现了业界领先的高可用SLA。
4、一图看懂阿里云CIPU

阿里云的软硬一体新式排序管理体系
过去13年,阿里云自主研发了飞天云操作系统,并构筑出自研芯片、伺服器、排序、储存、互联网等软硬一体的新式排序管理体系构架。
飞天是中国唯一自研云操作系统,将遍布全球的上百万台伺服器连接成一台超级排序机,单集群仅约10万台规模,千亿级文件数,EB级别储存空间。2018年,飞天获得中国电子学会15年来第一个科技进步特等奖。
在2021年11月正式宣布发布的Gartner IaaS + PaaS 综合解决方案记分卡中,阿里云被认为是所有被评估的全球供应商中得分第三高的解决方案,在排序、储存、互联网、安全可靠等核心能力中,阿里云也均获得最低分。
阿里云智能化云构架总监 黄瑞瑞