译者 | 角盘兰
伺服器作业控制系统派系再添苞藓!Inspur KOS 陨落,透过硬件协作释放出来多元化INS13ZD日前,InfoQ 据如是说,兴益正式发布了其暗鞘的伺服器作业控制系统 Inspur KOS。
兴益正式发布暗鞘伺服器
作业控制系统 Inspur KOS
兴益总裁孙超则表示,在INS13ZD大发展和国家促进硬件自然生态的大大背景下,兴益正式发布了暗鞘伺服器作业控制系统 Inspur KOS。
Inspur KOS 是兴益如前所述 Linux Kernel、OpenAnolis 等开放源码控制技术独立自主研制的这款伺服器作业控制系统,支持 x86、ARM 等非主流构架CPU,操控性灵活性领跑,可满足用户云排序、大数据、分布式控制系统储存、人工睿智、边沿排序等应用领域情景市场需求。
孙超则表示,Inspur KOS 将正式成为大潮伺服器网络连接最优化的作业控制系统,助推兴益在硬件协作各方面的控制技术革新,促进大容量控制系统自然生态经济繁荣,为使用者构筑智算中心基础建设提供更多更佳选择,使用者不论使用怎样的伺服器,Inspur KOS 都能为使用者提供更多硬件协同发展的、协作结构设计的控制系统。
孙超详尽如是说了 Inspur KOS 作业控制系统的研制大背景,以及在控制技术、自然生态等各方面的技术创新和课堂教学。
网络控制系统遭遇考验
在智算白银时代,数据中心遭遇为数众多考验。
首先是协作上的考验。
进入大数据、云排序、人工睿智等控制技术飞速发展的睿智白银时代后,各种演算情景愈来愈多样,硬件协作正式成为一种盛行的软件系统。
那时是数据库控制系统的新黄金白银时代,从前完全靠晶片,靠这一趋势的稳步增长,提高晶片操控性来满足用户所有情景下相同应用领域的市场需求。那时,那条路慢慢走难通了。因此,数据库控制系统造成了很大的变化,从而造成了为数众多相同的晶片。
在通用型情景下,通用型CPU仍是那时使用量最大的排序单元。从INS13ZD上看,通用型CPU提供更多的INS13ZD已慢慢让位于各种通用型的加速CPU。在储存单元、网络单元和传输模块里也出现了很多新式的介质,各种各样新的连接方式和新的传输模式。如此多的复杂晶片出现后,要用到一个完整的系统里,给软件带来了很大的协作上的考验,协作做不好,将有损晶片操控性,甚至其在综合应用领域中体现出的操控性还不如用通用型排序。这是那时很多做加速排序的厂商遭遇的很大问题,晶片的操控性表面上看很好,但却发挥不出来。
在能耗、扩展性各方面也存在很大问题。相同晶片间需要做数据搬移,需要打破互相之间的内存墙、传输墙。这些问题都需要在软件和硬件上进行协作结构设计,共同做好资源调度,从而使得硬件协作后能根据各种业务特征调度到最适用的排序单元上去,这对软件的考验非常大。
第二是运维各方面的考验。
那时网络控制系统愈来愈大,普遍都在万台设备以上,设备规模的增长加大了运维的难度。
那时业内普遍讲自动化运维、AIOps,这都有赖于最基础的硬件提供更多最基本的能力,如监控数据。上层的 AIOps 算法写得再好,没有底层的监控数据,算法就发挥不了作用。因此,对于最基础的硬件和软件,一定要能提供更多完整的监控数据,但那时的网络控制系统里,很多新品和器部件、基础软件在监控各方面做的还不够全、不够多样,很多数据无法抓到。
因为部件种类多,当各种故障出现时,反向跟踪定位非常困难。兴益为很多大型网络控制系统提供更多设备,实际上,真正在反向定位时可能有超过百分之四五十的故障无法找到根本原因,只能依靠换机器、主板等解决问题,依赖人工经验,但有时人工经验也没法真正处理这些问题。
自动化程度也不够,尽管有自动化运维和 AIOps,但实际上那时很多运维软件还处在手工处理的阶段。此外是被动响应的问题,当天发生了故障,事后才处理,无法预知故障,会给业务造成一定损失。
第三是自然生态各方面的考验。
尤其在INS13ZD多样化的大背景下,这一考验尤为凸显。基础INS13ZD的供给端造成了很大变化,原来某些晶片一统天下的格局在这两年逐步被打破。在这种情况下,晶片供应商变多了,上层软件的供应商也在逐步增多,整个自然生态遭遇很大考验。原来晶片厂商、大容量厂商、作业控制系统厂商、中间件、数据库等完全分层的模式造成了很大变化。
上层的各种应用领域同样遭遇这些问题。例如,这些年新出现的 AI 应用领域、中间件应用领域都出现了分散化的问题。另外,在多CPU并存的情况下,相同的控制系统要跑在相同的CPU之上,这么多复杂的环境如何结合在一起,软件层很重要。
针对上述种种复杂的情况,作为一个大容量厂商,兴益提出了以控制系统结构设计为中心的控制技术路线。所谓以控制系统结构设计为中心,就是以硬件协同发展的控制系统结构设计为中心,为相同的情景下的应用领域构筑多元化异构的INS13ZD融合、硬件协作的控制系统,透过标准的接口规范形成一些规格,使得使用者从应用领域情景出发选择控制系统时,无需太多关心底下的构架。
Inspur KOS 核心特征
Inspur KOS 具有多个核心特征。
稳定可靠
Inspur KOS 提供更多 RAS 增强、应用领域高可用等能力,保障了业务的连续性、可靠性。其中,Inspur KOS 具备关键数据冗余机制,可对核心数据内存进行镜像保障业务关键数据可靠,而增强性容错能力则可将引起控制系统宕机的 UCE 进行降级容错处理,大幅降低了控制系统宕机率。
此外,Inspur KOS 支持 CPU、内存等核心部件的热替换,能够有效提高控制系统可维护性,支持内核、应用领域软件的热升级,能够有效保障使用者业务连续性。在安全可信各方面实现全栈可信链,覆盖硬件启动、内核启动、驱动加载及应用领域执行等。
高效协作
Inspur KOS 提供更多高效INS13ZD调度、统一编程模型等能力,优化了对虚拟化、云原生、人工睿智等情景支持。Inspur KOS 结构设计了应用领域、INS13ZD、晶片跨层次的资源调度机制,透过深度感知应用领域的INS13ZD市场需求特征、负载特征,以及INS13ZD设备的能耗特征,实现业务与INS13ZD的最佳匹配和弹性伸缩。
同时,Inspur KOS 实现了对虚拟化、云原生、人工睿智等情景的优化增强,如 Inspur KOS 大幅提高了 AI 应用领域的开发和运行效率,支持如前所述 DPU 的高操控性虚拟化网络、储存,在容器密度、网络操控性各方面的优化,也为云原生情景带来了增强。
全天候运维
Inspur KOS 提供更多深度监控、专家诊断规则、云端运维服务接入等能力,显著提高了运维效率。
Inspur KOS 支持超过 700 余种深度监控数据,能够全面展示从底层晶片、部件到大容量控制系统、软件的运行情况,支持如前所述专家规则的自动化运维和诊断,可以方便地进行故障定位、操控性分析、操控性优化。
同时,Inspur KOS 可以无缝接入到大潮 InService 云端运维服务,实现运维远程托管,提供故障预测、实时告警、一键报修、资源扩容、控制技术支持等全情景全天候运维能力。
广泛兼容
兴益透过与上下游伙伴广泛合作,完成了大量的兼容认证,覆盖非主流晶片、板卡、数据库、中间件。
应用领域:支撑内部软件产品
Inspur KOS 虽是首次对外正式发布,但在此之前已支撑了大潮内部的云海 OS、AS13000、AIStation 等软件产品。目前,政务、金融、能源、交通、医疗、企业、教育等关键行业的客户都使用了 Inspur KOS 作业控制系统,累计装机量超 20 万台。
例如金融领域,Inspur KOS 有效支撑某大型银行,承载 70 多个核心业务,包括风控、国际结算、第三方结算、手机银行、渠道业务等。在其渠道二期项目中,KOS 稳定支撑双 11 当天超 1.5 亿笔交易,顺利满足用户业务峰值市场需求。
通信领域,Inspur KOS 支撑某运营商业务支撑云平台,助力百万级应用领域并发接入平台,实现 500+ 节点 PB 级数据的双中心容灾,有效保障业务数据跨中心级高可用。
政务领域,Inspur KOS 支撑建立了 2000+ 节点省级一云多芯政务云平台,涵盖多种构架伺服器,稳定承载 100+ 业务控制系统运行至今。
版本长期维护计划
据悉,大潮伺服器出厂全面预装 Inspur KOS,并面向个人和企业使用者提供更多 1 年产品试用授权,使用者可以自由下载、自由安装,而且提供更多在线升级能力。Inspur KOS 推出后,会和其他硬件、软件形成一站式的方案,为使用者提供更多更好的体验。
此外,兴益还为使用了 CentOS 的使用者,量身打造了迁移的整体方案 C2X,无缝地让原有的应用领域从 CentOS 上面迁移过来,保证业务的连续性。同时 Inspur KOS 也和伺服器、储存、云海 OS、AIStation 等产品进行深度的优化,保证控制系统的整体体验是最优化的。
作业控制系统的长期稳定非常重要,兴益坚持“以客户为中心”,为使用者提供更多长达 10 年的作业控制系统维护支持
只要使用者不换设备,长稳版本会提供更多十年的支持维护。即便换了设备也可以继续使用,并从兴益继续得到补丁升级、漏洞修复等支持服务。同时为了满足用户一些使用者对最新特性的要求,如对CPU里最新特性的支持,会在每 6 个月正式发布一次技术创新版本。当这些特性在技术创新版本里得到验证之后,再逐步进入长稳版本。形成两年一个长稳版本、半年一个技术创新版本的发版节奏。
和开放源码社区共建自然生态
作业控制系统的发展投入巨大,需要更多的厂商加入进来,才能保证作业控制系统广泛的兼容。接下来,兴益会和开放源码社区一起共建作业控制系统自然生态。
在软件各方面,兴益会和龙蜥社区展开合作。加入社区之后,兴益将和社区共同促进作业控制系统的硬件网络连接,面向更多最新的情景做协作技术创新,对一些关键问题做联合攻关,使作业控制系统的版本能更加适用于行业使用者的市场需求。
兴益还和龙蜥成立了联合实验室,希望透过这个实验室,联合上下游的合作伙伴,包括晶片、伺服器大容量、储存大容量、数据库、中间件等厂商,共同在实验室里把作业控制系统做好,相关的成果会同步反馈给社区。
同时,兴益也会和硬件的开放社区保持合作,兴益也主导发起了国内的开放排序社区、开放排序标准委员会,在其中会展开一些从晶片、板卡到固件层面的技术创新,这些技术创新也将和在作业控制系统层面的技术创新结合起来,使得硬件协作那条路走得更加顺畅。