浪潮信息物理基础设施管理平台 解决大型数据中心服务器运维难题

2023-05-29 0 460

北京2022年4月27日 /美通社/ — 随着网络、5G、IoT等迅猛产业发展,网络化、睿智化的工程建设对算力明确提出更高的明确要求,网络系统朝著品牌化、品牌化、绿色生态化不断重构,依照ResearchAndMarkets 《全球网络系统代销服务消费市场产业发展机遇》调查报告表明,Sierentz网络系统预计今年将从2019年的509个增长到2025年的890个,这将改变网络系统工程建设和使用的形式,网络系统规模不断增加,小型网络系统伺服器数量已经达到了10万以上的数量级,这意味着对网络管理工作的技术难度、物力、生产成本、权威性都明确提出了更高的明确要求,民营企业网络系统的网络管理工作压力面临着空前的挑战,冲破传统网络管理工作形式,打造出”监、管、控、防”智能化的网络管理工作是化解痛点的关键。

浪潮信息物理基础设施管理平台 解决大型数据中心服务器运维难题

什么是智能网络管理工作?

首先,要了解数据 中心网络管理工作的产业发展心路历程,它主要包含三个阶段:人肉网络管理工作、智能化网络管理工作和智能网络管理工作。

所谓人肉网络管理工作即是 — 在晚期,大部分网络系统的网络管理工作工作是由网络管理工作技师纯手工完成。伺服器运行状况,全靠网络管理工作技师每日裸眼查阅,展开痛点功能定位与化解,每人技师可以网络管理工作的下限约为400台电子设备。这种低效率的网络管理工作形式,在网络系统伺服器增多和物力生产成本逐渐升高的时代,是难以林文敏的。

所以智能化网络管理工作便不断涌现,由网络管理工作技师依照网络管理工作经验撰写JAVA,展开大批量电子设备县丞,后期产业发展成基于任务的电子设备县丞,这便是智能化网络管理工作的晚期形式。这大大提升了出现异常电子设备的工作效率,减少了网络管理工作生产成本。但是,面对机械故障根因、机械故障预测、操控性趋势和控制重大决策,智能化网络管理工作却困难重重。

依照Gartner发布的《2021年中国ICT技术适用性抛物线调查报告》表明,AIOps消费市场将快速增长并影响整个IT营运管理工作消费市场,调查报告预计今年未来2-5年内AIOps将进入收获期并会帮助民营企业大幅节省生产成本。从伺服器网络管理工作的角度来分析伺服器智能网络管理工作,目标就是通过对大列佩季哈区重要信息(实用性重要信息、状况重要信息、操控性重要信息、笔记等)和带内重要信息(实用性模块、操控性重要信息、笔记重要信息)展开收集,利用机器学习的形式来化解上述痛点,提升系统预警系统能力和灵活性,减少网络管理工作生产成本,提升网络管理工作工作效率。

浪潮重要信息打造出智能化的力学基础工程建设管理工作网络平台(ISPIM)

浪潮重要信息力学基础工程建设管理工作网络平台ISPIM,通过对网络系统IT电子设备的7*24h纳管监控,实现在异常检测、机械故障诊断、机械故障预测、机械故障自愈、操控性预测等多维度的智能化网络管理工作。

异常检测

伺服器网络管理工作中,最根本的是对于异常的检测,常见的是对状况指标、操控性指标和笔记数据三大数据的检测。

状况指标:当服务器的状况出现异常时,浪潮重要信息ISPIM管理工作软件通过主/被动形式对伺服器的异常展开聚合,防止重复告警和误报,同时对同时刻多告警展开根因功能定位,防止告警风暴,产生告警麻痹。

操控性指标:在操控性指标检测方面,传统手段是设置阈值,但常常因为某一时刻产生噪点数据而发生误报,通过重复次数,阈值抖动范围和自学习数据密度分布等方案,便能够化解噪点数据产生的99%的告警误报;但面对周期性变化的数据却无法展开动态调整,也会产生误报的情况,大大减少告警的准确性。浪潮重要信息ISPIM管理工作软件通过AI优化,针对操控性数据展开时域、频域、能量等变化展开动态分析,采用LSTM和随机森林两种方案展开预测,告警准确性达到98%。

笔记数据:笔记一般是半结构化的数据,依照笔记级别产生告警,准确性不够并且只能检测到已知和确定模式的异常。浪潮重要信息ISPIM管理工作软件拥有4000+网络管理工作专家资源库,帮助实现伺服器机械故障快速诊断,同时在笔记智能机械故障诊断方面,会将收集的笔记展开重新编码,不断加深对深度学习、LSTM等算法的研究、实践应用,实现从多个维度对伺服器异常展开分析,异常检测准确率高达99%。

机械故障诊断

为进一步提升网络管理工作工作效率,浪潮重要信息ISPIM管理软件除了对笔记的机械故障诊断之外,还会对系统宕机后的数据展开深入的剖析,便于痛点快速功能定位,提升工作效率。

通过对收集的海量数据展开分析,浪潮 发现伺服器的宕机通常是发生了CPU MCE(Machine Cheheck Architecture)技术架构,通过功能定位CPU触发源、分析MC Bank、解析CSR、MSR寄存器,实现机械故障原因的确认以及机械故障部件的精准功能定位,并依照浪潮重要信息专家经验库对机械故障痛点给出专业的化解方案,从而提升网络管理工作工作效率。

机械故障预测

据统计表明,在网络系统中由内存、硬盘造成的机械故障占比超过50%以上,其主要原因在于硬盘、内存保有量较大,生命周期相对较短,使用率较高等。当内存或硬盘产生机械故障时,极容易发生严重宕机事故。

对于内存而言,内存产生的CE(可纠正错误),可以通过ECC(Error Correcting Code)机制展开纠正,但是频繁的CE往往会产生UCE(Unchecked Error),一旦产生UCE,往往会导致系统宕机。因此,预测内存机械故障即可转化为预测UCE,浪潮重要信息ISPIM管理工作软件对内存CE,通过多个维度统计分析,从CE总频率、内存固定力学地址CE频率阈值、固定Cell CE

而对于硬盘,在网络系统中大多存储阵列会采用一些冗余机制,但是这只能保证有限硬盘失效的场景,一旦机械故障盘数量超过RAID冗余的极限之后,很可能造成系统宕机或者数据丢失的风险。浪潮重要信息ISPIM管理工作软件通过对SMART(Self-Monitoring Analysis and Reporting Tech盘操作。

通过这些技术优化,浪潮重要信息ISPIM管理工作软件可以实现对内存和硬盘的机械故障预测,大大提升系统灵活性。

机械故障自愈

浪潮重要信息ISPIM管理工作软件在针对机械故障自愈方面,可以支持内存机械故障自动隔离,在操作系统层面,结合MCE(Machine Check Exception)笔记数据重要信息,基于CE机械故障重要信息,通过虚拟内存机械故障Page诊断算法,确定内存机械故障Page,并在操作系统内核执行Page Offline,通过虚拟内存技术,隔离对机械故障内存区域的访问,实现内存机械故障隔离。在力学内存层面,基于CE机械故障重要信息,通过力学内存机械故障诊断算法,利用SPPR(Soft Post Package Repair)、HPPR(Hard Post Package Repair)对力学内存机械故障Row展开隔离,在技术上实现对机械故障内存的永久性隔离,提升操作系统的灵活性和可靠性,从而保障业务的稳定可靠运行。

操控性预测

操控性预测是指对伺服器的操控性数据,经过ARIMA、指数平滑、LSTM、Prophet等智能算法,能够感知系统在未来几个小时、几天或者一年的数据的走势、增长量或者周期性变化等。浪潮重要信息ISPIM管理工作软件凭借自研操控性分析核心组件,可支撑上万台伺服器同时展开秒级操控性数据的监控与告警,帮助网络管理工作人员实时掌握电子设备的操控性状况,实现对磁盘寿命、容量预测,准确率达到99%。

浪潮重要信息力学基础工程建设管理工作网络平台ISPIM(Inspur Physical Infrastructure Manager),具备资源管理工作、机械故障监控、操控性监控、能耗管理工作、自动部署、报表统计、网络拓扑和3D视图等功能,可同时对数万台不同品牌伺服器、存储、网络电子设备等电子设备展开统一监控、网络管理工作、告警管理工作,网络管理工作工作效率提升2倍,基于浪潮重要信息机械故障专家库的大数据规则机械故障诊断功能,可将机械故障诊断准确率提升到93%,并且可在快速处理机械故障的同时极大程度减少数据泄露风险,帮助用户打造出无人值守网络系统,提升网络管理工作工作效率并减少网络管理工作生产成本,保障网络系统安全、可靠、稳定的运行。

浪潮信息物理基础设施管理平台 解决大型数据中心服务器运维难题
上一篇: 限流入园!

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务