服务器又崩了?揭秘如何打造一款真正高可靠的服务器

2022-12-18 0 285

北京2021年8月20日 /美通社/ — 人们 经常会在热搜上看到某一网站崩了,某一APP伺服器“ 走丢” 了,这背后,都是对伺服器安全可靠及安全可靠性的担忧尤其是政府、金融、电力和高速铁路等金融行业对IT基础设施的安全可靠性和安全可靠性明确要求很高的金融行业应用,一旦控制系统出现问题,对用户来说可能将是上千万甚至是上亿的经济损失

安全可靠性从4个9到5个9,怎样达至?

谈到伺服器的安全可靠性,业内人士常常要用4个9或者5个9,也就是99.99%与99.999%看上去虽然4个9与5个9的差别仅有非常有限的0.009%,但对于核心控制系统而言,不可否认是这不到0.01%的差别,下定决心了控制系统的安全可靠性全然无此两个层次

服务器又崩了?揭秘如何打造一款真正高可靠的服务器

4个9与5个9的易用性,在一年的天数维度上,相距了47.304两分钟,平均两个月相距仅4两分钟,但一家小型金融机构如断电少于十分钟造成的销售业务经济损失与声望等经济损失可达数千万元人民币,并且这种经济损失有急遽递减的趋势因而小型金融机构需要伺服器的安全可靠性达至“5个9”等级(一年间销售业务受阻天数无法少于5.256两分钟)而比如在电力金融行业与高速铁路金融行业,伺服器的安全可靠性直接关系到居民的用水安全可靠和候车安全可靠,因而电力与高速铁路金融行业对伺服器的安全可靠性明确要求同样达至“5个9”的更高等级

其实,伺服器的安全可靠性并不全然取决于硬体,而是由应用软件和硬体来共同下定决心的,想要这款高可信的伺服器,就必须从电子元件的优先选择、硬体体系结构、生产装配、产品品质检测全过程严格把控多年以来,大潮在伺服器领域积累的丰富的设计制造实战经验,并将这些实战经验不断总结提炼出,形成了一套独一无二的认识论

精巧权衡 圣昂勒任何人两个电子元件

引火上身毁于蚁穴,任何人一点小小的纰漏,都可能将成为引起整个控制系统崩盘的罪魁祸首两台伺服器拥有至少5000多个元器件,每两个电子元件的优先选择都无法允许任何人纰漏,所以优先选择可信的电子元件是最基础,却也是最不容小视的关键一步

大潮伺服器在优先选择电子元件时,首先会对众多分销商的食产品品质量、技术水准、反应速度和环保国际标准等方面进行综合权衡,从中挑选出满足用户国际标准的分销商同时,大潮伺服器明确要求所有电子元件满足用户高于国家通用规范的科唇国际标准设计,即电子元件沃苏什卡忍受的无限大形变小于电阻值,并清晰可见足够的应对无限大情况的余量,其实主要是电形变和温度形变,保障高可信的电性能及较低热衰减,大大降低故障率,提升控制系统安全可靠性

服务器又崩了?揭秘如何打造一款真正高可靠的服务器

此外,为了确保所有电子元件并非“外强中干”,大潮还会采用诸多先进的电子元件分析设备,如双束聚焦离子束显微镜、等离子刻蚀机等,对其进行剖析、验证、失效分析等,以确定器件的工艺水平、质量满足用户大潮伺服器生产明确要求

潜在故障预测分析 将一切隐患扼杀在摇篮

虽然 大部分企业销售业务控制系统都有故障预警应急机制,而大部分伺服器等IT基础建设也都有故障快速定位功能,但大潮伺服器追求的却是从产品设计阶段就把所有可能将存在的潜在问题快速识别出来,从而预先采取防御措施,将一切隐患扼杀在摇篮里

在产品设计阶段,大潮针对所有板间互联信号和关键器件的工作状态进行仿真分析,确保无故障遗漏,并对故障进行预测识别和优化处理同时要进行控制系统级故障监测、预警及隔离开发,对于所有风险,明确要求尽最大可能将避免,对于需要处理的故障,明确要求能够快速监测定位

服务器又崩了?揭秘如何打造一款真正高可靠的服务器

大潮伺服器尽量在设计阶段最大限度地消除潜在的可靠性隐患,在产品发生故障之前提前进行分析,确保各组件之间实现最高可信协同运行

关键控制系统创新性设计 给安全可靠性再加一道保险

大潮对伺服器的散热控制系统、存储控制系统和控制系统备用等方面不断进行创新性探索和研究,保障服务器安全可靠性在整机层面臻于极致

伺服器为了追求更高密度,不断压缩空间,对散热带来了很大的挑战,在现有的风冷致冷条件下,大潮伺服器采用了许多创新性散热设计,例如在M6系列伺服器中增加蜂窝波导散热网,对风扇入风处风流做整流处理,提高风扇进风口的流速并且减少了扰流的产生,加大波导网厚度可进一步提高空气压力,产生平行稳定且强劲的气流,相比传统伺服器,散热效率整体可提升22%

服务器又崩了?揭秘如何打造一款真正高可靠的服务器

存储型伺服器因为配备了大量的硬盘往往面临着共振问题,针对这个问题,大潮伺服器的硬盘托架专门优先选择了航空减震材料,能够有效抗震,保证硬盘安全可靠的同时大幅降低故障概率同时配备硬盘故障监控、预警功能,可对硬盘无法读写、硬盘RAID信息损坏、硬盘读写速度变慢、硬盘温度过高等故障进行快速告警

大潮伺服器注重热插拔设计,对电源模块、风扇模块、存储模块、IO模块等关键模块均采用冗余设计,可实现在线更换,保证控制系统稳定可信的运行环境

魔鬼般检测国际标准 确保都是精品

在汽车届著名的达喀尔拉力赛,被称为勇敢者的游戏,参赛选手们需要在最短天数内穿越无人的沙漠险地由于赛程地势险峻、气候恶劣,对汽车和车手堪称魔鬼般的历练,没有强大的技术和产品品质保证,很难跑全然程在大潮的实验室,每这款伺服器出厂之前也都要经过“达喀尔拉力赛”:跌落、冲击、雷击、高低温、高低湿、盐碱、噪声、电源、老化、失效分析……测试,覆盖了产品设计验证、测试到产线质量保障等14个技术平台,解决从产品可行性验证、产品和部件各类测试、量产问题消除等覆盖全生产链的技术问题

大潮伺服器生产线配备老化实验室,对伺服器进行加速寿命试验这主要是为了加速暴露母板的设计缺陷和薄弱点,并对暴露的缺陷和故障从设计、工艺和用料等诸方面进行分析和改进,从而达至快速提升产品安全可靠性的目的

此外还会进行少于业界国际标准的电磁兼容性测试,所谓电磁兼容,就是对电子产品在电磁场方面干扰大小(EMI)和抗干扰能力(EMS)的综合评定,是产产品品质量最重要的指标之一,涉及传导抗扰度、射频抗扰度、静电抗扰度等多项测试指标

服务器又崩了?揭秘如何打造一款真正高可靠的服务器

为了让伺服器具备更强的环境适应性,大潮伺服器还会模拟运输环境测试、气候环境测试和无限大环境测试,进行三大类几十种测试,检验伺服器在各种条件下的安全可靠性,测定耐受高低温、跌落、高湿等恶性环境的无限大例如进行45度/两分钟的温度剧变试验,在零上100和零下40-50度进行产品温度无限大测试,30G震动过载抗振强度,模拟海拔12000米的环境进行高空低气压测试等

百炼成钢 磨砺铸就完美

通过前面的介绍可以看出,想要锻造这款真正高可信的伺服器,需要每个阶段全方位的努力,对电子元件严苛的产品品质管理,对产品设计快速准确的自我纠错能力,对产品控制系统设计的不断创新,对出厂产品的一道道检测国际标准,只有这些都不断做到完美,才能产出真正高可信的伺服器

大潮伺服器正是秉承着这样的原则,一步步打造出出全新的M6系列伺服器,针对智慧时代需求设计,包括面向云计算、大数据、人工智能等应用场景的6大系列16款产品,以业界最为丰富的 场景产品阵列为用户数字化转型提供更加强大的算力支撑

本文作者大潮信息伺服器产品线副总经理 陈彦灵

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务