随着数字化进程的不断加快,数据中心建设的规模也随之不断扩大,动辄数十万甚至百万级的服务器给运维工作带来了极大的挑战。在日前召开的OCP China Day 2021上,浪潮信息联合行业领先企业腾讯云联合发布了《数据中心服务器智能故障诊断TIFDS(Tencent & Inspur Fault Diagnosis System)系统技术白皮书》,并对双方联合研发的TIFDS系统架构进行了详细阐述,为提升数据中心运维效率和云计算稳定性提供了重要支持。

image.png

浪潮信息与腾讯云联合研发的TIFDS是为了应对大规模数据中心服务器猛增、人力运维接近极限的现实问题。浪潮信息与腾讯云在白皮书中指出,数据中心服务器数量的爆发式增长让服务器运维管理复杂度和难度进一步提升,由此带来的故障运营挑战和高昂成本问题亟待解决,而人力越来越无法满足快速修复故障和恢复业务运行的要求。因此,浪潮信息与腾讯云为实现运维工作由人工离线分析向自动智能在线识别的方向发展,合作研发了TIFDS,也就是服务器健康监管技术及故障预警诊断技术。

根据浪潮信息与腾讯云在白皮书中的介绍,TIFDS系统具有风险实时预警,故障精准诊断和日志定制化透明安全等特点。以风险实时预警为例,基于腾讯云现网运行的百万台服务器运维经验,结合AI智能算法,TIFDS系统可对非宕机类故障进行实时预警,降低服务器高负荷运行下突然失效的风险;故障精准诊断方面,依托浪潮信息构建的专家经验库,TIFDS系统可将故障自动明确化率提升至95%以上,对提升大规模数据中心运维效率有重要意义。数据中心服务器运维技术的重要创新,浪潮信息与腾讯云打破原有产业链上下游合作模式,联合打造的TIFDS系统不仅能够提升腾讯云自身数据中心的服务器运维效率,同时也将为各类新兴应用在公有云平台的大规模落地提供良好的技术储备。

浪潮信息与腾讯云的合作为业界探索解决数据中心运维难题树立了典范、开拓了思路,未来浪潮信息将坚持开放、开源技术路线,不断推动技术的创新与应用,与优质合作伙伴一道,让新技术造福更多行业,让新思维引领更多探索。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

推荐内容