宕机损失超亿!唯品会基础负责人被免职:IT资产精细化管理到底有多重要?发表时间:2023-06-12 18:26 近日,唯品会发布关于329机房宕机故障处理公告。公告称,3月29日(00:14-12:01)南沙机房重大故障影响时间持续12个小时,影响客户达800多万,导致公司业绩损失超亿元,公司将此次故障判定为P0级故障。公司决定对此次事件严肃处理,对应部门的直接管理者承担此次事故责任,基础平台部负责人予以免职做相应处理。 其实,类似 329 号机房宕机的事故并非首次发生。近年来,系统宕机屡屡登上新闻热搜,中外许多大平台、热门 APP 的服务器,都似乎难逃卡顿、崩溃乃至宕机的宿命: 2021年7月13日晚间,国内知名视频网站哔哩哔哩客户端、网页、电视版都无法打开,消息迅速刷屏并登上热搜,经了解,此次事件是由于B站的部分服务器机房发生故障导致的; 2021年10月4日,Facebook出现全球性宕机,影响波及全球数十个国家和地区用户,为史上最严重!受此影响,Facebook市值一夜蒸发 643 亿美元; 2022年12月18日,阿里云香港Region可用区C发生大规模服务中断事件。此次服务中断事件导致多个重要互联网服务受到影响,多个区块链交易所也受到影响。经排查,确认系香港PCCW机房制冷设备故障所致; 2023年1月24日春节档期间,由于阿里影业旗下凤凰云智售票系统出现宕机问题,淘票票和猫眼两大购票平台均出现无法正常购买电影票情况,有业内人士估算:本次事件在全国造成了近亿元的售票损失; 2023 年 5 月 11 日,全球的 Apple 服务经历了一次持续了 55 分钟的宕机,这次宕机导致了许多用户的 Apple ID / iCloud 账户被突然登出,并暂时无法进行登陆,据悉,本次事故是由于数据中心出现了严重的故障所导致的。 苹果、唯品会、Facebook等大品牌一系列事故,其实无形中反应了当前在全球企业存在一个普遍的现象:大多数企业内部智能设备的颗粒化管理水平,并没有跟上企业与品牌的高速发展的脚步。 除了空调等智能设备的故障可能引发类似宕机等一系列问题,服务器、存储设备、计算设备等关键信息基础设施如果管理不当,也可能导致时间、资金、系统性能上的损失,以及数据资产的流失,严重者甚至可能给品牌带来毁灭性打击。 随着全社会数字化转型的不断深化,IT基础架构也变得愈发复杂,各类IT资产事故也随之增多,这给企业IT资产管理带来了更大挑战。可以预见的是,建立关键信息基础设施的有效预警体系,保证关键信息基础设施的连续性和稳定性,将在未来成为各大公司网络建设的重大目标。 数码人敏锐察觉到社会化转型过程中,企业对关键信息基础设施安全性提高的这一需求,针对大多数公司使用人工管理IT资产存在的问题与漏洞,数码人发明的U位物联模块+SaaS平台的U位资产数字化管控方案,可实现U位配置、资产统计、上下架管理、资产可视化、容量监控、变更提醒、预警防护等功能,不仅可帮企业构建更完善的关键信息基础设施安全预警体系,有效预防IT资产类事故的发生,还可实现IT资产精细化管控。 对拥有大量客户和用户的平台来说,关键信息基础设施的正常运行至关重要。因为任何一次事故,都会给企业带来巨大的经济损失和不可估量的品牌负面影响。因此,数码人呼吁更多企业重视IT资产管理,加速构建IT资产预警体系,通过智能化实现IT资产设备更颗粒度的管理。数码人未来也将持续深耕关键信息基础设施安全领域,助力企业完成智能化转型。 |