田鑫,专业云、网、数据、安全一体化服务商

赋能企业发展数字化经济

行业动态>数据中心风险管理的三个步骤

数据中心风险管理的三个步骤

如今,数据中心不仅继续存在,而且在与混合云和多云的市场竞争中蓬勃发展。不仅如此,数据中心还可以满足与边缘计算、物联网和5G等新兴技术相关的服务需求。

由于这些新的应用程序以及终端用户计算(EUC)和移动解决方案中的新兴需求,数据中心的运营变得越来越复杂,导致出现更多的内部和外部风险。停机是一种持续性风险,每次停机事件的平均损失高达每分钟11000美元。

以下是企业识别和降低数据中心运营风险的三个步骤。

1.采用综合方法进行风险管理

从功能的角度来看,数据中心是运行业务关键型应用程序的物理设施;而从业务的角度来看,它们是需要进行预算和管理的不动产或资本资产。
 


关键是,单点故障可能(而且经常会)导致数据中心的运营中断,从而导致收入损失。这就是需要一个适用于整个企业的普遍风险管理计划和政策的原因。这也是综合风险管理(IRM)发挥重要作用的地方。调研机构Gartner公司将综合风险管理(IRM)定义为“由风险意识文化和支持技术支持的一组实践和流程,通过对企业如何管理其独特风险的综合视图来改进决策制定和性能。”

在后疫情时代,实施远程工作、BYOD、CYOD和其他工作场所实践变革的企业正在将其数字化转型战略与IT基础设施升级相结合,以识别和缓解自然灾害、供应链、数据处理以及商业模式所固有的风险。如果企业正在实施数字化转型,则需要监控可能影响数据中心的每个流程和因素(外部或内部),并准备好应对由一个或多个事件同时发生的多重风险。

数字化转型不仅适用于严重依赖数据或技术的企业——它同样适用于疫情之后开展远程工作的中小企业,包括那些开始使用公有云替代数据中心的企业。甚至政府部门也在认真对待数字化转型——利用云计算技术改造数据中心基础设施是他们的两个中心目标之一(改善在线用户体验是另一个目标)。

很多企业正在认识到,敏捷方法、大数据分析、移动解决方案和DevOps与可靠的、升级的数据中心协同工作,可以有效地预防风险、充分地应对风险和快速地恢复灾难。因此,他们正在转向能够在混合IT基础设施中实施这些最佳实践的框架,以确保业务连续性、减少运营成本,并改善数字客户体验。

2.了解风险

无论企业的风险管理计划多么全面,其发展速度永远不会超过技术进步。新技术和新的工作方式正在创造前所未有的复杂性。以下是数据中心面临的不同类型的风险。
 


(1)IT安全性不足

可以说,如今数据中心面临的最大风险是网络安全漏洞,从DoS攻击、社交工程到数据盗窃,都有可能发生。2021年,每个数据泄露事件造成的平均损失为424万美元,这是17年来最高的记录。

应用程序和系统故障也会对物理安全方面产生影响,导致身份无法验证、网络连接中断、授权人员无法进入特定区域等情况。

(2)系统故障

没有弹性架构以及没有连续的、冗余的、高带宽的网络连接,数据中心的运营注定要失败。服务器、网络设备和相关设备都需要集群、镜像和复制等功能,以减少停机的机会。

应用程序或软件(如管理程序) 有时会发生故障,导致服务器或网络瘫痪。因此需要确保所有应用程序在混合基础设施上无缝工作,并与云原生应用程序进行对话。

(3)电源故障

尽管这种情况极其罕见,但电力故障确实会发生——主要是自然灾害带来的后果。需要为数据中心的所有机架和冷却系统配备UPS电源或备用发电机路。数据中心与多个变电站的直接连接有助于防止受到本地变电站停电的影响。

(4)漏水

洪水或渗水可能会给数据中心带来灾难。然而,维护良好的管路和排水系统对消防控制和冷却系统至关重要。

(5)噪音

数据中心面临的一个鲜为人知但却十分严重的风险是长期暴露在高频噪音中,这会降低存储系统的效率,降低读/写性能,并最终影响数据完整性。数据中心应该建在远离运动场、消防站、机场等地方,并部署在使用声学抑制技术的建筑物内。

(6)火灾

电源尖峰和电气短路是数据中心火灾的常见原因。如果不迅速控制,火灾可以在几分钟内摧毁数据中心IT硬件。具有讽刺意味的是,空调和冷却系统将会消散火灾产生的烟雾,使火灾早期探测变得更加困难。因此需要使用带有光电传感器的烟雾探测系统,以持续监测数据中心的空气中是否有烟雾。

(7)糟糕的灾难恢复规划

虽然数据备份目前是一个非常简单的过程,但出于安全性和性能的综合考虑,数据中心比公有云更受欢迎——希望在系统故障时能够立即恢复事务性数据。

当然,这取决于业务的性质和监管框架等因素。所以更有理由为每个不同的故障事件制定明确的恢复计划;计算、存储或网络资源也是如此。

大多数先进的灾难恢复计划都有监控系统,可以跟踪影响数据中心的风险因素,并在超过关键阈值时发出警报。

3.在管理风险之前评估风险

所有的风险并不都是相同的。虽然数据中心面临着各种风险,特别是不同的垂直领域,但最终使用的风险缓解技术不一定需要针对数据中心环境进行定制。因此,数据中心运营商需要制定风险管理计划,列出数据中心可能面临的所有风险,并指定对每种风险事件的响应。
 


首先进行风险审计——对所有拥有和运营的数据中心设施进行全面评估。评估影响设施设计、IT基础设施和运营流程的因素。如果过去发生过重大事故或中断,那么可以进行根本原因分析来解决没有解决的问题。可以做些什么来确保在类似的情况下不会再次出现停机。

此外,如果使用具有多个数据中心和云计算系统的混合架构,需要单独审核每个数据中心以及它们之间的数据路径和连接。如果在金融和医疗保健等监管严格的行业中运营,则需要将定期数据中心风险评估和灾难测试作为日常运营的一部分。

与其他事项一样,需要创建框架、政策或备忘单提供适用于数据中心运营商的风险类别、每个类别影响的系统、估算损坏和恢复成本,以及发生事故或灾难时应遵循协议的现成参考。例如,IT咨询机构凯捷公司采用了一种不断发展的风险管理方法,该方法识别并量化风险及其缓解成本。凯捷公司高级交付中心经理Kevin Read表示:“我们已经建立了一个月度风险管理系统,记录所有风险和问题,并制定行动计划。如果需要更改,将提供投资预算。”

田鑫,专业的企业组网服务商,致力于为企业提供企业组网(SD-WAN、MPLS、云互联),业务云化、数据中心、网络安全、行业IT解决方案等相关服务。

Copyright © 2016-2030 深圳市田鑫科技有限公司版权所有   粤ICP备16070069号-2粤公网安备 44030502003803号
公司地址:广东省深圳市南山区留仙大道创智云城一期A7座901
TOP