CrowdStrike Bug向世界表明,链中的一个薄弱环节会导致心跳中的混乱

有时,一个技术故事会从我们书呆子的小泡沫中走出来 ,进入大世界 。在科技行业发生了中断,错误和网络安全事件,但损害通常不足以保证普通大众的持续兴趣。

CrowdStrike的停电不同。卫生服务 ,航班,全球银行业务受到重大影响 。在时代广场的广告牌上,所有非常熟悉的蓝色死亡屏幕都出现了。还有一百万个头条新闻 ,其中许多名字引起了Microsoft和Borked Windows PC ,这是问题的根本原因。

当然,这在一定程度上不是错误的 。确实是Microsoft Windows机器,毫不客气地落在了大集中 。但是 ,很快就会透露,尽管微软肯定可以发挥作用,但另一家鲜为人知的公司是该问题背后问题的原因:CrowdStrike。

以前 ,一个名字并不特别是普通人群(至少与微软相同的程度),总部位于德克萨斯州的网络安全公司CrowdStrike发现自己卷入了全球灾难。现在,尘埃已经解决 ,更多的信息已经透露了发生的事情和原因 。 

尽管我们当然有更多答案,但它们促使一些令人不安的问题。这种中断对我们不断连接的世界的稳定有何评论?如此灾难性的错误如何一次进入这么多系统?还有什么是什么可以防止这样的事件,也许将来发生更大的规模?

7月19日 ,星期五,在早上四点之前的九分钟,UTC ,CrowdStrike使用其猎鹰网络安全平台在系统上推动了Windows传感器的内容配置更新。更新本身似乎足够无害 。CrowdStrike定期调整其传感器配置文件 ,该文件被公司称为“频道文件 ”,因为它们是可以检测网络安全漏洞的保护机制的一部分。

该特定更新是该公司称为快速响应内容更新的内容。这些更新作为“模板实例”传递,它们本身就是模板类型的实例化 。模板实例映射到传感器以观察和检测的特定行为 ,并且是Falcon网络安全保护功能的关键部分。

以与持续不断的网络安全开发相符的速度保持更新并不是一件容易的事,尤其是没有错误。尽管如此,这些更新通常会通过广泛的测试程序进行 。在该测试过程的结尾是一个内容验证器 ,在发布之前对内容进行验证检查。

根据CrowdStrike的说法,正是这个内容验证者的职责失败了。

“由于内容验证器中的错误,尽管包含有问题的内容数据 ,但两个模板实例之一传递了验证 。基于在模板类型的初始部署之前执行的测试(在2024年3月5日,2024年3月5日),对内容验证器中执行的检查的信任 ,以及以前的成功IPC模板实例实例部署,这些实例部署了这些实例,这些实例已部署到生产中 。”

为了进行更详细的细分 ,CrowdStrike此后发布了确切原因的外部技术根本原因分析(PDF)。然而 ,最终,其测试系统放出了一个错误的文件,然后将其一次向右推向许多机器的核心。

接下来发生的事情是灾难性的 。当传感器在Windows计算机上接收到频道文件291中的内容时 ,它会导致内存读取,从而触发了异常。这个例外引起了死亡的蓝屏。

Windows 10 OS中的通用蓝屏死亡屏幕

更糟糕的是,这些机器随后被卡在启动循环中 ,该机器崩溃,重新启动,然后再次崩溃 。对于某些人来说 ,这是一种轻度的刺激,在办公室里糟糕的一天。但是,对于其他人来说 ,赌注要高得多。

随着微软系统开始在世界各地崩溃,大约911个调度员被减少到笔和纸上工作 。在阿拉斯加,紧急电话持续了数小时 ,存在类似的问题 ,影响了全球多个紧急服务。随着他们背后的系统失败,医生的任命和医疗程序被取消。一些公共交通系统将停止 。航班,银行和媒体服务与他们相关。

Microsoft和CrowdStrike将更新推出了进一步传播之前 ,后者发布了一个更新文件而没有错误&Mdash;但损坏已经造成的,而混乱正在进行中。

一段时间以来,建议快速修复解决方案 。微软的Azure状态页面建议用户反复重新启动其受影响的机器 ,并建议一些微软的客户重新启动其系统,然后该系统能够抓住非折叠更新 。其他替代方案包括将受影响的机器引导到安全模式,并手动删除错误的更新文件 ,或将已知工作的虚拟磁盘附加到维修VM。

Windows 11紧急重新启动

CrowdStrike的首席执行官向公共道歉。IT工人在周末挖掘,设置用于修复引导机的机器 。最终,微软发布了一个恢复工具 ,并估计有850万个Windows设备受到影响,并且已经部署了数百名工程师和专家来恢复受影响的服务。

到结束时,保险公司Parametrix估计 ,在受影响的收入(不包括微软)的美国500家公司中 ,财务损失约为54亿美元,估计只有5.4亿至10.8亿美元的损失。

那么,什么是为了防止这种灾难再次发生呢?好吧 ,从CrowdStrike的角度来看,其测试程序正在审查中 。该公司已承诺改善其快速响应内容测试,并添加其他验证检查 ,以“防止将来部署这种有问题的内容 ”。

但是这里有一个更广泛的问题,这部分与云有关。

在我们目前居住的广阔,相互联系的世界中 ,对于像Microsoft这样的庞大服务提供商而言,它变得越来越不切实际,以处理与内部所有网络中的网络安全和网络安全更新之类的重要性 。这需要对第三方提供商的需求 ,这些第三方提供商必须能够更新系统,并以速度和速度更快地了解最新威胁。 

但是,这本质上就像将某人交给您的房子的钥匙来检查锁时 ,并希望他们不会在此过程中敲门。凭借世界上最好的意志 ,将犯错,并且如果不自行监督事物(或在微软本身)的情况下,将留给第三方的责任 ,以确保在此过程中没有任何破坏 。

但是,如果第三方失败,最终是您的责任。或在这种情况下 ,至少在公众的看法方面。它可能是头条新闻中的CrowdStrike的名字,但旁边是Microsoft,以及全世界的蓝色屏幕图像;在Windows不稳定性的感知中 ,这是一个与Windows不稳定性的感知相关的图像,以至于它在许多人的思想中都代表了“系统错误”一词 。

即使CrowdStrike在一个月前就已经制造了一堆基于Linux的系统,也有很多自鸣得意的Linux Folk感到不满意他们对不使用Microsoft无处不在的操作系统感到多么高兴 。但是由于Windows生态系统的普遍性 ,该故障并没有引起与Microsoft相关的错误所带来的广泛的机构损害或媒体关注。

David W Plummer在推特上进行了一个有趣的比较,比较与Microsoft工程师的日子相比,现在情况如何工作。从本质上讲 ,尽管Windows构建和驱动程序本身仍然必须通过WHQL(Windows Hardware质量实验室测试) ,并且该过程是严格的,但基于云的系统将需要下载和执行代码,而Microsoft尚未专门测试 。如果该代码倒闭 ,它仍然可以将系统降低。

然后是整个互连性的问题。现在,许多重要的系统都完全依赖云提供商和在线更新,尽管阶段和严格的测试程序 ,但小错误可以迅速放大 。在这种情况下,如此迅速,它可以一次倒下数百万个机器 ,其中许多机器对于维持庞大的其他网络至关重要。 

不仅如此,而且在一个越来越多的网络攻击和越来越多的第三方提供商试图击败它们的世界中,速度是本质的。在网络犯罪和网络安全提供者之间正在进行的猫和鼠标游戏中 ,那些打oo的人将不可避免地输掉 。这说明,这里问题的核心是“快速响应”更新。

正如伦敦城市大学安全工程学教授兼网络安全研究所所长Muttukrishnan Rajarajan所说: 

“随着网络威胁在快速阶段的发展,这些公司也承受着升级其系统的巨大压力。但是 ,由于供应链中有很多相互依存关系 ,他们需要仔细管理此类升级的水平来扩展资源 。

“这是简单升级可能导致多个业务部门的级联影响的一个经典示例,在这种情况下,一些关键的基础设施提供商。 ”

Microsoft Corp.于2024年7月20日星期六在德克萨斯州休斯敦的乔治·布什洲际机场展出的Windows Recovery屏幕。世界各地的航空公司在广泛的全球计算机中断地面地面扎根	,并在机场造成了混乱	。摄影师:David Paul Morris/彭博通过Getty Images

虽然这个问题是由CrowdStrike引起的,并且影响了Microsoft机器,但没有什么可说的是 ,这种系统性故障不会影响任何其他大型云技术提供商 。特别是因为微软远非唯一依靠像CrowdStrike这样的少数提供商来补充其网络安全需求的公司。

在数字单一文化中,一组互连的系统中的单个漏洞可以产生蝴蝶效应,从而在全球范围内通过基础架构触动。目前 ,全球15家公司估计占网络安全服务市场的62% 。在相对较少的篮子中,这是很多鸡蛋。

尽管CrowdStrike的崩溃已经结束,并且已经学习了教训 ,但问题背后的基本原因很难解决。网络世界是广阔的,固有的相互联系,并以不断提高的步伐移动 。尽管更严格的测试 ,更好的程序和更强大的释放过程可能有助于减轻问题 ,但其背后的基本过程取决于相互联系的系统,该系统将其本质上``本质上''需要将速度和深层系统访问的结合,以便大量机器有效地有效地功能。一个薄弱的链接 ,一个小的更新出现了,结果速度放大了。

在这里,这种有效的组合导致了一个破裂的更新 ,它传播得太快,因此导致了太多的系统 。快速移动,破碎的东西 ,走了句话。在这种情况下,这里有很多东西。