腾讯科技作者 郭晓静
编辑 郝博阳
2024 年 7 月 19 日,全球大量微软 Windows 用户遭遇蓝屏,相关话题登上热搜。同日,微软报告其 Microsoft 365 应用程序和服务出现中断,影响了全球的企业和用户。根据网站故障追踪软件 Downdetector 的数据,日本用户报告 Microsoft 365 出现了问题,截至当地时间下午 1:35,共有 2800 多份故障报告。
微软蓝屏,全球宕机!多个航班取消," 凶手 " 指向网安软件
微软支持中心 *** 人员表示,大部分蓝屏是由于公司电脑安装了三方杀毒软件 CrowdStrike 之后出现的。具体原因是 CrowdStrike Falcon Sensor 更新后,内核驱动文件 csagent.sys 导致全球大面积 Windows 系统蓝屏。
用简单的语言来描述,就是 CrowdStrike 给所有设备推送了一个更新,触发了某些 Windows 的 bug 导致了系统蓝屏。这不止影响了普通用户使用的 Windows,也让许多用 Windows Server(Windows 服务器)的云服务宕机,所以影响极为广泛。
为什么一个第三方杀毒软件的更新,能够让 windows 系统出现蓝屏?
腾讯科技特别咨询了 *** 安全专家。CrowdStrike 是一家领先的 *** 安全技术公司,专注于提供下一代终端安全、威胁情报、响应服务和云计算安全解决方案。它成立于 2011 年,以其创新的云原生架构、人工智能(AI)和机器学习技术而闻名,这些技术用于预防、检测、调查和响应 *** 安全威胁。Windows 估计安装在 15 亿台设备上,CrowdStrike 拥有约 23,000 名订阅客户,大部分为企业用户、各国 *** 及公共组织机构。受影响的 15 亿台 Windows 设备所占比例较小。然而,这些特定设备宕机的影响极为严重,因为最有可能的是,运行核心基础设施的关键 Windows 机器都采用了 CrowdStrike。
CrowdStrike 是一个基于 Windows 的软件,它的特别之处在于它是一款安全防护软件。作为安全防护软件,它需要系统里一些非常底层的权限,这样才能监控和管理所有正常软件的行为。"CS 的解决方案就是往 Windows 系统的内核里面注入一个自己的 Agent,用来做这些高危操作,也就是这次事件里出问题的组件。"
CrowdStrike 在海外安全市场处于一个领导地位,大量企业级 Windows 的用户、还有全球的很多公共服务机构都会安装。这也造成了这次的事故影响面积极大。" 由于此类安全产品对中国禁售,所以中国用户受到的影响较小。仅有部分外企用户受到了相关影响。"
*** 安全专家也进一步向腾讯科技解释:" 理论上操作系统不该因为应用程序的 bug 而直接整个崩溃,但是 CrowdStrike 似乎是直接加在内核上的(不是普通的用户空间的应用程序),所以现在也无法确认,微软要承担的责任有多少。" 腾讯科技也就此向微软官方求证,但是截至发稿,还未得到明确回应。
为什么影响仅仅在 Windows 系统发生,而没有发生在 MacOS 上?专家解释道:" 两方面的原因,一方面是这次有问题的驱动只给 Windows 下发了,MacOS 的版本没出这个驱动。另一方面是因为 MacOS 根本不对第三方开放自己的内核,所以即使有东西炸了也不会炸到系统本身去。"
" 大致是因为这些跑在内核空间的程序可能会极大增加系统不稳定性,MacOS 从几年以前就开始不鼓励写这些需要跑在内核空间的程序,并且提供了一些系统框架来用别的方式实现类似的功能。"
但是这种做法也是有利有弊的,"Windows、MacOS、Linux 都提供了一定的框架,让用户空间的程序可以实现一些安全能力,但是这些肯定都没有你在内核里驻留一个 Agent 来得彻底。你如果同样身为一个普通的用户空间进程,你在操作系统里就是一个没有特权的普通人,你做的所有监控都是可以被病毒轻松反制的。"
影响有多大?
系统蓝屏还引发的包括云在内大量基础设施的故障。截至发稿,美股 CrowdStrike 盘前股价一度暴跌超 20%;微软盘前下跌 3.3%。资本市场担心, CrowdStrike 可能会承受可能威胁其生存的大量指责。
此次事件影响了包括美国、英国、澳大利亚、德国、法国、中国等在内的 20 多个国家。各国关键基础设施和企业纷纷受到波及,导致大范围的服务中断。
多个国家的银行系统、 *** 服务、医院和铁路公司中断服务,公共交通和医疗系统压力巨大。
澳大利亚:媒体公司(ABC、SBS 等)、主要航空公司(澳航、维珍澳大利亚航空)和超市(伍尔沃斯、科尔斯)受影响更大。
美国:联合航空、达美航空、美国航空发布停飞令,阿拉斯加 911 紧急呼叫中心无法正常运作。
英国:Sky News、BBC 儿童频道无法直播,NHS 服务和多个机场运营受阻。
法国:2024 年巴黎奥运会系统在开幕前一周受影响,启动应急预案。
此次 " 蓝屏故障 " 将如何修复?影响将有多久?
专家回应称:" 微软侧对修复这个问题可能起不到太大的作用,主要还是要靠 CrowdStrike 来解决。崩溃发生在 CrowdStrike 内部,微软不太好干涉第三方驱动软件。"
如果不能等待 CrowdStrike 的解决方案,最快的方案就是用安全模式启动然后禁用 CS。" 对于数据中心来说,大部分是可以通过带外管理做重启 + 切换安全模式之类的操作的。但是有个小问题就是安全模式启动后,大部分的自动化管理工具(比如 Chef),也是不会启动的。也就意味着大部分操作要回归带外手动操作,一台一台切过去。" 这需要超大的工作量,但是这样的缺点就是服务器要裸奔一段时间,没有防护。
截至发稿,CrowdStrike 已经公布了故障的解决方案,目测解决方案是回滚了服务器下发下来的有问题的组件。但由于蓝屏系统无法启动,用户需要在安全模式下重启电脑进行操作。
Crowdstrike 首席执行官乔治 · 库尔茨(George Kurtz)发帖写道:"CrowdStrike 正在积极与受影响的 Windows 主机客户合作,解决单一内容更新缺陷问题。Mac 和 Linux 主机不受影响。这并非安全事件或 *** 攻击,问题已被识别、隔离并已发布修复程序。我们建议客户访问支持门户网站获取最新更新,并持续关注我们的网站获取完整的持续详细更新。我们进一步建议组织应通过官方渠道与 CrowdStrike 代表沟通,以确保信息准确传达。我们的团队已全力以赴,确保 CrowdStrike 客户的安全和稳定。"
发表评论
2024-11-01 01:01:07回复