赞
踩
由于CrowdStrike系统更新错误,微软Windows系统出现全球大规模蓝屏宕机,导致各行各业的运营中断,航空公司、银行和医疗保健提供商受到的影响尤为严重。
CrowdStrike对事故原因排查后确认,此次崩溃不会影响Mac或Linux系统主机。
尽管许多人认为这只是一起发生在Windows系统上的孤立事件,但类似的问题其实已经在Linux系统上发生了几个月,只不过当时没有引起太多关注而已。
就在今年4月,CrowdStrike的一次更新导致一家民用技术实验室的所有Debian Linux服务器同时崩溃并无法启动。尽管是只有在特定的Linux配置下才会发生,但事实证明该更新与最新的Debian稳定版本不兼容。实验室的IT团队发现,删除CrowdStrike后机器可以启动,并报告了此事件。
一名参与该事件的团队成员对CrowdStrike的延迟响应表示不满。他们在一天后才承认了这个问题,并且花了数周时间才提供事故的原因分析。
最后得到的答复很简单,也很可笑:
“测试没做到位!!
Debian Linux配置未包含在他们的测试用例中。
“Crowdstrike 的模式似乎是我们随时将软件更新推送到你的机器上,不管是否紧急,都无需测试”,该团队成员哀叹道。
无独有偶,Rocky Linux 9.4的用户在CrowdStrike升级后也报告了类似的问题,他们的服务器因内核错误而崩溃。Crowdstrike技术人员承认了这个问题,分析原因也大同小异,测试不足和对不同操作系统之间的兼容性问题关注不足,同样是测试领走了所有的锅。
这次事件,尽管我们中国并没有受到多大的影响,但也给我们敲响了一次警钟:
“
核心技术应该牢牢掌握在自己手中,不然有一天因人家系统问题被一锅端了,自己还一脸懵逼不知道发生了啥。
软件工程和其他传统工程一样,同样需要工匠精神,我们软件的设计、开发、测试都应该科学严谨,尽可能减少bug,你见过哪一幢大楼、哪一座大桥总是拆了重建或者修修补补?这值得我们程序员深思。
END
热门推荐
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。