Sự cố 'màn hình xanh' làm khổ vô số nhân sự IT thế nào?

Việc khôi phục lại sau sự cố "màn hình xanh" do Crowdstrike gây ra sẽ vô cùng tốn nhân lực và thời gian, tất cả do sự bất cẩn của công ty này.

Sự bất cẩn của Crowdstrike

Reuters dẫn lời các chuyên gia an ninh cho biết, công ty Crowdstrike rất có thể đã không có bài kiểm tra đầy đủ đối với bản cập nhật phần mềm được tung ra vào ngày 19/7.

Phiên bản mới nhất của phần mềm Falcon được thiết kế để bảo vệ hệ thống của khách hàng Crowdstrike an toàn hơn trước tin tặc bằng cách cập nhật các mối đe dọa đối với hệ thống nó sẽ bảo vệ. Tuy nhiên, các lỗi trong bản cập nhập lại là nguyên nhân dẫn đến sự cố “màn hình xanh” trên toàn cầu.

Giám đốc an ninh tại Security Scorecard Steve Cobb, công ty có một số hệ thống bị ảnh hưởng bởi sự cố lần này cho biết: " Có vẻ như khi kiểm tra hoặc thử nghiệm bản cập nhật họ đã bỏ qua các tệp có thể dẫn đến sự cố hoặc họ không biết về sự tồn tại của nó ”.

Patrick Wardle, một nhà nghiên cứu bảo mật chuyên nghiên cứu các mối đe dọa đối với hệ điều hành, cho biết phân tích của ông đã xác định được đoạn mã gây ra sự cố màn hình xanh.

Sự cố 'màn hình xanh' làm khổ vô số nhân sự IT thế nào?- Ảnh 1.

Quầy check-in của một sân bay "tê liệt" vì lỗi màn hình xanh. Ước tính hơn 4.000 chuyến bay trên toàn cầu bị hủy vào hôm 19/7. (Ảnh: NYT)

Ông Wardle cho biết, vấn đề của bản cập nhật nằm "trong một tệp chứa thông tin cấu hình hoặc chữ ký". Những chữ ký như vậy là mã phát hiện các loại mã độc hại hoặc phần mềm độc hại cụ thể.

" Việc các sản phẩm bảo mật được cập nhật chữ ký là điều rất bình thường, chẳng hạn như mỗi ngày một lần, vì công ty liên tục theo dõi phần mềm độc hại mới và muốn đảm bảo rằng khách hàng của họ được bảo vệ khỏi các mối đe dọa mới nhất ", Patrick Wardle nói.

" Tần suất cập nhật cao có lẽ là lý do tại sao Crowdstrike đã không kiểm tra nó nhiều ", ông cho hay.

Không rõ mã lỗi đó đã lọt vào bản cập nhật như thế nào và tại sao nó không được phát hiện trước khi phát hành cho khách hàng.

" Lý tưởng nhất là bản cập nhật này sẽ được triển khai cho một nhóm hạn chế trước. Đó là cách tiếp cận an toàn hơn để tránh một mớ hỗn độn lớn như thế này ", John Hammond, nhà nghiên cứu bảo mật chính tại hãng Huntress Labs, bình luận.

Các công ty bảo mật khác cũng đã gặp sự cố tương tự trong quá khứ. Bản cập nhật phần mềm chống virus có lỗi của McAfee vào năm 2010 đã khiến hàng trăm ngàn máy tính bị đình trệ.

Thế nhưng, tác động toàn cầu từ sự cố lần này phản ánh sự thống trị của Crowdstrike trên thị trường an ninh mạng. Hơn một nửa số công ty trong Fortune 500 và nhiều cơ quan chính phủ, gồm cả Cơ quan An ninh mạng và Cơ sở hạ tầng Mỹ, sử dụng phần mềm của công ty.

Hồi phục sau sự cố Crowdstrike sẽ “rất khổ”

Crowdstrike, công ty gây ra sự cố ngừng hoạt động máy tính lịch sử trên toàn thế giới cho biết bản cập nhật bị lỗi đã được khôi phục – nhưng hàng nghìn doanh nghiệp bị ảnh hưởng vẫn sẽ phải chịu di chứng rất lâu dài.

Theo Microsoft, sự cố hôm 19/7 do phần mềm bảo mật của Crowdstrike gây ra với máy tính Windows ảnh hưởng tới 8,5 triệu PC doanh nghiệp toàn cầu. Việc khôi phục hiện tại sẽ còn thêm khó bởi nhiều máy chủ chứa thông tin cần thiết để giúp các hệ thống máy tính hoạt động trở lại lại bị vướng vào vòng lặp gặp sự cố và khởi động lại.

Chưa kể, một số máy tính bị ảnh hưởng không thể truy cập dễ dàng, được thiết lập ở những vị trí xa xôi và được thiết kế chạy mà không cần sự can thiệp của con người.

Chuyên gia bảo mật Troy Hunt cho biết trong một bài đăng trên X. “ Tôi không nghĩ còn quá sớm để gọi đây là vụ sập IT lớn nhất trong lịch sử ”.

Phần mềm Crowdstrike bị lỗi hoạt động ở cấp độ kernel (nhân) của hệ điều hành, cấp độ sâu hơn nhiều so với những ứng dụng thông thường khác như trình duyệt web hoặc game. Kernel là chương trình rất quan trọng trong, kiểm soát mọi hoạt động của máy tính cũng như các thành phần của nó, nhưng cũng rất nhạy cảm.

Chạy ở cấp kernel giúp phần mềm của Crowdstrike có thể làm được nhiều việc hơn để phát hiện các cuộc tấn công mạng, nhưng đồng thời cũng khiến lỗi hiện tại làm tê liệt máy tính Windows (màn hình xanh “chết chóc") trước khi người dùng có thể thực hiện bất kỳ hành động nào để khắc phục.

Sự cố 'màn hình xanh' làm khổ vô số nhân sự IT thế nào?- Ảnh 2.

Microsoft cho biết khoảng 8,5 triệu máy tính trên toàn cầu bị ảnh hưởng. (Ảnh: Boston Globe)

Crowdstrike cho biết, việc khắc phục không phải bất khả thi, nhưng trong nhiều trường hợp, rất tốn công: Mỗi thiết bị bị ảnh hưởng phải được quản trị viên truy cập và reboot theo cách thủ công vào chế độ an toàn (Safe Mode). Sau đó, tệp Crowdstrike lỗi phải được xóa bằng tay.

Đối với các doanh nghiệp có hàng trăm hoặc hàng nghìn laptop, máy tính để bàn và máy chủ chạy phần mềm bảo mật Crowdstrike, một cá nhân có thể phải thực hiện quá trình đó nhiều lần. Tất cả phải thực hiện bằng tay.

Kevin Beaumont, nhà nghiên cứu bảo mật và cựu phân tích viên mối đe dọa của Microsoft, cho biết trong một bài đăng trên X: “ Bạn không thể tự động hóa việc đó. Vì vậy, điều này sẽ gây tổn hại vô cùng lớn cho khách hàng của Crowdstrike ”.

Hôm 19/7, một trang trạng thái của Microsoft Azure đã báo cáo rằng một số người dùng Windows Virtual Machine đã khắc phục thành công sự cố bằng cách reboot liên tục, trong một số trường hợp lên tới 15 lần liên tiếp.

Microsoft cho biết thêm, các tổ chức bị ảnh hưởng cũng có thể cố gắng khôi phục máy của họ về trạng thái trước đó bằng cách khôi phục bản sao lưu hệ thống trước đó, mặc dù họ thừa nhận rằng không phải lúc nào cũng làm được vậy.

Eric O'Neill, chuyên gia an ninh mạng và cựu đặc vụ phản gián FBI, cho biết: “ Các công ty chưa đầu tư vào các giải pháp sao lưu nhanh chóng sẽ bị mắc kẹt trong tình thế tiến thoái lưỡng nan” .

Chưa kể, một số tổ chức coi trọng bảo mật còn mã hóa ổ cứng máy tính, khiến việc truy cập tệp cần xóa càng trở nên khó khăn hơn.

Đối với những tổ chức đó, “ bạn cần giải mã ổ đĩa theo cách thủ công bằng Khóa khôi phục BitLocker, có lẽ - đối với hầu hết các công ty - được lưu trữ kỹ thuật số trên một trong các máy chủ hiện còn đang khởi động đi khởi động lại” , Ira Bailey, một nhà nghiên cứu bảo mật cho biết trong một bài đăng trên BlueSky.

Chuyên gia an ninh mạng SwiftOnSecurity cho biết mọi máy tính bị ảnh hưởng được mã hóa BitLocker sẽ cần phải được mở khóa bằng khóa khôi phục trước khi các tổ chức có thể bắt đầu quá trình xóa tệp Crowdstrike lỗi và khôi phục hoạt động bình thường. .

Kenn White, một nhà nghiên cứu bảo mật độc lập chuyên về an ninh mạng, nói với CNN rằng việc phục hồi sẽ vô cùng tốn kém đối với các công ty Fortune 500 có đội ngũ nhân viên CNTT đông đảo và thậm chí còn khó khăn hơn đối với các công ty nhỏ.

White nói: “ Nếu bạn không có nhân viên tại chỗ có thể thực sự tiếp cận vào máy tính bằng tay, thì việc này sẽ mất rất nhiều ngày để phần lớn các công ty ở Mỹ có thể phục hồi. Mất rất nhiều công sức cho một việc thủ công như vậy” .

“ Đó là một quy trình khá phức tạp đối với những người không rành về kỹ thuật, và thậm chí nhiều chuyên gia IT lành nghề cũng sẽ gặp khó khăn khi thực hiện việc này ở quy mô lớn với số lượng máy bị ảnh hưởng”, nhà nghiên cứu đánh giá.

O'Neill, cựu đặc vụ phản gián của FBI, cho biết có thể phải mất hàng triệu giờ làm việc của các chuyên gia IT tại mỗi công ty để sửa chữa tất cả các máy tính bị ảnh hưởng.

Ông nói, khi nhiều nhân viên IT đang làm việc tại nhà, họ không thể tới từng bàn làm việc để sửa từng máy tính. Thay vào đó, họ sẽ phải liên lạc với từng nhân viên và trao đổi về quy trình từ xa. Kết quả là quá trình này còn mất thời gian và nhân lực hơn nữa.

Một số máy bị ảnh hưởng có thể hiếm khi được người dân bảo trì hoặc nằm ở vùng sâu vùng xa. Một số khác thậm chí có thể không có màn hình hoặc bàn phím vì chúng không thường xuyên yêu cầu con người tương tác trực tiếp.

Một chuyên gia cho biết, ví dụ cực đoan nhất là các cảm biến hoặc thiết bị giám sát thời tiết trong hộp tín hiệu đường sắt. Các kỹ thuật viên có thể phải đến trực tiếp hàng trăm nghìn máy để thực hiện quá trình phục hồi bằng tay.

Người này nói thêm, việc khôi phục sẽ tiêu tốn của thế giới “hàng nghìn giờ và hàng triệu, có thể là hàng tỷ đô la”, tiêu tốn ngân sách chồng chất.