Hơn 12 triệu dữ liệu bí mật và khóa xác thực bị rò rỉ trên GitHub trong năm 2023
Phát hiện này được công bố bởi Công ty an ninh mạng GitGuardian (Pháp), hãng bảo mật này cho biết mặc dù đã gửi 1,8 triệu cảnh báo qua email, thế nhưng 90% bí mật bị tiết lộ vẫn hoạt động sau 5 ngày kể từ khi sự cố rò rỉ xảy ra. Chỉ 2,6% dữ liệu bị thu hồi trong vòng một giờ kể từ khi thông báo được gửi qua email đến những người dùng bị lộ thông tin.
Các bí mật bị rò rỉ bao gồm mật khẩu tài khoản, khóa API, chứng chỉ TLS/SSL, khóa mã hóa, thông tin xác thực dịch vụ đám mây, mã thông báo OAuth và dữ liệu nhạy cảm khác có thể cung cấp cho các tác nhân bên ngoài quyền truy cập không giới hạn vào các tài nguyên và dịch vụ riêng tư khác nhau, dẫn đến vi phạm dữ liệu và thiệt hại tài chính.
Một báo cáo của công ty phần mềm bảo mật và phần cứng Sophos (Vương quốc Anh) năm 2023 nhấn mạnh rằng, thông tin xác thực bị xâm phạm chiếm 50% nguyên nhân cốt lõi dẫn đến các cuộc tấn công được ghi nhận trong nửa đầu năm.
Hình 1. Hàng triệu dữ liệu bí mật được tiết lộ trên GitHub mỗi năm (GitGuardian)
Các quốc gia bị rò rỉ nhiều nhất trong năm qua là Ấn Độ, Mỹ, Brazil, Trung Quốc, Pháp, Canada, Việt Nam, Indonesia, Hàn Quốc và Đức.
Xét về lĩnh vực bị rò rỉ nhiều nhất, công nghệ thông tin đứng đầu danh sách với tỷ lệ lên đến 65,9%, tiếp theo là giáo dục với tỷ lệ đáng chú ý là 20,1% và một số lĩnh vực khác (khoa học, bán lẻ, sản xuất, tài chính, hành chính công, y tế, giải trí, vận tải) chiếm 14%.
Hình 2. Top 10 loại dữ liệu bí mật bị rò rỉ trong năm 2023 (GitGuardian)
Khoảng 50 triệu kho lưu trữ mới đã được thêm vào GitHub trong năm qua, tăng 22% so với cùng kỳ năm ngoái. Tổng cộng ba triệu kho lưu trữ chứa các bí mật bị rò rỉ, phổ biến nhất trong số đó là khóa Google API, thông tin xác thực MongoDB, mã thông báo OpenWeatherMap, mã thông báo Telegram Bot, khóa Google Cloud và AWS IAM.
Xu hướng AI
Các công cụ AI tạo sinh tiếp tục phát triển bùng nổ vào năm 2023, điều này cũng được phản ánh qua số lượng bí mật liên quan được tiết lộ trên GitHub vào năm ngoái.
GitGuardian chứng kiến số lượng khóa API OpenAI bị rò rỉ trên GitHub tăng gấp 1.212 lần so với năm 2022, rò rỉ trung bình 46.441 khóa API mỗi tháng, thậm chí công ty an ninh mạng này còn phát hiện nhiều mã thông báo truy cập của người dùng trên kho lưu trữ mô hình AI nguồn mở HuggingFace bị rò rỉ hơn, cả hai đều cho thấy mức độ phổ biến ngày càng tăng của các dịch vụ AI.
OpenAI được biết đến với các sản phẩm như ChatGPT và DALL-E, được sử dụng rộng rãi ngoài cộng đồng công nghệ. Nhiều doanh nghiệp và người dùng nhập thông tin nhạy cảm trên lời nhắc của ChatGPT và việc lộ các khóa này là cực kỳ rủi ro. Các dịch vụ AI khác như Cohere, Claude, Clarifai, Google Bard, Pinecone và Replicate cũng bị rò rỉ bí mật, mặc dù ở mức độ thấp hơn nhiều.
Trong khi những người sử dụng dịch vụ AI cần bảo mật thông tin bí mật của mình tốt hơn, GitGuardian nhận định các công nghệ này cũng có thể được sử dụng để phát hiện các mối đe dọa và sự cố. Các nhà nghiên cứu cho rằng các mô hình ngôn ngữ lớn (LLM) có thể giúp phân loại các bí mật bị rò rỉ một cách nhanh chóng và ít sai sót hơn.
Tuy nhiên, quy mô hoạt động khổng lồ, những cân nhắc về chi phí và thời gian cũng như hiệu quả nhận dạng đều là những yếu tố hạn chế khiến những nỗ lực đó gặp nhiều thách thức, ít nhất là ở thời điểm hiện tại.
Tháng 02/2024, GitHub đã kích hoạt tính năng push protection theo mặc định để ngăn chặn việc vô tình tiết lộ bí mật khi đẩy mã mới lên nền tảng này.
Đỗ Thị Hậu
(Tổng hợp)