Phương pháp dự đoán và chủ động trong bảo mật trí tuệ nhân tạo
Hướng dẫn mới của NIST vừa được xuất bản trong tháng 01/2024 về phân loại các khái niệm và xác định thuật ngữ trong lĩnh vực học máy đối nghịch giúp nâng cao hiểu biết của chúng ta về rủi ro AI bằng cách cung cấp góc nhìn tổng quan về các kỹ thuật tấn công tinh vi, thiết lập phân loại và xem xét các phương pháp giảm thiểu rủi ro. Tuy nhiên, theo nhà nghiên cứu bảo mật Apostol Vassilev của NIST cho rằng, các biện pháp phòng vệ trong nhiều tổ chức hiện nay vẫn thiếu sự đảm bảo có thể ngăn chặn hoặc giảm thiểu các mối đe dọa và cần phải có các phương pháp tiếp cận tốt hơn.
Để đạt được mục tiêu này, các tổ chức, doanh nghiệp cần ủng hộ cách tiếp cận hai lớp, bao gồm bảo mật dự đoán và chủ động để tạo ra các hệ thống AI an toàn và đáng tin cậy. Các nhà phát triển AI cần dự đoán và giải quyết trước các cuộc tấn công tiềm ẩn trong giai đoạn thiết kế ban đầu bằng cách kết hợp các biện pháp bảo mật mạnh mẽ vào chính hệ thống AI. Ngoài ra, các tổ chức, doanh nghiệp cũng nên sử dụng chính AI để chủ động xác định các lỗ hổng trong hệ thống AI mới và đưa ra biện pháp phòng vệ linh hoạt.
BẢO MẬT DỰ ĐOÁN
Giảm thiểu rủi ro đã biết bắt đầu bằng việc xác định các biện pháp và giao thức bảo mật cụ thể để hướng dẫn phát triển và triển khai AI. Ví dụ: xem xét triển khai mô hình AI xử lý ngôn ngữ tự nhiên (NLP) cho các chatbot hỗ trợ khách hàng trong môi trường thương mại điện tử. Trong trường hợp này, việc triển khai các biện pháp bảo mật mạnh mẽ trong các cơ chế cốt lõi của mô hình NLP có thể giúp ngăn chặn khả năng khai thác và lạm dụng.
Ví dụ về các biện pháp bảo mật thực tiễn tốt nhất cho chatbot hỗ trợ khách hàng AI bao gồm:
Xác thực và kiểm tra đầu vào: Đảm bảo hệ thống AI kết hợp các cơ chế xác thực đầu vào nghiêm ngặt để giám sát hành vi của người dùng một cách hiệu quả. Điều này giải quyết việc ngăn chặn các tác nhân độc hại đưa ra các lệnh có hại hoặc cố gắng thao túng hệ thống thông qua các đầu vào được thiết kế đặc biệt.
Thử nghiệm đối nghịch cho các mô hình NLP: Triển khai thử nghiệm đối nghịch kỹ lưỡng được thiết kế riêng cho các mô hình NLP. Điều này liên quan đến việc tạo ra các mô hình có chủ ý được thiết kế để khai thác các lỗ hổng. Bằng cách đưa hệ thống AI vào các tình huống đối nghịch khác nhau, các nhà phát triển có thể xác định và xử lý các điểm yếu tiềm ẩn, nâng cao khả năng phục hồi của mô hình.
Giám sát liên tục và phát hiện bất thường: Trang bị các thuật toán phát hiện bất thường được thiết lập trên hệ thống giám sát liên tục. Điều này cho phép xác định theo thời gian thực các mô hình bất thường hoặc sai lệch so với tiêu chuẩn trong hành vi của AI. Phát hiện nhanh chóng cho phép giảm thiểu kịp thời các mối đe dọa bảo mật tiềm ẩn, giảm thiểu tác động của bất kỳ hoạt động độc hại nào.
Bằng cách kết hợp các biện pháp bảo mật cụ thể này vào chính cơ cấu của mô hình NLP AI, các nhà phát triển có thể nâng cao đáng kể tình trạng bảo mật của hệ thống.
BẢO MẬT CHỦ ĐỘNG
Một trong những yếu tố có thể gây cản trở cho bảo mật AI là sự phức tạp của các mô hình Neural Network ngày nay và kích thước khổng lồ của bộ dữ liệu huấn luyện của chúng. Kết quả là các mô hình ngôn ngữ lớn (LLM) và các sản phẩm AI khác có thể vượt xa mọi nỗ lực của con người trong việc khám phá ra các lỗ hổng bảo mật.
Các tổ chức, doanh nghiệp có thể thực hiện bảo mật chủ động cho các hệ thống AI này bằng cách sử dụng một khung gồm các thành phần AI riêng biệt thực hiện những việc thay thế con người. Mục tiêu của phương pháp mới này là tạo ra một hệ thống bảo mật mạnh mẽ có thể áp dụng cho việc giới thiệu AI đa dạng với khoản đầu tư một lần, thúc đẩy chu kỳ nâng cao và củng cố liên tục trên danh mục AI của tổ chức. Các thành phần này có thể là:
AI mới: Các hệ thống AI mới nổi.
AI Interpreter và AI Simulator: AI Interpreter là hệ thống AI nhằm mục đích tìm hiểu cơ chế của AI mới và đào tạo cả AI của AI Red Team (Đội đỏ) và AI Blue Team (Đội xanh) về cơ chế đó. Trong khi đó, AI Simulator bắt chước các hệ thống AI mới và bổ sung thêm một lớp kiểm tra bảo mật, cho phép AI của Đội xanh và đỏ thực hiện các cuộc tấn công và phòng thủ của họ mà không làm tổn hại đến các hệ thống AI mới trong thực tế.
AI Đội đỏ: Một hệ thống AI có nhiệm vụ xác định các lỗ hổng trong cơ chế của AI mới. AI này đảm nhận vai trò kẻ tấn công, tích cực tìm kiếm và xác định những điểm yếu tiềm ẩn trong cơ chế của AI mới. Cách tiếp cận chủ động này cho phép các chuyên gia bảo mật có thể phát hiện và khắc phục các lỗ hổng trước khi chúng có thể bị các mối đe dọa trong thế giới thực khai thác.
AI Đội xanh: Một AI tập trung vào việc chống lại các cuộc tấn công của Đội đỏ. AI của Đội xanh được thiết kế để chống lại các cuộc tấn công do Đội đỏ xác định, tạo thành một lớp phòng thủ kiên cố trước các mối đe dọa tiềm ẩn. Ngoài ra, nó còn cung cấp những hiểu biết có giá trị cho các nhà phát triển AI mới, thúc đẩy vòng phản hồi liên tục để liên tục cải tiến.
KẾT LUẬN
Khi công nghệ AI phát triển, các chiến lược để bảo mật nó cũng phát triển. Điều này đòi hỏi một cách tiếp cận hợp tác, chủ động giữa cộng đồng AI và bảo mật, liên tục đánh giá và cập nhật các biện pháp bảo mật để ứng phó với các mối đe dọa mới và tiến bộ của công nghệ AI.
Quốc Trung
(Tổng hợp)