Phương pháp xây dựng sổ đăng ký dữ liệu hiện đại

16:00 | 19/02/2021 | GP ATM
Sổ đăng ký dữ liệu là nơi mà các thông tin về dữ liệu được lưu trữ, giúp các tổ chức, doanh nghiệp (TC/DN) tìm kiếm, lập bản đồ và kiểm kê tài sản dữ liệu. Bài viết sẽ trình bày phương pháp xây dựng sổ đăng ký dữ liệu hiện đại một cách hiệu quả để giúp các TC/DN đáp ứng được nhu cầu trích xuất, kiểm kê dữ liệu, đồng thời đảm bảo quyền riêng tư.

Do các quy định an toàn thông tin mới như Quy định Bảo vệ Dữ liệu chung (GDPR) của Liên minh Châu Âu, Đạo luật Quyền riêng tư Người tiêu dùng của California (California Consumer Privacy Act - CCPA) và Luật Bảo vệ Dữ liệu chung (General Data Protection Law - LGPD) của Brazil nên việc hiểu biết dữ liệu mà các TC/DN lưu trữ và phân tích ngày càng trở nên khẩn thiết hơn. Các quy định an toàn thông tin nhưng đồng thời áp lực trích xuất nhiều giá trị hơn từ thông tin lưu trữ đòi hỏi các TC/DN phải chú trọng đến việc đảm bảo quyền riêng tư dữ liệu.

Trước đây, các TC/DN đã quan tâm đầu tư vào công nghệ kiểm kê tài sản vật lý nhưng lại thiếu công nghệ thích hợp để tìm kiếm, lập bản đồ và kiểm kê tài sản dữ liệu. Cân bằng giữa xu thế trở thành một TC/DN hướng dữ liệu và yêu cầu đảm bảo quản trị dữ liệu tôn trọng quyền riêng tư đang trở thành một mối quan tâm chiến lược. Tuy nhiên, các công cụ phân loại và kiểm kê dữ liệu truyền thống đơn giản là thiếu khả năng cần thiết để tìm kiếm, lập bản đồ và kiểm kê tài sản dữ liệu một cách chính xác, hiệu quả trong thời đại mới với GDPR và các quy định an toàn thông tin khác. TC/DN cần đảm bảo rằng, các hành động nhằm truy cập, phân tích và chia sẻ dữ liệu luôn phải song hành với những cân nhắc về sự tuân thủ, rủi ro và quyền riêng tư.

Cách xây dựng sổ đăng ký dữ liệu hiện đại

Các TC/DN có thể bắt đầu xây dựng sổ đăng ký dữ liệu hiện đại bằng một tiếp cận mới đối với khai phá dữ liệu, đó là tập trung tạo một danh sách đầy đủ, bao gồm dữ liệu nào được lưu giữ ở đâu và với mục đích gì. Với cách tiếp cận mới này, các tổ chức có thể đáp ứng tốt hơn các yêu cầu về quyền riêng tư, đảm bảo an toàn và quản trị dữ liệu.

Các TC/DN cần phải bắt đầu với những điều cơ bản. Một sổ đăng ký dữ liệu hiện đại không thể là một kho dữ liệu, với việc chỉ đơn giản là sao chép dữ liệu mà nó ánh xạ và đưa ra giới hạn về quy mô. Thay vào đó, các TC/DN nên xây dựng sổ đăng ký với một bản đồ có chỉ mục, tập trung vào năm chức năng và đặc điểm hoạt động chính sau:

Mức độ chi tiết của nội dung: Các quy định về quyền riêng tư yêu cầu các TC/DN giải trình về dữ liệu họ thu thập, tức là chỉ cần biết loại dữ liệu nào họ thu thập là chưa đủ. Các TC/DN cần biết họ có dữ liệu gì và dữ liệu đó thuộc về ai. Quyền riêng tư là về con người, vì vậy biết về yếu tố “con người” của dữ liệu là rất cần thiết để đáp ứng các yêu cầu về quyền riêng tư.

Bối cảnh sử dụng: Biết dữ liệu là gì và của ai là bước quan trọng đầu tiên, nhưng tạo ra một sổ đăng ký dữ liệu hiện đại với thông tin, dữ liệu thông minh (data intelligence) hoàn chỉnh là bước tiếp theo. Điều này đòi hỏi kiến thức vận hành, kỹ thuật và nghiệp vụ. Chẳng hạn như ai có quyền truy cập dữ liệu, những ứng dụng nào đang sử dụng dữ liệu, bên thứ ba nào có quyền truy cập dữ liệu và liệu tổ chức có được sự đồng thuận thích đáng trong việc thu thập và xử lý dữ liệu hay không.

Phạm vi bao quát nguồn dữ liệu: Sổ đăng ký dữ liệu chỉ bao gồm các tập tin không có cấu trúc hoặc cơ sở dữ liệu quan hệ thì sẽ không cung cấp được bản kiểm kê dữ liệu đầy đủ. Với số lượng nguồn dữ liệu và ứng dụng được sử dụng trong toàn bộ TC/DN ngày căng gia tăng, thì cần tạo ra một quy trình bao quát được cả những chia sẻ tập tin không có cấu trúc và cơ sở dữ liệu có cấu trúc, dữ liệu lớn, đám mây, NoSQL, nhật ký, thư điện tử, tin nhắn, ứng dụng...

Khả năng mở rộng quy mô: Các TC/ DN thường tập hợp và phân tích hàng chục, thậm chí hàng trăm PB (1 PB = 1.024 TB) dữ liệu. Với áp lực ngày càng gia tăng trong việc trích xuất nhiều giá trị từ dữ liệu hơn, thì con số đó sẽ còn tăng cao hơn nữa. Sổ đăng ký dữ liệu hiện đại cần cung cấp cách chỉ mục dữ liệu hiệu quả cũng như việc sử dụng dữ liệu liên quan và phải thực hiện với phương thức mà có thể mở rộng sang quy mô một TC/DN toàn cầu.

Không cố định: Khi sổ đăng ký dữ liệu được tạo ra, các tổ chức phải biết trước rằng nó sẽ được thay đổi và di chuyển không ngừng. Do đó, sổ đăng ký phải có khả năng tự cập nhật và điều chỉnh với mọi thay đổi theo gần với thời gian thực để cung cấp bức tranh toàn cảnh rõ ràng và chính xác nhất về việc dữ liệu nào được lưu giữ ở đâu, khi nào và thuộc về ai.

Cách tiếp cận mới để xây dựng sổ đăng ký dữ liệu từ thông tin tình báo dữ liệu

Sau khi nền tảng chức năng và hoạt động của sổ đăng ký dữ liệu hiện đại được xây dựng, đó là lúc tạo một bản kế toán và kiểm kê đầy đủ các tài sản dữ liệu được phân phối của TC/DN. Điều này yêu cầu thông tin tình báo dữ liệu của cả những giá trị thực thể rời rạc - điều không thể làm chỉ với siêu dữ liệu. Để có được mức dữ liệu này, yêu cầu một phương thức tiếp cận kết hợp giữa khai phá nội dung và bối cảnh hóa có thể đạt được bằng cách xem xét bốn yêu cầu chính sau:

Khai phá và giải quyết thực thể: Để có được mức độ thông tin tình báo dữ liệu cần thiết nhằm đảm bảo quyền riêng tư và an toàn thông tin, cần một cơ chế khai phá dữ liệu mà có thể trích xuất và giải quyết các thực thể dữ liệu dựa trên các giá trị dữ liệu, bất kể dữ liệu đó được lưu trữ cấu trúc, không có cấu trúc hoặc bán cấu trúc. Các tổ chức cũng cần triển khai hệ thống quét mà có thể phân biệt dữ liệu gần giống nhau dựa trên bối cảnh. Ví dụ, hệ thống có thể phân biệt số an sinh xã hội với số ID tài khoản, mặc dù cả hai có thể có cùng giá trị.

Tương quan và bối cảnh đầu vào: Cần nhấn mạnh rằng quyền riêng tư là về con người. Để tuân thủ các quy định về quyền riêng tư, các TC/ DN cần giải trình được dữ liệu của họ và cho biết mối tương quan hoặc liên kết của dữ liệu với chủ thể dữ liệu. Điều này phải được phản ánh trong sổ đăng ký dữ liệu hiện đại. Ngoài việc cần thiết đối với quyền riêng tư, điều này cũng có thể cung cấp thêm một mức độ hiểu biết về tính kết nối của dữ liệu với các định danh có giá trị cao như ID giao dịch, ID tài khoản và ID bằng sáng chế.

Phân loại thực thể theo Loại và Danh mục: Để xây dựng sổ đăng ký dữ liệu hiện đại cần phải sử dụng nhiều hơn là các công cụ phân loại truyền thống. Sổ đăng ký dữ liệu hiện đại phải có độ chi tiết cấp thực thể với yêu cầu phân loại tốt hơn. Nếu được xây dựng bằng trí tuệ nhân tạo hoặc học máy thì sẽ hỗ trợ mở rộng cách nhận biết dữ liệu với các cách phân loại và suy luận.

Thu thập và lập danh mục siêu dữ liệu: Mặc dù danh mục siêu dữ liệu đơn thuần là không thực sự cần thiết khi xét theo quan điểm xây dựng sổ đăng ký dữ liệu nhưng chúng vẫn cung cấp giá trị vì có thể lưu lại nơi chứa các danh mục dữ liệu. Điều này giúp phân loại chính xác các thực thể dữ liệu và xác định vị trí cần ưu tiên để tìm kiếm sâu hơn. Thách thức nằm ở việc phải dựa vào thẻ nhãn và chú thích của con người vì lỗi của con người khiến dữ liệu này trở nên bí mật đến mâu thuẫn. Vì vậy, trong khi siêu dữ liệu kỹ thuật là quan trọng thì cũng cần nắm bắt bối cảnh hoạt động và nghiệp vụ như quyền truy cập, mục đích sử dụng hoặc sự đồng thuận.

Có thể nói, cách duy nhất để tuân thủ các quy định về quyền riêng tư như GDPR và CCPA là các TC/DN có khả năng giải trình dữ liệu họ lưu trữ và những cá nhân sở hữu dữ liệu đó hay không.

Để xây dựng sổ đăng ký dữ liệu hiện đại cần nhìn xa hơn việc phân loại và lập danh mục dữ liệu một cách đơn giản để thể hiện mối tương quan và liên kết của dữ liệu với chủ thể dữ liệu. Điều này có nghĩa là cần phải cung cấp một mức độ hiểu biết mới về tính kết nối của dữ liệu với các định danh có giá trị cao, dù chúng nằm tại trung tâm dữ liệu hoặc trên đám mây.

Đỗ Đoàn Kết (Theo Tạp chí INSecure, số 62)

Tin cùng chuyên mục

Tin mới