báo cáo chuyên đề điện toán đám mây data privacy in cloud

Các kiến trúc xuất bản dữ liệu được liên kết không được thiết kế để thích ứng tốt với các yêu cầu của các phương pháp tiếp cận hiện có để làm sạch các tập dữ liệu được liên kết, không ph

Trang 1

1

VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG  

ĐIỆN TOÁN ĐÁM MÂY

Data Privacy in Cloud Giảng viên hướng dẫn : TS Nguyễn Bình Minh

Học viên thực hiện : Nguyễn Hải Quang MSHV: 20202479M

HÀ NỘI, 05/2021

Trang 2

2.3 B o v quyả ệ ền riêng tư dữ liệu kết hợp theo ngữ nghĩa 8

2.4 Ngữ nghĩa và khái niệm ánh x ạ 8

2.5 Phân vùng t p d ậ ữ liệu 9

2.6 Làm s ch m t b n dạ ộ ả ữ liệu k t hế ợp ở đâu? 10

2.7 K thuỹ ật k t h p dế ợ ữ liệu liên k t b o v quyế ả ệ ền riêng tư 12

2.8 Các trường hợp xuất b n k t h p d ả ế ợ ữ liệu liên k t b o vế ả ệ quyền riêng tư14 2.9 Tóm lược 16

Phần 3: Bảo vệ dữ liệu và quyền riêng tư trên hệ thống cloud Azure của Microsoft 18

3.1 Cơ sở hạ tầng điện toán đám mây 18

3.2 Các phương thức hoạt động của Azure để ả b o v d ệ ữ liệu của người sử dụng 19

3.2.1 Xây d ng d ch v b o v d uự ị ụ để ả ệ ữ liệ 19

Phần 4: Kết luận 24

Trang 3

Tuy nhiên, khi các tổ chức tiếp tục tận dụng các lợi ích của dịch vụ đám mây, chẳng hạn như tăng khả năng lựa chọn, sự nhanh nhẹn và linh hoạt trong khi tăng cường hiệu quả và giảm chi phí CNTT, họ phải xem xét cáchsự ra đời của các dịch vụ đám mây ảnh hưởng đến quyền riêng tư, bảo mật và tư thế tuân thủ của họ Microsoft đã nỗ lực để làm cho các dịch vụ đám mây của họ không chỉ có thể mở rộng, đáng tin cậy và dễ quản lý mà còn đảm bảo dữ liệu khách hàng của chúng tôi được bảo vệ và sử dụng một cách minh bạch

Khách hàng có một số lựa chọn về dịch vụ đám mây và cơ sở hạ tầng đám mây để mua, như được nêu chi tiết trong thanh bên Việc xác định mô hình đám mây nào phù hợp nhất tùy thuộc vào nhu cầu của khách hàng, yêu cầu bảo vệ dữ liệu của họ và loại xử lý mà họ yêu cầu Thật vậy, cách tiếp cận “một kích thước phù hợp với tất cả” có thể không thích hợp cho các tổ chức có nhiều loại dữ liệu khác nhau Các giải pháp đám mây riêng hoặc đám mây kết hợp cho phép khách hàng lưu giữ dữ liệu đã chọn tại chỗ có thể có ý nghĩa tốt đối với những người có yêu cầu bảo vệ dữ liệu chuyên biệt

Việc trộn lẫn các nguồn vi dữ liệu để tạo thành một trung tâm dữ liệu phải đáp ứng một loạt các yêu cầu ẩn danh bảo mật quyền riêng tư, cản trở các nhà phân tích dữ liệu tìm ra thông tin nhạy cảm của các tập dữ liệu nguồn Điều này có liên quan trong một số lĩnh vực bao gồm thành phố thông minh, hồ sơ chăm sóc sức khỏe điện tử và các lĩnh vực khác Các kiến trúc xuất bản dữ liệu được liên kết không được thiết kế để thích ứng tốt với các yêu cầu của các phương pháp tiếp cận hiện có để làm sạch các tập dữ liệu được liên kết, không phải lúc nào cũng khai thác được tiềm năng của ngữ nghĩa Bên cạnh đó, các quy trình làm vệ sinh không phải lúc nào cũng được điều phối viên trung tâm kiểm soát Chúng tôi đề xuất một khung phân loại để quyết định việc phân phối kiểm soát và phân vùng của các mô hình thông tin tập dữ liệu Dựa trên khuôn khổ, chúng tôi xác định một cách tiếp cận để thiết kế các bản trộn dữ liệu được liên kết bảo vệ quyền riêng tư xác định các chức năng thiết yếu của kiến trúc xuất bản dữ liệu được liên kết bảo vệ quyền riêng tư Khung phân loại và phương pháp kỹ thuật để bảo vệ quyền riêng tư dữ liệu có thể có ý nghĩa đối với các hệ thống dữ liệu lớn và sổ cái phân tán dựa trên blockchain mới nổi

Từ khóa: privacy preservation, data mashups, linked data architectures

Trang 4

5

Phần : Xuất bản dữ liệu bảo vệ quyền riêng tư trong kiến 2trúc kết hợp dữ liệu được liên kết

2.1 GiGiớớớớới thii thi u ệệệệệu

Dữ liệu từ nguồn dữ liệu kết hợp hoặc trung tâm dữ liệu là sự kết hợp thông tin từ nhiều nguồn gốc độc lập vào một nguồn dữ liệu duy nhất có thể được truy vấn thông qua một thiết bị đầu cuối, do đó phục vụ tích hợp dữ liệu theo yêu cầu Kết hợp dữ liệu tạo thành cơ sở của kiến trúc dữ liệu dưới dạng dịch vụ (Data-as-a Service DaaS) , nhằm mục đích giảm chi phí quản lý dữ liệu xuống hỗ trợ các nhà khoa học dữ liệu trong việc khai thác dữ liệu kết hợp từ các bộ dữ liệu khác nhau để khám phá kiến thức mới

Tuy nhiên,thông tin nhạy cảm có thể bị lộ khi thiết lập kết hợp dữ liệu, vì vậy các kỹ thuật xuất bản dữ liệu bảo vệ quyền riêng tư (privacy preserving data publishing PPDP) khác nhau như tổng -hợp dữ liệu, bổ sung tiếng ồn và khái quát đã được áp dụng cho dữ liệu nằm trong mỗi tập dữ liệu Bảo toàn quyền riêng tư trong các bản trộn dữ liệu là một vấn đề liên quan trong các lĩnh vực khác nhau, bao gồm cơ sở dữ liệu của người dùng doanh nghiệp điện tử , hồ sơ y tế điện tử và trung tâm dữ liệu thành phố thông minh, và nhiều lĩnh vực khác

Ví dụ về kết hợp dữ liệu thành phố thông minh Các kỹ thuật PPDP tập trung vào việc xuất bản thông tin nhận dạng (tức là 2micro datal) về các cá nhân

Tuy nhiên, do các yêu cầu bảo vệ quyền riêng tư, tập dữ liệu thường được công khai dưới dạng dữ liệu tổng hợp thay vì vi dữ liệu Ví dụ, dự án thông minh MK cung cấp cho công dân và công ty quyền truy cập vào một số nguồn dữ liệu tổng hợp về các khía cạnh đa dạng của thị trấn Milton Keynes Được cung cấp bởi các tổ chức khác nhau, dữ liệu đó bao gồm, trong số' những dữ liệu khác, giao thông, mức tiêu thụ năng lượng và nước trung bình của người dân và công ty, được biên dịch và lưu trữ trong bản mashup Trung tâm dữ liệu MK (datahub.mksmart.org) Hội đồng thành phố' MiltonKeynes cũng cung cấp trung tâm dữ liệu với số' liệu thố'ng kê về tăng trưởng dân số', việc làm, tội phạm, tình trạng hôn nhân, tôn giáo và việc làm của công dân của họ cũng như dữ liệu tổng hợp có thể được truy vấn theo địa điểm, phường, quận, mã bưu điện và các hình thức tổng hợp hành chính khác Hướng tới mục tiêu Trung tâm dữ liệu MK cung cấp một API lấy thực thể làm trung tâm (Giao diện lập trình ứng dụng) API trung tâm dữ liệu MK và các tập dữ liệu có sẵn rất thuận tiện và hữu ích cho nỗ lực sử dụng dữ liệu mở của công dân, nhưng tiện ích phân tích của nó bị giới hạn ở những gì có thể quan sát được trên dữ liệu tổng hợp, vì vi dữ liệu thường không có sẵn Các dữ liệu hub và các tập dữ liệu có sẵn rất thuận tiện và hữu ích cho sử dụng dữ liệu mở của công dân, những tiện ích phân tích của nó bị giới hạn , quan sát được trên dữ liệu tổng hợp, vì vi dữ liệu thường không có sẵn Làm như vậy sẽ đòi hỏi việc áp dụng kỹ thuật PPDP trên

Trang 5

6 dữ liệu nhà cung cấp và kết quả kết hợp dữ liệu

Mặc dù có bộ chính sách quy định vi c s d ng t ng ngu n dệ ử ụ ừ ồ ữ liệu và m c dù n danh vi dặ ẩ ữ liệu trong m i t p dỗ ậ ữ liệu, người ta không th c n trể ả ở ai đó biết độ nh y thông tin b ng cách t n công ả ằ ấliên k t t i hai ho c nhi u t p dế ớ ặ ề ậ ữ liệu Ví d : ngay c khi xóa s ' nh n d ng rõ ràng, tên c a m t cá ụ ả ố ậ ạ ủ ộnhân trong t p d ậ ữ liệu DS1 c a Hủ ội đồng thành phố' (địa ch , ngày sinh, giỉ ới tính, mã bưu điện, tên, thuế) có thể được liên kết v i mớ ột bản ghi khác trong tập dữ liệu tiêu thụ năng lượng DS2 (ngày sinh, giới tính, mã bưu điện, điện gasConsumption) thông qua s k t h p cự ế ợ ủa mã bưu điện,ngày sinh và gi i tính M i thuớ ỗ ộc tính này không xác định duy nh t m t b n ghi ch s hấ ộ ả ủ ở ữu, nhưng sự kết hợp của chúng là số' nhận dạng gần như trỏ đến một số' lượng nhỏ hoặc duy nh t các bấ ản ghi Do đó, kẻ tấn công liên k t có th nh n th y r ng m t ngôi nhà t i m t sế ể ậ ấ ằ ộ ạ ộ ố' địa ch có thỉ ể không có ngườ ửi s dụng vì lượng tiêu thụ điện và khí đốt của nó gần như bằng không Điều này có thể gây ra mối đe dọa về trộm cắp, nhưng nó có thể cũng là một công cụ để cơ quan thuế điều tra những căn nhà cho thuê b chi m d ng có th có kho n thuị ế ụ ể ả ế chưa nộ ừp t bên cho thuê Ngay c khi n danh c hai t p ả ẩ ả ậdữ liệu bằng các k thu t tỹ ậ ổng quát hóa trên các mã định danh của m i t p d li u, v n có kh năng ỗ ậ ữ ệ ẫ ảcác mã định danh tiềm năng được tách ra trong cả hai tập dữ liệu cần được hợp nhất để phân tích Ví dụ: đặt giản đồ ậ t p dữ liệu c a Hủ ội đồng thành ph ' là DS1 (id, giố ới tính, defaulter) và lược đồtập d ữ liệu tiêu th ụ năng lượng là DS2 (id, ngh nghiề ệp, defaulter, điện năng, tiêu thụ gas), như được hiển th trong Bị ảng 1 Giả sử rằng một nhà phân tích dữ liệu cần kết hợp DS1 và DS2 để ự đoán drủi ro mặc định, DS1 và DS2 có thể được h p nhợ ất bằng cách khớp trường id trong một tập dữ liệu ẩn danh mới được tích hợp DS Sau đó, các thuộc tính giới tính và ngh nghi p t o thành mề ệ ạ ột định danh gần như mới, không được bao g m trong t ng t p d ồ ừ ậ ữ liệu riêng biệt, do đó, cuộc tấn công liên kết vẫn có th xể ảy ra trên các trường này của t p d u tích h p DS Sau khi tích h p các bậ ữ liệ ợ ợ ảng của cả hai tập dữ liệu, (Nữ,Thợ mộc) cá nhân về (gi i tính, nghớ ề nghiệp) trở nên độc nhất và dễ b tị ổn thương khi liên kết tới thông tin nhạy cảm, chẳng hạn như địa chỉ và m c tiêu th ứ ụ năng lượng

Bảng 1 Các bảng dữ liệu từ tập dữ liệu của Hội đồng thành phố (DS1) và tập dữ liệu của nhà cung cấp năng lượng (DS2) tạo nên dữ liệu kết hợp DS

ID mặc định Giới

tính Địa chỉ Nghê tiêu thụ điện tiêu thụ gas 1-3 0y3n M A1 Sales 18 17 4-7 0y4n M A2 Ceramist 24 8 8-12 2y3n M A3 Plumber 25 10 13 16-3y1n F A4 Webmaste20 17 17 22-4y2n F A5 Animator 31 11 23 25-3y0n F A6 Animator 34 10 26 28-3y0n M A7 Carver 32 12 29 31-3y0n F A8 Carver 30 14 32 33-2y0n M A9 Carpenter 33 11 34 1y0n F A10 Carpenter 29 15

Vì mục tiêu cuối cùng của việc phát hành dữ liệu là tiến hành phân tích dữ liệu đó, nên việc ẩn danh phải được thực hiện theo cách mà dữ liệu được bảo vệ vẫn giữ được nhiều tiện ích phân tích

Trang 6

7 nhất có thể; nghĩa là, các kết luận hoặc suy luận được trích xuất từ việc phân tích tập dữ liệu ẩn danh phải tương tự như kết luận hoặc suy luận của tập dữ liệu ban đầu Với mục tiêu cân bằng giữa quyền riêng tư và bảo toàn tiện ích,Phương pháp PPDP Với mục tiêu cân bằng giữa quyền riêng tư và bảo toàn tiện ích,Phương pháp PPDP xây dựng tập dữ liệu được bảo vệ bằng cách sửa đổi các thuộc tính nhận dạng gần như ban đầu trong khi vẫn bảo toàn các tính năng thống kê nhất định Mặt khác, các phương pháp tạo mặt nạ vi dữ liệu không nhiễu loạn sửa đổi các thuộc tính gần như nhận dạng bằng cách loại bỏ một số dữ liệu hoặc bằng cách giảm mức độ chi tiết của chúng, chẳng hạn như tổng quát hóa Mặt khác, các phương pháp chejihiễu nhiễu dựa trên việc bóp méo các thuộc tính gần như nhận dạng bằng cách thêm nhiễu, hoán vị dữ liệu hoặc tổng hợp dữ liệu.

Hầu hết các kỹ thuật tạo mặt nạ hiện có đều xem xét kém ngữ nghĩa của các giá trị danh nghĩa và nhiều khi chúng quản lý các thuộc tính riêng lẻ một cách độc lập, do đó bỏ qua mối tương quan tiềm ẩn giữa các cặp thuộc tính Ví dụ , số giá trị ví dụ như tiêu thụ điện and tiêu thụ gas các Bảng 1 có thể được khái quát hóa bằng cách định nghĩa các khoảng [0,10), [10,20), [20,30) và [30, w) - đó là mặt nạ các giá trị của môi bản ghi vi dữ liệu Ngược lại, các giá trị danh nghĩa của cột nghe nghiệp không thể dễ dàng bị bóp méo bằng các kỹ thuật tổng quát hóa để làm sạch tập dữ liệu Trong các công trình trước đây, các phương pháp bóp méo đã được cải tiến để khai thác ngữ nghĩa được cung cấp bởi một bản thể học để bảo tồn tốt hơn ngữ nghĩa bên dưới các giá trị danh nghĩa*.Do đó, dữ liệu danh nghĩa phải được ánh xạ đúng đến các giá trị cá thể của một bản thể luận của các khái niệm thay thế các giá trị ban đầu của một thuộc tính danh nghĩa trong một tập dữ liệu

2.2 Các phươCác phương pháp khng pháp khng pháp khửửửử ạạạạạử s s ch dch dch d u kữữữữữ lililililiệệệệệu ku k t hếếếếế ợợợợợt ht h p p

Có hai phương pháp PPDP khi giao dịch với các nhà xuất bản đa dạng đã đặt

Cách đầu tiên là tích hợp sau đó- -sanitize?tức là trước tiên tích hợp các tập dữ liệu phân tán bằng một số nhận dạng chung, chẳng hạn như SSN, sau đó khử đi thuộc tính gần như nhận dạng từ tập dữ liệu tích hợp bằng phương pháp che PPDP Kết quả là , bằng cách biết bản gốc dữ liệu vĩ mô , các dữ liệu mashup giữ có thể cố gắng để suy ra thêm thông tin ( ví dụ , Nhạy cảm thông tin ) về họ chu sở hữu mô hình bảo mật, chẳng hạn như k nặc danh Theo cách tiếp cận này, k nặc danh sẽ không - -được đáp ứng hoàn toàn đối với các bản trộn dữ liệu phân tán bảo vệ quyền riêng tư , vì vi dữ liệu không được khử trùng phải được chuyển tới người quản lý cơ sở dữ liệu đã được trộn Do đó, bằng cách biết vi dữ liệu ban đầu, chu sở hữu kết hợp dữ liệu có thể cố gắng suy ra thông tin bổ sung về chủ sở hữu của họ

Cách tiếp cận thứ hai, sanitize-then-integration, cung cấp đảm bảo quyền riêng tư tốt hơn vì trước khi tích hợp dữ liệu, mỗi nhà xuất bản dữ liệu sẽ vệ sinh cục bộ tập dữ liệu của mình Nếu mã định danh được tạo bởi các thuộc tính bao gôm các nhà xuất bản dữ liệu khác nhau , thì phương pháp này sẽ không hoạt động vì (i) bộ dữ liệu được làm sạch không có các thuộc tính nhận dạng để thực hiện quá trình tích hợp và (ii) nếu có thể tích hợp dữ liệu, kết quả trong tập dữ liệu được khử trùng sẽ khó

Trang 7

8 đáp ứng yêu cầu về quyền riêng tư ẩn danh k bởi vì phương pháp che PPDP cần đầu vào,là sự kết hợp của mã định danh của tất cả các tập dữ liệu có liên quan Để giải quyết vấn đề này, đề xuất một cách tiếp cận tương tự với chiến lược tích hợp sau đó làm sạch , chiến lược này không tiết lộ dữ liệu -cục bộ cho đến khi nó được khử trùng bằng cách tổng quát hóa để đáp ứng k nặc danh mở rộng y -tưởng này cho các ứng dụng kết hợp dữ liệu phân tán bằng cách thiết lập sự hợp tác giữa các nhà xuất bản dữ liệu,cũng đe xuất một chiến lược hợp tác để đạt được ẩn danh k trên các tập dữ liệu được phân vùng theo chiều ngang những hợp tác làm vệ sinh đề xuất , một thông tin liên lạc giữa các dữ liệu các nhà xuất bản hoặc giữa mỗi dữ liệu nhà xuất bản và một trung tâm bên hoặc mashup điều phối viên được yêu cầu

Tóm lại, nếu việc làm sạch ảnh hưởng đến hai hoặc nhiều tập dữ liệu của một kết hợp dữ liệu, thì quá trình này phải được thực hiện một cách cộng tác bởi mỗi người quan lý tập dữ liệu Bài báo này đề xuất một cách tiếp cận mới để thiết J<ế kiến trúc của các hệ thống xuất bản dữ liệu được liên kết có tính đến hai yêu cầu chính của các giải pháp khử trùng đối với các bản trộn dữ liệu bảo vệ quyền riêng tư, đó là vị trí đặt quyền kiểm soát của giao thức làm sạch và cách phân vùng lược đô trộn dữ

liệu

2.3 B

2.3 B ooooo vảảảảả v v ệệệệệ quyquyquyềnềnền riêng tư dữ riêng tư dữ riêng tư dữ lili u klililiệệệệệu k t hu kếếếếế ợợợợợt ht h ppppp theo ng theo ngữữữữữ nghĩanghĩa

Như nhiều bộ dữ liệu có thể được tham gia vào một mashup dữ liệu, hai khía cạnh có liên quan cho sự riêng tư bảo quản dữ liệu xuất bản, vì vậy chúng tôi đang đối phó với chúng một cách độc lập trong phần này Đầu tiên, ngữ nghĩa và mô hình thông tin của bộ dữ liệu là cơ bản để giải quyết các vấn đề tích hợp dữ liệu, vốn phổ biến đối với các cách tiếp cận khác trong lĩnh vực cơ sở dữ liệu, chẳng hạn như hệ thống Trích xuất Chuyển đổi Tải (ETL) Thứ hai, phân vùng tập dữ liệu xác định - -các yêu cầu của giao thức làm sạch sẽ được áp dụng

2.4 4 NgNgữữữữữ nghĩa và khái nghĩa và kháinghĩa và khái niệ niệm ánh xm ánh x ạạạạạ

Các bộ dữ liệu sau khi khử sạch được mong đợi sẽ đáp ứng một mô hình bảo mật nhất định, chẳng hạn như k nặc danh Một tập dữ liệu tích hợp đã được khử sạch đáp ứng k nặc danh nếu mọi - -tổ hợp giá trị trên số định danh gần như được chia sẻ bởi ít nhất k bản ghi

Bên cạnh đó, các phương pháp PPDP gây nhiễu loạn thông thường không xử lý tốt dữ liệu danh nghĩa vì nguyên tắc hoạt động toán học của chúng Ví dụ, các cơ chế cộng nhiễu yêu cầu tính toán phương sai của dữ liệu đầu vào để tạo ra chuỗi nhiễu phản ánh mức độ phân tán của các giá trị ban đầu; các cơ chế hoán đổi thứ hạng yêu cầu sắp xếp dữ liệu đầu vào để hạn chế việc hoán đổi trong một khoảng cách thứ hạng nhất định; và các kỹ thuật tổng hợp thường sử dụng giá trị trung bình để tổng hợp dữ liệu đầu vào Vì dữ liệu danh nghĩa lấy các giá trị từ một danh sách các loại rời rạc và hữu hạn, thường được biểu thị bằng các từ, tiên nghiệm, nên không thể thực hiện các phép toán này Mặt khác, vì tiện ích dữ liệu danh nghĩa có liên quan chặt chẽ đến việc bảo toàn ngữ nghĩa, bất kỳ phép tính hoặc chuyển đổi dữ liệu nào được thực hiện để ẩn danh dữ liệu đều phải xem xét

Trang 8

9 cẩn thận ý nghĩa của các giá trị đầu vào

Để cho phép bảo vệ dữ liệu danh nghĩa nhất quán về mặt ngữ nghĩa, các đề xuất PPDP gần đây khai thác kiến thức chính thức được mô hình hóa trong bản thể học Vì vậy, trước quá trình che dấu, các giá trị danh nghĩa đầu vào được liên kết rõ ràng với các khái niệm trong bản thể luận bằng một quy trình có tên là liên kết lẫn nhau hoặc ánh xạ khái niệm (xem Hình 1) Sau ánh xạ khái niệm, các phương pháp PPDP ngữ nghĩa sau đó sẽ có thể nắm bắt ngữ nghĩa được truyền tải bởi dữ liệu danh nghĩa Cụ thể, các phương pháp này sử dụng khái niệm khoảng cách ngữ nghĩa để so sánh về mặt ngữ nghĩa các giá trị danh nghĩa và do đó để phát hiện mức độ giống nhau của chúng và sự thích nghi dựa trên khoảng cách ngữ nghĩa của các toán tử số học tham gia vào quá trình che dấu

Hình 1 Liên kết với nhau trong các phương pháp PPDP ngữ nghĩa

2.5 Phân v

2.5 Phân vùng tùng t p dùng tậậậậập dp d u ữữữữữ lililililiệệệệệu

Người điều phối kết hợp phải khám phá cách phân vùng dữ liệu, tức là theo chiều ngang hoặc chiều dọc (xem Hình 2), như được giải thích trong việc phân vùng như vậy sẽ tạo điều kiện cho quy trình tích hợp và làm sạch dữ liệu Khi kết hợp dữ liệu được phân vùng theo chiều ngang, các quy trình tích hợp và làm sạch phải được ủy quyền cho người kết hợp, như trong phưong pháp tích hợp tập trung sau đó làm vệ sinh Tuy nhiên, không giống như cách tiếp cận tập trung, các nhà - xuất bản dữ liệu của quy trình làm sạch hợp tác sẽ đóng góp dữ liệu của họ theo cách bảo vệ quyền riêng tư bằng cách tuân theo một giao thức tích hợp và làm sạch có thể được quản lý bởi điều phối viên kết hợp Mặt khác, khi kết hợp dữ liệu được phân vùng theo chiều dọc, quy trình tích hợp và làm sạch phải được ủy quyền cho nhà xuất bản dữ liệu Không giống như phưong pháp làm vệ sinh cục bộ rồi tích hợp, trong đó mỗi nhà xuất bản làm sạch dữ liệu của mình một cách độc lập trước khi gửi chúng đến điều phối viên kết hợp, trong phưong pháp cộng tác, việc làm sạch phải được thực hiện một cách hợp tác bởi tất cả các nhà xuất bản dữ liệu tham gia vào quá trình kết hợp

Trang 9

10 Trong bối cảnh này, điều phối viên bắt đầu giao thức tích hợp và làm sạch và vẫn ở trong nền, mong nhận được tập dữ liệu tích hợp đã được khử trùng khi giao thức được hoàn thành

(a)Phân vùng dọc

(b) Phân vùng theo chiều ngang

2.6

2.6 Làm s Làm sLàm s chạạạạạchch m m m t bộộộộộ ảảảảảt bt b n dn dn d u kữữữữữ lililililiệệệệệu k t hu kếếếếế ợợợợợp t h p p ởởởởở đâu? đâu?

Các mô hình kiến trúc, của các ứng dụng dữ liệu, được liên kết được thảo luận,như một phưong tiện để cấu trúc các thành phần phần mềm bao gồm trong hệ thống (xem Hình 3) Trong kiến trúc này, các kỹ thuật làm sạch dữ liệu phải được thực hiện ở đâu để có được một bản trộn dữ liệu bảo vệ quyền riêng tư?

Ở lớp trên cùng, kiến trúc của ứng dụng LD thường được tạo thành từ một số mô đun truy cập, tích hợp và lưu trữ dữ liệu (tức là mô đun truy cập web, ánh xạ từ vựng, phân giải danh tính và đánh -giá chất lượng) Một tiện ích mở rộng đã được triển khai dựa trên lớp API LD trên đầu lớp tích hợp và truy cập dữ liệu, lớp này làm trung gian giữa các ứng dụng của người tiêu dùng và co sở dữ liệu tích hợp Cuối cùng, kết nối tất cả các mô đun chức năng của quyền truy cập dữ liệu và lớp tích hợp -dẫn đến cơ sở dữ liệu tích hợp cung cấp điểm cuối SPARQL hoặc modul trung gian API với dữ liệu RDF

-Ở dưới cùng, lớp xuất bản thường triển khai các mô đun trinh bao bọc, bằng cách cạo - làm giàu tài nguyên web, thêm ngữ nghĩa cần thiết vào các tài nguyên và bộ dữ liệu hiện có Thiết lập mô-đun phần mềm trung gian cũng là một chiến lược để tô chức lại các ứng dụng hiện có để xây dựng các trình bao bọc LD như vậy từ nhiều nguồn dữ liệu khác nhau Tuy nhiên, khi các nguồn dữ liệu được phân phối như vậy phải được khử trùng để bảo vệ quyền riêng tư, thì lớp kiến trúc nơi phải thực hiện khử trùng không rõ ràng

ID + các thuộc tính được chia sẻ khác

thuộc tính không

nhạy cảm thuộc tính nhạy cảm thuộc tính không nhạy cảm thuộc tính nhạy cảm

Lược đồ dữ liệu được chia sẻ ID

thuộc tính không nhạy cảm thuộc tính nhạy cảm

Party 1

• ••

Party N

Trang 10

11 Hình 3 Kiến trúc ứng dụng liên kết dữ liệu được mô tả bởi [Heath et al 2011]

Vấn đề về lớp kiến trúc nào phù họp hơn với việc khử trùng dữ liệu không phải là mối quan tâm riêng của các kiến trúc LD Trong các kiến trúc dữ liệu lớn phân tán dựa trên mô hình ETL, một ứng dụng kết hợp dữ liệu cũng có thề cần một số bộ dữ liệu từ những người quản lý dữ liệu khác nhau và đồng thời phải đương đầu với thách thức bảo toàn quyền riêng ưr (xem Hình 4) [20], Vị trí của các mô đun làm sạch dữ liệu thực hiện thuật toán phân tán để bảo vệ quyền riêng tư bảo vệ -từng tô họp tập dữ liệu theo cặp không rõ ràng trong thiết kế kiến trúc của hệ thống ETL Trong kiến trúc của Hình 4, nó nên là một phần của xác thực trước, xác thực ETL hay cả hai?

Để giải quyết câu trả lời cho câu hỏi về nơi nên tiến hành khử trùng trong cấu trúc kêt họp LD hoặc ETL, cân phải thực hiện phân tích các phương pháp làm vệ sinh chính Một mặt, trong phương pháp tích họp sau đó làm sạch, nó có vẻ hợp lý khi thực hiện cả quá trình tích hợp và kỹ thuật che PPDP trong mô đun đánh giá chất lượng của lớp tích hợp và truy cập dữ liệu Tuy nhiên, -nếu các yêu cầu về quyền riêng tư của dữ liệu được thực hiện trong lớp này, tính ẩn danh sẽ không được đáp ứng hoàn toàn cho các bản trộn dữ liệu phân tán bảo vệ quyền riêng tư, vì vi dữ liệu không được khử trùng phải đi qua tất cả hoặc một sô mô đun lớp trên (tức là, lớp truy cập, tích hợp -và lưu trữ dữ liệu) trước khi được lưu trữ trong cơ sở dữ liệu đã được tích hợp, nghiền nhỏ Mặt

Trang 11

12

khác, đố với phương pháp làm sạch sau đó tích hợp, có vẻ hợp lý khi các kỹ thuật che PPDP i - được thực hiện ở lớp xuất bản của kiến trúc ứng dụng dữ liệu được liên kết và quá trình tích hợp trong mô-đun đánh giá chất lượng của lớp tích hợp và truy cập dữ liệu Tuy nhiên, nếu có liên quan đến mã định danh được hình thành bởi các thuộc tính bao gồm các nhà xuất bản dữ liệu khác nhau, thì phương pháp này không hoạt động

Như một câu trả lời cho vấn đề nơi các bản trộn dữ liệu nên được khử trùng, chúng ta cần (1) triển khai các kỹ thuật ẩn danh và tích hợp dữ liệu trong cùng một lớp kiến trúc hoặc (2) để xác định một kiến trúc mới mà không tiết lộ tất cả các vi dữ liệu một cách hợp lý xây dựng kết hợp dữ liệu bảo vệ quyền riêng tư Nguồn gôc của sự đánh đổi kiến trúc này về các vấn đề PPDP là các kiến trúc LD hiện có không tính đến bản chất cộng tác của giao thức để làm sạch tập dữ liệu phân tán Các chức năng xuất bản dữ liệu bị hạn chế đôi với lớp xuất bản dữ liệu, nhưng có thể ảnh hưởng đến các lớp kiến trúc khác, như đã thảo luận ở trên

2.7 K

2.7 K thỹỹỹỹỹ thuuuuu t k th ậậậậậ ếếếếế ợợợợợt kt k t ht ht h ppppp d d d u liên kữữữữữ lilililiệệệệệliu liên k t bu liên kếếếếế ảảảảảt bt b o vo vo v quyệệệệệ quyền riêngền riêng tư tư

Phương pháp PPDP kỹ thuật được đề xuất trong bài báo này bao gồm một số chức năng được triển khai trong các mô-đun của kiến trúc ứng dụng LD (xem Hình 3) Các bước sau phải được thực hiện