Bảo vệ tính riêng tư trong khai thác cơ sở dữ liệu phân tán dọc

77 484 2
Bảo vệ tính riêng tư trong khai thác cơ sở dữ liệu phân tán dọc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM BÙI MINH TRÍ BẢO VỆ TÍNH RIÊNG TƯ TRONG KHAI THÁC CƠ SỞ DỮ LIỆU PHÂN TÁN DỌC LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60340102 TP HỒ CHÍ MINH, tháng 02 năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM BÙI MINH TRÍ BẢO VỆ TÍNH RIÊNG TƯ TRONG KHAI THÁC CƠ SỞ DỮ LIỆU PHÂN TÁN DỌC LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60340102 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS TSKH NGUYỄN XUÂN HUY TP HỒ CHÍ MINH, tháng 02 năm 2016 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học: PGS.TSKH Nguyễn Xuân Huy Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày … tháng … năm 2016 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: Họ Tên TT Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận văn sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CÔNG NGHỆ TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày … tháng… năm 2016 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Bùi Minh Trí Giới tính : Nam Ngày 26 tháng 12 năm sinh 1986 Nơi sinh : Đồng Tháp Chuyên ngành: Công nghệ thông tin MSHV : 1241860023 I- Tên đề tài: BẢO VỆ TÍNH RIÊNG TƯ TRONG KHAI THÁC CƠ SỞ DỮ LIỆU PHÂN TÁN DỌC II- Nhiệm vụ nội dung: - Tìm hiểu thuật toán khai thác luật kết hợp - Tìm hiểu thuật toán bảo toàn tính riêng tư khai thác liệu - Xây dựng ví dụ cho thuật toán nghiên cứu - Xây dựng chương trình Demo III- Ngày giao nhiệm vụ: 25/03/2014 IV- Ngày hoàn thành nhiệm vụ: 15/01/2016 V- Cán hướng dẫn: PGS.TSKH Nguyễn Xuân Huy CÁN BỘ HƯỚNG DẪN PGS.TSKH Nguyễn Xuân Huy KHOA QUẢN LÝ CHUYÊN NGÀNH i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn trích dẫn hay tài liệu học thuật tham khảo cảm ơn đến tác giả thông tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn Bùi Minh Trí ii LỜI CÁM ƠN Trước hết, cho gửi lời cảm ơn đến hướng dẫn giúp đỡ tận tình PGS.TSKH Nguyễn Xuân Huy Xin cảm ơn Thầy Cô Khoa Công nghệ thông tin trường Đại Học Công Nghệ TP HCM giúp đỡ cung cấp cho kiến thức quí giá suốt thời gian học tập nghiên cứu thực luận văn Xin cám ơn Thầy Cô thuộc phòng Quản lý khoa học - Đào tạo sau đại học tạo nhiều điều kiện thuận lợi cho suốt trình theo học Trường Tôi xin g i lời cảm ơn đến gia đình, bạn b người thân quan tâm giúp đỡ suốt thời gian học tập nghiên cứu hoàn thành luận văn Luận văn tránh khỏi sai sót, mong nhận ý kiến đóng góp người cho luận văn hoàn thiện Tôi xin chân thành cảm ơn TP Hồ Chí Minh, ngày… Tháng… năm 2016 Bùi Minh Trí iii TÓM TẮT Khai phá tri thức tiềm n s liệu mục tiêu chung ngành khoa học khai thác liệu nhiều nhà nghiên cứu quan tâm Trong năm gần đây, khai thác luật kết hợp s liệu phân tán nhận quan tâm nhà nghiên cứu Việc kết hợp liệu phân tán (ngang hay dọc) từ nhiều s liệu khác cho phép khai thác luật có lợi cho tất bên tham gia trình khai thác Tuy nhiên khai thác liệu từ nhiều bên nảy sinh vấn đề tính riêng tư liệu bên tham gia cần bảo vệ Phần lớn liệu bên có liệu nhạy cảm bên muốn cung cấp liệu để khai thác luật dùng chung muốn bảo vệ tính riêng tư liệu Để giải vấn đề nêu trên, nội dung nghiên cứu luận văn tập trung vào nghiên cứu thuật toán khai thác luật kết hợp, khai thác luật kết hợp s liệu phân tán dọc có bảo toàn tính riêng tư bên tham gia, viết chương trình thực nghiệm thuật toán nghiên cứu iv ABSTRACT The mining knowledge potential in the current database is the common goal of science data mining and it is very much interest researchers In recent years, mining association rules in distributed database has received the attention of the researchers, The combination of distributed data (horizontal or vertical) from many different databases will mining association rules beneficial for all parties involve However, when data mining from multiple parties will arise issues of data privacy of the parties involved should be protected Most data of each parties have sensitive data and the parties but wanted to provide data for mining association rules but they still want to protect the privacy of their data To solve the problem as stated above, research contents of the thesis will focus on the study of algorithms mining association rules, mining association rules in vertically distributed database with privacy preserving of the parties, programing an algorithm had studied v DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt CSDL DB Ý nghĩa Cơ s liệu DataBase Conf Độ đo tin cậy confidence Sup Độ đo hỗ trợ support MST Minsup (ngưỡng hỗ trợ tối thiểu) MCT Minconf (ngưỡng tin cậy tối thiểu) FI Frequent itemset (Tập phổ biến) PPDM Privacy Preserving Data Mining SM Safety Margin (khoảng an toàn) vi DANH MỤC CÁC BẢNG Bảng 1.1 Cơ s liệu giao dịch Bảng 3.1 CSDL thực hai bên Master Slave [1] .47 Bảng 3.2 CSDL giả hai bên Master Slave [1] 47 Bảng 3.3 Cơ s liệu DB1 bên .53 Bảng 3.4 Cơ s liệu DB2 bên .53 Bảng 3.5 Cơ s liệu DB3 bên .53 Bảng 3.6 Kết khai thác tập phổ biến toàn cục 57 49 Hình 3.5 Kết khai thác CSDL phân tán dọc bảo toàn tính riêng tư [1] Nhận xét thuật toán Về khả tiết lộ thông tin: Sự tiết lộ thông tin thuật toán phụ thuộc vào việc có tiết lộ thông tin từ bên thứ không? Điều xảy bên thứ liệu bên tham gia trình khai thác tập phổ biến Trong trường hợp sử dụng tiêu chí đánh giá việc bị lộ thông tin xác suất việc nhận giao dịch thật hay giả bên khai thác với liệu bên Gọi L tập tất TID thực từ CSDL Master, A tập thuộc TID thực từ CSDL Master A  L Cho m độ hỗ trợ tối thiểu lA kích thước A Cho Q: L → (T,F) kết tính toán b i bên thứ cho P(A)T xác suất mà Master nhận giao dịch a  A giao dịch thực CSDL Slave Với khái niệm này, tác giả định nghĩa số lượng thông tin bị tiết lộ b i thuật toán sau: Trong trình tính toán hỗ trợ tập A, Q(A) = T, xác suất mà Master phát giao dịch giao dịch thực P( A) T  m Nếu m = lA, P(A)T = lA suy CSDL bị tiết lộ hoàn toàn Nếu Q(A) = F, khả tìm 50 xác suất xác A từ thông tin Chúng P ( A) T  ta nói m 1 Như trường hợp Master xác định tập A giao dịch thực lA xảy độ hỗ trợ tối thiểu (minsup) với độ hỗ trợ A Lúc tập A chứa toàn TID thật Giả sử độ hỗ trợ tối thiểu m=4 Master gửi đến bên thứ tập hợp TID kết trả Điều có nghĩa TID vừa gửi TID thật Tiếp theo, Master giữ lại TID thật số TID đó, TID j khác Master gửi đến bên thứ tập hợp chứa TID thật TID j Nếu câu trả lời bên thứ Master xác định TID j giả Lần lượt Master tìm tất TID giả thông tin Slave bị lộ hoàn toàn Về thời gian thực hiện: Thuật toán tác giả [1] đề xuất cải tiến theo hướng giảm khối lượng liệu phải trao đổi máy trình khai thác luật giảm chi phí đường truyền Do thuật toán sử dụng phương pháp ITTree nên số lượng tập ứng viên (là tập xét có tập phổ biến hay không?) giảm nên việc truyền, nhận liệu từ Master với máy thứ giảm so với thuật toán [3] Ngoài phương pháp đề xuất tác giả luận án cải tiến cho bên thứ trả độ hỗ trợ tập ứng viên, từ bên Master có độ hỗ trợ để sinh luật nhằm phục vụ công việc thực tế (thay khai thác tập phổ biến) 3.2 MỘT MÔ HÌNH MỚI KHAI THÁC TRÊN CSDL PHÂN TÁN DỌC 3.2.1 Các bước thực Trong [4] tác giả đề xuất mô hình khai thác luật kết hợp CSDL phân tán dọc bảo toàn tính riêng tư bao gồm n bên tham gia bên khai thác (DM) Mỗi bên thứ i (i thuộc [1 n]) bao gồm s liệu DBi DBi bao gồm thuộc tính rời cho tập giao dịch, nghĩa giao dịch với thuộc tính khác tất bên Vai trò DM bắt đầu trình khai thác cách gửi ngưỡng minsup khóa công khai cho tất bên DM tham gia vào trình mã hóa giải mã cho tập mục thường xuyên để bảo vệ tính riêng tư bên, tên thuộc tính số thuộc tính tồn bên độ hỗ trợ chúng DM có đặc quyền để khai thác 51 tập mục thường xuyên toàn cục biết độ hỗ trợ tập DM tạo luật kết hợp sau chuyển đến cho tất bên Mục tiêu mô hình đề xuất tìm luật kết hợp toàn cục mà không tiết lộ tính riêng tư bên Các thông tin liên lạc ba bên DM thể sơ đồ sau đây: DM Bên1 Bên2 Bên3 Hình 3.6 Thông tin liên lạc bên DM Mỗi bên gửi thông tin cho bên kế tiếp, trang cuối gửi thông tin cho DM DM gửi thông tin cho tất bên (ngưỡng minsup khóa công khai) Mỗi bên thực tính toán cách sử dụng khái niệm sản ph m vô hướng với kết tính toán riêng kết tính toán thu từ bên trước gửi sang (trừ bên site1) Các bước mô hình đề xuất sau: Bước 1: DM kh i động trình khai thác cách gửi ngưỡng minsup mã khóa công khai cho tất bên Bước 2: Mỗi bên thực chuyển đổi s liệu thành CSDL giao dịch với mã giao dịch (TID) Bước 3: Mỗi bên tự khai thác tập mục thường xuyên cho tập TID dựa ngưỡng minsup nhận từ DM Bước 4: Đối với bên thứ k (k khoảng từ đến n), chu n bị ma trận Mk hàng tập mục thường xuyên giao dịch CSDL cục Trong ma trận này, Mk (i, j) = giao dịch cột thứ j xuất tập mục thường xuyên i hàng CSDL cục bên thứ k Bước 5: Mỗi bên thứ k chu n bị vector Vk, (k khoảng từ đến n), bao gồm tập mục thường xuyên cục bên k Điều quan trọng để trì mối quan hệ vector Vk ma trận Mk phần tử thứ i vector Vk tương ứng với giao dịch cho dòng thứ i ma trận Mk 52 Bước 6: Mỗi bên mã hóa tất tập mục thường xuyên vector Vk cách sử dụng khóa công khai nhận từ DM thành enVk Bước 7: Bên thứ (Bên1) gửi ma trận M1 enV1 đến bên thứ Bước 8: Bên thứ hai (Bên2) thực M1.M2 cách sử dụng khái niệm tích vô hướng chu n bị ma trận M12 bao gồm mục thường xuyên M1.M2 Bên thứ hai sau chu n bị ma trận M2' bao gồm M1, M2 M12 Bước 9: Bên thứ chu n bị vector enV2' bao gồm danh sách mã hóa tập mục thường xuyên có enV1, enV2 enV12 với enV12 đại diện cho tập mục thường xuyên mã hóa M12 Bên thứ hai gửi ma trận M2' với vector enV2' vào bên (site3) Bước 10: Mỗi bên thứ i (Bêni) bên lại Bên3, ,Bênn thực bước dựa vào ma trận vector (Mi-1', enVi-1') nhận từ bên thứ i-1 ma trận riêng (Mi) & vector mã hóa (enVi ) Bước 11: Bên cuối (Siten) có ma trận Mn' vector enVn' … Ở áp dụng kỹ thuật xếp enVn' dựa vào độ dài tập mục thường xuyên mã hóa theo thứ tự giảm dần Dựa theo vị trí mục thường xuyên đặt danh sách xếp enVn', ma trận Mn' xếp lại để theo thừ tự trật tự Ma trận Mn' với vector enVn' gửi đến DM Bước 12: DM áp dụng thuật toán giải mã khóa riêng cho phần tử vector enVn' để có tập mục item thường xuyên toàn cục DM tìm độ hỗ trợ tập mục thường xuyên toàn cục cách đếm số lượng tập mục hàng tương ứng ma trận Mn' chu n bị danh sách bao gồm tập mục thường xuyên toàn cục với độ hỗ trợ Bước 13: Dựa danh sách DM tạo luật kết hợp cho tập mục thường xuyên toàn cục cách sử dụng ngưỡng tin cậy tối thiểu (minconf) người sử dụng nhập vào Bước 14: Các luật tạo gửi đến tất bên Quy trình khai thác kết thúc 3.2.2 Minh họa mô hình Giả sử có CSDL giao dịch bên sau : 53 Bảng 3.3 Cơ sở liệu DB1 bên TID A1 A2 A3 T1 1 T2 1 T3 1 T4 T5 1 T6 Bảng 3.4 Cơ sở liệu DB2 bên TID A4 A5 T1 T2 T3 1 T4 T5 T6 Bảng 3.5 Cơ sở liệu DB3 bên TID A6 A7 A8 A9 T1 0 T2 0 T3 1 T4 1 0 T5 0 T6 1 1 Kh i động trình DM gửi hỗ trợ tối thiểu minsup= 40% mã khóa công khai đến tất bên (không có giải mã) Mỗi bên thực thuật toán tìm tập phổ biến để thiết lập tập mục thường xuyên cục dựa minsup người dùng quy định (DM gửi qua) 40% Tạo ma trận Mi vector Vi CSDL cục Bên thứ tạo ma trận M1: 54 M1 = 1 1 0 1 1 1 1 1 vector V1 = {A1, A2, A3, (A1,A3)} phần tử thứ i vector V1 tương ứng với dòng thứ i ma trận M1 tập mục thỏa minsup=40% (tương đương với số giao dịch xuất lớn hay 3) Sau Bên1 mã hoá phần tử V1 cách sử dụng mã khóa DM gửi đến Các hình thức mã hóa tập mục thường xuyên Bên1 sau: enV1= { e(A1), e(A2), e(A3), e(A1,A3)} Tiếp theo Bên1 gửi M1 enV1 đến Bên2 để Bên2 tính tập mục thường xuyên phối hợp tập mục thường xuyên Bên1 tập thường xuyên Bên2 Tại Bên2 tương tự Bên1 ta có M2 cục là: M2 = 1 1 0 1 enV2 = {e(A4), e(A5)}, tạo từ V2 Sau Bên2 tìm ma trận M12 vector enV12 dựa M1, enV1, M2 enV2 Với M12 có giá trị là: M12 = 1 1 0 1 1 1 Tiếp theo Bên2 tính toán M’2 cách nối M2, M12 vào M1 sau: M’2 = 1 1 0 1 1 1 1 1 1 1 0 1 1 1 0 1 55 1 1 Với enV’2 = {e(A1), e(A2), e(A3), e(A1,A3), e(A4), e(A5), e(A1,A4), e(A3,A4), e((A1,A3),A4)} tính cách nối enV2, enV12 vào enV1 Sau Bên2 gửi ma trận M’2 enV’2 đến bên thứ Tại tính toán thực sau: M3 = 0 1 1 1 0 1 1 0 1 0 1 Và mã hóa enV3 từ V3 = {e(A6), e(A7), e(A8), e(A9), e(A6,A7)} Tiếp theo Bên3 tính M’23 theo phương pháp vô hướng từ ma trận M’2 M3 M’23 = 0 0 0 1 1 0 Và enV’23={e(A2,A6), e((A2,A6),A7), e(A5,A7)} Bên thứ tiếp tực tạo ma trận M’3 cách nối ma trận M3, M’23 vào M’2 tạo vector mã hóa enV’3 cách nối enV3, enV’23 vào enV’2 ta có: enV’3 = { e(A1), e(A2), e(A3), e(A1,A3), e(A4), e(A5), e(A1,A4), e(A3,A4), e((A1,A3),A4), e(A6), e(A7), e(A8), e(A9), e(A6,A7), e(A2,A6), e((A2,A6),A7), e(A5,A7)} Do Bên3 Bên cuối chuỗi Bên tham gia khai thác, nên Bên3 xếp tập mục thường xuyên vector enV3’ giảm dần dựa vào độ dài tập mục thường xuyên enV3’ Vì tập vector enV3’ có kết sau: enV’3 = {e((A1,A3),A4), e((A2,A6),A7), e(A1,A3), e(A1,A4), e(A3,A4), e(A6,A7), e(A2,A6), e(A5,A7), e(A1), e(A2), e(A3), e(A4), e(A5), e(A6), e(A7), e(A8), e(A9)} Dựa vào thứ tự tập mục thường xuyên ma trận mã hóa enV’3 ma trận M’3 xếp lại theo thứ tự tương ứng thành ma trận RM’3 56 Ma trận M’3 Ma trận RM’3 1 1 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 1 1 0 1 0 1 1 0 1 1 1 1 1 0 1 0 1 1 1 1 1 0 1 1 1 1 0 1 0 1 0 1 0 1 0 0 1 1 0 1 0 1 1 0 1 0 Đến Bên3 gửi RM’3 enV’3 sang DM để khai thác tập phổ biến toàn cục Tại DM, DM nhận kết từ Bên cuối (trong ví dụ Bên3) Sau sử dụng khóa riêng tư để giải mã tập vector enV’3 Do enV’3 xếp theo thứ tự giảm dần chiều dài tập mục phổ biến tất bên gộp lại nên DM liệu thường xuyên bên Bên DM bắt đầu khai thác tập mục thường xuyên toàn cục cách đếm số số hàng tương ứng ma trận nhận RM'3 kết tập mục thường xuyên toàn cục thỏa minsup=40% Bảng 3.4 kết khai thác tập mục thường xuyên toàn cục DM 57 Bảng 3.6 Kết khai thác tập phổ biến toàn cục Tập mục Sup Tập mục Sup Tập mục Sup A1 A7 (A2,A6) A2 A8 (A5,A7) A3 A9 (A6,A7) A4 (A1,A3) (A1,A3,A4) A5 (A1,A4) (A2,A6,A7) A6 (A3,A4) Tại DM, dựa vào tập phổ biến toàn cục, DM sinh luật kết hợp theo thuật toán phát luật kết hợp từ tập phổ biến trình bày chương Trong trường hợp ví dụ ta xét thử tập phổ biến (A1,A4) với ngưỡng tin cậy minconf =70% Ta thấy : Sup(A1,A4)/Sup(A1) = ¾ = 75% > minconf, có luật A1  A4 Sup(A1,A4)/Sup(A4) = ¾ = 75% > minconf, có luật A4  A1 Sau khai thác tất luật kệt hợp từ tập phổ biến toàn cục, DM gửi tất luật cho bên tham gia khai thác 3.3 MÔ HÌNH ĐỀ XUẤT KHAI THÁC TRÊN CSDL PHÂN TÁN DỌC 3.3.1 Cơ sở lý thuyết Dựa nghiên cứu mô hình khai thác luật kết hợp CSDL phân tán dọc [4] trình bày 3.2 chương thuật toán khai thác tập phổ biến đóng CHARM [7] trình bày chương nhận thấy Trong thực tế, việc khai thác luật kết hợp không cần thiết, người ta quan tâm đến tập phổ biến, ví dụ CSDL sinh học, liệu lưu trữ biến đổi Gien, CSDL dạng số giao tác (|TID|) nhỏ số lượng lưu trữ Gien lớn nên khai thác người ta quan tâm đến tập Gien xuất (tập phổ biến) không quan tâm đến luật kết hợp Vì trường hợp này, đề xuất thay đổi mô hình khai thác CSDL phân tán dọc bảo toàn tính riêng tư [4] thành mô hình khai thác tập phổ biến đóng CSDL phân tán bảo toàn tính riêng tư Khi sử dụng mô hình khai thác luật phổ biến đóng bên gửi liệu (ma trận) cho thấy, số lượng liệu phải 58 gửi nhận bên giảm nhiều giảm chi phí đường truyền thời gian khai thác 3.3.2 Mô hình đề xuất Các bước mô hình đề xuất (14 bước) giống mô hình [4] trình bày mục 3.2.1 chương luận văn Một số thay đối bước nhỏ thể sau : Bước 3: Mỗi bên tự khai thác tập mục phổ biến đóng cho tập TID dựa ngưỡng minsup nhận từ DM Bước 4: Đối với bên thứ k (k khoảng từ đến n), chu n bị ma trận Mk hàng tập mục phổ biến đóng giao dịch CSDL cục Trong ma trận Bước 5: Mỗi bên thứ k chu n bị vector Vk, (k khoảng từ đến n), bao gồm tập phổ biến đóng cục cục bên k Điều quan trọng để trì mối quan hệ vector Vk ma trận Mk phần tử thứ i vector Vk tương ứng với giao dịch cho dòng thứ i ma trận Mk Bước 6: Mỗi bên mã hóa tất tập phổ biến đóng vector Vk cách sử dụng khóa công khai nhận từ DM thành enVk Các bước tiếp theo, bên thứ k khai thác tập phổ biến đóng tạo ma trận Mk, vector enVk cục sau tạo M’k enV’k từ k-1 gửi sang tương tự bước tác giả [4] 3.4 THỰC NGHIỆM KHAI THÁC TRÊN CSDL PHÂN TÁN DỌC Để kiểm tra tính hiệu mô hình khai thác luật kết hợp CSDL phân tán dọc trình bày chương Chương trình áp dụng mô hình khai thác CSDL phân tán dọc bảo toàn tính riêng tư bên tham gia khai thác viết ngôn ngữ C# với giả sử gồm bên tham gia khai thác luật kết hợp toàn cục từ liệu cục bên bên DM điều khiển trình khai thác Giả sử chương trình thực máy thể chức bên Khi thực chương trình, hình Bên1 có cấu trúc hình 3.7 Cấu hình máy tính thực thực nghiệm là: X1 Carbon, xử lý Core i5 GB nhớ chính, chạy hệ điều hành Windows 10 - 64bit, Microsoft Visual Studio 2015, DotNet FrameWork 4.5 59 Hình 3.7 Màn hình Bên1 Bắt đầu chương trình, DM gửi mã khóa công khai minsup cho tất bên tham gia khai thác Tại bên 1, liệu lưu file có phần m rộng TXT chọn xử lý thành CSDL giao dịch dạng nhị phân Sau nhấn nút Import, CSDL đọc vào sổ nàm hình Vector V1 thể tập phổ biến CSDL bên 1, enV1 thể tập phổ biến mã hóa Sau liệu (M1, enV1)sẽ chuyển sang bên thứ Hình 3.8 Màn hình Bên2 Tại Bên2, bước thực tương tự mô hình Bên2 trộn liệu Bên1 thành M12 sinh M’2 từ ma trận Sau gửi M’2 enV’2 sang Bên3 Tại Bên3, bước thực tương tự Bên2 với 60 liệu từ Bên2 gửi sang Bên3 trộn lại Trong thực nghiệm Bên3 bên cuối nên thực xếp lại ma trận M’3 theo chiều giảm dần chiều dài tập phổ biến, enV’3 xếp lại theo M’3 thành RM’3 sau liệu chuyển cho Bên DM khai thác Tại Bên DM, nhận ma trận xếp RM’3 vector mã hóa xếp enV’3 Lúc DM sử dụng khóa giải mã để giải mã vector enV’3 tiến hàng khai thác dựa vector ma trận RM’3 cho tập phổ biến độ hỗ trợ tập phổ biến hình 3.9 Hình 3.9 Màn hình Bên DM Tại đây, bước cuối DM tiến hành khai thác luật phổ biến toàn cục gửi kết cho bên 61 PHẦN KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Luận văn trình bày phần lý thuyết số thuật toán khai thác luật kết hợp luật kết hợp đóng (Apriori, IT-Tree, Charm), lý thuyết bảo toàn tính riêng tư khai thác liệu, thuật toán khai thác tập phổ biến luật kết hợp CSDL phân tán dọc có bảo toàn tính riêng tư Từ luận văn đề xuất số trường hợp, cần khai thác đến tập phổ biến mô hình khai thác [4] chuyển thành mô hình khai thác tập phổ biến đóng dựa thuật toán Charm [7] để giảm chi phí truyền nhận thông tin bên giảm thời gian khai thác Tuy mô hình đề xuất có đóng góp không trùng lắp với đề xuất có trước, thực khai thác tập phổ biến đóng Các phần m rộng cài đặt mô hình đề xuất tác giả đưa vào phần hướng phát triển tương lai Kết thực nghiệm mô hình khai thác [4] cho thấy tính đắn mô hình khai thác CSDL dọc bảo toàn tính riêng tư bên tham gia khai thác Khi áp dụng mô hình thực tế với nhiều bên tham gia khối lượng liệu lớn, việc giảm khối lượng liệu truyền nhận bên khai thác tập phổ biến đóng cho phép giảm chi phí lớn Hướng phát triển Đóng góp luận văn dừng lại việc nghiên cứu số thuật toán liên quan đến hướng nghiên cứu luận văn góp ý đề xuất phương pháp cải tiến nhằm tăng tốc độ truyền nhận liệu Phần thực nghiệm luận văn chưa chạy nhiều máy CSDL giao dịch cung cấp mạng để so sánh đánh giá với mô hình khác Phần tác giả tiếp tục nghiên cứu hoàn thiện chương trình thời gian tới Ngoài ra, phần thực nghiệm luận văn cần m rộng so sánh với số thuật toán khác có mục đích khai thác tập phổ biến đóng CSDL phân tán dọc có bảo toàn tính riêng tư bên tham gia khai thác để có kết so sánh khách quan Ngoài cần thực nghiệm nhiều loại CSDL khác có tình thực tế cao 62 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Cao Tùng Anh (2007), Khai thác luật kết hợp sở liệu phân tán dọc, Hội thảo quốc gia công nghệ thông tin truyền thông, Đại Lãi 1415/09/2007, tr 169-179 [2] Võ Đình Bảy, Cao Tùng Anh, Lê Hoài Bắc (2010), Khai thác song song tập phổ biến CSDL phân tán dọc, Kỷ yếu hội nghị khoa học công nghê thông tin, Đại học Đà Lạt, Đà Lạt 11/2010, tr 66-73 Tiếng Anh [3] Boris Rozenber, Ehud Gudes (2006), Association rules mining in vertically partitioned databases, Journal Data & Knowledge Enginering Volume 59, pp 378-396 [4] N V Muthu Lakshmi, K Sandhya Rani (2012), Privacy Preserving Association Rule Mining in Vertically Partitioned Databases, International Journal of Computer Applications (0975 – 8887) Volume 39– No.13, pp 2935 [5] Shariq J.Rizvi , Jayant R.Haritsa (2002), Maintaining data privacy in association rule mining, Proceedings of the 28th international conference on Very Large Data Bases,, Hong Kong, China, pp 682 – 693 [6] Yucel Saygin, Vassilios S.Verykios, Chris Clifton (2001), Using unknowns to prevent discovery of association rules, ACM SIGMOD Record, Volume 30, Issue 4, pp 45 – 54 [7] Zaki M J., Hsiao C (1999), CHARM: An Efficient Algorithm for Closed Association Rule Mining, Technical Report 99-10, Computer Science Department, Rensselaer Polytechnic Institute, Troy NY 12180, pp 1-20 [8] Y Lindell and B Pinkas (2009), Secure Multiparty Computation for Privacy-Preserving Data Mining, The Journal of privacy and Confidentiality, Number 1, pp 59-98 [9] Alan F Karr, Xiaodong Lin, Ashish P Sanil, JeromeP Reiter (2009), Privacy-Preserving Analysis of Vertically Partitioned Data Using Secure 63 Matrix Products, Journal of Official Statistics, Volume 25, No.1, pp 125– 138 [10] E Poovammal, M Ponnavaikko (2009), Utility Independent Privacy Preserving Data Mining on Vertically Partitioned Data, Journal of Computer Science (9), Science Publications, pp 666-673 [11] S.Verykios, Ahmed K Elmagarmid, Bertino Elisa, Yucel Saygin, and Dasseni Elena (2004), Association rule hiding, IEEE Transactions on Knowledge and Data Engineering, Volume 16, Issue 4, pp 434 – 447 [...]... 37 CHƯƠNG 3 KHAI THÁC CƠ SỞ DỮ LIỆU PHÂN TÁN DỌC BẢO TOÀN TÍNH RIÊNG TƯ 41 3.1 CÁC NGHIÊN CỨU LIÊN QUAN 41 3.1.1 Thuật toán khai thác dữ liệu phân tán dọc bảo toàn tính riêng tư 41 3.1.2 Thuật toán sử dụng PP IT-Tree khai thác CSDL phân tán dọc 44 3.1.2.1 Thuật toán 46 3.1.2.2 Minh họa thuật toán 47 3.2 MỘT MÔ HÌNH MỚI KHAI THÁC TRÊN CSDL PHÂN TÁN DỌC 50 3.2.1... luận Chương 1: trình bày tổng quan về khai thác dữ liệu Chương 2: trình bày lý thuyết về bảo toàn tính riêng tư trong khai thác dữ liệu Chương 3: trình bày một số thuật toán, mô hình khai thác trong khai thác tập phổ biến, luật kết hợp trên CSDL phân tán dọc bảo toàn tính riêng tư của các bên tham gia và chương trình thực nghiệm 4 CHƯƠNG 1 TỔNG QUAN VỀ KHAI THÁC DỮ LIỆU 1.1 GIỚI THIỆU ĐỀ TÀI Sự phát... kết trên CSDL phân tán bảo toàn tính riêng tư của các bên tham gia khai thác Theo đánh giá của các tác giả [4] thì mô hình khai thác này đảm bảo tính riêng tư an toàn cho các bên tham gia khai thác Từ mô hình [4] luận văn cuãng mạnh dạn đề xuất một thay đổi nhỏ trong bước khai thác tập phổ biến thành khai thác tập phổ biến đóng để làm giảm chi phí truyền, nhận dữ liệu và tăng hiệu quả khai thác, cài đặt... và có thể làm lộ thông tin nhạy cảm về dữ liệu của các bên tham gia Luận văn sẽ tập trung nghiên cứu các thuật toán khai thác trên CSDL phân tán dọc có quan tâm đến việc bảo toàn tính riêng tư của các bên tham gia cung cấp dự liệu cho quá trình khai thác Mục tiêu và phạm vi nghiên cứu Một số thuật toán khai thác luật kết hợp trên CSDL phân tán bảo toàn tính riêng tư đã được nhiều tác giả đề xuất [1,4,8,9,10]... tiềm n trong các tập dữ liệu lớn một cách tự động Khám phá tri thức hay phát hiện tri thức trong cơ s dữ liệu (CSDL) là một quá trình gồm một loạt các bước phân tích dữ liệu nhằm rút ra được các thông tin có ích, xác định được các giá trị, quy luật tiềm n trong các khuôn mẫu hay mô hình dữ liệu c) Khai thác dữ liệu: Là một bước trong quá trình khám phá tri thức, gồm các thuật toán khai thác dữ liệu chuyên... lượng dữ liệu ngày càng lớn đã thúc đ y một lĩnh vực nghiên cứu đầy tiềm năng là khai phá tri thức và khai thác dữ liệu Chúng ta đang bị ngập trong khối dữ liệu khổng lồ nhưng những dữ liệu thật sự có giá trị cho chúng ta thì rất nhỏ Do đó, việc khai thác dữ liệu (data mining) là quá trình giúp chúng ta có được những dữ liệu có giá trị từ khối dữ liệu khổng lồ đó Ví dụ, tại một siêu thị, qua quá trình khai. .. hình cũng là một phần đóng góp của luận văn Phương pháp nghiên cứu - Nghiên cứu tổng quan về khai thác dữ liệu, tiến hành thu thập và nghiên cứu các tài liệu có liên quan đến đề tài - Tìm hiểu các thuật toán khai thác dữ liệu, khai thác dữ liệu trên CSDL phân tán dọc có quan tâm đến việc bảo vệ tính riêng tư của các bên tham gia - Xây dựng chương trình thực nghiệm cho mô hình thuật toán đã nghiên cứu... HÌNH ĐỀ XUẤT KHAI THÁC TRÊN CSDL PHÂN TÁN DỌC 57 3.3.1 Cơ s lý thuyết 57 3.3.2 Mô hình đề xuất 58 3.4 THỰC NGHIỆM KHAI THÁC TRÊN CSDL PHÂN TÁN DỌC 58 PHẦN KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 61 TÀI LIỆU THAM KHẢO 62 1 PHẦN MỞ ĐẦU Lý do chọn đề tài Khai thác dữ liệu (data mining) hiện nay là hướng nghiên cứu được rất nhiều người quan tâm Kỹ thuật khai thác dữ liệu được... toán khai thác trên CSDL phân tán ra đời Phần lớn các thuật toán hiện nay thường thực hiện trên CSDL phân tán ngang và có quan tâm đến việc bảo toàn tính riêng tư về dữ liệu của các bên tham gia Với luận văn này, tác giả muốn tổng hợp một số thuật toán hiện nay có thể khai thác được các luật từ CSDL phân tán dọc cho các bên tham gia, từ đó có thể ứng dụng vào công việc mang lại lợi ích cho các bên và bảo. .. 38 Hình 3.1 Mô hình khai thác cho 2 bên [3] 44 Hình 3.2 Mô hình khai thác cho n bên [3] 44 Hình 3.3 Thuật toán khai thác tập phổ biến bảo toàn tính riêng tư [1] .46 Hình 3.4 Kết quả tạo ra lớp tư ng đương [1] 48 Hình 3.5 Kết quả khai thác trên CSDL phân tán dọc bảo toàn tính riêng tư [1] 49 Hình 3.6 Thông tin liên lạc giữa 3 bên và DM 51 Hình 3.7 Màn hình của

Ngày đăng: 17/11/2016, 16:46

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan