Một thuật toán đảm bảo tính riêng tư trong khai thác luật kết hợp trên cơ sở dữ liệu phân tán ngang

71 5 0
  • Loading ...
1/71 trang

Thông tin tài liệu

Ngày đăng: 02/01/2019, 10:55

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN TRUNG KIÊN MỘT THUẬT TỐN ĐẢM BẢO TÍNH RIÊNG TRONG KHAI THÁC LUẬT KẾT HỢP TRÊN SỞ DỮ LIỆU PHÂN TÁN NGANG LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thơng tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng 04 năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN TRUNG KIÊN MỘT THUẬT TỐN ĐẢM BẢO TÍNH RIÊNG TRONG KHAI THÁC LUẬT KẾT HỢP TRÊN SỞ DỮ LIỆU PHÂN TÁN NGANG LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS CAO TÙNG ANH TP HỒ CHÍ MINH, tháng 04 năm 2017 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TP HCM Cán hướng dẫn khoa học (Ghi rõ họ, tên, học hàm, học vị chữ ký) TS.Cao Tùng Anh Luận văn Thạcbảo vệ Trường Đại học Công nghệ TP HCM ngày 23 tháng 04 năm 2017 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên PGS TS Quản Thành Thơ Chức danh Hội đồng Chủ tịch TS Vũ Thanh Hiền Phản biện TS Nguyễn Thị Thúy Loan PGS TS Võ Đình Bảy Phản biện Ủy viên TS Lê Văn Quốc Anh Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tị ch Hội đồng đánh gi LV PGS TS Quản Thành Thơ TRƯỜNG ĐH CÔNG NGHỆ TP.HCM CỘNG HÒA Xà HỘI CHỦ NGHĨA VIỆT NAM VIỆN ĐÀO TẠO S AU ĐẠI HỌC Độc lập – Tự – Hạnh phúc TP.HCM, ngày 27 tháng 04 năm 2017 NGHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Trung Kiên Giới tính: Nam Ngày, tháng, năm sinh: 15/07/1979 Nơi sinh: Ninh Bình Chun ngành: Cơng nghệ thông tin MSHV: 1341860008 I Tên đề tài : Một thuật tốn đảm bảo tính riêng khai thác luật kết hợp sở liệu phân tán ngang II Nhi ệm vụ nội dung: - Nghiên cứu thuật toán, phương pháp khai thác tập phổ biến, luật kết hợp CSDL CSDL phân tán ngang - Nghiên cứu ECC Elliptic Curve Cryptography - Nghiên cứu thuật toán MHS khai thác CSDL phân tán ngang bảo tồn tính riêng - Nghiên cứu thuật toán EMHS khai thác CSDL phân tán ngang bảo tồn tính riêng - Nghiên cứu thuật tốn mà tác giả [7] đề xuất, thực nghiệm, đánh giá, so sánh khả bảo vệ tính riêng thời gian tính tốn so với thuật tốn EMHS - Viết chương trình thực nghiệm để so sánh quyền riêng thời gian tính tốn, cho thuật toán EMHS thuật toán đề xuất III Ngày gi ao nhi ệm vụ: 26/09/2016 IV Ngày hoàn thành nhi ệm vụ: 26/03/2017 V Cán hướng dẫn: TS Cao Tùng Anh CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) (Họ tên chữ ký) TS Cao Tùng Anh i LỜI CAM ĐOAN Tôi xin cam đoan luận văn thực sở nghiên cứu, tổng hợp phát triển phương pháp bảo mật tính riêng sở liệu phân tán khái thác liệu Các đề xuất luận văn tơi thực qua trình nghiên c ứu thực không chép nguyên tài liệu khác Tác giả Nguyễn Trung Kiên ii LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành biết ơn sâu sắc đến TS Cao Tùng Anh, người thầy hướng dẫn, bảo tận tình cho tơi suốt q trình nghiên cứu thực luận văn Tôi xin chân thành cảm ơn tất đồng nghiệp khoa Công Nghệ Thông Tin, trường Cao Đẳng Công Nghệ Thông Tin Thành Phố Hồ Chí Minh thầy cổ vũ, động viên, giúp đỡ thời gian thực luận văn Con xin cảm ơn Ba, Mẹ người thân kích lệ, động viên, giúp đỡ suốt thời gian học tập, nghiên cứu để thành ngày Cuối cùng, xin gửi lời cảm ơn đến tất anh chị, bạn bè giúp đỡ, chia sẻ, động viên suốt thời gian học tập thực luận văn Tác giả Nguyễn Trung Kiên TÓM TẮT Những thuận lợi kỹ thuật khai thác liệu đóng vai trò quan trọng nhiều lĩnh vực ứng dụng khác Trong bối cảnh tính riêng vấn đề bảo mật, vấn đề gây kỹ thuật khai thác luật kết hợp gần xem xét Việc lạm dụng kĩ thuật tiết lộ thông tin nhạy cảm chủ sở hữu sở liệu cho người khác Do đó, riêng cá nhân khơng bảo tồn Nhiều nhà nghiên cứu gần cố gắng để bảo vệ tính riêng kiến thức nhạy cảm thông tin sở liệu thực Trong luận văn này, tác giả trình bày thuật tốn sửa đổi từ thuật toán EMHS để cải thiện hiệu khai thác cách sử dụng Elliptic Curve Cryptography Thử nghiệm liệu khác cho thấy thuật tốn sửa đổi hiệu so sánh với EMHS thời gian tính tốn ABSTRACT The advantages of data mining techniques play an important role in many different application areas In the context of privacy and security issues, the problems posed by recent combining data mining techniques have been examined Abuse of this technique may expose the sensitive information of the database owner to others Consequently, personal privacy is not preserved Many researchers have recently tried to protect the privacy of sensitive knowledge or information in the real database In this article, we have modified the EMHS algorithm to improve its efficiency by using Elliptic Curve Cryptography technique Cryptography We use for encoding uniformity Analyzing ECC's Elgamal trials on different datasets suggests that algorithmic recommendations are effective when compared with EMHS on computational time MỤC LỤC CHƯƠNG TỔNG QUÁT LUẬN VĂN 1.1 Giới t hiệu chung 1.2 Khai t hác tập phổ biến l uật kết hợp 1.2.1 Các khái niệm 1.2.2 Khai t hác tập phổ biến l uật kết hợp 1.2.3 Thuật toán Apriori 1.2.4 Phương pháp IT- Tree 14 1.2.5 Thuật toán khai thác luật kết hợp 19 CHƯƠNG GIỚI THIỆU VỀ DỮ LIỆU PHÂN TÁN 21 2.1 Khái niệm sở liệu phân t án 21 2.2 sở liệu phân t án ngang 21 2.2.1 Tính đ ầy đủ 24 2.2.2 Tính t t hiết lập 24 2.2.3 Tính t ách biệt 24 CHƯƠNG THUẬT TOÁN EMHS VÀ CÁC THUẬT TOÁN LIÊN QUAN 25 3.1 Bảo vệ đ a tính to án với Tr usted Third Party 25 3.2 Bảo mật đa tính tốn với mơ hì nh Se mi-Honest .25 3.3 Thuật toán MHS liệu phân t án ngang 26 3.4 Thuật toán EMHS liệu phân tán ngang .26 3.4.1 Tập phổ biến tối đại 26 3.4.2 Thuật toán RSA 26 3.4.3 Hệ thố ng mật mã Homomor phic Paillier 26 3.4.4 Thuật toán EMHS .27 Gi đoạn 3: (1) Mỗi site tính tốn |���| = ∑� � =1 |�� | cách sử � dụng giai đoạn (2) Cuối cùng, Initiator tạo luật kết hợp toàn cục gửi kết cho tất site khác Ví dụ minh họa chi tiết cho giao thức: Cho sở liệu giao dịch D (Bảng 1), thêm vào giao dịch mới, I = {A, B, C, D, E} Áp dụng thuật tốn Eclat để tìm tập phổ biến thỏa minSup = 50% Ta minSup count = (50 * 12)/100 = C T I T A B B C A B A B A B B C A B B C A C C E B D A D Sử dụng thuật toán Eclat Apriori tìm FI D F C o A B C D A D B C B D C D (1) sở liệu tập chung, tìm FI D với minSup=50% Phân mảnh liệu D thành site sau : Initiator ABD BCE ABCDE Combiner ABCE ABCD BCD Site Site ABCD BCD ACD CE Site BD ADE (2) sở liệu sở liệu phân tán Tìm FI D với minSup=50% Tìm tập tối đại site : MFIInit iat or = {ABD, BCE} MFICombiner={ABC, BCD} MFISit e1 = {ABCD} MFISit e2 = {CE, Tìm MFI toàn cục GlobalMFI={ABCD, ADE, BCE} ACD} MFISit e3 ={BD, ADE} Các site tính độ hỗ trợ cục Site A–1 AB–1 ABC–1 ABCD–1 B–2 AC–1 ABD–1 C–2 D–2 A A D C BD–1 C –E C D E C D D– B B – E– – E– – C C 1 1 C –2 D– D Combiner A – B D – A A B B –2 C– A B B C C C–3 D– D– AE CE –1 Site A–1 AC–1 C–2 AD–1 Site A–1 AE–1 ADE–1 B–1 AD–1 Initiato r A A A A – B– B B C A A C– C – D– C 2B D– E A – C D –2 E– B C D –1 D E1 |�� | = Initiator FI global � 12 Sup=6 A–7 AD–6 B–9 BC–7 C–9 BD–7 D–9 CD–6 Hình Initiator tìm FI phổ biến toàn cục CHƯƠNG KẾT QUẢ THỰC NGHIỆM Trong phần này, tác giả viết chương trình thực nghiệm đánh giá EMHS thuật toán sửa đổi từ EHMS (I-EMHS) quyền riêng thời gian tính tốn 5.1 So sánh ri êng EMHS thuật toán sửa đổi từ EMHS tác giả trong[7] mơ hình bán trung thực (semi-honest) Kích thước khóa ECC nhỏ, cung cấp khả bảo mật tương đương so với RSA Do đó, tính riêng tương tự EMHS thuật toán sửa đổi từ EHMS tác giả 5.2 So sánh tí nh tốn thời gi an Cả hai EMHS thuật toán đề xuất thực với số lượng site với hai liệu thực: Chess Mushroom1 Tất liệu tính khác giải thích Bảng C C he M us D òn 31 96 81 24 C ột 37 23 Bảng Mô tả chi tiết sở liệu thực nghiệm Các kết thử nghiệm liệu khác số lượng site 5, thời gian tính tốn so với EMHS thuật toán Kết so sánh EMHS thuật tốn I-EMHS trình bày tương ứng mục 5.3 5.3 Kết thực nghi ệm Khai thác luật kết hợp gồm hai giai đoạn tìm tập phổ biến phát sinh luật kết hơp Khi tìm tập phổ biến phát sinh luật kết hợp Vì luận văn thực nghiệm giai đoạn tìm tập phổ biến tồn cục Dữ liệu Chess M ushroom tham khảo từ trang web[9]: ht t p ://fimi.ua.ac.be/dat a Trong thực nghiệm, liệu phân mảnh ngang thành phần sở record Và thiết lập ngưỡng hỗ trợ tối thiểu (MST) =70%, 80%, 90% cho liệu Mushroom, ngưỡng hỗ trợ tối thiểu (MST) =80%, 85%, 90% cho liệu Chess ngưỡng tin cậy tối thiểu (MCT) = 40% Thuật toán CharmMFI[10][5 ] sử dụng để tìm MFI cục từ itemsets site Thuật toán Eclat[10] sử dụng để tìm FI cục từ itemsets site thuật tốn Chương trình thực nghiệm sử dụng ngơn ngữ lập trình C# Visual Studio 2013, DotNet FrameWork 4.5, hệ điều hành Windows 10 Pro 64bit Sử dụng hệ mã hóa đẳng hình Paillier, kích cỡ khóa 384bit để đảm bảo tính riêng cho giao thức tính độ phổ biến tồn cục Mục đích thực nghiệm đánh giá bảo mật tính riêng thời gian chạy thuật tốn EMHS thuật tốn sửa đổi từ EMHS Máy tính để chạy thực nghiệm laptop cấu sau: - CPU: Intel® Core™ i5 M480, 2.67GHz - RAM: 4G - Network Adapter: Broadcom Netlink™ Gigabit Ethernet Chương trình thực nghiệm cấu hình site chạy máy tính (theo giao thức giao tiếp hình 5) Do chạy thực nghiệm máy nên thời gian truyền liệu qua lại site thời gian ghi, đọc file Trong thực nghiệm để rút ngắn thời gian chạy thuật toán, tác giả bỏ phần mã hóa Paillier giai đoạn thuật tốn Thao tác khơng ảnh hưởng đến kết so sánh thời gian chạy thuật tốn Ví dụ: Ta thời gian t1 , t2 , tpaillier Giả sử t1 +tpaillier > t2 +tpaillier hiển nhiên t1 >t2 Thời gian chạy thuật tốn phụ thuộc vào cấu hình máy tính mạnh hay yếu Trong chương trình thực nghiệm cài đặt thuật tốn, chạy cấu hình máy nên đảm bảo tính khách quan so sánh thời gian chạy 5.3.1 Chương trì nh thực nghi ệm I-EMHS Chương trình khởi động từ Site Initiator hình điều khiển xem hình Hình Màn hình điều khiển Site Initiator Trên hình điều khiển cho phép sử dụng cuộn để thay đổi ngưỡng hỗ trợ tối thiểu (minSup), chọn thuật toán, chọn tập liệu thực để tìm tập phổ biến toàn cục sở liệu phân tán ngang site Khi tìm tất tập phổ biến toàn cục kết lưu vào tập tin GlobalFI.txt Desktop, thời gian thực tính tốn hiển thị hình điều khiển Initiator Trên hình điều khiển cuộn thay đổi ngưỡng tin cậy tối thiểu (minConf) dùng để tìm tập luật thỏa ngưỡng Hiện chức chưa thực tác giả tập chung vào việc tìm tập phổ biến toàn cục, thời gian thực bảo mật tính riêng cho liệu Khi tập phổ biến tồn cục phát sinh luật kết hợp thỏa minConf, xem mục 1.2.5 Khi Initiator khởi động lên, đồng thời gọi bên: Combiner, Site 1, Site 2, Site chạy mở cổng giao tiếp (port) để lắng yêu cầu từ Site Initiator 5.3.2 Bi ểu đồ so sánh thời gi an sở l i ệu Mushroom phân mảnh ngang thành phần tương đương cho sites sau: I i C m S d T ê Bảng Phân mảnh sở liệu Mushroom Kết so sánh thời gian chạy ngưỡng hỗ trợ khác nhau, ngưỡng hỗ trợ tác giả chạy năm lần lấy kết trung bình, xem bảng biểu đồ sau: S Đ ố ộ 90 % 90 % 90 % 90 % 90 %T 80 % 80 % 80 % 80 % 80 %T 70 % 70 % 70 % 70 % 70 %T T T h h ờ636.5273 864.0959 779.8359 723.1503 745.6686 624.0619 796.7165 787.6598 790.2106 829.4185 795.3055 720.1636 1,091.457 889.2650 31,126.967 998.3520 1,037.9337 915.8235 1,074.967 925.8325 01,133.018 965.3535 91,068.446 963.3473 81,494.383 1,567.3652 1,366.2263 1,655.999 1,185.6324 1,534.880 1,486.3073 1,573.367 1,357.2204 1,577.916 1,392.5503 1,567.309 Bảng 10 Kết thực nghiệm liệu Mushroom Hình So sánh thời gian chạy EMHS I-EMHS sở liệu Mushroom sở l i ệu Chess phân mảnh ngang thành phần tương đương cho sites sau: I iC m S d T ê Bảng 11 Phân mảnh sở liệu Chess Kết so sánh thời gian chạy ngưỡng hỗ trợ khác nhau, ngưỡng hỗ trợ tác giả chạy năm lần lấy kết trung bình, xem bảng biểu đồ sau: S ố Đ T T ộ h h ờ 190 51,056.2 47,326.34 % 863 42 290 52,549.7 45,537.24 % 298 16 49,501.80 90 49, 66 490 % 590 %T 185 % 285 % 385 % 485 % 585 %T 180 % 280 % 380 % 480 % 580 %T 50,395.3 44,438.05 212 42 51,964.7 49,727.35 468 04 51,050.6 47,306.15 554 176,555 94 199,895 5576 7532 193,406 180,779 .0621 8448 193,772 187,133 .9890 4134 185,968 178,575 .0948 7616 186,539 189,535 .9714 7614 191,916 182,516 .5350 1069 586,614 521,018 .9965 4293 508,120 520,139 .0995 7403 510,793 496,712 .6517 7671 480,227 461,246 .2012 0428 494,686 457,210 .9373 1787 516,088 491,265 Bảng 12 Kết thực nghiệm liệu Chess 5772 4316 Hình 10 So sánh thời gian chạy EMHS I-EMHS sở liệu Chess Kết chương Trong chương 5, tác giả trình bày phần thực nghiệm so sánh vấn đề bảo tồn tính riêng cho liệu thời gian thực thuật toán EMHS thuật toán sửa đổi từ EMHS KẾT LUẬN Những kết đạt được: Trong luận văn, tác giả nghiên cứu đề xuất thuật toán để cải thiện bảo mật tính riêng hiệu suất tốt từ thuật toán EMHS thực với số lượng site năm Tác giả trì mơ hình từ thuật tốn EMHS áp dụng hệ thống mã hóa Elgamal Cryptography giai đoạn hệ thống mã hóa Paillier giai đoạn thứ hai Từ kết thử nghiệm, tác giả kết luận thuật toán sửa đổi từ EMHS hiệu suất tốt so với thuật tốn EMHS liệu dày đặc, liệu phân tán ngang năm site Hướng phát tri ển ti ếp theo: Trong tương lai, tác giả cố gắng giải vấn đề thông đồng Initiator Combiner [1] để tăng thêm tính bảo mật liệu bên tham gia Đối với liệu khác lớn Connect, Pumsb,… chương trình thực nghiệm cần cài đặt site máy tính với cấu hình mạnh Thời gian thực nghiệm rút ngắn TÀI LIỆU THAM KHẢO Ti ếng Vi ệt: [1] Trần Quốc Việt, Cao Tùng Anh, Lê Hoài Bắc, Đảm bảo tính riêng chống thơng đồng khai thác luật kết hợp liệu phân tán ngang, Chun san cơng trình nghiên cứu, phát triển ứng dụng công nghệ thông tin truyền thông, Tạp chí cơng nghệ thơng tin truyền thơng, số 7, Hà Nội 05/2012, tr 6070 Ti ếng Anh: [2] Adriano A.Veloso, Wagner Meira Jr., Srinivasan Parthasarathy, MárcioBunte de Carvalho(2003), Efficient,Accurate and Privacy-Preserving DataMining for Frequent Itemsets in Distributed Databases, Proceedings of the 18th Brazilian Symposium on Databases, Amazonas, Brasil, pp -12 [3] Chris Clifton (2001), Privacy Preser ving Distributed Data Mining, 13th European Conference on Machine Learning, November 9th, 2001 [4] Mahmoud Hussein, Ashraf El-Sisi, Nabil Ismail, Fast Cryptographic Privac y Preserving Association Rules Mining on Distributed Homogenous Data Base, Knowledge-Based Intelligent Information and Engineering Systems, Lecture Notes in Computer Science, Volume 5178/2008, pp 607 -616 2008 [5] M.J.Zaki, C.J Hsiao (2005), Efficient Algorithms for Mining Closed Itemsets and Their Lattice Structure, IEEE Transactions on Knowledge and Data Engineering, Vol 17, No 4, April 2005, pp 462 – 478 [6] Nguyen Xuan Canh, Le Hoai Bac,Cao Tung Anh, (2012) "An Enhanced Sheme for Priserving Associstion Rules Mining on Horizontally Distributed Databases ", IEEE RIVF International Conference Technologies, research, Innovation 2012, pp 29-32 on Computing & Communication and Vision for the Future 27 Feb-01 Mar [7] Rachit Adhvar yu1 and Nikunj Domadiya: An Improved EMHS Algorithm for Privacy Preserving in Association Rule Mining on Horizontally Partitioned Database Retrieved on: 10 March 2016 [8] William Stallings, Cryptography and Network Security, Fifth Edition, 2011 Websi te: [9] http://fimi.ua.ac.be/data/ [10] http://www.cs.rpi.e du/ ~za ki/ www-ne w/ pm wiki php/Soft ware/Software#dmtl ... - Nghiên cứu thuật toán MHS khai thác CSDL phân tán ngang bảo tồn tính riêng tư - Nghiên cứu thuật toán EMHS khai thác CSDL phân tán ngang bảo tồn tính riêng tư - Nghiên cứu thuật toán mà tác... nhạy cảm Một số đơn vị, tổ chức muốn chia sẻ liệu theo kiểu phối hợp liệu để khai thác liệu chung, bên lại muốn đảm bảo tính riêng tư cho liệu Khai thác liệu phân tán đảm bảo tính riêng tư hướng... CÔNG NGHỆ TP HCM - NGUYỄN TRUNG KIÊN MỘT THUẬT TỐN ĐẢM BẢO TÍNH RIÊNG TƯ TRONG KHAI THÁC LUẬT KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU PHÂN TÁN NGANG LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông
- Xem thêm -

Xem thêm: Một thuật toán đảm bảo tính riêng tư trong khai thác luật kết hợp trên cơ sở dữ liệu phân tán ngang , Một thuật toán đảm bảo tính riêng tư trong khai thác luật kết hợp trên cơ sở dữ liệu phân tán ngang

Gợi ý tài liệu liên quan cho bạn

Nhận lời giải ngay chưa đến 10 phút Đăng bài tập ngay