Ứng dụng differential privacy trong các thuật toán học máy

Mục lục Danh mục từ viết tắt Danh mục hình vẽ bảng Lời nói đầu Differential Privacy 1.1 Định nghĩa Differential Privacy 1.2 Ví dụ mơ hình Differential Privacy 1.3 Cơ chế Laplace 1.4 Cơ chế mũ 11 1.5 Tương quan hiệu an toàn thuật toán Differential Privacy 12 Differential Privacy với thuật toán rừng ngẫu nhiên 2.1 2.2 Thuật toán rừng ngẫu nhiên thoả mãn DP cho toán phân lớp 15 2.1.1 Nội dung thuật toán 15 2.1.2 Kết phân lớp liệu iris NYC taxi 19 Thuật toán rừng ngẫu nhiên thoả mãn DP cho toán hồi quy 20 Phương pháp mẫu ngẫu nhiên tổng hợp 3.1 14 23 Độ nhạy cảm trơn 23 3.2 Hiệu chỉnh nhiễu 26 3.3 Tính tốn độ nhạy cảm trơn 28 3.4 Lấy mẫu ngẫu nhiên tổng hợp kết với rừng ngẫu nhiên 3.5 Lấy mẫu ngẫu nhiên tổng hợp kết với XGboost 31 Ứng dụng Differential Privacy thuật toán khác 29 33 4.1 Thuật toán DBSCAN đảm bảo Differential Privacy 33 4.2 Differential Privacy học sâu 35 4.2.1 Thuật toán hướng giảm gradient ngẫu nhiên đảm bảo DP 35 4.2.2 Phân tích thuật toán SGD 36 Kết luận 40 Tài liệu tham khảo 41 Danh mục từ viết tắt DP Riêng tư vi phân - Differential Privacy RF Thuật toán rừng ngẫu nhiên - Random Forest SGD Thuật toán hướng giảm nhanh ngẫu nhiên - Stochastic Gradient Decent Danh mục hình vẽ bảng 1.1 Ảnh hưởng ε kết phân lớp 13 2.1 Hiệu thuật toán random forest liệu iris dataset 19 2.2 Hiệu phụ thuộc vào giá trị ε otrên liệu iris 20 2.3 Hiệu phụ thuộc vào ε liệu NYC taxi 21 2.4 So sánh hàm MSE and R2 liệu Boston and NYC Taxi 21 3.1 Giá trị hàm MSE and R2 theo số mẫu ngẫu nhiên sử dụng RF 31 3.2 Giá trị hàm log MSE and R2 theo giá trị ε sử dụng RF 32 3.3 Giá trị hàm MSE and R2 theo số mẫu ngẫu nhiên sử dụng XGboost 32 3.4 Giá trị hàm log MSE and R2 theo giá trị ε sử dụng XGboost 32 Lời nói đầu Từ việc tham khảo nghiên cứu gần đây, tác giả nhận thấy có phương pháp để đạt Differential Privacy Về bản, phương pháp có chế tạo DP thêm nhiễu vào q trình thực thi thuật tốn khác vị trí thêm nhiễu Phương pháp xáo trộn đầu vào (Input perturbation) cách thêm trực tiếp nhiễu thống kê vào liệu thô ban đầu, từ tạo liệu tổng hợp (Synthetic data) dùng để phân tích thuật tốn học máy thơng thường Phương pháp thứ thứ sử dụng chế hàm mũ (Exponential mechanism) xáo trộn hàm mục tiêu (Objective perturbation) nhằm đảo bảo q trình học thuật tốn học máy thoả mãn DP Phương pháp cuối xáo trộn đầu (Output perturbation) cách thêm nhiễu vào đầu nhằm ngăn chặn phương pháp thu thập thông tin thông qua giải mã ngược, thống kê đầu Với luận văn này, tác giả tập trung vào phương pháp thêm nhiễu vào trình học thuật tốn học máy, thể thơng qua thuật toán rừng ngẫu nhiên phương pháp xáo trộn đầu ra, thể thơng qua kỹ thuật mẫu ngẫu nhiên tổng hợp kết Để tạo thuật toán rừng ngẫu nhiên thoả mãn DP, tác giả xây dựng lại thuật toán rừng ngẫu nhiên, sử dụng Sklearn liệu Iris để đánh giá độ xác phân lớp thuật tốn Sau đó, tác giả tiến hành thêm nhiễu thống kê vào q trình thuật tốn xây dựng phân loại nhằm tạo kết phân lớp thoả mãn DP Với đầu này, tiếp tục sử dụng Sklearn để đánh giá độ xác kết phân lớp cuối áp dụng thuật toán rừng ngẫu nhiên phiên DP vào liệu hành trình NYC taxi dataset Đối với tốn hồi quy, nhiễu Laplace có tính chất thích nghi thêm đầu thuật toán rừng ngẫu nhiên XGboost Luận văn gồm chương với nội dung: • Chương 1: Lý thuyết định lý liên quan đến khái niệm DP • Chương 2: Cài đặt DP vào thuật tốn rừng ngẫu nhiên • Chương 3: Giải toán hồi quy với thuật toán rừng ngẫu nhiên sử dụng kỹ thuật lấy mẫu ngẫu nhiên tổng hợp kết • Chương 4: Thảo luận thuận tốn khác có cài đặt DP Luận văn hồn thành chương trình Thạc sĩ Khoa học ngành Toán tin Viện Toán ứng dụng Tin học, Đại học Bách Khoa Hà Nội hướng dẫn PGS TS Đỗ Đức Thuận Mặc dù hoàn thành với nhiều cố gắng hạn chế thời gian kinh nghiệm, luận văn khơng thể tránh khỏi sai sót Tác giả mong nhận ý kiến đóng góp quý báu từ thầy cô bạn học viên để luận văn hoàn thiện Chương Differential Privacy Lý thuyết Differential Privacy (riêng tư vi phân) đưa lần Dwork [1], cung cấp mơ hình thống kê nhằm bảo vệ liệu riêng tư cá nhân trình công khai số thông tin khác họ nhằm phục vụ mục đích nghiên cứu Nguyên lý hoạt động mơ hình dựa việc đảm bảo thơng tin ngồi lề (so với liệu công bố) sử dụng đầu vào thuật tốn thống kê bất kỳ, với mục đích xác định danh tính người dùng, khơng làm thay đổi đáng kể đầu thuật tốn đó, so với liệu ban đầu Sau số vụ rò rỉ thông tin khách hàng đến từ việc tin tặc kết hợp nhiều nguồn liệu khác [2], ứng dụng Differential Privacy gần nhà khoa học quan tâm nghiên cứu, đặc biệt công ty thu thập công bố liệu lớn người dùng Grab, Google, Netflix Một số ưu điểm Differtial Privacy kể đến như: Khơng phụ thuộc vào kịch công cụ thể tin tặc, phân tích mức độ an tồn dựa trường hợp xấu (the worst-case analysis) Ngăn chặn công liên kết liệu Đánh giá lượng thơng tin rị rỉ (privacy loss) Ngăn chặn rủi ro hậu xử lý (dữ liệu đầu thuật tốn học máy có trang bị Differential Privacy khơng làm tăng tính rủi ro để lộ thông tin cá nhân so với liệu đầu vào) 1.1 Định nghĩa Differential Privacy Trước vào định nghĩa Differential Privacy, ta cần mơ hình hố khơng gian liệu Định nghĩa 1.1 Cho tập vũ trụ X gồm tất ghi Một liệu x vector không gian N|X | , xi số lượng ghi loại i chứa x Tiếp theo, ta cần định nghĩa khoảng cách hai liệu không gian liệu Định nghĩa 1.2 Khoảng cách hai liệu x, y ∈ N|X | xác định thông qua chuẩn l1 : |X | d(x, y) = ∥x − y∥1 = ∑ |xi − yi| i=1 Dễ thấy khoảng cách hai liệu x, y ∈ N|X | khoảng cách Hamming chúng (số ghi khác hai liệu) Khi đó, hai liệu x, y gọi hàng xóm chúng sai khác ghi Differential Privacy cung cấp lý thuyết toán học chặt chẽ giúp ta lượng hố rủi ro rị rỉ liệu riêng tư Định nghĩa 1.3 Thuật toán ngẫu nhiên M (ε, δ )–DP với đầu O M , với đầu vào hàng xóm D, D′ , Pr[M (D) = O] ≤ exp(ε)Pr[M (D′ ) = O] + δ Trong trường hợp δ = 0, thuật toán ngẫu nhiên M gọi tuý Differential Privacy Xét thuật toán tuý Differential Privacy, với ε bé, dễ thấy xác suất quan sát đầu gần giống liệu đầu vào hàng xóm Từ đó, đảm bảo khơng thể xác định xác cá nhân từ tập liệu hàng xóm theo nghĩa xác suất Trong luận văn này, tập trung khai thác thuật toán tuý Differential Privacy Một tính chất quan trọng thuật tốn đảm bảo DP cho dù ta tác động thuật toán tuỳ ý vào kết đầu thuật tốn ban đầu kết cuối đảm bảo DP Qua ngặn chặn việc khai thác thông tin thông qua xử lý hậu kỳ kết Định lý 1.1 Giả sử A1 thuật toán thoả mãn ε–DP, với thuật tốn A2 , hợp chúng A2 (A1 ) thoả mãn ε–DP Chứng minh Gọi D, D′ hai liệu hàng xóm, S tập hợp đầu A1 t đầu tuỳ ý thuật tốn A2 Khi đó: Pr [A2 (A1 (D)) = t] = ∑ Pr[A1(D) = s]Pr[A2(s) = t] s∈S ⩽ ∑ exp(ε)Pr[A1(D′) = s]Pr[A2(s) = t] s∈S = exp(ε)Pr A2 (A1 (D′ )) = t Trong định lý thuật tốn A2 khơng có quyền truy cập vào đầu vào D A1 Trong trường hợp sử dụng kết hợp cho nhiều thuật tốn DP có tham số khả bảo vệ thông tin riêng tư ε khác với đầu vào, định lý sau khẳng định thuật toán tổng hợp chúng đảm bảo DP Định lý 1.2 Giả sử A1 thuật toán thoả mãn ε1 –DP, A2 thuật tốn thoả mãn ε2 –DP Khi đó, thuật tốn A (D) = A2 (A1 (D), D) thoả mãn (ε1 + ε2 )– DP Chứng minh Gọi D, D′ hai liệu hàng xóm, S tập hợp đầu A1 t đầu tuỳ ý thuật tốn A2 Khi đó: Pr [A2 (A1 (D), D) = t] = ∑ Pr[A1(D) = s]Pr[A2(s, D) = t] s∈S ⩽ ∑ exp(ε1)Pr[A1(D′) = s] exp(ε2)Pr[A2(s, D′) = t] s∈S = exp(ε1 + ε2 )Pr A2 (A1 (D′ ), D′ ) = t 1.2 Ví dụ mơ hình Differential Privacy Giả sử tổ chức xã hội tiến hành khảo sát trực tuyến hành vi hút thuốc người dùng Dwork đề xuất thuật toán ngẫu nhiên ghi lại kết khảo sát sau: Tung đồng xu Nếu mặt sấp, ghi lại hành vi khách hàng Nếu mặt ngửa, tung đồng xu thêm lần Ở lần tung thứ hai, mặt ngửa ghi có ghi khơng mặt sấp 3.3 Tính tốn độ nhạy cảm trơn Định nghĩa 3.5 Độ nhạy cảm địa phương với khoảng cách k f là: A(k) (x) = max LS f (y) d(x,y)=k Từ đây, ta biểu diễn độ nhạy cảm trơn thông qua độ nhạy cảm địa phương có khoảng cách S∗f ,ε (x) = max LS f (y) exp (−εd(x, y)) y = max exp(−kε) k=0, ,n max LS f (y) d(x,y)=k = max exp(−kε).A(k) (x) k=0, ,n Do đó, để tính độ nhạy cảm trơn f , ta cần tính đại lượng A(k) (x) Định lý 3.3 Độ nhạy cảm trơn hàm trung vị là: S∗fmed ,ε (x) = max k=0, ,n exp(−kε) max t=0, ,k+1 (xm+t − xm+t−k−1 ) Chứng minh Độ nhạy cảm địa phương khoảng cách k đạt giá trị lớn nhát trung vị đầu mút khoảng trống lớn Điều đạt cách thay k vị trí xm−k+t , xm−k+t+1 , , xm+t−1 theo nguyên tắc: xi = i < m xi = Λ i ⩾ m Khi đó: A(k) (x) = max t=0,1, ,k+1 (xm+t − xm−k+t−1 ) Từ đó, ta có đpcm Dễ thấy độ nhạy cảm khoảng cách k hàm trung vị tính thời gian O(k), tính tốn độ nhạy cảm trơn hàm trung vị thời gian O(n2 ) Sau đây, chúng tơi giới thiệu thuật tốn 28 Sergey Orshanskiy tính tốn độ nhạy cảm trơn hàm trung vị với độ phức tạp O(n log(n)) Trước hết, ta viết lại cơng thức xác định độ nhạy cảm trơn thành: S∗fmed ,ε (x) = max x j − xi exp (ε( j − i + 1)) n i< < j Với i < 2n , đặt j∗ (i) = arg max j⩾ 2n x j − xi exp (ε( j − i + 1)) Vì ta tính độ nhạy cảm trơn thông qua phép duyệt O(n) dãy j∗ (i), i = 1, 2, , n, ta cần tính toán dãy j∗ (i), i = 1, 2, , n thời gian O(n log(n)) Algorithm 3: Hàm J − list(a, c, L,U) Result: Dãy L ⩽ j∗ (a), j∗ (a + 1), , j∗ (c) ⩽ U Input: a,c,L,U if c 0, thuật toán M (ε, δ )-Differential Private với: δ = exp(αM (λ ) − λ ε) λ Như DP-SGD cho thuật toán tổng qt áp dụng vào thuật tốn học sâu Ngồi ra, để tăng tốc tính hội tụ, tham số thuật tốn tối ưu dựa đặc trưng liệu kết hợp với thuật toán tiền xử lý liệu PCA nhằm tăng độ xác Cuối cùng, khả bảo vệ thuật toán thể chi tiết định lý 4.1, cịn khó để tính tốn thực hành cần nhiều phân tích đánh giá 37 Algorithm 5: Thuật tốn DP-DBSCAN Result: n cụm C = C1 ,C2 , ,Cn Input: D = P1 , P2 , , Pn : Tập liệu; E ps: Bán kính lân cận; MinPts: Số điểm tối thiểu cụm; ε: tham số DP Thêm nhiễu vào hàm khoảng cách:dis′ (X,Y ) = ∑ni=1 (xi , yi )2 + Lap C=0; for P ∈ D ∆f ε NeighborPts = regionQuery(P, Eps); end Thêm điểm cốt lõi vào Dcore Chọn hai điểm xa p1 , q1 từ Dcore Thêm hai điểm p1 , q1 vào Core() while Dcore ̸= ∅ 10 for P ∈ Dcore if dis(P, P′ ) < E ps then 11 Xoá P Dcore 12 end 13 14 end 15 Chọn điểm lớn ∑i=1 count(core() 16 end 17 for P ∈ Core() dis(P, P′ ) thêm vào Core() 18 C=next cluster; 19 expandCluster(P,NeighborPts,C,Eps,MinPts) 20 end 21 for P ∈ D 22 23 Đánh dấu P điểm ngoại lai; end 38 Algorithm 6: Hàm expandCluster(P,NeighborPts,C,Eps,MinPts) Thêm P vào cụm C; for P′ ∈ NeighborPts if P′ chưa thăm then Đánh dấu P′ thăm; end if P′ chưa thành viên cụm then Thêm P′ vào cụm C; end end Algorithm 7: Hàm regionQuery(P,Eps) return tất điểm P′ nằm lân cận tâm P bán kính E ps; Algorithm 8: Thuật tốn DP-SGD Result: Nghiệm tối ưu θT hàm mát Input: x1 , x2 , , xN : Tập liệu; L (θ ) = N ∑N i=1 L (θ , xi ): Hàm mát; ηt : bước nhảy; σ : biên độ nhiễu; L: kích thước nhóm; C: chặn chuẩn vector gradient Sinh ngẫu nhiên θ0 for t=1, ,T Lấy mẫu ngẫu nhiên Lt với kích thước L Với i ∈ Lt , tính gt (xi ) ← ▽θt L (θt , xi ) Chuẩn hoá vector hướng giảm gt (xi ) ← gt (xi )/ max 1, Thêm nhiễu gt ← L1 ∑i gt (xi ) + N (0, σ 2CI) Cập nhật nghiệm tối ưu θt+1 = θt − ηt gt end 39 ∥gt (xi )∥ C Kết luận Qua luận văn này, lần cho ta thấy tiềm ứng dụng to lớn mơ hình Differential Privacy vấn đề bảo vệ liệu riêng tư người dùng Những đóng góp tác giả luận văn sau: • Trình bày lý thuyết tốn học mơ hình thống kê Differential Privacy • Cài đặt thuật tốn rừng ngẫu nhiên cho toán phân lớp hồi quy cho liệu NYC • Xây dựng cài đặt thuật toán rừng ngẫu nhiên, XGboost cho toán hồi quy kết hợp với kỹ thuật lấy mẫu ngẫu nhiên tổng hợp kết Bên cạnh kết đạt được, luận văn số vấn đề tồn cần nghiên cứu phát triển tương lai: • Nghiên cứu cách chọn tham số ε mối liên hệ với độ xác thuật tốn • Cải thiện hiệu thuật tốn DP Cuối cùng, cài đặt DP vào thuật toán tham lam trình tìm tập độc lập đồ thị hướng nghiên cứu có nhiều tính ứng dụng [12] 40 Tài liệu tham khảo [1] C Dwork and A Roth, The Algorithmic Foundations of Differential Privacy Foundationsand Trends in Theoretical Computer Science, vol 9, no 3-4, pp 211–407, 2013 [2] B Seleshi and S Assef, A case study on differential privacy 2007 [3] J Vaidya, A Basu, B Shafiq, and Y Hong, Differentially private naive bayes classification Proceedings - 2013 IEEE/WIC/ACM International Conference on Web Intelligence, WI 2013, vol 1, pp 571–576, 2013 [4] IBM/differential-privacy-library: Diffprivlib: The IBM Differential Privacy Library Available at https://github.com/IBM/differential-privacylibrary [5] Z Li and S L, Random forest algorithm under differential privacy International Conference on Communication Technology Proceedings, ICCT, vol 2017-Octob, no 2, pp 1901–1905, 2018 [6] A Patil and S Singh, Differential private random forest Proceedings of the 2014 International Conference on Advances in Computing, Communications and Informatics, ICACCI 2014, pp 2623–2630, 2014 [7] A Friedman and A Schuste, Data Mining with Differential Privacy Categories and Subject Descriptors Proceedings of the 16th ACM 41 SIGKDD international conference on Knowledge discovery in data mining, pp 493–502, 2010 [8] V Kumar, Random forests and decision trees from scratch in python Available at https://towardsdatascience.com/random-forestsand-decision-trees-from-scratch-in-python-3e4fa5ae4249 [9] J Brownlee, How to Implement Random Forest From Scratch in Python Available at https://machinelearningmastery.com/implementrandom-forest-scratch-python/ [10] K Nissim, S Raskhodnikova, and A Smith, Smooth sensitivity and sampling in private data analysis p 75, 2007 [11] M Abadi, A Chu, I Goodfellow, H B McMahan, I Mironov, K Talwar, and L Zhang, Deep Learning with Differential Privacy no Ccs, pp 308–318, 2016 [12] Ngoc C.Le, Trung Tran, On the Maximum Independent Set Problem in Graphs of Bounded Maximum Degree Acta Mathematica Vietnamica volume 45, pages 463-475, 2020 42 ... XGboost 31 Ứng dụng Differential Privacy thuật toán khác 29 33 4.1 Thuật toán DBSCAN đảm bảo Differential Privacy 33 4.2 Differential Privacy học sâu 35 4.2.1 Thuật toán hướng... tiêu chuẩn phân nhánh Đối với thuật toán rừng ngẫu nhiên áp dụng Differential Privacy, chọn hàm Gini Index âm Mã giả thuật toán thể thuật toán 15 Algorithm 1: Thuật toán rừng ngẫu nhiên đảm bảo... nghĩa xác suất Trong luận văn này, tập trung khai thác thuật toán tuý Differential Privacy Một tính chất quan trọng thuật tốn đảm bảo DP cho dù ta tác động thuật toán tuỳ ý vào kết đầu thuật tốn ban