KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG o0o - PHẠM THỊ HÂN KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN CHUYÊN NGÀNH : TRUYỀN SỐ LIỆU VÀ MẠNG MÁY TÍNH MÃ SỐ : 60.48.15 TÓM TẮT LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS NGUYỄN BÁ TƯỜNG HÀ NỘI – 2012 Luận văn hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS.TS Nguyễn Bá Tường Phản biện 1: …………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thông Vào lúc: ngày 09 tháng 06 năm 2012 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thông MỞ ĐẦU Trong vài thập niên gần đây, khai phá liệu (KPDL) trở thành hướng nghiên cứu lĩnh vực khoa học máy tính công nghệ tri thức Trong trình phát triển với hàng loạt nghiên cứu, đề xuất thử nghiệm ứng dụng thành công vào đời sống Khi liệu lưu trữ sở liệu phân tán, thuật toán khai phá liệu phân tán lại cần thiết để khai phá luật kết hợp Khai phá luật kết hợp môi trường phân tán vấn đề phải giải việc sử dụng thuật toán phân tán mà không cần phải trao đổi liệu thô bên tham gia Khai phá luật kết hợp phân tán (DARM: Distributed Association Rule Minning) giải nhiều nghiên cứu có nhiều thuật toán phân tán đề xuất Nội dung luận văn chia thành chương: Chương 1: Tổng quan khai phá liệu: Giới thiệu tổng quan trình khai phá liệu, kho liệu khai phá liệu; kiến trúc hệ thống khai phá liệu; Nhiệm vụ phương pháp khai phá liệu Chương 2: Khai phá luật kết hợp: Chương trình bày tổng quan luật kết hợp; giới thiệu số thuật toán khai phá luật kết hợp: tuần tự, song song phân tán Chương 3: Đề xuất phương pháp cài đặt hiệu thuật toán khai phá luật kết hợp sở liệu phân tán: Trong chương sâu vào nghiên cứu chi tiết thuật toán khai phá luật kết hợp sở liệu phân tán Đề xuất phương pháp cài đặt hiệu thuật toán khai phá luật kết hợp FP-Growth Hà Nội, 05/2012 Học viên Phạm Thị Hân Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Các khái niệm Dữ liệu (Data): xem chuỗi bit, số, ký tự…mà tập hợp hàng ngày công việc Thông tin (Information): tập hợp mảnh liệu chắt lọc dùng mô tả, giải thích đặc tính đối tượng Tri thức (Knowledge): tập hợp thông tin có liên hệ với nhau, xem tri thức kết tinh từ liệu Tri thức thể tư người vấn đề Khai phá liệu (Data mining): Là bước quy trình khám phá tri thức, nhằm:  Rút trích thông tin hữu ích, chưa biết, tiềm ẩn khối liệu lớn  Phân tích liệu bán tự động  Giải thích liệu tập liệu lớn 1.2 Quá trình phát tri thức từ sở liệu Phát tri thức từ sở liệu trình có sử dụng nhiều phương pháp công cụ tin học trình mà người làm trung tâm Hình 1.1 Quá trình phát tri thức từ sở liệu 1.3 Các kỹ thuật khai phá liệu Phân lớp liệu [3] Khái niệm phân lớp liệu Han Kamber đưa năm 2000 Phân lớp liệu xây dựng mô hình mà phân đối tượng thành lớp để dự đoán giá trị bị số thuộc tính liệu hay tiên đoán giá trị liệu xuất tương lai Phân nhóm liệu [3, 4] Phân nhóm kỹ thuật khai phá liệu tương tự phân lớp liệu Tuy nhiên, phân nhóm liệu trình học không giám sát, trình nhóm đối tượng vào lớp tương đương, đến đối tượng nhóm tương đương nhau, chúng phải khác với đối tượng nhóm khác Hồi quy (Regression): Là việc tìm hàm y ánh xạ từ tập liệu thực nghiệm Nhiệm vụ hồi qui tương tự phân lớp, điểm khác chỗ thuộc tính để dự báo liên tục không rời rạc [4, 5] Tổng hợp (summarization): Là công việc liên quan đến phương pháp tìm kiếm mô tả cô đọng cho tập liệu [3, 5] Các kỹ thuật tổng hợp thường áp dụng việc phân tích liệu có tính thăm dò báo cáo tự động Phát thay đổi độ lệch (change and deviation detection): Là việc tập trung vào khám phá thay đổi có ý nghĩa liệu dựa vào giá trị chuẩn hay độ đo biết trước, phát độ lệch đáng kể nội dung tập liệu nội dung mong đợi 1.4 Các toán thông dụng khai phá liệu Trong KPDL, toán phân thành bốn loại [7]: Phân lớp (Classification): Là toán thông dụng KPDL Với tập liệu huấn luyện cho trước huấn luyện người, giải thuật phân loại học phân loại (classifier) dùng để phân liệu vào lớp (còn gọi loại) xác định trước Nhận dạng toán thuộc kiểu Phân lớp Dự đoán (Prediction): Với mô hình học tương tự toán Phân lớp, lớp toán Dự đoán học dự đoán Khi có liệu đến, dự đoán dựa thông tin có để đưa giá trị số học cho hàm cần dự đoán Bài toán tiêu biểu nhóm dự đoán giá sản phẩm để lập kế hoạch kinh doanh Luật kết hợp (Association Rule): Các giải thuật Tìm luật kết hợp tìm kiếm mối liên kết phần tử liệu, ví dụ nhóm hàng thường mua kèm với siêu thị Phân cụm (Clustering): Các kỹ thuật Phân cụm nhóm đối tượng liệu có tính chất giống vào nhóm Có nhiều cách tiếp cận với mục tiêu khác phân cụm Các tài liệu [8, 9] giới thiệu đầy đủ chi tiết cách tiếp cận Phân cụm Các kỹ thuật toán thường vận dụng vấn đề phân hoạch liệu tiếp thị hay khảo sát sơ liệu 1.5 Các sở liệu phục vụ khai phá liệu Dựa vào kiểu liệu mà kỹ thuật khai phá áp dụng, chia liệu thành loại khác - Cơ sở liệu quan hệ - Cơ sở liệu giao tác - Cơ sở liệu không gian - Cơ sở liệu có yếu tố thời gian - Cơ sở liệu đa phương tiện 1.6 Các ứng dụng khai phá liệu Khai phá liệu lĩnh vực thu hút quan tâm nhiều nhà nghiên cứu, nhờ có nhiều ứng dụng thực tiễn, ứng dụng điển hình, liệt kê sau: - Phân tích liệu hỗ trợ định (Analysis & decision support) - Điều trị y học (Medical): mối liên hệ triệu chứng, chuẩn đoán phương pháp điều trị (chế độ dinh dưỡng, thuốc men, phẫu thuật) - Phân lớp văn bản, tóm tắt văn phân lớp trang Web (Text mining & Web mining) - Tin sinh học (Bio-informatics): Tìm kiếm, đối sánh hệ gen thông tin di truyền, mối liên hệ số hệ gen số bệnh di truyền - Nhận dạng - Tài thị trường chứng khoán (Finance & stock market): Phân tích tình hình tài dự đoán giá cổ phiếu - Bảo hiểm (Insurance) - Giáo dục (Education) 1.7 Các thách thức khai phá liệu Tuy có nhiều giải pháp phương pháp ứng dụng khai phá liệu thực tế trình gặp không khó khăn thách thức như: - Cơ sở liệu lớn - Số chiều thuộc tính lớn - Thay đổi liệu tri thức làm cho mẫu phát không phù hợp - Dữ liệu bị thiếu bị nhiễu - Quan hệ trường phức tạp - Giao tiếp với người sử dụng kết hợp với tri thức có - Tích hợp với hệ thống khác Chương 2: KHAI PHÁ LUẬT KẾT HỢP 2.1 Luật kết hợp 2.1.1 Giới thiệu  Khai phá luật kết hợp: Là tìm mẫu phổ biến, kết hợp, tương quan, hay cấu trúc nhân tập đối tượng sở liệu giao tác, sở liệu quan hệ, kho thông tin khác 2.1.2 Các khái niệm  Gọi I = {I1, I2, , Im} tập m thuộc tính riêng biệt, thuộc tính gọi mục  Gọi D sở liệu chứa n giao dịch, ghi T giao dịch chứa tập mục, X  I T gán nhãn với định danh  Ta nói rằng, giao dịch T  D hỗ trợ tập X  I chứa tất mục X  Một tập mục X gọi tập mục k phần tử (k-itemset) lực lượng X k (tức |X|=k) Định nghĩa 2.1: Độ hỗ trợ X, ký hiệu support(X), tỷ lệ phần trăm giao dịch hỗ trợ X tổng giao dịch D, nghĩa là: sup port ( X )  | {T  D / X  T } | | D| Định nghĩa 2.2: Một luật kết hợp có dạng R: X  Y, X, Y tập mục, X, Y  I X Y =   X gọi tiên đề  Y gọi hệ luật Hai thông số quan trọng luật kết hợp độ hỗ trợ (support) độ tin cậy (confidence) 7 Định nghĩa 2.3: Độ hỗ trợ (support) luật kết hợp X  Y tỷ lệ phần trăm số lượng giao dịch chứa X Y ( X  Y ) với tổng số giao dịch có sở liệu Đơn vị tính % sup port  Tong so luong giao dich ho tro Tong so giao dich X Y Định nghĩa 2.4: Độ tin cậy (confidence) tỷ lệ phần trăm số lượng giao dịch chứa X Y ( X  Y ) với số giao dịch có chứa X Đơn vị tính % confidence  Tong so luong giao dich ho tro X  Y So luong giao dich ho tro X Ý nghĩa độ hỗ trợ độ tin cậy:  Độ hỗ trợ luật biểu diễn "sức mạnh" luật Luật có ảnh hưởng toàn hệ thống support(X Y ) = P(X  Y )  Độ tin cậy biểu diễn mức độ "đúng" quy tắc X confidence(X Y  Y ) = P(Y |X) Việc khai phá luật kết hợp từ sở liệu việc tìm tất luật có độ hỗ trợ độ tin cậy lớn ngưỡng độ hỗ trợ độ tin cậy người sử dụng xác định trước Các ngưỡng độ hỗ trợ độ tin cậy ký hiệu minsup mincof Định nghĩa 2.5: Cho tập mục X  I ngưỡng hỗ trợ tối thiểu minsup (được cho người sử dụng) Tập mục X gọi tập mục phổ biến (Frequent Itemset hay Large Itemset) với độ hỗ trợ tối thiểu minsup support(X)>=minsup Một vài tính chất liên quan đến tập phổ biến: Tính chất 2.1: Nếu A  B, A, B tập mục support(A) ≥ support(B) tất giao dịch D hỗ trợ B hỗ trợ cho A 8 Tính chất 2.2: Một tập mục A độ hỗ tối thiểu D nghĩa support(A) < minsup tập cha B A tập mục phổ biến support(B) ≤ support(A) < minsup Tính chất 2.3: Nếu tập mục B tập mục phổ biến D, nghĩa support(B) ≥ minsup tập A B tập phổ biến D support(A) ≥ support(B) > minsup Một số tính chất liên quan đến luật kết hợp: Tính chất 2.4: (Không hợp luật kết hợp) Nếu có X Z Y  Tương tự : X  Z D không thiết X  Y X  Z không thiết X   Y  Z Y  Z Tính chất 2.5: (Không tách luật) Nếu X  Y  Z X Tuy nhiên đảo lại: X   Z Y  Z chưa xảy YZ X  Y X  Z Tính chất 2.6: (Các luật kết hợp tính bắc cầu) Nếu X  Y Y  Z, suy X Tính chất 2.7: Nếu luật X   Z (L - X) không thỏa mãn độ tin cậy tối thiểu luật luật Y  (L – Y) có độ tin cậy tối thiểu, Y  X; X,Y  L 2.1.3 Khai phá luật kết hợp Phát biểu toán: Đầu vào: - Cho tập mục I = {I1, I2, , Im} - Một sở liệu giao dịch D (n giao dịch) - Độ hỗ trợ tối thiểu minsup độ tin cậy tối thiểu mincof Đầu ra: - Tập luật kết hợp R: X confidence(X  Y)   Y cho support(X  Y)  minsup mincof Giải toán: Bài toán khai phá luật kết hợp chia thành hai toán nhỏ:  Bài toán 1: Tìm tất tập mục thỏa mãn độ hỗ trợ tối thiểu minsup cho trước, hay tập mục phổ biến  Bài toán 2: Tìm tất luật kết hợp từ tập mục phổ biến thỏa độ tin cậy tối thiểu mincof cho trước 2.2 Một số thuật toán khai phá luật kết hợp 2.2.1 Thuật toán khai phá luật kết hợp 2.2.1.1 Thuật toán Apriori Apriori thuật toán khai phá luật kết hợp RaKesh Agrawal, Tomasz Imielinski, Anin Sawami đưa vào năm 1993, tảng cho việc phát triển thuật toán sau Thuật toán sinh tập mục ứng cử từ tập mục phổ biến bước trước, sử dụng kĩ thuật “tỉa” để bỏ tập mục ứng cử không thỏa mãn ngưỡng hỗ trợ cho trước 2.2.1.2 Thuật toán Apriori-TID Điểm khác chủ yếu thuật toán so với thuật toán Apriori là: không sử dụng sở liệu để tính độ hỗ trợ giai đoạn k > Thay vào sử dụng mã khóa tập mục ứng cử sử dụng giai đoạn trước Nhiều thí nghiệm nhiều sở liệu thuật toán Apriori cần thời gian giải thuật Apriori-TID giai đoạn đầu, nhiều thời gian cho giai đoạn sau 2.2.1.3 Thuật toán Apriori-Hybrid Thuật toán dựa vào ý tưởng “không cần thiết phải sử dụng thuật toán cho tất giai đoạn lên liệu” Như đề cập trên, thuật toán Apriori thực thi hiệu giai đoạn đầu, thuật toán Apriori-TID thực thi hiệu giai đoạn sau Phương pháp thuật toán Apriori-Hybrid sử dụng thuật toán Apriori giai đoạn đầu chuyển sang sử dụng thuật toán Apriori-TID giai đoạn sau 10 2.2.1.4 Thuật toán FP-Growth Ý tưởng: Dùng đệ quy để gia tăng độ dài mẫu phổ biến dựa FP-Tree mẫu phân hoạch Phương pháp thực hiện: o Với phần tử phổ biến Header Table, xây dựng sở điều kiện điều kiện o Lặp lại tiến trình với điều kiện tạo o Cho tới điều kiện tạo rỗng bao gồm đường đơn ngừng Mỗi tổ hợp phần tử đường đơn tạo tập phổ biến 2.2.2 Thuật toán khai phá luật kết hợp song song 2.2.2.1 Thuật toán Count Distribution (CD) Thuật toán sử dụng kiến trúc không chia sẻ, xử lý có xử lý nhớ phụ riêng Các xử lý kết nối với mạng truyền thông truyền thông tin cho việc truyền thông điệp Dựa mô hình song song liệu, liệu phân hoạch cho xử lý, xử lý thực thi công việc giống thuật toán Apriori thông tin xử lý phân hoạch liệu 2.2.2.2 Thuật toán Data Distribution (DD) Trong thuật toán DD, sở liệu D phân hoạch thành {D1, D2,…, Dp} nên xử lý làm việc với tập liệu không đầy đủ, việc trao đổi liệu xử lý cần thiết Ngoài ra, tập mục ứng cử phân hoạch phân bố cho tất xử lý, xử lý làm việc với tập mục ứng cử khác 2.2.2.3 Thuật toán Candidate Distribution Thuật toán Candidate Distribution thực phân hoạch liệu lẫn tập mục ứng cử Theo cách này, xử lý xử lý độc lập Trong giai đoạn m (m giá trị heuristic), thuật toán chia tập mục phổ biến Lm-1 cho 11 xử lý cho xử lý Pi sinh Cpi (p > m) độc lập với xử lý khác (Cpi  Cpj = Ø, i≠j) 2.2.2.4 Thuật toán song song FP-Growth Dựa vào thuật toán Fp-Tree trình bày [13] Thuật toán này, ta xây dựng số Fp-Tree cục môi trường nhớ phân tán sử dụng mô hình “Chủ - Tớ” Quá trình khai phá tập mục phổ biến song song gồm hai bước chính: Xây dựng song song FP-Tree Khai phá song song sinh tập mục phổ biến 2.2.3 Thuật toán khai phá luật kết hợp phân tán 2.2.3.1 Thuật toán khai phá luật kết hợp phân tán nhanh(FDM) Cho sở liệu DB chứa D giao dịch, giả sử có hệ thống phân tán gồm n điểm S1, S2,…,Sn DB phân mảnh vào n điểm {DB1,DB2,…,DBn}, DBi có Di giao dịch Cho ngưỡng hỗ trợ tối thiểu s, nhiệm vụ thuật toán tìm tất tập phổ biến toàn cục L, Lk tập phổ biến toàn cục k phần tử 2.2.3.2 Thuật toán khai phá phân tán luật kết hợp(DMAR) Thuật toán DMAR cho việc khai phá luật kết hợp phân tán sử dụng kỹ thuật meta-learning Đó khai phá tập phổ biến cục mà chúng sử dụng siêu tri thức điểm hệ thống phân tán tạo tập ứng cử phổ biến toàn cục từ siêu tri thức này, sau quét sở liệu giao dịch lần để thu tập phổ biến toàn cục Thuật toán có hiệu khai phá cao yêu cầu số lượng giao tiếp thông điệp 12 Chương 3: ĐỀ XUẤT PHƯƠNG PHÁP CÀI ĐẶT HIỆU QUẢ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN 3.1 Giới thiệu Khai phá luật kết hợp trở thành nhiệm vụ quan trọng khai phá liệu thu hút quan tâm nhiều nhà nghiên cứu Hầu hết nghiên cứu trước khai phá luật kết hợp dựa thuật toán giống Apriori Chúng thực hai bước [10]:  Tìm tất tập phổ biến có chứa giao dịch với độ hỗ trợ lớn ngưỡng hỗ trợ tối thiểu  Tạo luật mong muốn từ tập phổ biến chúng thỏa mãn ngưỡng độ tin cậy tối thiểu 3.2 Thuật toán khai phá luật kết hợp FP_Growth 3.2.1 Bản chất - Khai thác tập phổ biến không sử dụng hàm tạo ứng viên - Nén CSDL thành cấu trúc FP (Frequent Patern) - Duyệt đệ qui FP để tạo tập phổ biến 3.2.2 Qui trình B1 : Thiết lập FP B2 : Thiết lập sở mẫu điều kiện (Conditional Pattern Bases) cho hạng mục phổ biến (mỗi nút FP) B3 : Thiết lập FP điều kiện (Conditional FP tree) từ sở mẫu điều kiện B4 : Khai thác đệ qui FP điều kiện phát triển mẫu phổ biến FP điều kiện chứa đường dẫn - tạo tất tổ hợp mẫu phổ biến 13 3.2.3 Thuật toán FP_Growth Pocedure FP_Growth (Tree, ) If FP chứa path P then For tổ hợp  nốt P Tạo mẫu    với Supp = Suppmin (các nốt ); Else for i header Tạo mẫu = i   với supp = i Supp ; Thiết lập ’s Conditional Pattern base and ’s Conditional FP-Tree Tree  If Tree   , gọi FP_Growth (Tree , ) 3.3 Xây dựng thuật toán khai phá liệu sở liệu phân tán 3.3.1 Các định nghĩa Cho tập mục I={i1, i2, …, im} sở liệu giao dịch DB, giao dịch T tập mục T  I Mỗi giao dịch T, có trường khóa gọi TID Trong T chứa tập mục P, P  I P  T Độ hỗ trợ tập mục P số lượng giao dịch có chứa P DB Chúng ta nói rằng, P tập mục phổ biến độ hỗ trợ P lớn ngưỡng hỗ trợ tối thiểu minsup Chúng ta khảo sát trình khai phá luật kết hợp môi trường phân tán Cho sở liệu DB với D giao dịch, giả sử có n điểm S1,S2,…,Sn hệ thống phân tán sở liệu DB phân mảnh n ngang vào n điểm (DB1,DB2,…,DBn), DB =  DBi , kích cỡ DBi i 1 Di với i=1,2, ,n X.sup độ hỗ trợ toàn cục tập X DB X.supi độ hỗ trợ cục tập X DBi điểm Si Với ngưỡng độ hỗ trợ tối thiểu cho trước minsup, X tập phổ biến toàn cục (trên DB) X.sup >= minsup x D X tập phổ biến cục (trên DBi) X.supi >= minsup x Di Chúng ta ký hiệu GFI tập phổ 14 i biến toàn cục DB LFI tập phổ biến cục DBi Nhiệm vụ yếu thuật toán tìm tập mục phổ biến toàn cục GFI, từ sinh tập luật kết hợp mong muốn, ký hiệu AR Bổ đề 1: Nếu tập mục X phổ biến toàn cục tồn Si (i=1,2,…,n) với X tập phổ biến cục Si Chứng minh: Nếu X không phổ biến cục điểm, điều tương ứng với X.supi < minsup x Di với i=1,2,…,n X.sup < minsup x D, điều đồng nghĩa với việc X phổ biến toàn cục Trái với giả thiết X phổ biến toàn cục, X phải phổ biến cục số điểm Si X phổ biến cục Si Hiển nhiên tập X phải tập phổ biến cục Si Rút từ bổ đề 1:  Một tập X phổ biến toàn cục X phổ biến cục Si  Nếu X không phổ biến cục Si chắn X không phổ biến toàn cục Bổ đề 2: Nếu tập mục X , X tập phổ biến toàn cục Chứng minh: Nếu tập mục X ứng với X.supi  , X phổ biến cục điểm, tương minsup x Di với i=1,2,…,n thì: n n X.sup=  X sup i  i 1 minsup x  Di = minsup x D, điều đồng nghĩa với việc X i 1 phổ biến toàn cục tập X phổ biến toàn cục Rút từ bổ đề 2:  Nếu X phổ biến cục Si, X tập phổ biến toàn cục 15 Định nghĩa 1: Với X , X tập ứng cử viên (candidate) phổ biến toàn cục Kí hiệu CGFI Rút từ định nghĩa: X ứng cử viên phổ biến toàn cục khi: X phổ biến cục Si (Nhưng phổ biến cục Si, X phổ biến toàn cục rồi) Bổ đề 3: Với X CGFI, nều X phổ biến toàn cục 3.3.2 Cài đặt thuật toán Trong thuật toán này, trình khai phá tập mục phổ biến cục LFIi điểm Si với i=1,2,…,n sử dụng thuật toán FP-Growth với đầu vào FP-tree xây dựng từ sở liệu DBi Giải thuật tham khảo [16] Thuật toán cài đặt qua bước sau:  Bước 1: tính toán LFIi site Si Quá trình thực song song, diễn đồng thời site o Sau tính toán Si gởi danh sách LFIi độ hổ trợ chúng lên site Trong chương trình quy định site site S0  Bước 2: tuần tự, có site S0 thực o Dựa vào bổ đề 2, site S0 tổng hợp GFI o Tính toán tập CGFI dựa theo định nghĩa o Trong tập CGFI: duyệt tìm phần tử GFI theo bổ đề o Gởi tập CGFI lại cho site Si  Bước 3: song song tất site o Tính toán độ hổ trợ phần tử tập CGFI mà site trả về, gởi sup phần tử trở lại site 16  Bước 4: tuần tự, thực site o Tổng hợp tất sup phần tử CGFI, xét lại lần xem có phần tử GFI không  Bước 5: tuần tự, thực site o Tạo tập luật kết hợp AR từ tập GFI 3.3.3 Đề xuất phương pháp cài đặt thuật toán cải tiến 3.3.3.1 Nhận xét Từ thuật toán trình bày mục 3.3.2, có số nhận xét sau: - Trong bước thứ 2, trả lại hoàn toàn tập CGFI cho tất site thừa Vì phần tử X CGFI, LFIi site Si site tồn tại, phải gởi site phần tử X mà không LFIi Như giảm chi phí tính toán - Cũng vấn đề CGFI, làm mà site thức i tìm độ hỗ trợ phần tử có độ hỗ trợ nhỏ ngưỡng cho phép: o Hoặc chúng phải hạ thấp ngưỡng hỗ trợ tối thiểu để xây dựng lại cây, sau tìm độ hỗ trợ phần tử X cần tìm Như thế, phí xây dựng lại o Hoặc bước 1, site xây dựng với độ hỗ trợ tối thiểu 0, sau khai phá với giá trị α ngưỡng yêu cầu để tìm LFIi Như lại phí lớn xây dựng từ đầu với ngưỡng hỗ trợ tối thiểu tăng trưởng nhanh 3.3.3.2 Ý tưởng cải tiến Để thuật toán có hiệu cao hơn, thực cải tiến sau: - Đối với site, X CGFI trả LFIi không tính toán lại độ hỗ trợ để gửi lên site 17 - Trong thuật toán mục 3.3.2, site sau quét DBi lần đầu để thu tập phổ biến cục 1-item F xếp F theo thứ tự giảm dần độ hỗ trợ để thu danh sách L, site xây dựng FP-treei theo danh sách L Trong thuật toán cải tiến, site quét DBi lần đầu thu tập 1-item độ hỗ trợ chúng, sau site gửi tập lên site để site tổng hợp tìm tập phổ biến toàn cục 1-item F’, xếp F’ theo thứ tự giảm dần độ hỗ trợ để thu danh sách L’ Site gửi L’ cho site site xây dựng FP-treei theo danh sách 3.3.3.3 Cài đặt thuật toán cải tiến Để thực ý tưởng này, trước thực bước theo trình tự phía đưa ra, phải có hai bước:  Bước 01: Mỗi site tính toán độ hỗ trợ 1-item gửi lên site  Bước 02: Site tổng hợp độ hỗ trợ gửi 1-item có độ hỗ trợ lớn minsup toàn cục, site thực xây dựng khai phá liệu tập Trong bước 3, thêm bước:  Kiểm tra X  LFIi, tính độ hỗ trợ X gửi lên site chính, X  LFIi không làm 3.4 Đánh giá so sánh Dữ liệu kiểm thử:  Các liệu thử nghiệm: CSDL ngân hàng với tập phần tử 28 tổng số lượng giao dịch 600; CSDL sinh ngẫu nhiên với tập phần tử 100 tổng số lượng giao dịch tương ứng: 80, 400, 4000, 24000 40000  Mỗi CSDL chia thành file txt để thử nghiệm  Cấu trúc bên file txt: 18 o Mỗi hàng giao dịch o Trong hàng không chứa hai phần tử trùng o Mỗi phần tử hàng cách kí tự ‘,’ 3.4.1 So sánh thuật toán cài đặt song song Chương trình thực CSDL sinh ngẫu nhiên có kích thước 10000 giao dịch site, CSDL tổ chức thành file txt Loại phần tử từ I1 => I100 Hình 3.1 Biến thiên thời gian theo độ hỗ trợ Chương trình thực CSDL sinh ngẫu nhiên có kích thước khác độ hỗ trợ, CSDL tổ chức thành file txt Loại phần tử từ I1 => I100 Kích thước CSDL 20, điều có nghĩa: CSDL tổ chức thành file txt, file txt có 20 giao dịch (hàng) 19 Hình 3.2 Biến thiên thời gian theo kích thước CSDL 3.4.2 So sánh thuật toán gốc thuật toán cải tiến Chương trình thực CSDL sinh ngẫu nhiên có kích thước khác độ hỗ trợ, độ tin cậy Cụ thể sau: - CSDL tổ chức thành file txt - Loại phần tử từ I1 => I100 - Mỗi hàng file txt có 50 phần tử - Minsup=0,4; Minconf=0,8 - Kích thước CSDL 20, điều có nghĩa: CSDL tổ chức thành file txt, file txt có 20 giao dịch (hàng) 20 Kết chạy thử thể hình 4.3 Hình 3.3 Biến thiên thời gian theo kích thước CSDL Chương trình thực CSDL ngân hàng với tập phần tử 28 tổng số lượng giao dịch 600 Kết chạy thử thể hình 4.4 21 Hình 3.4 Biến thiên thời gian theo độ hỗ trợ 22 KẾT LUẬN Kết đạt luận văn Sau thời gian tìm hiểu, nghiên cứu đến luận văn hoàn thành Về luận văn đáp ứng nội dung đăng ký đề cương Cụ thể luận văn đạt số kết sau:  Tìm hiểu, nghiên cứu số thuật toán khai phá luật kết hợp theo hướng: tuần tự, song song  Đi sâu vào nghiên cứu thuật toán khai phá luật kết hợp sở liệu phân tán Phân tích, đánh giá ưu nhược điểm thuật toán từ đưa đề xuất cải tiến nhằm tăng hiệu thuật toán Hướng nghiên cứu Ngày với phát triển mạnh mẽ công nghệ mạng, công nghệ tính toán dẫn tới việc phân tán nguồn liệu tất yếu Và với phát triển thuật toán khai phá liệu phân tán Mặc dù có số thuật toán khai phá luật kết hợp sở liệu phân tán đề xuất, để đáp ứng nhu cầu ngày cao: thời gian xử lý nhanh, xử lý CSDL phân tán lớn, … đòi hỏi phải có thuật toán nhanh mạnh Và hướng nghiên cứu khai phá luật kết hợp môi trường phân tán hướng nghiên cứu thú vị thực tế

KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan