công nghệ xử lý dữ liệu

Thông tin tài liệu

Ngày nay các lĩnh vực khoa học kỹ thuật đang ngày một phát triển mạnh mẽ. Đặc biệt là ngành khoa học máy tính rất phát triển, nó được ứng dụng rất nhiều trong các lĩnh vực khác nhau của cuộc sống như: Giáo dục, Y tế, Kinh tế, Khoa học, Xây dựng. Ngành khoa học này đã trở thành một phần không thế thiếu được trong cuộc sống hàng ngày của con người.Việc dùng các phương tiện tin học để tổ chức và khai thác các cơ sở dữ liệu đã được phát triển từ những năm 60. Đặc biệt trong những năm gần đây vai trò của máy tính trong việc lưu trữ và xử lý thông tin ngày càng trở nên quan trọng. Bên cạnh đó các thiết bị thu thập dữ liệu tự động tương đối phát triển đã tạo ra những kho dữ liệu khổng lồ. Với sự phát triển mạnh mẽ của công nghệ điện tử tạo ra các bộ nhớ có dung lượng lớn, bộ xử lý tốc độ cao cùng với các hệ thống mạng viễn thông, người ta đã xây dựng các hệ thống thông tin nhằm tự động hoá mọi hoạt động kinh doanh của mình. Điều này đã tạo ra một dòng dữ liệu tăng lên không ngừng vì ngay từ các các giao dịch đơn giản nhất như một cuộc điện thoại, kiểm tra sức khỏe, sử dụng thẻ tín dụng, đều được ghi vào trong máy tính. Cho tới nay con số này đã trở lên khổng lồ, bao gồm các cơ sở dữ liệu, thông tin khách hàng, dữ liệu lịch sử các giao dịch, dữ liệu bán hàng, dữ liệu các tài khoản vay, sử dụng vốn,…Vấn đề đặt ra là làm thế nào để xử lý khối lượng thông tin cực lớn như vậy để phát hiện ra các tri thức tiềm ẩn trong nó.Để làm được điều đó người ta đã sử dụng quá trình phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in DatabaseKDD). Nhiệm vụ của KDD là từ dữ liệu sẵn có phải tìm ra những thông tin tiềm ẩn có giá trị mà trước đó chưa được phát hiện cũng như tìm ra những xu hướng phát triển và các xu hướng tác động lên chúng. Các kỹ thuật cho phép ta lấy được các tri thức từ cơ sở dữ liệu sẵn có đó được gọi là kỹ thuật khai phá dữ liệu (Data Mining).Từ những lý do đó chúng em đã tìm hiểu về chuyên đề “Tìm hiểu luật kết hợp trong khai phá dữ liệu”. Nhằm phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra những mẫu thông tin, hoạt động có tính chính quy trong tập dữ liệu mà người sử dụng mong muốn, đồng thời để áp dụng vào bài toán quản lý bán hàng.

MỤC LỤC DANH MỤC HÌNH iii LỜI CẢM ƠN .iv PHẦN MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu 1.1.1 Các quan niệm khai phá liệu 1.1.2 Khám phá tri thức khai phá liệu .2 1.1.3 Kiến trúc hệ thống khai phá liệu .4 1.1.4 Các loại liệu khai phá 1.1.5 Nhiệm vụ khai phá liệu 1.2 Một số phương pháp khai phá liệu thông dụng .7 1.2.1 Phương pháp luật kết hợp 1.2.2 Phương pháp định .7 1.2.3 Phương pháp k - Mean 1.3 Một số ứng dụng khai phá liệu 1.3.1 Phân tích liệu gen sinh học y học 1.3.2 Phân tích liệu tài 1.3.3 Dịch vụ bán lẻ 1.3.4 Công nghiệp viễn thông 10 1.4 Các khuynh hướng thách thức khai phá liệu 10 CHƯƠNG LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU .13 2.1 Bài toán dẫn đến việc khai phá liệu 13 2.2 Khai phá luật kết hợp .13 2.2.1 Một số khái niệm 13 2.2.2 Cách khai phá luật kết hợp 17 2.2.3 Các tiêu chuẩn để phân loại luật kết hợp 18 2.3 Một số thuật toán phát luật kết hợp 19 2.3.1 Thuật toán AIS 19 2.3.2 Thuật toán SETM 20 2.3.3 Thuật toán Apriori 22 2.3.4 Thuật toán FP - Growth 27 CHƯƠNG CHƯƠNG TRÌNH MINH HỌA LUẬT KẾT HỢP BẰNG THUẬT TOÁN APRIORI 30 3.1 Phát biểu toán 30 3.2 Minh họa toán 30 PHẦN KẾT LUẬN 33 TÀI LIỆU THAM KHẢO .34 DANH MỤC HÌNH Hình 1.1 Kiến trúc hệ thống khai phá liệu Hình 1.2 Mẫu kết với phương pháp định .7 Hình 1.3 Phân cụm đối tượng k-Mean Hình 2.1 Các bước thực thuật toán AprioriTID 26 Hình 2.2 Thời gian xử lý bước quét thuật toán Apriori AprioriTID 27 Hình 3.1 Kết chương trình áp dụng thuật tốn apriori .32 LỜI CẢM ƠN Chúng em xin bày tỏ lòng cảm ơn sâu sắc tới thầy giáo ThS Nghiêm Văn Hưng tận tình hướng dẫn giúp đỡ, tạo điều kiện thuận lợi tài liệu phương tiện để chúng em hoàn thành chuyên đề Chúng em xin chân thành cảm ơn thầy cô giáo khoa Công nghệ thông tin giúp đỡ truyền đạt nhiều kiến thức liên quan đến chuyên đề, đóng góp nhiều ý kiến quý báu, kịp thời Chúng em xin chân thành cảm ơn! TM NHÓM SINH VIÊN Trần Văn Cường PHẦN MỞ ĐẦU Ngày lĩnh vực khoa học kỹ thuật ngày phát triển mạnh mẽ Đặc biệt ngành khoa học máy tính phát triển, ứng dụng nhiều lĩnh vực khác sống như: Giáo dục, Y tế, Kinh tế, Khoa học, Xây dựng Ngành khoa học trở thành phần không thiếu sống hàng ngày người.Việc dùng phương tiện tin học để tổ chức khai thác sở liệu phát triển từ năm 60 Đặc biệt năm gần vai trò máy tính việc lưu trữ xử lý thơng tin ngày trở nên quan trọng Bên cạnh thiết bị thu thập liệu tự động tương đối phát triển tạo kho liệu khổng lồ Với phát triển mạnh mẽ công nghệ điện tử tạo nhớ có dung lượng lớn, xử lý tốc độ cao với hệ thống mạng viễn thông, người ta xây dựng hệ thống thơng tin nhằm tự động hố hoạt động kinh doanh Điều tạo dòng liệu tăng lên khơng ngừng từ các giao dịch đơn giản điện thoại, kiểm tra sức khỏe, sử dụng thẻ tín dụng, ghi vào máy tính Cho tới số trở lên khổng lồ, bao gồm sở liệu, thông tin khách hàng, liệu lịch sử giao dịch, liệu bán hàng, liệu tài khoản vay, sử dụng vốn,…Vấn đề đặt làm để xử lý khối lượng thông tin cực lớn để phát tri thức tiềm ẩn Để làm điều người ta sử dụng trình phát tri thức sở liệu (Knowledge Discovery in DatabaseKDD) Nhiệm vụ KDD từ liệu sẵn có phải tìm thơng tin tiềm ẩn có giá trị mà trước chưa phát tìm xu hướng phát triển xu hướng tác động lên chúng Các kỹ thuật cho phép ta lấy tri thức từ sở liệu sẵn có gọi kỹ thuật khai phá liệu (Data Mining) Từ lý chúng em tìm hiểu chuyên đề “Tìm hiểu luật kết hợp khai phá liệu” Nhằm phân tích liệu sử dụng kỹ thuật để tìm mẫu thơng tin, hoạt động có tính quy tập liệu mà người sử dụng mong muốn, đồng thời để áp dụng vào toán quản lý bán hàng CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu 1.1.1 Các quan niệm khai phá liệu Khai phá liệu tập hợp thuật toán nhằm chiết xuất thơng tin có ích từ kho liệu khổng lồ Khai phá liệu định nghĩa trình phát mẫu liệu Quá trình tự động hay bán tự động, song phần nhiều bán tự động Các mẫu phát thường hữu ích theo nghĩa: mẫu mang lại cho người sử dụng lợi đó, thường lợi kinh tế Khai phá liệu giống q trình tìm mơ tả mẫu liệu Dữ liệu tập hợp vật hay kiện, đầu trình khai phá liệu dự báo vật hay kiện Khai phá liệu áp dụng sở liệu quan hệ, giao dịch, sở liệu không gian, kho liệu phi cấu trúc, mà điển hình World Wide Web Khám phá tri thức q trình nhận biết mẫu mơ hình liệu với tính chất: Đúng đắn, mới, khả ích hiểu Khai phá liệu bước trình khám phá tri thức bao gồm thuật toán khai phá liệu chuyên dùng số quy định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu 1.1.2 Khám phá tri thức khai phá liệu Trong thời đại bùng nổ công nghệ thông tin, công nghệ lưu trữ liệu ngày phát triển tạo điều kiện cho đơn vị thu thập liệu tốt Đặc biệt lĩnh vực kinh doanh, doanh nghiệp nhận thức tầm quan trọng việc nắm bắt xử lý thông tin, nhằm giúp chủ doanh nghiệp việc vạch chiến lược kinh doanh kịp thời mang lại lợi nhuận to lớn cho doanh nghiệp Tất lí khiến cho quan, đơn vị doanh nghiệp tạo lượng liệu khổng lồ cỡ Gigabyte chí Terabyte cho riêng Khi lưu trữ liệu khổng lồ thấy chắn chúng phải chứa giá trị định Tuy nhiên, theo thống kê có lượng nhỏ liệu (khoảng từ 5% đến 10%) phân tích, số lại họ khơng biết phải làm làm với chúng họ tiếp tục thu thập tốn với ý nghĩ lo sợ có quan trọng bị bỏ qua sau có lúc cần đến Mặt khác, mơi trường cạnh tranh, người ta ngày cần có nhiều thơng tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Với lý vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) Thông thường coi liệu dãy bit, số ký hiệu, “đối tượng” với ý nghĩa gửi cho chương trình dạng định Chúng ta sử dụng bit để đo lường thông tin xem liệu lọc bỏ dư thừa, rút gọn tới mức tối thiểu để đặc trưng cách cho liệu Chúng ta xem tri thức thơng tin tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ hiểu ra, phát hiện, học Nói cách khác, tri thức coi liệu có độ trừu tượng tổ chức cao Phát tri thức sở liệu qui trình nhận biết mẫu mơ hình liệu với tính năng: hợp thức, mới, khả ích, hiểu Còn khai thác liệu bước qui trình phát tri thức gồm có thuật tốn khai thác liệu chuyên dùng số qui định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu Nói cách khác, mục đích phát tri thức khai phá liệu tìm mẫu và/hoặc mơ hình tồn sở liệu bị che khuất hàng “núi” liệu Nhiều người coi khai phá liệu khám phá tri thức sở liệu Tuy nhiên thực tế, khai phá liệu bước thiết yếu trình phát tri thức sở liệu Như vậy, mục đích khám phá tri thức khai phá liệu tìm mẫu mơ hình tồn sở liệu bị khuất số lượng liệu khổng lồ 1.1.3 Kiến trúc hệ thống khai phá liệu Như trình bày trên, khai phá liệu giai đoạn trình phát tri thức từ số lượng lớn liệu lưu trữ sở liệu, kho liệu nơi lưu trữ khác Bước tương tác lẫn người sử dụng sở tri thức, mẫu đáng quan tâm đưa cho người dùng lưu trữ tri thức sở tri thức Hình 1.1.3.a.1 Kiến trúc hệ thống khai phá liệu Kiến trúc hệ thống khai phá liệu có thành phần sau: - Cơ sở liệu, kho liệu: Đó tuyển tập sở liệu, kho liệu Các kỹ thuật làm liệu, tích hợp, lọc liệu thực liệu - Cơ sở liệu kho liệu phục vụ: Là kết lấy liệu có liên quan sở khai phá liệu người dùng - Cơ sở tri thức: Đó lĩnh vực tri thức sử dụng để hướng dẫn việc tìm đánh giá mẫu kết thu - Mô tả khai phá liệu: Bao gồm tập modul chức để thực nhiệm vụ mô tả đặc điển, kết hợp, phân lớp, phân cụm liệu… - Đánh giá mẫu: Thành phần sử dụng độ đo tương tác với modul khai phá liệu để tập trung vào tìm mẫu quan tâm 14 Lk = {< l.itemset, count of l in > l  }; // combined with step 13 15 Sort on TID; 16 end 17 Return L = UkLk; 2.3.3 Thuật toán Apriori Thuật toán Apriori-TID phần mở rộng theo hướng tiếp cận thuật tốn Apriori Thay dựa vào sở liệu thơ thuật tốn Apriori - TID biểu diễn bên giao dịch candidate hành Như ta thấy, thuật toán Apriori đòi hỏi phải qt tồn sở liệu để tính độ hỗ trợ cho tập hợp ứng cử viên bước Đây lãng phí lớn Dựa tư tưởng ước đốn đánh giá độ hỗ trợ, Agrawal đề nghị cải tiến Apriori theo hướng phải quét sở liệu lần đầu tiên, sau tính độ hỗ trợ cho tập hợp phần tử Từ bước thứ hai trở đi, Thuật toán Apriori-TID nhờ lưu trữ song song ID giao dịch ứng cử viên, đánh giá, ước lượng độ hỗ trợ mà khỏi phải quét lại toàn sở liệu [3] Nội dung thuật toán Apriori-TID Input: Cơ sở liệu D; min_sup_count Output: L tập frequent itemset D L1={frequent items}; For (k=2; Lk-1 ; k++) begin Ck=apriori_gen (Lk-1, min_sup_count); for each transactions T  D begin CT = subset (Ck, T) // Các candidate chứa T for each candidate c CT 27 c.count++; end Lk={c  Ckc.count  min_sup_count}; 10 end Return L = UkLk; a Hàm Apriori - gen Hàm Apriori - gen thực hai công việc: kết nối cắt tỉa Công việc kết nối kết nối Lk-1 với Lk-1 để có tập ứng cử viên tiềm Cơng việc tỉa dựa vào thuộc tính Apriori để loại bỏ ứng cử viên mà tập infrequent Function apriori-gen (Lk-1: frequent(k-1) - itemset for each itemset l1  Lk-1 for each itemset l2  Lk-1 If (l1[1] = l2[1] (l1[2] = l2[2] …  (l1[k-2] = l2[k-2] l1[k-1] < l2[k-1]) Then begin c = l1 l2 // Kết nối l1 l2 if has_infrequent_subset (c, Lk-1) then delete c; else add c to Ck; End Return Ck; Hàm has_infrequent_subset kiểm tra xem có tập ứng cử viên c infrequent không? Function has_infrequent_subset (c: candidate k – itemset; L k-1: frequent (k-1) – itemset); 28 for each (k-1) sudset s of c if s  Lk-1 then Return TRUE; Return FALSE; b Hàm subset Việc tính tốn support count cho itemset ứng cử viên C k tốn quan trọng việc tìm frequent itemset, số ứng cử viên lớn có giao dịch chứa nhiều ứng cử viên Để tạo điều kiện tính tốn nhanh support count, cần có phương pháp hiệu để xác định itemset Ck chứa giao dịch Chính vậy, hàm Subset, Ck cần lưu trữ băm Các nút băm có hai loại: nút (chứa danh sách itemset), nút (là mộ bảng băm) Đối với nút trong, ngăn chứa bảng băm trỏ đến nút khác Nút gốc định nghĩa nút có độ sâu Nút độ sâu d trỏ đến nút độ sâu d+1 Các itemset lưu trữ nút Khi thêm itemset c, nút gốc xuống gặp nút Tại nút độ sâu d, áp dụng hàm băm item thứ d itemset để xác định nhánh Tất nút tạo ban đầu nút Khi số itemset nút vượt q ngưỡng định, chuyển thành nút Khi tìm kiếm, hàm Subset nút gốc tất ứng cử viên chứa giao dịch T sau: Nếu nút lá, tìm tất itemset nút chứa T thêm chúng vào tập kết Nếu nút đến item i, băm tất item sau i T áp dụng đệ quy thủ tục cho nút ngăn chứa tương ứng Đối với nút gốc, băm item T [3] 29 c Thuật toán Apriori - TID Một yếu tố đáng quan tâm thuật toán AprioriTID sở liệu D khơng sử dụng để tính support count sau lần quét thứ Thay vào đó, sử dụng tập Mỗi phần tử có dạng < TID, {Xk}>, với Xk frequent k- itemset tiềm diện giao dịch với định danh TID Đối với k = 1, sở liệu D, item i thay itemset {i} Với k > 1, thành viên ứng với giao dịch T < T.TID, {c  Ck/c chứa T}> Nếu giao dịch T không chứa ứng cử k – itemset, khơng chứa giao dịch Do đó, số thành viên nhỏ số giao dịch CSDL, đặc biệt k lớn Hơn nữa, với k lớp thành viên lớn giao dịch tương ứng thành viên gồm tất ứng viên k – itemset chứa giao dịch Thuật toán Apriori - TID Input: Cơ sở liệu D: min_sup_count Output: L tập frequent itemset D L1={frequent - itemset} = sở liệu D for (k=2; Lk-1; k++) begin = apriori_gen (Lk-1); =; forall entries t begin // xác định item ứng cử viên chứa giao dịch với T.TID CT ={cCk (c-c[k])T.set - of - itemsets(c-c[k-1])T.set of - itemsets}; forall candidates c  Ct 30 c.count++; if (CT  ) then + = < T.TID, CT>; end Lk = {c  Ck  c.count  min_sup_count}; End; Return L = UkLk ; Ví dụ: Tìm tập frequent itemset với min_sup_count = 31 Hình 2.3.3.c.1 Các bước thực thuật toán AprioriTID d Thuật tốn AprioriHybrid Chúng ta khơng thiết phải sử dụng thuật toán cho tất lần quét liệu Hình 2.2 thể thời gian thực thuật toán Apriori AprioriTID bước quét khác với tập liệu T10.I4.D100K Ở bước quét đầu, thuật toán Apriori làm việc tốt với thuật toán AprioriTID Tuy nhiên thuật toán AprioriTID lại làm việc tốt thuật toán Apriori bước quét sau Điều xảy tập liệu khác, lí sau: - Thuật toán Apriori thuật toán AprioriTID sử dụng thủ tục sinh ứng cử viên, đếm tập itemset - Trong lần quét sau, số item ứng cử viên giảm Tuy nhiên, thuật toán Apriori xét giao dịch CSDL Trong đó, thay qt CSDL, thuật tốn AprioriTID qt tìm support count Hình 2.3.3.d.1 Thời gian xử lý bước qt thuật tốn Apriori AprioriTID Với lí này, thiết kế thuật tốn AprioriHybrid sử dụng lợi hai thuật toán Thuật toán 32 AprioriHybrid sử dụng thuật toán Apriori lần quét khởi đầu chuyển sang thuật toán AprioriHybrid tập thích hợp với nhớ 2.3.4 Thuật toán FP - Growth Như ta biết thuật toán Apriori bước đột phá khai thác tập mục thường xuyên cách sử dụng kỹ thuật tỉa để rút gọn kích thước tập mục ứng cử Tuy nhiên, trường hợp số tập mục nhiều, tập mục dài ngưỡng độ hỗ trợ nhỏ thuật tốn gặp phải hai chi phí lớn: Sinh số lượng khổng lồ tập mục ứng cử Ví dụ có 104 tập mục - mục thường xuyên sinh 10 tập mục - mục ứng cử thực kiểm tra xem tập mục thường xuyên Hơn nữa, để phát tập mục thường xun có kích thước n, thuật toán phải kiếm tra 2n-2 tập mục thường xuyên tiềm ẩn Phải duyệt qua sở liệu nhiều lần Số lần duyệt sở liệu thuật toán Apriori độ dài tập mục thường xuyên dài tìm Trong trường hợp tập mục thường xuyên dài sở liệu lớn thi khơng thể thực Thuật tốn Apriori phù hợp với sở liệu thưa, với sở liệu dạy thuật tốn hiệu Để khắc phục chi phí lớn thuật toán Apriori năm 2000 Jiawei Han, Jian pei Yiwen Yin đưa thuật toán gọi FP - growth để tìm tập mục thường xuyên cách không sinh tập mục ứng cử từ tập mục thường xuyên trước mà hiệu cách sử dụng ba kỹ thuật sau: Thứ nhất, thuật toán sử dụng cấu trúc mẫu thuờng xuyên FP Tree để nén liệu, cấu trúc FP Tree mở rộng cấu trúc prefix Những nút mục có độ dài 1, đuợc gán nhãn tên mục đuợc xếp theo tần suất xuất 33 mục để mục có số lần xuất nhiều chia sẻ nhiều Thứ hai, khai thác phát triển đoạn mẫu dựa FP Tree, mẫu thuờng xun có kích thước kiểm tra sở mẫu phụ thuộc (conditional pattern base), khởi tạo FP Tree mẫu phụ thuộc, thực khai thác đệ quy Mẫu kết nhận qua việc kết nối mẫu hậu tố với mẫu sinh từ FP Tree phụ thuộc Thứ ba, dùng kỹ thuật tìm kiếm phân hoạch khơng gian tìm kiếm chia để trị để chia nhiệm vụ khai thác thành nhiệm vụ nhỏ giới hạn lại mẫu làm giảm khơng gian tìm kiếm Cây mẫu thường xuyên Cây mẫu thường xuyên có cấu trúc định nghĩa sau: FP Tree bao gồm nút gốc có nhãn “Null”, tập non prefix nút gốc bảng tiêu đề mục thường xuyên Mỗi nút prefix có trường: Item name, count, nút liên kết (node link); với itemname nhãn nút, count số giao tác mà mục xuất hiện, node link dùng để liên kết vói nút có Item name hay Null khơng có Mỗi lối vào bảng tiêu đề có hai trường: Item name node link, node link trỏ tới nút FP Tree có chứa nhãn Itemname 34 CHƯƠNG CHƯƠNG TRÌNH MINH HỌA LUẬT KẾT HỢP BẰNG THUẬT TOÁN APRIORI 3.1 Phát biểu toán Với phát triển kinh tế nay, việc kinh doanh vấn đề nhiều người quan tâm Xã hội phát triển trình độ người ngày nâng cao, lên việc kinh doanh mặt hàng tạp hóa hướng Nhưng để kinh doanh tốt người kinh doanh phải biết quản lý cho hợp lý Từ điều thiết nghĩa phải có phần mềm quán lý bán hàng, đề hỗ trợ cho người quản lý việc lựa chọn mặt hàng để bán Ví dụ cửa hàng tạp hóa bán sữa kèm thêm bán trứng mặt hàng nữa? Chúng có liên quan tới nào? Luật kết hợp cho ta biết việc lựa chọn loại mặt hàng để bán, giúp người bán hàng đưa định nhanh, xác hiệu Ở chúng em xây dựng chương trình sử dụng luật kết hợp để giúp người quản lý bán hàng biết số lượng mặt hàng thường người dùng mua nhau, qua thống kê số lượng nhập hàng cho hợp lý tránh dư thừa hay xếp mặt hàng gần Chương trình khai phá luật kết hợp xây dựng thuật toán Apriori 3.2 Minh họa toán Trong lĩnh vực Data Mining, mục đích luật kết hợp (Association Rule - AR) tìm mối quan hệ đối tượng khối lượng lớn liệu Nội dung luật kết hợp tóm tắt 35 Cho sở liệu gồm giao dịch T tập giao dịch t1, t2, …, tn T = {t1, t2, …, tn} T gọi sở liệu giao dịch (Transaction Database) Mỗi giao dịch bao gồm tập đối tượng I (gọi itemset) I = {i1, i2, …, im} Một itemset gồm k items gọi k-itemset Mục đích luật kết hợp tìm kết hợp (association) hay tương quan (correlation) items Những luật kết hợp có dạng X =>Y Trong Basket Analysis, luật kết hợp X =>Y hiểu người mua mặt hàng tập X thường mua mặt hàng tập Y (X Y gọi itemset) Độ hỗ trợ (Support) độ tin (Confidence) tham số dùng để đo lường luật kết hợp Độ hỗ trợ (Support) luật kết hợp X =>Y tần suất giao dịch chứa tất items hai tập X Y Ví dụ, support luật X =>Y 5% có nghĩa 5% giao dịch X Y mua Cơng thức để tính support luật X =>Y sau: Trong đó: N tổng số giao dịch Độ tin cậy (Confidence) luật kết hợp X=>Y xác suất xảy Y biết X Ví dụ độ tin cậy luật kết hợp {Apple =>Banana} 80% có nghĩa 80% khách hàng mua Apple mua Banana Cơng thức để tính độ tin cậy luật kết hợp X =>Ynhư sau 36 Với n(X) số giao dịch chứa X Giả sử hàng có nhiều mặt hàng như: hoa hồng, hoa hướng dương, hoa cúc, hoa cẩm chướng, hoa sen, hoa đào, hoa mai, hoa huệ… Trong ngày số lượt người mua hàng sau Giả sử có giao dịch: + Giao dịch mua “hoa hồng, hoa hướng dương, hoa cúc, hoa cẩm chướng, hoa sen” + Giao dịch mua “hoa hướng dương, hoa cúc” + Giao dịch mua “hoa hồng, hoa hướng dương, hoa mai” + Giao dịch mua “hoa hướng dương, hoa hồng, hoa đào” + Giao dịch mua “hoa hồng, hoa mai, hoa huệ” Có giao dịch thực cửa hàng, phải tính tốn để biết số lượng mặt hàng hay mua mua với nhau, từ giúp người bán hàng quản lý tốt Để biết điều cần phải sử dụng luật kết hợp với độ hỗ trợ (Support) hộ tin cậy (Confidence) Ở tính Support Confidence với tốn tính hộ hỗ trợ độ tin cậy sinh luật kết hợp Và kết sau sử dụng thuật tốn Apriori (đã trình bày chương II) để khai phá luật kết hợp Kết cho thấy mặt hàng thường mua mặt hàng thường mua chung với 37 Hình 3.2.1.a.1 Kết chương trình áp dụng thuật tốn apriori 38 PHẦN KẾT LUẬN Sau thời gian thực hiện, em hoàn thành chuyên đề đạt số kết định Chuyên đề thể tính thực tiễn cấp bách khai phá liệu, chuyên đề trình bày nét khai phá liệu, khái niệm luật kết hợp, phương pháp để khai phá kết luật kết hợp đơn chiều, đa chiều, đa mức Đặc biệt đưa phương pháp để cải tiến hiệu thuật toán Apriori như: bảng băm, phân đoạn, lấy mẫu giảm kích thước CSDL Với thời gian hạn chế, chuyên đề bước đầu chúng em tìm hiểu số thuật toán như: AIS, SETM, Apriori, AprioriTID, AprioriHybrid thuật tốn sinh luật kết hợp Đây coi tảng trình khai phá liệu mà chúng em tìm hiểu được, nhiên trình nghiên cứu cài đặt thuật tốn mặt hạn chế Kết đạt được: hoàn thành báo cáo chuyên đề với nội dung nêu trên, cài đặt chương trình demo thuật tốn trình bày chun đề cho kết nhanh xác - Ưu điểm: + Chuyên đề trình bày vấn đề khai phá liệu + Tầm quan trọng khai phá liệu, hướng tiếp cận khai phá liệu kỹ thuật khai phá liệu + Trình bày thuật tốn khai phá luật kết hợp - Nhược điểm: + Do thời gian hạn chế lên chuyên đề chưa sâu vào trình khai phá luật kết hợp, dừng lại bước tìm hiểu 39 + Chương trình demo sơ sài, thiếu tính chất Cuối em xin chân thành cám ơn thầy Nghiêm Văn Hưng thầy khoa tạo điều kiện giúp đỡ hướng dẫn chúng em trình nghiên cứu phát triển chuyên đề 40 TÀI LIỆU THAM KHẢO [1] Huỳnh Đức Thuận - Đại học Đông Á, Ứng dụng luật kết hợp khai phá liệu [2] Nguyễn Thị Quỳnh Trang - Đại học Đà Nẵng, Khai phá luật kết hợp mờ đa cấp ứng dụng [3] TS Đỗ Phúc - Nhà xuất Đại Học Quốc Gia TP HCM 2005, Khai thác liệu [4] Lê Hoài Bắc - Đại học Quốc gia TP Hồ Chí Minh, Bài giảng khám phá tri thức khai thác liệu - tìm luật kết hợp theo mục đích người dùng 41 ... khai phá liệu Kiến trúc hệ thống khai phá liệu có thành phần sau: - Cơ sở liệu, kho liệu: Đó tuyển tập sở liệu, kho liệu Các kỹ thuật làm liệu, tích hợp, lọc liệu thực liệu - Cơ sở liệu kho liệu. .. liệu với môi trường xử lý thông tin vấn đề cần thiết Một kiến trúc lý tưởng cho hệ khai phá liệu hệ kết hợp chặt chẽ với hệ kho liệu CSDL Quản lý giao dịch, xử lý truy vấn, xử lý phân tích trực... khác biệt kỹ thuật khai phá liệu công cụ phục vụ tính tốn thống kê mà biết khối lượng cần tính tốn Một liệu trở nên khổng lồ khâu như: thu thập liệu, tiền xử lý xử lý liệu đòi hỏi phải tự động

Ngày đăng: 09/06/2018, 20:38

Xem thêm: công nghệ xử lý dữ liệu, CHƯƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU, * Định nghĩa 2, c. Độ tin cậy [1], c. Mức trừu tượng được đề cập trong luật, c. Thuật toán Apriori - TID, CHƯƠNG 3. CHƯƠNG TRÌNH MINH HỌA LUẬT KẾT HỢP BẰNG THUẬT TOÁN APRIORI

công nghệ xử lý dữ liệu

Thông tin tài liệu

Từ khóa liên quan

Mục lục

DANH MỤC HÌNH

LỜI CẢM ƠN

PHẦN MỞ ĐẦU

CHƯƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1. Khai phá dữ liệu

1.1.1. Các quan niệm về khai phá dữ liệu

1.1.2. Khám phá tri thức và khai phá dữ liệu

1.1.3. Kiến trúc của một hệ thống khai phá dữ liệu

Hình 1.1.3.a.1. Kiến trúc của hệ thống khai phá dữ liệu

1.1.4. Các loại dữ liệu được khai phá

1.1.5. Nhiệm vụ của khai phá dữ liệu

1.2. Một số phương pháp khai phá dữ liệu thông dụng

1.2.1. Phương pháp luật kết hợp

1.2.2. Phương pháp cây quyết định

Hình 1.2.2.a.1. Mẫu kết quả với phương pháp cây quyết định

1.2.3. Phương pháp k - Mean

Hình 1.2.3.a.1. Phân cụm các đối tượng k-Mean

1.3. Một số ứng dụng của khai phá dữ liệu

1.3.1. Phân tích dữ liệu gen và sinh học y học

1.3.2. Phân tích dữ liệu tài chính

1.3.3. Dịch vụ bán lẻ

1.3.4. Công nghiệp viễn thông

1.4. Các khuynh hướng và thách thức trong khai phá dữ liệu

CHƯƠNG 2. LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU

2.1. Bài toán dẫn đến việc khai phá dữ liệu

2.2. Khai phá luật kết hợp

2.2.1. Một số khái niệm cơ bản

a. Luật kết hợp

b. Độ hỗ trợ

* Định nghĩa 1

* Định nghĩa 2

Tài liệu cùng người dùng

Tài liệu liên quan