Thông tin tài liệu
1 MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU, VIẾT TẮT iv DANH MỤC CÁC BẢNG BIỂU v DANH MỤC CÁC HÌNH VẼ . vi MỞ ĐẦU 1 CHƯƠNG 1 3 KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ LUẬT KẾT HỢP 3 1.1. Khai phá dữ liệu 3 1.1.1. Quá trình phát hiện tri thức từ cơ sở dữ liệu 3 1.1.2. Kiến trúc của hệ thống khai phá dữ liệu Error! Bookmark not defined 1.1.3. Quá trình khai phá dữ liệu 5 1.1.4. Nhiệm vụ của khai phá dữ liệu. . Error! Bookmark not defined 1.1.5. Các ứng dụng của khai phá dữ liệu . 6 1.2. Khai phá luật kết hợp trong cơ sở dữ liệu 7 1.2.1. Bài toán mở đầu Error! Bookmark not defined 1.2.2. Các khái niệm cơ sở 7 1.2.2.1. Cơ sở dữ liệu giao tác 7 1.2.2.2. Tập mục phổ biến 7 1.2.2.3. Luật kết hợp 8 1.2.3. Khai phá luật kết hợp 9 1.2.4. Các cách tiếp cận khai phá tập mục phổ biến Error! Bookmark not defined 1.2.5. Các thuật toán điển hình khai phá tập mục phổ biến 10 1.2.5.1 Thuật toán Apriori . 10 1.2.5.2.Thuật toán FP_growth 12 1.2.6. Thuật toán sinh luật kết hợp: . 14 1.2.7. Một số mở rộng khai phá luật kết hợp 17 Kết luận chương 1 18 Chương 2: LUẬT KẾT HỢP HIẾM 19 2.1. Giới thiệu chung về luật kết hợp hiếm. 19 2.2. Một số hướng nghiên cứu chính phát hiện luật kết hợp hiếm . 19 2.2.1. Sử dụng ràng buộc phần hệ quả của luật . 20 2.2.2. Thiết lập đường biên phân chia các tập phổ biến và không phổ biến 21 2.2.3. Phát hiện luật kết hợp hiếm từ các CSDL định lượng 22 2.3. Khuynh hướng nghiên cứu về luật hiếm 22 2.4. Phát hiện luật kết hợp hiếm Sporadic trên CSDL giao tác 24 2.4.1. Khái niệm về luật hiếm Sporadic 24 2.4.2.Thuật toán Apriori-Inverse 26 2.4.3. Thuật toán tìm tập Sporadic tuyệt đối hai ngưỡng đóng 31 2.4.3.1. Tập Sporadic tuyệt đối hai ngưỡng . 32 2.4.3.2. Thuật toán MCPSI tìm tập Sporadic tuyệt đối hai ngưỡng đóng 34 Kết luận chương 2 37 Chương 3 . 38 THỰC NGHIỆM TÌM LUẬT HIẾM SPORADIC TUYỆT ĐỐI 38 3.1. Giới thiệu bài toán . 38 3.2. Dữ liệu thực nghiệm 39 3.3. Xây dựng chương trình . 41 3.4. Thực nghiệm khai phá . 42 3.5. Kết quả thực nghiệm 46 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 47 TÀI LIỆU THAM KHẢO 49 LỜI CAM ĐOAN Tôi xin cam đoan Luận văn “KHAI PHÁ LUẬT KẾT HỢP HIẾM TRÊN CƠ SỞ DỮ LIỆU VÀ ỨNG DỤNG” là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn của TS. Nguyễn Huy Đức. Kết quả đạt được trong luận văn là sản phẩm của riêng cá nhân tôi, không sao chép lại của người khác. Trong toàn bộ luận văn, những điều được trình bày trong luận văn là của cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trính dẫn hợp pháp. Tôi xin chịu hoàn toàn trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình. Thái Nguyên, ngày tháng năm 2015 Người cam đoan Nguyễn Thị Hải Lý LỜI CẢM ƠN Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới TS. Nguyễn Huy Đức - Trường Cao đẳng Sư phạm Trung ương, Thầy đã chỉ bảo và hướng dẫn tận tình cho tôi trong suốt quá trình nghiên cứu khoa học và thực hiện luận văn này. Tôi xin chân thành cám ơn sự dạy bảo, giúp đỡ, tạo điều kiện và khuyến khích tôi trong quá trình học tập và nghiên cứu của các thầy cô giáo của Viện Công nghệ thông tin, Trường Đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên. Và cuối cùng, tôi xin gửi lời cảm ơn tới gia đình, người thân và bạn bè, những người luôn ở bên tôi những lúc khó khăn nhất, luôn động viên tôi khuyết khích tôi trong cuộc sống và trong công việc. Tôi xin chân thành cảm ơn! Thái Nguyên, ngày tháng Tác giả Nguyễn Thị Hải Lý năm 2015 DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Ký hiệu Diễn giải KPDL Khai phá dữ liệu CSDL Cơ sở dữ liệu DB Cơ sở dữ liệu giao tác TID Định danh của giao tác I Tập các mục dữ liệu T Giao tác (transaction) Ck Tập các ứng viên là tập mục có k mục dữ liệu Lk Tập các tập mục phổ biến có k mục dữ liệu k-itemset Tập mục gồm k mục BFS Breadth First Search (Duyệt theo chiều rộng) DFS Depth First Search (Duyệt theo chiều sâu) FP-growth Frequent-Pattern Growth FP-tree Frequent pattern tree Sup Độ hỗ trợ (support) Conf Độ tin cậy (Confiden) Minsup Ngưỡng hỗ trợ tối thiểu Minconf Ngưỡng tin cậy tối thiểu DANH MỤC CÁC BẢNG BIỂU Bảng 1.1: Danh mục các tập mục trong CSDLError! Bookmark not defined Bảng 1.2: Biểu diễn ngang của CSDL giao tác.Error! Bookmark not defined Bảng 1.3: Biểu diễn dọc của CSDL giao tác. . Error! Bookmark not defined Bảng 1.4: Ma trận giao tác của CSDL bảng 1.2Error! Bookmark not defined Bảng 1.5: Cơ sở dữ liệu DB Error! Bookmark not defined Bảng 1.6 : Độ hỗ trợ của các mục Error! Bookmark not defined Bảng 1.7: Độ hỗ trợ của các tập mục Error! Bookmark not defined Bảng 1.8: Độ tin cậy của các luật Error! Bookmark not defined Bảng 1.10 : Cơ sở dữ liệu minh họa thực hiện thuật toán COFI-tree.Error! Bookmark not de Bảng 1.11 : Các mục dữ liệu và độ hỗ trợ. Error! Bookmark not defined Bảng 1.12 : Các mục dữ liệu phổ biến đã sắp thứ tự.Error! Bookmark not defined Bảng 1.13 : Các mục dữ liệu trong giao tác giảm dần theo độ hỗ trợ.Error! Bookmark not d Bảng 2.1 : Ví dụ CSDL giao tác D cho thuật toán Apriori-Inverse . 28 Bảng 2.2 : Biểu diễn dọc của CSDL D trong bảng 2.1 . 29 Bảng 2.3 : Độ hỗ trợ của từng mục dữ liệu của CSDL D 29 Bảng 2.4 : Các mục sporadic và độ hỗ trợ 29 Bảng 2.5 : Các 2- tập mục ứng viên 30 Bảng 2.6 : Các tập mục sporadic tuyệt đối 30 Bảng 2.7 : Các luật sporadic tuyệt đối 31 Bảng 2.8: CSDL giao tác minh họa thuật toán MCPSI 36 Bảng 3.1: Dữ liệu đã trích chọn để khai phá 39 Bảng 3.2: Mã hóa các mặt hàng 39 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1. Quá trình khám phá tri thức 4 Hình 1.2. Kiến trúc của hệ thống khai phá dữ liệuError! Bookmark not defined Hình 1.3: Quá trình khai phá dữ liệu 6 Hình 1.4 : Phân loại các thuật toán khai phá tập mục phổ biến.Error! Bookmark not defined Hình 1.5: Cây FP-tree của CSDL bảng 1.10. Error! Bookmark not defined Hình 1.6: Cây COFI-tree của mục D. Error! Bookmark not defined Hình 1.7: Các bước khai phá cây D-COFI-tree.Error! Bookmark not defined Hình 2.1: Minh họa tìm các tập Sporadic tuyệt đối hai ngưỡng đóng. 37 Hình 3.1: Dữ liệu đã mã hóa chuẩn bị cho khai phá 41 Hình 3.2: Giao diện chương trình . 42 Hình 3.3: Giao diện chương trình tìm tập Sporadic tuyệt đối 43 Hình 3.4: Kết quả tìm tập Sporadic tuyệt đối 44 Hình 3.5: Giao diện chương trình tìm luật Sporadic tuyệt đối . 45 Hình 3.6: Kết quả tìm luật Sporadic tuyệt đối . 45 MỞ ĐẦU Đặt vấn đề Trong lĩnh vực khai phá dữ liệu (data mining), luật kết hợp (association rule) được dùng để chỉ mối quan hệ kiểu “điều kiệnhệ quả” giữa các phần tử dữ liệu (chẳng hạn, sự xuất hiện của tập mặt hàng này “kéo theo” sự xuất hiện của tập mặt hàng khác) trong một tập bao gồm nhiều đối tượng dữ liệu (chẳng hạn, các giao dịch mua hàng) …. Phát hiện luật kết hợp là phát hiện các mối quan hệ đó trong phạm vi của một tập dữ liệu đã cho. Bài toán phát hiện luật kết hợp được Rakesh Agrawal và cộng sự giới thiệu lần đầu tiên vào năm 1993 [4] và nhanh chóng trở thành một trong những hướng nghiên cứu quan trọng của khai phá dữ liệu, đặc biệt trong những năm gần đây. Phát hiện luật kết hợp [5, 10] đã được ứng dụng thành công trong nhiều lĩnh vực kinh tế-xã hội khác nhau như: thương mại, y tế, sinh học, tài chính - ngân hàng,…Hiện tại, nhiều khuynh hướng nghiên cứu và ứng dụng liên quan đến phát hiện luật kết hợp đã và đang tiếp tục được hình thành. Một trong những vấn đề về phát hiện luật kết hợp hiện đang nhận được nhiều quan tâm của các nhà nghiên cứu là phát hiện luật kết hợp hiếm. Luật kết hợp hiếm là những luật kết hợp ít xảy ra. Mặc dù tần suất xảy ra thấp, nhưng trong nhiều trường hợp, các luật này lại rất có giá trị. Từ những yêu cầu, thực tế trên, em đã chọn đề tài “Khai phá luật kết hợp sở liệu ứng dụng”. Đối tượng phạm vi nghiên cứu Nghiên cứu các phương pháp, thuật toán khai phá luật kết hợp, đi sâu vào bài toán phát hiện luật kết hợp hiếm thuộc lĩnh vực phát hiện tri thức từ dữ liệu và ứng dụng. Luận văn tìm hiểu luật kết hợp hiếm Sporadic, trong hai loại của luật hiếm Sporadic là luật hiếm Sporadic tuyệt đối và luật hiếm Sporadic không tuyệt đối, luận văn đi sâu tìm hiểu luật hiếm Sporadic tuyệt đối trên cơ sở dữ liệu giao tác. Hướng nghiên cứu đề tài - Nghiên cứu các kỹ thuật, phương pháp khai phá luật kết hợp. - Tìm hiểu sâu về khai phá luật hiếm Sporadic tuyệt đối trên cơ sở dữ liệu giao tác. - Cài đặt, thực nghiệm phát hiện luật kết hợp hiếm trên CSDL. Những nội dung nghiên cứu Từ những mục tiêu và yêu cầu của đề tài nghiên cứu, đề tài được xây dựng gồm phần mở đầu, 3 chương nội dung và phần kết luận, cụ thể như sau: Chương 1: Khai phá dữ liệu và bài toán khai phá luật kết hợp Chương 2: Luật kết hợp hiếm. Chương 3: Thực nghiệm tìm luật hiếm Sporadic tuyệt đối Phương pháp nghiên cứu Phương pháp nghiên cứu chính là nghiên cứu lý thuyết kết hợp với đánh giá thực nghiệm. Cụ thể là: tổng hợp các kết quả nghiên cứu về khai phá luật kết hợp và luật kết hợp hiếm đã công bố trên các bài báo khoa học, hội thảo chuyên ngành trong và ngoài nước, từ đó trình bày làm rõ vấn đề phát triển khai phá luật kết hợp hiếm và xây dựng chương trình thực nghiệm đánh giá ứng dụng. Ý nghĩa khoa học đề tài Phần lớn các thuật toán phát hiện luật kết hợp hiện nay thường thực hiện tìm các luật có độ hỗ trợ và độ tin cậy cao. Việc ứng dụng các thuật toán này để tìm các luật kết hợp hiếm (có độ hỗ trợ thấp, độ tin cậy cao) là không hiệu quả do phải đặt ngưỡng độ hỗ trợ cực tiểu rất nhỏ, nên số lượng các tập phổ biến tìm được sẽ khá lớn (trong khi chỉ có một phần trong các tập tìm được có độ hỗ trợ nhỏ hơn ngưỡng độ hỗ trợ cực tiểu minSup) và như vậy chi phí cho việc tìm kiếm sẽ tăng lên. Nhằm khắc phục những khó khăn này, cần có những nghiên cứu các phương pháp, thuật toán riêng cho phát hiện luật kết hợp hiếm. CHƯƠNG KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ LUẬT KẾT HỢP 1.1 Khai phá liệu 1.1.1 Quá trình phát tri thức từ sở liệu Trong thời đại hiện đại của thế kỷ 21, với sự phát triển vượt bậc của công nghệ thông tin, các hệ thống thông tin có thể lưu trữ một khối lượng lớn dữ liệu về hoạt động hàng ngày của chúng. Lượng dữ liệu được lưu trữ dẫn đến một đòi hỏi cấp bách phải có những kỹ thuật mới, những công cụ tự động mới trợ giúp con người một cách thông minh trong việc chuyển đổi một lượng lớn dữ liệu thành thông tin hữu ích. Một số nhà khoa học xem khai phá dữ liệu như là một cách gọi khác của một thuật ngữ cũng rất thông dụng là khám phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases – KDD)[5], vì cho rằng mục đích của quá trình khám phá tri thức là thông tin và tri thức có ích, nhưng đối tượng mà chúng ta phải xử lý rất nhiều trong suốt quá trình khám phá tri thức lại chính là dữ liệu. Một số nhà khoa học khác thì xem khai phá dữ liệu như là một bước chính trong quá trình khám phá tri thức. Hiểu quá trình khám phá, phát hiện tri thức ở đây là gì? Thông thường chúng ta coi dữ liệu như là một dãy các bit, các số và các ký hiệu, hoặc các “đối tượng” được gửi cho một chương trình dưới một định dạng nhất định nào đó. Chúng ta sử dụng các bit để đo lường thông tin, khi sử dụng xem nó như là dữ liệu đã được lọc bỏ dư thừa, được rút gọn tới mức tối thiểu. Bít được dùng làm đơn vị đặc trưng cho dữ liệu. Chúng ta có thể xem tri thức như là các thông tin tích hợp, bao gồm các sự kiện và các mối quan hệ giữa chúng. Các mối quan hệ này có thể được học, được hiểu, được phát hiện ra. Nói cách khác, tri thức có thể coi là dữ liệu có độ trừu tượng và tổ chức cao. Thuật ngữ KPDL ra đời vào những năm cuối của thập kỷ 1980. Khai phá dữ liệu bao gồm nhiều hướng tiếp cận, là sự kết hợp của nhiều ngành như: Cơ sở dữ liệu; Học máy; Trí tuệ nhân tạo; Lý thuyết thông tin; Xác suất thống kê; Tính toán hiệu năng cao và các phương pháp tính toán mềm v. v…. Có rất nhiều định nghĩa khác nhau về "KPDL" đã được đưa ra, ta có thể hiểu khai phá dữ liệu là quá trình tìm kiếm những thông tin (tri thức) có ích, tiềm ẩn và mang tính dự đoán trong các khối cơ sở dữ liệu lớn. 36 Độ phức tạp của thuật toán MCPSI : Thuật toán MCPSI dựa trên thuật toán CHARM để tìm kiếm các tập Sporadic tuyệt đối hai ngưỡng đóng và sự khác biệt nằm ở bước khởi tạo tập Nodes ban đầu. Bắt đầu từ tập các mục dữ liệu đơn cùng các định danh tương ứng, thuật toán thực hiện việc xử lý trên một nhánh sẽ có 4 trường hợp xảy ra. Kết thúc việc thực hiện, mỗi nút trên cây sẽ thể hiện tập dữ liệu đóng. Vậy thuật toán sẽ thực hiện O(|C|) phép giao, với |C| là cỡ của tập các tập Sporadic tuyệt đối hai ngưỡng đóng ). Nếu mỗi định danh có chiều dài trung bình là , thì chi phí cho phép giao là 2. . Vậy độ phức tạp của thuật toán MCPSI là O( 2. |C|) hay O( |C|). Ví dụ: Xét CSDL giao tác cho ở bảng 2.8, I= {A, B, C, D, E, F, G, H, J}; O ={t1, t2, t3, t4, t5, t6, t7, t8} và D ⊆ I×O. Bảng 2.8: CSDL giao tác minh họa thuật toán MCPSI Tác vụ Mục liệu t1 ABCDHJ t2 A E t3 A G J t4 A B C E F H J t5 E t6 A D E H t7 t8 A C F J E J Giả thiết xét với minSup = 0,25 và maxSup = 0,5. Áp dụng thuật toán MCPSI với các mục dữ liệu được sắp xếp theo thứ tự từ điển tăng dần. Ban đầu khởi tạo tập Nodes = {B×14, C×147, D×16, F×47, H×146} (dòng 1). Vì xét theo thứ tự tăng dần của từ vựng nên dòng 3 tiến hành tại nhánh B×14. Đặt X = B (dòng 4). Tiếp theo nút này sẽ được kết hợp với các nút lân cận ở bên phải (dòng 5). Khi kết hợp B với C vì g(B) ⊂g(C) nên thay B bằng BC (X = BC). Khi kết hợp với D được tập BCD nhưng tập này có độ hỗ trợ 37 nhỏ hơn minSup nên bị loại. Khi kết hợp với F được tập BCF cũng có độ hỗ trợ nhỏ hơn minSup nên cũng bị loại. Kết hợp với H, g(BC) ⊂g(H) nên thay BC bằng BCH (X = BCH), tập này có độ hỗ trợ không nhỏ hơn minSup. Kết thúc trên nhánh B chỉ tìm được tập BCH. Tập mục dữ liệu BCH có sup(BCH) = 0,25 thỏa mãn điều kiện minSup ≤sup(BCH) [...]... phép ta tìm kiếm luật kết hợp một cách linh hoạt trong những cơ sở dữ liệu lớn. Ngoài ra còn một số khái niệm mở rộng của các luật kết hợp đó là: Luật kết hợp định lượng, Luật kết hợp tổng quát, Việc khai phá luật kết hợp dựa trên các khái niệm mở rộng này cho phép phát hiện được nhiều luật kết hợp mà các thuật toán khai phá luật kết hợp cơ sở không tìm thấy được. Ví dụ, với luật kết hợp định lượng cho phép người ta phát biểu một luật có dạng như sau ... thể hiện sự tương quan (correlation) giữa X và Y. 1.2.3 Khai phá luật kết hợp Bài toán khai phá luật kết hợp có thể phát biểu như sau: Cho cơ sở dữ liệu giao tác DB, ngưỡng độ hỗ trợ tối thiểu minsup và ngưỡng độ tin cậy tối thiểu minconf. Yêu cầu: Tìm tất cả các luật kết hợp X→Y trên cơ sở dữ liệu DB sao cho sup(X→Y) ≥ minsup và conf(X→Y) ≥ minconf. Khai phá luật kết hợp này được gọi là bài toán cơ bản hay bài toán nhị phân, vì ở đây, giá trị của mục dữ liệu trong cơ sở dữ liệu là 0 hoặc 1 (xuất ... Apiori và FP-growth, chương 1 cũng đã trình bày thuật toán sinh luật kết hợp từ tập mục phổ biến. 19 Chương 2: LUẬT KẾT HỢP HIẾM 2.1 Giới thiệu chung về luật kết hợp hiếm Luật kết hợp hiếm hàm ý chỉ các luật kết hợp không xảy ra thường xuyên trong các CSDL. Mặc dù ít khi xảy ra, nhưng trong nhiều trường hợp chúng lại là các luật rất có giá trị. Phát hiện luật kết hợp hiếm là một phần của bài toán phát hiện luật kết hợp và hiện đang nhận được nhiều sự quan tâm của các nhà nghiên cứu. Luật ... toán phát hiện luật hiếm Sporadic), một kiểu của luật kết hợp hiếm, sẽ được trình bày ở các phần tiếp sau đây. 2.4 Phát hiện luật kết hợp hiếm Sporadic trên CSDL giao tác 2.4.1 Khái niệm về luật hiếm Sporadic Y.S. Koh và N. Rountree [8, 9] đề cập bài toán phát hiện luật Sporadic, một kiểu luật kết hợp hiếm. Luật Sporadic là luật ít khi xảy ra, có hỗ trợ thấp nhưng độ tin cậy cao, ví dụ, sự kết hợp hiếm hoi của hai triệu chứng bệnh cho ... này vẫn bị giới hạn bởi tính chất tự nhiên của dữ liệu. Các luật hiếm thường là sự kết hợp của: (1) các mục dữ liệu hiếm; (2) các mục dữ liệu hiếm và các mục dữ liệu phổ biến; (3) các mục dữ liệu phổ biến, có độ hỗ trợ cao khi xét riêng từng mục dữ liệu, nhưng khi kết hợp lại tạo thành các tập mục có độ hỗ trợ nhỏ. Chính vì vậy không thể dùng các kỹ thuật phát hiện tập phổ biến thông thường để phát hiện các luật kết hợp hiếm. Độ hỗ trợ thấp của các tập ... một dạng nào cả. Vì vậy để khai phá luật kết hợp trong các cơ sở dữ liệu này các nhà nghiên cứu đề xuất một số phương pháp rời rạc hóa nhằm chuyển CSDL cần khai phá về dạng nhị phân để có thể áp dụng các thuật toán đã có. Luật kết hợp với thuộc tính được đánh trọng số trong cơ sở dữ liệu thường không có vai trò như nhau. Một số mục dữ liệu quan trọng và được chú trọng hơn các mục dữ liệu khác sẽ được gán ... đó B và D là các kết luận của các luật hợp lệ có 1-mục ở phần kết luận. Thuật toán nhanh hơn mô tả ở trên chỉ kiểm tra một luật này. 1.2.7 Một số mở rộng khai phá luật kết hợp Lĩnh vực khai phá luật kết hợp cho đến nay đã được nghiên cứu và phát triển theo nhiều hướng khác nhau. Các hướng chính mở rộng là: - Luật kết hợp nhị phân (Binary association rule): là hướng nghiên cứu đầu tiên của luật kết hợp. Theo dạng luật kết hợp ... thích mua bán của khách hàng. 1.2 Khai phá luật kết hợp trong cơ sở dữ liệu 1.2.1 Các khái niệm cơ sở Mô hình đầu tiên của bài toán khai phá luật kết hợp là mô hình nhị phân (hay còn gọi là mô hình cơ bản) được R. Agrawal, T. Imielinski và A. Swami đề xuất vào năm 1993 [4], xuất phát từ nhu cầu phân tích dữ liệu của cơ sở dữ liệu giao tác, phát hiện các mối quan hệ giữa các tập mục hàng hóa ... 1. Trích chọn dữ liệu data selection Hình 1.1 Quá trình khám phá tri thức Bước 1: Trích chọn dữ liệu (data selection): là bước trích chọn những tập dữ liệu cần được khai phá từ các tập dữ liệu lớn (databases, data warehouses). Bước 2: Tiền xử lý dữ liệu (data preprocessing): là bước làm sạch dữ liệu (xử lý dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán, v v), rút gọn dữ liệu (sử dụng các phương pháp thu gọn dữ liệu, histograms, lấy ... có thể có những sự sai sót, dư thừa và trùng lặp. Lọc dữ liệu là cắt bỏ những dư thừa để dữ liệu được định dạng thống nhất. Quá trình khai phá dữ liệu được thể hiện bởi hình 1.3 sau: Thống kê tóm tắt Xác định nhiệm vụ Xác định dữ liệu liên quan Thu thập và tiền xử lý DL Giải thuật khai phá DL Dữ liệu trực tiếp Mẫu 6 Hình 1.3: Quá trình khai phá dữ liệu Công việc tiếp theo sử dụng các thuật toán khác nhau để khai phá các
Ngày đăng: 17/08/2016, 15:59
Xem thêm: Khai phá luật kết hợp hiếm trên cơ sở dữ liệu và ứng dụng , Khai phá luật kết hợp hiếm trên cơ sở dữ liệu và ứng dụng