Khai phá tập mục thường xuyên đóng trong cơ sở dữ liệu và ứng dụng

79 589 0
Khai phá tập mục thường xuyên đóng trong cơ sở dữ liệu và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ ĐẠI HỌC THÁI NGUN TRƢỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN & TRUYỀN THƠNG  LÊ THỊ TUYẾT NHUNG Tên đề tài: KHAI PHÁ TẬP MỤC THƢỜNG XUN ĐĨNG TRONG CƠ SỞ DỮ LIỆU VÀ ỨNG DỤNG Chun ngành: KHOA HỌC MÁY TÍNH Mã số : 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Hƣớng dẫn khoa học: TS. NGUYỄN HUY ĐỨC ii Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ Thái Ngun - 2013 LỜI CẢM ƠN Trước hết em xin gửi lời cảm ơn đến TS. Nguyễn Huy Đức, người thầy đã hướng dẫn em rất nhiều trong suốt q trình tìm hiểu, nghiên cứu và hồn thành luận văn tốt nghiệp từ lý thuyết đến ứng dụng. Sự hướng dẫn của thầy đã giúp em có thêm được những hiểu biết khai phá dữ liệu và ứng dụng của nó. Đồng thời em cũng xin chân thành cảm ơn các thầy cơ trong trường cũng như các thầy cơ ở Viện Khoa học và cơng nghệ Việt Nam đã tận tình giảng dạy, trang bị cho em những kiến thức cơ bản cần thiết để em có thể hồn thành tốt luận văn. Em xin gửi lời cảm ơn đến gia đình, bạn bè đã tạo mọi điều kiện thuận lợi để em có thể xây dựng thành cơng luận văn này. Thái Ngun, tháng 06 năm 2013 Học viên Lê Thị Tuyết Nhung iii Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ LỜI CAM ĐOAN Tơi xin cam đoan đề tài “Khai phá tập mục thường xun đóng trong cơ sở dữ liệu và ứng dụng ” là cơng trình nghiên cứu của bản thân tơi. Các số liệu và kết quả nghiên cứu nêu trong luận văn này là trung thực, được các tác giả cho phép sử dụng và các tài liệu tham khảo như đã trình bày trong luận văn. Tơi xin chịu trách nhiệm về luận văn của mình. iv Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ MỤC LỤC Lời cảm ơn i Lời cam đoan ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC HÌNH VẼ vii MỞ ĐẦU 1 Chƣơng 1: Tổng quan về khai phá dữ liệu và khai phá tập mục thƣờng xun 1.1 Khái niệm về khai phá tri thức và khai phá dữ liệu 1.2 Kiến trúc của hệ thống khai phá dữ liệu 1.3 Q trình khai phá dữ liệu 1.4 Một số kỹ thuật khai phá dữ liệu 1.4.1 Phân lớp và dự đốn (Classification & Prediction) 1.4.2 Luật kết hợp (Association Rules) 1.4.3 Khai thác mẫu tuần tự (Sequential/ Temporal patterns) 1.4.4 Phân nhóm - đoạn (Clustering/ Segmentation) 1.4.5 Hồi quy (Regression) 1.4.6 Tổng hợp hóa (Summarization) 1.4.7 Mơ hình hóa sự phụ thuộc (dependency modeling) 1.4.8 Phát hiện sự biến đổi và độ lệch (Change and deviation detection) 1.5 Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu 1.6 Một số ứng dụng của khai phá dữ liệu 1.7 Khai phá luật kết hợp 1.7.1 Bài tốn phát hiện luật kết hợp 1.7.2 Các khái niệm 1.7.3 Các cách tiếp cận khai phá tập mục thường xun 1.7.4 Một số thuật tốn điển hình tìm tập mục thường xun 2 2 4 5 8 8 11 11 11 12 12 12 13 13 14 14 14 15 18 19 v Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ 1.7.4.1 Thuật tốn Apriori (Phương pháp sinh ứng viên) 1.7.4.2 Thuật tốn FP-Growth 1.8 Kết luận chương 1 19 23 31 Chƣơng 2: Khai phá tập mục thƣờng xun đóng trong cơ sở dữ liệu 2.1 Cơ sở tốn học của tập mục thường xun đóng 2.1.1 Ánh xạ đóng 2.1.2 Tập đóng 2.1.3 Kết nối Galois 2.1.4 Bao đóng của tập mục dữ liệu 2.2 Khái niệm, tính chất tập mục thường xun đóng 2.3 Một số thuật tốn điển hình khai phá tập mục thường xun đóng 2.3.1 Thuật tốn CHARM (Phương pháp dựa trên cây IT-Tree) 2.3.1.1 Giới thiệu thuật tốn CHARM 2.3.1.2. Cây tìm kiếm và lớp tương đương 2.3.1.3 Các tính chất cơ bản của cặp tập mục – tập định danh 2.3.1.4 Thiết kế thuật tốn 2.3.2 Thuật tốn Closet + 2.4 Kết luận chương 2 32 32 32 32 32 33 34 35 35 35 35 36 37 41 45 Chƣơng 3: Chƣơng trình thực nghiệm ứng dụng trong lĩnh vực y tế 3.1 Bài tốn phát hiện luật kết hợp trong dữ liệu y tế 3.2 Xây dựng chương trình 3.3 Kết quả thực nghiệm 3.4 Nhận xét KẾT LUẬN TÀI LIỆU THAM KHẢO PHỤ LỤC 46 46 50 57 58 59 60 62 vi Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ Ký hiệu Diễn giải C k Tập các k tập mục ứng viên BFS Breadth First Search CSDL Cơ sở dữ liệu CHARM Closed Asociation RuleMning DB Cơ sở dữ liệu giao tác DFS Depth First Search FP -growth Frequent -Pattern Growth FP -tree Frequent pattern tree IT-tree Itemset-Tidset tree I Tập các mục dữ liệu k-itemset Tập mục gồm k mục KPDL Khai phá dữ liệu Minsup Ngưỡng hỗ trợ tối thiểu L k Tập các k-tập mục thường xun Supp Độ hỗ trợ (support) TID Định danh của giao tác T Giao tác (transaction) DL Dữ liệu TX Thường xun TTHN Tình trạng hơn nhân DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT vii Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ DANH MỤC CÁC BẢNG Bảng 1.1 Cơ sở dữ liệu giao tác minh họa thực hiện thuật tốn Apriori Bảng 1.2: CSDL giao tác minh họa cho thuật tốn FP-Growth Bảng 2.1: a) CSDL giao tác biểu diễn ngang b) CSDL giao tác biểu diễn dọc Bảng 3.1 : Dữ liệu bệnh hen suyễn Bảng 3.2: Lựa chọn thuộc tính Bảng 3.3: Thuộc tính “Tuổi” sau khi phân hoạch Bảng 3.4: Dữ liệu tìm kiếm sau khi thực hiện phân loại dữ liệu Bảng 3.5: Chuyển đổi dữ liệu Bảng 3.6: Dữ liệu cho khai phá viii Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ DANH MỤC HÌNH VẼ Hình 1.1: Kiến trúc của một hệ thống khai phá dữ liệu Hình 1.2: Q trình khám phá tri thức Hình 1.3: Q trình khai phá dữ liệu Hình 1.4: Cây FP-tree được xây dựng dần khi thêm các giao tác t1 ÷ t6 Hình 1.5: Cây FP-tree của CSDL DB trong bảng 1.5 Hình 2.1: Kết nối Galois Hình 2.2: Cây IT-tree dùng Tidset với minSup =3 Hình 2.3: Cây IT-tree tìm tập mục thường xun đóng thỏa mãn ngưỡng minsup = 50% Hình 2.4: Áp dụng tính chất của tập thường xun đóng Hình 2.5: Minh họa xây dựng cây kết quả Hình 3.1: Mơ hình khai phá cho dữ liệu y tế Hình 3.2: Giao diện chính chứa dữ liệu gốc Hình 3.3: Hiển thị dữ liệu chuyển đổi Hình 3.4: Giao diện thêm mới bản ghi 1 Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ MỞ ĐẦU Khai phá dữ liệu (Data Mining), hiện nay đang được rất nhiều người chú ý. Nó thực sự đã đem lại những lợi ích đáng kể trong việc cung cấp những thơng tin tiềm ẩn trong các cơ sở dữ liệu lớn, giúp người sử dụng thu được những tri thức hữu ích từ những cơ sở dữ liệu hoặc các kho dữ liệu khổng lồ khác. Những “tri thức” chiết xuất từ nguồn cơ sở dữ liệu đó phục vụ các u cầu trợ giúp quyết định ngày càng có ý nghĩa quan trọng và là nhu cầu to lớn trong mọi lĩnh vực hoạt động kinh doanh, quản lý. Tiến hành cơng việc như vậy chính là thực hiện q trình phát triển tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database) mà trong đó kỹ thuật khai phá dữ liệu (Data Mining) cho phép phát hiện những tri thức tiềm ẩn. Một trong các nội dung cơ bản trong khai phá dữ liệu là khai phá luật kết hợp. Khai phá luật kết hợp gồm hai bước: Bước thứ nhất, tìm tất cả các tập mục thường xun, đòi hỏi sự tính tốn lớn. Bước thứ hai, dựa vào các tập mục thường xun tìm các luật kết hợp, đòi hỏi tính tốn ít hơn, song gặp phải một vấn đề là có thể sinh ra q nhiều luật, vượt khỏi sự kiểm sốt của người khai phá hoặc người dùng, trong đó có nhiều luật khơng cần thiết. Để giải quyết vấn đề đó, trong bước thứ nhất, khơng cần thiết khai phá tất cả các tập mục thường xun mà chỉ cần khai phá các tập mục thường xun đóng. Khai phá luật kết hợp dựa trên tập mục thường xun đóng cho hiệu quả cao hơn, nó đảm bảo khơng tìm ra các tập mục thường xun khơng cần thiết, khơng sinh ra các luật dư thừa. Với ý nghĩa đó và mục đích tìm hiểu về bài tốn tìm tập mục thường xun trong cơ sở dữ liệu lớn, em đã quyết định lựa chọn đề tài “Khai phá tập mục thường xun đóng trong cơ sở dữ liệu và ứng dụng”. Nội dung luận văn gồm 3 chương: Chương 1: Tổng quan về khai phá dữ liệu và khai phá tập mục thường xun Chương 2: Khai phá tập mục thường xun đóng trong cơ sở dữ liệu Chương 3: Chương trình thực nghiệm ứng dụng trong lĩnh vực y tế 2 Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ KHAI PHÁ TẬP MỤC THƢỜNG XUN 1.1 Khái niệm về khai phá tri thức và khai phá dữ liệu "Khám phá tri thức là q trình tìm ra những tri thức, đó là những mẫu tìm ẩn, trước đó chưa biết và là thơng tin hữu ích đáng tin cậy". Còn khai phá dữ liệu (KPDL) là một bước quan trọng trong q trình khám phá tri thức, sử dụng các thuật tốn KPDL chun dùng với một số qui định về hiệu quả tính tốn chấp nhận được để chiết xuất ra các mẫu hoặc các mơ hình có ích trong dữ liệu. Nói một cách khác, mục đích của khám phá tri thức và KPDL chính là tìm ra các mẫu hoặc mơ hình đang tồn tại trong các cơ sở dữ liệu (CSDL) nhưng vẫn còn bị che khuất bởi hàng núi dữ liệu. Khám phá tri thức từ CSDL là một q trình sử dụng các phương pháp và cơng cụ tin học, trong đó con người là trung tâm của q trình. Do đó, con người cần phải có kiến thức cơ bản về lĩnh vực cần khám phá để có thể chọn được tập con dữ liệu tốt, từ đó phát hiện các mẫu phù hợp với mục tiêu đề ra. Đó chính là tri thức, được rút ra từ CSDL, thường để phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định trong một lĩnh vực nhất định. Tuy vậy, q trình khám phá tri thức mang tính chất hướng nhiệm vụ vì khơng phải là mọi tri thức tìm được đều áp dụng vào thực tế được. Để có được những thơng tin q báu chúng ta phải tìm ra các mẫu có trong tập CSDL trước. Việc đánh giá các mẫu được tìm thấy cũng là một điều thú vị và tất yếu có tính chất quyết định đến sự sử dụng hay khơng sử dụng chúng. Đầu ra của một chương trình là khám phá những mẫu có ích được gọi là tri thức. Tri thức được khám phá có các đặc điểm chính: - Kiến thức cao cấp: Ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Q trình để tìm ra kiến thức như vậy khơng phải từ những phương pháp thống kê cổ điển mà mà nó được được đúc kết từ các kinh nghiệm đã có, được thể hiện trong dữ liệu, những kết quả đó có thể lĩnh hội được. [...]... hợp tập con dữ liệu này thuộc tập con kia Nghĩa xác định dữ liệu trong một nhóm con của đối tượng có khác đáng kể so với tồn bộ đối tượng khơng? Theo cách này, sai sót dữ liệu hay sai lệch so với giá trị thơng thường sẽ được phát hiện 1.5 Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu Dựa vào những kiểu dữ liệu mà kỹ thuật khai phá áp dụng, có thể chia dữ liệu thành các loại khác nhau Cơ sở dữ liệu. .. thường xun Bài tốn khai phá tập mục thường xun có thể chia thành hai bài tốn nhỏ: Tìm các tập mục ứng viên và tìm các tập mục thường xun Tập mục ứng viên là tập mục mà ta hy vọng nó là tập mục thường xun, phải tính độ hỗ trợ của nó để kiểm tra Tập mục thường xun là tập mục có độ hỗ trợ lớn hơn hoặc bằng ngưỡng hỗ trợ tối thiểu cho trước Đã có rất nhiều thuật tốn tìm tập mục thường xun được cơng bố, ta có... thuật tốn khai phá tập mục thường xun khác về sau Ý tưởng chính của thuật tốn như sau: sinh ra các tập mục ứng viên từ các tập mục thường xun ở bước trước, sử dụng kỹ thuật “tỉa” để bỏ đi những tập mục ứng viên khơng thỏa mãn ngưỡng hỗ trợ cho trước Cơ sở của kỹ thuật này là tính chất: Bất kỳ tập con nào của tập mục thường xun cũng phải là tập mục thường xun Vì vậy các tập mục ứng viên gồm k mục có thể... trước Kí hiệu các tập này là FI Tính chất tập mục thường xun: Tính chất 1.1: Giả sử A, B I với A B thì supp(A) ≥ supp(B) Tính chất 1.2: Tập con của tập mục thường xun là tập mục thường xun Tức là: với A, B I, nếu A B và B là tập mục thường xun thì A cũng là tập mục thường xun Tính chất 1.2 có thể phát biểu lại như sau: nếu A B và A là tập mục khơng thường xun thì B cũng là tập mục khơng thường xun Định... độ hỗ trợ của các tập mục ứng viên có k mục Với cơ sở dữ liệu có n mục dữ liệu, lần lặp thứ k phải kiểm tra độ hỗ trợ của tất cả Cnk n! tập mục ứng viên có k mục k!(n k )! Duyệt theo chiều sâu là duyệt qua cơ sở dữ liệu đã được chuyển đổi thành cấu trúc cây, q trình duyệt gọi đệ quy theo chiều sâu của cây Với cơ sở dữ liệu có n mục dữ liệu, khơng gian tìm kiếm có tất cả 2 tập con, rõ ràng đây là bài... thường xun Định nghĩa 1.5: Một tập mục X được gọi là tập mục thường xun đóng (closed) nếu khơng có tập cha nào của X có cùng độ hỗ trợ với nó Ký hiệu tập các tập mục thường xun đóng là FCI Định nghĩa 1.6: Nếu X là tập mục thường xun và khơng tập cha nào cuả X là thường xun, ta nói rằng X là một tập thường xun cực đại (Maximally Frequent Itemset) Ký hiệu tập tất cả các tập mục thường xun cực đại là MFI Dễ... là phát hiện mọi tri thức bất kỳ mà là phát hiện tri thức nhằm giải quyết tốt nhiệm vụ đề ra (1) Gom dữ liệu (Gathering): Tập hợp dữ liệu là bước đầu tiên trong q trình khai phá dữ liệu Đây là bước được khai thác trong một CSDL, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web (2) Trích lọc dữ liệu (Selection): Ở giai đoạn này lựa chọn những dữ liệu phù hợp với nhiệm vụ phân tích trích... Một số ứng dụng của khai phá dữ liệu [13] KPDL có nhiều ứng dụng trong thực tế, một số ứng dụng điển hình như: - Bảo hiểm, tài chính và thị trường chứng khốn: phân tích tình hình tài chính và dự báo giá của các loại cổ phiếu trong thị trường chứng khốn Danh mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận, - Điều trị y học và chăm sóc y tế: một số thơng tin về chẩn đốn bệnh lưu trong. .. tri thức, các cơng việc chủ yếu là xác định được bài tốn khai phá, tiến hành lựa chọn phương pháp KPDL phù hợp với dữ liệu có được và tách ra các tri thức cần thiết Q trình khai phá dữ liệu được thể hiện bởi mơ hình sau: Thống kê Xác định nhiệm vụ Xác định dữ liệu liên quan tóm tắt Giải thuật khai phá dữ liệu Thu thập và tiền xử lý dữ liệu Mẫu DL trực tiếp Hình 1.3: Q trình khai phá dữ liệu - Xác định... cách kết nối các tập mục thường xun có (k-1) mục và loại bỏ tập mục ứng viên nếu nó có chứa bất kỳ một tập con nào khơng phải là thường xun.Giả sử các mục dữ liệu trong mỗi giao tác được lưu theo trật tự từ điển Thuật tốn sử dụng các ký hiệu sau đây: Tập k mục Lk Ck Chức năng Tập các k -tập mục thường xun (với độ hỗ trợ tối thiểu minsup) Mỗi phần tử của tập này có 2 trường : i) Tập mục (itemsets) ii) . Khai phá tập mục thường xun đóng trong cơ sở dữ liệu và ứng dụng . Nội dung luận văn gồm 3 chương: Chương 1: Tổng quan về khai phá dữ liệu và khai phá tập mục thường xun Chương 2: Khai phá. trong cơ sở dữ liệu 2.1 Cơ sở tốn học của tập mục thường xun đóng 2.1.1 Ánh xạ đóng 2.1.2 Tập đóng 2.1.3 Kết nối Galois 2.1.4 Bao đóng của tập mục dữ liệu 2.2 Khái niệm, tính chất tập mục. Khái niệm về khai phá tri thức và khai phá dữ liệu 1.2 Kiến trúc của hệ thống khai phá dữ liệu 1.3 Q trình khai phá dữ liệu 1.4 Một số kỹ thuật khai phá dữ liệu 1.4.1 Phân lớp và dự đốn (Classification

Ngày đăng: 19/11/2014, 19:56

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan