Khai phá luật kết hợp từ dữ liệu chuỗi thời gian

71 616 1
Khai phá luật kết hợp từ dữ liệu chuỗi thời gian

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG TRẦN THỊ THU TRANG KHAI PHÁ LUẬT KẾT HỢP TỪ DỮ LIỆU CHUỖI THỜI GIAN LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH Thái Nguyên - 2012 ii LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Khai phá luật kết hợp từ dữ liệu chuỗi thời gian” là công trình nghiên cứu của riêng tôi dƣới sự hƣớng dẫn của PGS.TS. Bùi Thế Hồng. Toàn bộ phần mềm do chính tôi lập trình và kiểm thử. Tôi xin chịu trách nhiệm về lời cam đoan của mình. Các số liệu và thông tin sử dụng trong luận văn này hoàn toàn là trung thực. Tác giả Trần Thị Thu Trang iii MỤC LỤC MỤC LỤC ii DANH MỤC HÌNH VẼ iv DANH MỤC CÁC BẢNG v DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT vi MỞ ĐẦU 1 CHƢƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ CHUỖI THỜI GIAN 3 1.1. Khai phá dữ liệu 3 1.1.1. Khai phá dữ liệu là gì? 3 1.1.2. Nhiệm vụ của khai phá dữ liệu 3 1.1.3. Triển khai việc khai phá dữ liệu 5 1.1.4. Một số ứng dụng khai phá dữ liệu 6 1.1.5. Quá trình phát hiện tri thức trong cơ sở dữ liệu 7 1.1.6. Các kỹ thuật khai phá dữ liệu 99 1.2. Dữ liệu chuỗi thời gian 14 1.2.1. Khái niệm 14 1.2.2. Tiền xử lý dữ liệu chuỗi thời gian 17 CHƢƠNG 2: KHAI PHÁ LUẬT KẾT HỢP TỪ DỮ LIỆU CHUỖI THỜI GIAN 20 2.1. Luật kết hợp trong khai phá dữ liệu 20 2.1.1. Khái niệm luật kết hợp 20 2.1.2. Lý thuyết về luật kết hợp 21 2.2. Khai phá luật kết hợp 27 iv 2.2.1. Khai phá luật kết hợp từ cơ sở dữ liệu 27 2.2.2. Khai phá luật kết hợp từ dữ liệu chuỗi thời gian 28 2.3. Thuật toán khai phá luật kết hợp từ dữ liệu chuỗi thời gian 30 2.3.1. Thuật toán khai phá luật kết hợp từ dữ liệu thƣờng 30 2.3.2. Thuật toán khai phá luật kết hợp từ dữ liệu chuỗi thời gian 40 CHƢƠNG 3: XÂY DỰNG CHƢƠNG TRÌNH THỬ NGHIỆM 53 3.1. Phát biểu bài toán 53 3.2. Xây dựng chƣơng trình 54 KẾT LUẬN 63 TÀI LIỆU THAM KHẢO 64 v DANH MỤC HÌNH VẼ Hình 1.1. Quá trình phát hiện tri thức trong cơ sở dữ liệu 8 Hình 1.2. Đồ thị thể hiện thành phần xu hƣớng dài hạn 15 Hình1.3. Đồ thị thể hiện thành phần mùa 16 Hình 1.4. Đồ thị thể hiện thành phần chu kỳ 16 Hình 1.5. Trung bình trƣợt hàm mũ 17 Hình 2.1. Một cây mẫu thƣờng xuyên 39 Hình 2.2. FP-Tree và CFP-Tree 42 Hình 2.3: Các khoản mục đƣợc ánh xạ 44 Hình 2.4: Ví dụ cây CFP-Tree 45 Hình 3.1. Bảng cơ sở dữ liệu 55 Hình 3.2. Giao diện chính của chƣơng trình 56 Hình 3.3. Thực hiện chọn CSDL 56 Hình 3.4. Thực hiện xóa CSDL 57 Hình 3.5. Tìm tập phổ biến dựa trên thuật toán CFPmine 58 Hình 3.6. Thực hiện lệnh Reset 59 Hình 3.7. Chọn dữ liệu cho thuật toán tìm luật kết hợp 60 Hình 3.8. Thực hiện xóa cơ sở dữ liệu 60 Hình 3.9. Thực hiện luật kết hợp 61 Hình 3.10. Thực hiện lệnh Reset 62 vi DANH MỤC CÁC BẢNG Bảng 2.1. Ma trận biểu diễn cơ sở dữ liệu 3535 Bảng 2.2. Vector biểu diễn nhị phân cho tập 1 thuộc tính 35 Bảng 2.3. Vector biểu diễn nhị phân cho các tập 2 thuộc tính 36 Bảng 2.4. Vector biểu diễn nhị phân cho các tập 3 thuộc tính 36 Bảng 2.5. Vector biểu diễn nhị phân cho các tập 4 thuộc tính 36 Bảng 2.6. Các giao tác cơ sở dữ liệu . ………………………………………38 Bảng 2.7. Khoản mục và số lần xuất hiện trong cơ sở dữ liệu 40 vii DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT Các từ viết tắt Nghĩa tiếng anh Nghĩa tiếng việt FI Frequent Itemset Tập mục thƣờng xuyên FCI Frequent Closed Itemset Tập mục thƣờng xuyên đóng MFI Maximally Frequent Itemset Tập mục thƣờng xuyên lớn nhất CSDL Cơ sở dữ liệu FP-Tree Frequent Pattern Tree Cây mẫu thƣờng xuyên CFP-Tree Compressed Frequent Pattern Tree Cây mẫu thƣờng xuyên nén ITARM Inter-Transaction Association Rules Mining Khai phá luật kết hợp liên giao dịch 1 MỞ ĐẦU Ngày nay, cuộc cách mạng của kỹ thuật số cho phép số hóa thông tin dễ dàng và chi phí lƣu trữ thấp.Với sự phát triển của phần mềm, phần cứng và trang bị nhanh hệ thống máy tính trong kinh doanh. Số lƣợng dữ liệu khổng lồ đƣợc tập trung và lƣu trữ trong cơ sở dữ liệu. Dữ liệu sau khi phục vụ cho một mục đích nào đó đƣợc lƣu lại trong kho dữ liệu và theo ngày tháng khối lƣợng dữ liệu đƣợc lƣu trữ ngày càng lớn. Trong khối lƣợng dữ liệu to lớn này có rất nhiều thông tin có ích mang tính tổng quát, thông tin có tính quy luật vẫn còn đang tiềm ẩn mà chúng ta chƣa biết. Từ khối lƣợng dữ liệu rất lớn cần có những công cụ tự động rút các thông tin và kiến thức có ích. Một hƣớng tiếp cận có khả năng giúp các công ty khai thác các thông tin có nhiều ý nghĩa từ các tập dữ liệu lớn đó là khai phá dữ liệu. Với sự bùng nổ và phát triển của công nghệ thông tin đã mang lại nhiều hiệu quả đối với khoa học cũng nhƣ các hoạt động thực tế, trong đó khai phá dữ liệu là một trong những lĩnh vực mang lại hiệu quả thiết thực cho con ngƣời. Khai phá dữ liệu đã giúp ngƣời sử dụng thu đƣợc những tri thức hữu ích từ những cơ sở dữ liệu hoặc các kho dữ liệu khổng lồ khác. Luận văn đề cập đến các khái niệm và vấn đề cơ bản trong khai phá luật kết hợp từ dữ liệu chuỗi thời gian đƣợc áp dụng trong cơ sở dữ liệu bán hàng. Luận văn cấu trúc gồm 3 chƣơng: Chƣơng 1: Trong chƣơng 1 tìm hiểu khái quát về khai phá dữ liệu và dữ liệu chuỗi thời gian và phƣơng pháp tiền xử lý dữ liệu chuỗi thời gian. Chƣơng 2: Trong chƣơng 2 sẽ tìm hiểu phƣơng pháp khai phá dữ liệu từ chuỗi thời gian qua thuật toán ITARM dựa trên cấu trúc cây CFPTree. 2 Chƣơng 3: Trong chƣơng 3 tiến hành cài đặt thuật toán ở chƣơng 2 và cài đặt ứng dụng của thuật toán trên cơ sở dữ liệu bán hàng. Luận văn này đƣợc hoàn thành dƣới sự hƣớng dẫn tận tình của PGS.TS Bùi Thế Hồng, em xin bày tỏ lòng biết ơn chân thành của mình đối với thầy. Em xin chân thành cảm ơn các thầy, cô giáo Viện Công nghệ thông tin, Trƣờng Đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên đã tham gia giảng dạy, giúp đỡ em trong suốt qúa trình học tập nâng cao trình độ kiến thức. Tuy nhiên vì điều kiện thời gian và khả năng có hạn nên luận văn không thể tránh khỏi những thiếu sót. Em kính mong các thầy cô giáo và các bạn đóng góp ý kiến để đề tài đƣợc hoàn thiện hơn. 3 CHƢƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ CHUỖI THỜI GIAN 1.1. Khai phá dữ liệu 1.1.1. Khai phá dữ liệu là gì? Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ 80. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn(các kho dữ liệu). Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy trong tập dữ liệu. Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm Phát hiện tri thức trong cơ sở dữ liệu để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn. Trong đó, khai phá dữ liệu là một bƣớc đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu (hay các mô hình) từ dữ liệu. Ở một mức độ trừu tƣợng nhất định có thể định nghĩa về khai phá dữ liệu: Khai phá dữ liệu là một quá trình tìm kiếm, phát hiện các tri thức mới, tiềm ẩn, hữu dụng trong cơ sở dữ liệu lớn. Khám phá tri thức là mục tiêu chính của khai phá dữ liệu, do vậy hai khái niệm đó đƣợc xem nhƣ hai lĩnh vực tƣơng đƣơng nhau. Nhƣng, nếu phân chia một cách tách bạch thì khai phá dữ liệu là một bƣớc chính trong quá trình khám phá tri thức. 1.1.2. Nhiệm vụ của khai phá dữ liệu Các bài toán liên quan đến khai phá dữ liệu về bản chất là các bài toán thống kê. Điểm khác biệt giữa các kỹ thuật khai phá dữ liệu và các công cụ phục vụ tính toán thống kê mà chúng ta đã biết là ở khối lƣợng cần tính toán. Một khi dữ liệu đã trở nên khổng lồ thì những khâu nhƣ: thu thập dữ liệu, tiền xử lý và xử lý dữ liệu đều đòi hỏi phải đƣợc tự động hóa. Tuy [...]... quá trình phân tích dữ liệu thông qua các giải thuật khai phá 20 CHƢƠNG 2: KHAI PHÁ LUẬT KẾT HỢP TỪ DỮ LIỆU CHUỖI THỜI GIAN 2.1 Luật kết hợp trong khai phá dữ liệu 2.1.1 Khái niệm luật kết hợp Đƣợc giới thiệu từ năm 1993, bài toán khai thác luật kết hợp nhận đƣợc rất nhiều sự quan tâm của nhiều nhà khoa học Ngày nay việc khai thác các luật nhƣ thế vẫn là một trong những phƣơng pháp khai thác mẫu phổ... một thời điểm nhƣ là một giao dịch, vấn đề khai thác luật kết hợp từ nhiều chuỗi có thể đƣợc chia thành hai loại: luật kết hợp bên trong giao dịch, và luật kết hợp liên giao dịch Chúng ta có thể sử dụng các thuật toán khai thác luật kết hợp truyền thống để khai thác luật kết hợp từ chuỗi thời gian trong giao dịch Tuy nhiên, các quy tắc trong giao dịch liên kết chỉ có thể tiết lộ quan hệ nhiều chuỗi thời. .. của luật kết hợp, các nhà nghiên cứu còn chú trọng đề xuất những thuật toán nhằm tăng tốc quá trình tìm kiếm tập phổ biến từ cơ sở dữ liệu Ngoài ra, còn có một số hƣớng nghiên cứu khác về khai thác luật kết hợp nhƣ: khai thác luật kết hợp trực tuyến, khai thác luật kết hợp đƣợc kết nối trực tuyến đến các kho dữ liệu đa chiều thông qua công nghệ OLAP, MOLAP, ROLAP, ADO 2.2 Khai phá luật kết hợp 2.2.1 Khai. .. của chúng thay đổi theo thời gian Phân tích sự tiến hóa có thể bao gồm cả đặc trƣng hóa, phân biệt, tìm luật kết hợp, phân lớp hay phân cụm dữ liệu liên quan đến thời gian, phân tích dữ liệu theo chuỗi thời gian, so sánh mẫu theo chu kỳ và phân tích dữ liệu dựa trên tính tƣơng tự 1.1.3 Triển khai việc khai phá dữ liệu Một nhóm các tác giả đề nghị triển khai quá trình khai phá dữ liệu theo 5 bƣớc: Bƣớc... khoảng thời gian bằng nhau, số lƣợng hàng bán đƣợc trong 12 tháng của một công ty Theo số chuỗi thời gian liên quan đến nhau, vấn đề khai thác luật kết hợp có thể đƣợc chia thành hai loại: luật kết hợp khai thác từ chuỗi đơn hay từ nhiều chuỗi Vấn đề khai thác luật kết hợp từ chuỗi đơn đƣợc xem nhƣ là vấn đề khai thác mẫu tuần tự, đã có rất nhiều nghiên cứu về nó Nếu chúng ta lấy giá trị của chuỗi. .. nạp dữ liệu vào hệ thống kho dữ liệu 2 Lƣu trữ và quản trị dữ liệu trong một cơ sở dữ liệu nhiều chiều 3 Xác định mục tiêu cần khai phá (Sử dụng các công cụ phân tích về mặt tác nghiệp) 4 Sử dụng các phần mềm phân tích dữ liệu để khai phá dữ liệu 5 Thể hiện kết quả khai phá dƣới khuôn dạng hữu ích hay bảng biểu, đồ thị 1.1.4 Một số ứng dụng khai phá dữ liệu Ở thập kỷ 90 của thế kỷ XX, ngƣời ta coi khai. .. khó để dự báo xu hƣớng của chuỗi thời gian Ở đây, ta nghiên cứu vấn đề khai thác luật kết hợp liên giao dịch trong chuỗi thời gian mà xu hƣớng này có thể đƣợc dự đoán bởi sự khác biệt thời gian giữa các điều kiện tiên quyết và kết quả trong một quy tắc[10] 29 Dữ liệu thời gian bao gồm các trình tự của các giá trị hoặc các sự kiện thay đổi với thời gian Dữ liệu chuỗi thời gian đƣợc ứng dụng trong nhiều... luật kết hợp 2.2.1 Khai phá luật kết hợp từ cơ sở dữ liệu Khai phá luật kết hợp là công việc phát hiện ra các luật kết hợp thỏa mãn các ngƣỡng độ hỗ trợ () và ngƣỡng độ tin cậy (α) cho trƣớc Bài toán khai phá luật kết hợp đƣợc chia thành hai bài toán nhỏ, hay nhƣ ngƣời ta thƣờng nói, việc giải bài toán trải qua hai pha: Pha 1: Tìm tất cả các tập phổ biến (tìm FI) trong cơ sở dữ liệu T Pha 2: Sử dụng... luật kết hợp Boolean và định lƣợng, luật kết hợp đa cấp, luật kết hợp đa chiều và các mẫu tuần tự, nhƣng các luật kết hợp truyền thống chủ yếu quan tâm về các quy tắc trong cùng một giao dịch hoặc cùng một trình tự, các quy tắc trong giao dịch liên kết Trong phân tích chuỗi thời gian, các luật kết hợp trong giao dịch chỉ có thể tiết lộ các mối tƣơng quan của nhiều chuỗi thời gian tại cùng một thời. .. lý dữ liệu Là thu thập và xử lý thô, còn đƣợc gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu (làm sạch dữ liệu) , xử lý việc thiếu dữ liệu (làm giàu dữ liệu) , biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bƣớc này thƣờng chiếm nhiều thời gian nhất trong toàn bộ qui trình phát hiện tri thức Do dữ liệu đƣợc lấy từ nhiều nguồn khác nhau, không đồng nhất, … có thể gây ra các nhầm lẫn Sau bƣớc này, dữ liệu . niệm luật kết hợp 20 2.1.2. Lý thuyết về luật kết hợp 21 2.2. Khai phá luật kết hợp 27 iv 2.2.1. Khai phá luật kết hợp từ cơ sở dữ liệu 27 2.2.2. Khai phá luật kết hợp từ dữ liệu chuỗi thời. thời gian 28 2.3. Thuật toán khai phá luật kết hợp từ dữ liệu chuỗi thời gian 30 2.3.1. Thuật toán khai phá luật kết hợp từ dữ liệu thƣờng 30 2.3.2. Thuật toán khai phá luật kết hợp từ dữ liệu. chuỗi thời gian 14 1.2.1. Khái niệm 14 1.2.2. Tiền xử lý dữ liệu chuỗi thời gian 17 CHƢƠNG 2: KHAI PHÁ LUẬT KẾT HỢP TỪ DỮ LIỆU CHUỖI THỜI GIAN 20 2.1. Luật kết hợp trong khai phá dữ liệu

Ngày đăng: 09/11/2014, 19:47

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan