luận văn khai phá luật kết hợp từ dữ liệu chuỗi thời gian

74 335 0
luận văn khai phá luật kết hợp từ dữ liệu chuỗi thời gian

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Khai phá liệu từ liệu chuỗi thời gian” công trình nghiên cứu riêng hướng dẫn PGS.TS Bùi Thế Hồng Toàn phần mềm lập trình kiểm thử Tôi xin chịu trách nhiệm lời cam đoan Các số liệu thông tin sử dụng luận văn hoàn toàn trung thực Tác giả Trần Thị Thu Trang ii MỤC LỤC MỤC LỤC ii DANH MỤC HÌNH VẼ .v DANH MỤC CÁC BẢNG ix MỞ ĐẦU xi Ngày nay, cách mạng kỹ thuật số cho phép số hóa thông tin dễ dàng chi phí lưu trữ thấp.Với phát triển phần mềm, phần cứng trang bị nhanh hệ thống máy tính kinh doanh Số lượng liệu khổng lồ tập trung lưu trữ sở liệu Dữ liệu sau phục vụ cho mục đích lưu lại kho liệu theo ngày tháng khối lượng liệu lưu trữ ngày lớn Trong khối lượng liệu to lớn có nhiều thông tin có ích mang tính tổng quát, thông tin có tính quy luật tiềm ẩn mà chưa biết Từ khối lượng liệu lớn cần có công cụ tự động rút thông tin kiến thức có ích Một hướng tiếp cận có khả giúp công ty khai thác thông tin có nhiều ý nghĩa từ tập liệu lớn khai phá liệu xi Với bùng nổ phát triển công nghệ thông tin mang lại nhiều hiệu khoa học hoạt động thực tế, khai phá liệu lĩnh vực mang lại hiệu thiết thực cho người Khai phá liệu giúp người sử dụng thu tri thức hữu ích từ sở liệu kho liệu khổng lồ khác Luận văn đề cập đến khái niệm vấn đề khai phá luật kết hợp từ liệu chuỗi thời gian áp dụng sở liệu bán hàng xi CHƯƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU xiii VÀ CHUỖI THỜI GIAN xiii 1.1 Khai phá liệu xiii 1.1.1 Khai phá liệu gì? xiii 1.1.2 Nhiệm vụ khai phá liệu .xiii 1.1.3 Triển khai việc khai phá liệu .xv 1.1.4 Một số ứng dụng khai phá liệu xvi iii 1.1.5 Quá trình phát tri thức sở liệu xvii 1.1.6 Các kỹ thuật khai phá liệu xix 1.2 Dữ liệu chuỗi thời gian .xxiv 1.2.1 Khái niệm xxiv 1.2.2 Tiền xử lý liệu chuỗi thời gian xxvii Hình 1.5 Trung bình trượt hàm mũ xxix CHƯƠNG 2: KHAI PHÁ LUẬT KẾT HỢP TỪ DỮ LIỆU CHUỖI THỜI GIAN xxx 2.1 Luật kết hợp khai phá liệu xxx 2.1.1 Khái niệm luật kết hợp xxx 2.1.2 Lý thuyết luật kết hợp xxxi 2.2 Khai phá luật kết hợp 37 2.2.1 Khai phá luật kết hợp từ sở liệu 37 2.2.2 Khai phá luật kết hợp từ liệu chuỗi thời gian 38 2.3 Thuật toán khai phá luật kết hợp từ liệu chuỗi thời gian 40 2.3.1 Thuật toán khai phá luật kết hợp từ liệu thường 40 2.3.2 Thuật toán khai phá luật kết hợp từ liệu chuỗi thời gian 50 CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM 63 3.1 Phát biểu toán 63 3.2 Xây dựng chương trình 64 KẾT LUẬN .73 TÀI LIỆU THAM KHẢO 74 Tiếng Việt .74 Tiếng Anh .74 iv v DANH MỤC HÌNH VẼ MỤC LỤC ii DANH MỤC HÌNH VẼ .v DANH MỤC CÁC BẢNG ix MỞ ĐẦU xi Ngày nay, cách mạng kỹ thuật số cho phép số hóa thông tin dễ dàng chi phí lưu trữ thấp.Với phát triển phần mềm, phần cứng trang bị nhanh hệ thống máy tính kinh doanh Số lượng liệu khổng lồ tập trung lưu trữ sở liệu Dữ liệu sau phục vụ cho mục đích lưu lại kho liệu theo ngày tháng khối lượng liệu lưu trữ ngày lớn Trong khối lượng liệu to lớn có nhiều thông tin có ích mang tính tổng quát, thông tin có tính quy luật tiềm ẩn mà chưa biết Từ khối lượng liệu lớn cần có công cụ tự động rút thông tin kiến thức có ích Một hướng tiếp cận có khả giúp công ty khai thác thông tin có nhiều ý nghĩa từ tập liệu lớn khai phá liệu xi Với bùng nổ phát triển công nghệ thông tin mang lại nhiều hiệu khoa học hoạt động thực tế, khai phá liệu lĩnh vực mang lại hiệu thiết thực cho người Khai phá liệu giúp người sử dụng thu tri thức hữu ích từ sở liệu kho liệu khổng lồ khác Luận văn đề cập đến khái niệm vấn đề khai phá luật kết hợp từ liệu chuỗi thời gian áp dụng sở liệu bán hàng xi CHƯƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU xiii VÀ CHUỖI THỜI GIAN xiii 1.1 Khai phá liệu xiii 1.1.1 Khai phá liệu gì? xiii 1.1.2 Nhiệm vụ khai phá liệu .xiii 1.1.3 Triển khai việc khai phá liệu .xv 1.1.4 Một số ứng dụng khai phá liệu xvi vi 1.1.5 Quá trình phát tri thức sở liệu xvii Hình 1.1 Quá trình phát tri thức sở liệu xviii 1.1.6 Các kỹ thuật khai phá liệu xix 1.1.6.1 Phân cụm liệu: xx 1.1.6.2 Phân lớp liệu: xx 1.1.6.3 Phương pháp hồi quy: xxi 1.1.6.4 Khai phá luật kết hợp: xxi 1.1.7 Những khó khăn khai phá liệu xxii 1.2 Dữ liệu chuỗi thời gian .xxiv 1.2.1 Khái niệm xxiv 1.2.1.1 Khái niệm chuỗi thời gian xxiv 1.2.1.2 Các thành phần chuỗi thời gian xxv Hình 1.2 Đồ thị thể thành phần xu hướng dài hạn xxv Hình 1.3 Đồ thị thể thành phần mùa xxvi Hình 1.4 Đồ thị thể thành phần chu kỳ xxvi 1.2.2 Tiền xử lý liệu chuỗi thời gian xxvii Hình 1.5 Trung bình trượt hàm mũ xxix CHƯƠNG 2: KHAI PHÁ LUẬT KẾT HỢP TỪ DỮ LIỆU CHUỖI THỜI GIAN xxx 2.1 Luật kết hợp khai phá liệu xxx 2.1.1 Khái niệm luật kết hợp xxx 2.1.2 Lý thuyết luật kết hợp xxxi 2.1.2.1 Khái niệm xxxi 2.1.2.2 Một số hướng tiếp cận khai phá luật kết hợp xxxiv 2.2 Khai phá luật kết hợp 37 vii 2.2.1 Khai phá luật kết hợp từ sở liệu 37 2.2.2 Khai phá luật kết hợp từ liệu chuỗi thời gian 38 2.3 Thuật toán khai phá luật kết hợp từ liệu chuỗi thời gian 40 2.3.1 Thuật toán khai phá luật kết hợp từ liệu thường 40 2.3.1.1 Thuật toán Apriori .40 Bảng 2.1 Ma trận biểu diễn sở liệu .45 Bảng 2.2 Vector biểu diễn nhị phân cho tập thuộc tính 45 Bảng 2.3 Vector biểu diễn nhị phân cho tập thuộc tính 45 Bảng 2.4 Vector biểu diễn nhị phân cho tập thuộc tính 46 Bảng 2.5 Vector biểu diễn nhị phân cho tập thuộc tính 46 2.3.1.2 Thuật toán FP-Growth 46 Hình 2.1 Một mẫu thường xuyên .49 Bảng 2.7 Khoản mục số lần xuất sở liệu 49 2.3.2 Thuật toán khai phá luật kết hợp từ liệu chuỗi thời gian 50 2.3.2.1.Thuật toán xây dựng CFP_Tree 50 Hình 2.2 FP-Tree CFP-Tree .52 Hình 2.3: Các khoản mục ánh xạ 54 Hình 2.4: Ví dụ CFP-Tree 54 2.3.2.2 Thuật toán CFPmine 56 2.3.2.3.Thuật toán ITARM 59 CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM 63 3.1 Phát biểu toán 63 3.2 Xây dựng chương trình 64 Hình 3.1 Bảng sở liệu 65 viii Hình 3.2 Giao diện chương trình 66 Hình 3.3 Thực chọn CSDL .66 Hình 3.4 Thực xóa CSDL 67 Hình 3.5 Tìm tập phổ biến dựa thuật toán CFPmine .68 Hình 3.6 Thực lệnh Reset 69 Hình 3.7 Chọn liệu cho thuật toán tìm luật kết hợp 70 Hình 3.8 Thực xóa sở liệu .70 Hình 3.9 Thực luật kết hợp 71 Hình 3.10 Thực lệnh Reset 72 KẾT LUẬN .73 TÀI LIỆU THAM KHẢO 74 Tiếng Việt .74 Tiếng Anh .74 ix DANH MỤC CÁC BẢNG MỤC LỤC ii DANH MỤC HÌNH VẼ .v DANH MỤC CÁC BẢNG ix MỞ ĐẦU xi Ngày nay, cách mạng kỹ thuật số cho phép số hóa thông tin dễ dàng chi phí lưu trữ thấp.Với phát triển phần mềm, phần cứng trang bị nhanh hệ thống máy tính kinh doanh Số lượng liệu khổng lồ tập trung lưu trữ sở liệu Dữ liệu sau phục vụ cho mục đích lưu lại kho liệu theo ngày tháng khối lượng liệu lưu trữ ngày lớn Trong khối lượng liệu to lớn có nhiều thông tin có ích mang tính tổng quát, thông tin có tính quy luật tiềm ẩn mà chưa biết Từ khối lượng liệu lớn cần có công cụ tự động rút thông tin kiến thức có ích Một hướng tiếp cận có khả giúp công ty khai thác thông tin có nhiều ý nghĩa từ tập liệu lớn khai phá liệu xi Với bùng nổ phát triển công nghệ thông tin mang lại nhiều hiệu khoa học hoạt động thực tế, khai phá liệu lĩnh vực mang lại hiệu thiết thực cho người Khai phá liệu giúp người sử dụng thu tri thức hữu ích từ sở liệu kho liệu khổng lồ khác Luận văn đề cập đến khái niệm vấn đề khai phá luật kết hợp từ liệu chuỗi thời gian áp dụng sở liệu bán hàng xi CHƯƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU xiii VÀ CHUỖI THỜI GIAN xiii 1.1 Khai phá liệu xiii 1.1.1 Khai phá liệu gì? xiii 1.1.2 Nhiệm vụ khai phá liệu .xiii 1.1.3 Triển khai việc khai phá liệu .xv 1.1.4 Một số ứng dụng khai phá liệu xvi x 1.1.5 Quá trình phát tri thức sở liệu xvii 1.1.6 Các kỹ thuật khai phá liệu xix 1.2 Dữ liệu chuỗi thời gian .xxiv 1.2.1 Khái niệm xxiv 1.2.2 Tiền xử lý liệu chuỗi thời gian xxvii Hình 1.5 Trung bình trượt hàm mũ xxix CHƯƠNG 2: KHAI PHÁ LUẬT KẾT HỢP TỪ DỮ LIỆU CHUỖI THỜI GIAN xxx 2.1 Luật kết hợp khai phá liệu xxx 2.1.1 Khái niệm luật kết hợp xxx 2.1.2 Lý thuyết luật kết hợp xxxi 2.2 Khai phá luật kết hợp 37 2.2.1 Khai phá luật kết hợp từ sở liệu 37 2.2.2 Khai phá luật kết hợp từ liệu chuỗi thời gian 38 2.3 Thuật toán khai phá luật kết hợp từ liệu chuỗi thời gian 40 2.3.1 Thuật toán khai phá luật kết hợp từ liệu thường 40 2.3.2 Thuật toán khai phá luật kết hợp từ liệu chuỗi thời gian 50 CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM 63 3.1 Phát biểu toán 63 3.2 Xây dựng chương trình 64 KẾT LUẬN .73 TÀI LIỆU THAM KHẢO 74 Tiếng Việt .74 Tiếng Anh .74 60 Trước hết, đọc tất liệu từ sở liệu lưu trữ chúng Dữ liệu lưu trữ nhớ nên độ hỗ trợ tính tập phổ biến không cần phải quét sở liệu, chi phí I / O giảm Nếu số lượng liệu lớn, lưu trữ tập tin đĩa, chi phí I / O tăng lên Quá trình khai thác liệu chia thành hai bước Bước tìm tất giao dịch thường xuyên có tập phổ biến phần tử đáp ứng ngưỡng hỗ trợ tối thiểu Bước thứ hai là, sở bước đầu tiên, để khai thác liên giao dịch tập phổ biến luật kết hợp Gọi Σ1 ={e1,e2,…,ek} tập hợp kiện, chúng thuộc tính chuỗi thời gian Ti giá trị tập Σ1 thời điểm i: Ti = {e1(i),e2(i), …,ek(i)}(1≤i≤n) Tập hợp chuỗi thời gian D định nghĩa là: D={T 1,T2, …,Tn} Đặt Σ ={e1(0),…,e1(w-1),e2(0),…,e2(w-1),…,ek(0),…,ek(w-1)}là tập mở rộng Σ1 với w cửa sổ trượt D Lấy mốc thời gian s (1≤s≤n-w+1) mốc thời gian mở rộng, e i xảy thời điểm s+x (0≤x≤w-1) ta đánh dấu ei(x) thuộc Ts Bước thứ hai dựa phương pháp tiếp cận phân chia chinh phục Đối với tất khoản mục thường xuyên e i(0) thực hoạt động sau Trong ei(0) xuất tạo tập phổ biến FI i cửa sổ trượt Sắp xếp FIi theo thứ tự (ei +1(0), , eu(0), e1(1), , eu(1), , e1(w1), , eu ( w-1)) gọi SFIi Quét liệu thiết lập D, cửa sổ trượt giao dịch, tìm hiểu tất mục SFIi, xây dựng CFP-Tree Gọi thuật toán CFPmine để khai thác CFP Sau trình khai thác hoàn thành, đầu tất tập thường xuyên 61 luật kết hợp bắt đầu với e i(0) Xóa CFP-Tree, tăng i lên, đến bước sau để khai thác mục ei +1 (0) Thuật toán ITARM Input: tập hợp liệu chuỗi thời gian D, độ hỗ trợ tối thiểu min_sup, tin cậy tối thiểu min_conf, w kích thước cửa sổ trượt Output: Các luật kết hợp D Method: Giai đoạn C1 = {{ei (x)} | (ei (x) ∈ Σ) ∧ (0 ≤ x ≤ w-1)} For giao dịch Ts D For ứng cử viên c: ei (x) ∈ C1 (ei (x) ∈ Ts + x) c.count + +; L1 = {c: {ei (x)} | (c ∈ C1) ∧ (c.count ≥ support) Giai đoạn For mục: ei (0) ∈ L1 { C’2 = {{ei(0), ek(x)} | ek(x) ∈ L1((x ≠ 0) ∨ (x = ∧ i

Ngày đăng: 16/04/2017, 17:27

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • DANH MỤC HÌNH VẼ

  • DANH MỤC CÁC BẢNG

  • MỞ ĐẦU

    • Ngày nay, cuộc cách mạng của kỹ thuật số cho phép số hóa thông tin dễ dàng và chi phí lưu trữ thấp.Với sự phát triển của phần mềm, phần cứng và trang bị nhanh hệ thống máy tính trong kinh doanh. Số lượng dữ liệu khổng lồ được tập trung và lưu trữ trong cơ sở dữ liệu. Dữ liệu sau khi phục vụ cho một mục đích nào đó được lưu lại trong kho dữ liệu và theo ngày tháng khối lượng dữ liệu được lưu trữ ngày càng lớn. Trong khối lượng dữ liệu to lớn này có rất nhiều thông tin có ích mang tính tổng quát, thông tin có tính quy luật vẫn còn đang tiềm ẩn mà chúng ta chưa biết. Từ khối lượng dữ liệu rất lớn cần có những công cụ tự động rút các thông tin và kiến thức có ích. Một hướng tiếp cận có khả năng giúp các công ty khai thác các thông tin có nhiều ý nghĩa từ các tập dữ liệu lớn đó là khai phá dữ liệu.

    • Với sự bùng nổ và phát triển của công nghệ thông tin đã mang lại nhiều hiệu quả đối với khoa học cũng như các hoạt động thực tế, trong đó khai phá dữ liệu là một trong những lĩnh vực mang lại hiệu quả thiết thực cho con người. Khai phá dữ liệu đã giúp người sử dụng thu được những tri thức hữu ích từ những cơ sở dữ liệu hoặc các kho dữ liệu khổng lồ khác. Luận văn đề cập đến các khái niệm và vấn đề cơ bản trong khai phá luật kết hợp từ dữ liệu chuỗi thời gian được áp dụng trong cơ sở dữ liệu bán hàng.

    • CHƯƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU

    • VÀ CHUỖI THỜI GIAN

      • 1.1. Khai phá dữ liệu

        • 1.1.1. Khai phá dữ liệu là gì?

        • 1.1.2. Nhiệm vụ của khai phá dữ liệu

        • 1.1.3. Triển khai việc khai phá dữ liệu

        • 1.1.4. Một số ứng dụng khai phá dữ liệu

        • 1.1.5. Quá trình phát hiện tri thức trong cơ sở dữ liệu

          • Hình 1.1. Quá trình phát hiện tri thức trong cơ sở dữ liệu

          • 1.1.6. Các kỹ thuật khai phá dữ liệu

            • 1.1.6.1. Phân cụm dữ liệu:

            • 1.1.6.2. Phân lớp dữ liệu:

            • 1.1.6.3. Phương pháp hồi quy:

            • 1.1.6.4. Khai phá luật kết hợp:

            • 1.1.7. Những khó khăn trong khai phá dữ liệu

            • 1.2. Dữ liệu chuỗi thời gian

              • 1.2.1. Khái niệm

                • 1.2.1.1. Khái niệm chuỗi thời gian

                • 1.2.1.2. Các thành phần của chuỗi thời gian

                  • Hình 1.2. Đồ thị thể hiện thành phần xu hướng dài hạn

                  • Hình 1.3. Đồ thị thể hiện thành phần mùa

                  • Hình 1.4. Đồ thị thể hiện thành phần chu kỳ

Tài liệu cùng người dùng

Tài liệu liên quan