Khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng bằng phương pháp điểm giữa và kỹ thuật xén ( 167 trang )

167 1K 7
Khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng bằng phương pháp điểm giữa và kỹ thuật xén ( 167 trang )

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN THÀNH SƠN KHAI PHÁ DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO RÚT TRÍCH ĐẶC TRƢNG BẰNG PHƢƠNG PHÁP ĐIỂM GIỮA VÀ KỸ THUẬT XÉN (TIME SERIES DATA MINING BASED ON FEATURE EXTRACTION WITH MIDDLE POINTS AND CLIPPING METHOD) LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH TP. HỒ CHÍ MINH NĂM 2014 ĐẠI HỌC QUỐC GIA TP. HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN THÀNH SƠN KHAI PHÁ DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO RÚT TRÍCH ĐẶC TRƢNG BẰNG PHƢƠNG PHÁP ĐIỂM GIỮA VÀ KỸ THUẬT XÉN (TIME SERIES DATA MINING BASED ON FEATURE EXTRACTION WITH MIDDLE POINTS AND CLIPPING METHOD) Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 62.48.01.01 Phản biện độc lập 1: TS. Nguyễn Đức Dũng Phản biện độc lập 2: TS. Vũ Tuyết Trinh Phản biện 1: PGS. TS. Nguyễn Thị Kim Anh Phản biện 2: PGS. TS. Đỗ Phúc Phản biện 3: PGS. TS. Quản Thành Thơ NGƢỜI HƢỚNG DẪN KHOA HỌC PGS. TS Dƣơng Tuấn Anh i LỜI CAM ĐOAN Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả. Các kết quả nghiên cứu và các kết luận trong luận án này là trung thực, và không sao chép từ bất kỳ một nguồn nào và dƣới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu (nếu có) đã đƣợc thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng theo yêu cầu. Tác giả luận án __________________________________ Nguyễn Thành Sơn ii TÓM TẮT Để khắc phục đặc điểm khối lƣợng lớn của dữ liệu chuỗi thời gian, nhiều phƣơng pháp thu giảm số chiều dựa vào rút trích đặc trƣng đã đƣợc đề xuất và sử dụng. Tuy nhiên có không ít phƣơng pháp thu giảm số chiều mắc phải hai nhƣợc điểm quan trọng: một số phƣơng pháp thu giảm số chiều không chứng minh đƣợc bằng toán học thỏa mãn điều kiện chặn dƣới và một số phƣơng pháp khác không đề xuất đƣợc cấu trúc chỉ mục thích hợp đi kèm để hỗ trợ việc tìm kiếm tƣơng tự hữu hiệu. Đóng góp thứ nhất của luận án này là đề xuất một phƣơng pháp thu giảm số chiều mới dựa vào điểm giữa và kỹ thuật xén, có tên là MP_C (Middle points and Clipping), và kết hợp phƣơng pháp này với chỉ mục đƣờng chân trời hỗ trợ việc tìm kiếm tƣơng tự một cách hữu hiệu. Qua lý thuyết và thực nghiệm, chúng tôi chứng minh đƣợc phƣơng pháp MP_C thỏa điều kiện chặn dƣới, là điều kiện nhằm đảm bảo không để xảy ra lỗi tìm sót khi tìm kiếm tƣơng tự. Thực nghiệm còn cho thấy phƣơng pháp MP_C hiệu quả hơn một phƣơng pháp đƣợc ƣa chuộng, phƣơng pháp xấp xỉ gộp từng đoạn (PAA- Piecewise Aggregate Approximation), và phƣơng pháp xén dữ liệu (Clipping) về cả ba tiêu chí: độ chặt chặn dƣới, tỉ lệ thu giảm truy xuất và thời gian thực thi. Luận án còn cho thấy phƣơng pháp MP_C có thể sử dụng hiệu quả cho bài toán tìm kiếm tƣơng tự trên dữ liệu chuỗi thời gian dạng luồng, một bài toán rất thời sự, đã và đang đƣợc quan tâm nghiên cứu trong thời gian gần đây, dựa vào cách tính toán gia tăng phƣơng pháp MP_C và chính sách cập nhật chỉ mục trì hoãn (deferred update policy). Đóng góp thứ hai của luận án này là việc ứng dụng thành công phƣơng pháp thu giảm số chiều MP_C và cấu trúc chỉ mục đƣờng chân trời vào ba bài toán quan trọng trong khai phá dữ liệu chuỗi thời gian: gom cụm, phát hiện motif và dự báo trên dữ liệu chuỗi thời gian. Với bài toán gom cụm, chúng tôi vận dụng tính chất đa mức phân giải của phƣơng pháp MP_C để có thể sử dụng giải thuật I-k-Means gom cụm dữ liệu chuỗi thời gian và đề xuất thêm cách sử dụng kd-tree để xác định các trung tâm cụm ban đầu cho giải thuật I-k-Means nhằm khắc phục nhƣợc điểm của giải thuật này khi chọn các trung tâm cụm ở mức khởi động một cách ngẫu nhiên. Với bài toán phát hiện motif, chúng tôi đề xuất hai giải thuật phát hiện motif xấp xỉ trên dữ liệu chuỗi thời gian: (1) giải thuật sử dụng R*-tree kết hợp với ý tƣởng từ bỏ sớm khi tính toán iii khoảng cách Euclid và (2) giải thuật vận dụng phƣơng pháp thu giảm số chiều MP_C kết hợp với cấu trúc chỉ mục đƣờng chân trời. Trong hai giải thuật này, giải thuật thứ hai tỏ ra có hiệu quả cao hơn. Với bài toán dự báo dữ liệu chuỗi thời gian, chúng tôi vận dụng phƣơng pháp thu giảm số chiều MP_C kết hợp với cấu trúc chỉ mục đƣờng chân trời vào trong phƣơng pháp dự báo “tìm kiếm k lân cận gần nhất” (k-NN) và thực nghiệm cho thấy phƣơng pháp này cho ra kết quả dự báo chính xác cao hơn và thời gian dự báo nhanh hơn so với mô hình mạng nơ ron nhân tạo (ANN) khi dự báo với dữ liệu có tính mùa hay xu hƣớng. iv ABSTRACT To overcome high dimensionality of time series data, several dimensionality re- duction methods, which is based on feature extraction, have been proposed and used. However, a number of these methods did not provide any formal proof that they satis- fy the lower bounding condition while many of them did not go with any multidimen- sional index structure which helps in fast retrieval. The first contribution of this thesis is a new dimensionality reduction method based on Middle points and Clipping, called MP_C, which performs effectively with the support of Skyline index. Through formal proof and experiments on benchmark datasets, we show that MP_C satisfies the lower bounding condition which guarantees no false dismissals. Experimental results also reveal that MP_C is more effective than the popular dimensionality reduction method, Piecewise Aggregate Approximation (PAA) and the Clipping method in terms of tightness of lower bound, pruning ratio and running time. We also proposed the extension of MP_C in Kontaki framework which can be applied effectively for similarity search in streaming time series. The second contribution of this thesis is the application of MP_C method to the three important time series data mining tasks: clustering, motif detection and time se- ries prediction. As for clustering, we exploit the multi-resolution property of MP_C in using I-k-Means algorithm for time series clustering and propose the use of kd-tree in choosing initial centroids for I-k-Means algorithm in order to overcome the drawback of randomly determining the initial centroids in the first level of I-k-Means. As for motif discovery, we propose two algorithms for finding approximate motif in time se- ries data: (1) the algorithm that uses R*-tree combined with the idea of early abandon- ing in Euclidean distance computation and (2) the algorithm using MP_C associated with Skyline index; and between the two algorithms, the latter is more effective than the former. As for time series prediction, we propose the use of MP_C with Skyline index in a prediction approach based on a “k-nearest-neighbors” algorithm and expe- riments show that the proposed method performs better than artificial neural network model in terms of prediction accuracy and computation time, especially for seasonal and trend time series. v LỜI CÁM ƠN Xin bày tỏ lòng biết ơn sâu sắc đến Thầy PGS. TS. Dƣơng Tuấn Anh đã tận tình hƣớng dẫn, động viên, chỉ bảo và đóng góp ý kiến cho việc nghiên cứu và hoàn thành Luận án Tiến sĩ này. Tôi xin gửi lời cảm ơn đến các Thầy, Cô trong khoa Khoa học và Kỹ thuật Máy tính trƣờng Đại học Bách khoa Tp. Hồ Chí Minh, các bạn trong nhóm nghiên cứu về khai phá dữ liệu chuỗi thời gian đã đóng góp nhiều ý kiến quí báu cho việc nghiên cứu luận án. Tôi cũng xin cảm ơn các đồng nghiệp và bạn bè ở khoa Công nghệ Thông tin trƣờng Đại học Sƣ phạm Kỹ thuật Tp. Hồ Chí Minh đã luôn động viên, khích lệ và tạo điều kiện thuận lợi giúp tôi hoàn thành luận án đúng hạn. Cảm ơn ông Nguyễn Quang Châu, Việt kiều Mỹ, đã hỗ trợ một phần kinh phí để tôi có thể công bố và thuyết trình công trình của mình tại hội nghị ACIIDS 2012. Cảm ơn Giáo sƣ Tiến sĩ Hồ Tú Bảo (Viện Nghiên cứu Cao Cấp Khoa học và Công nghệ Nhật Bản) đã hỗ trợ kinh phí để tôi có thể dự hội nghị ComManTel 2013. Tp. Hồ Chí Minh, tháng 1 năm 2013 Tác giả Nguyễn Thành Sơn vi MỤC LỤC DANH MỤC CÁC HÌNH ẢNH ix DANH MỤC BẢNG BIỂU xiv DANH MỤC CÁC TỪ VIẾT TẮT xvi CHƢƠNG 1. GIỚI THIỆU 1 1.1 Dữ liệu chuỗi thời gian và các bài toán khai phá dữ liệu liên quan. 1 1.2 Mục tiêu, đối tƣợng và phạm vi nghiên cứu. 4 1.3 Nhiệm vụ và hƣớng tiếp cận của luận án. 5 1.4 Tóm tắt kết quả đạt đƣợc. 7 1.5 Cấu trúc của luận án. 9 CHƢƠNG 2. CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH LIÊN QUAN 10 2.1 Các độ đo tƣơng tự. 10 2.1.1 Độ đo Euclid. 10 2.1.2 Độ đo xoắn thời gian động. 11 2.2 Thu giảm số chiều chuỗi thời gian. 12 2.2.1 Điều kiện chặn dƣới. 12 2.2.2 Các phƣơng pháp thu giảm số chiều dựa vào rút trích đặc trƣng. 13 2.2.3 Về tính đúng đắn và tính khả chỉ mục của các phƣơng pháp thu giảm số chiều. 20 2.3 Rời rạc hóa chuỗi thời gian. 21 2.4 Cấu trúc chỉ mục. 22 2.4.1 R-tree. 22 2.4.2 Chỉ mục đƣờng chân trời. 24 2.5 Tìm kiếm tƣơng tự trên dữ liệu chuỗi thời gian. 26 2.5.1 Ý tƣởng tổng quát. 26 2.5.2 So trùng toàn chuỗi và so trùng chuỗi con. 26 2.5.3 Độ đo khoảng cách nhóm và điều kiện chặn dƣới nhóm. 27 2.5.4 Các phƣơng pháp tìm kiếm tƣơng tự liên quan. 27 2.6 Tìm kiếm tƣơng tự trên chuỗi thời gian dạng luồng. 28 2.7 Phát hiện motif trên chuỗi thời gian. 31 2.7.1 Các khái niệm cơ bản về motif. 31 2.7.2 Tổng quan về một số phƣơng pháp phát hiện motif tiêu biểu. 35 2.8 Gom cụm dữ liệu chuỗi thời gian. 40 2.8.1 Giới thiệu. 40 2.8.2 Giải thuật K-Means. 41 vii 2.8.3 Gom cụm bằng thuật toán I-k-Means. 42 CHƢƠNG 3. THU GIẢM SỐ CHIỀU CHUỖI THỜI GIAN BẰNG PHƢƠNG PHÁP MP_C 45 3.1 Phƣơng pháp thu giảm số chiều MP_C (Middle Points_Clipping). 45 3.2 Độ đo tƣơng tự trong không gian đặc trƣng MP_C. 48 3.3 Độ phức tạp của giải thuật thu giảm số chiều theo phƣơng pháp MP_C. 51 3.4 Cấu trúc chỉ mục đƣờng chân trời cho các chuỗi thời gian đƣợc biểu diễn bằng MP_C. 52 3.4.1 Vùng bao MP_C (MP_C_BR). 52 3.4.2 Hàm tính khoảng cách giữa chuỗi truy vấn Q và MP_C_BR. 53 3.4.3 Chỉ mục đƣờng chân trời cho phƣơng pháp biểu diễn MP_C. 55 3.4.4 Xử lý các câu truy vấn có chiều dài khác nhau. 57 3.5 Tìm kiếm tƣơng tự trên dữ liệu chuỗi thời gian dạng luồng dựa vào phƣơng pháp MP_C và chỉ mục đƣờng chân trời. 59 3.6 Kết quả thực nghiệm. 60 3.6.1 Thực nghiệm về bài toán tìm kiếm tƣơng tự trên dữ liệu chuỗi thời gian. 61 3.6.2 Thực nghiệm về tìm kiếm tƣơng tự trên dữ liệu chuỗi thời gian dạng luồng. . 73 CHƢƠNG 4. PHÁT HIỆN MOTIF DỰA VÀO CẤU TRÚC CHỈ MỤC ĐA CHIỀU HOẶC CHỈ MỤC ĐƢỜNG CHÂN TRỜI 78 4.1 Phƣơng pháp phát hiện motif dựa vào cấu trúc chỉ mục đa chiều và kỹ thuật từ bỏ sớm. 78 4.2 Phát hiện motif xấp xỉ dựa trên phƣơng pháp MP_C với sự hỗ trợ của chỉ mục đƣờng chân trời 84 4.3 Thực nghiệm về bài toán phát hiện motif. 87 4.3.1 Thực nghiệm 1: So sánh ba giải thuật dùng R*-tree, RP và R*-tree kết hợp với từ bỏ sớm. 88 4.3.2 Thực nghiệm 2: So sánh ba giải thuật dùng R*-tree, RP và MP_C kết hợp với chỉ mục đƣờng chân trời. 91 CHƢƠNG 5. GOM CỤM CHUỖI THỜI GIAN ĐƢỢC THU GIẢM THEO PHƢƠNG PHÁP MP_C BẰNG GIẢI THUẬT I-K-MEANS 96 5.1 Tóm tắt một số kỹ thuật chọn trung tâm cụm khởi động thuật toán k-Means. 96 5.2 Biểu diễn chuỗi thời gian ở nhiều mức xấp xỉ theo phƣơng pháp MP_C. 98 5.3 Kd-tree. 98 5.4 Dùng kd-tree để tạo các trung tâm cụm khởi động cho thuật toán I-k-Means. 99 5.5 Dùng CF-tree để tạo các trung tâm cụm khởi động cho thuật toán I-k-Means. 102 5.5.1 Đặc trƣng cụm và CF-tree (Cluster Feature tree). 102 viii 5.5.2 Dùng CF-tree để tạo các trung tâm cụm cho thuật toán I-k-Means. 104 5.6 Thực nghiệm về bài toán gom cụm. 105 5.6.1 Các tiêu chuẩn đánh giá chất lƣợng của giải thuật gom cụm. 105 5.6.2 Dữ liệu dùng trong thực nghiệm. 107 5.6.3 Kết quả thực nghiệm về bài toán gom cụm. 108 CHƢƠNG 6. DỰ BÁO DỮ LIỆU CHUỖI THỜI GIAN CÓ TÍNH XU HƢỚNG HOẶC MÙA BẰNG PHƢƠNG PHÁP SO TRÙNG MẪU 114 6.1 Các công trình liên quan. 114 6.2 Xu hƣớng và tính mùa trong dữ liệu chuỗi thời gian. 116 6.3 Hai phƣơng pháp dự báo dữ liệu chuỗi thời gian. 117 6.3.1 Dự báo chuỗi thời gian bằng mạng nơ ron nhân tạo. 117 6.3.2 Phƣơng pháp đề xuất: k-lân cận gần nhất. 120 6.4 Đánh giá bằng thực nghiệm. 122 CHƢƠNG 7. KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 130 7.1 Các đóng góp chính của luận án. 130 7.2 Hạn chế của luận án. 131 7.3 Hƣớng phát triển. 132 CÁC TÀI LIỆU CÔNG BỐ CỦA TÁC GIẢ 133 1. Các công trình liên quan trực tiếp đến luận án. 133 2. Các công trình liên quan gián tiếp đến luận án. 134 TÀI LIỆU THAM KHẢO 135 Phụ lục A. Chứng minh độ đo D MP_C (Q’, C’) thỏa các tính chất của một không gian metric 147 [...]... hợp dữ liệu chuỗi thời gian có số chiều cao Phƣơng pháp (2 ) khắc phục đƣợc nhƣợc điểm của phƣơng pháp (1 ) và kết quả thực nghiệm cho thấy phƣơng pháp (2 ) có thời gian thực thi nhanh hơn và có độ hữu hiệu tốt hơn so với phƣơng pháp (1 ) Ngoài những yêu cầu ban đầu, chúng tôi còn cho thấy kỹ thuật MP_C có thể sử dụng hiệu quả cho bài toán tìm kiếm tƣơng tự trên dữ liệu chuỗi thời gian dạng luồng 8 dựa. .. quan về chuỗi thời gian và các bài toán quan trọng trong khai phá dữ liệu chuỗi thời gian Tiếp theo là mục tiêu, đối tƣợng, phạm vi nghiên cứu của luận án và tóm tắt kết quả nghiên cứu đạt đƣợc Cuối cùng là cấu trúc của luận án này 1.1 Dữ liệu chuỗi thời gian và các bài toán khai phá dữ liệu liên quan Một chuỗi thời gian (time series) là một chuỗi các điểm dữ liệu đƣợc đo theo từng khoảng thời gian liền... (clustering), phân lớp (classification), 1 phát hiện motif (motif discovery), khai phá luật (rule discovery), phát hiện bất thường (anomaly detection), trực quan hóa (visualization), dự báo (forecast) Những khó khăn và thách thức khi nghiên cứu về dữ liệu chuỗi thời gian [2]: - Dữ liệu thƣờng rất lớn Chẳng hạn, trong 1 giờ, dữ liệu điện tâm đồ (ECG) có thể lên đến 1GB - Phụ thuộc nhiều vào yếu tố chủ... Nhƣ vậy, chuỗi thời gian đƣợc xấp xỉ bằng N giá trị trung bình đó Kết quả cuối cùng là đƣờng thẳng có dạng bậc thang Cho chuỗi dữ liệu thời gian X = (x1, x2,…, xn ), phƣơng pháp PAA sẽ biến đổi chuỗi này thành chuỗi X  ( x1 , x2 , , xN ) với (N

Ngày đăng: 04/04/2015, 12:14

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan