Luận án tiến sĩ: khoa học máy tính khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng bằng phương pháp điểm giữa và kỹ thuật xén

32 540 1
Luận án tiến sĩ: khoa học máy tính khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng bằng phương pháp điểm giữa và kỹ thuật xén

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN THÀNH SƠN KHAI PHÁ DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO RÚT TRÍCH ĐẶC TRƢNG BẰNG PHƢƠNG PHÁP ĐIỂM GIỮA VÀ KỸ THUẬT XÉN (TIME SERIES DATA MINING BASED ON FEATURE EXTRACTION WITH MIDDLE POINTS AND CLIPPING METHOD) LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH i TP HỒ CHÍ MINH, NĂM 2014 ii Cơng trình hoàn thành khoa Khoa học Kỹ thuật Máy tính trường Đại học Bách khoa, ĐHQG TP HCM Người hướng dẫn khoa học: PGS TS Dương Tuấn Anh Phản biện 1: PGS TS Nguyễn Thị Kim Anh Phản biện 2: PGS TS Đỗ Phúc Phản biện 3: PGS TS Quản Thành Thơ Luận án bảo vệ trước Hội đồng chấm luận án cấp trường họp Vào hồi ngày tháng năm 2014 Có thể tìm hiểu luận án thư viện trường Đại học Bách khoa, ĐHQG TP HCM iii MỤC LỤC Giới thiệu 1.1 Tổng quan đề tài 1.2 Động cơ, mục tiêu, đối tượng phạm vi nghiên cứu 1.3 Nhiệm vụ hướng tiếp cận luận án 2 Cơ sở lý thuyết cơng trình liên quan 2.1 Các độ đo tương tự 2.2 Thu giảm số chiều chuỗi thời gian .2 2.3 Rời rạc hóa chuỗi thời gian .3 2.4 Cấu trúc mục .3 2.5 Tìm kiếm tương tự chuỗi thời gian 2.6 Tìm kiếm tương tự chuỗi thời gian dạng luồng .4 2.7 Phát motif chuỗi thời gian .4 2.8 Gom cụm liệu chuỗi thời gian Thu giảm số chiều chuỗi thời gian phương pháp MP_C .5 3.1 Phương pháp MP_C (Middle Points_Clipping) .5 3.2 Độ đo tương tự không gian MP_C 3.3 Vùng bao MP_C (MP_C_BR) 3.4 Hàm tính khoảng cách chuỗi truy vấn Q MP_C_BR 3.5 Cấu trúc mục đường chân trời cho phương pháp biểu diễn MP_C 3.6 Tìm kiếm tương tự chuỗi thời gian dạng luồng dựa vào MP_C mục đường chân trời 3.7 Kết thực nghiệm .10 Phát motif dựa vào cấu trúc mục đa chiều mục đường chân trời 12 4.1 Phát motif dựa vào cấu trúc mục đa chiều ý tưởng từ bỏ sớm 12 iv 4.2 Phát motif xấp xỉ dự phương pháp MP_C với hỗ trợ mục đường chân trời 14 4.3 Kết thực nghiệm 15 Gom cụm chuỗi thời gian thu giảm theo phương pháp MP_C giải thuật I-k-Means 16 5.1 Biểu diễn chuỗi thời gian nhiều mức xấp xỉ theo phương pháp MP_C 16 5.2 Dùng kd-tree tạo trung tâm cụm cho thuật toán Ik-Means 17 5.3 Dùng đặc trưng cụm để tạo trung tâm cụm khởi động cho thuật toán I-k-Means 18 5.4 Thực nghiệm toán gom cụm 19 Dự báo liệu chuỗi thời gian có tính xu hướng mùa phương pháp so trùng mẫu 20 Kết luận hướng phát triển 23 7.1 Các đóng góp luận án 23 7.2 Hạn chế luận án 23 7.3 Hướng phát triển 24 CÁC TÀI LIỆU CÔNG BỐ CỦA TÁC GIẢ 25 v Giới thiệu 1.1 Tổng quan đề tài Một chuỗi thời gian (time series) chuỗi điểm liệu đo theo khoảng thời gian liền theo tần suất thời gian thống Một chuỗi thời gian dạng luồng (streaming time series) C chuỗi giá trị thực c1, c2, …, giá trị tới cách liên tục nối vào cuối chuỗi C theo thứ tự thời gian Những khó khăn thách thức nghiên cứu liệu chuỗi thời gian: (1) liệu thường lớn, (2) phụ thuộc nhiều vào yếu tố chủ quan người dùng tập liệu đánh giá mức độ tương tự chuỗi, (3) liệu không đồng 1.2 Động cơ, mục tiêu, đối tƣợng phạm vi nghiên cứu Dữ liệu chuỗi thời gian sử dụng phổ biến nhiều lĩnh vực Kết khảo sát nêu báo Yang Wu (2006) “10 challenging problems in Data Mining Research” cho thấy hướng nghiên cứu khai phá liệu chuỗi thời gian 10 hướng nghiên cứu quan trọng thách thức Vì liệu chuỗi thời gian thường lớn, giải thuật khai phá chuỗi thời gian phải thỏa mãn hai tính chất: chúng phải hữu hiệu (tức có độ phức tạp tính tốn thấp) đảm bảo đưa lại kết Đây thách thức thúc đẩy thực nghiên cứu lĩnh vực Mục tiêu luận án đề xuất cách tiếp cận cho số toán khai phá liệu chuỗi thời gian Đối tượng nghiên cứu liệu chuỗi thời gian với chuỗi thời gian định nghĩa chuỗi số thực X = x1, x2, x3, xn, xi giá trị đo thời điểm thứ i Phạm vi nghiên cứu luận án bao gồm nghiên cứu bốn toán quan trọng khai phá liệu chuỗi thời gian, là: tìm kiếm tương tự, gom cụm, phát motif dự báo liệu chuỗi thời gian, tìm kiếm tương tự tốn tảng 1.3 Nhiệm vụ hƣớng tiếp cận luận án Hướng tiếp cận chung thường sử dụng cho toán khai phá liệu chuỗi thời gian thực chúng không gian thu giảm (không gian đặc trưng) liệu Các nội dung nghiên cứu luận án định hướng theo cách tiếp cận Nhiệm vụ luận án là: (1) đề xuất phương pháp thu giảm số chiều thỏa điều kiện chặn kết hợp với cấu trúc mục đa chiều hỗ trợ việc tìm kiếm tương tự hữu hiệu, (2) ứng dụng phương pháp đề xuất vào toán phát motif theo hướng tiếp cận xấp xỉ, (3) ứng dụng phương pháp đề xuất vào toán gom cụm theo phương pháp gom cụm có thời gian thưc thi tùy chọn, (4) ứng dụng phương pháp đề xuất vào tốn tìm kiếm tương tự chuỗi thời gian dạng luồng (5) ứng dụng phương pháp thu giảm số chiều đề xuất vào toán dự báo liệu chuỗi thời gian có tính xu hướng mùa Cơ sở lý thuyết cơng trình liên quan 2.1 Các độ đo tƣơng tự Trong toán khai phá liệu chuỗi thời gian, để so sánh hai chuỗi người ta sử dụng độ đo tương tự Hai độ đo tương tự thường sử dụng lĩnh vực độ đo Euclid xoắn thời gian động (Dynamic Time Warping) 2.2 Thu giảm số chiều chuỗi thời gian Thu giảm số chiều phương pháp biểu diễn chuỗi thời gian n chiều X = {x1, x2, …, xn} thành chuỗi thời gian có N chiều Y = {y1, y2, …, yN} với N k, ta tiến hành lặp thao tác trộn cụm gần m = k Nếu m < k, ta tiến hành thao tác tách cụm có 18 đường kính lớn thành hai cụm lặp lại thao tác L= k 5.4 Thực nghiệm toán gom cụm Thực nghiệm so sánh phương pháp sử dụng I-k-Means dùng kd-tree CF-tree để tạo trung tâm cụm với thuật toán k-Means I-k-Means truyền thống Thực nghiệm thực tập liệu Heterogeneous phân lớp sẵn năm tập liệu thực chưa phân lớp: Production, Consumer, FederalFund, Hydrology, Economic Kích thước tập biến đổi từ 1000 đến 8000 chuỗi Chiều dài lớn chuỗi 1024 Đối với tập liệu phân lớp sẳn, tính hiệu phương pháp gom cụm đánh giá thông qua năm số đánh giá chất lượng gom cụm: Jaccard, Rand, FM (Folkes Mallow), CSM (Cluster Similarity Measure) NMI (Normal Mutual information) Tất tiêu chuẩn đánh giá cho giá trị khoảng từ đến Trong giá tri có nghĩa gom cụm đạt kết xác Đối với tập liệu chưa phân lớp sẵn, tính hiệu phương pháp gom cụm đánh giá kết thông qua hàm mục tiêu: k N F   d ( x j , ci ) i 1 j 1 Phương pháp có giá trị hàm mục tiêu thấp phương pháp tốt Kết đánh giá thực nghiệm cho thấy chất lượng gom cụm phương pháp dùng I-kMeans kết hợp với kd-tree cải thiện tốt so với sử dụng thuật tốn k-Means I-k-Means gốc phương pháp kết hợp thực toán gom cụm liệu chuỗi thời gian nhanh hơn, cho kết ổn định So sánh với phương pháp dùng CF-tree để tạo trung tâm cụm khởi động cho thuật tốn I-k-Means phương pháp sử dụng kdtree thực nhanh dễ cài đặt chất lượng gom cụm xấp xỉ 19 Dự báo liệu chuỗi thời gian có tính xu hƣớng mùa phƣơng pháp so trùng mẫu Nhiều liệu chuỗi thời gian kinh doanh, kinh tế lãnh vực đời sống thường biểu tính mùa tính xu hướng Tính mùa mẫu thường lặp lại có tính chu kỳ yếu tố thời tiết, lễ tết, đợt khuyến mãi, v.v Mặc dù yếu tố mùa thành phần quan trọng chuỗi thời gian có tính mùa, xu hướng thường kèm với biến động mùa có ảnh hưởng lớn đến phương pháp dự báo Ứng dụng phương pháp so trùng mẫu dự báo liệu chuỗi thời gian có tính xu hướng tính mùa hướng tiếp cận cho toán đầy thách thức Dữ liệu chuẩn hóa Chèn mẫu dự báo Tìm lân cận gần Mẫu dự báo Tiếp? Yes No Kết thúc Hình 6.1 Ý tưởng bản cách tiếp cận dựa so trùng mẫu Với tốn này, chúng tơi sử dụng thuật tốn tìm k lân cận gần tìm lân cận phạm vi ngưỡng cho trước dựa cấu trúc mục đa chiều R*-tree đường chân trời Cho trạng thái hành (mẫu) có chiều dài w chuỗi thời gian có chiều dài n (w

Ngày đăng: 02/02/2015, 04:43

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan