Ứng dụng nhận dạng motif hỗ trợ phân lớp dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động

94 23 0
Ứng dụng nhận dạng motif hỗ trợ phân lớp dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Bách Khoa - - NGUYỄN QUỐC VIỆT ỨNG DỤNG NHẬN DẠNG MOTIF HỖ TRỢ PHÂN LỚP DỮ LIỆU CHUỖI THỜI GIAN DÙNG ĐỘ ĐO XOẮN THỜI GIAN ĐỘNG CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH MÃ SỐ CHUYÊN NGÀNH : 60.48.01 LUẬN VĂN THẠC SĨ GVHD: PGS.TS DƯƠNG TUẤN ANH TP HỒ CHÍ MINH, 2013 Nguyễn Quốc Việt i Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian ĐẠI HỌC QUỐC GIA TP HCM CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc Lập - Tự Do - Hạnh Phúc oOo Tp HCM, ngày 19 tháng 05 năm 2013 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Quốc Việt……… Giới tính: Nam / Nữ Ngày, tháng, năm sinh: 31/07/1987 Nơi sinh: Đồng Nai Chuyên ngành: Khoa học Máy tính………………………………………………… Khố: 2011………………………………………………………………………… 1-TÊN ĐỀ TÀI: ỨNG DỤNG NHẬN DẠNG MOTIF HỖ TRỢ PHÂN LỚP DỮ LIỆU CHUỖI THỜI GIAN DÙNG ĐỘ ĐO XOẮN THỜI GIAN ĐỘNG 2-NHIỆM VỤ LUẬN VĂN: 3-NGÀY GIAO NHIỆM VỤ: 4-NGÀY HOÀN THÀNH NHIỆM VỤ: ……………………………………………………………………………………………… ………………………………………………………………………………………………… 5-HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS.TS Dương Tuấn Anh………… Nội dung đề cương Luận Văn Thạc Sĩ Hội Đồng Chuyên Ngành thông qua CÁN BỘ HƯỚNG DẪN (Họ tên chữ kí) CHỦ NHIÊM BỘ MƠN QUẢN LÝ CHUN NGÀNH (Họ tên chữ kí) PGS.TS Dương Tuấn Anh Nguyễn Quốc Việt ii Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 19/05/2013 Nguyễn Quốc Việt Nguyễn Quốc Việt i Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian LỜI CẢM ƠN Tôi xin gửi lời cám ơn chân thành sâu sắc đến PGS TS.Dương Tuấn Anh, người Thầy không quản thời gian cơng sức ln tận tình bảo hướng dẫn suốt thời gian thực luận văn Tơi xin cám ơn q thầy cơ, người gián tiếp trực tiếp bảo hướng dẫn giúp tơi có kiến thức cần thiết để thực luận văn Qua xin cám ơn anh chị bạn nhóm nghiên cứu giúp đỡ, góp ý cho tơi suốt q trình làm luận văn Một lần xin gửi lời cám ơn chân thành đến tất người Nguyễn Quốc Việt ii Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian TĨM TẮT LUẬN VĂN Bài tốn phân lớp liệu chuỗi thời gian có vai trị quan trọng lĩnh vực khai phá liệu Nó giúp cho việc phân tích liệu dự đốn tương lai, đặc biệt lĩnh vực tài hay y học Đề tài thực toán phân lớp liệu chuỗi thời gian sử dụng giải thuật phân lớp có thời gian thực thi tùy chọn dựa motif Giải thuật gồm có hai giai đoạn: Giai đoạn Huấn luyện Giai đoạn Phân lớp Trong giai đoạn Huấn luyện, luận văn đề xuất chiến lược xếp Simple Rank dựa thông tin motif đối tượng liệu chuỗi thời gian Chiến lược xếp tập liệu dựa motif chuỗi liệu thay dựa chuỗi liệu gốc, qua rút ngắn thời gian huấn luyện Trong giai đoạn Phân lớp, giải thuật tìm kiếm tập huấn luyện chuỗi gần với chuỗi mục tiêu Thứ tự tìm kiếm thứ tự xếp giai đoạn huấn luyện Giải thuật dừng lúc Kết phân lớp nhãn lớp chuỗi gần với chuỗi mục tiêu đến thời điểm dừng giải thuật Độ tương tự chuỗi thời gian sử dụng Khoảng cách xoắn thời gian động Để cải thiện thời gian thực thi giải thuật, đề tài sử dụng kỹ thuật tính chặn LowerBound Keogh vào hai giai đoạn huấn luyện phân lớp Nguyễn Quốc Việt iii Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian MỤC LỤC Trang LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT LUẬN VĂN iii MỤC LỤC iv DANH MỤC HÌNH ẢNH vii DANH MỤC BẢNG BIỂU x CHƯƠNG 1: GIỚI THIỆU 1.1 Phát biểu vấn đề 1.2 Mục tiêu giới hạn đề tài 1.3 Tóm lược kết đạt 1.4 Cấu trúc luận văn CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Độ đo khoảng cách miền liệu chuỗi thời gian 2.1.1 Độ đo khoảng cách Minkowski 2.1.2 Độ đo xoắn thời gian động 2.2 Kỹ thuật phân lớp k láng giềng gần 14 CHƯƠNG 3: CÁC CƠNG TRÌNH CĨ LIÊN QUAN 16 3.1 Ràng buộc đường xoắn cho khoảng cách DTW 16 3.1.1 Ràng buộc dải Sakoe-Chiba 16 3.1.2 Ràng buộc hình bình hành Itakura 17 3.1.3 Dải Ratanamahatana-Keogh (dải R-K) 17 3.2 Các kỹ thuật tính chặn cho khoảng cách DTW 19 3.2.1 Ý nghĩa chặn 19 3.2.2 Phương pháp tính chặn LB_Keogh 20 3.2.3 Đánh giá 23 3.3 Giải thuật phân lớp có thời gian thực thi tùy chọn 23 Nguyễn Quốc Việt iv Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian 3.3.1 Giải thuật phân lớp 23 3.3.2 Sắp xếp tập huấn luyện 25 3.4 Phát motif cho liệu chuỗi thời gian 27 3.4.1 Giải thuật Brute-force để phát motif 30 3.4.2 Nhận diện motif dựa vào phương pháp chiếu ngẫu nhiên (Random Projection Algorithm) 31 3.4.3 Giải thuật MK cải tiến 33 3.4.4 Giải thuật phát motif dựa điểm cực trị quan trọng 41 3.4.4.1 Điểm cực trị quan trọng (Important Extreme Points) 41 3.4.4.2 Độ đo tương tự 44 3.4.4.3 Tìm ứng viên Motif 46 3.4.4.4 Giải thuật gom cụm phân cấp theo hướng từ lên (Hierarchical Bottom-Up Algorithm) 47 3.4.4.5 Khái niệm phép biến hình vị tự 48 3.4.4.6 Lấy mẫu ứng viên motif phép vị tự 49 3.5 Kết luận 51 CHƯƠNG 4: HIỆN THỰC VÀ THỬ NGHIỆM 54 4.1 Giải vấn đề 54 4.1.1 Đặt vấn đề 54 4.1.2 Hướng giải vấn đề 54 4.1.3 Giai đoạn huấn luyện 56 4.1.3.1 Giải thuật NN_LBKeogh 56 4.1.3.2 Giải thuật huấn luyện 58 4.1.4 Giai đoạn phân lớp 59 4.2 Thực nghiệm 61 4.2.1 Hệ thống phân lớp liệu chuỗi thời gian 61 4.2.2 Cấu hình 64 4.2.3 Tập liệu 64 4.2.4 Thực nghiệm giai đoạn huấn luyện 64 Nguyễn Quốc Việt v Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian 4.2.4.1 Tập liệu TwoPat 65 4.2.4.2 Tập liệu Clustered 69 4.2.5 Thực nghiệm giai đoạn phân lớp 71 4.2.5.1 Tập liệu TwoPat 71 4.2.5.2 Tập liệu Clustered 73 CHƯƠNG 5: KẾT LUẬN 76 5.1 Tổng kết 76 5.2 Những đóng góp đề tài 77 5.3 Hướng phát triển 77 TÀI LIỆU THAM KHẢO 79 BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH – VIỆT 81 Nguyễn Quốc Việt vi Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian DANH MỤC HÌNH ẢNH Hình 1-1 Đường biễu diễn liệu chuỗi thời gian Hình 1-2 Bài tốn phân lớp liệu chuỗi thời gian Hình 2-1 Hình ảnh trực giác khoảng cách Euclid (nguồn: [3]) Hình 2-2 Hai mẫu liệu có hình dạng giống lệch thời gian (nguồn:[4]) Hình 2-3 Cách tính khoảng cách xoắn thời gian động: A) Cho hai chuỗi mục tiêu Q C, B) Ma trận tính DTW, C) Kết tính DTW (nguồn:[2]) 10 Hình 2-4 Đồ thị biểu diễn hai chuỗi thời gian 12 Hình 2-5 Ma trận tính DTW cho hai chuỗi thời gian 12 Hình 2-6 Giải thuật phân lớp k-Nearest-Neighbor 15 Hình 3-1 Hai loại ràng buộc đường xoắn: a) Dải Sakoe-Chiba b) Hình bình hành Itakura (nguồn: [5]) 17 Hình 3-2 Hình dạng loại ràng buộc cửa sổ xoắn: A) Dải R-K,B) Dải Sakoe-Chiba, C) Hình bình hành Itakura (nguồn: [4]) 18 Hình 3-3 Minh họa giải thuật tìm kiếm tiến sử dụng độ xác (nguồn:[4])19 Hình 3-4 Giải thuật tìm kiếm sử dụng chặn (nguồn:[5]) 20 Hình 3-5 Đường bao ứng với hai loại ràng buộc: A) Dải Sakoe-Chiba B) Hình bình hành Itakura (nguồn:[2]) 21 Hình 3-6 Hình ảnh trực quan chặn LB_Keogh (nguồn:[2]) 22 Hình 3-7 Giải thuật phân lớp có thời gian thực thi tùy chọn (nguồn:[7]) 24 Hình 3-8 Giải thuật xếp tập huấn luyện 25 Hình 3-9 Mơ phát motif liêu chuỗi thời gian chuỗi liệu bên thường xuất chuỗi liệu ban đầu phía 28 Nguyễn Quốc Việt vii Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian Hình 3-10 Mô chuỗi trùng khớp (matching) hai chuỗi C M Chuỗi thời gian T đường màu đen nhỏ, chuỗi C có hình màu đen in đậm chuỗi M có hình màu xám 28 Hình 3-11 Trong hầu hết chuỗi C, có hai chuỗi khớp (match) tốt nằm phía bên trái bên phải chuỗi 29 Hình 3-12 Minh họa định nghĩa Motif-bậc-K 29 Hình 3-13 Giải thuật Motif-Brute-Force (Nguồn [1]) 31 Hình 3-14 Minh họa việc xây dựng ma trận với a=3, w=4 n=16 32 Hình 3-15: Trái) {1,2} chọn ngẫu nhiên Phải) tăng giá trị ô tương ứng đơn vị [11] 33 Hình 3-16: Trái) Cột {2,4} chọn ứng [11] Phải) Tăng giá trị vị trí tương 33 Hình 3-17 Khoảng cách chuỗi tham chiếu Q nằm Ca Cb 36 Hình 3-18 Khoảng cách chuỗi tham chiếu Q nằm ngồi Ca Cb 37 Hình 3-19 Dịch chuyển trục tọa độ liệu chuỗi thời gian 38 Hình 3-20 Cải tiến giải thuật phát motif 40 Hình 3-21 Điểm quan trọng với hệ số nén 91% 94% 41 Hình 3-22 Điểm cực đại cực tiểu quan trọng 42 Hình 3-23 Giải thuật lấy mẫu lại ứng viên Motif T với nội suy spline bậc I 45 Hình 3-24 Giải thuật gom cụm phân cấp theo hướng từ lên 47 Hình 3-25 Giải thuật gom cụm phân cấp từ lên xuống HAC 48 Hình 3-26 Minh họa phép vị tự tâm O, hệ số vị tự k =1/2 49 Hình 3-27: Chuỗi liệu sau lấy mẫu có chiều dài 150 điểm dùng phương pháp vị tự 51 Nguyễn Quốc Việt viii Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian Hình 4-8 Biểu đồ thời gian thực thi giai đoạn huấn luyện dùng kỹ thuật chặn LB_Keogh tập liệu TwoPat Nguyễn Quốc Việt 68 Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian Biểu đồ thể thời gian thực thi hai giải thuật huấn luyện thể Hình 4-8 Biểu đồ cho thấy, thời gian thực thi giải thuật có sử dụng thơng tin Motif thấp so với giải thuật không sử dụng thơng tin Motif, với kích thước cửa sổ xoắn lớn khác biệt thể rõ 4.2.4.2 Tập liệu Clustered Tập liệu gồm 1000 chuỗi Đề tài chọn ngẫu nhiên 600 chuỗi làm tập huấn luyện 400 chuỗi lại làm tập kiểm tra Đề tài thực nghiệm trường hợp 10 lần lấy trung bình giá trị thời gian chạy Sau kết thực nghiệm thời gian chạy tập liệu Kết thời gian chạy tính giây Bảng 4-3 thể kết thực nghiệm thời gian thực thi giải thuật có sử dụng thơng tin motif với thời gian thực thi giải thuật không sử dụng thông tin motif ứng với kích thước cửa sổ xoắn R khác tập liệu Clustered WindowSize Without Motif With Motif 0% 10.87 2.58 10% 22.86 3.72 20% 104.85 5.34 30% 156.13 6.57 40% 207.23 7.97 50% 207.23 8.82 60% 255.65 9.95 70% 296.80 11.07 80% 339.45 12.00 90% 374.61 12.61 100% 390.60 13.48 Bảng 4-3 Thời gian thực giai đoạn huấn luyện hai giải thuật dùng kỹ thuật chặn LB_Keogh tập liệu Clustered Nguyễn Quốc Việt 69 Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian Hình 4-9 Biểu đồ thời gian thực thi giai đoạn huấn luyện sử dụng kỹ thuật chặn LB_Keogh tập liệu Clustered Nguyễn Quốc Việt 70 Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian Biểu đồ thể thời gian thực thi hai giải thuật huấn luyện thể Hình 4-9 Biểu đồ cho thấy, với kích thước cửa sổ xoắn lớn khác biệt thể rõ, thời gian thực thi giải thuật có sử dụng thông tin motif thấp so với giải thuật không sử dụng thông tin motif 4.2.5 Thực nghiệm giai đoạn phân lớp Để đánh giá độ xác phân lớp giải thuật, có số phương pháp thông dụng dựa phân vùng ngẫu nhiên tập liệu mẫu như: tập ngẫu nhiên (random subsampling), kiểm tra chéo (cross-validation), bẫy liệu (bootstrap), … Trong luận văn dùng phương pháp kiểm tra chéo Trong phương pháp kiểm tra chéo, tập liệu mẫu ban đầu chia làm k tập D1, D2,…, Dk có kích thước nhau, q trình huấn luyện kiểm tra thực k lần, lần lặp thứ i, tập Di dùng làm tập kiểm tra, tập lại dùng làm tập huấn luyện Như vậy, mẫu tập liệu dùng để huấn luyện số lần dùng lần để kiểm tra Độ xác phân lớp tính tổng số mẫu phân lớp xác k lần lặp chia cho tổng số mẫu tập liệu ban đầu 4.2.5.1 Tập liệu TwoPat Dựa vào phương pháp kiểm tra chéo, thực đánh giá phương pháp phân lớp chuỗi liệu thời gian có sử dụng thơng tin motif tập liệu TwoPat Tập liệu có 5000 mẫu phân lớp sẵn, chia làm tập riêng biệt: tập gồm 1000 mẫu, đặt tên theo thứ tự D1, D2,…, D5 Kết số mẫu phân lớp xác sau thực lần, lần dùng tập để kiểm tra thể Bảng 4-4 Nguyễn Quốc Việt 71 Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian Subset Without Motif With Motif D1 987 974 D2 991 950 D3 972 972 D4 989 961 D5 976 948 Bảng 4-4 Số lượng mẫu phân lớp xác tập liệu TwoPat Bảng 4-5 thể chất lượng phân lớp hai giải thuật phân lớp có sử dụng thơng tin motif không sử dụng thông tin motif Without Motif With Motif 98,30 % 96,10 % Bảng 4-5 Độ xác phân lớp giải thuật phân lớp có sử dụng thông tin motif không sử dụng thông tin motif tập liệu TwoPat Hình 4-10 thể kết số mẫu phân lớp hai giải thuật có sử dụng thơng tin motif so với giải thuật không sử dụng thông tin motif Dựa vào kết Bảng 4-4 Hình 4-10 ta thấy độ xác phân lớp giải thuật phân lớp có thời gian thực thi tuỳ chọn sử dụng thơng tin motif có độ xác thấp giải thuật phân lớp có thời gian thực thi tuỳ chọn không sử dụng thông tin motif, nhiên khác biệt không đáng kể ta xem hai giải thuật có độ xác tương đương Nguyễn Quốc Việt 72 Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian Hình 4-10 kết số mẫu phân lớp tập liệu TwoPat 4.2.5.2 Tập liệu Clustered Tập liệu có 1000 mẫu, chia làm tập riêng biệt: tập gồm 200 mẫu, đặt tên theo thứ tự D1, D2,…, D5 Kết số mẫu phân lớp xác sau thực lần, lần dùng tập để kiểm tra thể Bảng 4-6 Subset D1 D2 D3 D4 D5 Without Motif 199 199 195 191 194 With Motif 186 196 184 189 191 Bảng 4-6 Số lượng mẫu phân lớp xác tập liệu Clustered Nguyễn Quốc Việt 73 Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian Bảng 4-7 thể chất lượng phân lớp hai giải thuật phân lớp có sử dụng thông tin motif không sử dụng thông tin motif tập Clustered Without Motif 97,80 % With Motif 94,60 % Bảng 4-7 Độ xác phân lớp giải thuật phân lớp có sử dụng thơng tin motif không sử dụng thông tin motif tập liệu Clustered Hình 4-11 thể kết số mẫu phân lớp hai giải thuật có sử dụng thơng tin motif so với giải thuật không sử dụng thông tin motif Hình 4-11 kết số mẫu phân lớp tập liệu Clustered Nguyễn Quốc Việt 74 Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian Dựa vào kết Bảng 4-6 Hình 4-11 ta thấy độ xác phân lớp giải thuật phân lớp có thời gian thực thi tuỳ chọn sử dụng thơng tin motif có độ xác thấp giải thuật phân lớp có thời gian thực thi tuỳ chọn không sử dụng thông tin motif, nhiên khác biệt không đáng kể ta xem hai giải thuật có độ xác tương đương Nguyễn Quốc Việt 75 Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian CHƯƠNG 5: KẾT LUẬN 5.1 Tổng kết Đề tài trình bày giải thuật phân lớp có thời gian thực thi tùy chọn cho liệu chuỗi thời gian Đề tài giải vấn đề xây dựng dựng giải thuật phân lớp có thời gian thực thi tùy chọn, sử dụng khoảng cách DTW việc tính khoảng cách chuỗi, kết hợp giải thuật tìm kiếm motif dựa vào điểm cực trị quan trọng để cải thiện thời gian tính tốn giai đoạn huấn luyện Việc tính DTW có áp dụng chặn để rút ngắn thời gian xử lý Thứ nhất, đề tài trình bày giải thuật phân lớp có thời gian thực thi tùy chọn Giải thuật có hai giai đoạn: Giai đoạn huấn luyện giai đoạn phân lớp Trong giai đoạn huấn luyện, giải thuật thực việc xếp tập huấn luyện dựa chiến lược xếp đơn giản (Simple Rank) Giai đoạn phân lớp thực việc so sánh khoảng cách chuỗi mục tiêu chuỗi tập huấn luyện Thứ tự so sánh thứ tự xếp giai đoạn huấn luyện Thứ hai, đề tài trình bày hai độ đo khoảng cách thông dụng lĩnh vực liệu chuỗi thời gian khoảng cách Euclid khoảng cách DTW Dựa đặc điểm hai độ đo khoảng cách phân tích đánh giá cơng trình nghiên cứu gần đây, đề tài sử dụng độ đo khoảng cách DTW Việc tính khoảng cách DTW có chi phí lớn, nên đề đề tài sử dụng kỹ thuật tính chặn LowerBound Keogh cho DTW nhằm rút ngắn thời gian xử lý Cuối cùng, đề tài trình bày giải thuật tìm kiếm motif dựa vào điểm cực trị quan trọng Dựa vào thông tin motif tìm thể chuỗi thời gian tập huấn luyện, đề tài xây dựng giải thuật huấn luyện thơng tin motif tìm để cải thiện thời gian huấn luyện Nguyễn Quốc Việt 76 Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian 5.2 Những đóng góp đề tài Hiện thực chi tiết hóa giải thuật phân lớp có thời gian thực thi tùy chọn cho liệu chuỗi thời gian Giải thuật có ưu điểm thời gian thực thi giải thuật người dùng định Nếu thời gian thực thi lâu, độ xác việc phân lớp cao Cải tiến giai đoạn huấn luyện giải thuật phân lớp có thời gian thực thi tuỳ chọn cách sử dụng thông tin motif tìm thể chuỗi thời gian tập huấn luyện thay sử dụng chuỗi thời gian gốc ban đầu, qua cải thiện đáng kể thời gian huấn luyện mà không làm giảm độ chuẩn xác giải thuật Cải tiến giải thuật phân lớp có thời gian thực thi tùy chọn cách áp dụng kỹ thuật tính chặn LowerBound Keogh cho khoảng cách DTW để rút ngắn thời gian xử lý Kỹ thuật tính chặn áp dụng vào hai giai đoạn huấn luyện phân lớp Thực nghiệm để so sánh, đánh giá ưu điểm nhược điểm giải thuật phân lớp liệu chuỗi thời gian có thực thi tuỳ chọn cải tiến sử dụng thông tin motif Dựa kết thực nghiệm, đề tài kết luận giải thuật phân lớp liệu chuỗi thời gian có thực thi tuỳ chọn cải tiến sử dụng thơng tin motif có thời gian thực nhanh giải thuật gốc ban đầu nhiều, khơng làm giảm độ xác giải thuật trình phân lớp 5.3 Hướng phát triển Đề tài giải toán cải tiến giải thuật phân lớp liệu chuỗi thời gian có thời gian thực thi tùy chọn sử dụng thông tin motif Tuy nhiên, số vấn đề khác cần nghiên cứu thêm để hoàn thiện - Đề tài giới hạn lại tập liệu chuỗi thời gian xử lý phải có chiều dài Do đó, cần phải nghiên cứu xem việc phân lớp tập Nguyễn Quốc Việt 77 Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian liệu chuỗi thời gian có chiều dài khơng có cần thiết hay khơng cần thiết cách giải - Các tập liệu chuỗi thời gian sử dụng để thực nghiệm đề tài có kích thước nhỏ chiều dài chuỗi liệu không lớn Nên cần phải thực nghiệm tập liệu chuỗi thời gian lớn chiều dài chuỗi lớn để đưa kết luận thời gian thực thi độ xác giải thuật cải tiến - Đề tài thực nghiệm hai tập liệu mẫu, tập liệu TwoPat tập liệu nhân tạo Vì vậy, cần phải thực nghiệm nhiều loại liệu mẫu nữa, đặc biệt tập liệu thu từ thực tế Các lĩnh vực cần thực nghiệm thêm liệu tài chính, y học, thời tiết nhận dạng hình ảnh - Phát triển ứng dụng thực tế cho toán Nguyễn Quốc Việt 78 Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian TÀI LIỆU THAM KHẢO [1] Lin, J., Keogh, E., Lonardi, S., Patel, P., 2002, “Finding Motif in Time Series” University of Califonia – Riverside Computer Science & Engineering Department Riverside, CA 93521, USA [2] Keogh, E (2002) “Exact indexing of dynamic time warping” In 28th International Conference on Very Large Data Bases, (pp 406-417) Hong Kong [3] Keogh, E., Chakrabarti, K., Pazzani, M., & Mehrot, S (2001) “Locally adaptive dimensionality reduction for indexing large time series databases” Proceedings of the 2001 ACM SIGMOD Conference on Management of Data, (pp 151-162) [4] Ratanamahatana, C A., & Keogh, E (2004) “Making Time-series Classification More Accurate Using Learned Constraints” In Proceedings of SIAM International Conference on Data Mining (SDM '04), (pp 11-22) Lake Buena Vista, Florida [5] Ratanamahatana, C A., & Keogh, E (2005) “Three Myths about Dynamic Time Warping” In Proceedings of SIAM International Conference on Data Mining (SDM '05), (pp 506-510) Newport Beach, CA [6] Sakoe, H., & Chiba, S (1978) “Dynamic programming algorithm optimization for spoken word recognition” IEEE Trans Acoustics, Speech, and Signal Proc., Vol ASSP-26, (pp 43-49) [7] Ueno, K., Xi, X., Keogh, E., & Lee, D.-J (2006) “Anytime Classification Using the Nearest Neighbor Algorithm with Applications to Stream Mining” In Proceedings of ICDM 2006 [8] Itakura, F (1975) “Minimum prediction residual principle applied to speech recognition” IEEE Transactions on Acoustics, Speech, and Signal Processing 23, (pp 67-72) [9] Geurts, P (2002) “Contributions to Decision Tree Induction: Bias/Variance Tradeoff and Time Series Classification” Ph.D Thesis, Nguyễn Quốc Việt 79 Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian Department of Electrical Engineering and Computer Science, University of Leige, Belgium [10] Gruber,C., M Coduro, Sick,B., “Signature Verification With Dynamic RBF Network and Time Seried Motif” , The 10th International Workshop on Frontiers in Hand Writing Recognition 2006 [11] Chiu,B., Keogh, E., S.Lonardi, “Probabilistic Discovery of Time Series Motifs”, ACM SIGKDD 2003, (pp 493-498) [12] Pratt, K.B., Fink, E., “Search for pattern in compressed time series”, in International Journal of Image and Graphics, 2002 [13] Vo Le Quy Nhon, Duong Tuan Anh, “A BIRCH-Based Clustering Method for Large Time Series Databases” PAKDD Workshops 2011, (pp 148-159) [14] Mueen, A., Keogh, E., Zhu, Q., Westoever,B., 2009 ”Exact Discovery Of Time Series Motifs”, In the Proceedings of SIAM International Conference on Data Mining, (pp 473-484) [15] Le Phu, Duong Tuan Anh, “Motif-Based Method for Initialization the K-Means Clustering for Time Series Data”, Australasian Conference on Artificial Intelligence 2011 (pp 11-20) [16] Huynh Nguyen Tin, 2012 “Finding Motif base on Important Extreme Point”, HoChiMinh University of Technology Nguyễn Quốc Việt 80 Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH – VIỆT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Accuracy Độ xác Anytime classification algorithm Giải thuật phân lớp có thời gian thực thi tùy chọn Backward Tìm kiếm lùi Best so far distance Khoảng cách tốt Classification Phân lớp Cumulative distance Khoảng cách tích lũy Dynamic programming Quy hoạch động Dynamic Time Warping Xoắn thời gian động Envelope Đường bao Euclidean Distance Khoảng cách Euclid False dismissal Lỗi so trùng sót Forward Tìm kiếm tiến Important Extreme Points Điểm cực trị quan trọng Nguyễn Quốc Việt Viết tắt DTW 81 Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian Instance-based learning Học dựa mẫu Itakura Parallelogram Hình bình hành Itakura Keogh’s Lower Bounding Chặn Keogh LB_Keogh K-Nearest-Neighbor K-Láng giềng gần k-NN Lazy learning Học lười Match Chuỗi trùng khớp Non-trivial match Chuỗi trùng khớp không tầm thường Rank Thứ hạng Test set Tập kiểm tra Training set Tập huấn luyện Trivial match Chuỗi trùng khớp tầm thường Warping path Đường xoắn W Warping window Cửa sổ xoắn R Nguyễn Quốc Việt 82 ... vận dụng nhận dạng motif liệu chuỗi thời gian để cải tiến giải thuật phân lớp Nguyễn Quốc Việt Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian liệu chuỗi thời gian có thời gian. .. Độ đo khoảng cách Euclid độ đo khoảng cách xoắn thời gian động, cách tính độ đo khoảng cách xoắn thời gian động Kỹ thuật phân lớp k láng giềng gần 2.1 Độ đo khoảng cách miền liệu chuỗi thời gian. .. Việt vi Ứng dụng nhận dạng motif hỗ trợ phân lớp liệu chuỗi thời gian DANH MỤC HÌNH ẢNH Hình 1-1 Đường biễu diễn liệu chuỗi thời gian Hình 1-2 Bài toán phân lớp liệu chuỗi thời gian

Ngày đăng: 31/01/2021, 23:58

Tài liệu cùng người dùng

Tài liệu liên quan