Khai thác luật tuần tự trên cơ sở dữ liệu chuỗi

69 2K 29
Khai thác luật tuần tự trên cơ sở dữ liệu chuỗi

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN VĂN THỊ THIÊN TRANG KHAI THÁC LUẬT TUẦN TỰ TRÊN CƠ SỞ DỮ LIỆU CHUỖI LUẬN VĂN THẠC SĨ NGÀNH HỆ THỐNG THÔNG TIN Thành phố Hồ Chí Minh – 2010 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN VĂN THỊ THIÊN TRANG KHAI THÁC LUẬT TUẦN TỰ TRÊN CƠ SỞ DỮ LIỆU CHUỖI Ngành: HỆ THỐNG THÔNG TIN Mã số: 60.48.05 LUẬN VĂN THẠC SĨ (Chuyên ngành Hệ Thống Thông Tin) NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. LÊ HOÀI BẮC TP. Hồ Chí Minh – 2010 LỜI CẢM ƠN ầu tiên, tôi xin chân thành và sâu sắc biết ơn sự tận tình dạy dỗ và sự giúp đỡ của tất cả quý thầy cô khoa Công nghệ Thông tin, Trường Đại học Khoa Học Tự Nhiên. Đ Đặc biệt, tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến thầy Lê Hoài Bắc đã tận tình hướng dẫn và giúp đỡ tôi trong thời gian làm luận văn vừa qua. Con xin cảm ơn Ba Mẹ đã hết lòng thương yêu và nuôi nấng dạy dỗ con nên người. Luôn luôn động viên con trong những lúc khó khăn, giúp con vượt qua khó khăn và thử thách trong công việc cũng như trong cuộc sống. Cuối cùng, tôi xin gửi lời cảm ơn đến bạn bè, đồng nghiệp, những người luôn sát cánh động viên, và tạo mọi điều kiện tốt nhất để tôi có thể học tập và hoàn tất được luận văn tốt nghiệp này. Văn Thị Thiên Trang Mục lục Mục lục i Danh mục các bảng iii Danh mục các hình vẽ, đồ thị iv MỞ ĐẦU 1U Chương 1 . TỔNG QUAN 3 1.1 Đặc điểm dữ liệu chuỗi 3 1.2 Một số ví dụ về dữ liệu chuỗi 3 1.3 Các kỹ thuật thác dữ liệu chuỗi 6 1.4 Khai thác luật trên cơ sở dữ liệu chuỗi 7 1.5 Đóng góp của luận văn 9 Chương 2 . CƠ SỞ LÝ THUYẾT 10 2.1 Giới thiệu 10 2.2 Ý nghĩa luật tuần tự 10 2.3 Phát biểu bài toán khai thác luật tuần tự 11 2.3.1 Các khái niệm về chuỗi dữ liệu 11 2.3.2 Các khái niệm về luật tuần tự 14 2.3.3 Bài toán khai thác luật tuần tự 14 2.4 Khai thác mẫu tuần tự 16 2.4.1 Các cách tổ chức dữ liệu 16 2.4.2 Các hướng tiếp cận 18 2.4.3 Thuật toán PRISM 22 - i - 2.5 Khai thác luật tuần tự từ tập mẫu tuần tự 35 2.5.1 Một số hướng tiếp cận trong khai thác luật tuần tự 35 2.5.2 Thuật toán Full 35 Chương 3 . PHƯƠNG PHÁP KHAI THÁC LUẬT TUẦN TỰ DỰA TRÊN CÂY TIỀN TỐ 37 3.1 Giới thiệu 37 3.2 Thuật toán MSR_ImpFull 37 3.3 Thuật toán MSR_PreTree 40 3.3.1 Cây tiền tố 40 3.3.2 Thuật toán MSR_PreTree 42 3.3.3 Trường hợp đặc biệt 45 3.3.4 Đánh giá 49 Chương 4 . KẾT QUẢ THỰC NGHIỆM 50 4.1 Giới thiệu 50 4.2 Kết quả thực nghiệm trên cơ sở dữ liệu tổng hợp 50 4.3 Kết quả thực nghiệm trên cơ sở dữ liệu thực 54 Chương 5 . KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 58 5.1 Kết luận 58 5.2 Hướng phát triển 58 TÀI LIỆU THAM KHẢO 60 - ii - Danh mục các bảng Bảng 2.1. CSDL chuỗi 13 Bảng 2.2. Tập mẫu tuần tự 15 Bảng 2.3. Tập luật tuần tự sinh từ tập mẫu tuần tự 15 Bảng 3.1. Tập mẫu tuần tự sau khi sắp tăng theo kích thước 39 Bảng 3.2. Sinh luật tuần tự sử dụng thuật toán MSR_ImpFull 39 Bảng 3.3. Sinh luật tuần tự từ cây con gốc 〈(A)〉 sử dụng thuật toán MSR_PreTree44 Bảng 3.4. CSDL chuỗi, mỗi itemset trong chuỗi chỉ có 1 item 46 Bảng 3.5. Sinh luật tuần tự từ cây con gốc 〈(A)〉 sử dụng thuật toán MSR_PreTree (trường hợp đặc biệt) 48  Bảng 4.1. Đặc điểm của các CSDL tổng hợp 51 Bảng 4.2. So sánh thời gian thực hiện trên các CSDL tổng hợp (minConf = 50%) . 52 Bảng 4.3. Đặc điểm của các CSDL thực 54 Bảng 4.4. So sánh thời gian thực hiện trên các CSDL tổng hợp (minConf = 50%) . 55 - iii - - iv - Danh mục các hình vẽ, đồ thị Hình 1.1. Một phân đoạn của chuỗi DNA [8] 4 Hình 1.2. Một phân đoạn của chuỗi Protein [8] 4 Hình 1.3. Một chuỗi truy cập web [8] 5 Hình 1.4. Chuỗi các lần mua sắm của một khách hàng [8] 5 Hình 1.5. Chuỗi lịch sử bán hàng của các cửa hàng [8] 5 Hình 2.1. Dàn xây dựng trên tập ⊗P(G) 24 Hình 2.2. Ví dụ về khối mã hóa nguyên tố. 27 Hình 2.3. Không gian khai thác mẫu tuần tự, bao gồm mở rộng theo itemset và mở rộng theo chuỗi với chiến lược tìm kiếm theo chiều sâu 30  Hình 2.4. Mã hóa nguyên tố cho mẫu mở rộng. 32 Hình 2.5. Thuật toán Full [14] 36 Hình 3.1. Thuật toán MSR_ImpFull 38 Hình 3.2. Các mẫu tuần tự được lưu trữ trên cây tiền tố 41 Hình 3.3. Thuật toán MSR_PreTree 43 Hình 3.4. Thủ tục sinh luật từ các mẫu trên cây với tiền tố cho trước 44 Hình 3.5. Cây tiền tố lưu trữ các mẫu tuần tự 47 Hình 3.6. Thủ tục sinh luật từ một cây con (có sửa đổi) 48 Hình 4.1. So sánh tốc độ thực thi của ba thuật toán trên CSDL - C6T5N1kD1k 53 Hình 4.2. So sánh tốc độ thực thi của ba thuật toán trên CSDL - C6T5N1kD10k 53 Hình 4.3. So sánh tốc độ thực thi của ba thuật toán trên CSDL thực - Chess 56 Hình 4.4. So sánh tốc độ thực thi của ba thuật toán trên CSDL thực - Mushroom 56 Hình 4.5. So sánh tốc độ thực thi của ba thuật toán trên CSDL thực – Pumb-star 57 MỞ ĐẦU 1. Lời nói đầu Với sự phát triển nhanh chóng của máy tính và công nghệ Internet, khối lượng dữ liệu thu thập được từ các ứng dụng dưới nhiều dạng khác nhau ngày càng trở nên đồ sộ. Do đó khai thác dữ liệu nhằm tìm kiếm những thông tin quý giá, những tri thức cần thiết tiềm ẩn trong khối lượng dữ liệu đồ sộ đó. Sự đa dạng và phong phú của dữ liệu hình thành nên nhiều mô hình dữ liệu khác nhau: mô hình dữ liệu giao tác (transaction), mô hình dữ liệu chuỗi (sequence), mô hình dòng dữ liệu (data stream), chuỗi thời gian (time-series)… Với mô hình dữ liệu chuỗi, sự kiện hoặc dữ liệu nói chung tồn tại theo một chuỗi có trật tự thời gian, nhưng không nhất thiết phải gắn liền với một khái niệm thời gian cụ thể. Ví dụ chuỗi các mặt hàng đã mua sắm của các khách hàng tại một cửa hàng, chuỗi truy cập web, chuỗi di truyền trong sinh học, chuỗi sự kiện trong khoa học, trong tự nhiên hoặc xã hội … Mặc dù đã có nhiều phương pháp khai thác dữ liệu chung cho các loại dữ liệu nhưng đối với dữ liệu chuỗi, không thể áp dụng những phương pháp này vì dữ liệu chuỗi có đặc thù riêng. Bản chất của dữ liệu chuỗi là có tính thứ tự, dựa trên tích chất này có thể phân ra nhiều loại khác nhau, bao gồm: mẫu tuần tự, mẫu tuần hoàn, mẫu có thứ tự bộ phận, mẫu chuỗi sinh học xấp xỉ… Sự phong phú về các loại chuỗi đã đẩy mạnh việc phát triển các phương pháp mới trên các bài toán phân lớp, gom cụm, khai thác luật… Chính vì vậy, khai thác dữ liệu chuỗi nói chung, khai thác mẫu và tri thức nói riêng từ khối lượng dữ liệu chuỗi lớn đã trở thành một trong những chủ đề nghiên cứu cơ bản và thiết thực trong lĩnh vực khai thác dữ liệu. Mô hình dữ liệu chuỗi thể hiện rõ rệt mối quan hệ xuyên thời gian của dữ liệu, chính vì vậy việc áp dụng khai thác luật trên mô hình dữ liệu này kỳ vọng mang lại nhiều tri thức tiềm ẩn quí giá có ý nghĩa liên kết xuyên thời gian. Luận văn này tập trung nghiên cứu giải pháp cho bài toán khai thác luật tuần tự trên cơ sở dữ liệu (CSDL) chuỗi. Dựa trên một số công trình nghiên cứu trong - 1 - lĩnh vực khai luật tuần tự đã công bố trong những năm gần đây, từ đó luận văn trình bày: • Luật tuần tự: Ý nghĩa luật tuần tự, phát biểu bài toán và các hướng tiếp cận. • Phương pháp khai thác mẫu tuần tự: trình bày thuật toán PRISM. • Phương pháp khai thác luật tuần tự từ tập mẫu tuần tự: trình bày hai thuật toán đề xuất là MSR_ImpFull và MSR_PreTree. • Kết quả thực nghiệm trên các phương pháp đề xuất và so sánh kết quả với các phương pháp đã có. 2. Bố cục đề tài Chương 1: Tổng quan Chương 2: Cơ sở lý thuyết Chương 3: Phương pháp khai thác luật tuần tự dựa trên cây tiền tố Chương 4: Kết quả thực nghiệm Chương 5: Kết luận và hướng phát triển Luận văn trình bày trong 5 chương. Chương 1 giới thiệu chung về CSDL chuỗi, một số kỹ thuật khai thác dữ liệu chuỗi; đồng thời nêu lên hướng tiếp cận nghiên cứu và đóng góp của đề tài. Chương 2 trình bày cơ sở lý thuyết của bài toán khai thác luật tuần tự và các giai đoạn giải quyết bài toán. Chương 3 trình bày chi tiết các phương pháp mà đề tài đề xuất. Kết quả thực nghiệm triển khai trên CSDL tổng hợp IBM và CSDL chuẩn UCI được mô tả trong chương 4. Chương 5 trình bày kết luận chung và định hướng phát triển của đề tài. Cuối cùng, phần tham khảo trình bày các bài báo, sách được tham khảo, trích dẫn trong luận văn. - 2 - Chương 1 . TỔNG QUAN 1.1 Đặc điểm dữ liệu chuỗi Dữ liệu chuỗi có một số đặc điểm riêng biệt so với các loại dữ liệu khác. Do đó, khai thác dữ liệu chuỗi đặt ra nhiều cơ hội và thách thức, thu hút nhiều quan tâm nghiên cứu. Dữ liệu chuỗi có đặc điểm như sau [8]: Kích thước chuỗi có thể rất dài. Trong cùng một CSDL, kích thước của mỗi chuỗi là khác nhau thậm chí có sự chênh lệch lớn. Ví dụ các chuỗi gen có độ dài tối thiểu là vài trăm nhưng độ dài tối đa lên đến hàng trăm nghìn. Một mẫu là một chuỗi con, nghĩa là các thành phần trong chuỗi con phải liên tục kề nhau trong chuỗi cha ban đầu. Một mẫu cũng có thể là một tập hợp con của chuỗi, các thành phần của mẫu không liên tục trong chuỗi cha. Vị trí tuyệt đối của các thành phần trong chuỗi thường không quan trọng. Chẳng hạn, khi cần kiểm tra một chuỗi dữ liệu có chứa một mẫu hay không thì không cần quan tâm mẫu đó xuất hiện trong chuỗi ở vị trí tuyệt đối nào. Mối quan hệ về thứ tự/vị trí giữa các thành phần trong chuỗi đóng vai trò quan trọng. Ví dụ chuỗi XY hoàn toàn khác với chuỗi YX. Hơn nữa, khoảng cách giữa hai thành phần trong chuỗi cũng có ý nghĩa. Mối quan hệ về thứ tự/vị trí giữa các thành phần trong chuỗi là đặc điểm duy nhất chỉ có ở dữ liệu chuỗi. Đây chính là điểm khác biệt cơ bản của dữ liệu chuỗi so với các loại dữ liệu khác. 1.2 Một số ví dụ về dữ liệu chuỗi • Chuỗi dữ liệu sinh học: DNA, RNA và Protein Chuỗi dữ liệu sinh học giúp chúng ta hiểu rõ về cấu trúc và chức năng của các loại tế bào khác nhau, hỗ trợ cho việc chẩn đoán và chữa bệnh. Có ba loại chuỗi sinh học là chuỗi deoxyribonucleic acid (DNA), chuỗi amino acid (hay còn gọi là - 3 - [...]... -6- 1.4 Khai thác luật trên cơ sở dữ liệu chuỗi Trên CSDL chuỗi, đã có nhiều nghiên cứu trên các loại luật khác nhau: luật tuần tự (sequential rules), luật thú vị (interesting rules), luật phân lớp tuần tự (sequential classification rules), luật tuần hoàn (recurrent rules) Luật tuần tự [5], [14], [19] mở rộng khả năng sử dụng và tăng cường ý nghĩa của mẫu tuần tự Một luật khai thác được sẽ biểu diễn... 1.5 Chuỗi lịch sử bán hàng của các cửa hàng [8] -5- 1.3 Các kỹ thuật thác dữ liệu chuỗi Khai thác dữ liệu phụ thuộc vào loại tri thức mà hệ thống khai phá tri thức và khai thác dữ liệu tìm kiếm Mỗi nhiệm vụ khai thác dữ liệu có đặc tính riêng của nó và thực hiện theo các bước trong quá trình khai thác tri thức Sau đây là các nhiệm vụ khai thác dữ liệu thường được sử dụng phổ biến trong ứng dụng khai thác. .. nhãn tự động cho một đối tượng dữ liệu vào một phân lớp đúng Luật phân lớp tuần tự [5] là luật biểu thị dưới dạng X→c, với X là một chuỗi và c là nhãn của một lớp Luật X→c là một luật phân lớp tuần tự trong CSDL chuỗi khi và chỉ khi tồn tại một chuỗi dữ liệu trong CSDL là chuỗi cha của X và chuỗi dữ liệu đó thuộc phân lớp có nhãn là c Luật tuần hoàn [16] là luật được tạo ra từ hai loại mẫu: mẫu tuần tự. .. chuỗi Trong các loại luật trên, luật tuần tự là cơ bản nhất, các loại luật còn lại đều là dạng biến đổi của luật tuần tự bằng cách bổ sung thêm hoặc loại bỏ đi một số thông tin hoặc ràng buộc Do đó, luận văn tập trung nghiên cứu trên bài toán khai thác luật tuần tự Khai thác luật tuần tự là việc tìm kiếm những mối quan hệ theo thời gian giữa các sự kiện tuần tự Một luật tuần tự biểu diễn dưới dạng Χ→Υ,... tuần tự 2.2 Ý nghĩa luật tuần tự Luật tuần tự biểu diễn mối quan hệ giữa các mẫu tuần tự theo thời gian Có thể coi luật tuần tự là mở rộng tự nhiên của mẫu tuần tự, tương tự như luật kết hợp là mở rộng tự nhiên của tập phổ biến [2] Một luật tuần tự biểu thị dưới dạng X→Y, nghĩa là trong các chuỗi dữ liệu, nếu mẫu X xuất hiện thì mẫu Y cũng xuất hiện theo sau mẫu X với độ tin cậy cao So với các mẫu tuần. .. toán MSR_PreTree tiến hành khai thác tập đầy đủ các luật tuần tự dựa trên cây tiền tố -9- Chương 2 2.1 CƠ SỞ LÝ THUYẾT Giới thiệu Trong lĩnh vực khai thác dữ liệu trên CSDL chuỗi, khai thác mẫu tuần tự là bài toán đầu tiên được đề xuất bởi Agrawal và Srikant vào năm 1995 [3] và đã thu hút nhiều nghiên cứu [4], [5], [10], [17], [18], [20], [23] Cho CSDL chuỗi, khai thác mẫu tuần tự là xác định những mẫu... trình bày các giai đoạn giải quyết bài toán khai thác luật tuần tự trên CSDL chuỗi • Giai đoạn 1: Khai thác tập mẫu tuần tự • Giai đoạn 2: Khai thác luật tuần tự từ tập mẫu tuần tự Đối với từng giai đoạn, luận văn nghiên cứu các phương pháp tiến bộ đã có và chọn ra phương pháp tối ưu nhất Ở giai đoạn một của bài toán, để tiến hành khai thác tập mẫu tuần tự hiệu quả, luận văn sử dụng phương pháp mã... sao cho b1 ⊆ aj1, b2 ⊆ aj2, …, bm ⊆ ajm Ví dụ chuỗi 〈(B)(AC)〉 là chuỗi con của 〈(AB)(E)(ACD)〉; nhưng 〈(AB)(E)〉 không phải là chuỗi con của chuỗi 〈(ABE)〉 và ngược lại Cơ sở dữ liệu chuỗi: Cơ sở dữ liệu chuỗi là một tập hợp các bộ dữ liệu có dạng (sid, s), trong đó sid là định danh của chuỗi và s là chuỗi các itemset Mẫu: Mẫu là một chuỗi con của một chuỗi dữ liệu Mỗi itemset trong một mẫu còn được gọi... trong một chuỗi bất kỳ của CSDL thì với một độ tin cậy cao có thể khẳng định Y cũng xuất hiện trong chuỗi đó theo sau X Tuy nhiên, trong lĩnh vực khai thác luật tuần tự, có những nghiên cứu cho bài toán khai thác luật tuần tự không dư thừa (Spiliopoulou-1999, David Lo-2009) mà chưa có nghiên cứu thực sự nào cho bài toán khai thác tập đầy đủ các luật tuần tự Tuy nhiên, nếu khai thác luật dựa trên những... thác dữ liệu chuỗi [8] • Khai thác chuỗi con phổ biến hay còn gọi là khai thác mẫu tuần tự (mining frequent subsequence hoặc mining sequential pattern) Khai thác mẫu tuần tự là khai thác các mẫu phổ biến liên quan đến thời gian hoặc các sự kiện khác, với yêu cầu là các mẫu phổ biến là những chuỗi con trong CSDL chuỗi mà sự xuất hiện của chúng lớn hơn ngưỡng hỗ trợ do người dùng chỉ ra • Phân lớp các chuỗi . điểm dữ liệu chuỗi 3 1.2 Một số ví dụ về dữ liệu chuỗi 3 1.3 Các kỹ thuật thác dữ liệu chuỗi 6 1.4 Khai thác luật trên cơ sở dữ liệu chuỗi 7 1.5 Đóng góp của luận văn 9 Chương 2 . CƠ SỞ. nghĩa luật tuần tự 10 2.3 Phát biểu bài toán khai thác luật tuần tự 11 2.3.1 Các khái niệm về chuỗi dữ liệu 11 2.3.2 Các khái niệm về luật tuần tự 14 2.3.3 Bài toán khai thác luật tuần tự. giai đoạn giải quyết bài toán khai thác luật tuần tự trên CSDL chuỗi. • Giai đoạn 1: Khai thác tập mẫu tuần tự. • Giai đoạn 2: Khai thác luật tuần tự từ tập mẫu tuần tự. Đối với từng giai đoạn,

Ngày đăng: 09/10/2014, 20:56

Từ khóa liên quan

Mục lục

  • Mục lục

  • Danh mục các bảng

  • Danh mục các hình vẽ, đồ thị

  • Chương 1 . TỔNG QUAN

    • 1.1 Đặc điểm dữ liệu chuỗi

    • 1.2 Một số ví dụ về dữ liệu chuỗi

    • 1.3 Các kỹ thuật thác dữ liệu chuỗi

    • 1.4 Khai thác luật trên cơ sở dữ liệu chuỗi

    • 1.5 Đóng góp của luận văn

    • Chương 2 . CƠ SỞ LÝ THUYẾT

      • 2.1 Giới thiệu

      • 2.2 Ý nghĩa luật tuần tự

      • 2.3 Phát biểu bài toán khai thác luật tuần tự

        • 2.3.1 Các khái niệm về chuỗi dữ liệu

        • 2.3.2 Các khái niệm về luật tuần tự

        • 2.3.3 Bài toán khai thác luật tuần tự

        • 2.4 Khai thác mẫu tuần tự

          • 2.4.1 Các cách tổ chức dữ liệu

          • 2.4.2 Các hướng tiếp cận

          • 2.4.3 Thuật toán PRISM

            • 2.4.3.1 Một số khái niệm

            • 2.4.3.2 Lý thuyết về khối mã hóa nguyên tố

            • 2.4.3.3 Thuật toán PRISM

            • 2.4.3.4 Đánh giá thuật toán PRISM

            • 2.5 Khai thác luật tuần tự từ tập mẫu tuần tự

              • 2.5.1 Một số hướng tiếp cận trong khai thác luật tuần tự

Tài liệu cùng người dùng

Tài liệu liên quan