Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

51 737 3
Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 MỤC LỤC MỤC LỤC DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU DANH MỤC TỪ VIẾT TẮT LỜI MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ KPTT VÀ KPDL 1.1 Giới thiệu chung khai phá tri thức khai phá liệu 1.2 Quá trình khai phá tri thức 1.3 Quá trình khai thác liệu 1.4 Các phƣơng pháp khai phá liệu 1.5 Các lĩnh vực ứng dụng thực tiễn khai phá liệu 1.6 Các hƣớng tiếp cận khai phá liệu 1.7 Phân loại hệ khai phá liệu 1.8 Các thách thức - khó khăn KPTT KPDL CHƢƠNG 2: PHƢƠNG PHÁP KHAI PHÁ TẬP PHỔ BIẾN 11 2.1 Giới thiệu 11 2.2 Giới thiệu số thuật toán khai phá tập phổ biến 11 2.2.1 Thuật toán Apriori 11 2.2.2 Thuật toán Freespan 16 2.3 Tóm tắt 19 CHƢƠNG 3: TÌM HIỂU PHƢƠNG PHÁP KHAI PHÁ TẬP PHỔ BIẾN ĐĨNG TRONG KHƠNG GIAN 20 3.1 Phƣơng pháp khai phá tập phổ biến đóng khơng gian chiều 20 3.1.1 Tổng quan 20 3.1.2 Sự chuẩn bị 21 3.1.3 Tiến phƣơng pháp khai phá tập phổ biến đóng 22 3.1.4 Khung cải tiến cho khai phá tập phổ biến đóng 22 3.1.5 Thuật toán C-Miner 23 3.1.6 Thuật toán B-Miner 29 3.1.7 Khai phá tập phổ biến đóng song song 31 3.1.8 Độ phức tạp thời gian 32 3.2 Phƣơng pháp khai phá tập phổ biến đóng khơng gian chiều 32 3.2.1 Tổng quan 32 3.2.2 Sự chuẩn bị 33 3.2.3 Thuật toán khai phá lát đại diện(RSM) 35 3.2.4 Thuật toán CubeMiner 39 3.2.3 Khai phá FCC song song 46 3.2.4 Độ phức tạp thời gian 46 3.3 Tóm tắt 47 CHƢƠNG 4: CÀI ĐẶT THUẬT TOÁN THỬ NGHIỆM 48 4.1 Giới thiệu chƣơng trình 48 4.2 Giao diện chƣơng trình 48 4.3 Các thành phần chức chƣơng trình 48 4.4 Kết thực nghiệm 49 KẾT LUẬN 50 TÀI LIỆU THAM KHẢO 51 DANH MỤC HÌNH VẼ Hình 1.1: Quá trình KPTT Hình 1.2: Quá trình KPDL Hình 1.3: Các lĩnh vực ứng dụng KPDL Hình 2.1: Ví dụ Apriori Hình 2.2: Ma trận mục phổ biến Hình 2.3: Chuỗi mẫu độ dài Hình 2.4: Item-repeating Hình 2.5: Project database Hình 2.6: Các chuỗi mẫu Hình 3.1: Khung khai phá Hình 3.2: Cây phân chia sử dụng lát cắt Hình 3.3: Sai sót dƣ thừa Hình 3.4: Ví dụ sai sót dƣ thừa Hình 3.5: CubeMiner Hình 3.6: Cây khai phá FCC DANH MỤC BẢNG BIỂU Bảng 3.1: Ví dụ tập liệu (ma trận O) Bảng 3.2: Ma trận rút gọn O’ Bảng 3.3: Lát cắt Bảng 3.4: Kết không gian rút gọn không gian Bảng 3.5: FCP(minsup = 3; minlen = 2) Bảng 3.6: Ví dụ liệu ba chiều nhị phân Bảng 3.7: Ví dụ RSM(minH = minR = minC = 2) Bảng 3.8: Z (tập lát cắt) Algorithm 1: Khung RSM Algorithm 2: Thuật toán Cắt tỉa sau RSM Algorithm 3: Khai phá khối lập phƣơng Algorithm 4: Kiểm tra tập dịng đóng Algorithm 5: Kiểm tra tập độ cao đóng Algorithm 6: Cắt DANH MỤC TỪ VIẾT TẮT KPTT KPDL FCP FCC RSM Khai phá tri thức Khai phá liệu Tập phổ biến đóng Khối phổ biến đóng Khai phá lát đại diện LỜI MỞ ĐẦU Ngày nay, cách mạng kỹ thuật số cho phép số hóa thơng tin dễ dàng chi phí lƣu trữ thấp.Với phát triển phần mềm, phần cứng trang bị nhanh hệ thống máy tính kinh doanh Số lƣợng liệu khổng lồ đƣợc tập trung lƣu trữ sở liệu thiết bị điện tử nhƣ: đĩa cứng, băng từ, đĩa quang,… Tốc độ tăng liệu lớn Từ dẫn đến kết pha trộn kỹ thuật thống kê vào công cụ quản trị liệu khơng thể phân tích đầy đủ liệu rộng lớn đƣợc Dữ liệu sau phục vụ cho mục đích đƣợc lƣu lại kho liệu theo ngày tháng khối lƣợng liệu đƣợc lƣu trữ ngày lớn Trong khối lƣợng liệu to lớn có nhiều thơng tin có ích mang tính tổng qt, thơng tin có tính quy luật tiềm ẩn mà chƣa biết Từ khối lƣợng liệu lớn cần có công cụ tự động rút thông tin kiến thức có ích Một hƣớng tiếp cận có khả giúp cơng ty khai thác thơng tin có nhiều ý nghĩa từ tập liệu lớn khai phá liệu (Data Mining) Với bùng nổ phát triển công nghệ thông tin mang lại nhiều hiệu khoa học nhƣ hoạt động thực tế, khai phá liệu lĩnh vực mang lại hiệu thiết thực cho ngƣời KPDL giúp ngƣời sử dụng thu đƣợc tri thức hữu ích từ cớ sở liệu kho liệu khổng lồ khác Đề tài đề cập đến khái niệm vấn đề KPTT KPDL, ngồi Đề tài cịn đề cập đến số phƣơng pháp khai phá liệu dạng đóng đƣợc áp dụng nhiều lĩnh vực thực tiễn Cấu trúc đồ án: Chƣơng giới thiệu tổng quan KPTT KPDL Chƣơng Tìm hiểu phƣơng pháp khai phá tập phổ biến Chƣơng Tìm hiểu phƣơng pháp khai phá tập phổ biến đóng khơng gian Chƣơng Cài đặt chƣơng trình thử nghiệm KẾT LUẬN TÀI LIỆU THAM KHẢO CHƢƠNG 1: TỔNG QUAN VỀ KPTT VÀ KPDL 1.1 Giới thiệu chung khai phá tri thức khai phá liệu - Nếu cho rằng, điện tử truyền thơng chất khoa học điện tử, liệu, thơng tin, tri thức tiêu điểm lĩnh vực để nghiên cứu ứng dụng, khai phá tri thức khai phá liệu - Thông thƣờng, coi liệu nhƣ chuỗi bits, số ký hiệu “đối tƣợng” với ý nghĩa đƣợc gửi cho chƣơng trình dƣới dạng định Các bits thƣờng đƣợc sử dụng để đo thơng tin, xem nhƣ liệu đƣợc loại bỏ phần tử thừa, lặp lại, rút gọn tới mức tối thiểu để đặc trƣng cách cho liệu Tri thức đƣợc xem nhƣ thơng tin tích hợp, bao gồm kiện mối quan hệ chúng, đƣợc nhận thức, khám phá, nghiên cứu Nói cách khác, tri thức đƣợc coi liệu mức độ cao trừu tƣợng tổng quát - Khái phá tri thức hay phát tri thức CSDL quy trình nhận biết mẫu mơ hình liệu với tính năng: Phân tích, tổng hợp, hợp thức, khả ích hiểu đƣợc - Khai phá liệu bƣớc trình khám phá tri thức, gồm thuật toán khai thác liệu chuyên dùng dƣới số qui định hiệu tính tốn chấp nhận đƣợc để tìm mẫu mơ hình liệu Nói cách khác, mục tiêu Khai phá liệu tìm kiếm mẫu mơ hình tồn CSDL nhƣng ẩn khối lƣợng lớn liệu 1.2 Quá trình khai phá tri thức Bao gồm bƣớc sau: - Làm liệu (Data Cleaning): Loại bỏ liệu nhiễu liệu khơng qn - Tích hợp liệu (Data Intergation): Dữ liệu nhiều nguồn đƣợc tổ hợp lại - Lựa chọn liệu (Data Selection): Lựa chọn liệu phù hợp với nhiệm vụ phân tích trích rút từ sở liệu - Chuyển đổi liệu (Data Transformation): Dữ liệu đƣợc chuyển đổi hay đƣợc hợp dạng thích hợp cho việc khai phá - Khai phá liệu (Data Mining): Đây tiến trình cốt yếu phƣơng pháp thơng minh đƣợc áp dụng nhằm trích rút mẫu liệu - Đánh giá mẫu (Pattern Evaluation): Dựa độ đo xác định lợi ích thực sự, độ quan trọng mẫu biểu diễn tri thức - Biểu diễn tri thức (Knowledge Presentation): Ở giai đoạn kỹ thuật biểu diễn hiển thị đƣợc sử dụng để đƣa tri thức lấy cho ngƣời dùng Hình 1.1: Quá trình KPTT 1.3 Quá trình khai thác liệu - KPDL giai đoạn quan trọng trình KPTT Về chất, giai đoạn tìm đƣợc thơng tin mới, thơng tin tiềm ẩn có CSDL chủ yếu phục vụ cho mô tả dự đốn - Mơ tả liệu tổng kết diễn tả đặc điểm chung thuộc tính liệu kho liệu mà ngƣời hiểu đƣợc - Dự đoán dựa liệu thời để dự đoán quy luật đƣợc phát từ mối liên hệ thuộc tính liệu sở chiết xuất mẫu, dự đoán đƣợc giá trị chƣa biết giá trị tƣơng lai biến quan tâm Quá trình KPDL bao gồm bƣớc đƣợc thể nhƣ Hình 1.2 sau: Hình 1.2: Q trình KPDL Xác định nhiệm vụ: Xác định xác vấn đề cần giải Xác định liệu liên quan: Dùng để xây dựng giải pháp Thu thập tiền xử lý liệu: Thu thập liệu liên quan tiền xử lý chúng cho thuật tốn KPDL hiểu đƣợc Đây q trình khó khăn, gặp phải nhiều vƣớng mắc nhƣ: liệu phải đƣợc nhiều (nếu đƣợc chiết xuất vào tệp), quản lý tập liệu, phải lặp lặp lại nhiều lần tồn q trình (nếu mơ hình liệu thay đổi), vv Thuật toán khai phá liệu: Lựa chọn thuật toán KPDL thực việc PKDL để tìm đƣợc mẫu có ý nghĩa, mẫu đƣợc biểu diễn dƣới dạng luật kết hợp, định tƣơng ứng với ý nghĩa 1.4 Các phƣơng pháp khai phá liệu Với hai mục đích khai phá liệu Mơ tả Dự đốn, ngƣời ta thƣờng sử dụng phƣơng pháp sau cho khai phá liệu: Luật kết hợp (association rules) Phân lớp (Classfication) Hồi qui (Regression) Trực quan hóa (Visualiztion) Phân cụm (Clustering) Tổng hợp (Summarization) Mơ hình ràng buộc (Dependency modeling) Biểu diễn mơ hình (Model Evaluation) Phân tích phát triển độ lệch (Evolution and deviation analyst) Phƣơng pháp tìm kiếm (Search Method) Tập phổ biến đóng(Frequent Closed Patterns) Có nhiều phƣơng pháp khai phá liệu đƣợc nghiên cứu trên, có ba phƣơng pháp đƣợc nhà nghiên cứu sử dụng nhiều là: Luật kết hợp, Phân lớp liệu Phân cụm liệu 1.5 Các lĩnh vực ứng dụng thực tiễn khai phá liệu Hình 1.3: Các lĩnh vực ứng dụng KPDL 1.6 Các hƣớng tiếp cận khai phá liệu Các hƣớng tiếp cận KPDL đƣợc phân chia theo chức hay lớp toán khác Sau số hƣớng tiếp cận Phân lớp dự đốn (classification & prediction): xếp đối tƣợng vào lớp biết trƣớc Ví dụ: phân lớp vùng địa lý theo liệu thời tiết Hƣớng tiếp cận thƣờng sử dụng số kỹ thuật machine learning nhƣ định (decision tree), mạng nơ ron nhân tạo (neural network), v.v Phân lớp cịn đƣợc gọi học có giám sát (học có thầy supervised learning) Luật kết hợp (association rules): dạng luật biểu diễn tri thứ dạng đơn giản Ví dụ: “60 % nam giới vào siêu thị mua bia có tới 80% số họ mua thêm thịt bị khơ” Luật kết hợp đƣợc ứng dụng nhiều lĩnh vực kinh doanh, y học, tin-sinh, tài & thị trƣờng chứng khoán, v.v Khai phá chuỗi theo thời gian (sequential/temporal patterns): tƣơng tự nhƣ khai phá luật kết hợp nhƣng có thêm tính thứ tự tính thời gian Hƣớng tiếp cận đƣợc ứng dụng nhiều lĩnh vực tài thị trƣờng chứng khốn có tính dự báo cao Phân cụm (clustering/segmentation): xếp đối tƣợng theo cụm (số lƣợng nhƣ tên cụm chƣa đƣợc biết trƣớc Phân cụm đƣợc gọi học khơng giám sát (học khơng có thầy – unsupervised learning) Mô tả khái niệm (concept description & summarization): thiên mơ tả, tổng hợp tóm tắt khái niệm Ví dụ: tóm tắt văn Khai phá tập phổ biến (mining frequent pattern): thiên mô tả, tổng hợp tóm tắt khái niệm Ví dụ: tóm tắt văn 1.7 Phân loại hệ khai phá liệu - KPDL công nghệ tri thức liên quan đến nhiều lĩnh vực nghiên cứu khác nhƣ CSDL, kỹ thuật máy học (machine learning), giải thuật, trực quan hóa (visualization), v.v Chúng ta phân loại hệ thống KPDL dựa tiêu chí khác - Phân loại dựa kiểu liệu đƣợc khai phá: CSDL quan hệ (relational database), kho liệu (data warehouse), CSDL giao dịch (transactional database), CSDL hƣớng đối tƣợng, CSDL không gian (spatial database), CSDL đa phƣơng tiện (multimedia database), CSDL Text WWW, v.v - Phân loại dựa dạng tri thức đƣợc khám phá: tóm tắt mô tả (summarization & description), luật kết hợp (association rules), phân lớp (classification), phân cụm (clustering), khai phá chuỗi (sequential mining), v.v - Phân loại dựa kỹ thuật đƣợc áp dụng: hƣớng CSDL (database-oriented), phân tích trực tuyến (OnLine Analytical Processing – OLAP), machine learning (cây định, mạng nơ ron nhân tạo, k-min, giải thuật di truyền, máy vectơ hỗ trợ - SVM, tập thô, tập mờ, v.v.), trực quan hóa (visualization), v.v - Phân loại dựa lĩnh vực đƣợc áp dụng: kinh doanh bán lẻ (retail), truyền thông (telecommunication), tin-sinh (bio-informatics), y học (medical treatment), tài & thị trƣờng chứng khốn (finance & stock market), Web mining, v.v 1.8 Các thách thức - khó khăn KPTT KPDL KPTT KPDL liên quan đến nhiều ngành, nhiều lĩnh vực thực tế, thách thức khó khăn ngày nhiều, lớn Sau số thách thức khó khăn cần đƣợc quan tâm: 10 - Các sở liệu lớn, tập liệu cần xử lý có kích thƣớc cực lớn, Trong thực tế, kích thƣớc tập liệu thƣờng mức tera-byte (hàng ngàn gigabyte) - Mức độ nhiễu cao liệu bị thiếu - Số chiều lớn - Thay đổi liệu tri thức làm cho mẫu phát khơng cịn phù hợp - Quan hệ trƣờng phức tạp ... hiệu xác Chính phƣơng pháp khai phá tập phổ biến đƣợc đời nhằm đáp ứng nhu cầu - Tập phổ biến tập tập mục, chuỗi con, cấu trúc nhỏ mà xuất phổ biến liệu - Khai phá tập phổ biến đƣợc nghiên cứu... phổ biến độ dài 100 cần 1030 chuỗi ứng viên Vì tất hạn chễ thuật toán Chúng tìm hiểu số thuật tốn khai phá tập phổ biến chƣơng 20 CHƢƠNG 3: TÌM HIỂU PHƢƠNG PHÁP KHAI PHÁ TẬP PHỔ BIẾN ĐÓNG TRONG. .. phƣơng pháp khai phá tập phổ biến đóng 22 3.1.4 Khung cải tiến cho khai phá tập phổ biến đóng 22 3.1.5 Thuật toán C-Miner 23 3.1.6 Thuật toán B-Miner 29 3.1.7 Khai phá

Ngày đăng: 10/12/2013, 14:25

Hình ảnh liên quan

Quá trình KPDL bao gồm các bƣớc chính đƣợc thể hiện nhƣ Hình 1.2 sau: - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

u.

á trình KPDL bao gồm các bƣớc chính đƣợc thể hiện nhƣ Hình 1.2 sau: Xem tại trang 7 của tài liệu.
Hình 1.1: Quá trình KPTT. - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

Hình 1.1.

Quá trình KPTT Xem tại trang 7 của tài liệu.
Mô hình ràng buộc (Dependency modeling) Biểu diễn mô hình (Model Evaluation)   - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

h.

ình ràng buộc (Dependency modeling) Biểu diễn mô hình (Model Evaluation) Xem tại trang 8 của tài liệu.
Hình 2.1: Ví dụ Apriori. - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

Hình 2.1.

Ví dụ Apriori Xem tại trang 16 của tài liệu.
Hình 2.2: Ma trận mục phổ biến. - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

Hình 2.2.

Ma trận mục phổ biến Xem tại trang 17 của tài liệu.
Hình 2.5: Project database. - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

Hình 2.5.

Project database Xem tại trang 18 của tài liệu.
Hình 2.4: Item-repeating. - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

Hình 2.4.

Item-repeating Xem tại trang 18 của tài liệu.
Hình 2.6: Các chuỗi mẫu. - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

Hình 2.6.

Các chuỗi mẫu Xem tại trang 19 của tài liệu.
Trong Bảng 3.1, r3 chứa c2 và c6, ký hiệu là C (r3) ={c2; c6}; và c7 đƣợc chứa r5 và r 6, ký hiệu là R (c7) ={r5; r6} - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

rong.

Bảng 3.1, r3 chứa c2 và c6, ký hiệu là C (r3) ={c2; c6}; và c7 đƣợc chứa r5 và r 6, ký hiệu là R (c7) ={r5; r6} Xem tại trang 21 của tài liệu.
Hình 3.1: Khung khai phá. - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

Hình 3.1.

Khung khai phá Xem tại trang 23 của tài liệu.
Bảng 3.2: Ma trận rút gọn O’. - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

Bảng 3.2.

Ma trận rút gọn O’ Xem tại trang 24 của tài liệu.
Bảng 3.4: Kết quả các không gian rút gọn và không gian con. - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

Bảng 3.4.

Kết quả các không gian rút gọn và không gian con Xem tại trang 26 của tài liệu.
Hình 3.2: Cây phân chia sử dụng lát cắt. - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

Hình 3.2.

Cây phân chia sử dụng lát cắt Xem tại trang 26 của tài liệu.
Hình 3.3: Sai sót và dƣ thừa. - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

Hình 3.3.

Sai sót và dƣ thừa Xem tại trang 27 của tài liệu.
Bảng 3.5: FCP(minsup = 3; minlen = 2). - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

Bảng 3.5.

FCP(minsup = 3; minlen = 2) Xem tại trang 29 của tài liệu.
Hình 3.4: Ví dụ về sai sót và dƣ thừa. - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

Hình 3.4.

Ví dụ về sai sót và dƣ thừa Xem tại trang 30 của tài liệu.
Bảng 3.6: Ví dụ bộ dữ liệu ba chiều nhị phân. - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

Bảng 3.6.

Ví dụ bộ dữ liệu ba chiều nhị phân Xem tại trang 34 của tài liệu.
3.2.3.2 Sự hình thành các FCP 2D. - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

3.2.3.2.

Sự hình thành các FCP 2D Xem tại trang 37 của tài liệu.
Hình 3.5: CubeMiner. - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

Hình 3.5.

CubeMiner Xem tại trang 39 của tài liệu.
Bảng 3.8: Z (tập lát cắt). - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

Bảng 3.8.

Z (tập lát cắt) Xem tại trang 40 của tài liệu.
Hình 3.6: Cây khai phá FCC. - Tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian

Hình 3.6.

Cây khai phá FCC Xem tại trang 41 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan