Ứng dụng lý thuyết giàn giao trong khai thác dữ liệu

77 410 1
Ứng dụng lý thuyết giàn giao trong khai thác dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM PHẠM VĂN KHANH ỨNG DỤNG LÝ THUYẾT GIÀN GIAO TRONG KHAI THÁC DỮ LIỆU LUẬN VĂN THẠC SỸ Chuyên ngành: Công nghệ Thông tin Mã số ngành: 60480201 TP. HỒ CHÍ MINH, tháng 09 năm 2014 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM PHẠM VĂN KHANH ỨNG DỤNG LÝ THUYẾT GIÀN GIAO TRONG KHAI THÁC DỮ LIỆU LUẬN VĂN THẠC SỸ Chuyên ngành: Công nghệ Thông tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS TSKH NGUYỄN XUÂN HUY TP. HỒ CHÍ MINH, tháng 09 năm 2014 i LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. Học viên thực hiện Luận văn Phạm Văn Khanh ii LỜI CẢM ƠN Trong suốt quá trình học tập và hoàn thành luận văn này, tôi đã nhận được sự hướng dẫn, giúp đỡ quý báu của quý thầy cô, gia đình, bạn bè và đồng nghiệp. Với lòng kính trọng và biết ơn sâu sắc tôi xin được bày tỏ lời cảm ơn chân thành tới: Khoa Công Nghệ Thông Tin, Phòng quản lý khoa học - Đào tạo sau đại học trường Đại Học Công Nghệ Thành Phố Hồ Chí Minh đã tạo mọi điều kiện thuận lợi giúp đỡ tôi trong quá trình học tập và hoàn thành luận văn này. Thầy hướng dẫn Phó giáo sư - Tiến sĩ Khoa học Nguyễn Xuân Huy, thầy đã truyền đạt những kiến thức rất bổ ích cho tôi trong quá trình học tập, đã hết lòng tạo điều kiện cũng như giúp đỡ tôi trong quá trình hoàn thành luận văn này. Phó giáo sư - Tiến sĩ Lê Hoài Bắc, thầy đã truyền đạt những kiến thức rất bổ ích cho tôi trong quá trình học tập, thầy đã hết lòng giúp đỡ và cung cấp cho tôi những tài liệu nghiên cứu cần thiết liên quan đến luận văn này. Thầy Cao Tùng Anh, thầy đã hết lòng giúp đỡ, chỉ bảo, động viên và tạo mọi điều kiện thuận lợi cho tôi trong suốt quá trình học tập và hoàn thành luận văn này. Toàn thể quý thầy cô đã nhiệt tình giảng dạy và truyền đạt những kiến thức bổ ích cho tôi trong suốt khóa học vừa qua. Cuối cùng xin cảm ơn đến tất cả những người thân trong gia đình, bạn bè và đồng nghiệp đã giúp đỡ tôi trong suối quá trình học tập và thực hiện luận văn này. Phạm Văn Khanh iii MỤC LỤC  MỞ ĐẦU 1 Chương 1. TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI THÁC DỮ LIỆU 4 1.1. Khám phá tri thức và khai thác dữ liệu 4 1.2. Quá trình khám phá tri thức 6 1.3. Quá trình khai thác dữ liệu 8 1.4. Các phương pháp khai thác dữ liệu 9 1.5. Các lĩnh vực ứng dụng thực tiễn của khai thác dữ liệu 10 1.6. Các phương pháp, và kỹ thuật áp dụng trong khai thác dữ liệu 11 1.7. Các thách thức – khó khăn trong khám phá tri thức và khai thác dữ liệu 13 1.8. Khai thác tập phổ biến, luật kết hợp và tương quan 15 1.8.1. Bài toán kinh điển dẫn đến việc khai thác luật kết hợp 15 1.8.2. Tập phổ biến và luật kết hợp 18 1.8.3. Các phương pháp khai thác tập phổ biến 19 1.9. Khai thác dữ liệu bảo đảm tính riêng tư 26 1.9.1. Bài toán khai thác dữ liệu bảo đảm tính riêng tư 26 1.9.2. Phân loại các phương pháp PPDM 27 1.9.3. Các phương pháp giấu dữ liệu nhạy cảm 30 1.9.3.1. Làm xáo trộn (Perturbation) 30 1.9.3.2 Ngăn chặn (Blocking) 30 1.9.3.3 Gom hoặc trộn (Aggregation / Merging) 30 1.9.3.4. Đổi chỗ (Swapping) 30 1.9.3.5. Lấy mẫu 32 Chương 2. ÁNH XẠ ĐÓNG VÀ GIÀN GIAO ÁNH XẠ ĐÓNG 37 2.1. Ánh xạ đóng 37 2.1.1. Các khái niệm và tính chất ánh xạ đóng 37 iv 2.1.2. Phép hạn chế của ánh xạ đóng 39 2.2. Các phép toán hội và hợp thành trên ánh xạ đóng 39 2.2.1. Phép toán hội 40 2.2.2. Phép hợp thành các ánh xạ đóng 40 2.3. Giàn giao ánh xạ đóng 45 2.3.1. Điểm bất động 45 2.3.2. Giàn giao ánh xạ đóng 45 Chương 3. ẨN CÁC TẬP MỤC NHẠY CẢM 49 3.1. Giàn giao AXĐ và bài toán ẩn tập mục nhạy cảm 49 3.2. Phát biểu bài toán 50 3.3. Giàn giao 52 3.4. Các tính chất của tập mục thường xuyên 53 3.5. Thuật toán ẩn tập mục nhạy cảm 56 3.6. Ví dụ minh họa cho thuật toán 57 Chương 4. CHƯƠNG TRÌNH THỰC NGHIỆM 61 4.1. Giới thiệu 61 4.2. Các chức năng chính của chương trình 62 KẾT LUẬT 66 TÀI LIỆU THAM KHẢO 68 v DANH MỤC CÁC KÝ HIỆU, CHỮ CÁI VIẾT TẮT  KPDL Khai thác dữ liệu KPTT Khám phá tri thức PPDM (Privacy Preserving Data Mining) Khai thác dữ liệu đảm bảo tính riêng tư AXĐ Ánh xạ đóng CSDL Cơ sở dữ liệu LĐQH Lược đồ quan hệ PTH Phụ thuộc hàm  Thuộc  Không thuộc  Là tập con  Chứa tập con \ Phép trừ tập hợp  Phép giao tập hợp  Phép hợp tập hợp  Tương đương  Khác  Với mọi LS(f) Tập các vế trái của luật sinh f RS(f) Tập các vế phải của luật sinh f  Tập rỗng vi DANH MỤC CÁC BẢNG  Bảng 1.1. Dấu dữ liệu bằng phương pháp đổi chỗ 36 Bảng 3.1. Bảng trị T và các tập mục thường xuyên theo ngưỡng 4 56 Bảng 3.2. Các tập mục thường xuyên theo ngưỡng 4 62 Bảng 3.3. Sửa giá trị của E trong các bộ chứa ADE 64 Bảng 3.4. Sửa giá trị của E trong các bộ chứa ABE 65 vii DANH MỤC CÁC HÌNH MINH HOẠ  Hình 1.1. Quá trình khám phá tri thức 12 Hình 1.2. Quá trình khai thác dữ liệu 14 Hình 2.1. Ví dụ thuật toán Apriori 29 Hình 2.2. Ví dụ thuật toán Apriori 30 Hình 3.1. Đồ thị của giàn các tập mục thường xuyên P 58 Hình 3.2. Giàn giao đầy đủ của Poset(ABE) 59 Hình 4.1 Giao diện chính chương trình 63 Hình 4.2 Giao diện chương trình khi tính độ hỗ trợ của tất cả các tập mục 64 Hình 4.3 Giao diện chương trình khi tìm tất cả tập mục thường xuyên 65 Hình 4.4 Giao diện chương trình hiển thị các tập mục thường xuyên mới 66 1 MỞ ĐẦU Ngày nay, dữ liệu chứa thông tin của người dùng được lưu trữ lại thông qua rất nhiều hoạt động hằng ngày như giao dịch, mua hàng, khám bệnh, tìm kiếm thông tin, truy cập web,… Các dữ liệu này đóng vai trò ngày càng quan trọng trong sự phát triển của xã hội như làm đầu vào cho quá trình phân tích tìm ra các thông tin hữu ích cho các hệ hỗ trợ ra quyết định, phát hiện dịch bệnh hay hoạch định kế hoạch kinh doanh,… Tuy nhiên, các thông tin hữu ích chỉ có thể được rút trích từ tập dữ liệu rất lớn trong quá trình thu thập dữ liệu lớn từ đầu rất khó khăn. Chính vì vậy, chia sẻ dữ liệu đóng vai trò rất quan trọng trong quá trình phát triển xã hội. Tuy nhiên, chia sẽ dữ liệu có thể vô tình làm tiết lộ thông tin nhạy cảm của người dùng gây nguy hại cho các cá nhân, tổ chức trong xã hội. Một vấn đề thường gặp là khi cung cấp dữ liệu cho các trung tâm khai thác tri thức, một số cơ sở, cá nhân không muốn công bố các luật vi phạm đến tính riêng tư của cá nhân hoặc doanh nghiệp. Thí dụ, nếu X là tập mục về thương hiệu xe máy Honda, Y là tập mục về số vụ tai nạn xe máy thì việc công bố tương quan giữa X và Y sẽ mang đến sự bất lợi cho việc kinh doanh xe máy Honda. Các tập mục X và Y như trên được gọi là các tập mục nhạy cảm. Một lẽ đương nhiên là cơ sở cung cấp dữ liệu sẽ phải loại bỏ hai tập mục nhạy cảm X và Y khỏi danh mục cần cung cấp. Tuy nhiên, việc làm này đôi khi lại vi phạm luật về cung cấp thông tin. Giải pháp thứ hai thường được các cơ sở lách luật chọn là vẫn công bố đầy đủ các tập mục nhưng tìm cách sửa tần suất xuất hiện của các tập mục nhạy cảm xuống dưới ngưỡng thường xuyên . Khi đó các tập mục nhạy cảm sẽ trở thành các tập mục không thường xuyên và do đó chúng không thể trở thành các thành phần trong bất kỳ luật nào. Giải pháp thứ hai này được gọi là ẩn các tập mục nhạy cảm (và thường xuyên). Vậy, hướng nghiên cứu của luận văn là cần thiết cho trường hợp cần bảo vệ bí mật và tính riêng tư của các tình huống hợp pháp, đồng thời có thể phát hiện giả mạo, lách luật trong các tình huống cần ngăn chặn. [...]... rất có lợi trong các hệ hỗ trợ ra quyết định Tìm kiếm được những luật kết hợp đặc trưng và mang nhiều thông tin từ CSDL tác nghiệp là một trong những hướng tiếp cận chính của lĩnh vực khai thác dữ liệu 1.9 Khai thác dữ liệu bảo đảm tính riêng tư 1.9.1 Bài toán khai thác dữ liệu bảo đảm tính riêng tư Khai thác dữ liệu là phát hiện tri thức từ cơ sở dữ liệu Nói chung, dữ liệu dùng để khai thác liên quan... ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai thác dữ liệu khác b Phân lớp dữ liệu: Mục tiêu của phương pháp phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu Quá trình phân lớp dữ liệu thường gồm hai bước: Xây dựng mô hình và sử dụng mô hình để phân lớp dữ liệu - Bước 1: Một mô hình sẽ được xây dựng dựa trên việc phân tích các mẫu dữ liệu sẵn có... số phép đo Sau đó sử dụng các kỹ thuật trình diễn và trực quan hóa dữ liệu để biểu diễn tri thức khai thác được cho người sử dụng Trên đây là 6 giai đoạn của quá trình khám phá tri thức, trong đó giai đoạn 5khai thác dữ liệu (hay còn gọi đó là Data Mining) là giai đoạn được quan tâm nhiều nhất 1.3 Quá trình khai thác dữ liệu Khai thác dữ liệu (KPDL) là một giai đoạn quan trọng trong quá trình khám... mô hình dữ liệu thay đổi), v.v… Thuật toán khai thác dữ liệu: Lựa chọn thuật toán KPDL và thực hiện việc KPDL để tìm được các mẫu có ý nghĩa, các mẫu này được biểu diễn dưới dạng luật kết hợp, cây quyết định… tương ứng với ý nghĩa của nó 1.4 Các phương pháp khai thác dữ liệu Với hai mục đích khai thác dữ liệu là Mô tả và Dự đoán, người ta thường sử dụng các phương pháp sau cho khai thác dữ liệu: -... mềm khai thác dữ liệu là một công cụ phân tích dùng để phân tích dữ liệu Nó cho phép người sử dụng phân tích dữ liệu theo nhiều góc nhìn khác nhau, phân loại dữ liệu theo những quan điểm riêng biệt và tổng kết các mối quan hệ đã được bóc tách Xét về khía cạnh kỹ thuật, khai thác dữ liệu là một quá trình tìm kiếm các mối tương quan giữa các mẫu ẩn chứa trong hàng chục trường dữ liệu của một cơ sở dữ liệu. .. KHÁM PHÁ TRI THỨC VÀ KHAI THÁC DỮ LIỆU 1.1 Khám phá tri thức và khai thác dữ liệu Trong thời đại công nghệ thông tin như hiện nay, các công nghệ lưu trữ dữ liệu ngày càng phát triển tạo điều kiện cho các đơn vị thu thập dữ liệu ngày một thuận tiện Với hàng triệu cơ sở dữ liệu đã được lưu trữ và sử dụng trong các hoạt động sản xuất, kinh doanh, quản lí , trong số đó có nhiều cơ sở dữ liệu rất lớn cỡ Gigabyte,... Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web 2 Trích lọc dữ liệu: Ở giai đọan này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó phục vụ mục đích khai thác, ví dụ chọn tất cả những em học sinh có điểm Trung bình học kỳ lớn hơn 8.0 và có giới tính nữ 3 Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu: Giai đoạn... nói chung và khai thác dữ liệu nói riêng Các phương pháp, lĩnh vực, các hướng tiếp cận trong khai thác dữ liệu Giới thiệu các khái niệm về mẫu phổ biến, luật kết hợp và các mối tương quan, các phương pháp khai thác tập phổ biến Chương 2: Sử dụng giàn giao trong ẩn các tập mục nhạy cảm Chương này trình bày một số khái niệm và tính chất cơ bản của ánh xạ đóng, vai trò của AXĐ trong việc ứng dụng giải quyết... trọng vì dữ liệu này nếu không được “làm sạch – tiền xử lý – chuẩn bị trước” thì sẽ gây nên những kết quả sai lệch nghiêm trọng 4 Chuyển đổi dữ liệu: Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó, tức là dữ liệu sẽ được chuyển đổi về dạng phù hợp cho việc khai thác bằng cách thực hiện các thao tác nhóm hoặc tập hợp 5 Khai thác dữ liệu: ... thác dữ liệu" thì có 40% số người đó mua thêm quyển "Hệ quản trị cơ sở dữ liệu" , và 25% mua thêm quyển "Kho dữ liệu" Trong ví dụ trên, tìm được hai luật kết hợp: - Có 40% số người mua quyển "Các khái niệm và kỹ thuật khai thác dữ liệu" thì đồng thời mua quyển "Hệ quản trị cơ sở dữ liệu" - Có 25% số người mua quyển "Các khái niệm và kỹ thuật khai thác dữ liệu" thì đồng thời mua quyển "Kho dữ liệu" Với . khai thác dữ liệu. Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web. 2. Trích lọc dữ liệu: Ở giai đọan này dữ liệu được. đóng, vai trò của AXĐ trong việc ứng dụng giải quyết các bài toán về khai thác dữ liệu. Trình bày về lý thuyết giàn giao và ứng dụng lý thuyết giàn giao trong thuật toán ẩn các tập mục nhạy. VÀ KHAI THÁC DỮ LIỆU 4 1.1. Khám phá tri thức và khai thác dữ liệu 4 1.2. Quá trình khám phá tri thức 6 1.3. Quá trình khai thác dữ liệu 8 1.4. Các phương pháp khai thác dữ

Ngày đăng: 30/07/2015, 16:21

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan