Luận án tốt nghiệp phát hiện tri thức trong tập dữ liệu lớn

99 423 1
Luận án tốt nghiệp   phát hiện tri thức trong tập dữ liệu lớn

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

- 1- Phát hiện tri thức trong tập dữ liệu lớn MỤC LỤC MỤC LỤC 1 LỜI CẢM ƠN 5 CÁC KÝ HIỆU VÀ CÁC TỪ VIẾT TẮT 7 DANH MỤC CÁC HÌNH MINH HỌA 8 DANH MỤC CÁC BẢNG 9 PHẦN I. PHẦN MỞ ĐẦU 10 1. TÊN ĐỀ TÀI 10 2. LÝ DO CHỌN ĐỀ TÀI 10 3. MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU 11 4. CƠ SỞ LÝ THUYẾT 11 5. GIẢ THIẾT KHOA HỌC 12 6. PHẠM VI ỨNG DỤNG 12 7. PHƯƠNG PHÁP TIẾP CẬN 12 8. CẤU TRÚC ĐỀ TÀI 12 PHẦN II. NỘI DUNG 14 CHƯƠNG I. TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 14 1.1. Khám phá tri thức và khai phá dữ liệu 14 1.2. Quá trình khám phá tri thức từ cơ sở dữ liệu 15 1.2.1. Xác ñịnh vấn ñề 17 - 2- Phát hiện tri thức trong tập dữ liệu lớn 1.2.2. Thu thập và tiền xử lý dữ liệu 17 1.2.3. Khai thác dữ liệu 20 1.2.4. Minh họa và ñánh giá 20 1.2.5. Đưa kết quả vào thực tế 20 1.3. Sự hạn chế của các công cụ SQL 21 1.4. Khai phá dữ liệu 22 1.4.1. Định nghĩa khai phá dữ liệu 22 1.4.2. Nhiệm vụ KPDL là gì? 23 1.4.3. Triển khai việc KPDL như thế nào? 25 1.4.4. Một số ứng dụng KPDL 27 1.4.5. Các kỹ thuật khai phá dữ liệu 29 1.4.6. Kiến trúc của hệ thống khai phá dữ liệu 32 1.4.7. Quá trình khai phá dữ liệu 34 1.4.8. Những khó khăn trong khai phá dữ liệu 36 CHƯƠNG II. LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU - MỘT SỐ THUẬT TOÁN PHÁT HIỆN LUẬT KẾT HỢP 39 2.1. Bài toán kinh ñiển dẫn ñến việc KPLKH 39 2.2. Định nghĩa luật kết hợp 40 Định nghĩa: 40 Định nghĩa: Độ hỗ trợ 40 Định nghĩa: Độ tin cậy 41 Định nghĩa: Tập thường xuyên 43 Thuật toán 1. (Thuật toán cơ bản): 45 - 3- Phát hiện tri thức trong tập dữ liệu lớn Thuật toán 2. (Phát hiện luật kết hợp khi ñã biết các tập thường xuyên): 49 2.3. Một số hướng tiếp cận trong khai phá luật kết hợp 49 2.4. Một số thuật toán phát hiện luật kết hợp 51 2.4.1. Thuật toán AIS 51 2.4.2. Thuật toán SETM 53 2.4.3. Thuật toán Apriori 54 2.4.4. Thuật toán AprioriTID 65 2.4.5. Thuật toán Apriori-Hybrid 71 2.4.6. Thuật toán FP_growth 72 2.4.7. Thuật toán PARTITION [Savasere 95] 84 Kết luận về Thuật toán Apriori 86 CHƯƠNG III. KHAI THÁC LUẬT KẾT HỢP TRONG BÀI TOÁN QUẢN LÝ THIẾT BỊ TRƯỜNG ĐHCN – HÀ NỘI 86 3.1. Phát biểu bài toán 86 3.3. Rời rạc các thuộc tính gốc ñể tạo thành các thuộc tính nhị phân 91 3.4. Cơ sở dữ liệu dạng nhị phân 92 3.5 Các bước thực hiện chương trình 95 PHẦN III. KẾT LUẬN 96 1. KẾT LUẬN VÀ ĐÁNH GIÁ KẾT QUẢ 96 2. HƯỚNG PHÁT TRIỂN CỦA LUẬN VĂN 98 - 4- Phát hiện tri thức trong tập dữ liệu lớn TÀI LIỆU THAM KHẢO 99 - 5- Phát hiện tri thức trong tập dữ liệu lớn LỜI CẢM ƠN ời ñầu tiên em xin chân thành cảm ơn thầy giáo PGS.TSKH- Nguyễn Xuân Huy ñã cho em nhiều ý kiến ñóng góp quý báu, tận tình hướng dẫn và giúp ñỡ em về mặt kiến thức cũng như tài liệu ñể em có thể hoàn thành ñề tài này. Em xin gửi lời cảm ơn ñến Ban Giám hiệu, các phòng ban, Khoa sau Đại học Trường Đại học Công nghệ thông tin ñã tạo ñiều kiện cho em trong suốt khoá học. Em cũng xin bày tỏ lòng biết ơn sâu sắc ñến các thầy giáo, cô giáo Trường Đại học Công nghệ thông tin – ĐHQG.TPHCM , các thầy, cô giáo ñã tham gia giảng dạy, hướng dẫn, chỉ bảo cho em trong suốt hai năm học qua. Và tôi xin gửi lời cảm ơn ñến bạn bè, gia ñình và các ñồng nghiệp ñã có những ñộng viên, khuyến khích và và hỗ trợ cần thiết ñể tôi hoàn thành luận văn này. Hà nội, ngày 15 tháng 7 năm 2009 l - 6- Phát hiện tri thức trong tập dữ liệu lớn Nguyễn Đức Lưu - 7- Phát hiện tri thức trong tập dữ liệu lớn CÁC KÝ HIỆU VÀ CÁC TỪ VIẾT TẮT CSDL Cơ sở dữ liệu DM Data Mining KDD Knowledge Discovery in Databases KPDL Khai phá dữ liệu KPLKH Khai phá luật kết hợp SQL Structured Query Language TID Transaction Identification - 8- Phát hiện tri thức trong tập dữ liệu lớn DANH MỤC CÁC HÌNH MINH HỌA Danh mục Nội dung Trang Hình 1.1 Quá trình khám phá tri thức từ cơ sở dữ liệu 13 Hình 1.2 Kiến trúc hệ thống khai phá dữ liệu 26 Hình 1.3 Quá trình khai phá dữ liệu 28 Hình 2.1 Dùng thuật toán Apriori tính ra các tập xuất hiện σ-thường xuyên. 47 Hình 2.2 Dùng thuật toán Apriori tính ra các tập xuất hiện σ-thường xuyên. 58 Hình 2.3 Cơ sở dữ liệu D và các giá trị của Ck, k C , Lk ứng với k=1,2,3 55 Hình 2.4 Cải tiến cách tính ñộ hỗ trợ ñỡ cho các tập ứng viên 56 Hình 2.5 Một cây mẫu thường xuyên 60 Hình 2.6 Quá trình xây dựng FP_Tree 62 Hình 2.7 Cây FP Tree của cơ sở dữ liệu trong bảng 2 62 Hình 2.8 Các FP_Tree phụ thuộc 66 - 9- Phát hiện tri thức trong tập dữ liệu lớn DANH MỤC CÁC BẢNG Danh mục Nội dung Trang Bảng 2.1 Giao dịch mua hàng 36 Bảng 2.2 Tính ñộ hỗ trợ cho các mặt hàng 37 Bảng 2.3 Các luật kết hợp và ñộ tin cậy của chúng 38 Bảng 2.4 Các giao tác cơ sở dữ liệu 59 Bảng 3.1 Bảng danh mục các phòng cần quản lý thiết bị 71 Bảng 3.2 Bảng thống kê chi tiết các thiết bị trong phòng 72 Bảng 3.3 Bảng ñăng ký tên các thuộc tính rời rạc 73 Bảng 3.4 Bảng dữ liệu nhị phân 74 - 10- Phát hiện tri thức trong tập dữ liệu lớn PHẦN I. PHẦN MỞ ĐẦU 1. TÊN ĐỀ TÀI Phát hiện tri thức trong tập dữ liệu lớn 2. LÝ DO CHỌN ĐỀ TÀI Trong những năm gần ñây, vai trò của máy tính trong việc lưu trữ và xử lý thông tin ngày càng trở nên quan trọng. Bên cạnh ñó, các thiết bị thu thập dữ liệu tự ñộng tương ñối phát triển ñã tạo ra những kho dữ liệu lớn, như các dữ liệu ngân hàng, dữ liệu bán hàng , y tế, marketing, viễn thông, internet … Theo như ñánh giá cho thấy cứ sau 20 tháng, lượng thông tin trên thế giới lại tăng gấp ñôi. Cùng với sự phát triển mạnh mẽ của công nghệ, các thiết bị lưu trữ và các thiết bị thu thập thông tin tự ñộng ñã làm cho dữ liệu tăng nhanh không ngừng và cho phép xây dựng ñược những hệ thống thông tin có khả năng tự ñộng hoá ngày càng cao. Vấn ñề ñặt ra là làm thế nào ñể xử lý khối lượng thông tin lớn như vậy ñể phát hiện ra các tri thức tiềm ẩn. Những tri thức thu ñược sẽ ñược chuyên môn hoá, phân chia theo các lĩnh vực ứng dụng như sản xuất, kinh doanh, tài chính, nghiên cứu… Các cơ sở dữ liệu cần phải ñem lại tri thức hơn là chính dữ liệu ñó. Để thực hiện ñược yêu ñó, các mô hình cơ sở dữ liệu truyền thống và ngôn ngữ thao tác dữ liệu không còn thích hợp nữa. Bởi vậy có ñược tri thức từ cơ sở dữ liệu, người ta ñã phát triển các lý thuyết và kỹ thuật mới mà một trong số ñó là phát hiện tri thức trong cơ sở dữ liệu (KDD - Knowledge Discovery in Databases). Nhiệm vụ của KDD là từ dữ liệu có sẵn có phải tìm [...]... t toán Xây d ng chương trình th hi n và ñánh giá các k t qu lý thuy t 4 CƠ S LÝ THUY T Các khái ni m và k thu t cơ b n v Data mining, khái ni m tri th c, d li u, quá trình phát hi n tri th c, nhi m v và các k thu t phát hi n tri th c Cơ s toán h c c a các thu t toán khai phá tri th c Phát hi n tri th c trong t p d li u l n - 12- Các ki u c u trúc d li u dùng trong khai thác d li u, trong bài toán qu... ñi n hình trong d li u - Đánh giá m u (Pattern evaluation ): Đánh giá m u ho c tri th c ñã thu ñư c Phát hi n tri th c trong t p d li u l n - 16- - Trình di n d li u (Knowledge Presentation ): Bi u di n nh ng tri th c khai phá ñư c cho ngư i s d ng Như trên ñã trình bày quá trình phát hi n tri th c v nguyên lý, tr i qua các giai ño n khác nhau mà khai phá d li u ch là giai ño n phát hi n tri th c c... c c a lĩnh v c phát hi n tri th c và là phương pháp lu n trong vi c xây d ng các h th ng phát hi n tri th c 5 Đưa k t qu vào th c t 4.Minh ho và ñánh giá tri th c ñư c phát 3 Khai thác d hi n – li u trích ra các m u/mô hình 2 Thu nh p và ti n x lý d li u 1 Hi u và xác ñ nh v nñ Hình 1.1 Quá trình khám phá tri th c t cơ s d li u Sau ñây s trình bày các giai ño n này Phát hi n tri th c trong t p d li... b n trong vi c tìm và khai thác lu t k t h p, nó là xương s ng ñ các thu t toán d a vào ñó phát tri n và có nh ng ñánh giá so sánh gi a các thu t toán Chương hai cũng trình bày v ñ ph c t p c a thu t toán, d a vào ñây ta có th hình dung và tính tương ñ i kho ng th i gian khi th c hi n khai thác lu t k t h p Các thu t toán khai thác lu t k t h p, thu t toán n i ti ng là Apriori và h các thu t toán Apriori,... qu thu ñư c (xem có gì m i và thú v không?) Bư c 5: V n d ng các tri th c thu lư m ñư c trong vi c ho ch ñ nh s n xu t kinh doanh Phát hi n tri th c trong t p d li u l n - 26- S d ng các tri th c ñư c phát hi n Gi i thích k t qu và ñánh giá m u Khai phá d li u Thu nh n và ti n x lý d li u Tìm hi u lĩnh v c ng d ng Phát hi n tri th c trong t p d li u l n - 27- M t tác gi khác cũng nói t i quy trình... tài Phát hi n tri th c trong t p d li u l n”, là có tính thi t th c 3 M C TIÊU VÀ NHI M V NGHIÊN C U Nh m ñi sâu tìm hi u v v n ñ khai thác d li u phát hi n ra các tri th c V n d ng k thu t khai thác d li u nh m tìm ra nh ng thông tin, ho t ñ ng x y ra ñ ng th i và áp d ng chúng vào bài toán qu n lý thi t b Phân tích nh ng ưu như c ñi m m t s thu t toán trong khai thác d li u, ñánh giá, so sánh gi... thác d li u, trong ñó ñ c p ñ n khái ni m tri th c, d li u, quá trình phát hi n tri th c, nhi m v và các k thu t phát hi n tri th c Chương II: S tìm hi u, nghiên c u v khai thác lu t k t h p, nêu ra nh ng khái ni m, ñ nh nghĩa, tính ch t c a t p m c và lu t k t h p, cách xác ñ nh ñ h tr c a t p m c và lu t, ñ tin c y c a lu t Phát hi n tri th c trong t p d li u l n - 13- Đưa ra mô hình bài toán khai thác... Apriori, thu t toán tìm lu t k t h p không phát sinh ng viên d a vào c u trúc cây FP Tree, các thu t toán ph thông tìm lu t k t h p Chương III: Cài ñ t chương trình tìm lu t k t h p, ng d ng trong qu n lý trang thi t b c a trư ng Đ i h c Công nghi p Hà N i Phát hi n tri th c trong t p d li u l n - 14- PH N II N I DUNG CHƯƠNG I T NG QUAN V KHÁM PHÁ TRI TH C VÀ KHAI PHÁ D LI U 1.1 Khám phá tri th c và khai... ho c các nơi lưu tr khác Bư c này có th tương tác l n nhau gi a ngư i s d ng ho c cơ s tri th c, nh ng m u ñáng quan tâm ñươc ñưa cho ngư i dùng ho c lưu tr như là tri th c m i trong cơ s tri th c Giao di n ngư i dùng Đánh giá m u Phát hi n tri th c trong t p d li u l n Mô t khai phá d li u Cơ s tri - 33- Hình1.2 Ki n trúc h th ng khai phá d li u Ki n trúc c a h th ng khai phá d li u (hình 1.2) có các... m m i Đ m i có th ñư c ñ i sánh tương ng v i ñ thay ñ i trong d li u, ho c b ng tri th c Thư ng thì ñ ño m i c a m u ñư c ñánh giá b ng m t hàm logic ho c hàm ñ ño m i Ngoài ra m u còn có kh năng s d ng ti m n V i thu t toán và nhi m v khai phá d li u khác nhau thì d ng m u chi t xu t ñư c cũng r t ña d ng Phát hi n tri th c trong t p d li u l n - 36- 1.4.8 Nh ng khó khăn trong khai phá d li u Vi c . niệm tri thức, dữ liệu, quá trình phát hiện tri thức, nhiệm vụ và các kỹ thuật phát hiện tri thức.  Cơ sở toán học của các thuật toán khai phá tri thức. - 12- Phát hiện tri thức trong tập. Bảng dữ liệu nhị phân 74 - 10- Phát hiện tri thức trong tập dữ liệu lớn PHẦN I. PHẦN MỞ ĐẦU 1. TÊN ĐỀ TÀI Phát hiện tri thức trong tập dữ liệu lớn 2. LÝ DO CHỌN ĐỀ TÀI Trong. KẾT LUẬN 96 1. KẾT LUẬN VÀ ĐÁNH GIÁ KẾT QUẢ 96 2. HƯỚNG PHÁT TRI N CỦA LUẬN VĂN 98 - 4- Phát hiện tri thức trong tập dữ liệu lớn TÀI LIỆU THAM KHẢO 99 - 5- Phát hiện tri thức

Ngày đăng: 28/11/2014, 17:19

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan