Khai phá dữ liệu bằng cây quyết định

32 296 0
Khai phá dữ liệu bằng cây quyết định

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN LỜI CẢM ƠN Trước tiên em xin gửi lời cảm ơn chân thành tới thầy giáo OBO OK S CO M khoa Cơng nghệ thơng tin - Trường đại học sư phạm Hà Nội tần tình giúp đỡ giảng dạy cho chúng em năm học vừa qua Đặc biệt, em xin gửi lời cảm ơn chân thành tới giáo - T.S Hồ Cẩm Hà thầy giáo tổ mơn Hệ thống thơng tin tận tình hướng dẫn, giúp đỡ em hồn thành đề tài nghiên cứu khoa học Trong thời gian vừa qua em cố gắng nhiều để hồn thành tốt đề tài nghiên cứu khoa học Song chắn kết nghiên cứu khơng tránh khỏi thiếu sót, em kính mong nhận bảo góp ý q thầy bạn Em xin chân thành cám ơn! Ký tên Hạnh KIL Nguyễn Thị Hạnh http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Sinh viên nghiên cứu khoa học Trường đại học sư phạm Hà Nội MỤC LỤC KIL OBO OKS CO M LỜI MỞ ĐẦU Chương 1: Tổng quan khai phá liệu 1.1 Khám phá tri thức khai phá liệu gì? 1.2 Q trình phát tri thức 1.2.1 Hình thành định nghĩa tốn 1.2.2 Thu thập tiền xử lý liệu 1.2.3 Khai phá liệu rút tri thức 1.2.4 Phân tích kiểm định kết 1.2.5 Sử dụng tri thức phát 1.3 Q trình khai phá liệu 1.3.1 Gom liệu (gatherin) 1.3.2 Trích lọc liệu (selection) 1.3.3 Làm tiền xử lý liệu (cleansing preprocessing) 1.3.4 Chuyển đổi liệu (transformation) 81.3.5 Phát trích mẫu liệu ( pattern extraction and discovery) 1.3.6 Đánh giá kết mẫu (evaluation of result ) 1.4 Chức khai phá liệu 1.5 Các kỹ thuật khai phá liệu 1.5.1 Phân lớp liệu: 1.5.2 Phân cụm liệu: 1.5.3 Khai phá luật kết hợp: 10 1.5.4 Hồi quy: 10 1.5.5 Giải thuật di truyền: 10 1.5.6 Mạng nơron: 10 1.5.7 Cây định 11 1.6 Các dạng liệu khai phá 11 1.7 Các lĩnh vực liên quan đến khai phá liệu ứng dụng khai phá liệu 11 1.7.1 Các lĩnh vực liên quan đến phát tri thức khai phá liệu 11 1.7.2 Ứng dụng khai phá liệu 11 1.8 Các thách thức hướng phát triển phát tri thức khai phá liệu 12 Chương 2: Khai phá liệu định 13 2.1 Cây định 13 2.1.1 Định nghĩa định 13 2.1.2 Ưu điểm định 14 2.1.3 Vấn đề xây dựng định 14 Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Sinh viên nghiên cứu khoa học Trường đại học sư phạm Hà Nội 2.1.4 Rút luật từ định 15 2.2 Các thuật tốn khai phá liệu định 15 2.2.1 Thuật tốn CLS 15 Thuật tốn ID3 16 2.2.3 Thuật tốn C4.5 18 2.2.4 Thuật tốn SLIQ[5] 22 2.2.5 Cắt tỉa định 25 2.2.6 Đánh giá kết luận thuật tốn xây dựng định 27 KIL OBO OKS CO M 2.2.2 Chương 3: Xây dựng chương trình dêmo 29 3.1 Mơ tả tốn 29 3.2 Thu thập tiền xử lý liệu 29 3.3 Chương trình 30 Chương KẾT LUẬN 30 4.1 Đánh Giá 30 4.1.1 Lý thuyết 30 4.1.2 Ứng dụng 30 4.2 Hướng Phát Triển 30 LỜI MỞ ĐẦU Trong nhiều năm qua, với phát triển cơng nghệ thơng tin ứng dụng cơng nghệ thơng tin nhiều lĩnh vực đời sống xã hội, lượng liệu quan thu thập lưu trữ ngày nhiều lên Người ta lưu trữ Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT http://kilobooks.com Trường đại học sư phạm Hà Nội THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Sinh viên nghiên cứu khoa học liệu cho ẩn chứa giá trị định Tuy nhiên theo thống kê có lượng nhỏ liệu (khoảng từ 5% đến 10%) ln phân tích, số lại họ khơng biết phải làm làm KIL OBO OKS CO M với liệu này, họ tiếp tục thu thập lưu trữ hy vọng liệu cung cấp cho họ thơng tin q giá cách nhanh chóng để đưa định kịp thời vào lúc Chính vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày khơng đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) Kỹ thuật phát tri thức khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác giới, Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu bắt đầu đưa vào số ứng dụng thực tế Vì vậy, nước ta vấn đề phát tri thức khai phá liệu thu hút quan tâm nhiều người nhiều cơng ty phát triển ứng dụng cơng nghệ thơng tin Trong phạm vi đề tài nghiên cứu khoa học em, em trình bày nội dung sau: Chương 1: Tìm hiểu kiến thức tổng quan khám phá tri thức khai phá liệu Chương 2: Nghiên cứu kỹ thuật khai phá liệu định Chương 3: Xây dựng ứng dụng demo cho kỹ thuật khai phá liệu định Chương 1: Tổng quan khai phá liệu 1.1 Khám phá tri thức khai phá liệu gì? Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT http://kilobooks.com Trường đại học sư phạm Hà Nội THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Sinh viên nghiên cứu khoa học Phát tri thức (Knowledge Discovery ) sở liệu qui trình nhận biết mẫu mơ hình liệu với tính năng: hợp thức, mới, khả ích, hiểu [4] KIL OBO OKS CO M Còn khai thác liệu (data mining) ngữ tương đối mới, đời vào khoảng năm cuối của thập kỷ 1980 Có nhiều định nghĩa khác khai phá liệu Giáo sư Tom Mitchell đưa định nghĩa khai phá liệu sau: “Khai phá liệu việc sử dụng liệu lịch sử để khám phá qui tắc cải thiện định tương lai.” Với cách tiếp cận ứng dụng hơn, tiến sĩ Fayyad phát biểu: ”Khai phá liệu thường xem việc khám phá tri thức sở liệu, q trình trích xuất thơng tin ẩn, trước chưa biết có khả hữu ích, dạng quy luật, ràng buộc, qui tắc sở liệu.” Còn nhà thống kê xem " khai phá liệu q trình phân tích thiết kế thăm dò lượng cực lớn liệu nhằm phát mẫu thích hợp và/ mối quan hệ mang tính hệ thống biến sau hợp thức hố kết tìm cách áp dụng mẫu phát cho tập liệu" Nói tóm lại: khai phá liệu bước quy trình phát tri thức gồm có thụât tốn khai thác liệu chun dùng số quy định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu [4] 1.2 Q trình phát tri thức Q trình khám phá tri thức tiến hành qua bước sau [5]: Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Sinh viên nghiên cứu khoa học KIL OBO OKS CO M Trường đại học sư phạm Hà Nội Hình 1.1 Q trình khám phá tri thức 1.2.1 Hình thành định nghĩa tốn Đây bước tìm hiểu lĩnh vực ứng dụng hình thành tốn, bước định cho việc rút tri thức hữu ích, đồng thời lựa chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu 1.2.2 Thu thập tiền xử lý liệu Trong bước liệu thu thập dạng thơ (nguồn liệu thu thập từ kho liệu hay nguồn thơng tin internet) Trong giai đoạn liệu tiền xử lý để biến đổi cải thiện chất lượng liệu cho phù hợp với phương pháp khai phá liệu chọn lựa bước Bước thường chiếm nhiều thời gian q trình khám phá tri thức Các giải thuật tiền xử lý liệu bao gồm : Xử lý liệu bị mất/ thiếu: Các dạng liệu bị thiếu thay giá trị thích hợp Khử trùng lắp: đối tượng liệu trùng lắp bị loại bỏ Kỹ thuật khơng sử dụng cho tác vụ có quan tâm đến phân bố liệu Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT http://kilobooks.com Trường đại học sư phạm Hà Nội THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Sinh viên nghiên cứu khoa học Giảm nhiễu: nhiễu đối tượng tách rời khỏi phân bố chung bị loại khỏi liệu Chuẩn hố: miền giá trị liệu chuẩn hố Rời rạc hố: dạng liệu số biến đổi giá trị KIL OBO OKS CO M rời rạc Rút trích xây dựng đặc trưng từ thuộc tính có Giảm chiều: thuộc tính chứa thơng tin loại bỏ bớt 1.2.3 Khai phá liệu rút tri thức Đây bước quan trọng tiến trình khám phá tri thức Kết bước trích mẫu và/hoặc mơ hình ẩn liệu Một mơ hình biểu diễn cấu trúc tổng thể thành phần hệ thống hay hệ thống sở liệu, hay miêu tả cách liệu nảy sinh Còn mẫu cấu trúc cục có liên quan đến vài biến vài trường hợp sở liệu 1.2.4 Phân tích kiểm định kết Bước thứ tư hiểu tri thức tìm được, đặc biệt làm sáng tỏ mơ tả dự đốn Trong bước này, kết tìm biến đổi sang dạng phù hợp với lĩnh vực ứng dụng dễ hiểu cho người dùng 1.2.5 Sử dụng tri thức phát Trong bước này, tri thức khám phá củng cố, kết hợp lại thành hệ thống, đồng thời giải xung đột tiềm tri thức Các mơ hình rút đưa vào hệ thống thơng tin thực tế dạng mơdun hỗ trợ việc đưa định Các giai đoạn q trình khám phá tri thức có mối quan hệ chặt chẽ với bối cảnh chung hệ thống Các kỹ thuật sử dụng giai đoạn trước ảnh hưởng đến hiệu giải thuật sử dụng giai đoạn Các bước q trình khám phá tri Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT http://kilobooks.com Trường đại học sư phạm Hà Nội THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Sinh viên nghiên cứu khoa học thức lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực KIL OBO OKS CO M 1.3 Q trình khai phá liệu Khai phá liệu hoạt động trọng tâm q trình khám phá tri thức Thuật ngữ khai phá liệu số nhà khoa học gọi phát tri thức sở liệu ( knowledge discovery in database _KDD) ( theo Fayyad Smyth and PiatestkyShapiro 1989) Q trình gồm có bước [1]: Hình 1.2 Q trình khai phá liệu Q trình khai phá liệu bắt đầu với kho liệu thơ kết thúc với tri thức chiết xuất Nội dung q trình sau: 1.3.1 Gom liệu (gatherin) Tập hợp liệu bước khai phá liệu Bước lấy liệu từ sở liệu, kho liệu, chí liệu từ nguồn cung ứng web 1.3.2 Trích lọc liệu (selection) Ở giai đoạn liệu lựa chọn phân chia theo số tiêu chuẩn Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Sinh viên nghiên cứu khoa học Trường đại học sư phạm Hà Nội 1.3.3 Làm tiền xử lý liệu (cleansing preprocessing) Giai đoạn thứ ba giai đoạn hay bị lãng, thực tế bước quan trọng q trình khai phá liệu Một số lỗi thường KIL OBO OKS CO M mắc phải gom liệu liệu khơng đầy đủ khơng thống nhất, thiếu chặt chẽ Vì liệu thường chứa giá trị vơ nghĩa khơng có khả kết nối liệu Ví dụ Sinh viên có tuổi=200 Giai đoạn thứ ba nhằm xử lý liệu trên(dữ liệu vơ nghĩa, liệu khơng có khả kết nối) Những liệu dạng thường xem thơng tin dư thừa, khơng có giá trị Bởi q trình quan trọng Nếu liệu khơng làm sạch- tiền xử lý - chuẩn bị trước gây nên kết sai lệch nghiêm trọng sau 1.3.4 Chuyển đổi liệu (transformation) Trong giai đoạn này, liệu tổ chức sử dụng lại Mục đích việc chuyển đổi liệu làm cho liệu phù hợp với mục đích khai phá liệu 1.3.5 Phát trích mẫu liệu ( pattern extraction and discovery) Đây bước tư khai phá liệu Ở giai đoạn nhiều thuật tốn khác sử dụng để trích mẫu từ liệu Thuật tốn thường dùng để trích mẫu liệu thuật tốn phân loại liệu, kết hợp liệu, thuật tốn mơ hình hố liệu 1.3.6 Đánh giá kết mẫu (evaluation of result ) Đây giai đoạn cuối q trình khai phá liệu, giai đoạn mẫu liệu chiết xuất phần mềm khai phá liệu Khơng phải mẫu liệu hữu ích, đơi bị sai lệch Vì cần phải đưa tiêu chuẩn đánh giá độ ưu tiên cho mẫu liệu để rút tri thức cần thiêt Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT http://kilobooks.com Trường đại học sư phạm Hà Nội THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Sinh viên nghiên cứu khoa học 1.4 Chức khai phá liệu Khai phá liệu có hai chức là: chức dự đốn chức KIL OBO OKS CO M mơ tả 1.5 Các kỹ thuật khai phá liệu Trong thực tế có nhiều kỹ thuật khai phá liệu khác nhằm thực hai chức mơ tả dự đốn - Kỹ thuật khai phá liệu mơ tả: có nhiệm vụ mơ tả tính chất đặc tính chung liệu CSDL có Một số kỹ thuật khai phá nhóm là: phân cụm liệu (Clustering), tổng hợp (Summarisation), trực quan hố (Visualization), phân tích phát triển độ lệch (Evolution and deviation analyst),… - Kỹ thuật khai phá liệu dự đốn: có nhiệm vụ đưa dự đốn dựa vào suy diễn sở liệu thời Một số kỹ thuật khai phá nhóm là: phân lớp (Classification), hồi quy (Regression), định (Decision tree), thống kê (statictics), mạng nơron (neural network), luật kết hợp,… Một số kỹ thuật phổ biến thường sử dụng để khai phá liệu : 1.5.1 Phân lớp liệu: Mục tiêu phân lớp liệu dự đốn nhãn lớp cho mẫu liệu Q trình gồm hai bước: xây dựng mơ hình, sử dụng mơ hình để phân lớp liệu( mẫu lớp) Mơ hình sử dụng để dự đốn nhãn lớp mà độ xác mơ hình chấp nhận 1.5.2 Phân cụm liệu: Mục tiêu phân cụm liệu nhóm đối tượng tương tự tập liệu vào cum, cho đối tượng thuộc lớp tương đồng Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Sinh viên nghiên cứu khoa học Trường đại học sư phạm Hà Nội n Entropy(S)= ∑ (- P log i (2.2) ( Pi )) i=1 Trong Pi tỷ lệ mẫu thuộc lớp i tập hợp S mẫu kiểm tra - KIL OBO OKS CO M Các trường hợp đặc biệt Nếu tất mẫu thành viên tập S thuộc lớp Entropy(S) =0 - Nếu tập S có số mẫu phân bổ vào lớp Entropy(S) =1 - Các trường hợp lại 0< Entropy(S)[...]... trình khai phá dữ liệu, định hướng hệ thống khai phá dữ liệu trong việc phát hiện các mẫu đáng quan tâm Tích hợp khai phá dữ liệu vào trong các hệ cơ sở dữ liệu KIL OBO OKS CO M Ứng dụng khai phá dữ liệu để khai phá dữ liệu web trực tuyến Một vấn đề quan trọng trong việc phát triển khám phá tri thức và khai phá dữ liệu đó là vấn đề an tồn và bảo mật thơng tin trong khai phá dữ liệu Chương 2: Khai phá dữ. .. thuyết - Tìm được nhiều tài liệu hay và bổ ích liên quan tới data mining - Nắm được một số kỹ thuật cơ bản để khai phá dữ liệu, các chức năng và ứng dụng của khai phá dữ liệu - Nắm được kỹ thuật khai phá dữ liệu bằng cây quyết định, các thuật tốn xây dựng cây quyết định 4.1.2 Ứng dụng - Xây dựng chương trình demo cho ứng dụng khai phá dữ liệu bằng cây quyết định Sử dụng cây quyết định để dự đốn xếp loại... Hình 2.1 Cây quyết định phân lớp mức lương 2.1.2 Ưu điểm của cây quyết định So với các phương pháp khai phá dữ liệu khác, cây quyết định có một số ưu điểm sau - Cây quyết định tương đối dể hiểu - Đòi hỏi mức tiền xử lý dữ liệu đơn giản - Có thể xử lý với cả các dữ liệu rời rạc và liên tục - Cây quyết định là một mơ hình hộp trắng - Kết quả dự đốn bằng cây quyết định có thể thẩm định lại bằng cách kiểm... thống khác - … Hướng phát triển của khám phá tri thức và khai phá dữ liệu là vượt qua được tất cả những thách thức trên Chú trọng vào việc mở rộng ứng dụng để đáp ứng cho mọi lĩnh vực trong đời sống xã hội, và tăng tính hữu ích của việc khai phá dữ liệu trong những lĩnh vực đã có khai phá dữ liệu Tạo ra các phương pháp khai phá dữ liệu linh động, uyển chuyển để xử lý số lượng dữ liệu lớn một cách hiệu... dùng, phân tích dữ liệu marketing, phân tích đầu tư, phát hiện các gian lận 1.8 Các thách thức và hướng phát triển của phát hiện tri thức và khai phá dữ liệu Sự phát triển của phát hiện tri thức và khai phá dữ liệu gặp phải một số thách thức sau: - CSDL lớn (số lượng bản ghi, số bảng) - Số chiều lớn - Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện khơng còn phù hợp nữa - Dữ liệu bị thiếu... CSDL giao dịch - CSDL quan hệ - đối tượng - CSDL khơng gian và thời gian - CSDL đa phương tiện 1.7 Các lĩnh vực liên quan đến khai phá dữ liệu và ứng dụng của khai phá dữ liệu 1.7.1 Các lĩnh vực liên quan đến phát hiện tri thức và khai phá dữ liệu Phát hiện tri thức và khai phá dữ liệu được ứng dụng trong nhiều ngành và lĩnh vực khác nhau như: tài chính ngân hàng, thương mại, y tế, giáo dục, thống kê,... y học: khai phá dữ liệu giúp tìm ra mối liên hệ giữa các triệu chứng, chuẩn đốn bệnh - Tài chính và thị trường chứng khốn: Khai phá dữ liệu để phân tích tình hình tài chính, phân tích đầu tư, phân tích cổ phiếu - - Khai thác dữ liệu web Trong thơng tin kỹ thuật: khai phá dữ liệu dùng để phân tích các sai hỏng, điều khiển và lập lịch trình… - Trong thơng tin thương mại: dùng để phân tích dữ liệu người... dụng cây quyết định để dự đốn xếp loại tốt nghiệp đại học của sinh viên 4.2 Hướng Phát Triển - - Nghiên cứu thêm một số thuật tốn mới về khai phá dữ liệu bằng cây quyết đinh, tìm hiểu kỹ hơn về các kỹ thuật khai phá dữ liệu khác Xây dựng được những chương trình ứng dụng phức tạp và có tính thực tế hơn bằng cây quyết định Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT 30 http://kilobooks.com Trường đại... dựng cây quyết định Có nhiều thuật tốn khác nhau để xây dựng cây quyết định như: CLS, ID3, C4.5, SLIQ, SPRINT, EC4.5, C5.0…Nhưng nói chung q trình xây dựng cây quyết định đều được chia ra làm 3 giai đoạn cơ bản: a Xây dựng cây: Thực hiện chia một cách đệ quy tập mẫu dữ liệu huấn luyện cho đến khi các mẫu ở mối nút lá thuộc cùng một lớp b Cắt tỉa cây: Là việc làm dùng để tối ưu hố cây Cắt tỉa cây chính... lý dữ liệu Dữ liệu mà em thu thập được lấy kho dữ liệu của Trường đại học sư phạm Hà Nội Sau khi đã có được tồn bộ các dữ liệu, em tiến hành trích lọc ra những thơng tin cần thiết cho bài tốn ứng dụng của em Dữ liệu thu thập được ở dạng file access như sau: Tiền xử lý dữ liệu: do một số lý do nào đó, trong bảng dữ liệu về sinh viên, có một số ơ khơng có giá trị Vì vậy, em tiến hành bước tiền xử lý dữ ... hiểu người sử dụng 1.6 Các dạng liệu khai phá - CSDL quan hệ - CSDL đa chiều - CSDL giao dịch - CSDL quan hệ - đối tượng - CSDL khơng gian thời gian - CSDL đa phương tiện 1.7 Các lĩnh vực liên... thách thức sau: - CSDL lớn (số lượng ghi, số bảng) - Số chiều lớn - Thay đổi liệu tri thức làm cho mẫu phát khơng phù hợp - Dữ liệu bị thiếu bị nhiễu - Quan hệ trường phức tạp - Vấn đề giao tiếp... – Lớp: C-K54-CNTT 11 http:/ /kilobooks. com Trường đại học sư phạm Hà Nội THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Sinh viên nghiên cứu khoa học - Khai phá liệu sử dụng để phân tích liệu, hỗ trợ định - Trong

Ngày đăng: 02/12/2015, 12:28

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan