NGHIÊN CỨU MỘT SỐ THUẬT TOÁN ỨNG DỤNG DATAMINING

27 1.1K 2
NGHIÊN CỨU MỘT SỐ THUẬT TOÁN ỨNG DỤNG DATAMINING

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

NGHIÊN CỨU MỘT SỐ THUẬT TOÁN ỨNG DỤNG DATAMINING

TRƯỜNG ĐẠI HỌC DUY TÂN KHOA SAU ĐẠI HỌC TIỂU LUẬN MÔN HỌC DATA MINING ĐỀ TÀI : NGHIÊN CỨU MỘT SỐ THUẬT TOÁN ỨNG DỤNG DATAMINING Giảng viên : PGS.TS Lê Hoài Bắc Học viên : Dương Trương Quốc Khánh MỤC LỤC MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu chung 1.2 Khái niệm khai phá liệu 1.3 Khai phá liệu dự đoán 1.3.1 Phân loại 1.3.2 Hồi quy 1.4 Khai phá liệu mô tả 1.4.1 Phân cụm .7 1.4.2 Luật kết hợp 1.5 Học máy (Machine Learning) .9 1.6 Các ứng dụng KDD 1.7 Những thách thức KDD CHƯƠNG 2: KỸ THUẬT PHÂN LOẠI TRONG KHAI PHÁ DỮ LIỆU 11 2.1 Phân loại gì? .11 2.2 Các vấn đề quan tâm phân loại 13 2.2.1 Chuẩn bị liệu để phân loại: 13 2.2.2 So sánh phương pháp phân loại: .14 2.3 Phân loại định quy nạp 14 2.3.1 Cây định quy nạp 15 2.3.1.1 Chiến lược ID3: 15 2.3.1.2 Phép đo lựa chọn thuộc tính: .16 CHƯƠNG 3: KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU 20 3.1 Phân cụm .20 3.2 Các kiểu liệu phép phân cụm 21 3.2.1 Độ không tương đồng tương đồng: 22 3.3 Phân loại phương pháp phân cụm 23 3.1 Các phương pháp phân chia: 23 3.2 Các phương pháp phân cấp: 24 3.3 Các phương pháp dựa mật độ: 25 3.4 Các phương pháp dựa lưới: 25 1MỞ ĐẦU  Giới thiệu Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lượng liệu quan thu thập lưu trữ ngày tích luỹ nhiều lên Họ lưu trữ liệu cho ẩn chứa giá trị định Tuy nhiên, theo thống kê có lượng nhỏ liệu (khoảng từ 5% đến 10%) phân tích, số cịn lại họ khơng biết phải làm làm với chúng họ tiếp tục thu thập tốn với ý nghĩ lo sợ có quan trọng bị bỏ qua sau có lúc cần đến Mặt khác, mơi trường cạnh tranh, người ta ngày cần có nhiều thơng tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Với lý vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) Kỹ thuật phát tri thức khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới, Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu dần đưa vào ứng dụng Bước quan trọng trình Khai phá liệu (Data Mining - DM), giúp người sử dụng thu tri thức hữu ích từ CSDL nguồn liệu khổng lồ khác Rất nhiều doanh nghiệp tổ chức giới ứng dụng kĩ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu lợi ích to lớn Nhưng để làm điều đó, phát triển mơ hình tốn học giải thuật hiệu chìa khố quan trọng Vì vậy, luận văn này, tác giả đề cập tới hai kỹ thuật thường dùng Khai phá liệu, Phân loại (Classification) Phân cụm (Clustering hay Cluster Analyse) CHƯƠNG 1: TỔNG QUAN PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu chung 2Trong năm gần đây, phát triển mạnh mẽ CNTT ngành công nghiệp phần cứng làm cho khả thu thập lưu trữ thông tin hệ thống thông tin tăng nhanh cách chóng mặt Bên cạnh việc tin học hố cách ạt nhanh chóng hoạt động sản xuất, kinh doanh nhiều lĩnh vực hoạt động khác tạo cho lượng liệu lưu trữ khổng lồ Hàng triệu CSDL sử dụng hoạt động sản xuất, kinh doanh, quản lí , có nhiều CSDL cực lớn cỡ Gigabyte, chí Terabyte Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kĩ thuật cơng cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức có ích Từ đó, kĩ thuật khai phá liệu trở thành lĩnh vực thời CNTT giới 1.2 Khái niệm khai phá liệu Khai phá liệu (Data Mining) khái niệm đời vào năm cuối thập kỷ 1980 Nó q trình trích xuất thơng tin có giá trị tiềm ẩn bên lượng lớn liệu lưu trữ CSDL, kho liệu Hiện nay, thuật ngữ khai phá liệu, người ta cịn dùng số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ CSDL, trích lọc liệu, phân tích liệu/mẫu, khảo cổ liệu, nạo vét liệu Nhiều người coi Khai phá liệu thuật ngữ thông dụng khác Phát tri thức CSDL (Knowlegde Discovery in Databases - KDD) Tuy nhiên thực tế, khai phá liệu bước thiết yếu q trình Phát tri thức CSDL Có thể nói Data Mining giai đoạn quan trọng tiến trình Phát tri thức từ sở liệu, tri thức hỗ trợ việc định khoa học kinh doanh 1.1.2 Các bước trình phát tri thức Quá trình phát tri thức tiến hành qua giai đoạn hình 1.1: Đánh giá luật Khai phá liệu Chuyển đổi liệu Làm sạch, tiền xử lý liệu Trích lọc liệu Gom liệu Internet, Internet, Dữ liệu đích Dữ liệu làm sạch, tiền xử lý Tri thức Mơ hình Dữ liệu chuyển đổi Dữ liệu Hình 1.1: Quá trình phát tri thức 1.2 Các kỹ thuật khai phá liệu Hình 1.2 biểu diễn tập liệu giả hai chiều bao gồm 23 case (trường hợp) Mỗi điểm hình đại diện cho người vay tiền ngân hàng số thời điểm khứ Dữ liệu phân loại vào hai lớp: người khơng có khả trả nợ người tình trạng vay nợ trạng thái tốt (tức thời điểm có khả trả nợ ngân hàng) Hai mục đích khai phá liệu thực tế dự báo mô tả Nợ Không có khả trả nợ Có khả trả nợ Thu nhập Hỡnh 1.2: Tp d liu vi lớp: có khơng có khả trả nợ 1.3 Khai phá liệu dự đoán Nhiệm vụ khai phá liệu dự đoán đưa dự đoán dựa vào suy diễn liệu thời Nó sử dụng biến hay trường sở liệu để dự đoán giá trị hay giá trị tương lai Bao gồm kĩ thuật: phân loại (classification), hồi quy (regression) 1.3.1 Phân loại Mục tiêu phương pháp phân loại liệu dự đoán nhãn lớp cho mẫu liệu Quá trình phân loại liệu thường gồm bước: xây dựng mơ hình sử dụng mơ hình để phân loại liệu Bước 1: Xây dựng mơ hình dựa việc phân tích mẫu liệu cho trước Mỗi mẫu thuộc lớp, xác định thuộc tính gọi thuộc tính lớp Các mẫu liệu cịn gọi tập liệu huấn luyện Các nhãn lớp tập liệu huấn luyện phải xác định trước xây dựng mơ hình, phương pháp cịn gọi học có giám sát Bước 2: Sử dụng mơ hình để phân loại liệu Trước hết phải tính độ xác mơ hình Nếu độ xác chấp nhận được, mơ hình sử dụng để dự đốn nhãn lớp cho mẫu liệu khác tương lai Hay nói cách khác, phân loại học hàm ánh xạ mục liệu vào số lớp cho trước Hình 1.3 cho thấy phân loại liệu vay nợ vào hai miền lớp Ngân hàng sử dụng miền phân loại để tự động định liệu người vay nợ tương lai có nên cho vay hay khơng Nỵ Thu nhËp Hình 1.3: Phân loại học mạng nơron cho tập liệu cho vay 1.3.2 Hồi quy Phương pháp hồi qui khác với phân loại liệu chỗ, hồi qui dùng để dự đốn giá trị liên tục cịn phân loại liệu dùng để dự đốn giá trị rời rạc Hồi quy học hàm ánh xạ mục liệu vào biến dự báo giá trị thực Các ứng dụng hồi quy có nhiều, ví dụ đánh giá xác xuất bệnh nhân chết dựa tập kết xét nghiệm chẩn đoán, dự báo nhu cầu người tiêu dùng sản phẩn dựa hoạt động quảng cáo tiêu dùng 1.4 Khai phá liệu mơ tả Kỹ thuật có nhiệm vụ mơ tả tính chất đặc tính chung liệu CSDL có Bao gồm kỹ thuật: phân cụm (clustering), phân tích luật kết hợp (association rules) 1.4.1 Phân cụm Mục tiêu phương pháp phân cụm liệu nhóm đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc cụm tương đồng đối tượng thuộc cụm khác không tương đồng Phân cụm liệu ví dụ phương pháp học khơng giám sát Không giống phân loại liệu, phân cụm liệu khơng địi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học quan sát (learning by observation), phân loại liệu học ví dụ (learning by example) Trong phương pháp bạn biết kết cụm thu bắt đầu q trình Vì vậy, thơng thường cần có chun gia lĩnh vực để đánh giá cụm thu Phân cụm liệu sử dụng nhiều ứng dụng phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web… Ngồi phân cụm liệu cịn sử dụng bước tiền xử lí cho thuật tốn khai phá liệu khác Hình 1.4 cho thấy phân cụm tập liệu cho vay vào cụm: lưu ý cụm chồng lên cho phép điểm liệu thuộc nhiều cụm Cơm Nỵ Cơm Cơm Thu nhËp Hình 1.4: Phân cụm tập liệu cho vay vào cụm 1.4.2 Luật kết hợp Mục tiêu phương pháp phát đưa mối liên hệ giá trị liệu CSDL Mẫu đầu giải thuật khai phá liệu tập luật kết hợp tìm Khai phá luật kết hợp thực qua bước: • Bước 1: tìm tất tập mục phổ biến, tập mục phổ biến xác định qua tính độ hỗ trợ thỏa mãn độ hỗ trợ cực tiểu 1• Bước 2: sinh luật kết hợp mạnh từ tập mục phổ biến, luật phải thỏa mãn độ hỗ trợ cực tiểu độ tin cậy cực tiểu 1Phương pháp sử dụng hiệu lĩnh vực marketing có chủ đích, phân tích định, quản lí kinh doanh,… 1.3 Lợi khai phá liệu so với phương pháp khác Khai phá liệu lĩnh vực liên quan tới nhiều ngành học khác như: hệ CSDL, thống kê, Hơn nữa, tuỳ vào cách tiếp cận sử dụng, khai phá liệu cịn áp dụng số kĩ thuật mạng nơ ron, lí thuyết tập thơ tập mờ, biểu diễn tri thức… Như vậy, khai phá liệu thực dựa phương pháp biết Tuy nhiên, khác biệt khai phá liệu so với phương pháp gì? Tại khai phá liệu lại có ưu hẳn phương pháp cũ? Ta xem xét giải câu hỏi 1.5 Học máy (Machine Learning) So với phương pháp học máy, khai phá liệu có lợi chỗ, khai phá liệu sử dụng với sở liệu thường động, không đầy đủ, bị nhiễu lớn nhiều so với tập liệu học máy điển hình Trong phương pháp học máy chủ yếu áp dụng CSDL đầy đủ, biến động tập liệu không lớn Thật vậy, học máy, thuật ngữ sở liệu chủ yếu đề cập tới tập mẫu lưu tệp Các mẫu thường vectơ với độ dài cố định, thông tin đặc điểm, dãy giá trị chúng lưu lại từ điển liệu Một giải thuật học sử dụng tập liệu thơng tin kèm theo tập liệu làm đầu vào đầu biểu thị kết việc học 1.6 Các ứng dụng KDD thách thức KDD 1.6.1 Các ứng dụng KDD Các kỹ thuật KDD áp dụng vào nhiều lĩnh vực:  Thông tin thương mại: Phân tích liệu tiếp thị bán hàng, phân tích vốn đầu tư, chấp thuận cho vay, phát gian lận,  Thông tin sản xuất: Điều khiển lập lịch, quản lý mạng, phân tích kết thí nghiệm,  Thơng tin khoa học: Địa lý: Phát động đất,  1.6.2 Những thách thức KDD  Các sở liệu lớn nhiều: sở liệu với hàng trăm trường bảng, hàng triệu ghi kích thước lên tới nhiều gigabyte vấn đề hồn tồn bình thường sở liệu terabyte (1012 bytes) bắt đầu xuất  Số chiều cao: Khơng thường có số lượng lớn ghi sở liệu mà cịn có số lượng lớn trường (các thuộc tính, biến) làm cho số chiều tốn trở nên cao Thêm vào đó, tăng thêm hội cho giải thuật khai phá liệu tìm mẫu khơng hợp lệ Vậy nên cần giảm bớt hiệu kích thước tốn tính hữu ích tri thức cho trước để nhận biết biến không hợp lệ  Over-fitting (quá phù hợp): Khi giải thuật tìm kiếm tham số tốt cho mơ hình đặc biệt sử dụng tập hữu hạn liệu, kết mơ hình biểu diễn nghèo nàn liệu kiểm định Các giải pháp bao gồm hợp lệ chéo, làm theo quy tắc chiến lược thống kê tinh vi khác  Thay đổi liệu tri thức: Thay đổi nhanh chóng liệu (động) làm cho mẫu phát trước khơng cịn hợp lệ Thêm vào đó, biến đo sở liệu ứng dụng cho trước bị sửa đổi, xoá bỏ hay tăng thêm phép đo Các giải pháp hợp lý bao gồm phương pháp tăng trưởng để cập nhật mẫu xử lý thay đổi  Dữ liệu thiếu bị nhiễu: Bài toán đặc biệt nhạy sở liệu thương mại Dữ liệu điều tra dân số U.S cho thấy tỷ lệ lỗi lên tới 20% Các thuộc tính quan trọng bị sở liệu không thiết kế với khám phá trí tuệ Các giải pháp gồm nhiều chiến lược thống kê phức tạp để nhận biết biến ẩn biến phụ thuộc 10 sánh với dự đốn lớp mơ hình học cho mẫu Nếu độ xác mơ hình đánh giá dựa tập liệu huấn luyện, đánh giá tối ưu, mơ hình học có khuynh hướng q phù hợp (overfit) liệu Bởi vậy, cần dùng tập kiểm định 2.2 Các vấn đề quan tâm phân loại 2.2.1 Chuẩn bị liệu để phân loại: Các bước tiền xử lý liệu sau giúp cải thiện độ xác, hiệu suất khả mở rộng phân loại - Làm liệu: Đây trình thuộc tiền xử lý liệu để gỡ bỏ làm giảm nhiễu cách xử lý giá trị khuyết Bước giúp làm giảm mập mờ học - Phân tích thích hợp: Nhiều thuộc tính liệu khơng thích hợp hay khơng cần thiết để phân loại Vì vậy, phép phân tích thích hợp thực liệu với mục đích gỡ bỏ thuộc tính khơng thích hợp hay khơng cần thiết Trong học máy, bước gọi trích chọn đặc trưng Phép phân tích giúp phân loại hiệu nâng cao khả mở rộng - Biến đổi liệu: Dữ liệu tổng qt hố tới mức khái niệm cao Điều hữu ích cho thuộc tính có giá trị liên tục Ví dụ, giá trị số thuộc tính thu nhập tổng quát hoá sang phạm vi rời rạc thấp, trung bình cao Tương tự, thuộc tính giá trị tên đường phố tổng quát hoá tới khái niệm mức cao thành phố Nhờ thao tác vào/ra trình học Dữ liệu tiêu chuẩn hoá, đặc biệt mạng nơron hay phương pháp dùng phép đo khoảng cách bước học Tiêu chuẩn hoá biến đổi theo tỷ lệ tất giá trị thuộc tính cho trước để chúng rơi vào phạm vi định nhỏ [-1.0,1.0] hay [0,1.0] Tuy nhiên điều cản trở thuộc tính có phạm vi ban đầu lớn (như thu nhập) có nhiều ảnh hưởng thuộc tính có phạm vi nhỏ ban đầu (như thuộc tính nhị phân) 13 2.2.2 So sánh phương pháp phân loại: Các phương pháp phân loại so sánh đánh giá theo tiêu chí sau: - Độ xác dự đốn: Dựa khả mơ hình dự đốn nhãn lớp liệu - Tốc độ: Dựa chi phí tính tốn Chi phí bao gồm sinh sử dụng mơ hình - Sự tráng kiện: Dựa khả mơ hình đưa dự đốn xác liệu nhiễu hay liệu với giá trị khuyết cho trước - Khả mở rộng: Dựa khả trình diễn hiệu mơ hình liệu lớn - Khả diễn dịch: Dựa mức khả mà mơ hình cung cấp để hiểu thấu đáo liệu 2.3 Phân loại định quy nạp Tuổi? 40 Độ tín nhiệm? Có Có Tốt Có Có Khá tốt Khơng Hình 2.2: Cây định cho khái niệm mua máy tính "Cây định gì?" Cây định cấu trúc có dạng biểu đồ luồng, nút kiểm định thuộc tính, nhánh đại diện cho kết kiểm định, nút đại diện cho lớp Nút cao nút gốc Hình 2.2 thể định biểu diễn khái niệm mua máy tính, dự đốn liệu khách hàng AllElectronics có mua máy tính hay khơng Hình chữ nhật biểu thị nút trong, hình elip biểu thị nút 14 Để phân loại mẫu chưa biết, giá trị thuộc tính mẫu kiểm định Đường từ gốc tới nút cho biết dự đoán lớp mẫu Cây định dễ dàng chuyển đổi thành luật phân loại Mục 2.3.1 giải thuật học định Khi định xây dựng, nhiều nhánh phản ánh nhiễu hay outlier liệu huấn luyện Việc cắt tỉa cố gắng nhận biết gỡ bỏ nhánh Cây cắt tỉa mô tả mục 2.3.3 Cải tiến giải thuật định đề cập tới mục 2.3.4 Các vấn đề khả mở rộng cho định quy nạp từ sở liệu lớn đề cập mục 2.3.5 2.3.1 Cây định quy nạp Giải thuật tảng định quy nạp ID3, giải thuật định quy nạp tiếng Mở rộng giải thuật thảo luận mục 2.3.4 tới 2.3.6 2.3.1.1 Chiến lược ID3  Cây bắt đầu nút đơn đại diện cho mẫu huấn luyện (bước 1)  Nếu tất mẫu lớp nút trở thành gắn nhãn với lớp (bước 3)  Ngược lại, giải thuật sử dụng phép đo Entropy để lựa chọn thuộc tính Đây thuộc tính phân tách tốt mẫu vào lớp riêng biệt (bước 6) Thuộc tính trở thành thuộc tính "kiểm định" hay "quyết định" nút (bước 7) Trong version giải thuật, tất thuộc tính xác thực, tức giá trị rời rạc Các thuộc tính giá trị liên tục phải rời rạc hóa  Một nhánh tạo lập cho giá trị biết thuộc tính kiểm định mẫu phân chia cách phù hợp (bước 8-10)  Giải thuật sử dụng xử lý đệ quy để hình thành nên định cho mẫu lần phân chia (bước 13) Phân chia đệ quy dừng điều kiện sau đúng: Tất mẫu thuộc lớp (bước 3) 15 Khơng cịn thuộc tính để tiếp tục phân chia mẫu (bước 4) Trong trường hợp này, lựa chọn theo số đông (majority voting) dùng (bước 5) Lúc nút tạo trở thành với nhãn lớp lựa chọn theo số đơng Khơng cịn mẫu cho nhánh test-attribute = (bước 11) Lúc này, tạo với nhãn lớp chiếm đa số mẫu (bước 12) 2.3.1.2 Phép đo lựa chọn thuộc tính Cho S tập gồm s mẫu liệu Giả sử thuộc tính nhãn lớp có m giá trị riêng biệt định nghĩa m lớp riêng biệt (với i = 1, ,m), si số lượng mẫu S lớp Ci Thông tin cần thiết để phân loại mẫu cho trước thể phương trình (2.1): m I ( s1 , s2 , , sm )    pi log ( pi ) (2.1) i 1 với pi xác suất mẫu tuỳ ý thuộc lớp Ci si/s Cho thuộc tính A có v giá trị riêng biệt, {a1,a2, ,av} Thuộc tính A dùng để phân chia S vào v tập {S1,S2, ,Sv}, Si mẫu S có giá trị thuộc tính A Nếu A chọn thuộc tính kiểm định (tức thuộc tính tốt để phân chia), tập tương đương với nhánh tăng trưởng từ nút chứa tập S Cho sij số mẫu lớp Ci tập Sj Entropy hay thông tin cần để phân chia s mẫu vào v tập là: v E ( A)  j 1 s1 j   s mj s I ( s1 j , , s mj ) (2.2) Mã hoá thơng tin có cách phân nhánh A là: Gain(A) = I(s1,s2, ,sm) - E(A) (2.3) Giải thuật tính tốn thơng tin thu thuộc tính Thuộc tính với thơng tin thu cao lựa chọn thuộc tính kiểm định cho tập S Tạo nút với nhãn thuộc tính đó, nhánh tạo cho giá trị thuộc tính mẫu phân chia phù hợp Ví dụ 2.2: Quy nạp định: Bảng 2.1 miêu tả tập huấn luyện liệu lấy từ sở liệu khách hàng AllElectronics Thuộc tính nhãn lớp mua 16 máy tính có hai giá trị riêng biệt {Có,Khơng}, có hai nhãn riêng biệt (m=2) Cho C1 tương đương với lớp Có nhãn C2 tương đương với Khơng Có mẫu lớp Có mẫu lớp Khơng Để tính tốn thơng tin thu thuộc tính, trước tiên ta sử dụng phương trình (2.1) để tính tốn thơng tin cần phân loại mẫu cho trước: I ( s1 , s2 ) I (9,5)   9 5 log  log 0.940 14 14 14 14 Tiếp theo ta cần tính entropy thuộc tính Bắt đầu với thuộc tính tuổi Ta cần xem phân bổ mẫu có khơng cho giá trị tuổi Ta tính thơng tin trơng chờ cho phân bổ này: For tuổi="40": s13 = s23 = I(s13,s23) = 0.971 Bảng 2.1: Các liệu huấn luyện từ sở liệu khách hàng AllElectronics STT 10 11 12 13 14 Tuổi 40 >40 30-40

Ngày đăng: 24/04/2013, 16:20

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan