Các kỹ thuật trong khai phá dữ liệu và các chương trình demo

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG ________________ BÁO CÁO THU HOẠCH MÔN HỌC KHAI PHÁ DỮ LIỆU Đề tài: Các kỹ thuật trong khai phá dữ liệu và các chương trình demo Giáo viên hướng dẫn: PGS.TS Đỗ Phúc Sinh viên thực hiện: Du Chí Hào Mã số sinh viên: CH1101083 Tp. HCM 2012 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG Lời nói đầu Với việc phát triển và phân bố ngày càng rộng rãi của các công ty, xí nghiệp, dữ liệu là rất lớn và vẫn chưa khác thác hết để tìm thấy những tính chất, quy luật, điểm mạnh và điểm yếu. Do đó, việc khai thác dữ liệu đóng vai trò rất lớn hiện nay trong việc tìm kiếm, khám phá các tri thức mới và các tri thức ở dạng tiềm năng trong các nguồn dữ liệu đã có. Trong bài thu hoạch chuyên đề này sẽ giới thiệu về ba kỹ thuật trong khai phá dữ liệu gồm luật kết hợp, phân lớp dữ liệu và gom cụm dữ liệu. Dựa vào những kỹ thuật đó, em đã xây dựng các chương trình demo kèm theo bài thu hoạch này để mô tả thực tế về cách thức hoạt động của việc khai phá dữ liệu bao gồm các bài toán sau: • Tìm tập phổ biến và tập phổ biến tối đại, từ đó rút trích ra các luật kết hợp. • Phân lớp Bayes dựa trên các mẫu chưa gặp. • Rút gọn lớp tương đương. • Dựa trên thuật toán rút gọn lớp tương đương để tìm độ chính xác xấp xỉ của tất cả các phân hoạch. • Rút gọn ma trận phân biệt và rút gọn hàm phân biệt. • Gom cụm dữ liệu dựa trên thuật toán K-Means. Theo đó, em có thể ứng dụng vào các công việc thực tiễn. Em xin chân thành cám ơn thầy PGS.TS Đỗ Phúc đã truyền đạt những kiến thức quý báu cho em về bộ môn “Khai phá dữ liệu” để em có thể hoàn thành bài thu hoạch này. MÔN HỌC : KHAI PHÁ DỮ LIỆU TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG Mục lục MÔN HỌC : KHAI PHÁ DỮ LIỆU TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG PHẦN I : TỔNG QUAN I. Khai phá dữ liệu Khai phá dữ liệu – Data Mining (KPDL) là tiến trình khám phá tri thức tiềm ẩn trong các CSDL. Cụ thể hơn, đó là tiến trình trích lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn, chưa biết nhưng hữu ích từ các CSDL lớn. KPDL là tiến trình khai thác các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiến trình ra quyết định. Có thể chia khai phá dữ liệu thành hai dạng chính: khai phá dữ liệu theo hướng kiểm tra va khai phá dữ liệu theo hướng khám phá. Trong khai phá dữ liệu theo hướng kiểm tra, người dùng đề xuất giả thiết, hệ thống kiểm tra tính đúng đắn của giả thiết. Khai phá dữ liệu theo hướng kiểm tra bao gồm: truy vấn, báo cáo, phân tích đa chiều, phân tích thống kê… Ngược lại, khai phá dữ liệu theo hướng khám phá sẽ tìm kiếm các tri thức tiềm ẩn trong CSDL bằng cách tiến hành xem xét tất cả các giả thiết khả dĩ. Do không gian tìm kiếm lớn, nên rất nhiều heuristic đã được đề xuất nhằm nâng cao hiệu suất của các giải thuật tìm kiếm. Tri thức được rút ra có thể được dùng để: Giải thích dữ liệu: • Cung cấp sự hiểu biết sâu sắc và rất hữu ích về hành vi của các đối tượng, giúp cho các doanh nghiệp hiểu rõ hơn những khách hàng của họ. Dự báo: dự đoán giá trị của những đối tượng mới. • Khuynh hướng mua hàng của khách hàng. • Xác định rủi ro tín dụng đối với một khách hàng. • Định hướng tập trung nguồn lực của doanh nghiệp. KPDL là một công đoạn trong tiến trình lớn hơn là khám phá tri thức từ CSDL. KPDL mang tính trực giác, cho phép thu được những hiểu biết rõ ràng và sâu sắc hơn, vượt xa kho dữ liệu. Kho dữ liệu điển hình trong những doanh nghiệp cho phép người dùng hỏi và trả lời những câu hỏi như “Doanh số bán ra là bao nhiêu tính theo khu vực, theo nhân viên bán hàng trong khoảng thời gian nào đó?”. Trong khi đó, KPDL cho phép người ra quyết định kinh doanh hỏi và trả lời cho những câu hỏi như: “Ai là khách hàng chính yếu của công ty đối với một mặt hàng cụ thể?” hoặc “Dòng sản phẩm nào sẽ bán trong khu vực này và ai sẽ mua chúng?”. Vị trí của KPDL được thể hiện qua sơ đồ: MÔN HỌC : KHAI PHÁ DỮ LIỆU TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG KPDL là cần thiết đối với người dùng vì những lý do sau: • Ngày càng có nhiều dữ liệu được lưu trữ trong các CSDL, kho dữ liệu và hình thành “một mỏ vàng dữ liệu” chứa đầy các thông tin chiến lược mà các hệ quản trị CSDL thông thường không thể phát hiển và quản trị được chúng. • CSDL phát triển rất nhanh cả về kích thước lẫn số lượng. Không xét những thông tin mang tính sự kiện được lưu trữ trong CSDL, những thông tin được suy diễn từ nó cũng hết sức lý thú. Tuy nhiên, với các quan hệ có số lượng khổng lồ, các bản ghi và có quá nhiều trường tin, việc duyệt hàng triệu bản ghi hay hàng trăm trường tin để tìm ra các mẫu và các quy luật là một thách thức và trở ngại thật sự đối với các nhà phân tích dữ liệu. • Không phải người nào cũng là nhà thống kê hay nhà phân tích dữ liệu chuyên nghiệp. • Sử dụng cho các trường hợp tìm kiếm nhưng chưa xác lập rõ hoặc chưa mô tả được các điều kiện tìm kiếm. Nếu người dùng biết họ đang tìm kiếm gì thì dùng SQL, nhưng nếu người dùng chỉ có một ý tưởng không rõ rang, hoặc một cảm nhận nào đó thì họ không nên dùng KPDL. KPDL là một công cụ hiệu quả trong các lĩnh vực: Sử dụng dữ liệu để xây dựng các mô hình dự báo: • Khả năng dự báo tiềm ẩn trong dữ liệu. • Gợi ý các chiều và các nhóm dữ liệu có khả năng chứa các tri thức hữu ích. Tạo tóm tắt và báo cáo rõ ràng: MÔN HỌC : KHAI PHÁ DỮ LIỆU TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG • Tự động tìm những phân đoạn trong dữ liệu • Tìm ra những phân đoạn mà nhà phân tích chưa biết hoặc có hiểu biết chưa rõ ràng. Cung cấp cơ chế hỗ trợ ra quyết định: • Dự báo. • Mô hình hóa. II. Các công đoạn khám phá tri thức từ CSDL Tiến trình khám phá tri thức từ CSDL bao gồm ba công đoạn: 1.Chuẩn bị dữ liệu: Chọn lọc dữ liệu: Đây là giai đoạn chọn lọc, rút trích các dữ liệu cần thiết từ CSDL tác nghiệp vào một CSDL riêng. Chúng ta chỉ chọn ra những dữ liệu cần thiết cho các giai đoạn sau. Tuy nhiên, công việc thu gom dữ liệu vào một CSDL thường rất khó khăn vì dữ liệu nằm rải rác khắp nơi trong cơ quan, tổ chức cùng một loại thông tin, nhưng được tạo lập theo các dạng thứ khác nhau, chất lượng dữ liệu các nơi cũng không giống nhau. Làm sạch dữ liệu: • Chống trùng lặp: Dạng lỗi thứ nhất khá quan trọng trong thao tác xóa bỏ dữ liệu đó là xóa bỏ thông tin trùng các các bản ghi. Thao tác này diễn ra khi có những thông tin bị trùng do có sai sót trong phần nhập dữ liệu, hoặc thông tin không được cập nhật kịp thời hoặc thông tin được cung cấp bị sai. • Giới hạn vùng giá trị: Dạng lỗi thứ hai thường hay xãy ra là giá trị nằm ngoài miền giá trị cho phép, nghĩa là các thông tin chứa các giá trị không hợp lệ theo một quy tắc nào đó. Dạng lỗi này gây tác hại khá lớn vì rất khó phát hiện ra nó, nhưng lại ảnh hưởng lớn đến dạng thức của các mẫu cần tìm khi thực hiện KPDL trên các bảng dữ liệu này. Làm giàu dữ liệu: Mục đích của giai đoạn là bổ sung thêm nhiều loại thông tin có liên quan vào CSDL gốc. Để làm điều này, chúng ta phải có các CSDL khác ở bên ngoài có liên quan đến CSDL gốc ban đầu. Ta tiến hành bổ sung những thông tin cần thiết, làm tăng khả năng khám phá tri thức từ CSDL. Vấn đề đặt ra là làm thế nào để kết hợp thông tin giữa dữ liệu gốc và dữ liệu được bổ sung. Bên cạnh đó, cúng ta cần chú ý đến vấn đề khôi phục các quan hệ trong CSDL sau khi đã được làm giàu thông tin. Mã hóa dữ liệu: MÔN HỌC : KHAI PHÁ DỮ LIỆU TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG Mục đích của giai đoạn mã hóa là chuyển đổi kiểu dữ liệu về những dạng thuận tiện để tiến hành các thuật toán khám phá dữ liệu. Có nhiều cách mã hóa dữ liệu theo từng loại dữ liệu: • Phân vùng: với dữ liệu là giá trị chuỗi, nằm trong tập các chuỗi cố định. • Biến đổi giá trị năm thành con số nguyên là số năm đã trôi qua so với năm hiện hành. • Chia giá trị số theo một hệ số để tập các giá trị nằm trong vùng nhỏ hơn. • Chuyển đổi yes-no thành 0-1. 2.Khai phá dữ liệu KPDL là tiến trình "điều chỉnh đúng" các mô hình dữ liệu. Chức năng biến đổi dữ liệu được đưa vào bước này với mục đích để trình diễn dữ liệu. 3.Trình diễn dữ liệu Trình diễn dữ liệu là quá trình giải thích và hiển thị trực quan các kết quả KPDL để hỗ trợ việc định giá chất lượng dữ liệu, đánh giá mô hình dữ liệu được lựa có phù hợp hay không, và thể hiện mô hình. Mỗi bước (trừ lưu trữ dữ liệu) cho phép tương tác người dùng, và một số bước (ví dụ như lựa chọn tài nguyên) có thể được thực hiện hoàn toàn thủ công. III. Khái quát các kỹ thuật KPDL 1 Khai thác tập phổ biến và luật kết hợp Là tiến trình khám phá các tập giá trị thuộc tính xuất hiện phổ biến trong các đối tượng dữ liệu. Từ tập phổ biến có thể tạo ra các luật kết hợp giữa các giá trị thuộc tính nhằm phản ánh khả năng xuất hiện đồng thời các giá trị thuộc tính trong tập các đối tượng. Một luật kết hợp X → Y phản ánh sự xuất hiện của tập X dẫn đến sự xuất hiện đồng thời tập Y. 4.Phân lớp dữ liệu Là tiến trình khám phá các luật phân loại hay đặc trưng cho các tập dữ liệu đã được xếp lớp. Tập dữ liệu học bao gồm tập đối tượng đã được xác định lớp sẽ được dùng để tạo mô hình phân lớp dựa trên đặc trưng của đối tượng trong tập dữ liệu học. Các luật phân lớp được sử dụng để xây dựng bộ phân lớp dữ liệu. Phân lớp dữ liệu có vai trò quan trọng trong tiến trình dự báo các khuynh hướng, quy luật phát triển. 5.Khai thác cụm Là tiến trình nhận diện các cụm tiềm ẩn trong tập các đối tượng chưa được xếp lớp. Tiến trình khai thác cụm dựa trên mức độ tương tự giữa các đối tượng. Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm là cực đại và mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là cực tiểu. Các cụm được đặc trưng bằng các MÔN HỌC : KHAI PHÁ DỮ LIỆU TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG tính chất chung của tất cả các đối tượng trong cụm. Do vậy, khao sát các cụm sẽ giúp khái quát, tổng kết nhanh chóng nội dung của khối dữ liệu lớn. PHẦN II : TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP I Mở đầu Các công ty bán lẻ hiện nay phải lưu một số lượng dữ liệu bán hàng khổng lồ. Một bản ghi trong CSDL này phải chứa các thông tin về ngày mua bán, hàng mua bán Từ CSDL bán hàng, chúng ta có thể tìm ra các mối quan hệ giữa các cặp thuộc tính - giá trị thuộc tính. Một luật kết hợp tiêu biểu: Có 78% khách hàng mua sữa hộp Vinamilk thì mua trà Lipton. Các công ty thành công thường tìm kiếm những luật như vậy để biết được xu hướng của thị trường, từ đó đưa ra những chương trình và chiến lược nhập hàng, bố trí mặt hàng cho phù hợp. IV. Bài toán khai thác tập phổ biến 1.Các khái niệm cơ bản Cho tập O là tập hữu hạn khác rỗng các hóa đơn và I là tập hữu hạn khác rỗng các mặt hàng, R là một quan hệ hai ngôi O và I sao cho với o ∈ O và i ∈ I, (o, i) ∈ R ⇔ hóa đơn o có chứa mặt hàng i. Ngữ cảnh KPDL là bộ ba (O, I, R). Ma trận ngữ cảnh KPDL: Quan hệ hai ngôi R được biểu diễn bằng một ma trận nhị phân trong đó dòng thứ i ứng với hóa đơn o i và cột thứ j ứng với mặt hàng i j . Ma trận này được gọi là ma trận biểu diễn ngữ cảnh KPDL. i 1 i 2 i 3 i 4 o 1 1 1 1 0 o 2 1 0 0 0 o 3 0 1 1 1 o 4 1 1 1 0 o 5 0 0 1 1 Bảng 1.1: Ma trận nhị phân biểu diễn ngữ cảnh KPDL Tập phổ biến: Cho ngữ cảnh KPDL (O,I,R) và S ⊂ I, độ phổ biến của S được định nghĩa là tỉ số giữa các hóa đơn có chứa S và số lượng hóa đơn trong O. Độ phổ biến của S ký hiệu SP(S) và được tính như sau: SP(S) = |ρ(S)| / |O| với |.| là lực lượng của tập hợp. MÔN HỌC : KHAI PHÁ DỮ LIỆU TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG Cho S ⊂ I và minsupp ∈ (0,1] là ngưỡng phổ biến tối thiểu, S là một tập phổ biến theo ngưỡng minsupp nếu và chỉ nếu SP(S) ≥ minsupp. Ký hiệu FS(O, I, R, minsupp) là tập hợp các tập phổ biến theo ngưỡng minsupp hay FS(O, I, R, minsupp) = { S ∈ P(I) | SP(S) ≥ minsupp }. Dàn các tập mặt hàng: Cho (O,I,R), xét P(I) là tập các tập hợp con của tập mặt hàng I và quan hệ thứ tự "⊆", thì (P(I), ⊆) là một dàn, Do I là tập mặt hàng nên dàn (P(I), ⊆) được gọi là dàn các tập mặt hàng. Dàn (P(I), ⊆) xác định không gian tìm kiếm lời giải của bài toán. Hình 1.1: Vi dụ về dàn các tập mặt hàng 2.Thuật toán tìm tập phổ biến Tập phổ biến được tìm dựa trên các tập phần tử có độ support tối thiểu. Thuật toán Apriori dựa trên nguyên tắc "Những tập con của tập phổ biến cũng là tập phổ biến", ví dụ như nếu {AB} là một tập phổ biến thì cả {A} và {B} đều là những tập phổ biến. Thuật toán Apriori: Bước kết hợp: Ck được tạo bằng cách kết Lk-1 với chính nó Bước rút gọn: Những tập kích thước (k-1) không phổ biến không thể là tập con của tập phổ biến kích thước k Mã giả: Ck: Tập ứng viên có kích thước k; Lk : Tập phổ biến có kích thước k L1 = {các phần tử phổ biến}; for (k = 1; Lk !=∅; k++) do begin Ck+1 = {các ứng viên được tạo từ Lk }; for each giao tác t trong database do MÔN HỌC : KHAI PHÁ DỮ LIỆU TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG Tăng số đếm của tất cả các ứng viên trong Ck+1 mà được chứa trong t Lk+1 = {các ứng viên trong Ck+1 có độ ủng hộ tối tiểu} end return ∪k Lk; Ví dụ minh họa cho thuật toán: Cho ngữ cảnh KPDL (O, I, R) trong bảng 1.1 và minsupp = 0,4. Các bước thực hiện thuật toán như sau: F1 = { {i1}, {i2}, {i3}, {i4} } • {i1}, v({i1}) = (1,0,0,1,0) SP({i1}) = SPV(v({i1})) = 2/5 = 0,4 Tập phổ biến • {i2}, v({i2}) = (1,1,1,1,0) SP({i2}) = SPV(v({i2})) = 4/5 = 0,8 Tập phổ biến • {i3}, v({i3}) = (1,1,1,1,1) SP({i3}) = SPV(v({i3})) = 4/5 = 1,0 Tập phổ biến • {i4}, v({i4}) = (0,1,1,0,1) SP({i4}) = SPV(v({i4})) = 3/5 = 0,6 Tập phổ biến F2 = { {i1, i2}, {i1, i3}, {i2, i3}, {i2, i4}, {i3, i4} } • {i1, i2}, v({i1, i2}) = (1,0,0,1,0) SP({i1,i2}) = SPV(v({i1, i2})) = 2/5 = 0,4 Tập phổ biến • {i1, i3}, v({i1, i3}) = (1,0,0,1,0) SP({i1,i3}) = SPV(v({i1, i3})) = 2/5 = 0,4 Tập phổ biến • {i1, i4}, v({i1, i4}) = (0,0,0,0,0) SP({i1,i4}) = SPV(v({i1, i4})) = 0/5 = 0,0 Không phải tập phổ biến • {i2, i3}, v({i2, i3}) = (1,1,1,1,0) SP({i2,i3}) = SPV(v({i2, i3})) = 4/5 = 0,8 Tập phổ biến • {i2, i4}, v({i2, i4}) = (1,1,1,0,0) SP({i2,i4}) = SPV(v({i2, i4})) = 2/5 = 0,4 Tập phổ biến • {i3, i4}, v({i3, i4}) = (0,1,1,0,1) SP({i3,i4}) = SPV(v({i3, i4})) = 3/5 = 0,6 Tập phổ biến F3 = { {i1, i2, i3}, {i2, i3, i4} } • {i1, i2, i3}, v({i1, i2, i3}) = (1,0,0,1,0) SP({i1,i2, i3}) = SPV(v({i1, i2, i3})) = 2/5 = 0,4 Tập phổ biến • {i1, i2, i4}, v({i1, i2, i4}) = (0,0,0,0,0) SP({i1,i2, i4}) = SPV(v({i1, i2, i4})) = 0/5 = 0,0 Không phải tập phổ biến • {i1, i3, i4}, v({i1, i3, i4}) = (0,0,0,0,0) SP({i1,i3, i4}) = SPV(v({i1, i3, i4})) = 0/5 = 0,0 Không phải tập phổ biến • {i2, i3, i4}, v({i2, i3, i4}) = (0,1,1,0,0) SP({i2,i3, i4}) = SPV(v({i2, i3, i4})) = 2/5 = 0,4 Tập phổ biến MÔN HỌC : KHAI PHÁ DỮ LIỆU [...]... DEMO KHAI PHÁ DỮ LIỆU I Mở đầu Chương trình Demo giới thiệu các thuật toán và phương pháp khai phá dữ liệu được trình bày trên phần cơ sở lý thuyết Bao gồm các phần sau: • Luật kết hợp: Tìm tất cả các tập phổ biến theo minsupp và tìm tập luật kết hợp dựa trên minconf Chương trình còn hỗ trợ tìm tập luật tối đại và phát sinh luật kết hợp theo tập tối đại Trong chương trình, còn có phần “Chi tiết thuật toán”... chọn “Phát sinh tập dữ liệu chưa có”, chương trình sẽ tự động tổ hợp và phát sinh ra các mẫu thử chưa xuất hiện trong tập CSDL huấn luyện Sau đó chương trình sẽ tự động phân lớp cho các mẫu chưa có đó MÔN HỌC : KHAI PHÁ DỮ LIỆU TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG Chương trình còn hỗ trợ thêm việc trình bày thuật toán chi tiết trong tab “Chi tiết thuật toán” Trong. .. phần này, chương trình sẽ trình bày các ước lượng xác xuất, sau đó sẽ trình bày chi tiết cách tính toán để phân lớp các mẫu thử MÔN HỌC : KHAI PHÁ DỮ LIỆU TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG XIV Demo rút gọn lớp tương đương MÔN HỌC : KHAI PHÁ DỮ LIỆU TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG Cách sử dụng demo: • Trong vùng... CỤM DỮ LIỆU I Mở đầu Gom cụm là hình thức học không giám sát trong đó các mẫu học chưa gán nhãn Mục đích của gom cụm dữ liệu là tìm các mẫu đại diện hoặc gom dữ liệu tương tự nhau Các điểm dữ liệu trong các cụm khác nhau có độ tương tự thấp hơn các điểm nằm trong cùng một cụm Một số ứng dụng tiêu biểu của gom cụm như: • Xem xét phân bố dữ liệu • Tiền xử lý cho các thuật toán • Khám phá thói quen và. .. TẠO THẠC SĨ CNTT QUA MẠNG Chương trình còn hỗ trợ thêm việc trình bày thuật toán chi tiết trong tab “Chi tiết thuật toán” MÔN HỌC : KHAI PHÁ DỮ LIỆU TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG XIII Demo phân lớp Bayes MÔN HỌC : KHAI PHÁ DỮ LIỆU TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG Cách sử dụng demo: • Trong vùng 1, chọn thuộc... CSDL cho trước và sinh ra hàm phân biệt Chương trình sẽ tự động rút gọn hàm phân biệt dựa trên luật hấp thụ và hiển thị quá trình hấp thụ trên chương trình • Thuật toán K-means: Chương trình dựa trên thuật toán K-means để gom cụm dữ liệu Chương trình hỗ trợ tính ra các cụm theo ma trận phân biệt hay cho trước vector trọng tâm Trong chương trình, còn có phần “Chi tiết thuật toán” để theo dõi các bước thực... trọng tâm và khoảng cách Euclide MÔN HỌC : KHAI PHÁ DỮ LIỆU TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG Giao diện chương trình: Giao diện chương trình gồm có hai phần làm việc: • Phần 1: Dùng để chọn các ứng dụng demo • Phần 2: Vùng làm việc dùng để xử lý các bài toán tương ứng với ứng dụng demo đã chọn Chương trình được phát triển trên Net Framework 4.0 và Visual... nhiễu và mẫu cá biệt • Không ảnh hưởng thứ tự nhập của dữ liệu • Làm việc tốt trên CSDL có số chiều cao • Chấp nhận các ràng buộc do user quy định • Có thể hiểu và sử dụng kết quả gom cụm Dựa trên cách tiếp cận và thuật toán sử dụng, người ta phân thuật toán gom cụm theo các phương pháp chính sau: • Các phương pháp phân hoạch • Các phương pháp phân cấp • Các phương pháp dựa trên mật độ • Các phương pháp... thiểu MÔN HỌC : KHAI PHÁ DỮ LIỆU TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG PHẦN III : PHÂN LỚP DỮ LIỆU I Mở đầu Phân lớp dữ liệu là xếp đố tượng dữ liệu vào một trong các lớp đã được xác định trước Phân lớp dữ liệu gồm hai bước là xây dựng mô hình và vận hành mô hình 1 Xây dựng mô hình: Nhằm mục tiêu mô tả một tập những lớp đã được định nghĩa trước trong đó mỗi bộ... và MinConf, và nhấn “2 Tính”, chương trình sẽ tự động tìm tập phổ biến và từ đó sinh ra các luật kết hợp Nếu chọn thêm checkbox “Phát sinh luật theo tập tối đại”, chương trình sẽ tự động tìm ra các tập luật phổ biến tối đại dựa trên tập phổ biến Từ đó, chương trình sẽ tự động tính ra các luật kết hợp dựa vào luật tối đại MÔN HỌC : KHAI PHÁ DỮ LIỆU TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐẠO TẠO . THÔNG TIN CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG ________________ BÁO CÁO THU HOẠCH MÔN HỌC KHAI PHÁ DỮ LIỆU Đề tài: Các kỹ thuật trong khai phá dữ liệu và các chương trình demo Giáo viên. này sẽ giới thiệu về ba kỹ thuật trong khai phá dữ liệu gồm luật kết hợp, phân lớp dữ liệu và gom cụm dữ liệu. Dựa vào những kỹ thuật đó, em đã xây dựng các chương trình demo kèm theo bài thu hoạch. trình ra quyết định. Có thể chia khai phá dữ liệu thành hai dạng chính: khai phá dữ liệu theo hướng kiểm tra va khai phá dữ liệu theo hướng khám phá. Trong khai phá dữ liệu theo hướng kiểm tra, người