Tìm hiểu luật kết hợp và kỹ thuật gom cụm trong khai phá dữ liệu – chương trình demo thuật toán Apriori và K-means

77 705 6
Tìm hiểu luật kết hợp và kỹ thuật gom cụm trong khai phá dữ liệu – chương trình demo thuật toán Apriori và K-means

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài Thu Hoạch “DATA MINING”  GVHD: PGS - TS Đỗ Phúc MỤC LỤC  MỤC LỤC 1 LỜI MỞ ĐẤU 2 NỘI DUNG 4 I. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 4 1. Khái niệm: 4 2. Quá trình phát hiện tri thức trong CSDL 14 3. Các kỹ thuật khai phá dữ liệu 16 II. LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 18 1. Khai phá luật kết hợp 18 2. Lý thuyết về luật kết hợp 19 III. MỘT SỐ THUẬT TOÁN PHÁT HIỆN LUẬT KẾT HỢP 29 1. Thuật toán Apriori 29 2. Thuật toán khắc phục nhược điểm thuật toán Apriori - Thuật toán FP-growth 36 IV. KỸ THUẬT GOM CỤM TRONG KHAI PHÁ DỮ LIỆU 40 1.Giới thiệu kỹ thuật phân cụm 40 2.Giới thiệu thuật toán K-means 41 3. Nội dung thuật toán K-means 42 4. Đánh giá thuật toán K-means 49 5. Thuật toán K-mediods - Biến thể và cải tiến của thuật toán K-means 49 V. GIỚI THIỆU CHƯƠNG TRÌNH DEMO THUẬT TOÁN APRIORI 50 1. Xây dựng chương trình 50 Chương trình được viết bằng ngôn ngữ lập trình C# với mục đích giúp người sử dụng: 50 2. Sử dụng chương trình: 51 3. Giao diện chương trình: 51 4. Code chương trình: 54 VI. GIỚI THIỆU CHƯƠNG TRÌNH DEMO THUẬT TOÁN K-MEANS 68 1. Xây dựng chương trình 68 Chương trình được viết bằng ngôn ngữ lập trình C++ với mục đích giúp người sử dụng:. .68 2. Sử dụng chương trình: 68 3. Giao diện chương trình: 69 4. Code chương trình: 71 KẾT LUẬN 75 TÀI LIỆU THAM KHẢO 77 HVTH: Nguyễn Thị Kim Phượng Trang 1 Bài Thu Hoạch “DATA MINING”  GVHD: PGS - TS Đỗ Phúc LỜI MỞ ĐẤU  Trong những năm gần đây, sự phát triển mạnh mẽ của CNTT và ngành công nghiệp phần cứng đã dẫn đến khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăng nhanh một cách vượt bậc. Bên cạnh đó, việc tin học hoá một cách ồ ạt và nhanh chóng trong các lĩnh vực hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo nên một lượng dữ liệu lưu trữ khổng lồ. Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kỹ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ thành các tri thức có ích. Hơn ai hết, các nhà quản lý đều biết rằng: “Có CSDL là có thông tin - Có thông tin là có tri thức – Và vận dụng tri thức hiệu quả sẽ dẫn đến thành công”. Vì thế, một trong những vấn đề “quyết định” hiện nay là cần có kỹ thuật khai phá dữ liệu một cách hiệu quả, để có thể đáp ứng nhanh chóng các yêu cầu mang tính chuyên nghiệp ngày một cao của các nhà quản lý. Khai phá dữ liệu (Data Mining) thực chất là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong khối lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu… Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ CSDL (Knowlegde Mining From Databases), trích lọc dữ liệu (Knowlegde Extraction), phân tích dữ liệu/mẫu (Data/Pattern Analysis), khảo cổ dữ liệu (Data Archaeology), nạo vét dữ liệu (Data Dredging). Nhiều người xem khai phá dữ liệu và một thuật ngữ thông dụng khác là khám phá tri thức trong CSDL (Knowlegde Discovery in Databases – KDD) là như nhau. Tuy nhiên trên thực tế, khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình khám phá tri thức trong CSDL. Trong xu thế phát triển chung, việc nắm bắt được thông tin được xem là cơ sở của mọi hoạt động sản xuất, kinh doanh. Cá nhân hoặc tổ chức nào có thể thu thập và hiểu được thông tin, và hành động để đưa ra các phương án dựa trên các thông tin được kết xuất từ các thông tin đã có thì có thể nói bước đầu đã đạt được thành công trong hoạt động. HVTH: Nguyễn Thị Kim Phượng Trang 2 Bài Thu Hoạch “DATA MINING”  GVHD: PGS - TS Đỗ Phúc Ví dụ: Khảo sát thông tin để tìm hiểu nhu cầu mua sắm của khách hàng, trên cơ sở đó đề ra chiến lược kinh doanh, sắp xếp các nhóm hàng trong siêu thị hợp lý hay có cách tiếp cận đặc biệt đến các đối tượng người dùng đa dạng (phân nhóm khách hàng tiềm năng, VIP để có thể phục vụ khách hàng tốt nhất…). Mặt khác, sự tăng trưởng vượt bậc của các CSDL: thương mại, quản lý và khoa học đã làm nảy sinh và thúc đẩy sự phát triển của kỹ thuật thu thập, lưu trữ, phân tích và khai phá dữ liệu… không chỉ bằng các phép toán đơn giản thông thường như: phép đếm, thống kê… mà đòi hỏi cách xử lý thông minh hơn, hiệu quả hơn. Từ việc nắm bắt thông tin “có chọn lọc” các nhà quản lý có được thông tin có ích để tác động trở lại quá trình sản xuất, kinh doanh của mình… Các kỹ thuật cho phép ta khai thác được tri thức hữu dụng từ CSDL được gọi là các kỹ thuật khai phá dữ liệu (DM – Data Mining). Trong đó, khai phá luật kết hợp và gom cụm dữ liệu là những nội dung quan trọng trong khai phá dữ liệu. Chính vì những hiệu quả thiết thực của khai phá dữ liệu, mà trong bài thu hoạch chuyên đề “Khai phá dữ liệu và nhà kho dữ liệu” em sẽ trình bày nội dung: “Tìm hiểu luật kết hợp và kỹ thuật gom cụm trong khai phá dữ liệu – chương trình demo thuật toán Apriori và K-means”, với mục đích hệ thống hóa kiến thức của môn học mới, phân tích ưu khuyết điểm của từng thuật toán để người dùng có thể định hướng cách tiếp cận cũng như lựa chọn sử dụng kỹ thuật đúng theo yêu cầu hay thích hợp trong từng lĩnh vực mà mình quan tâm và qua demo chương trình giúp người sử dụng chương trình có thể xác định các luật kết hợp cũng như có kỹ thuật gom cụm dữ liệu một cách nhanh chóng mà vẫn hiệu quả. Thông qua bài thu hoạch, em xin gửi lời cảm ơn đến Phó Giáo sư - Tiến sỹ Đỗ Phúc. Với kiến thức sâu rộng, lòng nhiệt tình, thái độ làm việc rất nghiêm túc cùng với cách giảng giải rõ ràng, dễ hiểu, qua các câu chuyện, ví dụ ứng dụng trong thực tế cuộc sống, thầy đã tận tâm truyền đạt những kiến thức nền tảng cơ bản cho chúng em về môn học “KHAI PHÁ DỮ LIỆU VÀ NHÀ KHO DỮ LIỆU” – và điều này thật sự giúp em hiểu rõ hơn vấn đề, mở HVTH: Nguyễn Thị Kim Phượng Trang 3 Bài Thu Hoạch “DATA MINING”  GVHD: PGS - TS Đỗ Phúc rộng tầm nhìn, thấy được sự cần thiết của môn học đang ảnh hường và chi phối đến nhiều lĩnh vực trong thời đại. NỘI DUNG  I. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1. Khái niệm: Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ 80. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu). Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy trong tập dữ liệu. Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm phát hiện tri thức trong cơ sở dữ liệu để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn; trong đó khai phá dữ liệu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu hay các mô hình từ dữ liệu. Data Mining là một giai đoạn quan trọng trong quá trình khám phá tri thức trong cơ sở dữ liệu. Quá trình khám phá tri thức trong cơ sở dữ liệu bao gồm 6 bước sau: - Gom nhóm dữ liệu: Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá tri thức. Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web. - Trích lọc dữ liệu: Là bước tuyển chọn những tập dữ liệu cần được khai phá từ các tập dữ liệu lớn (Databases, Data Warehouses, Data Repositories) ban đầu theo một số tiêu chí nhất định. - Làm sạch, tiền xử lý dữ liệu: Là bước làm sạch dữ liệu (xử lý dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán, ), tổng hợp dữ liệu (nén, nhóm dữ liệu, tính tổng, xây dựng các histograms, lấy mẫu, ), rời rạc HVTH: Nguyễn Thị Kim Phượng Trang 4 Bài Thu Hoạch “DATA MINING”  GVHD: PGS - TS Đỗ Phúc hóa dữ liệu (rời rạc hóa dựa vào histograms, entropy, phân khoảng, ). Sau bước tiền xử lý này, dữ liệu sẽ nhất quán, đầy đủ hơn. - Chuyển đổi dữ liệu: Chuyển đổi dữ liệu về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp. - Khai phá dữ liệu: Là bước áp dụng những kỹ thuật phân tích, những mối quan hệ đặc biệt trong dữ liệu. Đây được xem là bước quan trọng và tốn thời gian nhất của toàn bộ quá trình khám phá tri thức. - Đánh giá luật: Đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa trên một số phép đo. Sau đó sử dụng các kỹ thuật trình diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng. Mục đích chính của khai thác dữ liệu: - Mô tả: mô tả về những tính chất hoặc đặc tính chung của dữ liệu trong cơ sở dữ liệu hiện có - Dự đoán: đưa ra các dự đoán dựa vào việc phân tích dữ liệu hiện thời. Dựa vào hai mục đích chính này của khai thác dữ liệu, người ta sử dụng các phương pháp sau: Các phương pháp khai thác dữ liệu HVTH: Nguyễn Thị Kim Phượng Trang 5 Bài Thu Hoạch “DATA MINING”  GVHD: PGS - TS Đỗ Phúc Kỹ thuật khai phá dữ liệu dự đoán: Nhiệm vụ của khai phá dữ liệu dự đoán là đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời và thường sử dụng các biến hay các trường trong cơ sở dữ liệu để dự đoán các giá trị không biết hay các giá trị tương lai. Bao gồm các kỹ thuật: phân loại (classification), hồi quy (regression)  Kỹ thuật phân loại : Mục tiêu của phương pháp phân loại dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu. Quá trình phân loại dữ liệu thường gồm 2 bước: xây dựng mô hình và sử dụng mô hình để phân loại dữ liệu. Xây dựng mô hình: dựa trên việc phân tích các mẫu dữ liệu cho trước gọi là tập huấn luyện (training set). Mỗi mẫu thuộc về một lớp, được xác định bởi một thuộc tính gọi là thuộc tính lớp. Các nhãn lớp của tập training set đều phải được xác định trước khi xây dựng mô hình, vì vậy phương pháp này còn được gọi là học có giám sát. Sử dụng mô hình để phân loại dữ liệu: Trước hết chúng ta phải tính độ chính xác của mô hình. Nếu độ chính xác là chấp nhận được, mô hình sẽ được sử dụng để dự đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai.  Kỹ thuật hồi qui : Kỹ thuật hồi qui có chức năng tương tự như kỹ thuật phân loại, tuy nhiên, hồi qui sử dụng cho kiểu dữ liệu liên tục còn phân loại sử dụng cho dữ liệu. Kỹ thuật khai phá dữ liệu mô tả  Kỹ thuật phân cụm : Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng. Phân cụm dữ liệu là một ví dụ của phương pháp học không giám sát. Không giống như phân loại dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng quan sát (Learning By Observation), trong khi phân loại dữ liệu là học bằng ví dụ (Learning By Example). HVTH: Nguyễn Thị Kim Phượng Trang 6 Bài Thu Hoạch “DATA MINING”  GVHD: PGS - TS Đỗ Phúc  Kỹ thuật hồi qui : Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong CSDL. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được. Phương pháp lựa chọn Mục đích của kỹ thuật phân loại chính là dự đoán thuộc tính lớp dựa vào các trường đã biết trong cơ sở dữ liệu và dựa vào tập huấn luyện mẫu. Giới thiệu các kỹ thuật phân loại • Cây quyết định Tư tưởng thuật toán Cây quyết định là cấu trúc cây có dạng biểu đồ luồng, mỗi nút trong là kiểm định trên một thuộc tính, mỗi nhánh đại diện cho một kết quả kiểm định, các nút lá đại diện cho các lớp. Nút cao nhất trên cây là nút gốc. Rút luật từ Cây quyết định “Chơi Tennis” (theo VD: tập học trang 8,9) Để phân loại một mẫu chưa biết, các giá trị thuộc tính của mẫu sẽ được kiểm định trên cây. Đường đi từ gốc tới một nút lá cho biết dự đoán lớp đối với mẫu đó. (Với P là mẫu dương tương ứng quyết định Yes; Với N là mẫu âm tương ứng quyết định No) Mục đích giải thuật: Xây dựng cây quyết định từ tập training set cho trước. • Thuật toán ID3 HVTH: Nguyễn Thị Kim Phượng Trang 7 Nắng Vừa 00 Thời ết Thời ết Độ ẩm Độ ẩm Gió Gió P P N N N N p p P P U ám Mưa Cao Không00 Có00 Nút gốc Nút gốc Nút trongg Nút trongg Nút lá Nút lá Bài Thu Hoạch “DATA MINING”  GVHD: PGS - TS Đỗ Phúc Thuật toán ID3 (Quinlan 86) là một trong những thuật toán xây dựng cây quyết định sử dụng Information Gain để lựa chọn thuộc tính phân lớp đối tượng. Thuật toán xây dựng cây theo cách từ trên xuống, bắt đầu từ một tập các đối tượng và đặc tả của các thuộc tính. Tại mỗi đỉnh của cây, một thuộc tính có Information Gain lớn nhất sẽ được chọn để phân chia tập đối tượng. Quá trình này được thực hiện một cách đệ qui cho đến khi một tập đối tượng tại một cây con đã cho trở nên thuần nhất, tức là nó chỉ chứa các đối tượng thuộc về cùng một lớp. Lớp này sẽ trở thành một lá của cây Độ đo lựa chọn thuộc tính - Information Gain Entropy: Ý nghĩa: Xác định độ hỗn loạn thông tin của dữ liệu. Công thức : Entropy(P1, P2, P3…)=-P1 log P1-P2 log P2-…-Pn log Pn Information Gain Ý nghĩa: Độ lợi thông tin. Nó xác định mức độ hiệu quả của một thuộc tính trong bài toán phân lớp dữ liệu. Đó chính là sự rút gọn mà ta mong đợi khi phân chia các lớp dữ liệu theo thuộc tính này. Công thức: Gains = Entropy [trước khi phân hoạch] – Entropy [sau khi phân hoạch] = Entropy (S) – Entropy (P1, P2 , , Pn) Cây quyết định sẽ lựa chọn thuộc tính có Gains lớn nhất làm nút gốc. Ví dụ: Outlook Temperator Humidity Windy Play ? Sunny hot high FALSE no Sunny hot high TRUE no Overcast hot high FALSE yes Rain mild high FALSE yes Rain cool normal FALSE yes Rain cool normal TRUE no Overcast cool normal TRUE yes HVTH: Nguyễn Thị Kim Phượng Trang 8 Bài Thu Hoạch “DATA MINING”  GVHD: PGS - TS Đỗ Phúc Sunny mild high FALSE no Sunny cool normal FALSE yes Rain mild normal FALSE yes Sunny mild normal TRUE yes Overcast mild high TRUE yes Overcast hot normal FALSE yes Rain mild high TRUE no 1.Tạo nút gốc( rootNode), chứa đựng toàn bộ learning set. Entropy của nút gốc : Entropy(rootNode.subset)= -(9/14)log 2( 9/14 ) – ( 5/14)log 2(5/14)= 0.940 2.Tính toán thông tin nhận được cho mỗi thuộc tính: Gain(S,Windy)= Entropy(S)-(8/14)Entropy(S false) – (6/14)Entropy(S true) = 0.048 Gain(S,Humidity) = 0.151 Gain(S,Temperature) = 0.029 Gain(S,Outlook) = 0.246 3. Chọn lựa những thuộc tính với Gain lớn nhất .Thuộc tính được lựa chọn thành nút gốc là Outlook 4. Áp dụng ID3 cho mỗi nút con của nút gốc này, cho đến khi đạt đến nút lá hoặc nút có entropy = 0. HVTH: Nguyễn Thị Kim Phượng Trang 9 Bài Thu Hoạch “DATA MINING”  GVHD: PGS - TS Đỗ Phúc Cây quyết định chọn Outlook làm nút gốc Cây quyết định cuối cùng • Thuật toán K-Nearest Neighboard (K-NN) Tư tưởng thuật toán K-NN là phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần xếp lớp (Query point) và tất cả các đối tượng trong Training Set. HVTH: Nguyễn Thị Kim Phượng Trang 10 [...]... thành công trong rất nhiều bài toán kinh doanh Như vậy, khai phá luật kết hợp là một phương pháp xử lý thông tin quan trọng và phổ biến, nó nhằm khám phá mối liên hệ giữa các mẫu dữ liệu II LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 1 Khai phá luật kết hợp Được giới thiệu từ năm 1993, bài toán khai thác luật kết hợp nhận được rất nhiều sự quan tâm của nhiều nhà khoa học Ngày nay việc khai thác các luật như... hữu ích và cho phép chọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu Bước thứ hai: Thu thập và tiền xử lý dữ liệu - Thu thập và xử lý thô, còn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu (làm sạch dữ liệu) , xử lý việc thiếu dữ liệu (làm giàu dữ liệu) , biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước này thường chiếm nhiều thời gian nhất trong. .. các kết quả có thể là các dự đoán hoặc các mô tả nên chúng có thể được đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hoá quá trình này Tóm lại: KDD là một quá trình kết xuất ra tri thức từ kho dữ liệu mà trong đó khai phá dữ liệu là công đoạn quan trọng nhất 3 Các kỹ thuật khai phá dữ liệu 3.1 Các kỹ thuật tiếp cận trong Data mining Căn cứ vào lớp các bài toán cần giải quyết, khai phá dữ liệu. .. chức năng, nhiệm vụ và mục đích của khai phá dữ liệu, dùng phương pháp khai phá nào? Thông thường, các bài toán khai phá dữ liệu bao gồm: các bài toán mang tính mô tả - đưa ra tính chất chung nhất của dữ liệu, các bài toán dự báo - bao gồm cả việc phát hiện các suy diễn dựa trên dữ liệu hiện có Tùy theo bài toán xác định được mà ta lựa chọn các phương pháp khai phá dữ liệu cho phù hợp Bước thứ tư: Sử... luật kết hợp cho đến nay đã được nghiên cứu và phát triển theo nhiều hướng khác nhau Có những đề xuất nhằm cải tiến tốc độ thuật toán, có những đề xuất nhằm tìm kiếm luật có ý nghĩa hơn… và có một số hướng chính như sau Luật kết hợp nhị phân: là hướng nghiên cứu đầu tiên của luật kết hợp Hầu hết các nghiên cứu ở thời kỳ đầu về luật kết hợp đều liên quan đến luật kết hợp nhị phân Trong dạng luật kết hợp. .. được là ACE→BD, ở đó B và D là các kết luận của các luật kết hợp có 1- mục ở phần kết luận Thuật toán nhanh hơn mô tả ở trên chỉ kiểm tra một luật này 2 Thuật toán khắc phục nhược điểm thuật toán Apriori - Thuật toán FPgrowth 2.1 Ý tưởng thuật toán Thuật toán kinh điển Apriori tìm tập mục phổ biến thực hiện tốt bởi rút gọn kích thước các tập ứng cử nhờ kỹ thuật tỉa Tuy nhiên, trong tình huống mà số... ứng dụng điển hình trong khai phá dữ liệu có thể liệt kê: (i) phân tích dữ liệu và hỗ trợ ra quyết định; (ii) điều trị y học; (iii) phát hiện văn bản; (iv) tin sinh học; (v) tài chính và thị trường chứng khoán; (vi) bảo hiểm 3.4 Khai phá luật kết hợp và ứng dụng Luật kết hợp là một biểu thức có dạng: X ⇒ Y , trong đó X và Y là tập các trường gọi là item Ý nghĩa của các luật kết hợp khá dễ nhận thấy:... phát triển từ thuật toán Apriori- Tid Để phát hiện các tập chỉ báo nhị phân phổ biến từ các luật kết hợp nhị phân từ hệ thông tin nhị phân Thuật toán này làm việc với các bit trong bộ nhớ và không làm việc với CSDL trên đĩa, vì thế có thể cải tiến tốc độ quá trình phát hiện luật Cho một CSDL và hai ngưỡng độ hỗ trợ tối thiểu minsup và độ tin cậy tối thiểu minconf của luật kết hợp Thuật toán Apriori- Tid... các kỹ thuật áp dụng sau: Phân lớp và dự đoán: xếp một đối tượng vào một trong những lớp đã biết trước Ví dụ: phân lớp các dữ liệu của bệnh nhân trong hồ sơ bệnh án Hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định, mạng nơ ron nhân tạo Luật kết hợp: Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong CSDL Mẫu đầu ra của giải thuật khai phá. .. Đỗ Phúc toán song song khác nhau đã đề xuất để có thể không phụ thuộc vào phần cứng Bên cạnh những nghiên cứu về các biến thể của luật kết hợp, các nhà nghiên cứu còn chú trọng đề xuất những thuật toán nhằm tăng tốc quá trình tìm kiếm tập phổ biến từ CSDL Ngoài ra, còn có một số hướng nghiên cứu khác về khai thác luật kết hợp như: khai thác luật kết hợp trực tuyến, khai thác luật kết hợp được kết nối . Khai phá dữ liệu và nhà kho dữ liệu em sẽ trình bày nội dung: Tìm hiểu luật kết hợp và kỹ thuật gom cụm trong khai phá dữ liệu – chương trình demo thuật toán Apriori và K-means , với mục đích hệ. QUAN VỀ KHAI PHÁ DỮ LIỆU 4 1. Khái niệm: 4 2. Quá trình phát hiện tri thức trong CSDL 14 3. Các kỹ thuật khai phá dữ liệu 16 II. LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 18 1. Khai phá luật kết hợp 18 2 về luật kết hợp 19 III. MỘT SỐ THUẬT TOÁN PHÁT HIỆN LUẬT KẾT HỢP 29 1. Thuật toán Apriori 29 2. Thuật toán khắc phục nhược điểm thuật toán Apriori - Thuật toán FP-growth 36 IV. KỸ THUẬT GOM CỤM

Ngày đăng: 09/04/2015, 22:51

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan