Phương pháp luật kết hợp trong khai phá dữ liệu

LỜI CẢM ƠN Luận văn này được hoàn thành với sự hướng dẫn của GS.TS Vũ Đức Thi - Viện Công nghệ thông tin. Trước tiên tôi xin chân thành bày tỏ lòng biết ơn sâu sắc tới GS.TS Vũ Đức Thi, người đã tận tình hướng dẫn, động viên giúp đỡ tôi trong suốt thời gian thực hiện luận văn. Tôi cũng xin chân thành cảm ơn các thầy cô trong Viện Công nghệ thông tin, Trường Đại học Sư phạm Hà Nội 2, tạo điều kiện thuận lợi cho tôi hoàn thành tổt khóa học. Xin chân thành cảm ơn các anh, các chị và các bạn học viên lớp Cao học K15KHMT- Trường Đại học sư phạm Hà Nội 2 đã luôn động viên, giúp đỡ và nhiệt tình chia sẻ với tôi những kinh nghiệm học tập, công tác trong suốt khoá học. Cuổi cùng, tôi xin gửi lời cảm ơn sâu sắc đển gia đình, người thân, bạn bè đã động viên, khuyến khích và hồ trợ cần thiết để tôi hoàn thành luận văn này. Mặc dù rất cố gắng, song luận văn này không thể tránh khỏi những thiếu sót, kính mong được sự chỉ dẫn của các quý thầy cô và các bạn. Hà Nội, ngày 5 tháng 12 nẵm 20]3 Người viết Phù Xuân Vĩnh LỜI CAM ĐOAN Tôi xin cam đoan rằng so liệu và kết quả nghiên cứu trong luận văn này là trung thực và không trùng lặp với các đề tài khác. Tôi cũng xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn và các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc. Hà Nội, ngày 05 tháng 12 nãm 2013 Ngưòi cam đoan Phù Xuân Yĩnh ] MỤC LỤC TRANG PHỤ BÌA ’ ’ TRANG BẢNG KÝ HIỆU CHỮ VIÉT TẮT DANH MỤC CÁC BẢNG Bảng 2.1. Giao dịch mua hàng Bảng 2.2. Tính độ hỗ trợ cho các tập hợp chửa các mặt hàng Bảng 2.3. Các luật kết hợp và độ tin cậy của chúng Bảng 2.4. Dùng thuật toán Apriori tính ra các tập hợp xuất hiện ơ-thường xuyên Bảng 2.5. Ma trận biếu diễn cơ sở dữ liệu Bảng 2.6. Vector biểu diễn nhị phân cho tập 1 thuộc tính Bảng 2.7. Vector biểu diễn nhị phân cho các tập 2 thuộc tính Bảng STT Ký hiệu viết tắt Giải thích 1 ABBM: Algorithm Based on Boolean Matrix Thuât toán dưa trên ma trân Boolean 2 CSDL Cơ sờ dữ liêu 3 DBMS Hệ quản trị cơ sờ dữ liệu 4 IR (Information Retrieval) Truy xuất thông tin 5 KPDL Khai phá dữ liệu 6 OODBMS Object Oriented Database Management System Hệ quản trị cơ sở dữ liệu hướng đối tượng 7 RDBMS Ralational Database Management System Hệ quán trị cơ sở dữ liệu quan hệ 8 Ỉ 5^-J } Tập n mục dữ liệu 9 DB = {T t ,T 2 , ,T m } Cơ sở dữ liệu có m giao tác 10 db Cơ sở dữ liệu giao tác con của DB, db ÇDB 11 ip Mục dữ liệu thứ p 12 T Giao tác thứ q 13 n Sô mục dữ liệu một cơ sở dữ liệu giao tác 14 m Sô giao tác của một cơ sở dữ liệu giao tác 15 A,B,C Tên các mục dữ liệu trong cơ sở dữ liệu giao tác 16 minsup Ngưỡng độ hỗ trợ 17 minshare Ngưỡng cổ phần tối thiếu 18 minconf Ngưỡng độ tin cậy tối thiểu 19 X Số phần tử của tập hợp X 2 2.8. Vector biểu diễn nhị phân cho các tập 3 thuộc tính Bảng 2.9. Vector biểu diễn nhị phân cho các tập 4 thuộc tính Bảng 3.1. Cơ sở dữ liệu ví dụ Bảng 3.2. Giá trị ỉmv và co phẩn của các mục dữ liệu trong CSDL bảng 3.1. Bảng 3.3. Các tập mục cổ phần cao của CSDL bảng, 3.1 Bảng 3.4.CSDL mình hoạ ngữ nghĩa của tập mục cổ phần cao Bảng 3.5a. CSDL minh hoạ có trường hợp hai hàm tới hạn bằng nhau Bảng 3.5b. CSDL minh hoạ có trường hợp hai hàm tới hạn luôn bằng nhau Bảng 3.10. Các tập mục cổ phần cao của CSDL bảng 3.1 DANH MỤC CÁC HÌNH Hình 1.1. Quy trình phát hiện tri thức từ cơ sở dữ liệu Hình 1.2. Tập dữ liệu với hai lớp: có và không có khả năng trả nợ Hình 1.3. Phân loại của các dữ liệu vay nợ trong hai miền lớp Hình 1.4. Phân cụm tập dữ liệu cho vay thành 3 cụm Hình 1.5. Kiến trúc điến hình của một hệ thong khai phá dữ liệu Hình 3.1. Minh họa bảng dữ liệu giao tác có số lượng Hình 3.2. Cấu trúc file nhập dữ liệu mẫu minh họa. Hình 3.3. Giao diện chương trình XAMPP Hình 3.4. Giao diện chính của chương trình Hình 3.5. Giao diện màn hình chọn file dữ liệu Hình 3.6. Giao diện màn hình nhập file dữ liệu Hình 3.7. Giao diện mànhình nhập ngường cổ phần tối thiểu Hình 3.8. Giao diện mànhình nhập ngưỡng cồ phần không đúng Hình 3.9, Giao diện màn hình ghi lại file kết quả MỞ ĐẦU 1. Lý do chọn đề tài Khai phá dữ liệu là một lĩnh vực quan trọng của ngành CNTT. Khai phá luật kết hợp là một kỹ thuật quan trọng của khai phá dữ liệu. Tri thức chiết xuất được từ CSDL là nguồn tài liệu hỗ trợ cho lãnh đạo trong việc lên kế hoạch hoạt động hoặc trong việc ra quyết định sản xuất kinh doanh. Vì vậy, tính ứng dụng của khai thác luật kết hợp từ cơ sở dữ liệu là một vấn đề đang được quan tâm. Khai phá dữ liệu là giai đoạn quan trọng trong tiến trình khai thác tri thức từ cơ sở dữ liệu, các tri thức này hỗ trợ cho việc ra quyết định trong khoa học và kinh 3 doanh. Khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau: Tài chính, ngân hàng, bảo hiếm, khoa học, y tế Rất nhiều to chức và công ty lớn trên thế giới đã áp dụng kỹ thuật khai phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình và thu được những lợi ích to lớn. Mục đích nghiên cứu của đề tài là tìm hiểu các kỹ thuật khai phá dữ liệu; các vẩn đề liên quan đến luật kết hợp và tập mục cố phần cao, nham phát hiện và đưa ra các mối liên quan giữa các giá trị dữ liệu trong cơ sở dữ liệu. Áp dụng và cài đặt được một chương trình khai phá tập mục cố phần cao theo thuật toán AFSM (Advanced Fast Share Measure) . Với những ]ý do trình bày ở trên, tôi mạnh dạn chọn đề tài luận văn thạc sĩ của mình là: “ Phương pháp luật kết hợp trong khai phá dữ liệu ” 2. Mục đích nghiên cứu - Tìm hiếu về các kỹ thuật khai phá dữ liệu, các vấn đề liên quan đến khai phá luật kết hợp nhằm phát hiện đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu. - Tìm hiểu bài toán khai phá tập mục cổ phần cao và cơ sở ]ỷ thuyết của thuật toán FSM và AFSM từ đó đưa ra thực nghiệm tìm tất cả các tập mục cổ phần cao theo thuật toán AFSM (Advanced Fast Share Measure). 3. Nhiệm vụ nghiên cứu - Nghiên cứu tổng quan về khai phá dữ liệu, luật kết hợp trong cơ sở dữ liệu. - Nghiên cún các bài toán, thuật toán luật kểt hợp và khai phá tập mục cố phần cao trong khai phá dữ liệu. 4. Đối tượng và phạm vi nghiên cứu - Nghiên cứu một số kỹ thuật khai phá dữ liệu sử dụng luật kết hợp. - Nghiên cứu thuật toán luật kết hợp trong khai phá dữ liệu - Nghiên cứu bài toán khai phá tập mục cô phân cao theo thuật toán AFSM 5. Dự kiến đóng góp mói Đe tài khi hoàn thành sẽ giải quyết một phần quan trọng của bài toán tìm luật kết hợp và khai phá tập mục cổ phần cao. Đây là cơ sở để có thể phát triển ứng dụng áp dụng trong thực tể ở tất cả các lĩnh vực kinh doanh (bài toán bán hàng trong siêu thị), Tài chính, ngân hàng, bảo hiểm hiện nay. 4 6. Phương pháp nghiên cứu - Nghiên cứu tài liệu, tìm hiểu các thông tin trên Internet về các kỹ thuật liên quan. - Sử dụng thừ nghiệm công cụ có sẵn để hiểu rõ bản chất vấn đề, sau đó xây dựng chương trình demo. CHƯƠNG 1. TÒNG QUAN VÈ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ Dữ LIỆU 1.1.Phát hiện tri thức và khai phá dữ liệu Sự phát triển mạnh mẽ của công nghệ thông tin làm cho khả năng thu thập và xử lỷ thông tin của các hệ thống thông tin tăng một cách nhanh chóng. Số liệu thống kê đưa ra vào năm 2006 cho thấy tình trạng “ngập tràn thông tin mà thiếu thon trí thức ” hiện nay, tồn tại nhiều kho chửa dữ liệu khống lồ có dung lượng tăng trưởng với tốc độ cao. Hàng triệu cơ sở dữ liệu đã được sử dụng trong các hoạt động sản xuất, kinh doanh, quản lý , trong đó có nhiều ca sở dữ liệu cực lớn cỡ Gigabyte, thậm chí là Terabyte. Ví dụ điến hình là Yahoo! có hơn 100TB, Google đã lưu trữ hơn 4 tỷ trang Web với dung lượng nhiều trăm ТВ; Aìexa sau 7 năm đã có 500 ТВ. [6] Việc thu thập và lưu trữ các kho chứa dữ liệu khống lồ được liệt kê trên đây dẫn tới một yêu cầu cấp thiết là cẩn có những kỹ thuật và công cụ mới đế tự động chuyến đối lượng dữ liệu khống lồ thành các tri thức có ích. Do vậy, khai phá dữ liệu (KPDL) nhằm phát hiện các tri thức mới giúp ích cho hoạt động của con người đã trở thành một lĩnh vực quan trọng của ngành Công nghệ thông tin. 1.2.Quá trình phát hiện tri thức từ cơ sở dữ liệu Thông tin là một khái niệm trừu tượng, được thế hiện dưới nhiều dạng thức khác nhau. Thông tin có thể được phát sinh, lưu trữ, biển đổi trong những vật mang tin (gọi là giá). 5 Dữ liệu là sự biểu diễn thông tin và được thể hiện bằng các tín hiệu vật lý, Dữ liệu là một dãy các bit, các số và các ký hiệu, hoặc các “đối tượng” có một ý nghĩa nào đó khi được gửi cho một chương trình dưới một dạng nhất định. Sử dụng các bit đế đo lường các thông tin và xem nó như là các dữ liệu đã được lọc bỏ các dư thừa, được rút gọn tới mức tối thiếu đế đặc trưng mộtcách cơ bản cho dữ liệu. Có thế xem tri thức như là các thông tin tích hợp, bao gồm các sự kiện và các mối quan hệ giữa chúng. Các moi quan hệ này có thể được hiểu ra, có thể được phát hiện, hoặc có thể được học. Nói cách khác, tri thức có thế được coi là dữ liệu có độ trừu tượng và tố chức cao.[6] Phát hiện tri thức trong các cơ sở dữ liệu là một quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thế hiếu được. Khai phá dữ liệu là một bước trong quy trình phát hiện tri thức gồm có các thuật toán khai phá dữ liệu chuyên dùng dưới một so quỵ định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu. Nói một cách khác, mục đích của phát hiện tri thức và KPDL là tìm ra các mẫu và các mô hình đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị che khuất bởi hàng “núi” dữ liệu. Quá trình phát hiện tri thức được mô tả tóm tắt trên Hình 1.1: 6 \ Dữ liêu ! ! _ _ 1 Dữ liệu đã 1 tiền Dữ Hình 1.1. Quy trình phát hiện tri thức từ cơ sở dữ liệu Làm sạch dữ liệu (Data cleaning): Loại bỏ dữ liệu nhiễu hoặc dữ liệu không thích hợp. - Tích hợp dữ liệu (Data integration): Tích hợp dữ liệu từ các nguồn khác nhau. - Chọn dữ liệu (Data Selection): Chọn những dữ liệu liên quan trực tiếp đến nhiệm vụ. - Chuyển đổi dữ liệu (Data Transformation): Chuyển dữ liệu về những dạng phù hợp cho việc khai phá. - KPDL (Data mining): Các kỹ thuật được áp dụng đế trích xuất thông tin có ích hoặc các mẫu điển hình trong dữ liệu. - Đánh giá mẫu (Pattern evaluation): Đánh giá mẫu hoặc tri thức đã thu được. -Trình diễn dữ liệu (Knowledge Presentation): Biếu diễn nhữns tri thức khai phá được cho người sử dụng. Nhiều người coi KPDL và khám phá tri thức trong cơ sở dữ liệu là như nhau. Tuy nhiên trên thực tế, KPDL là một bước trong quá trình phát hiện tri thức trong cơ sở dữ liệu, thi hành một thuật toán KPDL đế tìm ra các mẫu từ dữ liệu theo khuôn dạng thích hợp. 1.2.1. Xác định vấn đề Là một quá trình mang tính định tính với mục đích xác định được lĩnh vực yêu cầu phát hiện tri thức và xây dựng bài toán tổng kểt. Trong thực tể, các cơ sờ dữ liệu được chuyên môn hóa và phân chia theo các lĩnh vực khác nhau như sản phấm, kinh doanh, tài chính, Với mỗi tri thức phát hiện được có thể có giá trị trong lĩnh vực này nhưng lại không mang nhiều ý nghĩa đối với một lĩnh vực khác. Vì vậy mà việc xác định lĩnh vực và định nghĩa bài toán giúp định hướng cho giai đoạn tiếp theo thu thập và tiền xừ lý dữ liệu. 1.2.2, Thu thập và tiền xử lý dữ liệu Các cơ sở dữ liệu thu được thường chứa rất nhiều thuộc tính nhưng lại không đầy đủ, không thuần nhất, có nhiều lỗi và các giá trị đặc biệt. VI vậy, giai đoạn thu thập và tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình phát hiện trì thức từ cơ sở dữ liệu. Có thế nói rằng giai đoạn này chiếm từ 70% đến 80% giá thành trong toàn bộ bài toán. Người ta chia giai đoạn thu thập và tiền xử lý dữ liệu thành các công đoạn như: lựa chọn dữ liệu, làm sạch, làm giàu, mã hóa dữ liệu. Các công đoạn được thực hiện theo trình tự đưa ra được một cơ sở dữ liệu thích hợp cho các giai đoạn sau. Tuy nhiên, tùy từng dữ liệu cụ thể mà quá trình trên được điểu chỉnh cho phù hợp vì người ta đưa ra một phương pháp cho mọi loại dữ liệu. - Chọn lọc dữ liệu: Đây là bước chọn lọc các dữ liệu có liên quan trong các nguồn dữ 7 liệu khác nhau. Các thông tin được chọn lọc sao cho có chứa nhiều thông tin liên quan tới lĩnh vực cần phát hiện tri thức đã xác định trong giai đoạn xác định vấn đề. - Làm sạch dữ liệu: Dữ liệu thực tế, đặc biệt dữ liệu lấy từ nhiều nguồn khác nhau thường không đồng nhất. Do đó cần có biện pháp xử lý đế đưa về một cơ sở dữ liệu thống nhẩt phục vụ cho khai thác. Nhiệm vụ làm sạch dữ liệu thường bao gồm: ■ Điều hòa dừ liệu: Nhằm giảm bớt tính không nhất quán do dữ liệu lấy từ nhiều nguồn khác nhau. Phương pháp thông thường là khử các trường hợp trùng lặp dữ liệu và thống nhất các ký hiệu. Chẳng hạn, một khách hàng có thể có nhiều bản ghi do việc nhập sai tên hoặc do quá trình thay đổi một số thông tin cá nhân gây ra và tạo sự lầm tưởng có nhiều khách hàng khác nhau. ■ Xù' lý các giá trị khuyết: Tính không đầy đủ của dữ liệu có thể gây ra hiện tượng dữ liệu chứa các giá trị khuyết. Đây là hiện tượng khá phổ biến. Thông thường, người ta có thể lựa chọn các phương pháp khác nhau đế thực hiện việc xử lý các giá trị khuyết như: bỏ qua các bộ có giá trị khuyết, điểm bố sung bang tay, dùng một hằng chung đế điển vào giá trị khuyết, dùng giá trị trung bình của mọi bản ghi cùng lóp hoặc dùng các giá trị mà tần suất xuất hiện lớn. ■ Xừ lỷ nhiễu và các ngoại lệ: Thông thường, nhiễu dữ liệu có thể là nhiễu ngẫu nhiên hoặc các giá trị bất thường. Để làm sạch nhiễu, người ta có thể sử dụng phương pháp làm trơn nhiễu hoặc dùng các giải thuật phát hiện ra các ngoại lệ để xừ lý. Làm giàu dữ liệu: Việc thu thập dữ liệu đôi khi không đảm báo tính đầy đủ của dữ liệu. Một số thông tin quan trọng có thễ thiếu hoặc không đầy đủ. Chẳng hạn, dữ liệu về khách hàng lấy từ một nguồn bên ngoài không có hoặc không đầy đủ thông tin về thu nhập. Nếu thông tin về thu nhập là quan trọng trong quá trình khai phá dữ liệu để phân tích hành vi khách hàng thì không thể chấp nhận đưa các dữ liệu khuyết thiếu vào được. Quá trình làm giàu dư liệu cũng bao gồm việc tích hợp và chuyến đối dữ liệu. Các dữ liệu từ nhiều nguồn khác nhau được tích hợp thành một kho thống nhất. Các khuôn dạng khác nhau của dữ liệu cũng được quy đối, tính toán lại để đưa về một kiểu thổng nhất, tiện cho quá trình phân tích. Đôi khi, một số thuộc tính mới có thể được xây dựng dựa trên các thuộc tính cũ. - Mã hóa: Các phương pháp dùng để chọn lọc, làm sạch, làm giàu dữ liệu sẽ được mã hóa dưới dạng các thủ tục, chương trình hay tiện ích nhằm tự động hóa việc kết xuất, 8 biến đổi và di chuyển dữ liệu. Các hệ thống con đó có thể được thực thi định kỳ làm tươi dữ liệu phục vụ cho việc phân tích. [6] 1.2.3. Khai phá dữ liệu Giai đoạn khai phá dữ liệu được bắt đầu sau khi dữ liệu đã được thu thập và tiến hành xủ lý. Trong giai đoạn này, công việc chủ yếu là xác định được bài toán khai phá dữ liệu, tiến hành lựa chọn phương pháp khai thác phù họp với dữ liệu có được và tách ra các tri thức cần thiết. Thông thường, các bài toán khai phá dữ liệu bao gồm: các bài toán mang tính chất mô tả - đưa ra những tính chất chung nhất của các dữ liệu, các bài toán khai thác dự báo - bao gồm cả việc thực hiện các suy diễn trên dữ liệu. Tùy theo bài toán xác định được mà ta lựa chọn các phương pháp khai phá dữ liệu cho phù hợp. 1.2.4. Minh họa và đánh giá Các tri thức phát hiện từ cơ sở dữ liệu cần được tong hợp dưới dạng các báo cáo phục vụ cho các mục đích hỗ trợ quyết định khác nhau. Do nhiều phương pháp khai thác có thể được áp dụng nên các kểt quả có mức độ tốt/xấu khác nhau. Việc đánh giá các kết quả thu được là cần thiết, giúp tạo cơ sở cho những quyết định chiến lược. Thông thường chúng được tổng hợp, so sánh bằng các biểu đồ và được kiểm nghiệm, tin học hóa. Công việc này thường là của các chuyên gia, các nhà phân tích và quyết định. 1.2.5. Đưa kết quả vào thực tế Các kết quả của quá trình phát hiện tri thức có thể được đưa vào ứng dụng trong những lĩnh vực khác nhau. Do các kêt quả cổ thế là các dự báo hoặc các mô tả nên chúng có thề được đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hóa quá trình này. Quá trình phát hiện tri thức có thế được tiến hành theo các bước trên. Ngoài ra trong quá trình khai thác người ta có thể thực hiện các cải tiến, nâng cấp cho phù hợp. [6] 1.3.Khai phá dữ liệu 1.3.1. Các định nghĩa về khai phá dữ liệu Khai phá dữ liệu được dung đế mô tả quá trình phát hiện tri thức trong cơ sở dữ liệu. Qúa trình này kết xuất ra các tri thức tiềm ấn từ dữ liệu giúp dự bóa trong kinh doanh, các hoạt động sản xuất, Khai phá dữ liệu làm giảm chi phí về thời gian so với các phương pháp truyền thống trước kia (Ví dụ như phương pháp thống kê). Sau 9 đây là các định nghĩa mang tính mô tả của nhiều tác giả: - Định nghĩa của Ferruzza: Khai phá dữ liệu là tập hợp các phương pháp được dung trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ và các mẫu chưa biểt bên trong dữ liệu. - Định nghĩa của Parsaye: Khai phá dữ liệu là quá trình trợ giúp quyểt định, trong đó chúng ta tìm kiếm mẫu thông tin chưa biết và bất ngờ trong cơ sở dữ liệu lớn. - Định nghĩa của Fayyad: Khai phá dữ liệu là quá trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính chất: Đúng đan, mới, khả ích và có thế hiếu được. - Định nghĩa Zekulin: Quá trình trích lọc các thông tin chưa biết trước, có thế nhận thức được, có thế tác động được từ CSDL lớn và sử dụng chúng đế tạo ra quyết định công tác. KPDL là một bước trong quá trình khám phá tri thức bao gồm các thuật toán KPDL chuyên dùng dưới một sổ quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu và các mô hình trong dữ liệu. Do vậy, mục đích của khám phá tri thức và KPDL là tìm ra các mẫu hoặc mô hình đang tồn tại trong các cơ sớ dữ liệu nhưng vẫn còn bị khuất bởi số lượng dữ liệu khống lồ. [6] 1.3.2. Nhiệm vụ của khai phá dữ liệu Các bài toán liên quan đến KPDL về bản chất là các bài toán thổng kê. Điếm khác biệt giữa các kỹ thuật KPDL và các công cụ phục vụ tính toán thống kê mà chúng ta đã biết là ở khối lượng cần tính toán. Khi dữ liệu đã trở nên khổng lồ thì những khâu như: thu thập dữ liệu, tiền xử lý và xử lý dữ liệu đều đòi hỏi phải được tự động hóa. Tuy nhiên ở công đoạn cuối cùng, việc phân tích kểt quả sau khi đã KPDL vẫn luôn là công việc của con người. Do là một lĩnh vực đa ngành, KPDL thu hút các lĩnh vực khoa học khác như trí tuệ nhân tạo, cơ sở dữ liệu, hiến thị dữ liệu, marketing, toán học, vận trù học, tin sinh học, nhận dạng mẫu, tính toán thống kê Điều mà KPDL có thể làm rất tốt là phát hiện ra những giả thuyết mạnh trước khi sử dụng những công cụ tính toán thống kê. Mô hình dự báo sử dụng kỹ thuật phân cụm (Crustering) để chia nhóm các sự vật, sự kiện sau đó rút ra các luật nhằm tìm ra đặc trưng cho mỗi nhóm và cuối cùng để nghị một mô hình. Ví dụ, những bạn đọc đăng ký dài hạn của một tạp chí có thế phân nhóm dựa theo nhiều tiêu chí khác nhau (lứa tuổi, giới tính, thu n h ậ p . s a u đó tạp chí căn cứ vào đặc trưng riêng của từng nhóm để đề ra mức phí thu trong năm sao cho phù hợp nhất. 1 [...]... là tri thức được phát hiện một cách tự động từ nguồn dữ liệu Hình 1.5 Kiến trúc điển hình của một hệ thống khai phá dữ liệu 1.4 Tổng kết chương 1 Trong chương 1 đã trình bày tông quan về khai phá tri thức và khai phá dữ liệu, trong đó có đề cập về quá trình phát hiện tri thức từ cơ sở dữ liệu, nhiệm vụ 1 của khai phá dữ liệu, một sổ ứng dụng khai phá dữ liệu, các kỹ thuật khai phá dữ liệu thông dụng... hơn một cụm Khai phá luật kết hợp Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu Mầu đầu ra của giải thuật KPDL là luật kết hợp tìm được Chang hạn, phân tích cơ sả dữ liệu bán hàng nhận được thông tin về những khách hàng mua máy tính có khuynh hướng mua phần mềm quản ]ý tài chính trong cùng lần mua được miêu tả trong luật kết hợp sau: “Máy... khai phá luật kết hợp với các cơ sở dữ liệu này các nhà nghiên cứu đề xuất một số phương pháp rời rạc hóa nhằm chuyển dạng luật này về dạng nhị phân để có thể áp dụng các thuật toán đã có - Luật kết hợp tiếp cận theo hướng tập thô (mining association rule base on rough set): tìm kiếm luật kết hợp dựa trên lí thuyết tập thô - Luật kết hợp nhiều mức (multi-level association ruls): với cách tiếp cận luật. .. tìm kiếm tập xuất hiện 3 ơ- thường xuyên 2.5 Tổng kết chương Chương 2 đã trình bày về luật kết hợp trong khai phá dữ liệu, cụ thể là các định nghĩa của luật kết họp như: Định nghĩa luật kết hợp, định nghĩa độ hỗ trợ, độ tin cậy, tập mục thường xuyên và tập mục pho biến Trong chương 2 cũng trình bày về bài toán luật kểt hợp, thuật toán phát hiện luật kết hợp như thuật toán Apriori, thuật toán Apriori -TID,... một sản phấm mới bằng một hàm chi tiêu quảng cáo 1.З.4.2 Khai phá dữ liệu mô tả Kỹ thuật này có nhiệm vụ mô tả về các tính chẩt hoặc các đặc tính chung của dữ liệu trong CSDL hiện có Bao gồm các kỹ thuật: Phân cụm; Khai phá luật kết hợp Phân cụm : Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một 1... vì kích thước dữ liệu ngày càng lớn nên đòi hỏi tổc độ xử lý phải được đảm bảo Trên đây là những biển thế của khai phá luật kểt hợp cho phép ta tìm kiểm luật kểt họp một cách linh hoạt trong những cơ sở dữ liệu lớn Bên cạnh đó các nhà nghiên cứu còn chú trọng đề xuất các thuật toán nhằm tăng tốc quá trình tìm kiểm luật kểt họp trong cơ sở dữ liệu 2.4 Một số thuật toán phát hiện luật kết hợp 2.4.1 Thuật... Xét luật kết hợp có dạng X —> (SuX), đánh giá độ tin cậy của nó xem có nhỏ hơn a hay không Thực chất, tập hợp s mà ta xét đóng vai trò của tập hợp giao s = XuY, và do X 2 n(S - X) = 0, nên coi như Y= s - X Các thuật toán xoay quanh khai phá luật kết hợp chú yếu nêu ra các giải pháp để đấy nhanh việc thực hiện mục 1 của Thuật toán 1 2.3 Một số hướng tiếp cận trong khai phá luật kết họp Lĩnh vực khai. .. Phân cụm dữ liệu là một ví dụ của phương pháp học không giám sát Phân cụm dữ liệu đòi hỏi phải định nghĩa trước các dữ liệu huấn luyện Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web Hình 1.4 cho Chấy sự phân cụm tập dữ liệu cho vay vào trong 3 cụm: Lưu ý rằng các cụm chồng lên nhau cho phép các điếm dữ liệu thuộc... nhóm dư liệu vào một hay nhiều lớp dữ liệu đã xác định từ trước, hoặc là sử dụng các trường đã cho trong một CO' sở dữ liệu đế dự báo sự xuất hiện (hoặc không xuất hiện) của các trường hợp khác - Phân tích đối tượng ngoài cuộc: Một cơ sở dữ liệu có thể có thể chứa các đối tượng không tuân theo mô hình dữ liệu Các đối tượng dữ liệu như vậy gọi là các đổi tượng ngoài cuộc Hầu hết các phương pháp KPDL... Mục tiêu của phương pháp phân loại dữ liệu là dự đoán nhãn lớp cho các mẫu dừ liệu Quá trình phân loại dữ liệu thường gồm hai bước: xây dựng mô hình và sử dụng mô hình để phân loại dữ liệu Bước 1 : Xây dựng mô hình dựa trên việc phân tích các mẫu dữ liệu cho trước Mỗi mẫu thuộc về một lớp, được xác định bởi một thuộc tính gọi là thuộc tính lớp Các mẫu dữ liệu này còn được gọi là tập dữ liệu huẩn luyện . thức và khai phá dữ liệu, trong đó có đề cập về quá trình phát hiện tri thức từ cơ sở dữ liệu, nhiệm vụ của khai phá dữ liệu, một sổ ứng dụng khai phá dữ liệu, các kỹ thuật khai phá dữ liệu thông. Nghiên cứu tổng quan về khai phá dữ liệu, luật kết hợp trong cơ sở dữ liệu. - Nghiên cún các bài toán, thuật toán luật kểt hợp và khai phá tập mục cố phần cao trong khai phá dữ liệu. 4. Đối tượng. cứu - Nghiên cứu một số kỹ thuật khai phá dữ liệu sử dụng luật kết hợp. - Nghiên cứu thuật toán luật kết hợp trong khai phá dữ liệu - Nghiên cứu bài toán khai phá tập mục cô phân cao theo thuật

Phương pháp luật kết hợp trong khai phá dữ liệu

Thông tin tài liệu

Từ khóa liên quan

Mục lục

LỜI CẢM ƠN

Phù Xuân Vĩnh

LỜI CAM ĐOAN

DANH MỤC CÁC BẢNG

3. Nhiệm vụ nghiên cứu

4. Đối tượng và phạm vi nghiên cứu

6. Phương pháp nghiên cứu

1.1. Phát hiện tri thức và khai phá dữ liệu

1.2. Quá trình phát hiện tri thức từ cơ sở dữ liệu

1.3. Khai phá dữ liệu

2.2. Định nghĩa về luật kết họp Định nghĩa:

s.

2.4.1. Thuật toán Apriorỉ

HAVING COUNT(*) >=s;

iPeT,-

к

к

6. F| := ^1 ^ ịìp )

9. RCị := c,;

13. for each Xp, Xq ^ RCk-1

22. RC)i'— Ck,

r,sdbx

к

= z [Emv^’7^+ z 7;)]

= z Zmv<iP’7i>+ z z mv(v7;)

yT x<ML-k

8. HSt:=HStu{ip}

18. ck:=ck{x)

db (G) = {ỉ'ứ?01,ỉ<i08}

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan