TIỂU LUẬN MÔN HỌC KHAI PHÁ DỮ LIỆU KHAI PHÁ LUẬT KẾT HỢP VỚI CƠ SỞ DỮ LIỆU LỚN

Thông tin tài liệu

TIỂU LUẬN MÔN HỌCKHAI PHÁ DỮ LIỆUKHAI PHÁ LUẬT KẾT HỢP VỚI CƠ SỞ DỮ LIỆU LỚN

ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC KHOA CÔNG NGHỆ THÔNG TIN NHÓM 4 – CAO HỌC KHOA HỌC MÁY TÍNH B (NĂM HỌC 2010 – 2012) KHAI PHÁ LUẬT KẾT HỢP VỚI CƠ SỞ DỮ LIỆU LỚN TIỂU LUẬN MÔN HỌC KHAI PHÁ DỮ LIỆU Huế, tháng 9/2011 ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC KHOA CÔNG NGHỆ THÔNG TIN NHÓM 4 – CAO HỌC KHOA HỌC MÁY TÍNH B (NĂM HỌC 2010 – 2012) KHAI PHÁ LUẬT KẾT HỢP VỚI CƠ SỞ DỮ LIỆU LỚN TIỂU LUẬN MÔN HỌC KHAI PHÁ DỮ LIỆU GIÁO VIÊN HƯỚNG DẪN: NHÓM HỌC VIÊN THỰC HIỆN: TS. HOÀNG THỊ LAN GIAO TRẦN NHƯ ĐĂNG TUYÊN LÊ BÁ MINH PHONG NGUYỄN THỊ THANH TÂM NGUYỄN THỊ THÀNH NGUYỄN VŨ CÁT TƯỜNG TRẦN THỊ MỸ NGÂN Huế, tháng 9/2011 MỤC LỤC LỜI NÓI ĐẦU 4 I. ĐẶT VẤN ĐỀ 5 6 II. NỘI DUNG 6 2.1 Khai phá luật kết hợp 6 2.1.1 Phân tích giỏ mua hàng 6 2.1.2 Một số khái niệm cơ bản 7 2.1.3 Khai phá luật kết hợp 8 2.2 Khai phá luật kết hợp luận lý một chiều từ tập giao tác 9 2.2.1 Thuật toán Apriori 9 2.2.2 Sinh luật kết hợp từ những tập mục phổ biến 15 2.2.3 Cải tiến hiệu suất Apriori 16 2.2.4 Khai phá tập mục phổ biến không sinh ứng cử 18 2.3 Khai phá luật kết hợp đa mức từ tập giao tác 22 2.3.1 Luật kết hợp đa mức 22 2.3.2 Phương pháp để khai phá luật kết hợp đa cấp 24 2.3.3 Kiểm tra dư thừa luật kết hợp đa cấp 28 2.4 Khai phá luật kết hợp đa chiều từ cơ sở dữ liệu quan hệ và kho dữ liệu28 2.4.1 Luật kết hợp đa chiều 28 2.4.2 Khai phá luật kết hợp đa chiều sử dụng rời rạc hóa tĩnh của thuộc tính định lượng 30 2.4.3 Khai phá luật kết hợp định lượng 31 2.4.4 Khai phá luật kết hợp khoảng cơ sở 33 2.5 Từ khai phá sự kết hợp để phần tích sự tương quan 34 2.5.1 Các luật mạnh là không nhất thiết thích hợp 35 2.5.2 Từ phân tích kết hợp để phân tích tương quan 36 2.6 Khai phá luật kết hợp dựa trên các ràng buộc 40 2.6.1 Khai phá dựa vào ràng buộc dạng luật (metarule –guide) 40 2.6.2 Khai phá dựa vào các ràng buộc thêm về luật (rule constraints) 41 III. KẾT LUẬN 45 TÀI LIỆU THAM KHẢO 46 LỜI NÓI ĐẦU Khai phá dữ liệu (hay Data mining) là một quá trình trích xuất thông tin có mối quan hệ hoặc có mối tương quan nhất định từ một kho dữ liệu lớn hoặc cực lớn nhằm mục đích dự đoán các xu thế, các hành vi trong tương lai, hoặc tìm kiếm những tập thông tin hữu ích mà bình thường không thể nhận diện được. Các công cụ, kỹ thuật data mining có thể trả lời các câu hỏi mà các công cụ truyền thống đòi hỏi rất nhiều thời gian cần thiết để có thể giải đáp được (thậm chí các cách truyền thống không thể giải được). Nó có thể tìm thấy được những thông tin cực kỳ hữu ích mà rất dễ bị bỏ qua hoặc không xem xét đến để có thể dự đoán những xu thế/ hành động xảy ra trong tương lai. Data mining là giai đoạn quan trọng nhất trong tiến trình khai phá tri thức từ cơ sở dữ liệu, các tri thức này hỗ trợ trong việc ra quyết định trong khoa học và kinh doanh. Để có thể data mining một cách hiệu quả, điều đầu tiên cần phải thu thập dữ liệu và định nghĩa lại theo các tiêu chí cần phân tích. Các kỹ thuật data mining có thể cài đặt rất nhanh chóng trên các nền tảng phần mềm, phần cứng phổ thông mà không cần đòi hỏi quá phức tạp, tuy vậy data mining thường gắn liền với việc phân tích một khối lượng dữ liệu cực lớn nên cần ứng dụng các công nghệ high performance client/server hoặc xử lý song song (parallel programming). Dưới sự hướng dẫn của cô giáo, TS. Hoàng Thị Lan Giao, nhóm chúng tôi mạnh dạn tìm hiểu đề tài “Khai phá luật kết hợp trong CSDL lớn”. Trong quá trình tìm hiểu và trình bày sẽ không tránh khỏi những thiếu sót, rất mong cô giáo và các bạn đóng góp ý kiển để tiểu luận được hoàn thiện hơn. NHÓM 4 – CAO HỌC KHMT B (2010 – 2012) 4 I. ĐẶT VẤN ĐỀ Tìm kiếm, khai phá các luật kết hợp là vấn đề thú vị và có mối quan hệ tương quan giữa các tập mục dữ liệu lớn. Với số lượng lớn các dữ liệu liên tục được thu thập và lưu trữ, nhiều ngành công nghiệp đang quan tâm đến việc khai phá luật kết hợp từ cơ sở dữ liệu của họ. Ví dụ như thông qua các hồ sơ kinh doanh, hồ sơ giao dịch, qua tiếp thị, phân tích có thể giúp đưa ra các chiến lược kinh doanh khả thi hơn. Một ví dụ điển hình của việc khai thác luật kết hợp là phân tích thị trường. Đây là quá trình này phân tích thói quen của khách hàng khi mua hàng và tìm ra mối quan hệ giữa các mặt hàng với nhau khi khách hàng mua hàng. Việc phát hiện ra các kết hợp như vậy có thể giúp các nhà bán lẻ phát triển các chiến lược tiếp thị, biết được khách hàng thường xuyên mua các mặt hàng nào thường đi kèm với nhau. Ví dụ, nếu khách hàng đang mua sữa, làm thế nào họ cũng mua bánh mì đi kèm? Những thông tin này có thể giúp tăng doanh thu bằng cách giúp các nhà bán lẻ tiếp thị, chọn lọc và lập kế hoạch cho không gian trưng bày của họ. Ví dụ, đặt sữa và bánh mì gần nhau hơn để có thể khuyến khích việc bán các mặt hàng này. Làm thế nào chúng ta có thể tìm ra luật kết hợp từ một lượng lớn dữ liệu, nơi mà các dữ liệu là giao dịch hoặc quan hệ? Làm thế nào để có thể tìm ra các các thủ tục khai phá để khám phá các kết hợp thú vị? Cấu trúc ngôn ngữ gì có ích trong việc định nghĩa một ngôn ngữ truy vấn dữ liệu cho việc khai phá các luật kết hợp? Trong phần này chúng tôi sẽ lần lượt giải quyết từng vấn đề trên. Hình 1 5 II. NỘI DUNG 2.1 Khai phá luật kết hợp Khai phá luật kết hợp là tìm kiếm các mối quan hệ thú vị giữa các mục trong một tập dữ liệu nhất định. Chúng tôi bắt đầu tại phần sau bằng cách trình bày một ví dụ về phân tích thị trường, hình thức mới nhất của khai phá luật kết hợp. Các khái niệm cơ bản của các khai phá luật kết hợp được đưa ra trong mục 2.1.2. Mục 2.1.3 trình bày một cách thức để phân biệt các loại luật kết hợp 2.1.1 Phân tích giỏ mua hàng Giả sử, là quản lý của một chi nhánh AllElectronics, bạn muốn tìm hiểu thêm về các thói quen mua sắm khách hàng. Bạn tự hỏi: “Những nhóm các mặt hàng nào mà khách hàng có thể mua trên cùng một chuyến đi đến siêu thị?". Để trả lời câu hỏi của bạn, người phân tích thị trường có thể tìm hiểu trên các hóa đơn bán lẻ của khách hàng tại cửa hàng. Các kết quả có thể được sử dụng để lập kế hoạch tiếp thị hay quảng cáo, cũng như trong cách thiết kế các gian hàng. Ví dụ, phân tích thị trường có thể giúp nhà quản lý thiết kế bố trí các gian hàng với các mặt hàng thường xuyên được mua với nhau lại gần với nhau để khuyến khích khách hàng trong việc mua sắm. Nếu khách hàng mua máy tính cũng có xu hướng mua phần mềm quản lý thì nên bố trí, sắp xếp cho cả hai ở gần nhau để khuyến khích khách hàng mua nhằm tăng doanh số bán hàng của cả hai. Trong một chiến lược khác, đặt phần cứng và phần mềm ở hai đầu của cửa hàng có thể lôi kéo khách hàng mua những mặt hàng đó để nhận các mặt hàng khác trên đường đi. Ví dụ, sau khi quyết định mua một máy tính đắt tiền, một khách hàng có thể tìm hệ thống bảo mật để mua nên nghĩ đến việc tìm các phần mềm, và có thể quyết định mua một hệ thống bảo mật mức độ gia đình là tốt. Việc phân tích thị trường cũng có thể giúp các nhà bán lẻ lên kế hoạch mà các mặt hàng đưa vào bán với giá giảm. Nếu khách hàng có xu hướng mua máy tính và máy in với nhau thì có thể thấy rằng việc bán các máy in có thể ngang bằng việc bán máy tính. Nếu chúng ta có số lượng lớn tập hợp các mặt hàng có sẵn tại cửa hàng, ta đặt mỗi mặt hàng có một giá trị Boolean đại diện cho sự có mặt hay vắng mặt của mặt hàng đó. Mỗi giỏ hàng có thể được đại diện bởi một vector các giá trị Boolean gán cho biến này. Các vectơ Boolean có thể được phân tích để 6 gán cho các mặt hàng thường xuyên được mua với nhau. Ví dụ, các thông tin mà khách hàng mua máy tính cũng có xu hướng mua phần mềm quản lý được thể hiện trong luật kết hợp dưới đây. computer  financial_management_software [support=2%; confidence = 60%] (1) Độ hỗ trợ và độ tin cậy là hai thước đo được quan tâm nhất. Chúng phản ánh sự thành công và chắc chắn của luật. Độ hỗ trợ 2% cho luật kết hợp (1) có nghĩa là 2% của tất cả các giao dịch theo phân tích cho thấy rằng máy tính và phần mềm quản lý được mua cùng với nhau. Độ tin cậy 60% có nghĩa là 60% khách hàng mua một máy tính cũng mua phần mềm. Thông thường, nguyên tắc liên kết được coi là thú vị nếu chúng đáp ứng cả độ hỗ trợ và độ tin cậy một ngưỡng tối thiểu. Ngưỡng này có thể được thiết lập bởi người sử dụng hoặc các chuyên gia. 2.1.2 Một số khái niệm cơ bản Giả sử I = {i 1 , i 2 ,…, i m } là tập các mặt hàng. Cho D là các dữ liệu công việc có liên quan, một tập hợp các giao dịch trong đó mỗi giao dịch T là một tập các mục với T ⊆ I. Mỗi giao dịch có liên quan đến một định danh, được gọi là TID. Cho A là một nhóm các mặt hằng. Một T giao dịch được gọi là chứa A nếu và chỉ nếu A ⊆ T. Một luật kết hợp dưới hình thức A  B, với A ⊆ I, B ⊆ I và . Một luật mà đáp ứng cả độ hỗ trợ tối thiểu (min_sup) và độ tin cậy tối thiểu (min_conf) thì được gọi là mạnh. Chúng ta qui định min_sup và min_conf xảy ra giữa 0% và 100% Một tập các mục được gọi là một tập mục. Một tập mục có chứa các k mặt hàng gọi là một k-tập mục. Tập {computer, financial_managerment_software} là 2-tập mục. Tần suất xuất hiện của tập mục là số các giao dịch có chứa các tập mục. Điều này cũng được biết đến như là đếm tần số hoặc độ hỗ trợ của tập mục. Một tập mục thõa mãn độ hỗ trợ tối thiểu nếu tần số xuất hiện của tập mục là lớn hơn hoặc bằng min_sup và tổng số các giao dịch trong D. Số lượng các giao dịch cần thiết cho tập mục để đáp ứng độ hỗ trợ tối thiểu gọi là tính hỗ trợ tối thiểu. Nếu tập mục thõa mãn độ hỗ trợ tối thiểu, thì đó là tập tập mục phổ biến. k-tập mục phổ biến được ký hiệu là L k . 7 Làm thế nào để khai phá được luật kết hợp trong tập dữ liệu lớn. Khai phá luật kết hợp qua 2 bước: - Tìm tất cả các tập mục phổ biến. Theo định nghĩa, mỗi tập mục này sẽ xảy ra thường xuyên như là một xác định trước độ hỗ trợ tối thiểu - Tạo ra các luật kết hợp mạnh cho các tập mục phổ biến. Bằng việc định nghĩa, những quy tắc này phải đáp ứng độ hỗ trợ tối thiểu và độ tin cậy tối thiểu. 2.1.3 Khai phá luật kết hợp Việc phân tích thị trường chỉ là một hình thức khai phá luật kết hợp. Trong thực tế, có nhiều loại luật kết hợp. Các luật kết hợp có thể được phân loại dựa trên các tiêu chí sau đây: 1. Căn cứ vào loại giá trị xử lý trong luật. Nếu một luật quan tâm kết hợp giữa sự hiện diện hay vắng mặt của mặt hàng, đó là một luật kết hợp Boolean. Ví dụ, luật (1) ở trên là một luật kết hợp Boolean thu được từ phân tích thị trường trong giỏ hàng. Nếu một luật mô tả sự kết hợp giữa số lượng hoặc thuộc tính mặt hàng, thì nó là một luật kết hợp lượng số. Trong những quy tắc này, các giá trị định lượng cho các hạng mục hoặc các thuộc tính được chia thành khoảng thời gian. Ví dụ luật sau là một luật kết hợp định lượng, với X đại diện cho một khách hàng: Age(X,“30…39”) income(X,“24K…48K”)  buys (X, high resolution TV) (2) Lưu ý rằng các thuộc tính định lượng age và income được rời rạc hóa 2. Căn cứ vào chiều của dữ liệu. Nếu các mục hoặc các thuộc tính trong luật kết hợp chỉ có một chiều, thì nó là luật kết hợp đơn chiều. Lưu ý rằng quy tắc (1) có thể được viết lại như sau: buys(X,“computer")  buys(X,”financial_management_software") (3) Quy tắc (1) là luật kết hợp một chiều vì nó đề cập đến chỉ một chiều của dữ liệu là buys. Nếu một luật tham chiếu đến hai hoặc nhiều chiều, như buys, time_of_transaction và customer_category thì nó là một luật kết hợp đa chiều. Quy tắc (2) trên đây được coi là một đa chiều vì nó bao gồm 3 chiều: age, income và buys. 8 3. Căn cứ vào các mức trong các luật. Một số phương pháp để khai thác luật kết hợp có thể tìm thấy ở mức. Ví dụ, giả sử một tập hợp các luật kết hợp được khai thác dưới đây age(X, “30…39")  buys(X, “laptop computer") (4) age(X, “30…34")  buys(X, “computer") (5) Trong quy tắc (4) và (5), các mặt hàng đã mua được tham chiếu ở mức khác nhau. (Tức là, "computer” là mức trừu tượng cao hơn "laptop computer”). Chúng tôi tham khảo việc khai phá luật kết hợp đa mức. Nếu các quy tắc trong một tập đã cho không tham chiếu đến các mục hoặc các thuộc tính tại các mức khác nhau thì đó là luật kết hợp đơn mức. 2.2 Khai phá luật kết hợp luận lý một chiều từ tập giao tác. Trong phần này, chúng ta sẽ biết đến các phương pháp khai phá luật kết hợp hình thức đơn giản như một chiều, đơn cấp, luật kết hợp nhị phân cũng như thảo luận về market basket analysis trong mục 6.1.1. Chúng ta sẽ bắt đầu bằng thuật toán Apriori, đây là thuật toán cơ bản để tìm tập mục phổ biến (trong mục 6.2.1). Một thủ tục sinh ra tập luật kết hợp mạnh từ tập mục phổ biến được thảo luận trong mục 6.2.2. Mục 6.2.3 trình bày một số thay đổi đối với thuật toán Apriori nhằm cải tiến hiệu quả và khả năng của nó. Mục 6.2.4 đưa ra phương pháp khai phá luật kết hợp khác, nó khác với Apriori, nó không liên quan việc sinh ra tập mục phổ biến “ứng cử”. Mục 6.2.5 mô tả cách nguyên lý Apriori có thể được áp dụng để cải tiến hiệu suất cho câu trả lời “iceberg queries – truy vấn núi băng trôi” rất phổ biến trong 2.2.1 Thuật toán Apriori Apriori là thuật toán có ảnh hưởng đối với việc tìm tập mục phổ biến cho luật kết hợp nhị phân. Tên của thuật toán thì dựa vào nguyên nhân mà thuật toán sử dụng đó là “prior knowledge – tiên nghiệm tri thức” của thuộc tính tập mục phổ biến, và sẽ thấy rõ ở bên dưới. Apriori sử dụng một phương pháp lặp được biết đến như là một phép tìm kiếm mức thông thái (level-wise), ở đây k-tập mục được dùng để tìm ra (k + 1) – tập mục. Đầu tiên tập mục phổ biến 1-tập mục được tìm thấy. Tập mục này được ký hiệu L 1 . L 1 được dùng để tìm L 2 , tập mục phổ biến 2-tập mục, và nó được dùng để tìm tiếp L 3 và cứ tiếp tục như vậy cho đến khi không tìm thấy k-tập mục nào nữa. Việc tìm mỗi L k đòi hỏi phải quét toàn bộ cơ sở dữ liệu. 9 Để cải tiến hiệu suất sinh “level-wise” tập mục phổ biến, một thuộc tính quan trọng gọi là thuộc tính Apriori đưa ra dưới đây được sử dụng để giảm không gian tìm kiếm. Chúng ta sẽ mô tả thuộc tính này sau đó chỉ ra ví dụ để minh họa cách dùng nó. Để sử dụng thuộc tính Apriori, tất cả tập con khác rỗng của tập mục phổ biến phải là tập phổ biến. Thuộc tính này là nền tảng cho sự theo dõi tiếp theo. Theo định nghĩa, nếu một tập mục I không thỏa mãn ngưỡng hỗ trợ tối thiểu min_sup, thì I không là tập mục phổ biến, đó là P(I) < min_sup. Nếu một mục A được thêm vào tập mục I, thì tập mục đích cũng không phổ biến hơn I. Vì vậy I U A cũng không là tập phổ biến, nghĩa là P(I U A) < min_sup. Thuộc tính này thuộc về một tập thuộc tính phân loại đặc biệt gọi là anti- monotone trong ngữ cảnh mà nếu một tập không thể vượt qua kiểm tra thì tất cả tập con của nó cũng sẽ bị lỗi y như nó vậy. Nó được gọi là anti-monotone bởi vì thuộc tính đơn điệu trong ngữ cảnh kiểm tra bị lỗi. “Thuộc tính Apriori được sử dụng trong thuật toán như thế nào?” Để hiểu về vấn đề này, chúng ta sẽ cùng xem dùng L k-1 để tìm L k như thế nào. Có 2 bước trong quá trình này, đó là bước kết nối và bước rút gọn. 1. Bước kết nối: để tìm L k , một tập ứng cử k-tập mục được sinh ra bằng cách nối L k-1 với chính nó. Tập mục ứng cử này được ký hiệu C k . Lấy l 1 và l 2 là những mục trong L k-1 . Ký hiệu l i [j] là mục thứ j trong l i (ví dụ: l 1 [k-2] là phần tử thứ hai từ phần tử cuối cùng của mục l 1 ). Theo quy ước, Apriori giả thiết những mục trong một giao tác hoặc tập được sắp xếp theo thứ tự từ điển. Kết nối giữa L k-1 và L k-1 theo dạng là mỗi thành viên L k-1 có khả năng nối nếu phần tử đầu tiên trong (k-2) mục là giống nhau. Nghĩa là, những thành viên l 1 và l 2 của L k-1 được nối với nhau nếu (l 1 [1] =l 2 [1]) ^ (l 1 [2] = l 2 [2]) ^ …. ^ (l1[k-2] = l2[k-2]) ^ (l1[k-1] < l2[k-1]). Điều kiện l 1 [k-1] < l 2 [k-1] bảo đảm mỗi tập sinh ra đều không giống nhau. Tập mục kết quả theo dạng nối l 1 và l 2 là l 1 [1]l 1 [2]… l 1 [k-1]l 2 [k-1]. 2. Bước làm gọn: C k là tập cha của L k , nghĩa là những thành viên trong nó có thể có hoặc không là phổ biến, nhưng tất cả trong k-tập mục phổ biến thì chứa trong C k . Việc quét cơ sở dữ liệu để quyết định lượng ứng cử trong C k sẽ là kết quả trong quyết định của L k (ví dụ, tất cả ứng cử có lượng không nhỏ hơn độ hỗ trợ nhỏ nhất được định nghĩa là phổ biến, và vì vậy nó phụ thuộc vào L k ). Tuy nhiên, C k có thể rất lớn, và dẫn đến phải giải quyết tính 10 [...]... nhưng giữ lại thông tin kết hợp tập mục và sau đó chia một bó cơ sở dữ liệu vào tập cơ sở dữ liệu điều kiện (một loại đặc biệt của cơ sở dữ liệu trình chiếu), mỗi kết hợp với một mục phổ biến và đến chính nó vì thề tách cơ sở dữ liệu rời nhau ra Chúng ta cùng xem ví dụ Ví dụ 6.3: chúng ta quay trở lại ví dụ khai phá cơ sở dữ liệu giao tác D ở hình 6.2 trong ví dụ 6.1 sử dụng phương pháp tăng mẫu phổ biến... thì luật sau không thú vị vì nó không cung cấp thêm bất kỳ thông tin nào và nó ít tổng quát hơn luật trước 2.4 Khai phá luật kết hợp đa chiều từ cơ sở dữ liệu quan hệ và kho dữ liệu 2.4.1 Luật kết hợp đa chiều 28 Trong những phần trước, chúng ta đã nghiên cứu những luật kết hợp bao hàm một thuộc tính đơn Ví dụ, trong khai phá cơ sở dữ liệu của giao dịch AllElectronics chúng ta đã tìm được luật kết hợp. .. tập mục phổ 23 biến có chứa dữ liệu chỉ mức độ nguyên thủy, như {IBM home computer, Sony b/w printer} Từ đây có thể dễ dàng tìm thấy các kết hợp giữa các mục tại nhiều mức khái niệm với nhau Các luật được tạo ra từ khai phá luật kết hợp với khái niệm phân cấp được gọi là luật kết hợp đa mức 2.3.2 Phương pháp để khai phá luật kết hợp đa cấp “Làm thế nào để khai thác luật kết hợp đa mức hiệu quả trên khái... làm giảm giá trị tìm kiếm Khi cơ sở dữ liệu lớn, đôi khi nó không thực tế để xây dựng FP-tree dựa vào bộ nhớ chính Một phương án lựa chọn thú vị là với phân vùng đầu tiên cơ sở dữ liệu cho vào một tập cơ sở dữ liệu trình chiếu và khi đó xây dựng FP-tree và chính nó trong mỗi cơ sở dữ liệu trình chiếu Do đó một tiến trình có thể được đệ quy để áp dụng đến bất kỳ cơ sở dữ liệu trình chiếu nếu nó FPtree... chính Việc học trên việc thực thi của phương pháp FP-growth chỉ ra rằng nó hiệu quả và tỉ lệ với khai phá cả hai mẫu phổ biến dài, ngắn và khoảng thứ tự của chiều đo nhanh hơn thuật toán Apriori Nó cũng nhanh hơn thuật toán Tree Projection để trình chiếu một cơ sở dữ liệu vào 1 cây của cơ sở dữ liệu trình chiếu đệ quy 2.3 Khai phá luật kết hợp đa mức từ tập giao tác 2.3.1 Luật kết hợp đa mức Đối với nhiều... khai phá như làm cho độ tin cậy của luật kết hợp là cao nhất Luật kết hợp thu được từ cách tiếp cận này gọi là luật kết hợp định lượng - Trong cách tiếp cận thứ 3, các thuộc tính định lượng được rời rạc hóa để nắm bắt được ý nghĩa ngữ nghĩa của các khoảng dữ liệu Chức năng của thủ tục rời rạc hóa này để xem xét khoảng cách giữ các điểm dữ liệu Do đó ta gọi là khai phá luật kết hợp khoảng cơ sở 2.4.2 Khai. .. được kết hợp để tạo thành luật kết hợp khoảng cơ sở Lớp Cx Ngưỡng của mật độ: Ngưỡng của tần số: Tìm kiếm các cụm và các luật dựa trên khoảng cách: Một cải tiến của BIRCH Ngưỡng của mật độ thay thế cho độ hỗ trợ Ngưỡng của luật thay thế cho độ tin cậy 2.5 Từ khai phá sự kết hợp để phần tích sự tương quan Khi khai thác luật kết hợp, làm thế nào hệ thống khai phá dữ liệu có thể đưa ra các quy tắc phù hợp. .. giao dịch AllElectronics Đó là luật kết hợp một chiều Giả sử ta có một cơ sở dữ liệu giao dịch bán hàng và thông tin liên quan được lưu trữ trong một cơ sở dữ liệu quan hệ hoặc kho dữ liệu Những dữ liệu này các cửa hàng được định nghĩa đa chiều Ví dụ, ngoài việc theo dõi các mục trong giao dịch mua bán hàng, một cơ sở dữ liệu quan hệ có thể ghi lại khác thuộc tính liên kết với các mục, chẳng hạn như số... việc khai thác luật kết hợp dựa trên khoảng cách mà nắm bắt được ngữ nghĩa của dữ liệu khoảng thời gian trong khi cho phép cho gần đúng các giá trị dữ liệu Một thuật toán gồm hai giai đoạn có thể được sử dụng để khai phá các luật kết khoảng cơ sở Giai đoạn sử dụng sự xếp nhóm để thứ các khoảng hoặc cụm, thích nghi với số lượng bộ nhớ có sẵn Giai đoạn thứ hai có được luật kết hợp các khoảng cơ sở bằng... toán cho việc tính toán của các khối dữ liệu, nó có thể được sửa đổi để tìm kiếm các tập phổ biến trong khối xây dựng Các nghiên cứu đã chỉ ra rằng ngay cả khi khối lập phương được xây dựng thì việc khai phá từ dữ liệu khối có thể được nhanh hơn so với khai phá trực tiếp từ một bảng quan hệ 2.4.3 Khai phá luật kết hợp định lượng Luật kết hợp định lượng là luật kết hợp đa chiều trong đó các con số của

Ngày đăng: 20/03/2014, 11:07

Xem thêm: TIỂU LUẬN MÔN HỌC KHAI PHÁ DỮ LIỆU KHAI PHÁ LUẬT KẾT HỢP VỚI CƠ SỞ DỮ LIỆU LỚN, TIỂU LUẬN MÔN HỌC KHAI PHÁ DỮ LIỆU KHAI PHÁ LUẬT KẾT HỢP VỚI CƠ SỞ DỮ LIỆU LỚN

TIỂU LUẬN MÔN HỌC KHAI PHÁ DỮ LIỆU KHAI PHÁ LUẬT KẾT HỢP VỚI CƠ SỞ DỮ LIỆU LỚN

Thông tin tài liệu

Từ khóa liên quan

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan