LUẬT KẾT HỢP VÀ CÔNG CỤ TÌM LUẬT KẾT HỢP WEKA

37 830 0
LUẬT KẾT HỢP VÀ CÔNG CỤ TÌM LUẬT KẾT HỢP WEKA

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT ________ ________ BÀI THU HOẠCH MÔN HỌC CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Đề tài: LUẬT KẾT HỢP VÀ CÔNG CỤ TÌM LUẬT KẾT HỢP WEKA Giảng viên hướng dẫn : GS.TSKH. Hoàng Kiếm Học viên thực hiện : Lê Thị Xuân Diệu Mã số : CH1101076 TP. HCM, năm 2012 MỤC LỤC CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT 1 MỤC LỤC 1 Lời nói đầu 1 Trong xã hội ngày nay có rất nhiều cơ quan chức năng thực hiện lưu trữ cơ sở dữ liệu trong quá trình làm việc của cơ quan, nhằm khai thác trên cơ sở dữ liệu đó để rút ra những kinh nghiệm quí để thực hiện công việc một cách có hiệu quả. Với cơ sở dữ liệu càng ngày càng lớn thì việc sử dụng thì việc sử dụng luật kết hợp trong khai mỏ dữ liệu càng ngày được nhiều cơ quan như Ngân hàng, Siêu thị, Công ty viễn thông… sử dụng 1 Trong giới hạn thời gian cho phép bài thu hoạch này em tìm hiểu khái quát về khai mỏ dữ liệu, áp dụng khai mỏ dữ liệu trong thực tế dùng luật kết hợp, nêu ra một số ứng dụng thực tế sử dụng khai mỏ dữ liệu hiện nay và cách sử dụng công cụ mã nguồn mở WEKA tìm luật kết hợp 1 Em xin chân thành cảm ơn thầy GS.TSKH Hoàng Kiếm đã hướng dẫn cung cấp tài liệu trong suốt quá trình học tập môn học cũng như quá trình làm bài thu hoạch này 1 Phần I Tổng quan về dữ liệu 1 I. Đặt vấn đề 1 II. Khai phá tri thức và phát hiện tri thức 1 III. Quá trình phát hiện tri thức từ cơ sở dữ liệu 2 1. Xác định bài toán 3 2. Thu thập và tiền xử lý 3 3. Khai mỏ dữ liệu 4 4. Phát biểu và đánh giá kết quả 4 5. Sử dụng tri thức đã phát hiện 4 Phần II Khai mỏ dữ liệu 5 I. Khai mỏ dữ liệu là gì? 5 1. Khái niệm 5 II. Khai mỏ dữ liệu có những lợi ích gì? 5 III. Các bước của quá trình khai mỏ dữ liệu 5 IV. Các kỹ thuật khai mỏ dữ liệu 7 1. Kỹ thuật khai mỏ dữ liệu mô tả 7 2. Kỹ thuật khai mỏ dữ liệu dự đoán 7 V. Nhiệm vụ chính của khai mỏ dữ liệu 7 1. Phân lớp (Classification) 8 2. Hồi quy (Regression) 8 3. Gom nhóm (Clustering) 8 4. Tổng hợp (Summarization) 8 5. Mô hình ràng buộc (Dependency modeling) 8 6. Dò tìm biến đổi và độ lệch (Change and Deviation Dectection) 8 VI. Các phương pháp khai mỏ dữ liệu 9 1. Các thành phần của giải thuật khai mỏ dữ liệu 9 2. Một số phương pháp khai thác dữ liệu phổ biến 10 VII. Ứng dụng của khai mỏ dữ liệu 11 VIII. Một số thách thức đặt ra cho quá trình khai mỏ dữ liệu 12 Phần III Thuật toán tìm tập phổ biến và luật kết hợp 13 I. Luật kết hợp trong khai mỏ dữ liệu (Association Rule in Data Mining) 13 1. Một số khái niệm 13 II. Một số loại luật kết hợp 14 III. Thuật toán sinh các luật kết hợp 14 Phần IV Một số ứng dụng khai mỏ dữ liệu trong thực tế 20 I. Dự đoán và cảnh báo rủi ro tín dụng bằng phương pháp khai phá tri thức từ dữ liệu.20 1. Khái niệm rủi ro tín dụng 20 2. Dự đoán rủi ro tín dụng 20 3. Thử nghiệm dự đoán rủi ro tín dụng 21 II. Ứng dụng khai mỏ dữ liệu trong viễn thông 22 1. Các dữ liệu chính trong viễn thông 22 2. Ứng dụng phát hiện gian lận 23 3. Ứng dụng quản lý và chăm sóc khách hàng 23 4. Phát hiện và cô lập lỗi trên hệ thống mạng viễn thông 24 III. Ứng dụng khai mỏ dữ liệu trong quản lý bán hàng tại siêu thị 24 Phần V Công cụ WEKA tìm luật kết hợp 26 I. Tạo tập tin mở bằng WEKA 26 Ứng dụng với dữ liệu KHÁCH HÀNG (KH.arff). Mở bằng wordpad như sau: 26 26 * Cách tạo tập tin KH.arff 27 II. Tìm luật kết hợp bằng WEKA 27 Kết quả31 31 Phần VI Tài liệu tham khảo 1 1. Bài giảng CNTT& ứng dụng , GS.TSKH Hoàng Kiếm, ĐHQG TpHCM 1 Lời nói đầu 0o0 Trong xã hội ngày nay có rất nhiều cơ quan chức năng thực hiện lưu trữ cơ sở dữ liệu trong quá trình làm việc của cơ quan, nhằm khai thác trên cơ sở dữ liệu đó để rút ra những kinh nghiệm quí để thực hiện công việc một cách có hiệu quả. Với cơ sở dữ liệu càng ngày càng lớn thì việc sử dụng thì việc sử dụng luật kết hợp trong khai mỏ dữ liệu càng ngày được nhiều cơ quan như Ngân hàng, Siêu thị, Công ty viễn thông… sử dụng. Trong giới hạn thời gian cho phép bài thu hoạch này em tìm hiểu khái quát về khai mỏ dữ liệu, áp dụng khai mỏ dữ liệu trong thực tế dùng luật kết hợp, nêu ra một số ứng dụng thực tế sử dụng khai mỏ dữ liệu hiện nay và cách sử dụng công cụ mã nguồn mở WEKA tìm luật kết hợp Em xin chân thành cảm ơn thầy GS.TSKH Hoàng Kiếm đã hướng dẫn cung cấp tài liệu trong suốt quá trình học tập môn học cũng như quá trình làm bài thu hoạch này. Công nghệ tri thức và ứng dụng Phần I Tổng quan về dữ liệu I. Đặt vấn đề Lĩnh vực khoa học kỹ thuật ngày càng phát triển, trong đó lĩnh vực công nghệ thông tin cũng phát triển vượt bậc, được ứng dụng nhiều trong các lĩnh vực trong xã hội như: Y tế, giáo dục, viễn thông, tài chính, kinh doanh…Nó trở thành lĩnh vực không thể thiếu trong đời sống con người. Ngày này con người đã phát hiện nhiều công cụ tin học để lưu trữ xử lý dữ liệu ngày càng hiện đại tinh vi và với sự phát triển mạnh mẽ của công nghệ điện tử tạo ra các bộ nhớ có dung lượng lớn, bộ xử lý tốc độ cao cùng với các hệ thống mạng viễn thông, người ta đã xây dựng các hệ thống thông tin nhằm tự động hóa mọi hoạt động kinh doanh của mình. Điều này đã tạo ra một dòng dữ liệu tăng lên không ngừng vì ngay từ các giao dịch đơn giản nhất như một cuộc gọi điện thoại, kiểm tra sức khỏe, bán hàng, sử dụng thẻ tín dụng, v.v… đều được ghi vào trong máy tính. Cho đến nay, con số này đã trở nên khổng lồ, bao gồm các cơ sở dữ liệu cực lớn cỡ gigabytes và thậm chí terabytes lưu trữ các dữ liệu kinh doanh, ví dụ như dữ liệu thông tin khách hàng, dữ liệu lịch sử các giao dịch, dữ liệu bán hàng, dữ liệu các tài khoản, các khoản vay, sử dụng vốn, … Nhiều hệ quản trị cơ sở dữ liệu mạnh với các công cụ phong phú và thuận tiện đã giúp con người khai thác có hiệu quả các nguồn tài nguyên dữ liệu. Mô hình cơ sở dữ liệu quan hệ và ngôn ngữ vấn đáp chuẩn (SQL) đã có vai trò hết sức quan trọng trong việc tổ chức và khai thác các cơ sở dữ liệu đó. Cho đến nay, không một tổ chức kinh tế nào là không sử dụng các hệ quản trị cơ sở dữ liệu và các hệ công cụ báo cáo, ngôn ngữ hỏi đáp nhằm khai thác các cơ sở dữ liệu phục vụ cho hoạt động tác nghiệp của mình. Với bài tìm hiểu này nói về một số ứng dụng trong thực tế xã hội áp dụng khai mỏ dữ liệu để thực hiện công việc một cách hiệu quả hơn. II. Khai phá tri thức và phát hiện tri thức Yếu tố thành công trong mọi hoạt động kinh doanh ngày nay là việc biết sử dụng thông tin một cách có hiệu quả. Điều đó có nghĩa là từ các dữ liệu sẵn có, phải tìm ra những thông tin tiềm ẩn có giá trị mà trước đó chưa được phát hiện, tìm ra những xu hướng phát triển và những yếu tố tác động lên chúng. Thực hiện công việc đó chính là thực hiện quá trình phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database – KDD) mà trong đó kỹ thuật cho phép ta lấy được các tri thức chính là kỹ thuật khai mỏ dữ liệu (data mining). Như John Naisbett đã nói “Chúng ta đang chìm ngập trong dữ liệu mà vẫn đói tri thức”. Dữ liệu thường được cho bởi các giá trị mô tả các sự kiện, hiện tượng cụ thể. Còn tri thức (knowledge) là gì? Có thể có những định nghĩa rõ ràng để phân biệt các khái niệm dữ liệu, thông tin và tri thức hay không? Khó mà định nghĩa chính xác nhưng phân biệt chúng trong những ngữ cảnh nhất định là rất cần thiết và có thể làm được. Thông tin là một khái niệm rất rộng, khó có thể đưa ra một định HV: Lê Thị Xuân Diệu CH1101076 Trang 1 Công nghệ tri thức và ứng dụng nghĩa chính xác cho khái niệm này. Cũng không thể định nghĩa cho khái niệm tri thức cho dù chỉ hạn chế trong phạm vi những tri thức được chiết xuất từ các CSDL. Tuy nhiên, ta có thể hiểu tri thức là một biểu thức trong một ngôn ngữ nào đó diễn tả một (hoặc nhiều) mối quan hệ giữa các thuộc tính trong các dữ liệu đó. Các ngôn ngữ thường được dùng để biểu diễn tri thức (trong việc phát hiện tri thức từ các CSDL) là các khung (frames), các cây và đồ thị, các luật (rules), các công thức trong ngôn ngữ logic mệnh đề hoặc tân từ cấp một, các hệ thống phương trình, v.v…, ví dụ như ta có các luật mô tả các thuộc tính của dữ liệu, các mẫu thường xuyên xảy ra, các nhóm đối tượng trong cơ sở dữ liệu, v.v… Nếu quan niệm tri thức là mối quan hệ của các mẫu giữa các phần tử dữ liệu thì quá trình phát hiện tri thức chỉ toàn bộ quá trình chiết xuất tri thức từ cơ sở dữ liệu, có nhiều giai đoạn khác nhau như: tìm và phát hiện vấn đề, thu thập và tiền xử lý dữ liệu, phát hiện tri thức, minh họa và đánh giá tri thức đã phát hiện và đưa kết quả vào thực tế. So sánh khai mỏ dữ liệu và phát hiện tri thức có những điểm khác nhau về mặt ngữ nghĩa, nhưng thực tế ta thấy khai mỏ dữ liệu là chỉ một giai đoạn phát hiện tri thức trong một chuỗi các giai đoạn quá trình phát hiện tri thức trong cơ sở dữ liệu. Tuy nhiên đây là giai đoạn chủ chốt đóng vai trò chính tạo nên tính đa ngành của phát hiện tri thức trong cơ sở dữ liệu. III. Quá trình phát hiện tri thức từ cơ sở dữ liệu Phát hiện tri thức từ cơ sở dữ liệu sử dụng nhiều phương pháp và công cụ tin học nhưng yếu tố con người chiếm vị trí quan trọng . Nó không phải là một hệ thống tự động mà kết hợp nhiều hoạt động tương tác thường xuyên với nhau giữa con người và cơ sở dữ liệu có sự hỗ trợ của công cụ tin học. HV: Lê Thị Xuân Diệu CH1101076 Trang 2 Công nghệ tri thức và ứng dụng Mặc dù có 5 giai đoạn như trên( hình 1.1) xong quá trình phát hiện tri thức từ cơ sở dữ liệu là 1 quá trình tương tác và lặp đi lặp lại theo kiểu xoắn chôn ốc, trong đó lần lặp sau hoàn chỉnh hơn lần lặp trước. Ngoài ra giai đoạn sau lại dựa trên kết quả thu được của giai đoạn trước theo kiểu thác nước. Đây là một quá trình biện chứng mang tính chất học của quá trình phát hiện tri thức và là phương pháp luận trong việc phát hiện tri thức. Các giai đoạn đó sẽ được trình bày cụ thể như sau: 1. Xác định bài toán Xác định bài toán là bước đầu tiên trong quá trình phát hiện tri thức, giai đoạn này định hình mục đích xác định yêu cầu và xây dụng bài toán tổng quát. Giúp định hướng cho giai đoạn tiếp theo thu thập và tiền xử lý dữ liệu 2. Thu thập và tiền xử lý Các cơ sở dữ liệu thu được thường chứa rất nhiều thuộc tính nhưng lại không đầy đủ, không thuần nhất, có nhiều lỗi và các giá trị đặc biệt. Vì vậy giai đoạn thu thập và tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình phát hiện tri thức từcơ sở dữ liệu. Có thể nói giai đoạn này chiếm từ 70%-80% giá thành trong toàn bộ bài toán. Người ta chia giai đoạn và tiền xử lý dữ liệu như: Gom dữ liệu, chọn dữ liệu,làm sạch, mã hoá dữ liệu, làm giàu, đánh giá và trình diễn dữ liệu HV: Lê Thị Xuân Diệu CH1101076 Trang 3 Xác định bài toán Thu thập và tiền xử lý dữ liệu Khai mỏ dữ liệu Chiết xuất tri thức Phát biểu kết quả và đánh giá Chiết xuất tri thức Sử dụng tri thức và phát hiện được Chiết xuất tri thức Hình 1.1 Công nghệ tri thức và ứng dụng 3. Khai mỏ dữ liệu Giai đoạn khai thác dữ liệu được bắt đầu sau khi dữ liệu đã được thu thập và tiến hành xử lý. Trong giai đoạn này, công việc chủ yếu là xác định được bài toán khai mỏ dữ liệu, tiến hành lựa chọn các phương pháp khai thác phù hợp với dữ liệu có được và tách ta các tri thức cần thiết. Là giai đoạn thiết yếu, trong đó các phương pháp thông minh sẽ được áp dụng để trích xuất ra các mẩu dữ liệu 4. Phát biểu và đánh giá kết quả Các tri thức phát hiện từ cơ sở dữ liệu cần được tổng hợp dưới dạng các báocáo phục vụ cho các mục đích hỗ trợ các quyết định khác nhau.Do nhiều phương pháp khai thác có thể được áp dụng nên các kết quả có mức độ tốt, xấu khác nhau. Việc đánh giá các kết quả thu được là cần thiết, Các tri thức phát hiện từ cơ sở dữ liệu cần được tổng hợp dưới dạng các báo cáo phục vụ cho các mục đích hỗ trợ các quyết định khác nhau. Do nhiều phương pháp khai thác có thể được áp dụng nên các kết quả có mức độ tốt, xấu khác nhau. Việc đánh giá các kết quả thu được là cần thiết, giúp tạo cơ sở cho những quyết định chiến lược. Thông thường, chúng được tổng hợp, so sánh bằng các biểu đồ và được kiểm nghiệm, tin học. 5. Sử dụng tri thức đã phát hiện Củng cố, tinh chế các tri thức đã được phát hiện. Kết hợp các tri thức thành hệ thống. Giải quyết các xung đột tiềm tàng trong tri thức khai thác được. Sau đó tri thức được chuẩn bị sẵn sàng cho ứng dụng.Các kết quả của quá trình phát hiện tri thức có thể được đưa vào ứng dụng trong những lĩnh vực khác nhau. Do các kết quả có thể là các dự báo hoặc các mô tả nên chúng có thể được đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hoá quá trình này. HV: Lê Thị Xuân Diệu CH1101076 Trang 4 Công nghệ tri thức và ứng dụng Phần II Khai mỏ dữ liệu I. Khai mỏ dữ liệu là gì? 1. Khái niệm Khai mỏ dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ 80. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu). Về bản chất, khai mỏ dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy (regularities) trong tập dữ liệu. Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm Phát hiện tri thức trong cơ sở dữ liệu (Kownledge Discovery in Database – KDD) để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn. Trong đó, khai mỏ dữ liệu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu (pattern) (hay các mô hình) từ dữ liệu. II. Khai mỏ dữ liệu có những lợi ích gì? - Cung cấp tri thức hỗ trợ ra quyết định. - Dự báo. - Khái quát dữ liệu. - Là một mô hình thể hiện lợi ích của KPDL trong việc phân tích và ra quyết định cho việc ra tiếp thị của một loại sản phẩm nào đó III. Các bước của quá trình khai mỏ dữ liệu Các giải thuật khai mỏ dữ liệu thường được mô tả như những chương trình hoạt động trực tiếp trên tệp dữ liệu. Với các phương pháp học máy và thống kê trước đây, thường thì bước đầu tiên là các giải thuật nạp toàn bộ tệp dữ liệu vào trong bộ nhớ. Khi chuyển sang các ứng dụng công nghiệp liên quan đến việc khai phá các kho dữ liệu lớn, mô hình này không thể đáp ứng được. Không chỉ bởi vì nó không thể nạp hết dữ liệu vào trong bộ nhớ mà còn vì khó có thể chiết xuất dữ liệu ra các tệp đơn giản để phân tích được. Quá trình xử lý khai mỏ dữ liệu bắt đầu bằng cách xác định chính xác vấn đề cần giải quyết. Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải pháp. Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho giải thuật khai mỏ dữ liệu có thể hiểu được. Về lý thuyết thì có vẻ rất đơn giản nhưng khi thực hiện thì đây thực sự là một quá trình rất khó khăn, gặp phải rất nhiều vướng mắc như: các dữ liệu phải được sao ra nhiều bản (nếu được chiết xuất vào các tệp), quản lý tập các tệp dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi), v.v… Sẽ là quá cồng kềnh với một giải thuật khai mỏ dữ liệu nều phải truy nhập vào toàn bộ nội dung của CSDL và làm những việc như trên. Vả lại, điều này cũng không cần HV: Lê Thị Xuân Diệu CH1101076 Trang 5 [...]... k-itemset Mục đích của luật kết hợp là tìm ra sự kết hợp (association) hay tương quan (correlation) giữa các items Những luật kết hợp này có dạng X =>Y Trong Basket Analysis, luật kết hợp X =>Y có thể hiểu rằng những người mua các mặt hàng trong tập X cũng thường mua các mặt hàng trong tập Y (X và Y gọi là itemset) Ví dụ, nếu X = {Apple, Banana} và Y = {Cherry, Durian} và ta có luật kết hợp X =>Y thì chúng... phù hợp nữa Dữ liệu bị thiếu hoặc nhiễu Quan hệ giữa các trường phức tạp Giao tiếp với người sử dụng và kết hợp với các tri thức đã có Tích hợp với các hệ thống khác… HV: Lê Thị Xuân Diệu CH1101076 12 Trang Công nghệ tri thức và ứng dụng Phần III I Thuật toán tìm tập phổ biến và luật kết hợp Luật kết hợp trong khai mỏ dữ liệu (Association Rule in Data Mining) Trong lĩnh vực Data Mining, mục đích của luật. .. và vì vậy giới hạn về cả độ chính xác của mô hình Phát hiện các luật kết hợp Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật khai mỏ dữ liệu là tập luật kết hợp tìm được Ta có thể lấy một ví dụ đơn giản về luật kết hợp như sau: sự kết hợp giữa hai thành phần A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất... luật mạnh (Strong Rle) Minimum support và Minimum confidence gọi là các giá trị ngưỡng (threshold) và phải xác định trước khi sinh các luật kết hợp Một itemsets mà tần suất xuất hiện của nó >= min_sup goi là frequent itemsets II Một số loại luật kết hợp Binary association rules (luật kết hợp nhị phân): Apple => Banana Quantitative association rules (luật kết hợp định lượng): weight in [70kg – 90kg]... association rules (Luật kết hợp mờ): weight in HEAVY => height in TALL Thuật toán phổ biến nhất tìm các luật kết hợp là Apriori sử dụng Binary association rules III Thuật toán sinh các luật kết hợp Tư tưởng chính của thuật toán Apriori là: - Tìm tất cả frequent itemsets: k-itemset (itemsets gồm k items) được dùng để tìm (k+1)itemset Đầu tiên tìm 1-itemset (ký hiệu L1) L1 được dùng để tìm L2 (2-itemsets)... tập mục lớn và độ hỗ trợ, ta tiến hành sinh các luật kết hợp bằng cách sử dụng thủ tục sinh các tập con của tập mục lớn Các luật kết hợp thu được trong trường hợp này bao gồm các luật dạng Y ⇒ X như đã đề cập ở trên Như vậy, kết quả khai thác sẽ cho thấy các luật thu được có dạng Y ⇒ X và cách thức vận dụng các luật nào là chưa rõ Các tri thức chiết xuất dạng này thường không cần thiết và gây nên lãng... mua Banana Công thức để tính độ tin cậy của luật kết hợp X =>là xác suất có điều kiện Y khi đã biết X như sau : Trong đó: n(X) là số giao dịch chứa X Để thu được các luật kết hợp, ta thường áp dụng 2 tiêu chí: minimum support (min_sup) và minimum confidence (min_conf) Các luật thỏa mãn có support và confidence thỏa mãn (lớn hơn hoặc bằng) cả Minimum support và Minimum confidence gọi là các luật mạnh... {B,C} => {E} và {C,E} => {B} HV: Lê Thị Xuân Diệu CH1101076 16 Trang Công nghệ tri thức và ứng dụng Ví dụ 2: Giả sử có cơ sở dữ liệu giao dịch bán hàng gồm 5 giao dịch như sau: Thuật toán Apriori tìm các luật kết hợp trong giao dịch bán hàng trên như sau: HV: Lê Thị Xuân Diệu CH1101076 17 Trang Công nghệ tri thức và ứng dụng HV: Lê Thị Xuân Diệu CH1101076 18 Trang Công nghệ tri thức và ứng dụng Kết quả... Ví dụ, support của luật X =>Y là 5% có nghĩa là 5% các giao dịch X và Y được mua cùng nhau Công thức để tính support của luật X =>Y như sau: Trong đó: N là tổng số giao dịch HV: Lê Thị Xuân Diệu CH1101076 13 Trang Công nghệ tri thức và ứng dụng b) Độ tin cậy (Confidence) Độ tin cậy (Confidence) của luật kết hợp X =>Y là xác suất xảy ra Y khi đã biết X Ví dụ độ tin cậy của luật kết hợp {Apple} =>Banana}... KH.csv và lưu lại với phần kiểu arff với tên KH.arff II Tìm luật kết hợp bằng WEKA Bước 1: Khởi động WEKA chọn Explorer HV: Lê Thị Xuân Diệu CH1101076 27 Trang Công nghệ tri thức và ứng dụng Bước 2: Chọn Open file Chọn file KH.arff chọn Associate HV: Lê Thị Xuân Diệu CH1101076 28 Trang Công nghệ tri thức và ứng dụng Chọn mục Choose để chọn thuật toán Apriori HV: Lê Thị Xuân Diệu CH1101076 29 Trang Công . HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT ________ ________ BÀI THU HOẠCH MÔN HỌC CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Đề tài: LUẬT KẾT HỢP VÀ CÔNG CỤ TÌM LUẬT KẾT HỢP WEKA . k-itemset Mục đích của luật kết hợp là tìm ra sự kết hợp (association) hay tương quan (correlation) giữa các items. Những luật kết hợp này có dạng X =>Y Trong Basket Analysis, luật kết hợp X =>Y. thức đã có. Tích hợp với các hệ thống khác… HV: Lê Thị Xuân Diệu CH1101076 Trang 12 Công nghệ tri thức và ứng dụng Phần III Thuật toán tìm tập phổ biến và luật kết hợp I. Luật kết hợp trong khai

Ngày đăng: 10/04/2015, 16:26

Từ khóa liên quan

Mục lục

  • CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT

    • TP. HCM, năm 2012

    • MỤC LỤC

    • Lời nói đầu

    • Trong xã hội ngày nay có rất nhiều cơ quan chức năng thực hiện lưu trữ cơ sở dữ liệu trong quá trình làm việc của cơ quan, nhằm khai thác trên cơ sở dữ liệu đó để rút ra những kinh nghiệm quí để thực hiện công việc một cách có hiệu quả. Với cơ sở dữ liệu càng ngày càng lớn thì việc sử dụng thì việc sử dụng luật kết hợp trong khai mỏ dữ liệu càng ngày được nhiều cơ quan như Ngân hàng, Siêu thị, Công ty viễn thông… sử dụng.

    • Trong giới hạn thời gian cho phép bài thu hoạch này em tìm hiểu khái quát về khai mỏ dữ liệu, áp dụng khai mỏ dữ liệu trong thực tế dùng luật kết hợp, nêu ra một số ứng dụng thực tế sử dụng khai mỏ dữ liệu hiện nay và cách sử dụng công cụ mã nguồn mở WEKA tìm luật kết hợp

    • Em xin chân thành cảm ơn thầy GS.TSKH Hoàng Kiếm đã hướng dẫn cung cấp tài liệu trong suốt quá trình học tập môn học cũng như quá trình làm bài thu hoạch này.

    • Phần I Tổng quan về dữ liệu

      • I. Đặt vấn đề

      • II. Khai phá tri thức và phát hiện tri thức

      • III. Quá trình phát hiện tri thức từ cơ sở dữ liệu

        • 1. Xác định bài toán

        • 2. Thu thập và tiền xử lý

        • 3. Khai mỏ dữ liệu

        • 4. Phát biểu và đánh giá kết quả

        • 5. Sử dụng tri thức đã phát hiện

        • Phần II Khai mỏ dữ liệu

          • I. Khai mỏ dữ liệu là gì?

            • 1. Khái niệm

            • II. Khai mỏ dữ liệu có những lợi ích gì?

            • III. Các bước của quá trình khai mỏ dữ liệu

            • IV. Các kỹ thuật khai mỏ dữ liệu

              • 1. Kỹ thuật khai mỏ dữ liệu mô tả

              • 2. Kỹ thuật khai mỏ dữ liệu dự đoán

              • V. Nhiệm vụ chính của khai mỏ dữ liệu

                • 1. Phân lớp (Classification)

                • 2. Hồi quy (Regression)

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan