Bài tiểu luận môn Công nghệ tri thức MỘT SỐ THUẬT TOÁN KHAI THÁC

26 443 0
Bài tiểu luận môn Công nghệ tri thức MỘT SỐ THUẬT TOÁN KHAI THÁC

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHUYÊN ĐỀ CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG BÀI THU HOẠCH MỘT SỐ THUẬT TOÁN KHAI THÁC TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP GIẢNG VIÊN HƯỚNG DẪN GS. TSKH. HOÀNG KIẾM HỌC VIÊN THỰC HIỆN LÊ CUNG TƯỞNG (CH1101152) Hồ Chí Minh, 5/2012 P a g e | 1 Mục lục Mục lục 1 1. Giới thiệu tổng quan 2 1.1. Khai thác dữ liệu 2 1.2. Một số khái niệm 2 1.2.1. Cơ sở dữ liệu giao dịch 2 1.2.2. Tập phổ biến 3 1.2.3. Luật kết hợp 3 1.2.4. Bài toán khai thác tập phổ biến và luật kết hợp 4 2. Các thuật toán tìm tập phổ biến 5 2.1. Thuật toán Apriori 5 2.1.1. Ý tưởng thuật toán 5 2.1.2. Thuật toán 5 2.1.3. Ví dụ minh họa 7 2.1.4. Hạn chế của thuật toán Apriori 8 2.2. Thuật toán FP-tree 8 2.2.1. Giới thiệu 8 2.2.2. Mô tả 9 2.2.3. Nhận xét 9 2.2.4. Thuật toán 10 2.2.5. Ví dụ minh họa 11 2.3. Thuật toán FP-growth 12 2.3.1. Giới thiệu 12 2.3.2. Thuật toán 13 2.3.3. Ví dụ minh họa 14 2.4. Thuật toán FP-growth* 14 2.4.1. Giới thiệu 14 2.4.2. Thuật toán 16 2.4.3. Ví dụ minh họa 17 2.4.4. Nhận xét 17 3. Các thuật toán khai thác luật kết hợp truyền thống 18 3.1. Sinh luật kết hợp dựa vào quan hệ cha con 18 3.1.1. Thuật toán sinh luật từ tập phổ biến 18 3.1.2. Minh họa 19 3.2. Sinh luật kết hợp dựa vào bảng băm 20 3.2.1. Thuật toán 21 3.2.2. Minh họa 21 4. Thực nghiệm 23 Kết luận 24 Tài liệu tham khảo 25 P a g e | 2 1. Giới thiệu tổng quan 1.1. Khai thác dữ liệu Chúng ta đang sống trong thời đại bùng nổ thông tin. Thông tin được lưu trữ với khối lượng khổng lồ. Điều này đòi hỏi phải có những cơ sở lý thuyết trợ giúp cho con người trong việc rút trích ra các tri thức từ khối lượng dữ liệu này. Lĩnh vực khai phá tri thức và khai thác dữ liệu được hình thành và phát triển nhằm đáp ứng nhu cầu này. Hiện nay, lĩnh vực khai thác dữ liệu có 3 bài toán chính được đề cập nhiều nhất, đó là: Khai thác luật kết hợp, phân lớp và gom nhóm dữ liệu. Các bài toán này nhằm đáp ứng cho việc khai thác dữ liệu văn bản, khai thác dữ liệu không gian, thời gian, khai thác dữ liệu Web, Khai thác luật phân lớp là tìm ra các qui luật để từ đó dự đoán nhãn của các mẫu chưa biết trước lớp. Một số cách tiếp cận hiện nay như cây quyết định, ILA, phân lớp dựa vào luật kết hợp, Gom nhóm là gom các đối tượng “tương tự” nhau về cùng một nhóm. Một số phương pháp điển hình như phân hoạch, phân cấp, gom nhóm dựa trên mật độ, Khai thác luật kết hợp là tìm ra các mối quan hệ giữa các item với nhau. Vế phải của luật kết hợp có thể chứa một hay nhiều item. Vì vậy, độ phức tạp của bài toán khai thác luật kết hợp lớn hơn nhiều so với bài toán khai thác luật phân lớp. Đã có khá nhiều thuật toán được phát triển nhằm làm tăng hiệu quả khai thác luật kết hợp như: Các thuật toán phát triển từ Apriori, các thuật toán phát triển từ FP-tree, các thuật toán phát triển từ IT-tree, Có thể nói, cùng với sự phát triển mạnh mẽ của công nghệ thông tin và truyền thông thì ngành khai thác dữ liệu cũng đóng một vai trò không nhỏ trong việc khai thác và phân tích dữ liệu nhằm làm tăng tính hiệu quả cho người sử dụng chúng. 1.2. Một số khái niệm 1.2.1. Cơ sở dữ liệu giao dịch Cơ sở dữ liệu (CSDL) giao dịch  gồm một bộ đôi {, } trong đó  = { 1 ,  2 ,  ,   } là tập tất cả các item và  = { 1 ,  2 ,  ,   } là một tập các giao dịch. Bài thu hoạch dùng một CSDL trong bảng 1.1 làm ví dụ xuyên suốt các phần. P a g e | 3 Bảng 1.1. Cơ sở dữ liệu mẫu Giao tác Danh mục 1 A, C, T, W 2 C, D, W 3 A, C, T, W 4 A, C, D, W 5 A, C, D, T, W 6 C, D, T 1.2.2. Tập phổ biến Độ phổ biến: Cho CSDL giao dịch  và một itemset   . Độ phổ biến của  trong , kí hiệu (), là số giao dịch mà X xuất hiện trong D. Ví dụ: Xét CSDL của bảng 1.1, ta có () = 4 vì A chứa trong 4 giao dịch 1345, () = 2 vì AD chứa trong các giao dịch 45. Tập phổ biến:    được gọi là phổ biến nếu ()   (với minSupCount là giá trị do người dùng chỉ định). Ví dụ: Xét CSDL của bảng 1.1 với  = 3 thì A là tập phổ biến vì () = 4   nhưng AD không phải là tập phổ biến vì () = 2 < . Mộ số tính chất của tập phổ biến - Mọi tập con của một tập phổ biến cũng phổ biến. Nghĩa là   , nếu ()   thì ()  . - Mọi tập cha của một tập không phổ biến cũng không phổ biến. Nghĩa là   , nếu () <  thì () < . 1.2.3. Luật kết hợp Luật kết hợp: là biểu thức có dạng  ,   \ (  ) , trong đó  = () được gọi là độ phổ biến của luật và  = ()/() được gọi là độ tin cậy của luật. Tập tất cả các luật kết hợp từ CSDL  thỏa    và    được gọi là tập luật kết hợp truyền thống. Một số tính chất của luật kết hợp P a g e | 4 - Nếu    là luật kết hợp truyền thống thì      \  cũng là luật kết hợp truyền thống   . - Nếu    là luật kết hợp truyền thống thì    \  cũng là luật kết hợp truyền thống   . - Nếu    không là luật kết hợp thì  \      cũng không là luật kết hợp   . 1.2.4. Bài toán khai thác tập phổ biến và luật kết hợp Nhiệm vụ chính của khai thác luật kết hợp bao gồm 2 bước như sau: (1) tìm tất cả các tập phổ biến. (2) phát sinh các luật kết hợp tin cậy từ tập phổ biến. Bước 1 (tìm tập phổ biến): bước này đòi hỏi nhiều thao tác tính toán và xuất nhập dữ liệu. Xét bảng 1.1, trình bày một CSDL với 6 giao tác {1, 2, 3, 4, 5, 6} mang 5 danh mục {, , , , } khác nhau. Bài toán đòi hỏi trình bày tất cả các tập phổ biến với độ hỗ trợ tối thiểu () là 33% (2). Dễ dàng tìm được tập hợp các tập phổ biến như trong bảng sau với CDT, ACTW và ACDW là các tập phổ biến tối đại (chúng không là một tập con của bất kỳ tập phổ biến nào). Độ tin cậy Các tập danh mục phổ biến 100% C 83% W, CW 67% A, D, T, AC, AW, CD, CT, ACW 50% AT, DW, TW, ACT, ATW, CDW, CTW, ACTW 33% AD, DT, CDT, ACD, ADW, ACDW Bước 2 (phát sinh luật kết hợp): bước này là một bước đơn giản hơn. Luật kết hợp được được tạo ra từ tất cả các tập phổ biến X tìm thấy ở bước 1 thỏa mãn điều kiện   . Ví dụ, từ một tập phổ biến ACW có thể tạo 6 luật là:   : 1.0;   : 0.67;   : 0.8;   : 1.0;   : 1.0 và   : 0.8. P a g e | 5 2. Các thuật toán tìm tập phổ biến 2.1. Thuật toán Apriori 2.1.1. Ý tưởng thuật toán Thuật toán khai thác các tập phổ biến bằng cách thực hiện nhiều lần duyệt CSDL. Duyệt lần thứ nhất để tính độ phổ biến của các 1-itemset và xác định các item phổ biến từ chúng, nghĩa là độ phổ biến thỏa ngưỡng phổ biến tối thiểu. Trong các lần duyệt sau, thuật toán sẽ kết hợp các itemset phổ biến đã tìm được trong lần duyệt trước để tìm các tập ứng viên. Sau đó tính độ phổ biến thực sự của các tập ứng viên này nhằm xác định itemset nào trong các tập ứng viên là tập phổ biến thực sự. Các itemset này trở thành các hạt giống cho lần duyệt tiếp theo. Quá trình này thực hiện cho đến khi không còn một tập phổ biến mới nào nữa được sinh ra. Thuật toán Apriori sinh ra các tập ứng viên trong một lần duyệt bằng cách chỉ sử dụng các tập phổ biến đã được khai thác trong lần duyệt trước mà không cần quan tâm đến các giao dịch trong cơ sở dữ liệu. Các ứng viên k-itemset được sinh ra bằng cách kết hợp các tập phổ biến thuộc (k-1)-itemset. Thuật toán Apriori tỉa ứng viên bằng cách loại bỏ các ứng viên có chứa tập con không phải là tập phổ biến. Qui ước: Giả sử các item trong mỗi giao dịch được lưu giữ theo thứ tự từ điển.   là tập các k-itemset phổ biến.   là tập các ứng viên có k-itemset. Mỗi phần tử của   và   có 2 thành phần: itemset và độ phổ biến tương ứng. 2.1.2. Thuật toán Gồm 2 bước: bước kết hợp và bước tỉa các ứng viên. Bước kết hợp: Bước này nhằm tìm tập   bằng việc kết hợp các tập phổ biến trong  1 với nhau. Kết quả là tập các ứng viên   . Hai tập phổ biến  1 và  2 thuộc  1 sẽ được kết hợp với nhau nếu chúng thỏa đều kiện sau: ( 1 [1] =  2 [1])  ( 1 [2] =  2 [2]) . . . ( 1 [  2] =  2 [  2])  ( 1 [  1] =  2 [  1]) Kết quả sẽ là itemset:  1 [1]  1 [1]. . .  1 [  2]  1 [  1]  2 [  1] P a g e | 6 Bước tỉa: Ta có   là tập chứa   , nghĩa là thuật toán cần lọc các tập từ   để tạo ra   . Bước này sẽ loại bỏ các itemset     nếu  tồn tại tập con (k-1)-itemset không có trong  1 . Đoạn mã giả sau đây trình bày thuật toán Apriori:  1 chứa các 1-itemset thỏa  (dòng 1), từ dòng 2 đến dòng 6 là quá trình lặp đi lặp lại của việc sinh ứng viên và đếm độ phổ biến của các ứng viên bằng cách xét chúng với các giao dịch trong CSDL. Việc sinh ứng viên (hàm Apriori-gen) sử dụng tính chất apriori để tỉa các ứng viên (dòng 14 – 15), việc sinh các ứng viên từ  1 và  2 phải thỏa mãn  1 và  2 có cùng tiền tố là (k-2)-itemset (dòng 12 – 13). Đầu vào: Cơ sở dữ liệu giao dịch D và ngưỡng độ phổ biến minSupCount. Kết quả: FI chứa danh sách các tập phổ biến trong D thỏa minSupCount. 1. _1 = {     ()  } 2. for (k = 2;  1  ; k++) do 3.   = Apriori_gen( 1 ) 4. for each    do 5. for each      do 6. if     then   .count++ 7.   = {     | c k .count  minSupCount} 8. FI =   L k Apriori_gen(L k-1 ) 9. C k =  10. for each  1   1 do 11. for each  2   1 do 12. if ( 1 [1] =  2 [1])  ( 1 [2] =  2 [2]) . . . ( 1 [  2] =  2 [  2])  ( 1 [  1] =  2 [  1]) then 13. c = l 1  l 2 //bước kết hợp l 1 và l 2 sinh ra ứng viên c 14. if Has_infrequent_subset(c, L k-1 ) = False then 15. Add c into C k 16.return C k Has_infrequent_subset(c, L k-1 ) 17. for each (k-1)-itemset s  c do 18. if s  L k-1 then 19. return True P a g e | 7 20. return False 2.1.3. Ví dụ minh họa Xét CSDL mẫu ở bảng 1.1, tất cả các tập phổ biến có độ phổ biến thỏa minSupCount = 3 (50% số giao dịch) như sau: CSDL TID Nội dung 1 A, C, T, W 2 C, D, W 3 A, C, T, W 4 A, C, D, W 5 A, C, D, T, W 6 C, D, T L 1 Item  D 4 W 5 A 4 C 6 T 4 C 2 Itemset  AC 4 AD 2 AT 3 AW 4 CD 4 CT 4 CW 5 DT 2 DW 3 TW 3 L 2 Itemset  AC 4 AT 3 AW 4 CD 4 CT 4 CW 5 DW 3 TW 3 C 3 Itemset  ACT 3 ACW 4 ATW 3 CDW 3 CTW 3 L 3 Itemset  ACT 3 ACW 4 ATW 3 CDW 3 CTW 3 CDT không tồn tại trong C 3 vì DT không là tập phổ biến. C 4 Itemset  ACTW 3 L 4 Itemset  ACTW 3 Từ L 3 , chỉ có ACT và ACW có cùng tiền tố (là AC) nên kết hợp được với nhau tạo thành ACTW. Xét ACTW, tất cả các tập phổ biến con của ACTW có 3- itemset đều phổ biến. Vì vậy, ACTW là một ứng viên cần tính độ phổ biến. Cuối cùng, do L4 chỉ có là tập phổ biến nên C 5 = L 5 = , thuật toán dừng. P a g e | 8 Ta có danh sách các tập phổ biến được trình bày trong bảng sau: STT Tập phổ biến  1 D 4 2 T 4 3 A 4 4 W 5 5 C 6 6 DW 3 7 CD 4 8 AT 3 9 TW 3 10 CT 4 11 AW 4 12 AC 4 13 CW 5 14 CDW 3 15 ATW 3 16 ACT 3 17 CTW 3 18 ACW 4 19 ACTW 3 2.1.4. Hạn chế của thuật toán Apriori Chi phí lớn cho việc phát sinh các tập ứng viên. Ví dụ: Nếu có 10 4 item phổ biến thì thuật toán Apriori sẽ cần sinh ra hơn 10 7 các ứng viên 2-itemset. Lặp lại nhiều lần duyệt CSDL: Số lần duyệt CSDL của thuật toán Apriori bằng độ dài của mẫu phổ biến dài nhất tìm được. Thuật toán Apriori chỉ thích hợp cho các CSDL thưa (mật độ trùng lặp của các item trên các giao dịch ít), đối với các CSDL đặc (mật độ trùng lặp của các item trên các giao dịch nhiều) thì thuật toán thực hiện kém hiệu quả. 2.2. Thuật toán FP-tree 2.2.1. Giới thiệu Để khắc phục điểm yếu của các dựa trên thuật toán Apriori là phải duyệt cơ sở liệu nhiều lần và phải kiểm tra một lượng lớn các ứng viên dẫn đến tốc độ thực thi của thuật toán không hiệu quả, tác giả J. Han và các đồng sự đã đề xuất ra cấu trúc FP- tree. Vì thông qua cấu trúc FP-tree, một CSDL được nén lại và chỉ thông tin liên hệ với khai thác được giữ lại làm cho việc khai thác dữ liệu có hiệu quả hơn. Bên cạnh P a g e | 9 cấu trúc FP-tree, tác giả cũng giới thiệu kỹ thuật để duyệt FP-tree và cách xác định các tập phổ biến. Cấu trúc FP-tree có nhiều thuận lợi trong khai thác tập phổ biến. Trước hết, FP-tree thường có một tỉ lệ nén cao trong khi biểu diễn tập CSDL bởi vì: - Các danh mục không phổ biến được xác định trong lần duyệt CSDL đầu tiên sẽ không được sử dụng trong cấu trúc cây. - Một tập hợp của các giao tác dùng chung tập con của các danh mục giống nhau có thể chia sẻ chung phần đầu đường dẫn từ gốc trong một FP-tree và tỉ lệ nén cao dẫn đến tính hiệu quả khi thao tác trực tiếp trên FP-tree. - Cấu trúc dữ liệu này cho phép thực hiện chiến lược tìm kiếm theo chiều sâu và sử dụng mô hình chia để trị vì đây là những kỹ thuật khá hiệu quả. Quan trọng hơn cả, FP-tree chứa tất cả các thông tin cần thiết để khai thác tập phổ biến và tính hoàn thiện của nó có thể đảm bảo tính đúng đắn của thuật toán dựa trên FP-tree. 2.2.2. Mô tả Cấu trúc FP-tree là cấu trúc cây với một số đặc điểm sau: - Cây có một nút cha đánh nhãn là “null” và những cây con nối với nút cha này là những thành phần chung của nhiều giao tác được nén lại với nhau trên các nhánh cây. Ngoài ra còn có một bảng tiêu đề các danh mục đơn phổ biến. - Mỗi nút trong nhánh của cây có ba trường dữ liệu: mã danh mục, số đếm, con trỏ liên kết. Mã danh mục tương ứng với danh mục mà nút này đại diện, số đếm là số giao tác có chứa chung phần danh mục này và con trỏ liên kết dùng để liên kết 2 nút đại diện chung một mã danh mục ở hai nhánh cây khác nhau. Giá trị của trường con trỏ liên kết có thể mang giá trị rỗng khi là nút cuối cùng trong chuỗi liên kết. - Mỗi phần tử trong bảng tiêu đề các danh mục đơn phổ biến gồm 2 trường: mã danh mục và con trỏ liên kết đến đầu nút của chuỗi liên kết các nút cùng đại diện chung cho một danh mục. 2.2.3. Nhận xét Những lợi ích có được khi sử dụng cấu trúc FP-tree: [...]... không gian nhớ trong hợp lý Bài thu hoạch chỉ dừng lại ở mức trình bày và xây dựng chương trình demo của một số thuật toán cơ bản để khai thác tập phổ biến và luật kết hợp Đã có rất nhiều công trình nghiên cứu thành công trong bài toán khai thác khai thác tập phổ biến và luật kết hợp Do đó, mở ra rất nhiều thách thức và cơ hội trong lĩnh vực khai thác dữ liệu Ngoài bài toán khai thác tập phổ biến và luật... cao hiệu quả của các thuật toán khai thác luật kết hợp dựa trên dàn Luận án tiến sĩ Công nghệ Thông tin, Đại học Khoa học Tự nhiên Tp.HCM (2011) [2] Võ Đình Bảy, Một số thuật toán khai thác Luật kết hợp trên tập đóng và dàn, Luận án Thạc sĩ Tin học, Đại học Khoa Học Tự Nhiên TP.Hồ Chí Minh, TP.Hồ Chí Minh (2005) [3] GS.TSKH Hoàng Kiếm Bài giảng cao học môn học cơ sở tri thức và ứng dụng ĐHKHTN-TPHCM... đến bài toán khai thác khai phá chuỗi (sequence mining) ứng dụng trong Semantic Web để xây dựng các hệ thống khuyến nghị (recommender systems) Học viên Lê Cung Tưởng xin chân thành cảm ơn GS TSKH Hoàng Văn Kiếm đã tận tình truyền đạt các kiến thức bổ ích trong chuyên đề Công nghệ Tri thức và Ứng dụng 02/06/2012 Lê Cung Tưởng P a g e | 25 Tài liệu tham khảo [1] Võ Đình Bảy Nâng cao hiệu quả của các thuật. .. “Process” để tiến hành tính toán Sau khi tính toán xong, chương trình sẽ hiển thị kết quả ngay bên dưới P a g e | 24 Kết luận Bài toán tìm các luật kết hợp (association rule) là bài toán khó, có độ phức tạp cao Khi ứng dụng trong thực tế với cơ sở dữ liệu lớn (như dữ liệu bán hàng của siêu thị), giải thuật gốc áp dụng nguyên lý Apriori vẫn còn một số hạn chế không cho ra lời giải trong một thời gian và không... băm Thuật toán xét quan hệ cha – con ở trên tốn nhiều thời gian khi số lượng tập phổ biến lớn Gọi 𝑛 là số tập phổ biến thì thuật toán phải xét mỗi tập phổ biến với tất cả các tập phổ biến đứng sau nó Vì vậy, độ phức tạp của thuật toán sẽ là 𝑂(𝑛2) (không xét độ phức tạp của việc kiểm tra 𝑓𝑗 có là con của 𝑓𝑖 hay không) Một cách tiếp cận đơn giản hơn là dựa vào tính chất apriori: Mọi tập con của một tập... toán để sinh tất cả các luật kết hợp không trùng nhau được trình bày bên dưới 3.1.1 Thuật toán sinh luật từ tập phổ biến Thuật toán trong bên dưới mô tả quá trình sinh tập luật từ danh sách các tập phổ biến Thuật toán đầu tiên sắp xếp các tập phổ biến theo chiều tăng dần của độ dài P a g e | 19 (dòng 1) Sau đó thuật toán xét mỗi tập phổ biến 𝑌 (𝑓𝑖 ) với các phần tử 𝑋(𝑓𝑗 ) đứng trước nó (dòng 2 – 4),... thông qua một lần duyệt toàn bộ CSDL - Toàn bộ những thông tin của CSDL cần cho quá trình khai thác đều được lưu trữ trong cấu trúc cây với tỉ lệ nén cao Điều này giúp cho quá trình khai thác không phải duyệt đi duyệt lại trên toàn bộ CSDL lớn - Những giao tác chứa chung các danh mục có thể được gộp chung tối đa với nhau bằng cách sắp xếp chúng theo thứ tự phổ biến và tích lũy vào trong một số đếm -... thứ hai của CSDL, xây dựng 𝑇∅ và một mảng 𝐴∅ Mảng này sẽ lưu số lần đếm của tập 2 danh mục Lúc đầu, tất cả các ô trong mảng được khởi tạo là 0 C 4 W 3 5 A 2 4 4 T 2 4 3 D C C W (a) 𝐴∅ W 3 A 2 1 3 A 1 3 D C 3 W (b) 𝐴{𝑇} Trong 𝐴∅ , mỗi ô là một số đếm của tập 2 danh mục Ô 𝐴∅ [C,W] là số đếm của tập CW, ô 𝐴∅ [C,A] là số đếm của tập CA và tương tự như thế Trong lần duyệt số hai xây dựng 𝑇∅ , các danh mục... giảm Tại bất kỳ thời điểm nào vì một mảng là một phần của một FP-tree nên khi không gian cho FP-tree được giải phóng thì không gian cho mảng củng được giải phóng 2.4.2 Thuật toán Diễn giải hàm FPgrowth*(): Bước 1: Nếu FP-tree chỉ có một nhánh đơn P thì chỉ cần tạo ra những tập phổ biến kết hợp giữa 𝑝𝑟𝑒𝑓𝑖𝑥 và các tổ hợp của những danh mục trong P và độ phổ biến bằng với số đếm nhỏ nhất của những nút tham... 3 Các thuật toán khai thác luật kết hợp truyền thống 3.1 Sinh luật kết hợp dựa vào quan hệ cha con Dựa vào tính chất của tập phổ biến, ta có tất cả các tập con của itemset X đều xuất hiện trong tập phổ biến nên chỉ cần tìm tập con của X trong tập phổ biến Mặt khác, nếu sắp xếp tập tập phổ biến theo chiều tăng dần của k-itemset thì rõ ràng tập con của X chỉ xuất hiện trước X Như vậy ta có thuật toán . HỌC QUỐC GIA TP. HỒ CHÍ MINH ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHUYÊN ĐỀ CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG BÀI THU HOẠCH MỘT SỐ THUẬT TOÁN KHAI THÁC TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP . Các thuật toán tìm tập phổ biến 5 2.1. Thuật toán Apriori 5 2.1.1. Ý tưởng thuật toán 5 2.1.2. Thuật toán 5 2.1.3. Ví dụ minh họa 7 2.1.4. Hạn chế của thuật toán Apriori 8 2.2. Thuật toán. các tri thức từ khối lượng dữ liệu này. Lĩnh vực khai phá tri thức và khai thác dữ liệu được hình thành và phát tri n nhằm đáp ứng nhu cầu này. Hiện nay, lĩnh vực khai thác dữ liệu có 3 bài toán

Ngày đăng: 10/04/2015, 17:04

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan