Khai phá luật kết hợp hiếm trên cơ sở dữ liệu và ứng dụng

57 446 0
Khai phá luật kết hợp hiếm trên cơ sở dữ liệu và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 MỤC LỤC LỜI CAM ĐOAN    i  LỜI CẢM ƠN    ii  MỤC LỤC    iii  DANH MỤC CÁC KÝ HIỆU, VIẾT TẮT    iv  DANH MỤC CÁC BẢNG BIỂU    v  DANH MỤC CÁC HÌNH VẼ   . vi  MỞ ĐẦU   1 CHƯƠNG 1   3 KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ LUẬT KẾT HỢP   3 1.1. Khai phá dữ liệu   3 1.1.1. Quá trình phát hiện tri thức từ cơ sở dữ liệu   3 1.1.2. Kiến trúc của hệ thống khai phá dữ liệu   Error! Bookmark not defined 1.1.3. Quá trình khai phá dữ liệu   5 1.1.4. Nhiệm vụ của khai phá dữ liệu.  . Error! Bookmark not defined 1.1.5. Các ứng dụng của khai phá dữ liệu  . 6 1.2. Khai phá luật kết hợp trong cơ sở dữ liệu   7 1.2.1. Bài toán mở đầu   Error! Bookmark not defined 1.2.2. Các khái niệm cơ sở   7 1.2.2.1. Cơ sở dữ liệu giao tác   7 1.2.2.2. Tập mục phổ biến   7 1.2.2.3. Luật kết hợp   8 1.2.3. Khai phá luật kết hợp   9 1.2.4. Các cách tiếp cận khai phá tập mục phổ biến   Error! Bookmark not defined 1.2.5. Các thuật toán điển hình khai phá tập mục phổ biến   10 1.2.5.1 Thuật toán Apriori  . 10 1.2.5.2.Thuật toán FP_growth   12 1.2.6. Thuật toán sinh luật kết hợp:  . 14 1.2.7. Một số mở rộng khai phá luật kết hợp   17 Kết luận chương 1   18 Chương 2: LUẬT KẾT HỢP HIẾM   19 2.1. Giới thiệu chung về luật kết hợp hiếm.   19 2.2. Một số hướng nghiên cứu chính phát hiện luật kết hợp hiếm  . 19 2.2.1. Sử dụng ràng buộc phần hệ quả của luật  . 20 2.2.2. Thiết lập đường biên phân chia các tập phổ biến và không phổ biến   21 2.2.3. Phát hiện luật kết hợp hiếm từ các CSDL định lượng   22 2.3. Khuynh hướng nghiên cứu về luật hiếm   22 2.4. Phát hiện luật kết hợp hiếm Sporadic trên CSDL giao tác   24 2.4.1. Khái niệm về luật hiếm Sporadic   24 2.4.2.Thuật toán Apriori-Inverse   26 2.4.3. Thuật toán tìm tập Sporadic tuyệt đối hai ngưỡng đóng   31 2.4.3.1. Tập Sporadic tuyệt đối hai ngưỡng  . 32 2.4.3.2. Thuật toán MCPSI tìm tập Sporadic tuyệt đối hai ngưỡng đóng   34 Kết luận chương 2   37 Chương 3  . 38 THỰC NGHIỆM TÌM LUẬT HIẾM SPORADIC TUYỆT ĐỐI   38 3.1. Giới thiệu bài toán  . 38 3.2. Dữ liệu thực nghiệm   39 3.3. Xây dựng chương trình  . 41 3.4. Thực nghiệm khai phá  . 42 3.5. Kết quả thực nghiệm   46 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN   47 TÀI LIỆU THAM KHẢO   49                 LỜI CAM ĐOAN  Tôi  xin  cam  đoan  Luận  văn  “KHAI  PHÁ  LUẬT  KẾT  HỢP  HIẾM  TRÊN  CƠ  SỞ  DỮ  LIỆU  VÀ  ỨNG  DỤNG” là  công  trình  nghiên  cứu  của  riêng  tôi  dưới  sự  hướng  dẫn  của  TS.  Nguyễn  Huy  Đức.  Kết  quả  đạt  được  trong  luận  văn  là  sản  phẩm  của  riêng  cá  nhân  tôi,  không  sao  chép  lại  của  người  khác.  Trong  toàn  bộ  luận  văn,  những  điều  được  trình  bày  trong  luận  văn là của cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các  tài liệu tham khảo đều có xuất xứ rõ ràng và được trính dẫn hợp pháp.    Tôi xin chịu hoàn toàn trách nhiệm và chịu mọi hình thức kỷ luật theo  quy định cho lời cam đoan của mình.    Thái Nguyên, ngày tháng năm 2015 Người cam đoan       Nguyễn Thị Hải Lý   LỜI CẢM ƠN   Lời  đầu tiên  tôi xin  gửi lời  cảm  ơn  chân  thành và biết  ơn sâu  sắc  tới   TS. Nguyễn Huy Đức  - Trường Cao đẳng Sư phạm Trung ương, Thầy đã chỉ  bảo và hướng dẫn tận tình cho tôi trong suốt quá trình nghiên cứu khoa học và  thực hiện luận văn này.    Tôi  xin  chân  thành  cám  ơn  sự  dạy  bảo,  giúp  đỡ,  tạo  điều  kiện  và  khuyến khích tôi trong quá trình học tập và nghiên cứu của các thầy cô giáo  của  Viện  Công  nghệ  thông  tin,  Trường  Đại  học  Công  nghệ  thông  tin  và  Truyền thông - Đại học Thái Nguyên.    Và cuối cùng, tôi xin gửi lời cảm ơn tới gia đình, người thân và bạn bè,  những  người  luôn  ở  bên  tôi  những  lúc  khó  khăn  nhất,  luôn  động  viên  tôi  khuyết khích tôi trong cuộc sống và trong công việc.    Tôi xin chân thành cảm ơn!    Thái Nguyên, ngày tháng Tác giả     Nguyễn Thị Hải Lý năm 2015 DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Ký hiệu             Diễn giải KPDL  Khai phá dữ liệu  CSDL  Cơ sở dữ liệu  DB  Cơ sở dữ liệu giao tác TID  Định danh của giao tác I  Tập các mục dữ liệu T  Giao tác (transaction) Ck  Tập các ứng viên là tập mục có k mục dữ liệu Lk  Tập các tập mục phổ biến có k mục dữ liệu k-itemset  Tập mục gồm k mục BFS  Breadth First Search (Duyệt theo chiều rộng)  DFS  Depth First Search (Duyệt theo chiều sâu)  FP-growth  Frequent-Pattern Growth  FP-tree   Frequent pattern tree  Sup  Độ hỗ trợ (support) Conf  Độ tin cậy (Confiden)  Minsup  Ngưỡng hỗ trợ tối thiểu  Minconf  Ngưỡng tin cậy tối thiểu  DANH MỤC CÁC BẢNG BIỂU Bảng 1.1: Danh mục các tập mục trong CSDLError! Bookmark not defined Bảng 1.2: Biểu diễn ngang của CSDL giao tác.Error! Bookmark not defined Bảng 1.3: Biểu diễn dọc của CSDL giao tác. . Error! Bookmark not defined Bảng 1.4: Ma trận giao tác của CSDL bảng 1.2Error! Bookmark not defined Bảng 1.5: Cơ sở dữ liệu DB   Error! Bookmark not defined Bảng 1.6 : Độ hỗ trợ của các mục   Error! Bookmark not defined Bảng 1.7: Độ hỗ trợ của các tập mục   Error! Bookmark not defined Bảng 1.8: Độ tin cậy của các luật   Error! Bookmark not defined Bảng 1.10 : Cơ sở dữ liệu minh họa thực hiện thuật toán COFI-tree.Error! Bookmark not de Bảng 1.11 : Các mục dữ liệu và độ hỗ trợ.   Error! Bookmark not defined Bảng 1.12 : Các mục dữ liệu phổ biến đã sắp thứ tự.Error! Bookmark not defined Bảng 1.13 : Các mục dữ liệu trong giao tác giảm dần theo độ hỗ trợ.Error! Bookmark not d Bảng 2.1 : Ví dụ CSDL giao tác D cho thuật toán Apriori-Inverse  . 28 Bảng 2.2 : Biểu diễn dọc của CSDL D trong bảng 2.1  . 29 Bảng 2.3 : Độ hỗ trợ của từng mục dữ liệu của CSDL D   29 Bảng 2.4 : Các mục sporadic và độ hỗ trợ   29 Bảng 2.5 : Các 2- tập mục ứng viên   30 Bảng 2.6 : Các tập mục sporadic tuyệt đối   30 Bảng 2.7 : Các luật sporadic tuyệt đối   31 Bảng 2.8: CSDL giao tác minh họa thuật toán MCPSI   36 Bảng 3.1: Dữ liệu đã trích chọn để khai phá   39 Bảng 3.2: Mã hóa các mặt hàng   39               DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1. Quá trình khám phá tri thức   4 Hình 1.2. Kiến trúc của hệ thống khai phá dữ liệuError! Bookmark not defined Hình 1.3: Quá trình khai phá dữ liệu   6 Hình 1.4 : Phân loại các thuật toán khai phá tập mục phổ biến.Error! Bookmark not defined Hình 1.5: Cây FP-tree của CSDL bảng 1.10.   Error! Bookmark not defined Hình 1.6: Cây COFI-tree của mục D.   Error! Bookmark not defined Hình 1.7: Các bước khai phá cây D-COFI-tree.Error! Bookmark not defined Hình 2.1: Minh họa tìm các tập Sporadic tuyệt đối hai ngưỡng đóng.   37 Hình 3.1: Dữ liệu đã mã hóa chuẩn bị cho khai phá   41 Hình 3.2: Giao diện chương trình  . 42 Hình 3.3: Giao diện chương trình tìm tập Sporadic tuyệt đối   43 Hình 3.4: Kết quả tìm tập Sporadic tuyệt đối   44 Hình 3.5: Giao diện chương trình tìm luật Sporadic tuyệt đối  . 45 Hình 3.6: Kết quả tìm luật Sporadic tuyệt đối  . 45 MỞ ĐẦU Đặt vấn đề   Trong  lĩnh  vực  khai  phá  dữ  liệu  (data  mining),  luật  kết  hợp   (association rule) được  dùng  để chỉ mối quan hệ kiểu “điều  kiệnhệ  quả”   giữa  các  phần tử dữ  liệu (chẳng hạn, sự  xuất  hiện của tập mặt  hàng  này   “kéo    theo”  sự  xuất    hiện  của  tập  mặt  hàng    khác)  trong  một  tập  bao  gồm   nhiều đối tượng dữ liệu (chẳng hạn, các giao dịch mua  hàng) ….  Phát  hiện  luật kết hợp là phát hiện các mối quan hệ đó trong phạm vi của một tập dữ   liệu đã cho.  Bài toán phát hiện luật kết hợp được Rakesh Agrawal và cộng sự   giới thiệu lần đầu tiên vào năm  1993 [4]  và nhanh chóng trở thành một trong  những  hướng  nghiên  cứu  quan  trọng  của  khai  phá  dữ  liệu,  đặc  biệt  trong  những năm gần  đây.   Phát  hiện  luật  kết  hợp  [5,  10]  đã  được  ứng  dụng    thành  công  trong  nhiều lĩnh vực kinh tế-xã hội khác nhau như: thương mại, y tế, sinh học, tài  chính - ngân  hàng,…Hiện tại, nhiều khuynh hướng nghiên cứu và ứng dụng  liên quan đến phát hiện luật kết hợp đã và đang tiếp tục được hình thành.   Một  trong    những  vấn    đề  về  phát  hiện  luật  kết  hợp  hiện  đang  nhận   được nhiều quan  tâm của các nhà nghiên cứu là phát hiện luật kết hợp hiếm.    Luật  kết  hợp  hiếm  là  những luật kết hợp ít  xảy    ra.  Mặc  dù  tần suất  xảy  ra  thấp, nhưng trong nhiều trường hợp, các luật này lại rất có giá trị.  Từ những yêu cầu, thực tế trên, em đã chọn đề tài “Khai phá luật kết hợp sở liệu ứng dụng”.  Đối tượng phạm vi nghiên cứu   Nghiên cứu các phương pháp, thuật toán khai phá luật kết hợp, đi sâu  vào bài toán phát hiện luật kết hợp hiếm thuộc lĩnh vực phát hiện tri thức từ   dữ liệu và ứng dụng.    Luận văn  tìm hiểu  luật  kết hợp hiếm Sporadic,  trong hai loại của luật  hiếm  Sporadic  là luật  hiếm  Sporadic  tuyệt  đối  và luật  hiếm  Sporadic  không  tuyệt đối, luận văn đi sâu tìm hiểu luật hiếm Sporadic tuyệt đối trên cơ sở dữ  liệu giao tác.  Hướng nghiên cứu đề tài - Nghiên cứu các kỹ thuật, phương pháp khai phá luật kết hợp.  - Tìm hiểu sâu về khai phá luật hiếm Sporadic tuyệt đối trên cơ sở dữ  liệu giao tác.  - Cài đặt, thực nghiệm phát hiện luật kết hợp hiếm trên CSDL.  Những nội dung nghiên cứu Từ những mục tiêu và yêu cầu của đề tài nghiên cứu, đề tài được xây  dựng gồm phần mở đầu, 3 chương nội dung và phần kết luận, cụ thể như sau:  Chương 1: Khai phá dữ liệu và bài toán khai phá luật kết hợp  Chương 2: Luật kết hợp hiếm.  Chương 3: Thực nghiệm tìm luật hiếm Sporadic tuyệt đối  Phương pháp nghiên cứu Phương  pháp  nghiên  cứu  chính  là  nghiên  cứu  lý  thuyết  kết  hợp  với  đánh giá thực nghiệm. Cụ thể là: tổng hợp các kết quả nghiên cứu về khai phá  luật kết hợp và luật kết hợp hiếm  đã công bố trên các bài báo khoa học, hội  thảo chuyên ngành trong và ngoài nước, từ đó trình bày làm  rõ vấn đề phát  triển khai phá luật kết hợp hiếm và xây dựng chương trình thực nghiệm đánh  giá ứng dụng.  Ý nghĩa khoa học đề tài Phần  lớn  các  thuật  toán  phát  hiện  luật  kết  hợp  hiện  nay  thường  thực  hiện tìm các luật  có độ hỗ  trợ  và độ  tin cậy cao. Việc ứng dụng các thuật  toán này để  tìm các luật kết hợp hiếm (có độ hỗ trợ thấp, độ tin cậy cao) là  không hiệu  quả do phải đặt ngưỡng độ hỗ trợ cực tiểu rất nhỏ, nên số lượng  các tập phổ biến tìm được sẽ khá lớn (trong khi chỉ có một phần trong các tập  tìm được có độ hỗ trợ nhỏ hơn ngưỡng độ hỗ trợ cực  tiểu  minSup)  và  như  vậy  chi  phí  cho  việc  tìm  kiếm sẽ tăng  lên. Nhằm khắc phục những khó  khăn  này,  cần  có  những  nghiên  cứu  các  phương  pháp,  thuật  toán  riêng  cho  phát hiện luật kết hợp hiếm.  CHƯƠNG KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ LUẬT KẾT HỢP 1.1 Khai phá liệu 1.1.1 Quá trình phát tri thức từ sở liệu Trong  thời  đại  hiện  đại  của thế kỷ  21,  với  sự  phát  triển  vượt  bậc  của  công nghệ thông tin, các hệ thống thông tin có thể lưu trữ một khối lượng lớn  dữ liệu về hoạt động hàng ngày của chúng. Lượng dữ liệu được lưu trữ dẫn  đến một đòi hỏi cấp bách phải có những kỹ thuật mới, những công cụ tự động  mới trợ giúp con người một cách thông minh trong việc chuyển đổi một lượng  lớn dữ liệu thành thông tin hữu ích.   Một số nhà khoa học xem khai phá dữ liệu như là  một cách gọi khác  của một thuật ngữ cũng rất thông dụng là khám phá tri thức trong cơ sở dữ  liệu  (Knowledge  Discovery  in  Databases  –  KDD)[5],  vì  cho  rằng  mục  đích  của  quá  trình  khám  phá  tri  thức  là  thông  tin  và  tri  thức  có  ích,  nhưng  đối  tượng mà chúng ta phải xử lý rất nhiều trong suốt quá trình khám phá tri thức  lại chính là dữ liệu. Một số nhà khoa học khác thì xem khai phá dữ liệu như là  một bước chính trong quá trình khám phá tri thức.  Hiểu quá trình khám phá, phát hiện tri thức ở đây là gì? Thông thường  chúng ta coi dữ liệu như là một dãy các bit, các số và các ký hiệu, hoặc các  “đối tượng” được gửi cho một chương trình dưới một định dạng nhất định nào  đó. Chúng ta sử dụng các bit để đo lường thông tin, khi sử dụng xem nó như  là dữ liệu đã được lọc bỏ dư thừa, được rút gọn tới mức tối thiểu. Bít được  dùng làm đơn vị đặc trưng cho dữ liệu. Chúng ta có thể xem tri thức như là  các thông tin tích hợp, bao gồm các sự kiện và các mối quan hệ giữa chúng.  Các mối quan hệ này có thể được học, được hiểu, được phát hiện ra. Nói cách  khác, tri thức có thể coi là dữ liệu có độ trừu tượng và tổ chức cao.  Thuật ngữ KPDL ra đời vào những năm cuối của thập kỷ 1980. Khai  phá  dữ  liệu  bao  gồm  nhiều  hướng  tiếp  cận,  là  sự  kết  hợp  của  nhiều  ngành  như: Cơ sở dữ liệu; Học máy; Trí tuệ nhân tạo; Lý thuyết thông tin; Xác suất  thống kê; Tính toán hiệu năng cao và các phương pháp tính toán mềm v. v….  Có rất nhiều định nghĩa khác nhau về "KPDL" đã được đưa ra, ta có thể hiểu  khai phá dữ liệu là quá trình tìm kiếm những thông tin (tri thức) có ích, tiềm  ẩn và mang tính dự đoán trong các khối cơ sở dữ liệu lớn.  36 Độ phức tạp của thuật toán MCPSI : Thuật toán MCPSI dựa trên thuật  toán CHARM để tìm kiếm các tập Sporadic tuyệt đối hai ngưỡng đóng và sự  khác biệt nằm ở bước khởi tạo tập Nodes ban đầu. Bắt đầu từ tập các mục dữ  liệu đơn cùng các định danh tương ứng, thuật toán thực hiện việc xử lý trên  một nhánh sẽ có 4 trường hợp xảy ra. Kết thúc việc thực hiện, mỗi nút trên  cây  sẽ  thể  hiện  tập  dữ  liệu    đóng.  Vậy  thuật  toán  sẽ  thực  hiện  O(|C|)  phép  giao, với |C| là cỡ của tập các tập Sporadic tuyệt đối hai ngưỡng đóng ).   Nếu mỗi định danh có chiều dài trung bình là   , thì chi phí cho phép  giao là  2.  . Vậy độ phức tạp của thuật toán MCPSI là O( 2. |C|) hay O(  |C|).  Ví dụ: Xét CSDL giao tác cho ở bảng 2.8, I= {A, B, C, D, E, F, G, H, J}; O  ={t1, t2, t3, t4, t5, t6, t7, t8} và D ⊆ I×O.  Bảng 2.8: CSDL giao tác minh họa thuật toán MCPSI  Tác vụ Mục liệu t1 ABCDHJ t2  A E  t3  A G J  t4  A B C E F H J  t5  E  t6  A D E H  t7  t8  A C F J  E  J    Giả thiết xét với minSup = 0,25 và maxSup = 0,5.   Áp dụng thuật toán MCPSI với các mục dữ liệu được sắp xếp theo thứ  tự  từ  điển  tăng  dần.  Ban  đầu  khởi  tạo  tập  Nodes  =  {B×14,  C×147,  D×16,  F×47, H×146} (dòng 1).  Vì xét theo thứ tự tăng dần của từ vựng nên dòng 3 tiến hành tại nhánh  B×14. Đặt X = B (dòng 4). Tiếp theo nút này sẽ được kết hợp với các nút lân  cận ở bên phải (dòng 5). Khi kết hợp B với C vì g(B) ⊂g(C) nên thay B bằng  BC (X = BC). Khi kết hợp với D được tập BCD nhưng tập này có độ hỗ trợ  37 nhỏ hơn minSup nên bị loại. Khi kết hợp với F được tập BCF cũng có độ hỗ  trợ nhỏ hơn minSup nên cũng bị loại. Kết hợp với H, g(BC) ⊂g(H) nên thay  BC bằng BCH (X = BCH), tập này có độ hỗ trợ không nhỏ hơn minSup. Kết  thúc trên nhánh B chỉ tìm được tập BCH. Tập mục dữ liệu BCH có sup(BCH)  =  0,25  thỏa  mãn    điều  kiện  minSup  ≤sup(BCH)  [...]... phép ta tìm kiếm luật kết hợp  một cách linh hoạt trong những cơ sở dữ liệu lớn. Ngoài ra còn một số khái niệm mở rộng của các luật kết hợp đó là: Luật kết hợp định lượng, Luật kết hợp tổng quát,  Việc khai phá luật kết hợp dựa  trên các khái niệm mở rộng này cho phép phát hiện được nhiều luật kết hợp mà các thuật toán khai phá luật kết hợp cơ sở không tìm thấy được. Ví dụ, với  luật kết hợp định lượng cho phép người ta phát biểu một luật có dạng như sau ... thể hiện sự tương quan (correlation) giữa X và Y.   1.2.3 Khai phá luật kết hợp Bài toán khai phá luật kết hợp có thể phát biểu như sau:  Cho cơ sở dữ liệu giao tác DB, ngưỡng độ hỗ trợ tối thiểu minsup và ngưỡng độ tin cậy tối thiểu minconf.  Yêu cầu: Tìm tất cả các luật kết hợp X→Y trên cơ sở dữ liệu DB sao  cho sup(X→Y) ≥ minsup và conf(X→Y) ≥ minconf.  Khai phá luật kết hợp này được gọi là bài toán cơ bản hay bài toán nhị  phân, vì ở đây, giá trị của mục dữ liệu trong cơ sở dữ liệu là 0 hoặc 1 (xuất ... Apiori và FP-growth, chương 1 cũng đã trình bày thuật toán sinh luật kết hợp từ tập mục phổ biến.  19 Chương 2: LUẬT KẾT HỢP HIẾM 2.1 Giới thiệu chung về luật kết hợp hiếm Luật kết hợp hiếm hàm  ý  chỉ  các  luật kết hợp không  xảy  ra  thường  xuyên trong các CSDL. Mặc dù ít khi xảy ra, nhưng trong nhiều trường hợp chúng lại là các luật rất có giá trị.   Phát hiện luật kết hợp hiếm là một phần của bài toán phát hiện luật kết hợp và hiện đang nhận được nhiều sự quan tâm của các nhà nghiên cứu. Luật ... toán phát hiện luật hiếm Sporadic), một kiểu của luật kết hợp hiếm,  sẽ được  trình bày ở các phần tiếp sau đây.  2.4 Phát hiện luật kết hợp hiếm Sporadic trên CSDL giao tác 2.4.1 Khái niệm về luật hiếm Sporadic Y.S. Koh và N. Rountree [8, 9] đề cập bài toán phát hiện luật Sporadic,  một kiểu luật kết hợp hiếm. Luật Sporadic là luật ít khi xảy ra, có hỗ trợ thấp  nhưng độ tin cậy cao, ví dụ, sự kết hợp hiếm hoi của hai triệu chứng bệnh cho ... này vẫn bị giới hạn bởi tính chất tự nhiên của dữ liệu.  Các luật hiếm thường là  sự kết hợp của: (1) các  mục dữ liệu hiếm;  (2)  các  mục dữ liệu hiếm và các  mục dữ liệu phổ biến; (3) các mục dữ liệu phổ biến, có độ hỗ trợ cao khi xét  riêng từng mục dữ liệu,  nhưng khi kết hợp lại tạo thành các tập mục có độ hỗ  trợ  nhỏ.  Chính  vì  vậy  không  thể  dùng  các  kỹ  thuật  phát  hiện  tập  phổ  biến  thông thường để phát hiện các luật kết hợp hiếm.  Độ hỗ trợ thấp của các tập ... một dạng nào  cả. Vì vậy để khai phá luật kết hợp trong các cơ sở dữ liệu này các nhà nghiên cứu đề xuất một số  phương pháp rời rạc hóa nhằm chuyển CSDL cần khai phá về dạng nhị phân  để có thể áp dụng các thuật toán đã có. Luật kết hợp với thuộc tính được đánh  trọng số trong cơ sở dữ liệu thường không có vai trò như nhau. Một số mục  dữ liệu quan trọng và được chú trọng hơn các mục dữ liệu khác sẽ được gán ... đó B và D là các kết luận của các luật hợp lệ  có 1-mục ở phần kết luận. Thuật  toán nhanh hơn mô tả ở trên chỉ kiểm tra một luật này.  1.2.7 Một số mở rộng khai phá luật kết hợp   Lĩnh vực khai phá luật kết hợp cho đến nay đã được nghiên cứu và phát  triển theo nhiều hướng khác nhau. Các hướng chính mở rộng là:  -  Luật kết hợp nhị phân  (Binary  association  rule):  là  hướng  nghiên  cứu  đầu tiên  của luật kết hợp.   Theo dạng luật kết hợp ... thích mua bán của khách hàng.  1.2 Khai phá luật kết hợp trong cơ sở dữ liệu 1.2.1 Các khái niệm cơ sở Mô  hình  đầu  tiên  của  bài  toán  khai phá luật kết hợp là  mô  hình  nhị  phân (hay còn gọi là mô hình cơ bản) được R. Agrawal, T. Imielinski và A.  Swami đề xuất vào năm 1993 [4], xuất phát từ nhu cầu phân tích dữ liệu của  cơ sở dữ liệu giao tác, phát hiện các mối quan hệ giữa các tập mục hàng hóa ... 1. Trích chọn dữ liệu   data selection   Hình 1.1 Quá trình khám phá tri thức Bước 1: Trích chọn dữ liệu (data selection): là bước trích chọn những  tập  dữ liệu cần  được  khai phá từ  các  tập  dữ liệu lớn  (databases,  data  warehouses).  Bước 2: Tiền xử lý dữ liệu (data preprocessing): là bước làm  sạch dữ liệu (xử lý dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán, v   v), rút gọn dữ liệu (sử dụng các phương pháp thu gọn dữ liệu,  histograms, lấy ... có thể có những sự sai sót, dư thừa và trùng lặp. Lọc dữ liệu là cắt bỏ những  dư thừa để dữ liệu được định dạng thống nhất.   Quá trình khai phá dữ liệu được thể hiện bởi hình 1.3 sau:    Thống kê  tóm tắt  Xác định  nhiệm vụ  Xác định dữ liệu liên quan  Thu thập và tiền xử lý DL  Giải thuật  khai phá DL  Dữ liệu trực tiếp    Mẫu    6 Hình 1.3: Quá trình khai phá dữ liệu Công việc tiếp theo sử dụng các thuật toán khác nhau để khai phá các 

Ngày đăng: 17/08/2016, 15:59

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan