Khai phá tập mục cổ phần theo giao tác cao

61 208 0
Khai phá tập mục cổ phần theo giao tác cao

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

  LỜI CẢM ƠN Luận  văn  này  được  hoàn  thành  với  sự  hướng  dẫn  tận  tình  của  TS  Lê  Văn  Phùng – Viên Công nghệ thông tin - Viện Hàn Lâm Khoa học Việt Nam. Trước tiên  tôi xin chân thành bày tỏ lòng biết ơn sâu sắc tới TS. Lê Văn Phùng người đã tận  tình hướng dẫn, động viên giúp đỡ tôi trong suốt thời gian thực hiện luận văn. Tôi  cũng  xin  chân  thành  cảm  ơn  các  thầy  cô  trong  trường  Công  Nghệ  thông  tin  và  Truyền thông – Đại học Thái Nguyên, tạo điều kiện thuận lợi cho tôi hoàn thành tốt  khóa học.  Xin  chân  thành  cảm  ơn  các  anh,  các  chị  và  các  bạn  học  viên  lớp  Cao  học  CHK11g đã luôn động viên, giúp đỡ và nhiệt tình chia sẻ với tôi những kinh nghiệm  học tập, công tác trong suốt khoá học.   Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc đến gia đình, người thân, bạn bè đã  động viên, khuyến khích và hỗ trợ cần thiết để tôi hoàn thành luận văn này.   Mặc dù rất cố gắng, song luận văn này không thể tránh khỏi những thiếu sót,  kính mong được sự chỉ dẫn của các quý thầy cô và các bạn.  Thái Nguyên, ngày tháng năm 2014 Người viết Nông Thị Ninh   LỜI CAM ĐOAN Tôi xin cam  đoan rằng số liệu và kết quả nghiên cứu trong luận văn này là  trung thực và không trùng lặp với các đề tài khác. Tôi cũng xin cam đoan rằng mọi  sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn và các thông tin trích  dẫn trong luận văn đã được chỉ rõ nguồn gốc Thái Nguyên, ngày tháng năm 2014 Người cam đoan Nông Thị Ninh                                       BẢNG KÝ HIỆU CHỮ VIẾT TẮT S TT Ký hiệu viết tắt Giải thích ABBM: Algorithm Based on  1Boolean Matrix  Thuật toán dựa trên ma trận Boolean    CSDL  Cơ sở dữ liệu    DBMS  Hệ quản trị cơ sở dữ liệu    IR (Information Retrieval)  Truy xuất thông tin    KPDL  Khai phá dữ liệu  OODBMS  Object Oriented Database  Hệ quản trị cơ sở dữ liệu hướng đối  6Management System  tượng  RDBMS  Ralational Database  7Management System  Hệ quản trị cơ sở dữ liệu quan hệ  I  i1 , i2 , , in    Tập n mục dữ liệu  DB  T1 , T2 , , Tm   Cơ sở dữ liệu có m giao tác  Cơ sở dữ liệu giao tác con của DB, db   db 0  DB  ip 1  Mục dữ liệu thứ p  Tq 2  Giao tác thứ q  Số mục dữ liệu một cơ sở dữ liệu giao  n 3  tác  4  Số giao tác của một cơ sở dữ liệu giao  m tác  1A,B,C…   Tên các mục dữ liệu trong cơ sở dữ liệu  5  giao tác  minsup 6  Ngưỡng độ hỗ trợ  minshare 7  Ngưỡng cổ phần tối thiểu  minconf 8  Ngưỡng độ tin cậy tối thiểu  9    │X│  Số phần tử của tập hợp X  DANH MỤC CÁC BẢNG  Bảng 1. Biểu diễn cơ sở dữ liệu giao tác ngang  13  Bảng 2. Biểu diễn cơ sở dữ liệu giao tác dọc  . 13  Bảng 3. Biểu diễn cơ sở dữ liệu giao tác ma trận   14  Bảng 4. Cơ sở dữ liệu minh họa thực hiện thuật toán COFI-tree   26  Bảng 5. Các mục dữ liệu và độ hỗ trợ   27  Bảng 6. Các mục dữ liệu và độ hỗ trợ   27  Bảng 7. Các mục dữ liệu trong giao tác sắp xếp giảm dần theo độ hỗ trợ  . 27  Bảng 8.  Cơ sở dữ liệu ví dụ   34  Bảng 9. Giá trị lmv và cổ phần của các mục dữ liệu trong CSDL bảng 8  . 35  Bảng 10: Các tập mục cổ phần cao của CSDL bảng 8   36  Bảng 11: CSDL minh họa ngữ nghĩa của tập mục cổ phần cao   37  Bảng 12: Các giá trị lmv và hàm tới hạn với k=1.   44  Bảng 13. Các giá trị lmv và hàm tới hạn với k=2.   45  Bảng 14.  Các giá trị lmv và hàm tới hạn với k=3.  . 46  Bảng 15: CSDL minh họa có trường hợp hai hàm tới hạn bằng nhau.   51  Bảng 16: CSDL minh họa trường hợp hai hàm tới hạn luôn bằng nhau  51  Bảng 17: Giá trị hai hàm tới hạn khi k=1.   52    DANH MỤC CÁC HÌNH Hình 1.1. Kiến trúc điển hình của hệ thống khai phá dữ liệu   10  Hình 1.2. Hình cây FP-Growth   28  Hình 1.3. Cây COFI-tree của mục D   29  Hình 1.4  Các bước khai phá cây D-COFI-tree .22           MỞ ĐẦU Đặt vấn đề Chúng ta đang sống trong thời đại bùng nổ về dữ liệu và máy tính đang giữ  vai trò ngày càng trở nên quan trọng trong việc lưu trữ và xử lý thông tin. Bên cạnh  đó,  những thiết bị thu  thập  dữ  liệu  tự  động  cũng phát  triển  mạnh  góp phần  tạo  ra  những  kho  dữ  liệu khổng lồ. Mặc  dù  trong môi trường  tràn  ngập  dữ  liệu  như  vậy  nhưng con người vẫn thiếu thông tin. Theo thống kê của một tổ chức uy tín thì chỉ  có 2% - 3% lượng dữ liệu được chuyển thành thông tin có ích. Khi xã hội càng phát  triển, lượng thông tin cần càng nhiều thì công việc tổ chức, khai phá dữ liệu ngày  càng khó khăn.  Như vậy, trong quá trình sử dụng và khai thác thông tin người ta nhận thấy  rằng có rất nhiều tri thức còn tiềm ẩn trong dữ liệu. Vấn đề đặt ra là làm thế nào để  khai thác được thông tin và khai thác một cách có hiệu quả.  Trong  quá  trình  khai  phá  dữ  liệu,  có  rất  nhiều  kỹ  thuật  đã  và  đang  được  nghiên cứu. Đặc biệt là các bài toán về khai phá luật kết hợp. Năm 1997, Hilderman  đề xuất bài toán khai phá tập mục cổ phần cao. Cổ phần hay đóng góp của một tập  mục là số đo tỷ lệ đóng góp của tập mục trong cơ sở dữ liệu. Khai phá tập mục cổ  phần cao là  khám phá  tất cả  các  tập  mục  có  cổ phần  không  nhỏ  hơn  ngưỡng  quy  định.  Loại  bài  toán  này  đang  được  sự  quan  tâm  đặc  biệt  trong  nghiên  cứu  và  đời  sống xã hội vì sự đáp ứng to lớn của chúng đối với nhu cầu của thực tiễn. Chính vì  vậy, chúng tôi đã chọn đề tài về khai phá tập mục cổ phần cao làm luận văn thạc sỹ  của mình.  2. Đối tượng phạm vi nghiên cứu  - Đối tượng nghiên cứu là cơ sở dữ liệu giao tác  -Phạm  vi  nghiên  cứu  trong  khuôn  khổ  tập  mục  cổ  phần  cao  cùng  với  các  phương pháp,  thuật toán khai phá, đặc biệt là tập trung thuật toán khai phá tập mục  cổ phần theo giao tác cao là các giá trị theo giao tác của tập mục cần lớn hơn giá trị  cổ phần tối thiểu.    Hướng nghiên cứu đề tài- Nghiên cứu về khai phá dữ liệu, tập trung  vào khai phá tập mục thường xuyên, tập mục cổ phần cao, đặc biệt là tập mục cổ  phần cao theo giao tác cao.  - Cài đặt thực nghiệm tìm tập mục cổ phần cao theo giao tác cao từ dữ liệu  bán hàng của một siêu thị cụ thể ở Thái Nguyên.  Những nội dung nghiên cứu Ngoài phần mở đầu thì luận văn gồm 3 chương sau:  Chương KHÁI QUÁT KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN Chương KHAI PHÁ TẬP MỤC CỔ PHẦN CAO Chương ỨNG DỤNG KHAI PHÁ TẬP MỤC CỔ PHẦN CAO THEO GIAO TÁC CAO Phương pháp nghiên cứu - Kết hợp lý thuyết với đánh giá thực nghiệm  - Sưu tâp và tổng hợp các kết quả nghiên cứu về tập mục thường xuyên, Khái  phá tập mục cổ phần cao và tập mục cổ phần cao theo giao tác cao từ nguồn sách và  các bài báo khoa học, hội thảo chuyên ngành trong nước và ngoài nước.  - Phân tích bài toán ứng dụng và chọn lọc thuật toán thử nghiệm thích hợp.  Ý nghĩa khoa học đề tài Nghiên cứu tập mục cổ phần cao theo giao tác cao là một nhiệm vụ khai phá  dữ  liệu  quan  trọng  nhằm  phát  hiện  những  tri  thức  có  ý  nghĩa  lớn,  bảo  đảm cơ  sở  khoa học  trong chuyên ngành khoa học máy tính. Trong lĩnh vực kinh doanh việc  tìm ra những tập mục cổ phần cao theo giao tác cao là thật sự cần thiết nhằm tăng  hiệu suất và lợi nhuận hoạt động kinh tế của các doanh nghiệp.      Chương KHÁI QUÁT KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN 1.1 Tổng quan khai phá liệu 1.1.1 Kiến trúc hệ thống khai phá liệu Kiến trúc của một hệ thống (KPDL) điển hình có thể có các thành phần như  hình 1.1.    Hình 1.1 Kiến trúc điển hình hệ thống khai phá liệu  -  Cơ  sở  dữ  liệu  (CSDL),  kho  dữ  liệu  hoặc  các  lưu  trữ  thông  tin  khác  (Databases,  Data  warehouse,  …):  Đây  là  một hay  một  tập  các  CSDL,  các kho  dữ  liệu, các trang tính hay các dạng lưu trữ thông tin khác. Các kỹ thuật làm sạch dữ  liệu và tích hợp dữ liệu có thể được thể hiện trên những dữ liệu này.   - Máy chủ CSDL hay máy chủ kho dữ liệu (Database or warehouse server):  Máy chủ này có trách nhiệm lấy những dữ liệu thích hợp dựa trên các yêu cầu khai  phá của người dùng.     10   Hình 3.1: Không gian tìm kiếm tập mục cổ phần cao theo thuật toán AFSM.  2.2.2.2 Cơ sở lý thuyết thuật toán AFSM Như phần trên đã trình bày, ràng buộc cổ phần không có tính chất phản đơn  điệu như tập mục thường xuyên, đây chính là trở ngại của bài toán khai phá tập mục  cổ phần cao. Để khắc phục điều này, luận án đề xuất khái niệm “giá trị theo giao tác  của tập mục”, “tập mục cổ phần theo giao tác cao” và chứng minh tập mục cổ phần  theo giao tác cao có tính chất phản đơn điệu (Anti Monotone), do đó có thể sử dụng  để tỉa các tập mục ứng viên.   Định nghĩa2.6: Cho tập mục X,  dbX là tập các giao tác chứa X. Giá trị theo  giao tác (transaction measure value) của tập mục X, ký hiệu tmv(X), tổng giá trị  của tất cả các giao tác chứa tập mục X , tức là  tmv( X )  Tmv ( dbX )   tmv (Tq )   TqdbX Ví  dụ:  Xét  cơ  sở  dữ  liệu  ở  bảng  3.1,  tmv  A  tmv (T 01)  tmv (T 08)    13   Định nghĩa 2.7: Tập mục X  được gọi là tập mục cổ phần theo giao tác cao nếu  tmv  X      min _ lmv  Trường hợp ngược lại, X được gọi là tập mục cổ phần theo giao tác thấp.  Ví  dụ,  xét  cơ  sở  dữ  liệu  ở  bảng  3.1  với  minShare=30%, min_lmv=16,8,  tmv  A   13,  tmv  E   22 , 1-tập mục A tập mục cổ phần theo giao tác thấp còn  E là tập mục cổ phần theo giao tác cao.  Định lý 3.1: Tập mục cổ phần theo giao tác cao có tính chất phản đơn điệu  (Anti Monotone).  Chứng minh:   Xét hai tập mục X, Y sao cho   Y  X , ta chứng  minh nếu Y là tập mục cổ  phần theo giao tác thấp thì X cũng là tập mục cổ phần theo giao tác thấp.    47 Ta  có  YX  dbY  dbX ,  nên  do  đó   tmv(Y )  Tmv (dbY )  Tmv( dbX )  tmv( X )   Nếu Y là tập mục cổ phần theo giao tác thấp, tức là  tmv Y   _ lmv  thì  tmv  X   tmv Y   _ lmv , X cũng là tập mục cổ phần theo giao tác thấp.     Định lý 3.1 cho biết các tập mục cổ phần theo giao tác cao có tính chất phản  đơn điệu như tính chất của tập mục thường xuyên, do đó có thể sử dụng tính chất  này để tỉa các ứng viên khi khai phá.  Định lý 3.2: Nếu tập mục X là tập mục cổ phần cao thì X cũng là tập mục cổ  phần theo giao tác cao.  Chứng minh: Ký hiệu  dbX là tập các giao tác chứa tập mục X, ta có:  lmv ( X )   imv( X , T )    mv(i q TqdbX TqdbX i pX p , Tq )    mv(i p , Tq )  tmv ( X ) TqdbX i pTq   Do đó, nếu X là tập mục cổ phần cao, tức  lmx  X      min _ lmv , thì X cũng  là tập mục cổ phần theo giao tác cao vì   tmv ( X )  lmx  X      min _ lmv   Nhận xét 3.1: Từ định lý 3.2 có thể suy ra tập các tập mục cổ phần cao chứa  trong tập các tập mục cổ phần theo giao tác cao. Theo định lý 3.1, các tập mục cổ  phần theo giao tác cao có tính chất phản đơn điệu như tập mục thường xuyên, do đó  ta có thể áp dụng một số thuật toán khai phá tập mục thường xuyên đã có (như các  thuật  toán  kiểu  Apriori,  thuật  toán  tìm  kiếm  theo  chiều  sâu  FP-growth ),  thay  số  lần xuất hiện của tập mục bởi giá trị theo giao tác của tập mục thì sẽ nhận được kết  quả khai phá là các tập mục cổ phần theo giao tác cao. Khi đó ta chỉ cần duyệt lại cơ  sở dữ liệu để tính giá trị đóng góp thực sự của các tập mục cổ phần theo giao tác  cao để nhận được các tập mục cổ phần cao.   Định lý 3.2 cũng cho ta một điều kiện cần để X là tập mục cổ phần cao, đó là  X phải tập mục cổ phần theo giao tác cao.   Áp dụng định lý 3.1 và định lý 3.2, luận văn trình bày  cách tỉa các tập ứng  viên trong thuật toán mới AFSM như sau:     48 Ở bước lặp thứ k, nếu X là tập mục cổ phần theo giao tác thấp thì X là tập  mục cổ phần thấp và mọi tập cha của X cũng là tập mục cổ phần theo giao tác thấp.  Do đó ta có thể loại bỏ tập ứng viên X, từ bước (k+1) trở đi không cần sinh ra các  tập cha của X  nữa.  Như  vậy,  điều  kiện để  tỉa  các  ứng  viên  cho  thuật  toán  mới  AFSM  là  tmv ( X )  _ lmv  Để tiện trình bày khi so sánh với thuật toán FSM, ta cũng gọi  giá  trị  tmv(X)  là  hàm  tới  hạn  của  tập  mục  X Ký  hiệu  CFFSM ( X )   và  CFAFSM ( X )   tương ứng là hàm tới hạn dùng cho thuật toán FSM và thuật toán mới AFSM:  CFFSM ( X )  lmv ( X )  lmv ( X ) MV ( ML  k ) ,  CF A F SM ( X )  tm v ( X )   k  Định lý 2.3 sau so sánh giá trị hai hàm tới hạn này.  Định lý 3.3: Cho cơ sở dữ liệu DB và k-tập mục X. Khi đó:  1)  CFAFSM ( X )  CFFSM ( X )   2) Giá trị hai hàm tới hạn luôn bằng nhau khi cơ sở dữ liệu DB là bảng nhị  phân với độ dài các giao tác bằng nhau.  Chứng minh: 1)  CFAFSM ( X )  CFFSM ( X ) :   Ta có:  CFAFSM ( X )  tmv( X )  Tmv( dbX )   tmv(Tq )  Tq dbX             =  [  mv(i , T )   p q Tq dbX i p X             = p q mv(i p , Tq )]  i p Tq \ X   mv(i , T )    p q Tq dbX i p X             = lmv( X )    mv(i , T ) Tq dbX i p Tq mv(i p , Tq ) Tq dbX i p Tq \ X   mv(i p , Tq ) Tq dbX i p Tq \ X  mv(i p , Tq )  MV Vì          (a)    Tq \ X  ML  k nên:  CFAFSM ( X )  lmv( X )   MV ( ML  k )  lmv( X )  dbX MV ( ML  k )   Tq dbX   49   Mặt khác,  mv(i p , Tq )   với  i p  Tq  nên ta có:   dbX  lmv ( X )   (b)  k Do đó:  CFAFSM ( X )  lmv ( X )  dbX MV ( ML  k )                    lmv ( X )     (c)  lmv ( X ) MV ( ML  k )  CFFSM ( X ).   k Vậy:  CFAFSM ( X )  CFFSM ( X )            2) Xét điều kiện để  CFAFSM ( X )  CFFSM ( X ) :  Từ  chứng  minh  ở  phần  1)  trên  ta  thấy,  CFAFSM ( X )  CFFSM ( X )   khi  xảy  ra  đồng  thời  hai  dấu  “=”    trong  bất  đẳng  thức  (c),  tức  là khi  xảy  ra  dấu  “=”  của  bất  đẳng thức (a) và dấu “=” của bất đẳng thức (b).  mv (i p , Tq )  MV , i p  Tq \ X + Xảy ra dấu “=” của bất đẳng thức (a) khi:     T \ X  ML  k ,    T  db q q X  + Xét xảy ra dấu “=” của bất đẳng thức (b) : không mất tính tổng quát, có thể  giả sử k-tập mục X nằm trong  dbX  giao tác của bảng cơ sở dữ liệu như sau:     dbX dòng   X k cột Do đó,  dbX    lmv ( X )  mv (i p , Tq )   với  i p  X ,  X  Tq  dbX   k Vậy  CFAFSM ( X )  CFFSM ( X )  khi:   mv (i p , Tq )  MV ,  i p  Tq \ X      (#)      Tq  ML,  Tq  dbX   mv (i p , Tq )  1,  i p  X ,  X  Tq  dbX Từ hệ điều kiện  (#)  trên ta thấy như sau:   - Thỏa mãn hệ điều kiện  (#)  là khó khăn. Với k-tập mục X, giá trị hai hàm  tới hạn chỉ bằng nhau nếu cả 3 điều kiện của hệ điều kiện  (#)  được thỏa mãn, còn    50 lại các trường hợp khác thì  CFAFSM ( X )  CFFSM ( X )    - Trường hợp xấu nhất, giá trị hai hàm tới hạn luôn bằng nhau xảy ra khi hệ  điều kiện  (#)  được thỏa mãn với mọi k-tập mục X có k tăng dần từ 1, điều đó xảy ra  khi cơ sở dữ liệu DB  là bảng nhị phân (0/1) có độ dài các giao tác bằng nhau.        Ví dụ:  Trong  CSDL  bảng  3.5a,  độ  dài  giao  tác  dài  nhất  ML=3,  giá  trị  lớn  nhất của các mục dữ liệu trong CSDL là MV=3, chỉ có một trường hợp hai hàm tới  hạn bằng nhau, đó là với 2-tập mục  X   A, B.  CFAFSM ( AB)  tmv( AB )  Tmv( dbA,B )  tmv(T 01)  tmv(T 02)    10   CFFSM ( AB )  lmv( AB )  lmv( AB ) MV ( ML  k )   3.(3  2)  10   k Bảng 15: CSDL minh họa có trường hợp hai hàm tới hạn TID A B C D E tmv T01 1  1  3  0  0  5  T02 1  1  0  0  3  5  T03 0  0  0  0  0  0  T04 0  1  1  1  0  3  T05 0  1  0  0  1  2  imv 2  4  4  1  4  15  Bảng 16: CSDL minh họa trường hợp hai hàm tới hạn   TID A B C D E tmv T01 1  0  1  0  1  3  T02 1  1  1  0  0  3  51 T03 0  0  0  0  0  0  T04 0  1  1  1  0  3  T05 1  1  0  0  1  3  imv 3  3  3  1  2  12  CSDL  ở  bảng  3.5b  minh  họa  cho  trường  hợp  hai  hàm  tới  hạn  luôn  bằng  nhau. Ở đây, độ dài các giao tác là 3, tức độ dài giao tác dài nhất ML=3, giá trị lớn  nhất của các mục dữ liệu trong CSDL là MV=1.  Xét k=1, mục A có lmv(A)=3,  dbA  T 01, T 02, T 05   CFAFSM ( A)  tmv( A)  Tmv( dbA )    CFFSM ( A)  lmv ( A)  lmv ( A) MV ( ML  k )   1.(3  1)    k Bảng 3.6 là giá trị của hai hàm tới hạn với k=1.  Bảng 17: Giá trị hai hàm tới hạn k=1 A B C D E lmv 3  3  3  1  2  CFAFSM 9  9  9  3  6  CFFSM 9  9  9  3  6    Nhận xét 3.2: Định lý 3.3 cho thấy hai hàm tới hạn chỉ luôn bằng nhau trong  trường hợp rất đặc biệt của dữ liệu, ngoài trường hợp này, hàm tới hạn mới nhỏ hơn  hàm  tới  hạn  cũ,  điều  này  đảm  bảo  cho  thuật  toán  AFSM  thực  hiện  hiệu  quả  hơn  thuật toán FSM.      52 Chương ỨNG DỤNG KHAI PHÁ TẬP MỤC CỔ PHẦN CAO THEO GIAO TÁC CAO 3.1 Xây dựng chương trình khai phá luật kết hợp sở liệu giao dịch siêu thị bán lẻ 3.2.1 Dữ liệu đầu vào Dữ  liệu của bài toán khai phá luật kết hợp trong cơ sở  dữ  liệu giao dịch bán  lẻ của siêu thị chính là các giao dịch mua bán của khách hàng với siêu thị để tìm ra  những luật có ý nghĩa thể  hiện thói quen mua hàng phổ  biến của đông đảo người  tiêu dùng tại đây.  Để  thuận tiện cho người sử  dụng chương trình, dữ  liệu đầu vào của chương  trình được xây dựng theo ba dạng chuẩn sau đây:    Dữ liệu dạng bảng:  o  Dữ liệu hỗ trợ kiểu lưu trữ dạng bảng giao tác  o  Tên bảng chứa dữ liệu: Table1  o  Định dạng dữ liệu: bố cục dữ liệu dạng bảng n dòng, m cột  o  Mỗi cột đại diện cho 1 item (mặt hàng)  o  Mỗi dòng là một giao dịch (transaction)  o  Mỗi ô giao giữa dòng và cột chứa một giá trị là số tự nhiên. Item không  được bán trong giao dịch đó thì ô chứa giá trị  0, ngược lại ô ghi giá trị là số lượng  item được bán trong giao dịch 3.2.2 Giao diện chương trình Giao diện chương trình được xây dựng đơn giản và trực quan để  có thể  sử  dụng một cách dễ  dàng. Chương trình chỉ  có 2 form: form giao diện chính  và rm kết quả:  a. Form Giao diện chính  Form main chương trình chia làm 3 vùng chính:    Vùng trên cùng chứa các nút Nhập dữ liệu gồm:  -  Nút “Chọn dữ liệu bảng”: để chọn CSDL dạng bảng    53 -  Nút “Chọn dữ liệu CSDL”: để chọn CSDL dạng đầy đủ  -  Nút “Chọn dữ liệu dạng Text” để chọn CSDL dạng file *.txt      Vùng  giũa  hiển  thị  bảng  giao  tác:  dù  chọn  CSDL  dạng  nào  thì  sau  đó  phần mềm cũng sẽ đưa về hiển thị thông tin thành bảng các giao tác.     Vùng dưới cùng chứa nút điều khiển và các lựa chọn khai phá như:  -  Chọn kiểu khai phá  “Cổ  phần cao”, “Nhị  phân” để  tiến hành khai phá  bảng  dữ    liệu  theo  kiểu  có  quan  tâm  đến  số    lượng  hàng  hóa  trong  giao  tác  (cổ   phần) hay chỉ  quan tâm đến sự  xuất hiện của hàng hòa trong giao tác (nhị phân).  -  Nút “Tính”: thực hiện tính toán để  tìm ra tập mục thỏa mãn và sinh luật  kết hợp.  -  Hai ô Textbox nhập ngưỡng cổ  phần tối thiểu (ngưỡng hỗ  trợ  tối thiểu  nếu ở kiểu khai phá nhị phân) và ngưỡng độ tin cậy tối thiểu của luật kết hợp.  -    Giao  diện    chương  trình  còn  có  vùng  hiển  thị    thời  gian  thực  hiện  thuật  toán, thời điểm bắt đầu và kết thúc thuật toán.  Để  sử  dụng chương trình, đầu tiên người sử  dụng chọn dữ  liệu được chuẩn   bị theo đúng định dạng đã nêu ở trên. Dữ liệu được tải và hiển thị vào vùng  giữa  (datagridview)  của  cửa  sổ    chương  trình.  Sau  đó,  người  sử    dụng  chọn  kiểu  khai  phá,  nhập  các  thông  số    về    ngưỡng  cổ    phần  (hay  ngưỡng  độ    hỗ    trợ)  và  ngưỡng tin cây vào hai ô textbox  ở  phần dưới của form. Nếu không nhập đủ  thông  số, chương trình sẽ không hoạt động và có thông báo cần nhập đủ thông tin ở chỗ bị  thiếu. Nhấn nút “Tính” để  thuật toán hoạt động. Kết quả  gồm tập mục cổ  phần cao  (hoặc tập mục phổ  biến) và tập luật mạnh tương  ứng được hiển thị  tại form kết  quả.   Kết luận chương  Chương 3 đã giới thiệu về bài toán khai phá tập mục cổ phần cao và đặc biệt chú  trọng khai thác thuật toán FSM, thuật toán AFSM và phân tích các ưu nhược điểm  của các thuật toán, trong đó luận văn đi sâu phân tích và tìm hiểu thuật toán AFSM.         54   FORM GIAO DIỆN CHÍNH   55       FORM KẾT QUẢ     56                     57             58 PHẦN KẾT LUẬN Sự bùng nổ thông tin, dữ liệu cùng với sự phát triển và ứng dụng ngày càng  rộng  rãi  của  công  nghệ  thông  tin  trên  mọi  lĩnh  vực  đời  sống  xã  hội  đã  khiến  cho   nhu  cầu  xử  lý  dữ  liệu  để  kết  xuất  thông  tin  hữu  ích  cho  người  sử  dụng  một  cách  nhanh chóng trở thành một yếu tố quan trọng trong các cơ quan, tổ chức.  Khai phá  dữ  liệu đang  được  áp  dụng  một cách  rộng rãi  trong  nhiều  lĩnh  vực  kinh  doanh  và  đời sống khác nhau: Marketing, Ngân hàng, Tài chính,   Rất nhiều tổ chức và công  ty lớn trên thế giới đã áp dụng kỹ thuật khai phá dữ liệu vào hoạt động kinh doanh  của mình và thu được những lợi ích to lớn.  Phương pháp quan trọng của kỹ thuật khai phá dữ liệu mà đề tài đi sâu tìm  hiểu là khai phá luật kết hợp và khai phá tập mục cổ phần cao. Mục tiêu của phương  pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở  dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là luật kết hợp tìm được.  Trong thời gian nghiên cứu và thực hiện luận văn, tác giả đã đạt được một số  kết quả sau:  - Nghiên cứu một số kỹ thuật khai phá tri thức trong cơ sở dữ liệu.  Nghiên cứu phương pháp luật kết hợp trong khai phá dữ liệu  Khai phá tập mục cổ phần cao trong cơ sở dữ liệu  Thiết  kế  chương  trình  khai  phá  tập  mục  cổ  phần  cao  theo  thuật  toán  AFSM (Advance Fast Share Measure)  Một số đề xuất  Trong thời gian tới luận văn sẽ mở rộng nghiên cứu và tiếp tục hoàn thiện, áp  dụng vào thực tế trong các lĩnh vực kinh doanh, tài chính, ngân hàng.    59 TÀI LIỆU THAM KHẢO I Tiếng Việt:  [1]. Nguyễn Huy Đức (2009), “Khai phá tập mục cổ phần cao và lợi ích cao  trong cơ sở dữ liệu”, Luận án tiến sỹ toán học, Mã số: 62.46.35.01, Viện Công nghệ  thông tin, Viện Hàn lâm Khoa học và công nghệ Việt Nam.  [2]  TS.  Lê  Văn  Phùng  –  Ths.  Quách  Xuân  Trưởng  (2012),  “Khai phá liệu”. Nhà xuất bản Thông tin và truyền thông.   [3]. Hoàng Minh Quang (2010), “Các tập mục thường xuyên trong khai phá  dữ liệu và ứng dụng”, Luận văn Thạc sỹ. Trường Đại học Công nghệ. Đại học Quốc  gia Hà Nội   [4]. Vũ Đức Thi, Nguyễn Huy Đức (2008), “Khai phá tập mục thường xuyên  cổ phần cao trong cơ sở dữ  liệu lớn”, Tạp chí tin học điều khiển học, 24(2), tr  168-178  [5]. Vũ Đức Thi, Nguyễn Huy Đức (2008), “Thuật toán hiệu quả khai phá tập  mục thường xuyên cổ phần cao”, Kỷ yếu hội thảo Một số vấn đề chọn lọc CNTT TT, Huế, 12/2008, tr 431-444.  II Tiếng Anh [1]. Daniel T. Larose (2006). Data mining method and models. Wiley-interscience. A  john wiley & sons, inc publication.  [2]. Han J. and M. Kamber (2006). Data Mining-Concepts and Techniques (Second Edition). Morgan Kaufmann Publishers.   [3].  Liu  Y.,  W.  Liao  K.,  and  Choudhary  A.  (2005),  “A  fast  high  utility  itemsets  mining algorithm”, in Proc 1st Intl conf on Utility-Based Data Mining, Chicago Chicago  Illinois, pp.90-99, USA.   [4]. El-Haj M. and Zaiane Osmar R. (2003), “ COFI-tree Mining: A New Approach  to Pattern Growth with Reduced Candidacy Generation”, In Proc 2003 Int’l Conf on Data Mining and knowledge Discovery (ACM SIGKDD), Chicago, Illinois, USA.    60     61 [...]... = 0,482 > 30%   Tmv 56 Do đó,  X  BCD  là tập mục cổ phần cao.      35   Bảng 10: Các tập mục cổ phần cao của CSDL bảng 8 Tập mục BC BD BCD lmv(X)  21  22  27  Sh(X)  37,5%  39,3%  48,2%  cổ phần cao Định  nghĩa  2.5: Cho  CSDL  giao tác DB  và  ràng  buộc  cổ phần minShare,  khai phá tập mục cổ phần cao là tìm tập HS (High Share), chứa tất cả các tập mục cổ phần cao,  tức là tập HS   X | X  I , Sh( X... - Dữ liệu cho khai phá tập mục thường xuyên là trường hợp đặc biệt của dữ  liệu cho khai phá cổ phần cao khi tất cả các mục dữ liệu trong các giao tác có giá trị  là 0 hoặc 1.  - Tập mục cổ phần cao mang ý nghĩa khác với tập mục thường  xuyên. Tập mục thường  xuyên  chỉ  quan  tâm  đến  số  lần xuất  hiện  của  tập mục trong  các  giao tác,  trong khi đó tập mục cổ phần cao quan tâm đến tổng giá trị các mục dữ liệu của ... toán nhanh, cho phép khám phá tất cả các tập mục cổ phần cao trong cơ sở dữ liệu  giao tác cho trước.    32 Chương  này  trình  bày  5  phần.   Sau  phần giới  thiệu,  phần hai  trình  bày  các  khái niệm cơ bản về tập mục cổ phần cao và phát biểu bài toán khai phá nó. Phần ba  tóm tắt nội dung và phân tích ưu nhược điểm của thuật toán FSM, một thuật toán  nhanh cho phép khám  phá tất cả  các tập mục cổ phần cao. Phần bốn đề xuất khái ... mục cổ phần cao nếu cổ phần Sh(X) của nó vượt ngưỡng minShare. Kể cả khi khai phá trên tập dữ liệu có giá trị nhị phân ( 0 hoặc 1) thì khai phá tập mục cổ phần cao cũng cho kết quả khác với khai phá tập mục thường xuyên. Chẳng hạn, với CSDL  cho trong bảng 3.4, tập mục X  ABCDGH  chỉ xuất hiện trong giao tác T01, có cổ phần Sh( X )  6 1  50%   và  độ  hỗ  trợ  sup(X )   20%   Nếu  ngưỡng  cổ phần 12 5 minShare=30%  thì  X  là  tập mục cổ phần cao,  ... Trong mô hình này, giá trị của mục dữ liệu trong giao tác là một số, số đó có thể là  số nguyên (như số lượng đã bán của mặt hàng). Cổ phần (hay đóng góp) của một  tập mục là số đo tỷ lệ đóng góp của tập mục trong cơ sở dữ liệu. Khai phá tập mục cổ phần cao là khám phá tất cả các tập mục có cổ phần không nhỏ hơn ngưỡng quy  định bởi người sử dụng.  Trong bài toán cơ bản, các thuật toán khám phá được xây dựng theo phương  pháp tìm kiếm từng bước. Cơ sở của các thuật toán là tính chất Apriori của tập mục ... này sẽ trình bày khái quát các kỹ thuật chính để khai phá tập mục thường xuyên.  Bài toán khai phá tập mục thường xuyên: tìm các tập mục ứng viên và tìm  các tập mục thường xuyên. Tập mục ứng viên là tập mục mà ta hy vọng nó là tập mục thường xuyên, phải tính độ hỗ trợ của nó để kiểm tra. Tập mục thường xuyên  là  tập mục có  độ hỗ  trợ lớn  hơn  hoặc  bằng ngưỡng  tối  thiểu  cho  trước.  Đã  có  rất  nhiều thuật toán tìm tập mục thường xuyên được công bố, ta có thể phân chúng theo ... Bài toán khai phá tập mục cổ phần cao và thuật toán FSM Trước hết ta nêu định nghĩa của một số thuật ngữ:   Cho tập các mục (item)  I  i1 , i2 , , in   Một giao tác (transaction)  T  là một  tập con của I, TI. Cơ sở dữ liệu là một tập các giao tác DB  T1 , T2 , , Tm . Mỗi  giao tác được gán một định danh TID. Một tập mục con  X  I , gồm k mục phân  biệt được gọi là một k -tập mục. Giao tác T gọi là chứa tập mục X  nếu ... tập mục (item)  I={I1,I2,…,Im}.  Một  giao tác (transaction) T là một tập con của I, T I. Cơ sở dữ liệu giao tác là tập các giao tác DB={T1,T2, …, Tm}. Mỗi giao tác được gán một định danh Tid. Một tập mục con X   I, gồm k mục phân biệt được gọi là k -tập mục. Giao tác T gọi là chứa tập mục X  nếu X  T.  Biểu diễn cơ sở dữ liệu giao tác:  Cơ sở dữ liệu giao tác thường được biểu  diễn ở dạng biểu diễn ngang, biểu diễn dọc và biểu diễn bởi ma trận giao tác.  ... pháp tìm kiếm từng bước. Cơ sở của các thuật toán là tính chất Apriori của tập mục thường xuyên (hay còn gọi là tính chất phản đơn điệu – Anti monotone). Trong mô  hình khai phá tập mục cổ phần cao,  tính chất này không còn đúng nữa. Vì vậy việc  rút gọn không gian tìm kiếm không thể thực hiện được như đối với khai phá tập mục thường xuyên. Một số tác giả đã đề nghị một số thuật toán khai phá tập mục cổ phần cao như các thuật toán ZP, ZSP, SIP, FSM,... tác,  trong khi đó tập mục cổ phần cao quan tâm đến tổng giá trị các mục dữ liệu của  tập mục trong các giao tác. Tập mục thường xuyên quan tâm xem nhóm hàng X  (tập mục)  có bán được hay không mà bỏ qua các tham số rất quan trọng là tổng số lượng  hàng  bán  được  hoặc  tổng  lợi  nhuận  mang  lại,…Với  ngưỡng  minShare  cho  trước,  một tập mục X có thể chỉ chứa trong một số ít giao tác của CSDL nhưng lại là tập mục cổ phần cao nếu cổ phần Sh(X) của nó vượt ngưỡng minShare. Kể cả khi khai ... điệu như tập mục thường xuyên, đây chính là trở ngại của bài toán khai phá tập mục cổ phần cao.  Để khắc phục điều này, luận án đề xuất khái niệm “giá trị theo giao tác của tập mục ,  tập mục cổ phần theo giao tác cao  và chứng minh tập mục cổ phần theo giao tác cao có tính chất phản đơn điệu (Anti Monotone), do đó có thể sử dụng ... Chương KHÁI QUÁT KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN Chương KHAI PHÁ TẬP MỤC CỔ PHẦN CAO Chương ỨNG DỤNG KHAI PHÁ TẬP MỤC CỔ PHẦN CAO THEO GIAO TÁC CAO Phương pháp nghiên cứu...   13,  tmv  E   22 , 1 -tập mục A tập mục cổ phần theo giao tác thấp còn  E là tập mục cổ phần theo giao tác cao.   Định lý 3.1: Tập mục cổ phần theo giao tác cao có tính chất phản đơn điệu 

Ngày đăng: 15/04/2016, 19:32

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan