Báo cáo tốt nghiệp TÌM HIỂU VÀ CÀI đặt THUẬT TOÁN PHÂN

Thông tin tài liệu

HVKTQS      !"#$"% Hc viên thc hin:  &'()*+    1  2    3    4  !"#$%&'( 5 ) ',' '/)  Trong thời đại bùng nổ công ngh thông tin, các công ngh lưu trữ dữ liu ngày càng phát triển nhanh chóng tạo điều kin cho các đơn vị thu thập dữ liu nhiều hơn và tốt hơn.  Khai thác dữ liu là quá trình trích xuất các thông tin có giá trị tiềm ẩn trong những kho dữ liu. Khai thác dữ liu chỉ là một khâu trong quy trình Khám phá tri thức trong cơ sở dữ liu.  Hin nay kỹ thuật khai thác dữ liu đang được áp dụng một cách rộng rãi trong rất nhiều lĩnh vc kinh doanh và đời sống khác nhau như: y tế, marketing, ngân hàng, viễn thông, internet… Không ai có thể phủ định được những lợi ích to lớn mà nhờ áp dụng kỹ thuật khai phá đem lại. * ',' '/)  CSDL càng lớn thì tri thức khai thác được càng nhiều, tuy nhiên với tốc độ phát triển của công ngh hin nay, dữ liu phình lên với tốc độ rất lớn, trung bình là 10% - 15% một năm, điều này gây khó khăn không nhỏ cho vic áp dụng các phương thức khai thác dữ liu kinh điển. Các thuật toán xử lý tuần t đôi khi không thể thc hin trên những CSDL lớn.  Trong những năm gần đây, vic nghiên cứu cải tiến các thuật toán tuần t trong khai thác dữ liu đang là hướng được nhiều người quan tâm. Vic cải tiến được thc hin trên hai hướng:                 !"!#!#$%% !&'%(##) + 0123-4)56768-69:1  Kết quả đạt được  *+,-.%/#'%012 3#4567  *+,,&01283   2,94:;%!2<)=1 2>#?##03./'%/  Hướng phát triển  @8&-,&012 83,%$#;A1#,B8 C2=" , .;*<,=(><'/)  Cho một CSDL D = {t1,t2,…,tn}, một tập hợp các lớp C= {C1,…,Cm}, bài toán phân lớp được phát biểu như sau: Xác định ánh xạ f : D  C sao cho với mỗi ti được quy về một lớp Cj.  Về mặt thc chất, bài toán phân lớp chính là chia D thành các lớp tương đương. - 01 )?--@0*=.;*<,=(><'/)  Phân lớp sử dụng khoảng cách  Phân lớp theo thống kê xác suất  Cây quyết định  Mạng Neural  Các kỹ thuật khác  @(  @D  @#= . .)?--@0*ABC*D  Phân lớp /nhóm n đối tượng thành k nhóm da trên đặc tính/thuộc tính của đối tượng (k ≤ n nguyên, dương). / .)?--@0*ABC*D  Mỗi đối tượng được coi là 1 véc tơ m chiều (m - số thuộc tính của đối tượng).  Vic phân lớp được thc hin da trên khoảng cách Euclidean nhỏ nhất giữa đối tượng đến phần tử trung tâm của các lớp/nhóm.  Phần tử trung tâm của nhóm được xác định bằng giá trị trung bình các phần tử trong nhóm 0 E*.2.@5*+101.F)1<'(BC* A = {a1, a2 an} - Tập n đối tượng aj=(xj1, xj2, xjm) j=1 n - phần tử thứ j cần phân loại xjs s=1 m - thuộc tính của đối tượng ci=(ci1, ci2, cim) i=1 k - phần tử trung tâm nhóm i cis s=1 m - thuộc tính của phần tử trung tâm i 1("2&3 "3'45"36 78#"' 9'  ∑ = −=∂ m s isjsij cx E A FG :; [...]...  2 → 3,4, confidence=67%  3 → 2,4, confidence=67%  4 → 2,3, confidence=67%  All rules have support = 50% 26 Thuật toán Apriori 27 Thuật toán Apriori Thủ tục tìm tâêp ứng cử viên 28 Thuật toán Apriori  Thủ tục loại bỏ các tập ứng cử viên không phổ biến 29 Nhận xét thuật toán Apriori  Tạo các tập phổ biến chậm  Tạo các luật kết hợp từ các tập phổ biến nhanh  Không gian của tất... ∑x s =1 t sj (2) 11 Các bước của thuật toán K-Means • • Khởi tạo ci i=1 k ngẫu nhiên Lặp B1: Xác định khoảng cách Euclidean δ giữa aj j=1 n và ci i=1 k theo công thức (1) B2: Nhóm đối tượng vào cluster dựa δ nhỏ nhất B3: Tính ci của mỗi nhóm theo công thức (2) đến khi không còn đối tượng nào di chuyển từ nhóm này sang nhóm khác 12 Sơ đồ khối của thuật toán K-Means Start Data input: -... {1, 3, 5}, {2, 3, 4}}  After join C4 = {{1, 2, 3, 4}, {1, 3, 4, 5}}  After pruning: C4 = {{1, 2, 3, 4}} because {1, 4, 5} is not in F3 ({1, 3, 4, 5} is removed) 22 Thuật toán Apriori Thấy tập không phổ biến Không phải làm 23 Thuật toán Apriori  Ví dụ tìm tập phổ biến Data base D TID 10 20 30 40 Items a, c, d b, c, e a, b, c, e b, e 1-candidates Scan D Min_sup=2 3-candidates Scan D Itemset bce... Itemset ab ac ae bc be ce Sup 1 2 1 2 3 2 Itemset ab ac ae bc be ce Scan D 24 Thuật toán Apriori 2 Sinh các luật kết hợp từ các item phổ biến:  Tìm tất cả các tập con không rỗng h của tập item phổ biến f ∈ F  Với mỗi tập con h tìm được, ta xuất ra luật dạng (h) ⇒ (f-h) nếu tỉ lệ support(f)/support(h) ≥ mincof 25 Thuật toán Apriori  Ví dụ sinh luật kết hợp Suppose {2,3,4} is frequent, with sup=50%... không đạt minsup  Tạo luật kết hợp: Từ các tập con của tập phổ biến xây dựng luật kết hợp và tính độ tin cậy của luật 19 Thuật toán Apriori 1 Xác định các tập item phổ biến:  Xác định các tập ứng cử viên (Ck)  Xác định các tập phổ biến (Fk) dựa vào các tập ứng cử viên 20 Thuật toán Apriori 1.1 Xác định Ck:  Tìm các tập ứng cử viên 1 item  Quét CSDL để xác định độ hỗ trợ của các tập ứng cử viên... tạp của thuật toán  Số ô nhớ cần dùng để lưu trữ các đối tượng là O(mn) trong đó m là số đối tượng còn n là số chiều (hay số thuộc tính) của các đối tượng  Còn độ phức tạp về thời gian của giải thuật K-MEANS là O(I*K*m*n) trong đó I là số bước lặp cần thiết để giải thuật dừng (hội tụ), K là số vùng 14 Nhược điểm  Việc khởi tạo phần tử trung tâm của nhóm ban đầu ảnh hưởng đến sự phân chia... thuật toán quét từng giao dịch trong CSDL để xác định độ hỗ trợ của các tập ứng cử viên Quá trình xác định các tập item phổ biến sẽ kết thúc khi không xác định được thêm tập item phổ biến nào nữa 21 Thuật toán Apriori 1.2 Nội dung hàm Apriori_gen() + Fk-1 được kết nối với chính nó thu được Ck + Apriori_gen() xoá tất cả các tập item từ kết quả kết nối mà có 1 số tập con (k-1) không có trong Fk-1 Sau... ứng cử viên) là tập hợp các item cần được xem xét có phải là tập item phổ biến không  Các thuật toán tìm luật kết hợp  Thuật toán AIS  Thuật toán SETM  Thuật toán Apriori  Thuật toán Eclat 18 Thuật toán Apriori  Ý tưởng: Tạo ra các tập phổ biến có 1 item, tập 2 items tạo từ tập 1_item,……tập k items tạo từ tập k-1 items Xây dựng luật từ tập phổ biến k items tìm được  Mỗi tập item được tạo... cùng 1 đối tượng, nó có thể được đưa vào nhóm này hoặc nhóm khác khi dung lượng dữ liệu thay đổi  Điều kiện khởi tạo có ảnh hưởng lớn đến kết quả Điều kiện khởi tạo khác nhau có thể cho ra kết quả phân vùng nhóm khác nhau  Không xác định được mức độ ảnh hưởng của thuộc tính đến quá trình tạo nhóm 15 Luật kết hợp  Gọi I={I1, I2,…,Im} là tập m thuộc tính riêng biệt, mỗi thuộc tính gọi là một . )?--@0*=.;*<,=(><'/)  Phân lớp sử dụng khoảng cách  Phân lớp theo thống kê xác suất  Cây quyết định  Mạng Neural  Các kỹ thuật khác  @(  @D  @#= . .)?--@0*ABC*D  Phân lớp. các lớp C= {C1,…,Cm}, bài toán phân lớp được phát biểu như sau: Xác định ánh xạ f : D  C sao cho với mỗi ti được quy về một lớp Cj.  Về mặt thc chất, bài toán phân lớp chính là chia D thành. liu ngày càng phát triển nhanh chóng tạo điều kin cho các đơn vị thu thập dữ liu nhiều hơn và tốt hơn.  Khai thác dữ liu là quá trình trích xuất các thông tin có giá trị tiềm ẩn trong những

Ngày đăng: 19/06/2014, 20:47

Xem thêm: Báo cáo tốt nghiệp TÌM HIỂU VÀ CÀI đặt THUẬT TOÁN PHÂN, Báo cáo tốt nghiệp TÌM HIỂU VÀ CÀI đặt THUẬT TOÁN PHÂN

Báo cáo tốt nghiệp TÌM HIỂU VÀ CÀI đặt THUẬT TOÁN PHÂN

Thông tin tài liệu

Từ khóa liên quan

Mục lục

TÌM HIỂU VÀ CÀI ĐẶT THUẬT TOÁN PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG TRONG PHÂN TÍCH KẾT QUẢ HỌC TẬP CỦA HỌC VIÊN

Nội dung

Giới thiệu

Slide 4

Các kết quả đã đạt được

Phân lớp dữ liệu

Các thuật toán phân lớp dữ liệu

Thuật toán K-Means

Slide 9

Tính khoảng cách Euclidean

Tính lại toạ độ tâm của vùng

Các bước của thuật toán K-Means

Sơ đồ khối của thuật toán K-Means

Độ phức tạp của thuật toán

Nhược điểm

Luật kết hợp

Slide 17

Slide 18

Thuật toán Apriori

Slide 20

Tài liệu cùng người dùng

Tài liệu liên quan