khai phá dữ liệu tuần tự

18 1.2K 10
khai phá dữ liệu tuần tự

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

KHAI PHÁ MẪU TUẦN TỰ BẰNG PHƯƠNG PHÁP PHÁT TRIỂN MẪU PHƯƠNG PHÁP TIẾP CẬN: PREFIXSPAN 1.Giới thiệu Khai phá mẫu việc tìm dãy phổ biến mẫu sở liệu (CSDL) dãy, nội dung quan trọng khai phá liệu với nhiều ứng dụng rộng rãi như: phân tích thị trường, phân tích mẫu truy cập web, phân tích tiến trình có tính liên quan đến thời gian thí nghiệm khoa học, thiên tai trình điều trị bệnh, phân tích chuỗi DNA Vấn đề khai phá liệu lần đề xuất Agrawal Srikant “R Agrawal and R Srikant, “Mining Sequential Patterns,” Proc 1995 Int’l Conf Data Eng (ICDE ’95), pp 3-14, Mar 1995”: “cho tập dãy (sequence), dãy chứa danh sách giao dịch (element), giao dịch lại chứa tập kiện (item), cho ngưỡng hỗ trợ min-support người dùng tự định nghĩa, khai phá liệu việc tìm tất dãy phổ biến, tức dãy phải thỏa mãn điều kiện số lần xuất tập dãy không nhỏ min-support” Nguyên lí Apriori sở phương pháp khai phá mẫu GSP, thông qua nhiều lần duyệt CSDL, phương pháp tiếp cận hệ ứng viên kiểm tra trình bày sau: • Tư tưởng Apriori: Tìm tất tập thường xuyên (frequent itemset): k-itemset (itemset gồm k phần tử) Dùng k-itemset để tìm (k+1)-itemset Đầu tiên tìm 1-itemset (kí hiệu L1) tiếp tục kitemset tìm thấy Từ tập thường xuyên sinh luật kết hợp mạnh (các luật kết hợp thỏa mãn tham số min-supp (độ hỗ trợ) min-conf (độ tin cậy)) • Thuật toán Apriori: Input: CSDL D ngưỡng min-supp, min-conf Output: tập luật kết hợp thỏa mãn min-supp min-conf Duyệt toàn CSDL để có support S 1-itemset, so sánh S với min-supp để có 1-itemset (L1) Sử dụng Lk-1 nối (join) Lk-1 để sinh candidate k-itemset Loại bỏ itemsets frequent itemsets thu k-itemset Duyệt lại CSDL để có support candidate k-itemset, so sánh S với min-supp để thu frequent k-itemset (Lk) Lặp lại từ bước tập ứng cử viên Candidate set (C) rỗng tức không tìm thấy frequent itemsets Với frequent itemset (I), sinh tất tập s không rỗng I Với tập không rỗng I, sinh luật s  (I – s) độ tin cậy >= min-conf Ví dụ: Giả sử ta có có sở liệu giao dịch (Transaction Database -TDB) sau : Thuật toán Apriori khai phá luật kết hợp mô tả qua bước sau Ta có frequent itemsets I ={B,C,E}, với min_conf =80% ta có luật kết hợp {B,C} => {E} {C,E} => {B} • Đánh giá thuật toán: Thuật toán đơn giản dễ hiểu dễ cài đặt nhiên có vài nhược điểm sau: - - Phải duyệt CSDL nhiều lần, I = {i1, i2, , i100}, số lần duyệt CSDL 100 Số lượng tập ứng viên lớn: ví dụ CSDL chứa chuỗi đơn có chiều dài 100 ngưỡng hỗ trợ số lượng ứng viên chiều dài 100, số ứng viên chiều dài 100 * 100 + =14950, tổng tất ứng viên 2100 – 1030 Thực tính độ phổ biến nhiều, đơn điệu Chúng ta phát triển phương pháp dựa tinh thần Apriori tránh giảm hệ ứng viên “đắt tiền” kiểm tra Đây động lực nghiên cứu Trong báo cáo này, trình bày cách hệ thống phương pháp tiếp cận phát triển mẫu để khai phá có hiệu mẫu CSDL dãy lớn Ý tưởng phương pháp: tránh việc sinh toàn ứng viên, tập trung vào tìm kiếm phần hạn chế CSDL ban đầu, việc phân vùng không gian tìm kiếm nội dung quan trọng Các thuật toán phát triển mẫu thuật toán duyệt theo chiều sâu, kĩ thuật tạo CSDL chiếu cho mẫu có chiều dài k lặp lại trình để tìm kiếm mẫu có chiều dài k+1 Sử dụng kĩ thuật chia để trị, việc tạo CSDL chiếu giải pháp nhằm giảm không gian tìm kiếm Dựa kĩ thuật này, mô hình đơn giản sử dụng phương pháp phát triển mẫu đề xuất, FreeSpan (Frequent pattern – projected Sequential pattern mining) Cũng báo cáo này, giới thiệu phương pháp hiệu gọi PrefixSpan (Prefix-projected Sequential pattern mining) Để nâng cao hiệu suất kĩ thuật pseudoprojection phát triển PrefixSpan Một nghiên cứu cho thấy hiệu suất toàn diện PrefixSpan hầu hết trường hợp, nhanh so với thuật toán GSP, FreeSpan hay SPADE, PrefixSpan tích hợp với pseudo-projection nhanh số tất thuật toán kiểm tra Hơn nữa, kết thực nghiệm cho thấy PrefixSpan tiêu thụ không gian nhớ GSP hay SPADE Phương pháp phát triển mẫu tiếp tục mở rộng để khai phá liệu mức cao ví dụ khai phá mẫu đa chiều, khai phá mô hình cấu trúc khác Phần lại báo cáo trình bày sau: phần 2, mô tả vấn đề khai phá mẫu tuần tự, minh họa thuật toán GSP Trong phần 3, giới thiệu phương pháp tiếp cận phát triển mẫu, tổng kết thuật toán FreeSpan, sau trình bày thuật toán PrefixSpan kĩ thuật pseudoprojection nhằm nâng cao hiệu suất Các kết thực nghiệm phân tích đánh giá báo cáo phần Một vài phương pháp mở rộng hướng nghiên cứu tương lai trình bày phần nghiên cứu kết luận phần Mô tả vấn đề thuật toán GSP 2.1.Mô tả vấn đề Cho I = {i1, i2, , in} tập tất kiện, itemset tập I Một dãy danh sách có thứ tự itemsets Một dãy s kí hiệu sj itemset, sj gọi giao dịch dãy, kí hiệu (x1x2 xm) xk kiện Cho ngắn gọn dấu ngoặc () bỏ qua giao dịch có kiện ví dụ giao dịch (x) viết x Một kiện xuất nhiều lần giao dịch xuất nhiều lần giao dịch khác dãy Số lượng kiện dãy gọi độ dài dãy Một dãy có độ dài l gọi l-sequence Cho dãy α = β= Khi đó, α gọi dãy β β gọi dãy bao α tồn số nguyên ≤ j1 < j2 < < jn ≤ m thỏa mãn a1 ⊆ bj1 , a2 ⊆ bj2 , an ⊆ bjn Một CSDL dãy S tập liệu (sid,s) sid định danh dãy s dãy itemset Một liệu (sid,s) gọi chứa dãy α α dãy s Độ hỗ trợ dãy α CSDL S số liệu CSDL chứa α Ví dụ: supports(α) = |{|(∈S) ∧ (α ⊆ s)}| Nó kí hiệu support(α) CSDL dãy có ngữ cảnh rõ ràng Cho số nguyên dương min-support ngưỡng hỗ trợ, dãy α gọi phổ biến CSDL S supports(α) ≥ min-support Một mẫu phổ biến có chiều dài l gọi l-pattern Ví dụ: Cho CSDL Table min-support =2: Tập kiện CSDL {a,b,c,d,e,f,g} Dãy = có giao dịch (a), (abc), (ac), (d), (cf) a c xuất nhiều lần xuất giao dịch khác Dãy có chiều dài Dãy là dãy dãy Ở dãy dãy chứa dãy s = , nên s mẫu phổ biến có chiều dài (3-pattern) Vấn đề đặt ra: Cho CSDL dãy ngưỡng hỗ trợ min-support, khai phá liệu tìm tất mẫu phổ biến CSDL 2.2.Thuật toán GSP (Generalized Sequential Pattern) Input: CSDL dãy S, min-supp; Output: F-tập tất dãy phổ biến S; Thuật toán: Duyệt CSDL để tìm dãy phổ biến có độ dài For cấp (dãy có độ dài k) a Tạo dãy ứng viên có độ dài k+1 từ dãy phổ biến chiều dài k (sử dụng Apriori) b Duyệt CSDL để đếm độ phổ biến dãy ứng viên loại ứng viên không thỏa mãn ngưỡng min-supp Lặp lại đến không dãy phổ biến không ứng viên Đánh giá: - Số lượng tập dãy ứng viên khổng lồ Phải duyệt CSDL nhiều lần Không hiệu khai thác dãy dài Ví dụ: xét CSDL Table 1: -Duyệt CSDL tìm dãy phổ biến có chiều dài là: { :4, :4, :3, :3, :3, :3} - tạo ứng viên có độ dài từ dãy phổ biến độ dài 1: {, , ,, , , ,, , , , } duyệt lại CSDL để tìm độ phổ biến dãy có chiều dài loại bỏ dãy ứng viên không thỏa mãn min-supp - Dừng không dãy ứng viên không dãy phổ biến Khai phá mẫu phương pháp phát triển mẫu 3.1 Thuật toán FreeSpan Sử dụng mẫu phổ biến để đệ quy dãy liệu thành dãy liệu nhỏ Khai phá tập phổ biến, sử dụng dãy liệu nhằm giới hạn việc tìm kiếm gia tăng dãy để tìm tập mẫu Input: Input: CSDL S min-supp Output: tập tất mẫu phổ biến Thuật toán: Quét liệu, tìm mục phổ biến từ tập liệu, danh sách mục thường xuyên với độ hỗ trợ giảm dần gọi f-list Tất dãy chia nhỏ thành vài dãy không trùng lặp a.Xây dựng ma trận mục phổ biến lần quét liệu Ma trận mục phổ biến ma trận tam giác F[j,k] 1≤j ≤m m số mục phổ biến 1≤k ≤ j F[j,j]: có đếm ghi lại số lần xuất dãy (jj) F[j,k] có đếm (A, B, C) A ghi lại số lần xuất mẫu , B ghi lại số lần xuất mẫu , C ghi lại số lần xuất mẫu b tạo dãy mẫu có độ dài 2, với đếm, giá trị đếm ≥ min-supp thu dãy mẫu tương ứng 3.2.Thuật toán PrefixSpan 3.2.1 Định nghĩa 1: Prefix (tiền tố) Cho dãy α = dãy β = (m≤n) β gọi tiền tố α khi: +) e’i = ei (i ≤ m-1) +) e’m ⊆ em +) tất phần tử em – e’m xếp sau e’m Ví dụ: α = , , , tiền tố α 3.2.2 Định nghĩa 2: Suffix (hậu tố) Cho dãy α = dãy β = (m≤n) tiền tố α Dãy γ = được gọi hậu tố α tương ứng với tiền tố β, kí hiệu γ = α|β khi: e”m =(em - e’m)2 Ví dụ: α = dãy hậu tố tương ứng với tiền tố 3.2.3 Định nghĩa 3: Project Database (CSDL chiếu) - Hình chiếu: cho dãy α,β Một dãy α’ dãy α gọi hình chiếu α tương ứng với tiền tố β khi: +) α’ có tiền tố β +) không tồn α” tiền tố β mà lớn α’ - CSDL chiếu: cho α dãy S, α-project database kí hiệu S|α tất hậu tố dãy S tương ứng với tiền tố α Ví dụ: prefix có CSDL chiếu tương ứng S|a ,, , 3.2.4 Định nghĩa 4: support count (độ hỗ trợ) Cho dãy α CSDL S β dãy có tiền tố α Độ hỗ trợ support count β S|α kí hiệu support S|α (β) số lượng dãy γ S|α 3.2.5.Thuật toán PrefixSpan a Input: CSDL S min-supp b Output: tập mẫu phổ biến sinh từ dãy α ban đầu c Hàm PrefixSpan(α,1,S|α) đó: α dãy phổ biến độ dài α S|α α-project database α ≠ , ngược lại CSDL S d Phương thức Quét S|α lần, tìm tập phần tử thường xuyên b sau: +) b thêm vào phần tử cuối α để trở thành mẫu phổ biến ++) giao dịch thêm vào cuối dãy để α trở thành mẫu phổ biến Lặp lại với phần tử thường xuyên b, thêm vào dãy α để tạo thành dãy α’, in α’ Với α’, sinh S|α’ gọi lại hàm PrefixSpan(α’,l+1,S|α’) Thuật toán dừng không tìm thấy phần tử thường xuyên CSDL chiếu e Đánh giá thuật toán: PrefixSpan tăng dần chiều dài mẫu từ mẫu ngắn PrefixSpan không cần sinh hay kiểm tra dãy ứng cử không tồn CSDL ban đầu CSDL chiếu (GSP sinh dãy phải sử dụng bước xén tỉa hàm candidate_gen SPM để loại bỏ chúng) GSP lần lặp phải sinh nhiều dãy ứng cử phải kiểm tra toàn tập này, không gian tìm kiếm PrefixSpan nhỏ nhiều so với GSP Các CSDL chiếu liên tục giảm kích thước: CSDL chiếu nhỏ CSDL gốc nó, chứa dãy hậu tố dãy liệu CSDL gốc Trên thực tế, giảm kích thước CSDL chiếu đáng kể nguyên nhân: 1.thông thường có tập nhỏ mẫu có độ dài lớn CSDL ban đầu số lượng ghi CSDL chiếu giảm nhiều độ dài tiền tố tăng lên; 2.phép chiếu giữ lại phần hậu tố dãy bỏ toàn giao dịch kể từ tiền tố trở trước, dẫn đến ghi CSDL chiếu giảm độ dài nhanh chóng Chi phí xử lí thuật toán PrefixSpan dành cho việc xây dựng CSDL chiếu Trong trường hợp xấu nhất, thuật toán PrefixSpan phải xây dựng CSDL chiếu cho mẫu Nếu số lượng mẫu tồn CSDL ban đầu lớn, chi phí trở nên không tầm thường 3.2.6 Chạy ví dụ Sid 10 20 30 40 S Min-supp = 1.Lần gọi hàm PrefixSpan(,0,S) Bước 1: Tìm tất mẫu có độ dài :4, :4, :4, :3, :3, :3, Bước 2: đưa tất mẫu tìm vào tập kết F Bước 3: Với mẫu α’ tìm được, xây dựng CSDL chiếu gọi đệ quy hàm PrefixSpan(α’,l+1, S|α’) 2.Xét mẫu , có S| sau: Sid S 10 20 30 40 < (abc)(ac)d(cf)> Gọi đệ quy hàm PrefixSpan(,1,S|) tìm phần tử thường xuyên sau: : 2, : 4, : 4, : 2, : 2,:2 Tạo mẫu phổ biến độ dài đưa chúng vào tập kết F Các mẫu là: : 2, : 4, : 4, : 2, : 2, Xét mẫu phổ biến , có S| sau: Sid 10 20 S < (_bc)(ac)d(cf)> < (_e)> Gọi đệ quy hàm PrefixSpan(,2,S|) không tìm phần tử thường xuyên thỏa mãn min-supp Thuật toán dừng Xét mẫu phổ biến , có S| sau: Sid 10 20 40 S < (_c)(ac)d(cf)> < (_c)(a)> Gọi đệ quy hàm PrefixSpan(,2,S|) tìm phần tử thường xuyên sau: : 2, : 2, : 2, : Tạo mẫu phổ biến độ dài 3: , , , Thuật toán dừng Xét mẫu phổ biến , có S| sau: Sid 10 30 S Gọi đệ quy hàm PrefixSpan(,2,S|) tìm phần tử phổ biến sau: : 2, : 2, :2, :2 Tạo mẫu phổ biến độ dài 3: , , , Xét mẫu phổ biến , có S| sau: Sid 10 20 S < (ac)d(cf)> 10 30 40 Gọi đệ quy hàm PrefixSpan(,2,S|) tìm phần tử thường xuyên sau: : 2, : 3, : Tạo mẫu phổ biến độ dài 3: , , Xét mẫu phổ biến , có có S| sau: Sid 10 20 30 S Gọi đệ quy hàm PrefixSpan(,2,S|) tìm phần tử thường xuyên sau: : 3, Tạo mẫu phổ biến độ dài 3: Xét mẫu phổ biến , có có S| sau: Sid 30 S < cb> Không tìm phần tử thường xuyên  Vậy mẫu phổ biến khai phá từ tiền tố là: , , , , , , , , , , , , , , Xét mẫu , có S| sau: Sid 10 20 30 40 S Gọi đệ quy hàm PrefixSpan(,1,S|) tìm phần tử thường xuyên sau: : 2, :2, :2, :2, :2 Tạo mẫu phổ biến có độ dài sau: , , , , 11 Xét mẫu , có S| sau: Sid 10 20 S < (ac)d(cf)> Gọi đệ quy hàm PrefixSpan(,2,S|) tìm phần tử thường xuyên sau: :2 Tạo mẫu phổ biến độ dài là: Xét mẫu , có S| sau: Sid 10 30 S Không tìm thấy phần tử phổ biến Thuật toán dừng Xét mẫu , có S| sau: Sid 10 20 S Không tìm thấy phần tử phổ biến Thuật toán dừng Xét mẫu , có S| sau: Sid 10 30 S Gọi đệ quy hàm PrefixSpan(,2,S|) tìm phần tử thường xuyên sau: :2 Tạo mẫu phổ biến độ dài là: Xét mẫu , có S| sau: Sid 30 S Không tìm thấy phần tử phổ biến Thuật toán dừng Vậy mẫu phổ biến khai phá từ tiền tố : , , , , , Xét mẫu , có S| sau: Sid S 12 10 20 30 40 Gọi đệ quy hàm PrefixSpan(,1,S|) tìm phần tử thường xuyên sau: : 2, :3, :3 Tạo mẫu phổ biến có độ dài sau: , , Xét mẫu , có S| sau: Sid 10 20 S Gọi đệ quy hàm PrefixSpan(,2,S|) không tìm phần tử thường xuyên Thuật toán dừng Xét mẫu , có S| sau: Sid 20 40 S Gọi đệ quy hàm PrefixSpan(,2,S|) không tìm phần tử thường xuyên Thuật toán dừng Xét mẫu , có S| sau: Sid 10 20 S Gọi đệ quy hàm PrefixSpan(,2,S|) không tìm phần tử thường xuyên Thuật toán dừng Vậy mẫu phổ biến khai phá từ tiền tố : , , , Xét mẫu , có S| sau: Sid 10 20 30 S Gọi đệ quy hàm PrefixSpan(,1,S|) tìm phần tử thường xuyên sau: : 2, : 13 Tạo mẫu phổ biến có độ dài sau: , Xét mẫu , có S| sau: Sid 20 S Gọi đệ quy hàm PrefixSpan(,2,S|) không tìm phần tử thường xuyên Xét mẫu , có S| sau: Sid 10 20 30 S Gọi đệ quy hàm PrefixSpan(,2,S|) tìm phần tử thường xuyên sau: :2 Tạo mẫu phổ biến có độ dài sau: Vậy mẫu phổ biến khai phá từ tiền tố là: , , Xét mẫu , có S| sau: Sid 30 40 S Gọi đệ quy hàm PrefixSpan(,1,S|) tìm phần tử thường xuyên sau: :2, :2, :2, :2 Tạo mẫu phổ biến có độ dài sau: , , , Xét mẫu , có S| sau: Sid 30 40 S Gọi đệ quy hàm PrefixSpan(,2,S|) tìm phần tử thường xuyên sau: :2, :2 Tạo mẫu phổ biến có độ dài sau: , Xét mẫu , có S| sau: Sid 30 40 S 14 Gọi đệ quy hàm PrefixSpan(,3,S|) không tìm phần tử thường xuyên Thuật toán dừng Xét mẫu , có S| sau: Sid 30 40 S Gọi đệ quy hàm PrefixSpan(,3,S|) tìm phần tử thường xuyên sau: :2 Tạo mẫu phổ biến có độ dài sau: Xét mẫu , có S| sau: Sid 30 40 S Gọi đệ quy hàm PrefixSpan(,2,S|) tìm phần tử thường xuyên sau: :2 Tạo mẫu phổ biến có độ dài sau: Xét mẫu , có S| sau: Sid 30 S Gọi đệ quy hàm PrefixSpan(,3,S|) không tìm phần tử thường xuyên Thuật toán dừng Xét mẫu , có S| sau: Sid 30 40 S Gọi đệ quy hàm PrefixSpan(,2,S|) tìm phần tử thường xuyên sau: :2, : Tạo mẫu phổ biến có độ dài sau: , Xét mẫu , có S| sau: Sid 30 40 S Gọi đệ quy hàm PrefixSpan(,3,S|) tìm phần tử thường xuyên sau: : 15 Tạo mẫu phổ biến có độ dài sau: Xét mẫu , có S| sau: Sid 30 S Gọi đệ quy hàm PrefixSpan(,3,S|) không tìm phần tử thường xuyên Thuật toán dừng Ta có mẫu phổ biến khai phá từ tiền tố : , , , ,, , , Xét mẫu , có S| sau: Sid 30 40 S Gọi đệ quy hàm PrefixSpan(,1,S|) tìm phần tử thường xuyên sau: :2, : Tạo mẫu phổ biến có độ dài sau: , Xét mẫu , có S| sau: Sid 30 40 S Gọi đệ quy hàm PrefixSpan(,2,S|) tìm phần tử thường xuyên sau: Tạo mẫu phổ biến có độ dài sau: Xét mẫu , có S| sau: Sid 30 40 S Gọi đệ quy hàm PrefixSpan(,2,S|) tìm phần tử thường xuyên sau: Tạo mẫu phổ biến có độ dài sau: Ta có mẫu phổ biến khai phá từ tiền tố f: , , , Vậy ta tìm tập mẫu phổ biến sau: , , , , , , , , , , , , , , , , , , , 16 , , , , , , , , , , , , , , , , < e>, , , , ,, , , , , , , , , , 3.3 PseudoProjection Những phân tích cho thấy chi phí lớn PrefixSpan sở liệu chiếu, ví dụ, hình thành sở liệu chiếu dựa vào đệ quy Thông thường, số lượng lớn sở liệu chiếu tạo khai thác mô hình Nếu số lượng / kích thước sở liệu chiếu giảm đi, hiệu suất khai thác mô hình cải thiện Một kỹ thuật mà làm giảm số lượng kích thước sở liệu chiếu pseudoprojection Ý tưởng phác thảo sau: Thay thực phép chiếu vật lý, đăng ký mục (hoặc ký hiệu) dãy tương ứng vị trí bắt đầu hậu tố chiếu dãy Sau đó, phép chiếu vật lý dãy thay cách đăng ký dãy ký hiệu vị trí điểm đối chiếu mục Pseudo Projection giảm chi phí phép chiếu đáng kể sở liệu chiếu đặt nhớ Phương pháp dựa quan sát sau đây: Đối với dãy s, chiếu đại diện vị trí chiếu (một điểm số) thay chép toàn hậu tố dãy chiếu Hãy xem xét chuỗi Phép chiếu vật lý dẫn đến việc chép lặp lặp lại hậu tố khác dãy Một trỏ số vị trí tiết kiệm phép chiếu vật lý hậu tố và, đó, tiết kiệm thời gian không gian việc tạo nhiều sở liệu chiếu vật lý Ví dụ (Pseudoprojection) Đối với dãy sở liệu S bảng với min_sup = 2, mẫu S khai thác phương pháp chiếu Pseudoprojection sau: Giả sử sở liệu chuỗi S Table1 tổ chức nhớ Thay xây dựng sở liệu chiếu , đại diện cho dãy hậu tố chiếu sử dụng trỏ (chuỗi id) hiệu số(s) Ví dụ, phép chiếu chuỗi s 1= liên quan đến phép chiếu bao gồm hai mẩu thông tin: 1) trỏ đến s mà string_id s1 17 2) hiệu số (s), số nguyên đơn, 2, điểm chiếu đơn; tập hợp số nguyên {2,3,6}, điểm chiếu đa Mỗi số hiệu vị trí vị trí chiếu bắt đầu dãy Các sở liệu chiếu cho tiền tố , , , , , thể Bảng 3, $ tiền tố có xuất chuỗi hậu tố chiếu trống rỗng, Ø xuất tiền tố dãy tương ứng Từ bảng 3, ta thấy sở liệu chiếu Pseudo thường không gian nhiều so với phép chiếu vật lý Sid 10 20 30 40 S Pseudo Projection tránh chép cách máy móc hậu tố.Vì vậy, hiệu thời gian chạy không gian Tuy nhiên, hiệu Pseudo Projection sử dụng cho việc truy cập dựa đĩa truy cập ngẫu nhiên không gian đĩa tốn Dựa quan sát này, phương pháp tiếp cận đề nghị dãy sở liệu ban đầu sở liệu chiếu lớn để đặt vào nhớ chính, phép chiếu vật lý nên áp dụng, tuy, việc thực cần trao đổi để pseudoprojection lần sở liệu chiếu đặt nhớ Phương pháp thông qua việc thực PrefixSpan Chú ý Pseudo Projection hoạt động hiệu PrefixSpan, không nhiều FreeSpan Điều PrefixSpan, vị trí ký hiệu xác định rõ ràng hậu tố dãycon chiếu dự Tuy nhiên, FreeSpan, kể từ bước mô hình tăng trưởng hướng phía trước phía sau, cần phải đăng ký nhiều thông tin vị trí gia hạn để xác định phần lại dãy chiếu Do đó, tìm hiểu kỹ thuật chiếu giả cho PrefixSpan Kết thực nghiệm phân tích 5.Mở rộng thảo luận 6.Kết luận 18 [...]... là cơ sở dữ liệu chiếu, ví dụ, hình thành cơ sở dữ liệu chiếu dựa vào đệ quy Thông thường, một số lượng lớn các cơ sở dữ liệu chiếu sẽ được tạo ra trong khai thác mô hình tuần tự Nếu các số lượng và / hoặc kích thước của cơ sở dữ liệu chiếu có thể được giảm đi, hiệu suất khai thác mô hình tuần tự có thể được cải thiện hơn nữa Một kỹ thuật mà có thể làm giảm số lượng và kích thước của cơ sở dữ liệu chiếu... gian và không gian của việc tạo ra nhiều cơ sở dữ liệu chiếu vật lý Ví dụ 5 (Pseudoprojection) Đối với cùng một dãy cơ sở dữ liệu S trong bảng 1 với min_sup = 2, mẫu tuần tự trong S có thể được khai thác bằng phương pháp chiếu Pseudoprojection như sau: Giả sử cơ sở dữ liệu chuỗi S trong Table1 có thể được tổ chức trong bộ nhớ chính Thay vì xây dựng cơ sở dữ liệu chiếu của , có thể đại diện cho dãy... nhiên không gian đĩa là tốn kém Dựa trên quan sát này, phương pháp tiếp cận đề nghị là nếu dãy cơ sở dữ liệu ban đầu hoặc các cơ sở dữ liệu chiếu là quá lớn để đặt vào bộ nhớ chính, phép chiếu vật lý nên được áp dụng, tuy, việc thực hiện cần được trao đổi để pseudoprojection lần một khi cơ sở dữ liệu chiếu có thể đặt trong bộ nhớ chính Phương pháp này được thông qua trong việc thực hiện PrefixSpan của... Xét mẫu tuần tự , có S| như sau: Sid 10 20 30 S Gọi đệ quy hàm PrefixSpan(,1,S|) tìm được các phần tử thường xuyên sau: : 2, : 3 13 Tạo ra các mẫu phổ biến có độ dài 2 như sau: , Xét mẫu tuần tự , có S| như sau: Sid 20 S Gọi đệ quy hàm PrefixSpan(,2,S|) không tìm được các phần tử thường xuyên nào Xét mẫu tuần tự ,... 3 như sau: Vậy những mẫu phổ biến được khai phá từ tiền tố là: , , 6 Xét mẫu tuần tự , có S| như sau: Sid 30 40 S Gọi đệ quy hàm PrefixSpan(,1,S|) tìm được các phần tử thường xuyên sau: :2, :2, :2, :2 Tạo ra các mẫu phổ biến có độ dài 2 như sau: , , , Xét mẫu tuần tự , có S| như sau: Sid 30 40 S ... mẫu tuần tự , có S| như sau: Sid 30 40 S 14 Gọi đệ quy hàm PrefixSpan(,3,S|) không tìm được phần tử thường xuyên nào Thuật toán dừng Xét mẫu tuần tự , có S| như sau: Sid 30 40 S Gọi đệ quy hàm PrefixSpan(,3,S|) tìm được các phần tử thường xuyên như sau: :2 Tạo ra các mẫu phổ biến có độ dài 4 như sau: Xét mẫu tuần tự ,... mẫu tuần tự , có S| như sau: Sid 30 S Gọi đệ quy hàm PrefixSpan(,3,S|) không tìm được các phần tử thường xuyên nào Thuật toán dừng Xét mẫu tuần tự , có S| như sau: Sid 30 40 S Gọi đệ quy hàm PrefixSpan(,2,S|) tìm được các phần tử thường xuyên như sau: :2, : 2 Tạo ra các mẫu phổ biến có độ dài 3 như sau: , Xét mẫu tuần tự. .. 15 Tạo ra các mẫu phổ biến có độ dài 4 như sau: Xét mẫu tuần tự , có S| như sau: Sid 30 S Gọi đệ quy hàm PrefixSpan(,3,S|) không tìm được các phần tử thường xuyên nào Thuật toán dừng Ta có các mẫu phổ biến được khai phá từ tiền tố : , , , ,, , , 7 Xét mẫu tuần tự , có S| như sau: Sid 30 40 S Gọi đệ... , , , , 11 Xét mẫu tuần tự , có S| như sau: Sid 10 20 S < (ac)d(cf)> Gọi đệ quy hàm PrefixSpan(,2,S|) tìm được các phần tử thường xuyên sau: :2 Tạo ra mẫu phổ biến độ dài 3 là: Xét mẫu tuần tự , có S| như sau: Sid 10 30 S Không tìm thấy phần tử phổ biến nào Thuật toán dừng Xét mẫu tuần tự , có S| như sau: Sid 10 20... phổ biến nào Thuật toán dừng Xét mẫu tuần tự , có S| như sau: Sid 10 30 S Gọi đệ quy hàm PrefixSpan(,2,S|) tìm được các phần tử thường xuyên sau: :2 Tạo ra mẫu phổ biến độ dài 3 là: Xét mẫu tuần tự , có S| như sau: Sid 30 S Không tìm thấy phần tử phổ biến nào Thuật toán dừng Vậy những mẫu phổ biến được khai phá từ tiền tố là : , , ... Phương pháp phát triển mẫu tiếp tục mở rộng để khai phá liệu mức cao ví dụ khai phá mẫu đa chiều, khai phá mô hình cấu trúc khác Phần lại báo cáo trình bày sau: phần 2, mô tả vấn đề khai phá mẫu tuần. .. không dãy phổ biến Khai phá mẫu phương pháp phát triển mẫu 3.1 Thuật toán FreeSpan Sử dụng mẫu phổ biến để đệ quy dãy liệu thành dãy liệu nhỏ Khai phá tập phổ biến, sử dụng dãy liệu nhằm giới hạn... PrefixSpan sở liệu chiếu, ví dụ, hình thành sở liệu chiếu dựa vào đệ quy Thông thường, số lượng lớn sở liệu chiếu tạo khai thác mô hình Nếu số lượng / kích thước sở liệu chiếu giảm đi, hiệu suất khai

Ngày đăng: 03/12/2015, 11:18

Mục lục

    KHAI PHÁ MẪU TUẦN TỰ BẰNG PHƯƠNG PHÁP PHÁT TRIỂN MẪU PHƯƠNG PHÁP TIẾP CẬN: PREFIXSPAN

    2. Mô tả vấn đề và thuật toán GSP

    2.1.Mô tả vấn đề

    2.2.Thuật toán GSP (Generalized Sequential Pattern)

    3. Khai phá mẫu tuần tự bằng phương pháp phát triển mẫu

    3.2.1 Định nghĩa 1: Prefix (tiền tố)

    3.2.2 Định nghĩa 2: Suffix (hậu tố)

    3.2.3 Định nghĩa 3: Project Database (CSDL chiếu)

    3.2.4 Định nghĩa 4: support count (độ hỗ trợ)

    4. Kết quả thực nghiệm và phân tích

Tài liệu cùng người dùng

Tài liệu liên quan