Tài liệu Phân cụm tập kết quả tìm kiếm web dựa vào tập thô pdf

15 432 3
Tài liệu Phân cụm tập kết quả tìm kiếm web dựa vào tập thô pdf

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phân cụm tập kết tìm kiếm web dựa vào tập thơ CHƯƠNG I PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB DỰA VÀO TẬP THÔ DUNG SAI 1.1 Phân cụm tập kết tìm kiếm Web 1.1.1 Khái niệm Phân cụm tập kết Web tổ chức xếp tập kết tìm kiếm thành số nhóm chủ đề riêng theo cách bố cục tổng thể đến chi tiết, giống thư mục 1.1.2 Phép đo độ tương tự Bản chất công việc phân cụm nhóm đối tượng tương tự với vào nhóm Vậy cần phải có phép đo để đo độ tương tự đối tượng Đối với đối tượng tài liệu người ta thường hay sử dụng phép đo hệ số góc cosin để đo độ tương tự hai tài liệu (mỗi tài liệu biểu diễn dạng vector) Công thức đo độ tương tự sau: t ∑x y Cosin(X,Y) = i =1 t ∑ xi2 + i =1 i i t ∑y i =1 i Trong -X (x1 ,x2 , … ,xt) Y(y1 ,y2 ,… ,yt) vector biểu diễn hai tài liệu -xi ,yi trọng số thành phần thứ I vector X,Y tương ứng Phân cụm tập kết tìm kiếm web dựa vào tập thô 1.2 Lý thuyết tập thô 1.2.1 Cơ sở tri thức ƒ Cho tập hữu hạn U ≠ φ (vũ trụ) đối tượng xét đến ƒ Một tập X ⊆ U (trường hợp X = φ) vũ trụ gọi khái niệm phạm trù U ƒ Một họ khái niệm U gọi tri thức U ƒ C = {Xi, X2, Xn}: gọi phân hoạch tập U cho Xi ⊆ U, Xi ≠ φ, Xi ∩ Xj = φ với i ≠ j, i, j = 1, n ∪Xi = U ƒ Một phân hoạch vũ trụ U gọi quan hệ tương đương R U ƒ Các phạm trù Xi với i=1, 2, …, n lớp tương đương quan hệ R ƒ Kí hiệu: ƒ U/R họ tất lớp tương đương R ƒ [x]R lớp tương đương R chứa phần tử x∈U ƒ K= (U, ℜ) gọi sở tri thức U ≠ φ tập hữu hạn ℜ họ quan hệ tương đương U ƒ Nếu P ⊆ ℜ P ≠ φ ∩ P (giao tất quan hệ tương đương thuộc P) quan hệ tương đương, ký hiệu IND (P) ƒ IND(P) gọi quan hệ phân biệt P ƒ U/IND(P) hay U/P: họ tất lớp tương đương quan hệ tương đương IND(P) ƒ U/P gọi tri thức sở U K ƒ Lớp tương đương IND(P) gọi phạm trù sở tri thức P ƒ Nếu R ∈ ℜ R gọi tri thức sơ cấp U K lớp tương đương R coi phạm trù sơ cấp tri thức R ƒ IND(K): họ tất quan hệ tương đương định nghĩa K, nghĩa IND(K) = {IND(P): φ ≠ P ⊆ ℜ} ƒ ==> IND(K) tập tối thiểu quan hệ tương đương chứa tất quan hệ K Phân cụm tập kết tìm kiếm web dựa vào tập thơ 1.2.2 Định nghĩa tập thô Trong lý thuyết tập thô , khái niệm không rõ ràng thay cặp khái niệm khơng xác gọi xấp xỉ xấp xỉ khái niệm không rõ ràng Xấp xỉ bao gồm tất đối tượng chắn thuộc khái niệm xấp xỉ gồm tất đối tượng thuộc khái niệm Hiệu xấp xỉ xấp xỉ tạo thành khoảng ranh giới khái niệm không rõ ràng Trong lý thuyết tập thô khái niệm không rõ ràng dựa xấp xỉ không phân biệt được(quan hệ tương đương) ™ Cho sở tri thức K= (U, ℜ), X ⊆ U - U ≠ φ tập hữu hạn ℜ họ quan hệ tương đương U - X xác định R (R – definable): X hợp số phạm trù sơ cấp trênR==>được gọi tập xác định - X không xác định R (R – Undefinable): ngược lại ==> gọi tập thô (tập không xác định) - Tập X ⊆ U gọi xác định sở tri thức K tồn quan hệ tương đương R ∈ IND(K) cho X tập xác định R - TậpX⊆ U gọi không xác định K X tập thô với R ∈ IND (K) Trong đó: R(R ⊆ UxU) gọi quan hệ phân biệt quan hệ tương đương ™ tính chất quan hệ tương đương R Tính đối xứng:xRy⇔yRx , với x,y∈U Tính bắc cầu: xRy ∧yRz⇒xRz, với x,y,z∈U Tính phản xạ: xRx, với x∈U ™ Nếu quan hệ R thoả mãn hai tính chất phản xạ đối xứng mà khơng thoả mãn tính chất bắc cầu gọi quan hệ dung sai (Tolerance relation) Phân cụm tập kết tìm kiếm web dựa vào tập thô ™ Nếu R quan hệ dung sai hai phần tử x, y ∈ U gọi tương tự theo R (R-similar); ™ Nếu R quan hệ tương đương hai phần tử x, y ∈ U gọi phân biệt R (R-indiscernable) 1.2.3 Các tập xấp xỉ tập thô Cho sở tri thức K = (U, R), X ⊆ U quan hệ tương đương R ∈ IND (K) Các tập: RX = − U {Y ∈ U/R : Y ⊆ X} − R X = U {Y ∈ U/R : Y ∩ X ≠ φ } gọi tập xấp xỉ tập xấp xỉ X Hoặc x∈ R X [x ]R ∈ X − [x]R ∩ X ≠ ∅ − x∈ R X − Và BN R X = R X − R X − gọi tập biên X quan hệ R **Mệnh đề − a) X xác định R R X = R X − b) X thô R − RX ≠RX − Phân cụm tập kết tìm kiếm web dựa vào tập thơ 1.2.4 Hàm thuộc thô Hàm thuộc thô (rough membership function) thể tính phụ thuộc phần tử tập thô: μ X (x ) = X ∩ [x ]R ) [x]R ta thấy: ≤ μ X (x ) ≤ Do R (X ) = {x ∈ U : μ X (x ) = 1} R (X ) = {x ∈ U : μ X (x ) > 0} BN R (X ) = {x ∈ U : < μX (x ) < 1} 1.2.5 Mơ hình tập thơ dung sai(Tolerance rough set model-TRSM ) Cho ℜ = (U, I, υ, P): U: Tập vũ trụ đối tượng I: U→P(U) - Hàm không chắn (uncertainty function) υ: P(U)×P(U) → [0,1] - Độ mập mờ (vague inclusion) P: I(U) → {0,1} – Hàm cấu trúc (structurality function) • Giả sử đối tượng x nhận biết hàm thơng tin Inf(x) • I: U → P(U) : hàm không chắn xác định I(x) lớp dung sai (tolerance class) tất đối tượng có thơng tin với x => I hàm cho thoả mãn điều kiện: x∈I(x) y∈I(x) x ∈ I(y) với ∀x, y ∈U • υ : P(U)× P(U)→ [0,1]: hàm mập mờ đánh giá mức độ bao hàm tập hợp – cụ thể, đánh giá độ bao hàm lớp dung sai I(x) tập thô x Phân cụm tập kết tìm kiếm web dựa vào tập thơ • P: I(U) → {0,1}: Hàm cấu trúc phân lớp tập I(x) đối tượng x ∈ U vào hai tập tập có cấu trúc với P(I(x)) = tập khơng có cấu trúc với P(I(x)) = • Các xấp xỉ xấp xỉ tập X ⊆ U không gian ℜ L(ℜ,X) = {x ∈ U | P(I(x)) = & υ(I(x),X) = 1} U(ℜ,X) = {x ∈ U : P(I(x)) = & υ(I(x),X) > 0} ** Biểu diễn tài liệu TRSM • T = {t1, t2, , tn} = U : tập thuật ngữ • D = {d1, d2, , dM}: tập M tài liệu • Với I hàm chắn với ngưỡng θ { } I θ (t i ) = t j f D (t i , t j ) ≥ θ ∩ {t i } f D(ti, tj) số văn tập D mà hai từ khoá ti tj xuất • • Hàm tính độ mập mờ: ν ( X ,Y ) = X ∩Y X Hàm thuộc thơ từ khố ti ∈T X ⊆ T: μ (t i , X ) = ν ( I θ (t i ), X ) = • I θ (t i ) ∩ X I θ (t i ) Từ giả sử ta coi tất lớp dung sai ti tập có cấu trúc, nghĩa P(Iθ(ti)) =1 với ∀ ti ∈ T • Các xấp xỉ tập X ⊆ T không gian ℜ vừa xác định được: LR(X) = {ti ∈ T | ν ( I θ (t i ), X ) =1 } , UR(X) = { ti ∈ T | ν ( I θ (t i ), X ) >0 } Phân cụm tập kết tìm kiếm web dựa vào tập thơ Trọng số từ khố ti văn dj xác định sau: M ⎧ fd t log( ( )) log + × j i ⎪ f D (ti ) ⎪ ⎪ ⎞ log⎛⎜ M ⎪⎪ f D (ti ) ⎟⎠ ⎝ ωi j = ⎨min th ∈d j ωhj × ⎞ ⎪ + log⎛⎜ M ⎟ f ( t ) D i ⎠ ⎝ ⎪ ⎪0 ⎪ ⎪⎩ (ti ∈ d j ) (ti ∈ U ( R, d j )) (ti ∉ U ( R, d j )) Phân cụm tập kết tìm kiếm web dựa vào tập thô CHƯƠNG II:GIẢI THUẬT PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB 2.1 Giải thuật Input : Tập D gồm N snippet d1, d2,…., dN Output : K nhóm chủ đề khác biệt Mơ hình liệu: * Áp dụng mơ hình khơng gian vector để biểu diễn kết tìm kiếm snippet Cụ thể: - Mỗi snippet biểu diễn vector nhiều chiều Mỗi chiều tương ứng với từ snippet - Giả sử tập N snippet có M từ riêng biệt Khi đó, snippet biểu diễn dạng vector sau: di= (wi1, wi2 , , wiM) , wij trọng số từ thứ j snippet di Vì snippet D có chiều dài riêng (có số lượng từ khác nhau) Do để giải thuật phân cụm cho kết xác cần chuẩn hóa số chiều vectơ tương ứng với snippet D Như vây, với tập D tạo thành ma trận document-terms Giải thật phân cụm TRC gồm có pha: Tiền xử lý snippet Trích chọn từ đặc trưng snippet (những từ thể nội dung snippet) Sinh lớp tolerance Phân cụm Tạo nhãn cho nhóm Phân cụm tập kết tìm kiếm web dựa vào tập thơ Ví dụ: Cho tập D= {d1, d2, d3, d4, d5, d6) Doc Title D1 Languege modeling approach to information retrieval: the importance of a query term D2 Title language model for information retrieval D3 Two-stage language models for information retrieval D4 Building a web theaurus from web link structure D5 Implicit link analysis for small web search D6 Query type classification for web document retrieval Bước 1: Dựa vào ma trận tần số xuất TF để tính ma trận xuất nhị phân OC Tuy nhiên trường hợp OC=TF Document/Term Information Web Query Retrieval Model Language d1 1 1 d2 0 1 d3 0 1 d4 0 0 d5 0 0 d6 1 0 Bước 2: Tính ma trận tần số xuất (term co-occurrence) COC Term Information Web Query Retrieval Model Language Information 3 Web 1 0 Query 1 2 Retrieval Model 0 2 Language 3 Phân cụm tập kết tìm kiếm web dựa vào tập thơ Bước3:Tính ma trận nhị phân tolerance(term tolerance binary)TOL với θ > Term Information Web Query Retrieval Model Language Information 1 1 Web 1 0 Query 1 1 Retrieval 1 1 1 Model 0 1 Language 1 1 Từ ma trận TOL xác định lớp tolerance từ D Term Lớp Tolerance Information Information, query, retrieval, model, language Web Web, query, retrieval Query Information, web, query, retrieval, language Retrieval Information, web, query, retrieval, model,language Model Information, retrieval, model,language Language Information, query, retrieval, model,language Giải thuật thực để sinh K nhóm ( K chọn phụ thuộc vào chiều dài (số lượng snippet) D) Giải thuật Input: D – tập N snippet, K- số nhóm, δ - ngưỡng tương tự với … Output: K nhóm snippet từ tập D (có thể nạp chồng) với giá trị thuộc mờ 10 Phân cụm tập kết tìm kiếm web dựa vào tập thơ Bắt đầu D = {d1, d2, , dM};K số tự nhiên - Ngẫu nhiên chọn K nhóm tài liệu C1, C2, , CK (các tài liệu thuộc D) - Tìm biểu diễn R1, R2, , RK nhóm vừa đýợc chọn Nếu S ( U ( ℜ, dj ) , Ri )> δ với ∀dj ∈ D Ci = Ci ∪ {dj} m(dj) = S ( U ( ℜ , d j ) , R i ) Tính R1, R2, , RK Số phần tử nhóm có thay đổi ? Y Y N N Gán tài liệu du chưa xếp vào nhóm văn mà có chứa tài liệu có độ tương tự với du lớn gán : m(du) = m(NN(du)) x S ( U( ℜ, du ) , U( ℜ, NN( du ) ) ) ; Tính lại R1, R2, , RK Kết thúc * Giải thuật xác định đại diện nhóm (determine_cluster- _representatives(RK)) Đại diện nhóm Rk thể nét đặc trưng tiêu biểu nhóm k, : - Mỗi snippet di nhóm Ck phải chứa từ Rk - Những từ Rk phải xuất hầu hết snippet thuộc nhóm Ck - Khơng phải từ Rk cần phải xuất snippet thuộc nhóm Ck 11 Phân cụm tập kết tìm kiếm web dựa vào tập thơ Trọng số từ tj Rk tính sau: wij = {d ∑ i d i ∈Ck wij ∈ Ck t j ∈ d i } Giải thuật: Rk= ∅ for all di ∈ Ck and tj ∈ di if f f C (t j ) / C k > σ k Rk = Rk ∪ tj end if end for if di ∈ Ck and di ∩ Rk = ∅ then Rk = Rk ∪ argmax Rk ∪ arg max t ∈d w j i ij end if f C (t j ) số tài liệu nhóm Ck có chứa từ tj k ** Tạo nhãn cho nhóm Pha tạo nhãn cho nhóm chủ đề cơng việc vơ quan trọng Vì nhãn thể đặc trưng chung nhóm việc tạo ảnh hưởng đến chất lượng toàn giải thuật phân cụm Giải thuật tạo nhãn thực dựa phương pháp n_gram để trích chọn nhóm từ phần tử đại diện nhóm Nhóm từ chọn làm nhãn (tên chủ đề) nhóm Theo phương pháp n_gram để nhóm từ thể tính sinh động nhóm phải chọn theo tiêu chuẩn sau: + Mức độ thường xuyên xuất nhóm từ tồn tập D 12 Phân cụm tập kết tìm kiếm web dựa vào tập thô + Mức độ thường xuyên xuất nhóm từ nhóm + Chiều dài nhóm (số từ hình thành nên nhóm từ) Do vậy, quan sát trực quan phương pháp TD*IDF thấy nhóm từ tương đối xuất tồn tập D xuất thường xuyên snippet nhóm ứng cử viên sáng giá cho việc chọn làm nhãn nhóm 2.2 Một số thuật tốn phân cụm khơng giám sát 2.2.1 Phương pháp phân hoạch • Thuật tốn K-means • Thuật tốn K-medoids 2.2.2 Phương pháp phân cấp Phân cụm phân cấp chia thành hai phương pháp : top-down bottom-up Phương pháp bottom-up: Phương pháp thiết kế theo chiến lược từ lên (bottom-up) Phương pháp bắt đầu với đối tượng khởi tạo tương ứng với cụm riêng biệt, sau ghép cụm thành cụm lớn tất đối tượng nằm cụm cho tối gặp điều kiện dừng Phương pháp top-down: Phương pháp thiết kế theo chiến lược xuống (top-down), thực ngược lại so với phương pháp bottom-up, tức chia nhỏ cụm lớn thành cụm nhỏ đối tượng chứa cụm riêng lẻ gặp điều kiện dừng như: đạt đến số lượng cụm cho phép, khoảng cách hai cụm gần lớn khoảng cách ngưỡng 13 Phân cụm tập kết tìm kiếm web dựa vào tập thơ • Thuật tốn CURE CURE thuật toán sử dụng chiến lược bottom-up phương pháp phân cụm phân cấp Khác với hai thuật toán phân cụm phân hoạch thuật toán CURE sử dụng nhiều đối tượng để biểu diễn cho cụm thay sử dụng trọng tâm hay đối tượng tâm Các đối tượng đại diện cụm ban đầu chọn rải rác vị trí khác nhau, sau chúng di chuyển cách co lại theo tỉ lệ định Khi hai cụm có cặp đối tượng đại diện gần trộn lại thành cụm • Thuật toán BIRCH BIRCH thuật toán phân cụm phân cấp sử dụng chiến lược Top-down Tư tưởng BIRCH khơng lưu tồn đối tượng liệu cụm nhớ mà lưu tham số thống kê Đối với cụm liệu, BIRCH lưu ba (N, LS, SS), N số đối tượng cụm, LS tổng giá trị thuộc tính đối tượng cụm, SS tổng bình phương giá trị thuộc tính đối tượng cụm Bộ ba gọi đặc trưng cụm (Cluster Feature- CF) Khi cụm tập liệu ban đầu cho dạng 14 Phân cụm tập kết tìm kiếm web dựa vào tập thơ TÀI LIỆU THAM KHẢO Tolerance rough set approach to clustering web search result, Ngô Chi Lăng -2003 Unsupervised Word Discriimation by Clustering Similar Contexts,Amruta Purandare -2004 Valued Tolerance and Decision Rlues, Jerzy Stefanowski From n_gramn to collocation an evaluation of xtract 15 ... U ( R, d j )) (ti ∉ U ( R, d j )) Phân cụm tập kết tìm kiếm web dựa vào tập thơ CHƯƠNG II:GIẢI THUẬT PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB 2.1 Giải thuật Input : Tập D gồm N snippet d1, d2,…., dN... tập hợp – cụ thể, đánh giá độ bao hàm lớp dung sai I(x) tập thơ x Phân cụm tập kết tìm kiếm web dựa vào tập thơ • P: I(U) → {0,1}: Hàm cấu trúc phân lớp tập I(x) đối tượng x ∈ U vào hai tập tập... φ ≠ P ⊆ ℜ} ƒ ==> IND(K) tập tối thiểu quan hệ tương đương chứa tất quan hệ K Phân cụm tập kết tìm kiếm web dựa vào tập thô 1.2.2 Định nghĩa tập thô Trong lý thuyết tập thô , khái niệm không rõ

Ngày đăng: 22/12/2013, 17:15

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan