Khai phá luật quyết định trên bảng dữ liệu động tt

MỞ ĐẦU KẾT LUẬN VÀ KIẾN NGHỊ Những vấn đề luận án giải Đề xuất chứng minh công thức biểu diễn mối quan hệ độ đo hỗ trợ với độ đo xác độ đo phủ luật Tính cấp thiết đề tài Khai phá luật định bảng liệu động nhằm nghiên cứu vấn đề trích rút luật định có ý nghĩa sở liệu định Đề xuất thuật toán theo tiếp cận gia tăng phát luật thay đổi theo thời gian giá trị thuộc tính, số thuộc tính định giá trị thuộc tính bảng liệu thay đổi số đối tượng Tiếp cận gia tăng theo tiếp cận tập thô để giải Ưu điểm thuật toán cần cập nhật lại ma trận độ hỗ trợ, dựa toán khai phá luật định bảng liệu động tính ma trận độ xác ma trận độ phủ, sinh luật nhằm giảm chi phí thời gian nhớ đòi hỏi quan tâm Đưa chứng minh định lý hệ làm sở cho nhà nghiên cứu tính đắn thuật toán theo tiếp cận gia tăng phát luật Trong luận án đề nghị cách tiếp cận gia tăng để “Khai định làm thô, làm mịn giá trị thuộc tính điều kiện phá luật định bảng liệu động” sở sử dụng độ làm thô, làm mịn giá trị thuộc tính định Đã đưa xác độ phủ luật làm hai nhân tố đánh giá chất lượng mô mệnh đề đánh giá độ phức tạp thuật toán tả tri thức (luật) quan tâm trích rút Đưa mệnh đề đánh giá độ phức tạp thuật toán (tính gia tăng ma trận độ xác ma trận độ phủ bổ sung, loại bỏ đối tượng) theo mô hình Liu Đề xuất thuật toán theo tiếp cận gia tăng dựa cập nhật ma trận độ hỗ trợ nhằm phát luật định bổ sung, Đối tượng nghiên cứu Đối tượng nghiên cứu luận án bảng liệu có tập đối tượng thay đổi tập giá trị thuộc tính thay đổi Mục đích xây dựng thuật toán học tri thức (luật) quan tâm bảng liệu động loại bỏ đối tượng khỏi bảng liệu Chứng minh tính đắn Nội dung, phương pháp nghiên cứu, bố cục luận án thuật toán đề xuất sở cập nhật gia tăng ma Nội dung: Hai nội dung nghiên cứu luận án (1) xây trận độ hỗ trợ tương ứng với ma trận gia tăng Đã đưa mệnh đề dựng thuật toán khai phá luật định từ bảng liệu làm đánh giá độ phức tạp thuật toán Nhờ đó, chứng tỏ thuật toán thô, làm mịn giá trị thuộc tính; (2) cải tiến thuật toán khai phá đề xuất tốt thuật toán Liu luật định bổ sung, loại bỏ đối tượng khỏi bảng Những vấn đề cần tiếp tục nghiên cứu: liệu Cả hai nội dung phân tích xem xét dựa Xây dựng thuật toán để phát luật định bảng liệu có tập thuộc tính thay đổi bảng liệu có thuộc tính đa trị bảng liệu không đầy đủ./ 24 công cụ lý thuyết tập thô mà tảng quan hệ “không thể phân biệt” Phương pháp nghiên cứu: Tiếp cận gia tăng theo tiếp cận tập giả thiết toán nhau; Cùng sử dụng cách tiếp cận gia tăng theo thô để giải toán khai phá luật định bảng liệu tiếp cận tập thô; Cùng xét bảng định đầy đủ với giá trị động thuộc tính rời rạc hóa; Cùng chọn độ xác độ phủ Bố cục luận án để mô tả tri thức quan tâm Cho kết chạy Luận án gồm phần mở đầu, 03 chương nội dung phần kết bảng liệu luận, danh mục báo công bố tài liệu tham khảo Khác Chương 1: Trình bày tổng quan khai phá liệu, khai phá Phương pháp Liu luật định bảng liệu động, số khái niệm lý thuyết tập thô, luật định độ đo chúng Chương 2: Nghiên cứu số tính chất lớp tương đương; xây dựng thuật toán khai phá luật định có ý nghĩa giá trị thuộc tính điều kiện giá trị thuộc tính định làm thô làm mịn Đánh giá độ phức tạp thuật toán đề nghị Chương 3: Trình bày mô hình thuật toán Liu để khai phá luật định có ý nghĩa thực việc bổ sung, loại bỏ đối tượng Đề xuất thuật toán cải tiến thuật toán Liu Đưa mệnh đề đánh giá độ phức tạp thuật toán Chương TỔNG QUAN 1.1 Khai phá liệu Khám phá tri thức sở liệu (KDD) trình tìm kiếm sở liệu mẫu đắn, mới, có ích tiềm tàng hiểu người sử dụng KDD trình gồm nhiều pha, pha có vai trò tầm quan trọng riêng Khai phá liệu (DM) pha quan trọng toàn tiến trình khám phá tri thức, sử dụng thuật toán đặc biệt để chiết xuất mẫu từ liệu Phương pháp đề nghị luận án Phương pháp thực Lưu cập nhật Chỉ lưu cập nhật ma trận độ xác ma trận độ hỗ trợ ma trận độ phủ Tính ma Trong lần cập nhật, Trong lần cập nhật, trận Acc, phải cập nhật tất cập nhật trực tiếp cho phần Cov phần tử dòng/cột tử ma trận Sup tương thời điểm tương ứng với lớp điều ứng với lớp bị thay đổi t+1 kiện, lớp QĐ bị thay đổi Việc tính ma trận Acc, ma trận Độ phức tạp Cov lần - Thời gian:O(|U| ) - Thời gian: O(|U|2) - Không gian: O(2|U|2) - Không gian: O(|U|2) 3.5 Kết luận chương Trong chương này, trình bày mô hình thuật toán Liu tính gia tăng ma trận độ xác ma trận độ phủ phát luật định bổ sung, loại bỏ đối tượng Đề xuất thuật toán cải tiến thuật toán Liu, chứng minh tính đắn thuật toán sở cập nhật gia tăng ma trận độ hỗ trợ tương ứng với ma trận gia tăng Đưa mệnh đề đánh giá độ phức tạp thuật toán, nhờ chứng tỏ tính hiệu thuật toán cải tiến so với thuật toán Liu 23 Định lý 3.1 1.2 Khai phá luật định Thuật toán tính gia tăng ma trận độ hỗ trợ để phát luật Khai phá luật định trình xác định luật định bổ sung, loại bỏ đối tượng khỏi bảng liệu có định bảng định cho trước, phục vụ cho việc phân lớp kết với thuật toán tính gia tăng ma trận độ xác ma đối tượng Khai phá luật định nhiều trận độ phủ chạy tập liệu chuyên gia nước quan tâm hai phương diện lý 3.3.3 Độ phức tạp thuật toán thuyết ứng dụng Các nghiên cứu tập trung chủ yếu xét Độ phức tạp thời gian thuật toán tính gia tăng ma trận độ hỗ trợ để trích rút luật định có ý nghĩa bổ sung, loại bỏ đối 2 bảng liệu tĩnh Trong thực tế, liệu thường xuyên thay đổi theo thời gian Đã tượng O(|U| ) độ phức tạp không gian O(|U| ) có số nghiên cứu khía cạnh khác để khai phá 3.3.4 Thực nghiệm luật định bảng liệu động, tập trung chủ yếu vào ba Chọn sở liệu từ kho liệu học máy UCI (bảng 3.3) để làm thực nghiệm Kết thực nghiệm hình 3.4 Bảng 3.3: Các thông tin bốn sở liệu thực nghiệm trường hợp: (1) Tập giá trị thuộc tính thay đổi; (2) Tập đối tượng thay đổi; (3) Tập thuộc tính thay đổi Trường hợp (1), năm 2010 Chen đề nghị phương pháp Tên tệp liệu IRIS CPU Bank-data Segment học gia tăng để cập nhật xấp xỉ xấp xỉ khái Số đối tượng 150 209 600 1500 niệm (một lớp định) làm thô, làm mịn giá trị thuộc tính Số thuộc tính điều kiện 10 19 điều kiện Tuy nhiên, cách tiếp cận này, thuật toán đưa Số thuộc tính định 1 1 chưa đề cập đến trường hợp giá trị thuộc tính định thay đổi, chưa xem xét đến vấn đề làm để sinh luật định xét đồng thời với nhiều lớp định Mặt khác, xét với lớp định, thuật toán phải thực lại việc phân lớp đối tượng giá trị thuộc tính điều kiện thay đổi, chưa tận dụng tính chất lớp tương đương giá trị thuộc tính thay đổi Trường hợp (2), Shan Ziarko đề nghị phương pháp Hình 3.4: Thời gian (giây) chạy trung bình hai thuật toán 3.4 So sánh hai phương pháp phát luật định Giống Cả hai phương pháp phát luật định sử dụng mô học gia tăng dựa ma trận phân biệt để tìm tất luật định chắn Một hạn chế thuật toán Shan Ziarko chưa xem xét đến việc trích rút luật bảng định không quán Để khắc phục hạn chế trên, Bian hình bổ sung, loại bỏ đối tượng khỏi bảng liệu với yêu cầu 22 đề nghị thuật toán cải tiến cách sử dụng ma trận định Ra: Ma trận Sup thời điểm t+ mở rộng Tuy nhiên, hai cách tiếp cận không đưa Phương pháp: luật định không chắn (đây luật có ý nghĩa bảng định) Tong An đề xuất thuật toán dựa ∂ - ma trận định để học gia tăng luật định, tác giả đưa bảy trường hợp xẩy đối tượng - Tìm lớp điều kiện lớp định mà x thuộc vào - Cập nhật phần tử ma trận Sup tương ứng Kết thúc bổ sung, chưa đề cập đến vấn đề đối tượng bị loại bỏ Năm 2009, Liu đề xuất mô hình thuật toán để phát luật định bổ sung loại bỏ đối tượng khỏi bảng liệu dựa việc tính toán gia tăng ma trận độ xác ma trận độ phủ làm sở để sinh luật định Nghiên cứu Liu tiêu tốn nhiều thời gian tính không gian nhớ phải cập nhật lưu trữ ma trận độ xác ma trận độ phủ Trường hợp (3), Chan sử dụng khái niệm phân cấp động cung cấp người sử dụng để cập nhật gia tăng xấp xỉ khái niệm; Li trình bày phương pháp để cập nhật xấp xỉ khái niệm hệ thông tin không đầy đủ dựa quan hệ đặc trưng Trong nước, năm 2008 Trọng N.H đề xuất thuật toán khai Hình 3.3: Các bước thuật toán tính gia tăng ma trận Sup phá luật kết hợp bảng liệu gia tăng theo chiều dọc Thuật toán 3.6 Tính toán gia tăng ma trận độ hỗ trợ xóa đối dựa việc phân hoạch liệu thành nhiều phần nhỏ tương ứng với tượng mục liệu lưu chúng nhớ ngoài, lần xử lý đưa Vào: - Tập lớp điều kiện Ci; Tập lớp định Dj; số tập phân hoạch vào nhớ trong, bảng liệu gia tăng theo chiều ngang dựa vào cấu trúc định Tuy nhiên, nghiên cứu chưa đề cập đến vấn đề loại bỏ đối tượng trường hợp bảng liệu có tập giá trị thuộc tính thay - Ma trận Sup thời điểm t Ra: Ma trận Sup thời điểm t+ Phương pháp: đổi Trong khuôn khổ luận án, tập trung nghiên cứu, xây dựng thuật toán khai phá luật định bảng liệu động theo hướng - Tập DM gồm M đối tượng bị loại bỏ; Tương tự thuật toán 3.5 Kết thúc 21 tiếp cận gia tăng hai trường hợp thay đổi bảng liệu 3.2.5 Độ phức tạp thuật toán Độ phức tạp thuật toán Liu tính toán gia tăng ma trận độ xác ma trận độ phủ O(|U| ) độ phức tạp không gian là: Bảng liệu có giá trị thuộc tính thay đổi bảng liệu có tập đối tượng thay đổi O(2|U| ) 1.3 Lý thuyết tập thô 3.3 Tính toán gia tăng ma trận độ hỗ trợ 1.3.1 Hệ thông tin 3.3.1 Cơ sở lý thuyết Định nghĩa 1.1 Hệ thông tin bốn IS = (U, A, V, f), U tập hữu hạn, khác rỗng đối tượng gọi tập vũ trụ, A tập hữu hạn khác rỗng thuộc tính, V = U Va tập giá trị thuộc tính, Căn mô hình Liu yêu cầu toán đặt trên, thấy bổ sung (loại bỏ) đối tượng thực chất bổ sung (loại bỏ) ma trận độ hỗ trợ Khi ta có: Sup(t+1)(Ci, Dj) = Sup(t)(Ci, a∈A Như vậy, thay việc phải cập nhật phần tử dòng/cột Va tập giá trị thuộc tính a, f: U x A → V hàm thông tin cho ∀ x ∈ U, ∀ a ∈ A ta có f(x, a) ∈ Va Ta gọi f(x, a) giá trị đối tượng x thuộc tính a, tập X ≠ φ , X ⊆ U gọi khái niệm IS 1.3.2 Quan hệ bất khả phân biệt tương ứng ma trận độ xác ma trận độ phủ, ta Giả sử IS = (U, A, V, f) hệ thông tin Với tập thuộc Dj) + Nij – Mij với i = 1,…m+p; j=1,…,n+q, Mij = Sup(t)(Ci, Dj) = ∀ i=m+1,…,m+q, j=n+1,…,n+q (vì ta xóa đối tượng có số i từ đến m số j từ đến n) cần tìm lớp tương đương bị thay đổi cập nhật trực tiếp cho ma trận tính P ⊆ A xác định quan hệ tương đương, ký hiệu IND(P), độ hỗ trợ tương ứng Việc tính ma trận độ xác ma trận độ gọi quan hệ bất khả phân biệt, định nghĩa IND(P) = {(x, y) phủ làm sở cho việc sinh luật định có ý nghĩa suy ∈ U x U: ∀ a ∈ P, f(x, a)= f(y, a)} Quan hệ IND(P) chia U thành từ ma trận độ hỗ trợ sau cập nhật 3.3.2 Thuật toán Hình 3.3 biểu thị bước thuật toán, sử dụng thuật toán 2.1 để tính ma trận Sup thời điểm t; thuật toán 2.6 để tính ma trận Acc, Cov thuật toán 2.7 để trích rút luật định Các thuật toán để thực bước lại trình bày họ lớp tương đương, tạo thành phân hoạch U, ký hiệu U/P Với đối tượng x ∈ U, lớp tương đương chứa x theo quan hệ IND(P), ký hiệu [x]P định nghĩa [x]P = {y ∈ U: (x, y) ∈ IND(P)} Điều có nghĩa rằng, hai đối tượng thuộc lớp tương đương chúng có giá trị giống Thuật toán 3.5 Tính toán gia tăng ma trận độ hỗ trợ bổ sung đối thuộc tính P Do đó, để xác định lớp tương đương, ta tượng xếp đối tượng U theo thứ tự tùy ý (thông thường Vào: - Tập lớp điều kiện Ci; Tập lớp định Dj; xếp theo thứ tự từ điển) - Tập AN gồm N đối tượng bổ sung; - Ma trận Sup thời điểm t Định nghĩa 1.2 Cho hệ thông tin IS = (U, A, V, f), , P, Q ⊆ A tập thuộc tính, U/P = {P1, ,Pm}, U/Q = {Q1, ,Qn} phân hoạch 20 sinh P, Q, ta nói Q thô (coarser) P P mịn (refiner) Q ∀ Pi ∈ U/P, ∃ Qj ∈ U/Q (i = 1, ,m; j= 1, ,n) cho Pi ⊆ Qj 1.3.3 Xấp xỉ tập hợp Định nghĩa 1.3 Cho hệ thông tin IS = (U, A, V, f), P ⊆ A tập thuộc tính, X ⊆ U tập đối tượng, tập P X = {x ∈ U: [x]P ∩ X P X = {x ∈ U: [x]P ⊆ X} ≠ φ } tương ứng gọi P-xấp xỉ P-xấp xỉ X IS Vùng BNP(X) = P X - P X gọi P – vùng biên X Nếu BNP(X) = φ X gọi tập rõ (crisp), trái lại X gọi tập thô 1.3.4 Bảng định Một trường hợp đặc biệt hệ thông tin gọi bảng định Hình 3.2: Các bước thuật toán tính gia tăng ma trận độ xác ma trận độ phủ Các bước lại trình bày thuật toán đây: tập thuộc tính A phân thành hai tập rời C D, Thuật toán 3.2: Tính toán gia tăng ma trận độ xác ma trận C tập thuộc tính điều kiện, D tập thuộc tính độ phủ thời điểm t+1 bổ sung đối tượng x định cho C ∩ D = Vào: - Các lớp tương đương Ci; lớp tương đương Dj φ , C ∪D = A Bảng định ký hiệu là: DS = (U, C ∪ D, V, f) DS = (U, C ∪ D) Giả sử U/C = {C1, C2,…,Cm} U/D = {D1, D2,…,Dn} tương ứng phân hoạch sinh tập thuộc tính điều kiện C tập thuộc tính định D, ∀ i = 1,…,m; ∀ j = 1,…,n, Ci, Dj - Tập AN chứa N đối tượng bổ sung Ra: Acc(t+1)(C, D) Cov(t+1)(C ,D) Phương pháp: Thực trường hợp mục 3.3.2 tương ứng gọi lớp tương đương điều kiện lớp Kết thúc tương đương định Thuật toán 3.3: Tính toán gia tăng ma trận độ xác ma trận 1.3.5 Luật định độ phủ thời điểm t+1 xóa đối tượng x’ Định nghĩa 1.4 Vào: - Các lớp tương đương Ci ;Các lớp tương đương Dj Cho bảng định DS = (U, C ∪ D), U/C = {C1, …, Cm}; - Tập DM chứa M đối tượng bị loại bỏ; U/D = {D1, D2,…,Dn} tương ứng phân hoạch sinh C, Ra: Acc(t+1)(C, D) Cov(t+1)(C ,D) D Một luật định biểu diễn dạng Ci → Dj Ci Phương pháp: ∈ U/C, Dj ∈ U/D (i=1,…,m; j=1,…,n) Định nghĩa 1.5 Thực trường hợp mục 3.3.2 Kết thúc 19 - Trường hợp 1.1: Sinh lớp điều kiện lớp định Khi đó, ta có x ∉ Ci (i=1,…,m) x ∉ Dj (j=1,…,n), tức việc bổ sung x sinh lớp điều kiện C D ' n +1 ' m +1 lớp định -Trường hợp 1.2: Chỉ sinh lớp điều kiện Khi đó, ta có x ∉ Ci (i=1,…,m) ∃ j* ∈ {1, 2, …, n}: x ∈ Dj* tức việc bổ sung x sinh lớp điều kiện C'm +1 bổ sung lực lượng cho Dj* - Trường hợp 1.3: Chỉ sinh lớp định Khi ∃ i* Cho bảng định DS = (U, C ∪ D) Giả sử Ci ∈ U/C; Dj ∈ U/D (i = 1,…,m; j = 1,…, n) Độ hỗ trợ, độ xác độ phủ luật định Ci → Dj tương ứng định nghĩa sau: Sup(Ci, Dj) = |Ci ∩ Dj| | Ci ∩ D j | Acc(Ci, Dj) = | Ci | | Ci ∩ D j | Cov(Ci, Dj) = | Dj | Độ hỗ trợ: Độ xác: Độ phủ: ∈ {1, 2,…, m} cho x ∈ Ci* x ∉ Dj (j=1,…,n), tức việc bổ đó, |.| biểu thị lực lượng tập hợp sung x sinh luật không chắn x hình thành lớp Khi xem xét bảng liệu lớn, để đơn giản biểu định D ' n +1 - Trường hợp 1.4: Không sinh lớp điều kiện không sinh ∃ i* ∈ {1, 2, …, m} cho x ∈ Ci* ∃ j* ∈ {1, 2, …, n} cho x ∈ Dj* Do đó, việc bổ sung x làm gia lớp định Khi tăng độ hỗ trợ luật Ci* → Dj* Trường hợp 2: Loại bỏ đối tượng x’ khỏi hệ thống: ∃ i* ∈ {1, 2, …, m} cho x’ ∈ Ci*, ∃ j* ∈ {1, 2, …, n} cho x’ ∈ Dj* Do đó, thay đổi làm ảnh hưởng đến dòng i* cột j* ma trận độ xác ma trận độ phủ 3.2.4 Thuật toán Các bước thuật toán (hình 3.2), sử dụng thuật toán 2.7 để sinh luật định có ý nghĩa diễn độ đo dạng ma trận độ đo sau: Ma trận độ hỗ trợ: Sup(C,D) = (Sup(Ci, Dj))m x n Ma trận xác: Acc(C,D) = (Acc(Ci, Dj))m x n Ma trận độ phủ: Cov(C,D) = (Cov(Ci, Dj))m x n Định nghĩa 1.6 Nếu Acc(Ci, Dj) = Ci chắn, < Acc(Ci, Dj) < không chắn (i=1,…,m; j=1,…,n) Mệnh đề 1.1 ∀ Ci ∈ U/C; Acc(Ci,Dj) = Vào: - Các lớp tương đương Ci; lớp tương đương Dj Áp dụng định nghĩa 1.5 Kết thúc 18 Sup(Ci ,D j ) n q =1 Cov(Ci,Dj) = i q ) Sup(Ci , D j ) m ∑ Sup(C , D ) Ra: Ma trận độ xác Acc(t)(C,D) ma trận độ phủ Cov(t)(C, D); Phương pháp: ∀ Dj ∈ U/D (i=1,…,m; j = 1,…,n), ta có ∑ Sup(C , D Thuật toán 3.1: Tính ma trận độ xác ma trận độ phủ thời điểm t → Dj gọi luật định Ci → Dj gọi luật định p =1 p j Định nghĩa 1.7 Giả sử Ci ∈ U/C; Dj ∈ U/D (i=1,…,m; j = 1,…,n), Acc(Ci,Dj) ≥ α Cov(Ci,Dj) ≥ γ ta gọi luật Ci → Dj luật định có ý nghĩa, α , γ ∈ (0,1) α,γ hai ngưỡng cho trước, với bảng định Ký hiệu, U’/C = {C’1,…,C’m,…,C’m+p}, U’/D = {D’1,…,D’n,…,D’n+q} tương ứng tập lớp tương đương điều 1.4 So sánh kỹ thuật phân lớp dựa luật kết hợp phân lớp kiện tập lớp tương đương định mới; Sup(t+1)(C,D), dựa tập thô Acc(t+1)(C,D) Cov(t+1)(C, D) tương ứng ma trận độ hỗ trợ, Có thể so sánh Kỹ thuật phân lớp dựa luật kết hợp (ký hiệu ma trận độ xác ma trận độ phủ luật sau tập AC) kỹ thuật phân lớp dựa tập thô (ký hiệu RC) hai khía đối tượng thay đổi cạnh là: độ xác phân lớp số lượng luật sinh 3.2.2 Mô hình Các kết thử nghiệm cho thấy, hầu hết tập liệu, độ Giả sử N đối tượng bổ sung, có Ni đối tượng xác phân lớp AC xấp xỉ với RC, cá biệt vài tập bổ sung cho lớp Ci (i = 1,…,m+p); Ni đối tượng bổ sung cho liệu độ xác phân lớp AC cao RC Về số lượng lớp Ci có Nij đối tượng bổ sung cho lớp Dj (j=1,2, ,n+q) Tương luật sinh ra, hầu hết trường hợp AC sinh nhiều luật tự, M đối tượng bị loại bỏ, có Mi đối tượng bị loại khỏi lớp Ci RC (i=1,…,m); Mi đối tượng bị loại khỏi lớp Ci có Mij đối tượng bị 1.5 Kết luận chương loại khỏi lớp Dj (j=1,2,…,n) (hình 3.1) Chương trình bày tổng quan khai phá liệu, khai phá luật định số vấn đề lý thuyết tập thô, luật định, đưa công thức biểu diễn mối quan hệ độ đo luật định Đây vấn đề để nắm bắt trình bày kết chương sau luận án Chương KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN BẢNG DỮ LIỆU CÓ CÁC GIÁ TRỊ THUỘC TÍNH THAY ĐỔI 2.1 Giới thiệu Sự thay đổi giá trị thuộc tính nói chung chia thành hai Hình 3.1: Tiến trình bổ sung/loại bỏ đối tượng 3.2.3 Tính toán gia tăng ma trận độ xác ma trận độ phủ loại: vài giá trị thuộc tính kết hợp với thành Khi bổ sung, loại bỏ đối tượng khỏi bảng liệu, xẩy giá trị (làm thô); vài giá trị thuộc tính tách trường hợp, trường hợp ta xét thay đổi dòng/cột thành hai giá trị (làm mịn) Như vậy, làm thô, làm mịn ma trận Acc, Cov cập nhật Sau lần cập nhật cuối giá trị thuộc tính phân hoạch sinh thuộc tính thu ma trận thời điểm t+1 Trường hợp 1: Bổ sung đối tượng x, xẩy trường hợp 17 trị thuộc tính thay đổi Đồng thời, đưa mệnh đề đánh giá trở nên thô hay mịn Khi luật định thu độ phức tạp thuật toán đề nghị trước bị thay đổi, không giá trị thời điểm Để thu luật định có ý nghĩa thời điểm mới, Chương KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN BẢNG DỮ LIỆU CÓ TẬP ĐỐI TƯỢNG THAY ĐỔI 3.1 Giới thiệu Năm 2009, Liu, D đề xuất mô hình thuật toán để phát chương luận án đề xuất thuật toán trích rút luật định có ý nghĩa làm thô, làm mịn giá trị thuộc tính điều kiện làm thô, làm mịn giá trị thuộc tính định 2.2 Khái niệm làm thô, làm mịn giá trị thuộc tính Định nghĩa 2.1 luật định tập đối tượng thay đổi dựa việc tổ Cho hệ thông tin IS = (U, A, V, f), a ∈ P ⊆ A, Va tập giá trị chức lưu trữ cập nhật hai ma trận độ xác độ thuộc tính a Giả sử f(xp, a) = w, f(xq, a) = y tương ứng giá trị phủ làm sở cho việc sinh luật, tiêu tốn thời gian tính đối tượng xp, xq thuộc tính a (p ≠ q) Nếu thời điểm không gian nhớ cần thiết Trong chương này, đề xuất thuật toán ta có f(xp, a) = f(xq, a) = z (z ∉ Va) ta gọi hai giá trị w, y cải tiến thuật toán Liu nhằm giảm chi phí thời gian nhớ thuộc tính a làm thô thành giá trị z 3.2 Mô hình Liu tính toán gia tăng ma trận độ xác Định nghĩa 2.2 ma trận độ phủ 3.2.1 Yêu cầu giả thiết toán Cho bảng định DS = (U, C ∪ D) Giả sử thêm vào DS N Cho hệ thông tin IS = (U, A, V, f), a ∈ P ⊆ A Giả sử Z = {xs ∈ U | f(xs, a) = z} tập đối tượng có giá trị z thuộc tính a Nếu thời điểm đó, Z phân hoạch thành hai tập hợp định thỏa mãn đồng thời ngưỡng độ xác ngưỡng độ ∩ Y = φ , W = {xp ∈ U | f(xp, a) = w, w ∉ Va} Y = {xq∈ U | f(xq, a) = y, y ∉ Va} ta gọi phủ cho trước sau tập đối tượng thay đổi giá trị z thuộc tính a làm mịn thành hai giá trị w đối tượng xóa M đối tượng Yêu cầu đặt là: Rút luật Giả sử tiến trình cập nhật tri thức diễn từ thời điểm t đến thời W, Y cho Z = W ∪ Y, W y điểm t+1 Tại thời điểm t, tập lớp tương đương điều kiện tập 2.3 Tiến trình cập nhật tri thức làm thô, làm mịn giá trị lớp tương đương định tương ứng ký hiệu U/C = thuộc tính {C1,…,Cm} U/D = {D1,…,Dn}; Sup(t)(C, D), Acc(t)(C, D) 2.3.1 Yêu cầu giả thiết toán Cov(t)(C, D) tương ứng ma trận độ hỗ trợ, ma trận độ xác Cho bảng định DS = (U, C ∪ D, V, f), Va, Vd tương ứng ma trận độ phủ tất luật Tại thời điểm t+1, giả sử AN là tập giá trị thuộc tính điều kiện a thuộc tính định d tập N đối tượng bổ sung, N đối tượng bổ sung hình thành Yêu cầu đặt là: Trích rút luật định sau làm thô, làm thêm p lớp tương đương điều kiện q lớp tương đương mịn giá trị thuộc tính điều kiện thuộc tính định, định mới; DM tập M đối tượng bị loại bỏ; DS’ = (U’, C ∪ D) 16 luật định rút thỏa mãn đồng thời ngưỡng độ Một số nhận xét thuật toán đề xuất thuật toán Chen xác ngưỡng độ phủ cho trước Thuật toán đề xuất luận án Giả sử tập thuộc tính định D gồm thuộc tính d, tiến trình học luật định giá trị thuộc tính thay đổi Kết Các luật định có ý nghĩa đầu Các xấp xỉ dưới, xấp xỉ khái niệm diễn từ thời điểm t đến thời điểm t+1; U/C = {C1,…,Cm}, U/D = {D1, …,Dn} tương ứng phân hoạch sinh C, D (0[...]... ngưỡng α, γ Ra: Các luật quyết định có ý nghĩa ∀ Ci∈ U/C ta có: Sup(Ci, Dw) + Sup(Ci, Dy) = Sup(Ci, Dz) ở đây i = 1, ,m 2.3.2.4 Làm mịn các giá trị thuộc tính quyết định Giả sử sau thời điểm t, giá trị z của thuộc tính quyết định d được Phương pháp: làm mịn thành hai giá trị mới w và y (w, y ∉ Vd) Tại thời điểm t+1, Áp dụng định nghĩa 1.7 Kết thúc tồn tại một lớp tương đương quyết định Dz nào đó được... thời điểm t+1 hai lớp tương đương quyết định Dw, Dy nào đó được làm thô thành Ra: Ma trận độ chính xác và ma trận độ phủ tại thời điểm t+1 một lớp tương đương quyết định mới Dz, có nghĩa là Dw ∪ Dy = Dz với Dw = {x ∈ U : ft(x, d) = w, w ∉ Vd}, Dy = {x ∈ U: ft(x, d) = y, Phương pháp: y ∉ Vd} Áp dụng mệnh đề 1.1 Kết thúc Hệ quả 2.3 : Thuật toán 2.7: Trích rút luật quyết định có ý nghĩa Vào: - Ma trận Acc,... hai lớp tương đương quyết định mới Dw và Dy Độ phức tạp thời gian của thuật toán trích rút các luật quyết định 2 có nghĩa khi làm thô, làm mịn các giá trị thuộc tính là O(|U| ) và độ 2 phức tạp không gian của nó là O(|U| ) 14 Hệ quả 2.4: ∀ Ci∈ U/C, ta có Sup(Ci, Dz) = Sup(Ci, Dw) + Sup(Ci, Dy) ở đây i = 1, ,m 11 2.3.3 Thuật toán Các bước cơ bản của thuật toán trích rút các luật quyết định có ý nghĩa khi... kiện Ci - Tính Sup tại thời điểm t+1 - Các lớp tương đương quyết định Dj Kết thúc Ra: Ma trận độ hỗ trợ (Sup) tại thời điểm t Thuật toán 2.4 Tính ma trận độ hỗ trợ tại thời điểm t+1 khi làm thô Phương pháp : các giá trị thuộc tính quyết định Áp dụng định nghĩa 1.5 Kết thúc Vào: - Ma trận Sup tại thời điểm t ; - Giá trị w, y của thuộc tính quyết định d được làm thô thành z Thuật toán 2.2: Tính ma trận... đối tượng mà có giá trị z trên thuộc tính a* được làm mịn thành w Hình 2.1: Các bước cơ bản của thuật toán trích rút luật quyết định khi làm thô/mịn các giá trị thuộc tính Các thuật toán để thực hiện các bước này được trình bày dưới - Tập Y các đối tượng có giá trị z trên thuộc tính a* được làm mịn thành y Ra: Ma trận Sup tại thời điểm t+1 sau khi làm mịn thuộc tính a*; Phương pháp: đây Thuật toán 2.1... Phương pháp: ∪ - Tìm lớp Dz* nào đó được tách thành 2 lớp Dy, Dw mới điểm t+1 ta có: (i) Cs = Cp - Tính ma trận Sup tại thời điểm t+1 Sup(Cp, Dj) + Sup(Cq, Dj) ở đây j=1, ,n Kết thúc Cq ; (ii) ∀ Dj ∈ U/D, Sup(Cs, Dj) = 2.3.2.3 Làm thô các giá trị thuộc tính quyết định Thuật toán 2.6: Tính ma trận độ chính xác và ma trận độ phủ tại thời Giả sử sau thời điểm t, hai giá trị w, y của thuộc tính quyết định. .. tính quyết định mịn thành hai giá trị mới w và y (w, y ∉ Va) Tại thời điểm t+1, tồn Vào: - Ma trận Sup tại thời điểm t; tại một lớp tương đương điều kiện Cs nào đó được làm mịn thành hai - Tập Dw là tập các đối tượng có giá trị trên thuộc tính d là z được làm mịn thành giá trị w; lớp tương đương điều kiện mới Cp, Cq, khi và chỉ khi: (i) ft(Cs, a) = z; (ii) Cs - Tập Dy là tập các đối tượng có giá trị trên. .. toán trích rút các luật quyết định có ý nghĩa khi làm thô, làm mịn các giá trị thuộc tính điều kiện hoặc khi làm thô, làm mịn các giá trị thuộc tính quyết định (hình 2.1) Ra: Ma trận độ hỗ trợ Sup tại thời điểm t+1 sau khi làm thô thuộc tính a*; Phương pháp: - Tìm tất cả các cặp lớp tương đương điều kiện Cp, Cq nào đó được hợp thành lớp tương đương điều kiện Cs mới - Tính ma trận Sup tại thời điểm t+1... định d được làm thô thành z Thuật toán 2.2: Tính ma trận độ hỗ trợ tại thời điểm t+1 khi làm thô Ra: Ma trận Sup tại thời điểm t+1 sau khi làm thô thuộc tính d; các giá trị thuộc tính điều kiện Phương pháp: Vào: - Ma trận độ hỗ trợ Sup tại thời điểm t - Thuộc tính điều kiện a* được làm thô - Các giá trị w, y của a* được làm thô thành z 12 - Tìm 2 lớp Dw*, Dy* nào đó được kết hợp thành lớp mới Dz - Tính ... Định lý 3.1 1.2 Khai phá luật định Thuật toán tính gia tăng ma trận độ hỗ trợ để phát luật Khai phá luật định trình xác định luật định bổ sung, loại bỏ đối tượng khỏi bảng liệu có định bảng định. .. mục báo công bố tài liệu tham khảo Khác Chương 1: Trình bày tổng quan khai phá liệu, khai phá Phương pháp Liu luật định bảng liệu động, số khái niệm lý thuyết tập thô, luật định độ đo chúng Chương... mịn Khi luật định thu độ phức tạp thuật toán đề nghị trước bị thay đổi, không giá trị thời điểm Để thu luật định có ý nghĩa thời điểm mới, Chương KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN BẢNG DỮ LIỆU CÓ

Khai phá luật quyết định trên bảng dữ liệu động tt

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan