Nghiên cứu và phát hiện các phụ thuộc hàm mở rộng trong cơ sở dữ liệu theo cách tiếp cận tập thô

ĐẠI HỌC QUỐC GIA HÀ NỘI KHOA CÔNG NGHỆ PHAN TRÍ TUỆ NGHIÊN CỨU VÀ PHÁT HIỆN CÁC PHỤ THUỘC HÀM MỞ RỘNG TRONG CSDL THEO CÁCH TIẾP CẬN TẬP THÔ LUẬN VĂN THẠC SĨ HÀ NỘI - 2004 ĐẠI HỌC QUỐC GIA HÀ NỘI KHOA CÔNG NGHỆ LỜI CẢM ƠN Tôi xin chân thành cảm ơn Thầy giáo PGS.TS Hồ Thuần, người trực tiếp hướng dẫn hoàn thành luận văn tốt nghiệp thạc sĩ, thầy giáo TS Hà Quang Thuỵ,PHAN ngườiTRÍ TUỆ giúp đỡ việc hoàn thành luận văn, thầy cô Khoa Công nghệ, Đại học Quốc gia Hà nội, người tạo điều kiện thuận lợi cho cá nhân NGHIÊN CỨU VÀ học PHÁT học viên khác trình tập HIỆN CÁC PHỤ THUỘC HÀM MỞ RỘNG TRONG CSDL THEO CÁCH TIẾP CẬN TẬP THÔ Học viên Chuyên ngành: Công nghệ thông tin Mã số: 1.01.10 Phan Trí Tuệ LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS HỒ THUẦN HÀ NỘI - 2004 MỤC LỤC BẢNG KÝ HIỆU: MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC TRONG CƠ SỞ DỮ LIỆU TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC TRONG CƠ SỞ DỮ LIỆU 1.1 PHÁT HIỆN TRI THỨC TRONG CƠ SỞ DỮ LIỆU 1.2 QUÁ TRÌNH PHÁT HIỆN TRI THỨC TRONG CƠ SỞ DỮ LIỆU 1.3 MỘT SỐ VẤN ĐỀ CỦA VIỆC PHÁT HIỆN TRI THỨC TRONG CƠ SỞ DỮ LIỆU 12 CÁC PHƯƠNG THỨC KHAI PHÁ DỮ LIỆU 14 2.1 2.2 NHỮNG NHIỆM VỤ CHÍNH CỦA KHAI PHÁ DỮ LIỆU 14 CÁC THÀNH PHẦN CỦA THUẬT TOÁN KHAI PHÁ DỮ LIỆU 15 KẾT LUẬN 17 CHƯƠNG 2: LÝ THUYẾT TẬP THÔ 19 HỆ THÔNG TIN VÀ TẬP THÔ 20 1.1 MỘT SỐ KHÁI NIỆM CHUNNG 20 1.1.1 KHÁI NIỆM VỀ HỆ THÔNG TIN 20 1.2 TẬP THÔ TRONG KHÔNG GIAN XẤP XỈ 22 1.2.1 TẬP XẤP XỈ TRÊN, XẤP XỈ DƯỚI VÀ MIỀN BIÊN 22 1.2.2 ĐỘ CHÍNH XÁC CỦA VIỆC XẤP XỈ 24 1.2.3 HÀM THÀNH VIÊN THÔ 25 1.2.4 SỰ PHỤ THUỘC GIỮA CÁC THUỘC TÍNH 25 1.3 VẤN ĐỀ RÚT GỌN CÁC THUỘC TÍNH: 26 1.4 CÁC LUẬT QUYẾT ĐỊNH 27 MỘT SỐ ỨNG DỤNG CỦA MÔ HÌNH TẬP THÔ 29 2.1 DỰ BÁO THẤT BẠI KINH DOANH 30 2.2 NGHIÊN CỨU THỊ TRƯỜNG QUA CƠ SỞ DỮ LIỆU (DATABASE MARKETING) 32 2.3 ĐẦU TƯ TÀI CHÍNH 33 MỘT SỐ VẤN ĐỀ KHI THỰC HIỆN MÔ HÌNH TẬP THÔ 35 3.1 3.2 3.3 LỰA CHỌN CÁC CHỈ DẪN, THUỘC TÍNH: 35 PHÂN ĐOẠN DỮ LIỆU 36 KIỂM TRA THẨM ĐỊNH CÁC KẾT QUẢ: 37 KẾT LUẬN 38 CHƯƠNG 3: CƠ SỞ DỮ LIỆU QUAN HỆ VÀ PHỤ THUỘC HÀM MỞ RỘNG 39 CƠ SỞ DỮ LIỆU QUAN HỆ 39 1.1 MỘT SỐ KHÁI NIỆM CĂN BẢN 39 1.2 PHỤ THUỘC HÀM 41 1.2.1 PHỤ THUỘC HÀM 41 1.2.2 HỆ TIÊN ĐỀ ARMSTRONG CHO PHỤ THUỘC HÀM 41 1.2.3 KHOÁ 42 1.3 BÀI TOÁN CHUẨN HOÁ CÁC QUAN HỆ 43 1.3.1 CÁC DẠNG CHUẨN QUAN HỆ 43 1.3.2 CÁC THUẬT TOÁN CHUẨN HÓA 44 CÁC TIÊN ĐỀ CỦA ARMSTRONG TRÊN PHỤ THUỘC HÀM MỞ RỘNG THEO CÁCH TIẾP CẬN TẬP THÔ 46 2.1 2.2 2.3 2.4 MỘT SỐ ĐỊNH NGHĨA 46 TIÊN ĐỀ THỨ HAI CỦA ARMSTRONG 47 TIÊN ĐỀ THỨ BA CỦA ARMSTRONG 48 MỘT SỐ VÍ DỤ 50 THUẬT TOÁN PHÁT HIỆN CÁC PHỤ THUỘC HÀM MỞ RỘNG 52 3.1 MỘT SỐ ĐỊNH NGHĨA VÀ BỔ ĐỀ SỬ DỤNG TRONG THUẬT TOÁN 52 3.1.1 CÁC PHÂN HOẠCH VÀ CÁC PHỤ THUỘC 53 3.1.2 VẤN ĐỀ TÌM KIẾM 55 3.2 THUẬT TOÁN 61 3.2.1 THUẬT TOÁN CHÍNH: 61 3.2.2 THỦ TỤC SINH MỨC 62 3.2.3 TÍNH CÁC PHỤ THUỘC 64 3.2.4 THU GỌN 65 3.2.5 TÍNH CÁC PHÂN HOẠCH 66 3.2.6 THỦ TỤC TÍNH SAI SỐ E 69 3.3 ĐÁNH GIÁ 70 THỬ NGHIỆM VÀ ĐÁNH GIÁ 72 4.1 XÂY DỰNG CHƯƠNG TRÌNH PHẦN MỀM 72 4.1.1 LỰA CHỌN HỆ ĐIỀU HÀNH, CÔNG CỤ LẬP TRÌNH 72 4.1.2 MỘT SỐ YÊU CẦU ĐỐI VỚI CHƯƠNG TRÌNH PHẦN MỀM 72 4.2 THỬ NGHIỆM 73 4.2.1 LỰA CHỌN BÀI TOÁN THỬ NGHIỆM 73 4.2.2 QUÁ TRÌNH THỬ NGHIỆM: 74 4.2.3 CÁC KẾT QUẢ THỬ NGHIỆM 77 4.2.4 ĐÁNH GIÁ: 78 KẾT LUẬN 80 TÀI LIỆU THAM KHẢO 82 TÀI LIỆU TIẾNG VIỆT 82 TÀI LIỆU TIẾNG ANH 82 BẢNG KÝ HIỆU: Chữ viết tắt Giải thích 1NF First normal form 2NF Second normal form 3NF Third normal form AFD Approximate Functional Dependency BCNF Boyce-Codd Normal Form CSDL Cơ sở liệu KDD Knowledge Discovery in database MỞ ĐẦU Cùng với phát triển ngành Công nghệ Thông Tin, nhà quản lý không mong muốn có hệ thống cung cấp thông tin xác, kịp thời, mà mong muốn có hệ thống thông minh hỗ trợ họ nhiều việc phân tích, đánh giá thông tin Đó nguyên nhân quan trọng cho đời lĩnh vực phát tri thức sở liệu Phát tri thức sở liệu lĩnh vực rộng, bao gồm nhiều vấn đề nhà khoa học nghiên cứu xem xét Một vấn đề mà phát tri thức quan tâm đến phát mối ràng buộc có liệu, nội dung luận văn Trong luận văn mình, tiến hành nghiên cứu phụ thuộc hàm mở rộng sở tập thô, nghiên cứu phát triển thuật toán hiệu để tìm kiếm phụ thuộc hàm sở cải tiến thuật toán Tane, thuật toán đánh giá cao khả tìm kiếm nhanh chóng phụ thuộc hàm liệu Nội dung trình bày thể ba chương: - Chương I: trình bày vấn đề tổng quan phát tri thức sở liệu - Chương II: trình bày vấn đề tập thô ứng dụng - Chương III: trình bày vấn đề phụ thuộc hàm mở rộng, kiểm tra tính chất hệ tiên đề Armstrong phụ thuộc hàm này, nghiên cứu thuật toán tìm kiếm phụ thuộc hàm mở rộng, đề xuất cải tiến thuật toán, xây dựng chương trình thử nghiệm đánh giá kết Trong phần kết luận: tổng kết lại kết đạt luận văn đưa đề xuất hướng phát triển thuật toán tìm kiếm phụ thuộc hàm mở rộng tương lai Chương TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC TRONG CƠ SỞ DỮ LIỆU 1.1 TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC TRONG CƠ SỞ DỮ LIỆU Phát tri thức sở liệu Trong thập kỉ trước, loài người tập hợp khối lượng vô lớn liệu nhiều lĩnh vực khác Bằng việc sử dụng kỹ thuật thống kê kết hợp với công cụ quản trị tệp, nhiều công ty đạt thành công định việc phân tích lượng liệu Tuy nhiên, kích cỡ kho liệu tốc độ xử lý liệu đòi hỏi cần phải có cách tiếp cận để xử lý liệu Một hệ kỹ thuật công cụ thông minh hỗ trợ người việc phân tích, tìm kiếm tri thức đời Những kỹ thuật, công cụ thuộc vào lĩnh vực phát triển Công nghệ thông tin gọi phát tri thức sở liệu (KDD) Thông thường, liệu hiểu dãy bits, số ký hiệu, khi, tri thức xem liệu tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ hiểu, phát hiện, học Nói cách khác, tri thức coi liệu có độ trừu tượng tổ chức cao Hiện có số định nghĩa khác phát tri thức sở liệu Trong luận văn này, sử dụng định nghĩa KDD Frawley,v PiatetskyShapior Matheus năm 1991 “Phát tri thức sở liệu trình nhận dạng mô hình hiểu được, có lợi ích tiềm ẩn, khác thường, có giá trị liệu” Trong đó: Hình 1: tập liệu đơn giản với lớp - Dữ liệu: tập nhân tố F Trong ví dụ đưa hình 1, F bao gồm 23 trường hợp thể giá trị nợ, thu nhập, trạng cho vay - Mẫu: biểu thức E ngôn ngữ L dùng để mô tả yếu tố tập FE F E gọi mô hình đơn giản so với việc liệt kê tất yếu tố FE Ví dụ, mô hình “ thu nhập < $t người ngầm định vay nợ” mô hình cho việc lựa chọn tương ứng t Mô hình minh hoạ hình 2: Nợ t$ Thu nhập Hình 2: Sử dụng ngưỡng giá trị thu nhập để phân lớp liệu cho vay nợ - Quá trình: thông thường trình KDD trình nhiều bước, bao gồm việc chuẩn bị số liệu, tìm kiếm mô hình, đánh giá tri thức, làm mịn liệu sau hiệu chỉnh - Có giá trị: mô hình phát có giá trị với liệu với độ chắn tương đối - Khác thường: mô hình khác bình thường Sự khác thường đo thay đổi liệu ( cách so sánh giá trị với giá trị khứ, giá trị mong muốn) - Lợi ích tiềm ẩn: mô hình tiềm ẩn khả có ích chúng đo hàm tiện ích - Có thể hiểu đầy đủ: mục tiêu KDD tạo mô hình hiểu để người dễ dàng việc nắm bắt thông tin có liệu Điều khó để đo lường cách tường minh, thường thay độ đo đơn giản Hiện có nhiều độ đo đơn giản sử dụng, chúng bao gồm các độ đo tuý (dựa kích cỡ mô hình theo bit) ngữ nghĩa Trên sở định nghĩa đưa định nghĩa khai phá liệu trình KDD - Khai phá liệu bước trình KDD bao gồm thuật toán khai phá liệu, theo số qui định hiệu tính toán chấp nhận để tìm mẫu mô hình liệu Lưu ý rằng, không gian mô hình thường hữu hạn việc liệt kê mô hình bao gồm việc tìm kiếm không gian - Quá trình KDD trình sử dụng phương thức khai phá liệu (thuật toán) để tìm (xác định) cho tri thức theo mô tả độ đo ngưỡng, sử dụng Cơ sở liệu F với vài tiền tiến trình xử lý, lấy mẫu, chuyển đổi F cần thiết 69 Thủ tục giả sử bảng T khởi tạo với giá trị NULL trước kết thúc, thủ tục xoá T NULL Sau đó, bảng T dùng mà không cần khởi tạo lại 10.2.6 Thủ tục tính sai số e Trước thực thủ tục tính toán này, thuật toán kiểm e theo giới hạn e phần Thủ tục e: Đầu vào: phân hoạch thu gọn ^X  ^X {A} ngưỡng sai số e_threshold Đầu ra: e (X->A) 10 11 e:=0 For each c   ^X {A} Chọn t  c T[t] := |c| For each c   ^X m :=1 For each t  c m: = max{m,T[t]} e:= e+|c| -m If e > e_threshold then return Reset T Return e/|r| Mảng T phải khởi tạo với giá trị Thủ tục có khác biệt dòng so với thủ tục thuật toán TANE, rõ ràng không cần thiết phải tiếp tục kiểm tra số lỗi vượt qua ngưỡng cho phép Với t bất kỳ, tồn C D cho t  C với C   ^X {A} t  D với D   ^X Do  ^X {A} tinh chế  ^X nên C  D  |D|  |C| Từ đó, ta có |c| -m  Do đó, giá trị e dòng tăng lên không giảm Dẫn đến, việc kết thúc kiểm tra e > e_threshold không làm sai lệch kết so với thủ tục tính e thuật toán TANE 70 Bằng việc cải tiến này, thời gian tính toán giá trị e đáng kể so với thuật toán ban đầu 10.3 Đánh giá Thuật toán dựa dựa thuật toán TANE, độ phức tạp thời gian không gian không khác so với thuật toán TANE, Tuy nhiên, thực tế hoạt động tốt thuật toán TANE bổ sung thêm số kiểm tra mang tính kinh nghiệm nhằm giảm lược xử lý không cần thiết Độ phức tạp thời gian không gian thuật toán phụ thuộc vào số lượng tập mức Lt, gọi kích thước mức Lấy S max kích thước mức lớn s tổng số kích thước mức Trong trường hợp xấu nhất, s = O( 2|R|) smax = O(2 |R| / | R | ) Một yếu tố khác số lượng khoá, ký hiệu k Trong trường hợp xấu k = O(smax) = O (2 |R| / | R | ) Trong trình tính toán, phân hoạch s sinh Độ phức tạp thời gian để tính toán phân hoạch O (s|r|) Không tính việc quản lý phân hoạch, thời gian thực thuật toán bị ảnh hưởng truy nhập ngẫu nhiên (không tuyến tính) tới mức Lt Trong trình, thủ tục COMPUTE_DEPENDENCIES thực O(s|R|) truy nhập ngẫu nhiên dòng 2, thủ tục PRUNE: O( k |R2|) truy nhập ngẫu nhiên dòng thủ tục GENERATE_NEXT_LEVEL O(s|R|) truy nhập ngẫu nhiên dòng 12 Thời gian truy nhập phụ thuộc vào việc thực mức Lt, việc sử dụng mảng hậu tố, thời gian truy nhập O(|R|+log(Lt)) , có độ phức tạp O (|R|) |Lt|  2|R| Mảng hậu tố cho Lt xây dựng với thời gian O(|Lt||R|) Từ đó, thuật toán có độ phức tạp thời gian O( s|r|+|R|2+ k |R|3) Thuật toán phải trì tối đa mức thời điểm, nên độ phức tạp không gian O(smax(|r|+|R|)) 71 Bổ đề đưa cận độ phức tạp thời gian không gian dựa kích thước đầu vào Bổ đề 11 Độ phức tạp thời gian thuật toán bị chặn O ((|r|+|R|2.5) 2|R|) độ phức tạp không gian ((|r|+|R|)2|R|/ | R | ) [7][9]10] Chứng minh: Việc kiểm tra phụ thuộc xấp xỉ có độ phức tạp O(|r|) Do đó, độ phức tạp thời gian để tìm kiếm phụ thuộc mở rộng với thuật toán O(v|r| +s|R|2 + k|R|3) đó, v số lần kiểm tra Trong trường hợp xấu nhất, v= s|R|/2 = O(|R|*2|R|) đó, độ phức tạp thời gian là: O ((|r||R| +|R|2.5) 2|R|) 72 11 THỬ NGHIỆM VÀ ĐÁNH GIÁ 11.1 Xây dựng chương trình phần mềm 11.1.1 Lựa chọn hệ điều hành, công cụ lập trình - Hệ điều hành: phần mềm chạy hệ điều hành Microsoft: Windows 98, Windows 2000, Windows Xp, Windows 2003 Các hệ điều hành quen thuộc thuận tiện với người sử dụng - Công cụ lập trình: lựa chọn sử dụng công cụ lập trình Visual C++ 6.0 để xây dựng phần mềm Bộ công cụ cho phép xây dựng chương trình ngôn ngữ C++ việc tạo giao diện đồ hoạ cho chương trình không phức tạp Các chương trình viết công cụ có thểtận dụng tối đa lực hệ thống khả tối ưu mã lệnh tốt công cụ - Hệ quản trị sở liệu: sử dụng hệ quản trị sở liệu Oracle 8i để lưu trữ thông tin đầu vào Việc sử dụng sở liệu Oracle 8i cho phép lưu trữ khối lượng lớn ghi Ngoài ra, chương trình tận dụng số khả hỗ trợ thao tác liệu Oracle để giảm bớt thời gian tính toán ban đầu 11.1.2 Một số yêu cầu chương trình phần mềm - Sử dụng giao diện đồ hoạ - Cho phép người dùng lựa chọn bảng liệu cần xử lý - Cho phép người dùng lựa chọn vài tất trường bảng liệu để xử lý - Cho phép người dùng đặt giá trị ngưỡng sai số  - Cho phép người dùng xem báo cáo kết lưu trữ chúng 73 11.2 Thử nghiệm 11.2.1 Lựa chọn toán thử nghiệm Hiện nay, Tổng công ty Bưu Viễn thông Việt nam (VNPT) có khối lượng lớn thông tin khách hàng thông tin cá nhân, thông tin trình toán, thông tin đo kiểm chất lượng dịch vụ cung cấp… Vấn đề khai thác cách hiệu thông tin yêu cầu cần thiết VNPT Trong luận văn này, thực việc tìm phụ thuộc hàm phụ thuộc hàm mở rộng có bảng thông tin cá nhân khách hàng Kết áp dụng để - Thực việc chuẩn hoá liệu sở phụ thuộc hàm - Cho nhà quản lý thấy mối liên hệ tiềm tàng có vài tập thuộc tính đó, để từ đó, họ định quản lý tốt - Ngoài ra, thông tin đầu vào cho hệ hỗ trợ định khác 74 11.2.2 Quá trình thử nghiệm: a Kết nối vào csdl: 75 b Giao diện chọn bảng liệu danh sách trường 76 c Giao diện tải liệu: 77 11.2.3 Các kết thử nghiệm Chúng thực thử nghiệm phần mềm với bảng liệu khách hàng có khoảng 80.000 ghi Để đảm bảo tính riêng tư thông tin cá nhân, tiến hành biến đổi thông tin thực tế thành thông tin có giá trị tương đương Sau bảng kết thử nghiệm: 78 Kết e=0.0 Kết với e=0.3 11.2.4 Đánh giá: Kết thử nghiệm kiểm tra lại công cụ SQL khẳng định độ xác Một phần thời gian không nhỏ toàn trình tìm kiếm thời gian dành cho việc load liệu từ bảng (do bảng sẵn trường id tăng nhất) phải xếp liệu theo thuộc tính Tốc độ chương trình cải thiện nhiều có sẵn index theo trường lựa chọn 79 Chương trình thử nghiệm hoàn toàn thoả mãn yêu cầu đặt phần trước, thể đầy đủ thuật toán trình bày Chương trình hoàn toàn sử dụng thực tế 80 KẾT LUẬN Phụ thuộc hàm mở rộng khái niệm nhà khoa học phát triển thời gian gần đây, phụ thuộc hàm mở rộng cho phép người dùng có nhìn đầy đủ liệu mà họ có Việc tìm kiếm phụ thuộc hàm mục tiêu phát tri thức sở liệu, vấn đề hàng đầu nhà quản lý, nhà khoa học quan tâm Trong luận văn này, thực việc tiếp cận phụ thuộc hàm mở rộng theo hướng tập thô, xem xét tính đắn hệ tiên đề Armstrong cho phụ thuộc hàm Để thực việc tìm kiếm phụ thuộc hàm mở rộng quan hệ, đề xuất thuật toán tìm kiếm Thuật toán dựa sở thuật toán TANE, nhiên thực số cải tiến để nâng cao hiệu tìm kiếm: - Giảm lược thời gian sinh mức việc bổ sung điều kiện số lượng tối thiểu tập same_prefix mà tập cần có trước xử lý - Giảm lược thời gian tính sai số e cách kết thúc thủ tục tính lỗi phát giá trị vượt ngưỡng cho phép Trong chương III, đưa sở để chứng minh cho tính đắn cải tiến Trên sở thuật toán đề xuất, tiến hành cài đặt chạy thử nghiệm chương trình với kết khả quan Trong thời gian tới, tiếp tục thực việc cải tiến thuật toán tìm kiếm phụ thuộc hàm để đạt hiệu cao 81 - Thứ nhất, hướng đến việc tìm cách xây dựng thuật toán xử lý song song, nhằm cho phép phần mềm xử lý lượng liệu lớn nhiều lần thời gian chấp nhận - Thứ hai, nay, phân hoạch tính tạo mức việc tốn lượng thời gian lớn, tất phân hoạch sử dụng Chúng tiếp tục nghiên cứu việc giảm bớt việc tính toán phân hoạch không cần thiết 82 TÀI LIỆU THAM KHẢO TÀI LIỆU TIẾNG VIỆT Hà Quang Thuỵ (1996) Một số vấn đề không gian xấp xỉ, tập thô hệ thông tin Luận án Phó Tiến sĩ Khoa học Toán Lý ĐHKHTN, 1996 Vũ Đức Thi (1997), Cơ sở liệu – kiến thứcvà thực hành, nhà xuất thống kê, Hà nội TÀI LIỆU TIẾNG ANH Catharine Wyss, Chris Giannella, Edward Robertson, FastFDs: A heuristicdriven, depth-first algorithm for mining functional dependencies from relational instances, http://www.cs.indiana.edu/pub/techreports/TR551.pdf Francis E.H Tay, Lixiang Shen (2002), Economic and financial prediction using rought sets model, European journal of Operational Research, pp 641659 Peter A Flach, Iztok Savnik (1999), Database dependency discovery: a machine learning approach, AI Communications, Volume 12, pp 139 – 160 Laurentin B Cristofor (08-05-2000), A rough sets based generalization of functional dependencies, http://www.citeseer.ist.psu.edu/context/338890/0 Ronald S King, James J.Legendre (2003), Discovery of Functional and Approximate Functional Dependencies in Relational Database, Journal of Applied mathematics and decision sciences, pp 49-59 Stephane Lopes, Jean-Marc Petit, lotfi lakhal (2000), Efficient discovery of functional dependencies and Amrstrong Relations, Proceedings of the International Conference on Extended Database and Technology (EDBT'00), Lecture Notes in Computer Science, volume 1777, pp 350-364 83 Yka Huhtala, Juha Karkkainen, Pasi Porkka, Hannu Toivonen (1997), Efficient discovery of funtional and approximate dependencies using partitions (extented version), University of Helsinki 10 Yka Huhtala, Juha Karkkainen, Pasi Porkka, Hannu Toivonen (1999), Tane: an efficient discovery of funtional and approximate dependencies, The Computer Journal, vol 42, no 11 Zdzislaw Pawlak, Andrzej Skowron (1996), Rough set ruidiments, Institute of Computer Science Report, Warsaw University of Technology, Poland [...]... Sự phụ thuộc giữa các thuộc tính Một vấn đề quan trọng trong việc phân tích dữ liệu là việc phát hiện những sự phụ thuộc giữa các thuộc tính Một tập các thuộc tính D phụ thuộc toàn vào một tập các thuộc tính C được ký hiệu C  D, nếu tất cả các giá trị thuộc tính từ D được xác định duy nhất bởi các giá trị thuộc tính trong C Nói cách khác D phụ thuộc hoàn toàn vào C, nếu tồn tại phụ thuộc hàm giữa các. .. chính xác của các dự báo chỉ ra rằng, cách tiếp cận tập thô là một hướng tốt cho việc dự báo hoạt động của các công ty 32 5.2 Nghiên cứu thị trường qua cơ sở dữ liệu (Database Marketing) Nghiên cứu thị trường qua cơ sở dữ liệu là một khái niệm rộng liên quan đến cách suy nghĩ và hành động, nó bao gồm các ứng dụng của các công cụ và phương thức trong các nghiên cứu và các vấn đề liên quan đến các công ty,... đề của việc phát hiện tri thức trong cơ sở dữ liệu Các thuật toán khai phá dữ liệu trong KDD thường phải tiến hành tìm kiếm trên toàn bộ không gian của các dữ liệu, do đó kích cỡ của các cơ sở dữ liệu cũng là một vấn đề đáng quan tâm Các cơ sở dữ liệu với hàng trăm trường và bảng, hàng triệu bản ghi, có dung lượng nhiều gigabyte xuất hiện trong hầu hết các đơn vị quy mô lớn Những cơ sở dữ liệu cỡ terabyte... lượng các luật thi hành Dưới đây là một số bước cơ bản trong quá trình phát hiện tri thức trong cơ sở dữ liệu: - Tìm hiểu rõ phạm vi ứng dụng: những tri thức có liên quan trước đây, các mục đích của người sử dụng, - Tạo lập tập dữ liệu đích: chọn ra một tập dữ liệu, hoặc tập trung vào một tập con các biến hoặc các mẫu dữ liệu mà trên đó cần phải phát hiện ra các tri thức - Quá trình làm sạch dữ liệu: các. .. nhật các mẫu và sử dụng chúng để tìm kiếm chỉ các mẫu biến đổi Đối với các cơ sở dữ liệu thương mại vấn đề dữ liệu nhiễu và thiếu được đặc biệt quan tâm, đây là một vấn đề đặc biệt nhậy cảm Theo thống kê, tỷ lệ sai sót trong các cơ sở 13 dữ liệu thương mại có thể lên tới 20% Các thuộc tính quan trọng có thể bị thiếu nếu cơ sở dữ liệu không được thiết kế theo xu hướng có sử dụng các phương pháp phát hiện. .. đời và phát triển của lĩnh vực phát hiện tri thức trong cơ sở dữ liệu (KDD) là tất yếu và thực sự cần thiết, vì KDD bao gồm một thế hệ các kỹ thuật mới và công cụ thông minh để hỗ trợ con người trong việc phân tích, tìm kiếm tri thức một cách nhanh chóng và hiệu quả trong các kho dữ liệu khổng lồ mà con người hiện có 19 Chương 2 LÝ THUYẾT TẬP THÔ Hiện nay có nhiều kỹ thuật được sử dụng để phát hiện. .. phụ thuộc: bao gồm việc tìm mô hình để mô tả sự phụ thuộc giữa các biến Các mô hình phụ thuộc tồn tại có hai mức: mức cấu trúc mô tả mô hình trong đó các biến là phụ thuộc cục bộ với nhau, và mức định lượng của các mô hình mô tả các các phụ thuộc sử dụng một số quy mô xác định Ví dụ , các mạng phụ thuộc xác suất thường dùng để mô tả các khía cạnh cấu trúc hoá của mô hình và xác suất Các mạng phụ thuộc. .. những dữ liệu này sẽ là nền tảng cho các nghiên cứu khoa học ứng dụng trong tương lai Đặc biệt, trong lĩnh vực kinh doanh, các dữ liệu được tích luỹ này càng có ý nghĩa quan trọng, nó hàm chứa các thông tin về các thị trường, về các đối thủ, và về các khách hàng, các thông tin về sản xuất, về vận hành và các khả năng tối ưu, cũng như các giải pháp chủ yếu để cải tiến các qui trình và giải quyết các sự... sử dụng trong các cơ sở dữ liệu quan hệ D là phụ thuộc hoàn toàn (hay một phần) vào C nếu tất cả (một số) phần tử của tập tổng thể có thể được phân loại duy nhất thành các khối của phân hoạch U/D, sử dụng C 4.3 Vấn đề rút gọn các thuộc tính: Do ảnh hưởng của các dữ liệu trong thế giới thực và quá trình tập hợp dữ liệu, một hệ thông tin thường có thể chứa những thông tin không cần thiết Các thông tin... al và Shen et al thực hiện 14 2 CÁC PHƯƠNG THỨC KHAI PHÁ DỮ LIỆU Thành phần khai phá dữ liệu trong quy trình KDD chủ yếu liên quan đến việc phát hiện và liệt kê ra các mẫu từ dữ liệu Thành phần phát hiện tri thức thực hiện việc đánh giá và phân tích ý nghĩa của các mẫu để đi tới các quyết định mẫu nào có ý nghĩa và mẫu nào không Nó còn bao gồm việc lựa chọn các lược đồ mã hóa, tiền xử lý dữ liệu, và ... ngữ phụ thuộc hàm mở rộng để “Approximate Functional Dependency” Trong phần này, trình bày phụ thuộc hàm mở rộng theo cách tiếp cận tập thô kiểm chứng hệ tiên đề Armstrong phụ thuộc hàm mở rộng. .. tìm kiếm phụ thuộc hàm mở rộng tương lai 6 Chương TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC TRONG CƠ SỞ DỮ LIỆU 1.1 TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC TRONG CƠ SỞ DỮ LIỆU Phát tri thức sở liệu Trong thập... MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC TRONG CƠ SỞ DỮ LIỆU TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC TRONG CƠ SỞ DỮ LIỆU 1.1 PHÁT HIỆN TRI THỨC TRONG CƠ SỞ DỮ LIỆU

Nghiên cứu và phát hiện các phụ thuộc hàm mở rộng trong cơ sở dữ liệu theo cách tiếp cận tập thô

Thông tin tài liệu

Từ khóa liên quan

Mục lục

Trang bìa

Bìa phụ

MỤC LỤC

BẢNG KÝ HIỆU

MỞ ĐẦU

Chương 1. TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC TRONG CƠ SỞDỮ LIỆU

1. TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC TRONG CƠ SỞ DỮ LIỆU

1.1. Phát hiện tri thức trong cơ sở dữ liệu

12 Quá trình phát hiện tri thức trong cơ sở dữ liệu

13 Một số vấn đề của việc phát hiện tri thức trong cơ sở dữ liệu

2 CÁC PHƯƠNG THỨC KHAI PHÁ DỮ LIỆU

2.1. Những nhiệm vụ chính của khai phá dữ liệu

2.2. Các thành phần của thuật toán khai phá dữ liệu

3. KẾT LUẬN

Chương 2. LÝ THUYẾT TẬP THÔ

4. HỆ THÔNG TIN VÀ TẬP THÔ

4.1. Một số khái niệm chunng

4.1.1. Khái niệm về hệ thông tin

4.2. Tập thô trong không gian xấp xỉ

4.2.1. Tập xấp xỉ trên, xấp xỉ dưới và miền biên

Tài liệu cùng người dùng

Tài liệu liên quan