Truy vấn thống kê cơ sở dữ liệu một cách mềm dẻo dựa trên logic mờ

81 119 0
Truy vấn thống kê cơ sở dữ liệu một cách mềm dẻo dựa trên logic mờ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i ĐẠI HỌC THÁI NGUYÊN ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG ĐẶNG BÌNH NINH TRUY VẤN THỐNG KÊ CƠ SỞ DỮ LIỆU MỘT CÁCH MỀM DẺO DỰA TRÊN LOGIC MỜ GVHD: PGS.TS HỒ CẨM HÀ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN 2015 ii LỜI CAM ĐOAN Tôi xin cam đoan luận văn tự thân tơi tìm hiểu, nghiên cứu Các tài liệu tham khảo trích dẫn thích đầy đủ Nếu khơng tơi xin hồn tồn chịu trách nhiệm Tác giả luận văn Đặng Bình Ninh LỜI CẢM ƠN Trong thời gian nghiên cứu thực luận văn này, nhận giúp đỡ nhiệt tình quan, gia đình cá nhân Tôi xin bày tỏ lời cảm ơn sâu sắc tới tất tập thể, cá nhân tạo điều kiện giúp đỡ suốt trình thực nghiên cứu luận văn Trước hết xin trân trọng cảm ơn Ban Giám Hiệu, thầy giáo, giáo phòng Sau đại học trường Đại học Công Nghệ Thông Tin & Truyền Thông, thầy cô giáo, người trang bị kiến thức cho tơi suốt q trình học tập Đặc biệt, tơi xin bày tỏ kính trọng lòng biết ơn chân thành đến cô giáo - PGS TS Hồ Cẩm Hà, người tận tình hướng dẫn khoa học giúp đỡ tơi suốt q trình học tập, nghiên cứu hồn thành luận văn Tơi chân thành gửi lời cảm ơn đến cán bộ, giảng viên khoa Giáo dục Mầm Non, trường Đại học Hồng Đức, Thanh Hóa, nơi tơi cơng tác tạo điều kiện cơng việc để tơi hoàn thành luận văn Xin chân thành cảm ơn đến gia đình, người thân, bạn bè giúp đỡ động viên suốt thời gian học tập thời gian thực luận văn Do thời gian nghiên cứu có hạn, luận văn tơi khơng tránh khỏi thiếu sót, mong nhận đóng góp thầy giáo tồn thể bạn đọc Xin chân trọng cảm ơn! Thanh Hóa, ngày 08 tháng 10 năm 2015 TÁC GIẢ LUẬN VĂN Đặng Bình Ninh MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iii MỤC LỤC iv DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vi DANH MỤC CÁC BẢNG VÀ HÌNH VẼ vii MỞ ĐẦU CHƯƠNG I: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU 1.1 Cơ sở liệu truy vấn 1.1.1 Khái niệm sở liệu 1.1.2 Mơ hình CSDL quan hệ 1.1.2.1 Khóa quan hệ [1] 1.1.2.2 Phụ thuộc hàm 1.1.2.3 Đại số quan hệ 1.1.3 Các truy vấn mơ hình quan hệ 11 1.1.3.1 SQL 11 1.1.3.2 MySQL 13 1.1.3.3 SQL server 14 1.2 Ứng dụng lý thuyết tập mờ truy vấn CSDL 15 1.2.1 Tập mờ thông tin không chắn 15 1.2.1.1 Tập mờ [5] 15 1.2.1.2 Các kiểu hàm thuộc 16 1.2.2 Logic mờ 18 1.2.3 Lượng từ mờ 19 1.2.4 Ứng dụng logic mờ truy vấn CSDL 21 1.2.4.1 Cơ sở liệu mờ 21 1.2.4.2 Cơ sở liệu quan hệ 23 CHƯƠNG MỘT PHƯƠNG PHÁP TRUY VẤN THỐNG KÊ MỀM DẺO 25 2.1 Quan niệm truy vấn mềm dẻo logic mờ 25 2.1.1 Khái niệm truy vấn mềm dẻo 25 2.1.2 Một số ngôn ngữ truy vấn CSDL mềm dẻo [7] 26 2.2 Lượng từ hóa với ngơn ngữ tự nhiên 29 2.2.1 Lượng từ ngôn ngữ 29 2.2.2 Tóm tắt ngơn ngữ sử dụng logic mờ với lượng hóa ngơn ngữ tự nhiên 30 2.2.2.1 Giới thiệu mơ hình tón tắt SAITETIQ [7] 30 2.2.2.2 Tóm tắt ngơn ngữ theo phương pháp tiếp cận Yager 33 2.3 Protoforms – Một phương pháp xây dựng thống kê mềm dẻo 38 2.4 Một truy vấn mờ thêm vào phương tiện để thực thống kê ngôn ngữ tự nhiên 41 2.5 Mô tả trình truy vấn 43 2.5.1 Biểu thức truy vấn 43 2.5.2 Đánh giá truy vấn 45 2.5.3 Thuật toán lựa chọn 45 2.5.4 Phân loại 47 2.5.5 Từ tóm tắt đến câu trả lời 49 CHƯƠNG CÀI ĐẶT THỬ NGHIỆM 50 3.1 Mơ tả mơ hình giải pháp sử dụng truy vấn mềm dẻo 50 3.1.1 Mô hình truy vấn mềm dẻo 50 3.1.2 Giải pháp sử dụng truy vấn mềm dẻo 51 3.2 Nội dung thử nghiệm 52 3.2.1 Xác định miền tham chiếu xác định điều kiện mờ 53 3.2.2 Xử lý truy vấn 54 3.2.3 Lọc liệu 54 3.3 Thuật toán 54 3.4 Kết thực 59 KẾT LUẬN 65 TÀI LIỆU THAM KHẢO 66 Tiếng việt 66 Số hóa Trung tâm Học liệu ĐHTN tnu.edu.vn/ vi Tiếng anh 66 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Từ viết tắt Nghĩa tiếng anh Nghĩa tiếng việt DBMS Database Managemet System Hệ quản trị sở liệu FQUERY Fuzzy Query Công cụ truy vấn mờ LL Lower Limit Giới hạn UL Upper Limit Giới hạn CSDL Cơ sở liệu CNTT Cơng nghệ thơng tin Số hóa Trung tâm Học liệu ĐHTN tnu.edu.vn/ vii DANH MỤC CÁC BẢNG VÀ HÌNH VẼ Bảng 2.1: Năm loại tóm tắt 39 Bảng 2.2 Bảng quan hệ 48 Hình 1.1 Hàm thuộc hình thang 17 Hình 1.2 Hàm thuộc hình tam giác 18 Hình 1.3 Tập mờ Q Q* 20 Hình 2.1 Biến ngôn ngữ cho bảng VẬT LIỆU 31 Hình 2.2 Một phần bảng VẬT LIỆU 32 Hình 2.3 Một phần tóm tắt hệ thống phân cấp cho VẬT LIỆU 32 Hình 2.4 Ví dụ hàm thành viên giá trị mờ Error! Bookmark not defined Hình 2.5 Thành phần truy vấn mờ [8] 42 Hình 2.6 đoạn chương trình mơ [7] 47 Hình 3.1 Mơ hình truy vấn mềm dẻo 51 Hình 3.2 Hình minh họa việc nhập khái niệm mờ 54 Hình 3.3 Sơ đồ khối thuật tốn thiết lập thuộc tính mờ 56 Hình 3.4 Sơ đồ khối thuật toán cập nhật giá trị mờ 57 Hình 3.5 Sơ đồ khối thuật tốn thực câu lệnh truy vấn 58 Hình 3.6 Màn hình menu 59 Hình 3.7 Xác định miền tham chiếu 60 Hình 3.8 Nhập khái niệm mờ cho thuộc tính trẻ 60 Hình 3.9 Nhập khái niệm mờ cho thuộc tính cao 61 Hình 3.10 Chọn điều kiện để thực thống kê CSDL 62 Hình 3.11 Thực truy vấn hiển thị kết 63 Số hóa Trung tâm Học liệu ĐHTN tnu.edu.vn/ viii Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ MỞ ĐẦU Lý chọn đề tài Mơ hình sở liệu quan hệ Codd E.F đề xuất từ năm 1970 đạt kết hoàn chỉnh lý thuyết ứng dụng, mơ hình sở liệu quan hệ dùng phổ biến Với lượng liệu lưu trữ sở liệu, để tìm kiếm thơng tin hữu ích cần thiết cần phải sử dụng đến hệ thống tìm kiếm tự động dựa mơ hình sở liệu quan hệ với câu lệnh truy vấn cho phép người dùng truy xuất liệu sở liệu Nếu khơng có truy vấn liệu lưu trữ khơng thể sử dụng được, giống việc cất giữ đồ khơng thể tìm thấy khơng dùng đến việc lưu trữ trở nên vơ nghĩa Tuy nhiên mơ hình gặp số hạn chế trường hợp tìm kiếm thông tin mơ hồ, không đầy đủ, không chắn (gọi chung liệu mờ), loại liệu người sử dụng thường xuyên thực tế Ví dụ thay muốn có “Danh sách nhân viên có độ tuổi từ 25 đến 30 cơng ty” lại cần biết “Danh sách nhân viên trẻ có cơng trình khoa học cơng bố tạp chí uy tín giới”, là, thay kiểm tra xem “Có nhân viên khen thưởng” cần biết “Có phải hầu hết nhân viên có tiềm đào tạo nước ngồi hay khơng”… Đã có nhiều cơng trình nghiên cứu đưa nhiều cách tiếp cận với câu hỏi liên quan đến thông tin khơng đầy đủ, khơng xác sở liệu kinh điển (thường gọi hỏi mềm dẻo sở liệu) nhằm giải nhu cầu truy vấn tình nêu trên, đặc biệt câu hỏi mang tính thống kê để nhận định tình hình người làm quản lý Các cách xử lý loại truy vấn đề xuất chủ yếu dựa sở tiếp cận lý thuyết tập mờ, hầu hết cách tác giả xây dựng ngôn ngữ truy vấn với mong muốn thao tác mềm dẻo, xác với liệu mờ Và người tiên phong Số hóa Trung tâm Học liệu ĐHTN tnu.edu.vn/ lĩnh vực Lotfi A.Zadeh, ông đề xuất khái niệm mờ từ khái niệm mơ hồ, không rõ ràng, không chắn hình thức tốn học tập mờ (Fuzzy set), sở lý thuyết tập mờ hình thành Dựa lý thuyết tập mờ Lotfi A.Zadeh nhà khoa học tiếp cận phát triển theo nhiều hướng khác Chúng ta tìm thấy kết qua cơng trình D Dubois, H Prade, C.S George Lee, H.J Zimmermann, T.J Ross, R Fuller, J.J Buckley, R Kruse, D Nauck, N.K Kasabov, W Pedrycz, Và nhiều báo đăng tạp chí uy tín quốc tế như: “Querying a summary of database” W A Voglozin, G Raschia, L Ughetto, N Mouaddib, báo khác “Linguistic database summaries and their protoforms: towards natural language based knowledge discovery tools” Janusz Kacprzyk, Sławomir Zadrozny Trên sở lý thuyết thực tiễn nói trên, với ý nghĩa khoa học khả ứng dụng chủ đề đề cập đây, em chọn đề tài “Truy vấn thống kê sở liệu cách mềm dẻo dựa logic mờ” làm đề tài cho luận văn tốt nghiệp Đối tượng, phạm vi nghiên cứu * Đối tượng nghiên cứu: - Lý thuyết logic mờ mơ hình ứng dụng logic mờ - Truy vấn kết tập CSDL quan hệ * Phạm vi nghiên cứu: - Về mặt lý thuyết: Luận văn tập trung nghiên cứu kiến thức có liên quan đến logic mờ đặc biệt truy vấn mềm dẻo (mang tính ngơn ngữ) - truy vấn mờ - Về mặt ứng dụng: Cài đặt thử nghiệm module xử lý truy vấn mềm dẻo khai thác CSDL quản trị MS Access Hướng nghiên cứu đề tài - Tìm hiểu cách tiếp cận, quan điểm truy vấn mềm dẻo CSDL có Số hóa Trung tâm Học liệu ĐHTN tnu.edu.vn/ 56 Thuật Tthouậtátốnn 1:tThhuiậtếtốtn tính mờ tlhiậết plập tthuhộcutínộh mcờ Bắt đầu Lựa chọn thuộc tính cần thiết lập Cập nhật giá trị thuộc tính Cập nhật vào sở liệu Kết thúc Số hóa Trung tâm Học liệu ĐHTN tnu.edu.vn/ Hình 3.3 Sơ đồ khối thuật tốn thiết lập thuộc tính mờ Thuật tốn 2: Thuật tốn cập nhật giá trị mờ Thuật toán c5ậ7p nhật giá trị mờ Bắt đầu Lựa chọn trường (field) Số hóa Trung tâm Học liệu ĐHTN tnu.edu.vn/ Thêm quan hệ mờ Đúng Cập nhật thông tin quan hệ mờ Cập nhật vào sở liệu Sai Xóa quan hệ mờ Đúng Cập nhật vào sở liệu Sai Sửa Đúng Cập nhật thông tin quan hệ mờ Kết thúc Cập nhật vào sở liệu Sai Lựa chọn quan hệ mờ Hiển thị thông tin giá trị rời rạc có giá trị phụ thuộc lớn ngưỡng Cập nhật gía trị quan hệ mờ cho cho giá trị rời rạc chọn Lựa chọn giá trị rời rạc Hình 3.4 Sơ đồ khối thuật tốn cập nhật giá trị mờ Thuật toán 3: Thuật toán thực câu lệnh truy vấn mờ Số hóa Trung tâm Học liệu ĐHTN tnu.edu.vn/ 58 Thuật toán thực câu lệnh truy vấn mờ Bắt đầu Sai Cập nhật câu truy vấn mờ (fuzzy query) Kiểm tra cú pháp 59 Đúng Phân tích câu truy vấn mờ Dựa vào danh sách quan hệ mờ để chuyển câu truy vấn mờ thành câu truy vấn rõ Truy vấn sở liệu từ câu truy vấn rõ Hiển thị kết Kết thúc Hình 3.5 Sơ đồ khối thuật tốn thực câu lệnh truy vấn 3.4 Kết thực Dưới số hình ảnh chạy thử nghiệm chương trình ứng dụng FQUERY cho Access để xử lý câu truy vấn sử dụng từ ngữ mờ, gần gũi với ngôn ngữ tự nhiên người dùng Truy vấn thực mô là: “Hãy cho biết họ tên nhân viên tuổi trẻ có mức lương cao” Trong “tuổi” có đơn vị tính năm, “lương” tính theo đơn vị VNĐ Q trình truy vấn thực sau: Từ menu chính, người dùng lựa chọn modul “Miền tham chiếu” để khai báo thuộc tính mờ Hình 3.6 Màn hình menu Để xác định miền tham chiếu, người dùng phải nhập giá trị LL UL cho trường Tuổi Lương nhấn vào nút “cập nhật” Hình 3.7 Xác định miền tham chiếu Sau nhập khái niệm mờ cho hạng từ “trẻ” thuộc tính tuổi, hạng từ “cao” thuộc tính lương Và nhấn vào nút cấu hình để tính giá trị độ thuộc cho ghi với mức ngưỡng chọn ≥ 0.5 (như hình 3.8; 3.9) Hình 3.8 Nhập khái niệm mờ cho thuộc tính trẻ Hình 3.9 Nhập khái niệm mờ cho thuộc tính cao Nếu người dùng muốn thực phép thống kê CSDL nhấn nút “Thống kê” Sau nhấn nút lệnh “Thống kê” xuất cửa sổ cho phép người dùng chọn điều kiện để thực thống kê CSDL, người dùng lựa chọn hai cách thống kê hệ thống sau: - Cách 1: thống kê xác, cách cho phép hiển thị tồn ghi tìm sau thực truy vấn - Cách 2: thống kê mờ Cách thống kê biểu diễn lượng từ ngơn ngữ là: “rất ít”, “hầu hết” Kết đạt tỉ lệ % số ghi tìm (tùy theo người dùng chọn thống kê theo lượng từ ngôn ngữ nào) Nếu không muốn thực thống kê người dùng bỏ qua công đoạn cách nhấn nút Bỏ qua (xem hình 3.9) Hình 3.10 Chọn điều kiện để thực thống kê CSDL Cuối người dùng soạn câu lệnh truy vấn cách chọn điều kiện tuổi = trẻ AND lương = cao ô FIELD nhấn vào nút “Thêm điều kiện”, muốn thay đổi chọn nút “Xóa điều kiện” làm lại tương tự, sau nhấn nút CHẠY để thực truy vấn Hình 3.11 Thực truy vấn hiển thị kết Kết đạt danh sách nhân viên có tuổi trẻ trả lương cao, thỏa mãn điều kiện hiển thị lên hình (như hình 3.8) Nếu người dùng muốn xem kết thống kê CSDL nhấn vào nút Kết thống kê, danh sách thỏa mãn điều kiện hiển thị lên hình (yêu cầu người dùng phải thiết lập điều kiện cửa sổ thống kê mơ tả trên, thực lệnh này) CSDL xây dựng CSDL rõ, để đơn giản thực truy vấn rõ cách truyền thống Tuy nhiên luận văn đề cập đến phương pháp tiếp cận ứng dụng logic mờ vào truy vấn CSDL, nên thêm yếu tố mờ vào với mục đích đạt q trình truy vấn linh hoạt, mang tính mềm dẻo so với cách truy vấn thông thường Đối với truy vấn bình thường câu truy vấn thực có dạng tìm ghi thỏa điều kiện đó, ví dụ: tìm nhân viên có tuổi 27, truy vấn thống kê kết truy vấn dựa vào thống kê CSDL Việc ứng dụng logic mờ vào truy vấn thống kê thực truy vấn dựa khái niệm mờ “già”, “trẻ”, “cao” , lượng hóa ngơn ngữ “hầu hết”, “khoảng”, “rất ít” giúp cho người làm dùng có đánh giá khách quan, sát với thực tế trường hợp mà truy vấn rõ đưa câu trả lời xác, phù hợp Tuy nhiên điều kiện thời gian hạn chế nên chương trình thử nghiệm chưa nhấn mạnh yếu tố thống kê, mà chủ yếu thực truy vấn mờ để minh họa cho ý tưởng trình bày luận văn Như việc cài đặt thành cơng thuật tốn với ý tưởng chủ yếu thực dựa hai báo: Querying a summary of database; Linguistic database summaries and their protoforms: towards natural language based knowledge discovery tools tác giả Janusz Kacprzyk; Slawomir Zadrozny tác giả W.A Voglozin,G Raschia, L Ughetto, N Mouaddib, cho thấy tính linh hoạt, mềm dẻo ứng dụng logic mờ để xử lý hạng từ mờ, khái niệm mờ, ngôn ngữ tự nhiên người dùng trình truy vấn CSDL KẾT LUẬN Những kết thu từ để tài nghiên cứu: Sau thực đề tài “Truy vấn thống kê sở liệu cách mềm dẻo dựa logic mờ” thông qua việc tìm hiểu hai cách tiếp cận hai báo [5] [6], tác giả luận văn thu số kết sau: Phần làm được: - Tìm hiểu sở lý thuyết tập mờ logic mờ - Giới thiệu cách tiếp cận truy vấn mềm dẻo, linh hoạt CSDL - Cài đặt thành công ứng dụng nhỏ cho truy vấn mềm dẻo CSDL Phần chưa làm được: - Chưa có nhiều minh họa thể cho phần lý thuyết trình bày - Modul chương trình xây dựng mang tính chất thử nghiệm nên sơ sài, chưa làm bật ứng dụng logic mờ trình truy vấn, chưa đề cập đến truy vấn phần tập mờ nhận giá trị khoảng đến Hướng nghiên cứu tiếp theo: Tiếp tục nghiên cứu tìm hiểu thêm số cách tiếp cận khác việc ứng dụng logic mờ truy vấn mềm dẻo CSDL Phát triển chương trình ứng dụng lĩnh vực có liên quan TÀI LIỆU THAM KHẢO Tiếng việt [1] Hồ Thuần, Hồ Cẩm Hà, (2004), Các Hệ sở liệu lí thuyết thực hành, Nhà xuất Giáo dục [2] Nguyễn Cát Hồ, Nguyễn Cơng Hào, (2009), Giáo trình logic mờ ứng dụng Trường Đại học Khoa học Huế [3] phamminhkhoi, Khái niệm logic mờ, http://diendan.hocmai.vn/showthread.php?t=120021, 2010 [4] Lê Tiến Vương, (1996), Nhập môn sở liệu quan hệ, Nhà Xuất Khoa học kỹ thuật Hà Nội [5] Bernadette Bouchon, Meunier Hồ Thuần, Đặng Thanh Hà, (2007), Logic mờ ứng dụng, NXB Đại học quốc Gia Hà Nội Tiếng anh [6] W.A Voglozin,G Raschia, L Ughetto, N Mouaddib, (2006), Querying a summary of database, J Intell Inf Syst 26, 59-73 [7] Janusz Kacprzyk, Slawomir Zadrozny, (2005), Linguistic database summaries and their protoforms: towards natural language based knowledge discovery tools, Information Scienes 1973, 281-304 [8] Janusz Kacpryk, Slawomir Zadrozny, (2001), Computing with words in intelligent database querying: standalone and internet-based applications, Information Scienes 134, 71-109 [9] L Zadeh, (2002), A prototype-centered approach to adding deduction capabilities to search engines the concept of a protoforms, BISC Seminar, University of california, Berkelry [10] Henrik Legind, Larsen, (1999), An approach to flexible information access systems using soft computing, In Proceedings of the 32nd Hawaii Int, Conf on System Sciences, Vol6 [11] Bosc, Partrick, privert, Olivirt, (1994), Fuzzy queries and relational databases In Proceedings of the ACM Symposium on Applied Computing, (pp 170–174), Phoenix, AZ, USA [12] Rasmussen, Dan, Yager, RonaldR, (1997), SummarySQL—A fuzzy tool for data mining Intelligent Data Analysis, I 49-58 ... 1.2.4.2 Cơ sở liệu quan hệ 23 CHƯƠNG MỘT PHƯƠNG PHÁP TRUY VẤN THỐNG KÊ MỀM DẺO 25 2.1 Quan niệm truy vấn mềm dẻo logic mờ 25 2.1.1 Khái niệm truy vấn mềm dẻo 25 2.1.2 Một số... hoạt mềm dẻo công cụ truy vấn có hệ quản trị CSDL quan hệ Số hóa Trung tâm Học liệu ĐHTN tnu.edu.vn/ CHƯƠNG I: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU VÀ CÁC TRUY VẤN 1.1 Cơ sở liệu truy vấn 1.1.1 Khái niệm sở. .. tổng (Total query) - Truy vấn tham khảo chéo - Truy vấn tạo bảng - Truy vấn nối liệu - Truy vấn cập nhật liệu - Truy vấn xoá - Tạo mối quan hệ bảng - Truy vấn (Sub query) - Truy vấn hội (Union Query)

Ngày đăng: 31/12/2018, 19:13

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan