Nghiên cứu một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ

81 510 0
Nghiên cứu một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẢM ƠN Em xin chân thành cảm ơn biết ơn sâu sắc đến GS.TS Vũ Đức Thi, Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Việt Nam Người tận tình dày công hướng dẫn giúp đỡ em hoàn thành luận văn Em xin chân thành cảm ơn Thầy Viện Công nghệ Thông tin dạy bảo, giúp đỡ truyền đạt kiến thức cho em suốt khóa học, suốt trình em làm luận văn Em xin chân thành cảm ơn Thầy, Cô trường Đại học Công nghệ Thông tin Truyền thông Thái Nguyên động viên, giúp đỡ tạo điều kiện cho em suốt thời gian học tập nghiên cứu Cuối xin chân thành cảm ơn bàn bè, người thân gia đình người đồng hành, động viên, chia sẻ khó khăn suốt thời gian hoàn thành luận văn Thái Nguyên, tháng 08 năm 2013 Nguyễn Quỳnh Lan LỜI CAM ĐOAN Tôi xin cam đoan luận văn sản phẩm tìm hiểu, nghiên cứu Một số Định nghĩa, Định lý, Tính chất, Mệnh đề Thuật toán lấy từ nguồn tài liệu xác có trích dẫn tên tài liệu tên tác giả rõ ràng Tôi xin chịu trách nhiệm luận văn Tác Giả Nguyễn Quỳnh Lan i MỤC LỤC MỤC LỤC .i Danh mục thuật ngữ iii Bảng ký hiệu, từ viết tắt iv Danh sách bảng v MỞ ĐẦU Chương TỔNG QUAN VỀ BẢNG QUYẾT ĐỊNH ĐẦY ĐỦ VÀ BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ 1.1 Bảng định đầy đủ 1.2 Hệ thông tin .3 1.3 Hệ thông tin đầy đủ mô hình tập thô truyền thống 1.3.1 Hệ thông tin đầy đủ 1.3.2 Mô hình tập thô truyền thống 1.3.3 Tập rút gọn tập lõi 1.4 Hệ thông tin không đầy đủ mô hình tập thô dung sai .9 1.4.1 Hệ thông tin không đầy đủ 1.4.2 Bảng định không đầy đủ .11 1.4.3 Tập rút gọn bảng định không đầy đủ 11 1.5.Rút gọn thuộc tính bảng định đầy đủ sử dụng metric .12 1.5.1 Metric họ tri thức tính chất 12 1.5.1.1 Khoảng cách Jaccard hai tập hợp hữu hạn 12 1.5.1.2 Metric họ tri thức 14 1.5.1.3 Một số tính chất metric bảng định 15 1.5.2 Rút gọn thuộc tính bảng định sử dụng metric 18 1.5.2.1.Tập lõi tập rút gọn bảng định dựa metric……….…… 18 1.5.2.2.Thuật toán tìm tập rút gọn bảng định sử dụng metric 19 ii 1.6 Kết luận chương 1…………………………………………………………… 27 Chương 2.RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ….28 2.1 Giới thiệu .28 2.2 Entropy Liang mở rộng hệ thông tin không đầy đủ tính chất… …… 29 2.2.1 Entropy Liang mở rộng tập thuộc tính 29 2.2.2 Entropy Liang mở rộng có điều kiện 30 2.2.3 Một số tính chất entropy Liang mở rộng 32 2.3 Metric họ phủ tính chất .37 2.3.1 Metric họ phủ 37 2.3.2 Một số tính chất chất metric .40 2.4 Rút gọn thuộc tính bảng định không đầy đủ sử dụng metric……… … 43 2.4.1 Tập rút gọn bảng định không đầy đủ dựa metric .43 2.4.2.Thuật toán tìm tập rút gọn bảng định không đầy đủ .44 2.5 Kết luận chương .52 Chương CHƯƠNG TRÌNH THỬ NGHIỆM 53 3.1 Mô tả liệu 53 3.2 Xây dựng chương trình 57 3.3 Kết thực nghiệm 59 3.4 Nhận xét .60 KẾT LUẬN 61 TÀI LIỆU THAMKHẢO………………………………………………………………….62 PHỤ LỤC………………………………………………………………………… 64 iii Danh mục thuật ngữ Thuật ngữ tiếng việt Thuật ngữ tiếng anh Tập thô Rough set Hệ thông tin Information system Hệ thông tin đầy đủ Complete Information system Hệ thông tin không đầy đủ Incomplete Information system Bảng định Decision Table Bảng định đầy đủ Complete Decision Table Bảng định không đầy đủ Incomplete Decision Table Quan hệ không phân biệt Indiscernibility Relation Xấp xỉ Lower Approximation Xấp xỉ Upper Lower Approximation Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Tập lõi Core Ma trận phân biệt Indiscernibility Matrix Hàm phân biệt Indiscernibility Function iv Bảng ký hiệu, từ viết tắt Ký hiệu, từ viết tắt Diễn giải IS = (U, A, V, f) Hệ thông tin, hệ thông tin đầy đủ IIS = (U, A, V, f) Hệ thông tin không đầy đủ DS = (U, C∪D, V, f) Bảng định, bảng định đầy đủ IDS = (U, C∪D, V, f) Bảng định không đầy đủ |U| Số đối tượng |C| Số thuộc tính điều kiện bảng định |A| Số thuộc tính hệ thông tin u(a) Giá trị đối tượng u thuộc tính a IND(B) Quan hệ B- không phân biệt SIM(B) Quan hệ dung sai tập thuộc tính B [u]B Lớp tương đương chứa u quan hệ IND(B) SB(u) Lớp dung sai đối tượng u quan hệ SIM(B) U/B Phân hoạch U sinh tập thuộc tính B U/SIM(B) Phủ U sinh tập thuộc tính B COVER(U) Họ tất phủ U ∂B(u) Hàm định suy rộng đối tượng u B BX B- xấp xỉ X BX B- xấp xỉ X BNB(X) B- miền biên X POS B(D) B- miền dương D PRED(C) Họ tất tập rút gọn Pawlak v SRED(C) Họ tất tập rút gọn sử dụng ma trận phân biệt MRED(C) Họ tất tập rút gọn dựa metric PCORE (C) Tập lõi dựa miền dương SCORE(C) Tập lõi sử dụng ma trận phân biệt MCORE(C) Tập lõi dựa metric H(P) Entropy Shannon tập thuộc tính P H(Q/P) Entropy Shannon có điều kiện Q biết P IE(P) Entropy Liang mở rộng tập thuộc tính P hệ thông tin không đầy đủ IE(Q/P) Entropy Liang mở rộng có điều kiện Q biết P hệ thông tin không đầy đủ K(P) Trong hệ thông tin đầy đủ:là tri thức sinh tập thuộc tính P Trong hệ thông tin không đầy đủ phủ sinh tâp thuộc tính P dj(K(P), K(Q)) Khoảng cánh K(P) K(Q) hệ thông tin đầy đủ dựa khoảng cách Jaccard hai tập hợp dE(K(P), K(Q)) Khoảng cánh K(P) K(Q) hệ thông tin không đầy đủ dựa entropy Liang mở rộng SIGB(b) Độ quan trọng thuộc tính b B vi DANH SÁCH BẢNG Bảng 1.1 Bảng thông tin bệnh cúm .6 Bảng 1.2 Bảng định bệnh cúm Bảng 1.3 Bảng thông tin xe 12 Bảng 1.4 Bảng định bệnh cảm cúm 19 Bảng 1.5 Bảng định minh họa ví dụ 1.5 22 Bảng 2.1 Bảng hệ thông tin không đầy đủ xe .37 Bảng 2.3 Bảng định không đầy đủ minh họa ví dụ 2.3 49 Bảng 2.4 Bảng định không đầy đủ xe 52 Bảng 3.1 Bảng định không đầy đủ xe 56 Bảng 3.2 Kết thực thuật toán Thuật toán 2.2………………………… 65 Bảng 3.3 Tập rút gọn Thuật toán 2.2…………………………………… 65 MỞ ĐẦU Mười năm trở lại chứng kiến phát triển mạnh mẽ sôi động lĩnh vực nghiên cứu rút gọn thuộc tính sử dụng lý thuyết tập thô Trong xu đó, nhiều nhóm nhà khoa học giới quan tâm nghiên cứu phương pháp rút gọn thuộc tính bảng định Các phương pháp là: Phương pháp dựa miền dương, phương pháp sử dụng phép toán đại số quan hệ, phương pháp sử dụng ma trận phân biệt, phương pháp sử dụng entropy thông tin, phương pháp sử dụng độ đo tính toán hạt Mục tiêu rút gọn thuộc tính loại bỏ thuộc tính dư thừa để tìm thuộc tính cốt yếu cần thiết sở liệu Với bảng định không đầy đủ rút gọn thuộc tính tìm tập nhỏ tập thuộc tính điều kiện bảo đảm thông tin phân lớp bảng định Đối với bảng định không đầy đủ có nhiều tập rút gọn khác Tuy nhiên, thực hành thường không đòi hỏi tìm tất tập rút gọn mà cần tìm tập rút gọn theo tiêu chuẩn đánh giá đủ Các kết nghiên cứu cho thấy rút gọn thuộc tính làm giảm thiểu đáng kể khối lượng tính toán, nhờ áp dụng toán có khối lượng liệu lớn Thuật toán đơn giản mặt thực thi Nên em định lựa chọn đề tài luận văn: “Nghiên cứu số phương pháp rút gọn thuộc tính bảng định không đầy đủ” Mục tiêu luận văn: Tập trung nghiên cứu rút gọn thuộc tính bảng định đầy đủ từ làm sở nghiên cứu tiếp phương pháp rút gọn thuộc tính bảng định không đầy đủ Đối tượng phạm vi nghiên cứu: Các bảng định đầy đủ, bảng định không đầy đủ với kích thước trung bình lớn Phương pháp nghiên cứu - Về nghiên cứu lý thuyết: Các Định lý, Mệnh đề…đã chứng minh dựa vào kiến thức kết nghiên cứu công bố - Về nghiên cứu thực nghiệm: Cài đặt thuật toán, chạy thử nghiệm thuật toán Ý nghĩa khoa học đề tài -Đây phương pháp nhiều nhà khoa học nghiên cứu có đóng góp thực tiễn -Có thể coi luận văn tài liệu tham khảo đầy đủ, rõ ràng kiến thức bảng định không đầy đủ Bố cục luận văn: Gồm phần mở đầu chương nội dung, phần kết luận, danh mục tài liệu tham khảo phụ lục Chương 1: Trình bày khái niệm bảng định đầy đủ, bảng định không đầy đủ, mô hình tập thô truyền thống, mô hình tập thô dung sai, trình bày phương pháp xây dựng metric họ tri thức hệ thông tin đầy đủ dựa khoảng cách Jaccard hai tập hợp hữu hạn, trình bày phương pháp rút gọn thuộc tính bảng định đầy đủ Chương 2: Trình bày phương pháp xây dựng metric họ phủ hệ thông tin không đầy đủ dựa entropy Liang mở rộng, trình bày phương pháp rút gọn thuộc tính bảng định không đầy đủ Chương 3: Chương trình thử nghiệm trình bày nội dung: mô tả liệu, xây dựng chương trình, kết thực nghiệm thuật toán Cuối cùng, phần kết luận nêu đóng góp luận văn hướng phát 58 *Giá trị thuộc tính thiếu: (được định "*") Thuộc tính 10 11 12 13 14 15 16 17 18 * Phân lớp: Lớp Die:32 Live:11 Số thiếu giá trị 1 1 9 4 4 28 12 61 59 * Bộ liệu Automobile: Tập liệu sở liệu nhập ô tô năm 1985, có số đối tượng là: 205, số thuộc tính là: 24 thuộc tính liên quan thông số xe như: hãng sản xuất, loại nhiên liệu đi, xe cửa, vị trí động chiều dài, chiều rộng, chiều cao, trọng lượng *Thông tin thuộc tính 1.symboling: 1, -1 2.make: alfa-romero, Audi, BMW, Chevrolet, honda, Isuzu, Mazda, Mercedes-Benz, mercury, jaguar, Mitsubishi, Nissan, dodge 3.fuel-type: diesel, gas 4.aspiration: std, turbo 5.num-of-doors: two, four 6.body-style: wagon,sedan, hatchback, convertible, hardtop 7.drive-wheels: 4wd, FWD, RWD 8.engine-location: front, after 9.wheel-base:86,6-120,9 10.length: 141,1-208,1 11.width: 60,3-72,3 12.height: 47,8-59,8 13.curb-weight: 1488-4066 14.engine-type: DOHC, l , OHC, ohcv, rotor 15.num-of-cylinders: four, six, five, three, two, eight, twelve 16.engine-size: 61-326 17.fuel-system: 1bbl, 2bbl, 4bbl, IDI, MFI, mpfi, spdi, spfi 18.stroke: 2,68-4,17 19.compression-ratio: 7-23 20.horsepower: 48-288 21.peak-rpm: 4150-6600 22.city-mpg: 13-49 23.highway-mpg: 16-54 60 24.price: low, high *Giá trị thuộc tính thiếu: (được định "*") Thuộc tính 18 20 21 Số thiếu giá trị 2 *Phân lớp: price Low:141 High:64 b) Dữ liệu đầu ra: Là danh sách thuộc tính tập rút gọn tốt 3.2 Xây dựng chương trình Chương trình thực nghiệm sử dụng thuật toán heuristic, viết ngôn ngữ C#, Visual Studio 2010 sử dụng phiên Net Framewok 2.0 Yêu cầu hệ thống sử dụng chương trình: - Cài đặt Net Framework phiên 2.0 trở lên - Hệ điều hành tối thiểu Windows XP SP2 - Trên máy tính PC với cấu hình Pentium 1GHz, 256 MB nhớ RAM trở lên Mã nguồn biên dịch thành tệp thực thi exe môi trường Windows nên cần cài đặt thư viện yêu cầu chạy chương trình * Hướng dẫn sử dụng Chuẩn bị liệu dạng file excel 2003 theo định dạng mô tả trên, định dạng liệu bị sai, chương trình thực thi báo lỗi Chạy file: Mở file chạy TapRutGon.exe  chọn File liệu  tìm đường dẫn đến file excel nhấp nút “Tìm tập rút gọn”, chương trình tính toán đưa kết quả, giao diện chương trình sau: * Giao diện chương trình 61 Bố cục giao diện chương trình tìm tập rút gọn từ bảng định không đầy đủ gồm phần: • Vùng dataGridView phía hiển thị liệu bảng định không đầy đủ xử lý • Hai Button: Chọn file liệu (để thực chọn liệu) Tìm tập rút gọn (để bắt đầu tìm tập rút gọn) Khi bắt đầu tìm tập rút gọn nút “Tìm tập rút gọn” mờ để người sử dụng thấy thực hiện, lại trình tính toán kết thúc Vùng đếm thời gian hiển thị tổng thời gian thực tính toán • Vùng ListView phía thể tập rút gọn tốt tìm 3.3 Kết thực nghiệm 62 Chương trình chạy thử nghiệm thuật toán với số liệu:|U| số đối tượng, |C| số thuộc tính điều kiện, |R| số thuộc tính tập rút gọn, t thời gian thực thuật toán đơn vị tính giây Với số liệu tiến hành đo đạc lần lấy kết trung bình làm tròn chữ số sau dấu phẩy, Bảng 3.2 Bảng 3.3 mô tả kết thực thuật toán Bảng 3.2 Kết thực thuật toán Thuật toán 2.2 STT Bộ số liệu |U| |C| |R| Lần Lần Lần Lần Lần Trung bình Ô tô 0.0163 0.0161 0.0167 0.0162 0.0160 0.0162 Bệnh viêm gan 149 20 46.6171 41.1175 44.9767 41.4860 40.9169 43.0228 Automobile 206 24 57.4323 60.3665 71.1852 68.4046 59.6472 63.4071 Bảng 3.3 Tập rút gọn Thuật toán 2.2 STT Bộ số liệu Tập rút gọn Thuật toán 2.2 Ô tô {Kích thước, Tốc độ tối đa} Bệnh viêm gan {Tuổi, SGOT, Tình trạng bất ổn} Automobile {curb-weight, make} 3.4 Nhận xét Sau tìm hiểu cài đặt chương trình demo với liệu ta thấy: Bộ liệu ô tô: Kết thực nghiệm trùng với kết tính toán lý thuyết trình bày chương Bộ liệu nhỏ thời gian chạy thuật toán nhanh Ví dụ: liệu ôtô: |U|:6,|C|:5 thời gian chạy thuật toán trung bình sau lần: 0.0162 s Bộ liệu bệnh viêm gan: |U|: 149, |C|:20 thời gian chạy thuật toán trung bình sau lần: 43.0228 s 63 KẾT LUẬN * Kết đạt luận văn 1) Nghiên cứu hệ thông tin đầy đủ, hệ thông tin không đầy đủ, bảng định, bảng định không đầy đủ, metric họ tri thức tính chất từ trình bày phương pháp rút gọn thuộc tính bảng định đầy đủ sử dụng metric Metric xây họ tri thức dựa khoảng cách Jaccard hai tập hợp hữu hạn 2) Trình bày phương pháp rút gọn thuộc tính bảng định không đầy đủ sử dụng metric Metric xây dựng họ phủ dựa entropy Liang mở rộng Và cài đặt chương trình demo thuật toán luận văn thuật toán heuristic tìm tập rút gọn tốt bảng định không đầy đủ sử dụng metric Đầu vào bảng định không đầy đủ IDS= (U,C∪D,V,f), đầu tập rút gọn tốt R * Hướng nghiên cứu Luận văn trình bày hệ thông tin đầy đủ, hệ thông tin không đầy đủ, bảng định đầy đủ, bảng định không đầy đủ … Tiếp tục nghiên cứu sâu phương pháp rút gọn khác, từ xây dựng phương pháp rút gọn thuộc tính hiệu phương pháp có Mặc dù cố gắng trình tìm hiểu, nghiên cứu luận văn, thời gian có hạn nên chắn luận văn không tránh khỏi thiếu sót, mong Thầy Cô bạn góp ý để luận văn hoàn chỉnh 64 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hoàng Thị Lan Giao (2007) “Khía cạnh đại số logic phát luật theo tiếp cận tập thô”, Luận án Tiến sỹ Toán học, Viện Công Nghệ Thông Tin [2] Nguyễn Long Giang (2012), “Nghiên cứu số phương pháp khai phá liệu theo tiếp cận lý thuyết tập thô”, Luận án tiến sỹ toán học, Viện Công Nghệ Thông Tin [3] Nguyễn Long Giang, Nguyễn Thanh Tùng (2012), “Một phương pháp rút gọn thuộc tính bảng định sử dụng Metric”, Kỷ yếu Hội thảo Một số vấn đề chọn lọc CNTT TT, Cần Thơ, 10/2011, tr 249-266 [4] Nguyễn Long Giang, Nguyễn Thanh Tùng, Vũ Đức Thi, “Một phương pháp rút gọn thuộc tính bảng định không đầy đủ sử dụng metric” Tạp trí Tin học Điều khiển học [5] Nguyễn Thanh Tùng (2010), “Về metric họ phân hoạch tập hữu hạn”, Tạp trí Tin học Điều khiển học, T 26, S.1, tr 73-85 Tiếng Anh [6] Kryszkiewicz M (1998), “Rough set approach to incomplete information systems” Information Science, Vol 112, pp 39-49 [7] Liang J.Y, Chin K.S, Dang C.Y.and Richard C.M.YAM, “New method for measuring uncertainty and fuzziness in rough in rough set theory”, International Journal of General Systems 31, pp.331-342 [8] Liang J.Y and Xu Z.B (2002), “The algorithm on knowledge reduction in incomplete information system”, International Journal of Uncertainty, Fuzziness and Knowledge – Based systems 10 (1), pp 95-103 65 [9] Liang J.Y, Shim Z.Z, Li D.Y and Wierman M.J.(2006), “The information entropy, rough entropy and knowledge granulation in incomplete information system”, International Jornal of General Systems 35(6), pp.641- 654 [10] Lv Y.J and Li J.H (2007), “A Quick Algorithmfor Reduction of Attribute in Information Systems”, The First International Symposium on Data, Privacy, and E- Commerce (ISDPE 2007), pp 98-100 [11] Miao D.Q and Hu G.R (1999), “A heuristic algorithm for knowledge reduction”, Computer Research and Development, Vol.36, No.6, pp 681-684 [12] Pawlak Z (1998), “Rough set theory and its applications to data analysis”, Cybernetics and systems 29, pp.661-688 [13] R.López de Manstaras (1991), “A distance- based attribute selection measure for decision tree induction”, Machine Learning Vol 6, pp81-92 66 PHỤ LỤC using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Text; using System.Windows.Forms; using System.Data.OleDb; using System.Threading; using System.Diagnostics; namespace TapRutGon { public partial class Form1 : Form { public Form1() { InitializeComponent(); } private void btnChonFile_Click(object sender, EventArgs e) { OpenFileDialog ofd = new OpenFileDialog(); ofd.InitialDirectory = Application.StartupPath; ofd.Filter = "Microsoft Excel File (*.xls)|*.xls"; ofd.ShowDialog(); try { 67 OleDbConnection mycon = new OleDbConnection("Provider=Microsoft.Jet.OLEDB.4.0;Data Source=" + ofd.FileName + ";Extended Properties=Excel 8.0;"); OleDbDataAdapter myDA = new OleDbDataAdapter("SELECT * FROM [Sheet1$]", mycon); DataSet myDS = new DataSet(); myDA.Fill(myDS); dataGridView1.DataSource = null; dataGridView1.DataSource = myDS.Tables[0]; for (int i = 0; i < dataGridView1.Columns.Count; i++) dataGridView1.Columns[i].Name = Convert.ToChar(i + 65).ToString(); } catch (Exception ex) { if (ofd.FileName == "") MessageBox.Show("Phải chọn liệu", "Báo lỗi"); else MessageBox.Show(ex.Message);//"Dữ liệu không định dạng","Báo lỗi"); } } private void btnTim_Click(object sender, EventArgs e) { Stopwatch stw = new Stopwatch(); stw.Start(); Timtaprutgon(); stw.Stop(); lbTotalTime.Text = stw.Elapsed.ToString(); } private void Timtaprutgon() 68 { try { btnTim.Text = "Đang thực hiện"; btnTim.Enabled = false; string R = "";//tap rut gon string C = "";//tap cac thuoc tinh cua bang for (int i = 0; i < dataGridView1.ColumnCount - 1; i++) C += dataGridView1.Columns[i].Name + ","; C = C.Substring(0, C.Length - 1); string d = dataGridView1.Columns[dataGridView1.ColumnCount - 1].Name; double dC = distance(C, d, dataGridView1); //them thuoc tinh vao tap rut gon while (distance(R, d, dataGridView1) != dC) { R = addR(R, C, d, dataGridView1); } R = R.Substring(1, R.Length-1); //loai bo thuoc tinh du thua tap rut gon string[] Ra = R.Split(new char[] { ',' }); for (int i = 0; i < Ra.Length; i++) { string temp = ""; for (int j = 0; j < Ra.Length; j++) if (!Ra[j].Equals(Ra[i])) temp += Ra[j]+","; temp = temp.Substring(0, temp.Length - 1); if (distance(temp, d, dataGridView1) == dC) 69 R = temp; } //Hien thi tap rut gon listview lvTapRutGon.Items.Clear(); string [] Rb = R.Split(new char[] { ',' }); for (int i = 0; i < Rb.Length; i++) { string itemname = dataGridView1.Columns[Rb[i]].HeaderText; ListViewItem lv = new ListViewItem((i + 1).ToString()); lv.SubItems.Add(itemname); lvTapRutGon.Items.Add(lv); } btnTim.Text = "Tìm tập rút gọn"; btnTim.Enabled = true; } catch (Exception ex) { MessageBox.Show(ex.Message); btnTim.Text = "Tìm tập rút gọn"; btnTim.Enabled = true; } } private double distance(string items, string d, DataGridView dtgrid) { int sum = 0; for(int i=0;imax) { 72 max=st; a=itemC[i].ToString(); } } } return R + "," + a; } private double sig(string R, string a,string d, DataGridView dtgrid) { string temp = R + "," + a; return distance(R,d,dtgrid)-distance(temp,d,dtgrid); } } } [...]... Chương 1 TỔNG QUAN VỀ BẢNG QUYẾT ĐỊNH ĐẦY ĐỦ VÀ BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ 1.1 Bảng quyết định đầy đủ Một lớp đặc biệt của hệ thông tin có vai trò quan trọng trong nhiều ứng dụng là bảng quyết định Bảng quyết định là một hệ thông tin DS với tập thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D, lần lượt được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định Tức là DS = (U,... Tập rút gọn và tập lõi Trong bảng quyết định, các thuộc tính điều kiện được phân thành 3 nhóm: thuộc tính lõi (core attribute), thuộc tính rút gọn (reductive attribute) và thuộc tính dư thừa (redundant attribute) Thuộc tính lõi là thuộc tính không thể thiếu trong việc phân lớp chính xác tập dữ liệu Thuộc tính lõi xuất hiện trong tất cả các tập rút gọn của bảng quyết định Thuộc tính dư thừa là những thuộc. .. những thuộc tính mà việc loại bỏ chúng không ảnh hưởng đến việc phân lớp tập dữ liệu, thuộc tính dư thừa không xuất hiện trong bất kỳ rút gọn nào của bảng quyết định Thuộc tính rút gọn là thuộc tính xuất hiện trong một tập rút gọn nào đó của bảng quyết định Định nghĩa 1.3 (Tập lõi dựa trên miền dương) Cho bảng quyết định DS = (U, C∪D, V,f) Thuộc tính c∈C được gọi là không cần thiết (dispensable) trong DS... trên với bảng quyết định DS = (U, C∪D,V,f), nếu tồn tại u∈U và c∈C sao cho c(u) thiếu gái trị thì DS được gọi là bảng quyết định không đầy đủ Ta biểu diễn giá trị thiếu là ‘*’ và bảng quyết định không đầy đủ là IDS=(U, C∪D,V, f) với mọi d∈D, ‘*’ ∉ Vd Không mất tính chất tổng quát, giả thiết D chỉ gồm một thuộc tính quyết định duy nhất {d} [6] 1.4.3 Tập rút gọn của bảng quyết định không đầy đủ Trong [6],... quyết định không đầy đủ Trong [6], Marzena Kryszkiewic định nghĩa tập rút gọn của bảng quyết định không đầy đủ, là tập con tối thiểu của tập thuộc tính điều kiện mà bảo toàn hàm quyết định suy rộng của tất cả các đối tượng Định nghĩa 1.8 [6] (Tập rút gọn của bảng quyết định không đầy đủ) Cho bảng quyết định không đầy đủ IDS=(U C∪D, V, f) và tập thuộc tính R⊆C Nếu: 1) ∂ R(u)= ∂ C(u) với mọi u∈U 2) Với mọi... (C)={Thân nhiệt} và Thân nhiệt là thuộc lõi duy nhất Các thuộc tính không cần thiết bao gồm: 10 +Thuộc tính Mệt mỏi là thuộc tính dư thừa vì không tham gia vào rút gọn nào +Hai thuộc tính Đau đầu và Đau cơ là hai thuộc tính rút gọn vì đều có mặt trong một tập rút gọn Hai thuộc tính này đều không cần thiết theo nghĩa là, từ bảng dữ liệu, có thể loại bỏ một trong hai thuộc tính này mà vẫn chuẩn đoán đúng... C∩D= ∅ Xét bảng quyết định DS = (U, C∪D, V, f) với giả thiết mọi u∈U, mọi d∈D, d(u) đầy đủ giá trị, nếu tồn tại u∈U và c∈C sao cho c(u) thiếu giá trị thì DS được gọi là bảng quyết định không đầy đủ, trái lại DS được gọi là bảng quyết định đầy đủ Trong luận văn này, bảng quyết định đầy đủ được gọi tắt là bảng quyết định 1.2 Hệ thông tin Hệ thông tin là công cụ biểu diễn tri thức dưới dạng 1 bảng dữ liệu... (indispensable) Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõi dựa trên miền dương và được ký hiệu là PCORE (C) Khi đó, thuộc tính cần thiết chính là thuộc tính lõi Theo Định nghĩa 1.3 thuộc tính không cần thiết được gọi là thuộc tính dư thừa hoặc thuộc tính rút gọn Định nghĩa 1.4 (Tập rút gọn dựa trên miền dương) Cho bảng quyết định DS=(U, C∪D, V, f) Và tập thuộc tính R⊆C Nếu: 1) POSR (D)=POSC... 9 Thì R là một tập rút gọn của C dựa trên miền dương Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Pawlak Ký hiệu I (C ) PRED(C) là họ tất cả các tập rút gọn Pawlak của C Khi đó PCORE (C) = R∈PRED R Định nghĩa 1.5 Cho bảng quyết định DS = (U, C∪D, V, f) Và a∈C Ta nói rằng a là thuộc tính rút gọn của DS nếu tồn tại 1 tập rút gọn R∈PRED(C) sao cho a∈R Định nghĩa 1.6 Cho bảng quyết định DS = (U,... sao cho ∂ R’(u)≠ ∂ C(u) Thì R được gọi là một tập rút gọn của C.Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Kryszkiewic 1.5 Rút gọn thuộc tính trong bảng quyết định đầy đủ sử dụng metric Các kết quả trong phần này được tìm hiểu trong tài liệu [3] 1.5.1 Metric trên họ các tri thức và các tính chất 1.5.1.1 Khoảng cách Jaccard giữa hai tập hợp hữu hạn Định nghĩa 1.9 Cho tập U là tập hữu hạn các ... phương pháp rút gọn thuộc tính bảng định không đầy đủ Mục tiêu luận văn: Tập trung nghiên cứu rút gọn thuộc tính bảng định đầy đủ từ làm sở nghiên cứu tiếp phương pháp rút gọn thuộc tính bảng định. .. liệu, thuộc tính dư thừa không xuất rút gọn bảng định Thuộc tính rút gọn thuộc tính xuất tập rút gọn bảng định Định nghĩa 1.3 (Tập lõi dựa miền dương) Cho bảng định DS = (U, C∪D, V,f) Thuộc tính. .. bảng định không đầy đủ Đối tượng phạm vi nghiên cứu: Các bảng định đầy đủ, bảng định không đầy đủ với kích thước trung bình lớn 2 Phương pháp nghiên cứu - Về nghiên cứu lý thuyết: Các Định lý,

Ngày đăng: 09/12/2016, 17:54

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan