Nghiên cứu ngữ nghĩa tính toán của từ ngôn ngữ và ứng dụng vào việc xây dựng hệ mờ tối ưu dựa trên luật tt

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ HOÀNG VĂN THÔNG NGHIÊN CỨU NGỮ NGHĨA TÍNH TOÁN CỦA TỪ NGÔN NGỮ VÀ ỨNG DỤNG VÀO VIỆC XÂY DỰNG HỆ MỜ TỐI ƯU DỰA TRÊN LUẬT Chuyên ngành: Cơ sở toán học cho tin học Mã số: 62.46.01.10 TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC HÀ NỘI - 2016 Công trình hoàn thành tại: Học viện Khoa học Công Nghệ – Viện Hàn lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học: PGS TSKH Nguyễn Cát Hồ PGS TS Nguyễn Văn Long Phản biện 1: PGS.TS Nguyễn Đình Hóa Phản biện 2: PGS.TS Bùi Thu Lâm Phản biện 3: TS Nguyễn Đức Dũng Luận án bảo vệ trước Hội đồng chấm luận án cấp Học Viện: Vào hồi … …., ngày … tháng … năm …… Có thể tìm hiểu luận án tại: Thư viện Quốc gia Việt Nam Thư viện Học viện Khoa học Công nghệ MỞ ĐẦU Dựa lý thuyết tập mờ, hệ mờ dựa luật (Fuzzy Rule Based System - FRBS) công cụ gặt hái nhiều thành công giải toán điều khiển, phân lớp, hồi quy Khi xây dựng FRBS, hai mục tiêu cần đạt độ xác (accuracy) tính giải nghĩa (interpretability) Đây hai mục tiêu xung đột nhau, vậy, xây dựng FRBS thuật toán phải hướng tới đảm bảo cân (tradeoff) hai mục tiêu Tính giải nghĩa FRBS đặc biệt quan tâm ứng dụng vào lĩnh vực mà người làm trung tâm (ví dụ: y tế, giáo dục, …) Ở FRBS xem hộp xám (gray-boxes), tức người dùng kiểm tra hiểu thành phần [11] Do đó, năm gần vấn đề tính giải nghĩa FRBS trở thành chủ đề “nóng” lĩnh vực Hiện có nhiều quan điểm khác tính giải nghĩa được, số nghiên cứu cố gắng đánh giá tính giải nghĩa cách phân chia yếu tố liên quan đến theo mức thiết lập tập ràng buộc mức Trong [26] Gacto cho có hai hương tiếp cận tính giải nghĩa Hướng thứ dựa độ phức tạp, hướng tập trung vào việc làm giảm độ phức tạp mô hình đạt được, thường sử dụng độ đo số luật, số biến, độ dài luật, số từ sử dụng cho biến,… Hướng thứ hai dựa ngữ nghĩa, hướng tập trung vào đảm bảo tính toàn vẹn ngữ nghĩa nhãn ngôn ngữ, thể tập mờ thiết kế cho FRBS ngữ nghĩa luật Hướng tiếp cận dựa lý thuyết tập mờ thiếu phương pháp hình thức toán học đầy đủ để xác định ngữ nghĩa tính toán từ từ ngữ nghĩa vốn có nó, dẫn đến việc gán ngữ nghĩa tính toán biểu diễn tập mờ cho nhãn ngôn ngữ ràng buộc tính giải nghĩa FRBS dựa trực quan người thiết kế Do tính xác ngữ nghĩa nhãn từ không đảm bảo phải đưa nhiều ràng buộc cho tính giải nghĩa FRBS (trong [41] Mencar đưa 37 ràng buộc) Theo ngữ nghĩa tính toán từ yếu tố quan trọng để đảm bảo tính giải nghĩa FRBS Vì vậy, cần phải tìm kiếm hướng tiếp cận cho vấn đề mà ngữ nghĩa tính toán từ xác định phương pháp hình thức đầy đủ dựa ngữ nghĩa vốn có Nhằm khắc phục số hạn chế hướng tiếp cận theo lý thuyết tập mờ [50, 52] phát triển thuật toán theo hướng tiếp cận dựa Đại số gia tử (ĐSGT) xây dựng LRBS (ở gọi LRBS thay FRBS từ sử dụng từ ngôn ngữ tự nhiên) giải toán phân lớp Mặc dù, ứng dụng ĐSGT vào giải toán phân lớp tạo LRBS có hiệu phân lớp tốt Tuy nhiên, ngữ nghĩa tính toán từ không bảo toàn tính khái quát tính đặc tả cần tiếp tục nghiên cứu phát triển thuật toán tốt nghiên cứu ứng dụng ĐSGT vào giải toán nhằm chứng minh tính hiệu phương pháp luận dựa ĐSGT Bên cạnh đó, vấn đề tính giải nghĩa LRBS chưa quan tâm nghiên cứu hướng tiếp cận Với mục tiêu đặt ra, luận án đạt số kết sau: 1) Đề xuất ba thuật toán tiến hóa xây dựng LRBS giải toán phân lớp, toán hồi quy ngữ nghĩa tính toán (NNTT) từ ngôn ngữ sử dụng LRBS xác định ĐSGT mục tiêu tính giải nghĩa LRBS định nghĩa dựa độ phức tạp 2) Đề xuất hướng tiếp cận cho vấn đề tính giải nghĩa LRBS theo hướng tiếp cận dựa ĐSGT, đề xuất ràng buộc tính giải nghĩa mức phân hoạch mờ mức thấp LRBS 3) Phát biểu khái niệm khung nhận thức ngôn ngữ (LFoC), đề xuất phương pháp thiết kế NNTT tập từ ngôn ngữ LFoC dựa ngữ nghĩa vốn có từ xác định ĐSGT thỏa mãn ràng buộc đề xuất 4) Phát biểu định lý khẳng định tính đắn phương pháp thiết kế NTTT ràng buộc mà thỏa mãn 5) Đề xuất thuật toán xây dựng LRBS giải toán hồi quy, mục tiêu tính giải nghĩa LRBS đánh giá dựa hướng tiếp cận CHƯƠNG MỘT SỐ KIẾN THỨC CƠ SỞ 1.1 Một số kiến thức lý thuyết tập mờ 1.1.1 Định nghĩa tập mờ Định nghĩa 1.1: [63, 65] Cho U tập điểm (đối tượng) với phần tử ký hiệu x, U={x} Một tập mờ A U tập mà phần tử cặp giá trị ((x,  A(x)), x U  A ánh xạ:  A : U  [0, 1] (1.1) Trong ánh xạ  A gọi hàm thuộc tập mờ A Tập U gọi sở tập mờ A, ký hiệu A  ( x,  A ( x)) : x U , hàm  A(x) biểu thị cấp độ thuộc phần tử x vào tập mờ A, giá trị  A(x) gần cấp độ thuộc x vào A cao 1.1.2 Xây dựng hàm thuộc Khi xây dựng hàm thuộc, yêu cầu đặt giá trị phải biến thiên từ đến 1.1.3 Biến ngôn ngữ Biến ngôn ngữ biến mà giá trị từ ngôn ngữ 1.1.4 Phân hoạch mờ Phân hoPhân hoạch mờị từ ngôn ngữ.thhóa miền xác định biến ngôn ngữ 1.2 Một số kiến thức Đại số gia tử 1.2.1 Định nghĩa đại số gia tử Định nghĩa 1.5: [49] Một ĐSGT ký hiệu thành phần ký hiệu AX = (X, G, H, ) G tập phần tử sinh, H tập gia tử (hedge) “” quan hệ cảm sinh ngữ nghĩa X Giả thiết G có chứa phần tử 0, 1, W với ý nghĩa phần tử bé nhất, phần tử lớn phần tử trung hòa (neutral) X Ta gọi giá trị ngôn ngữ x  X hạng từ (term) ĐSGT Nếu tập X H tập thứ tự tuyến tính, AX = (X, G, H, ) gọi ĐSGT tuyến tính Và trang bị thêm hai gia tử tới hạn   với ngữ nghĩa cận cận tập H(x) tác động lên x, ta ĐSGT tuyến tính đầy đủ, ký hiệu AX* = (X, G, H, , , ) 1.2.2 Một số tính chất đại số gia tử tuyến tính 1.2.3 Độ đo tính mờ giá trị ngôn ngữ Định nghĩa 1.6: [49] Cho AX *= (X, G, H, , , ) ĐSGT tuyến tính đầy đủ Ánh xạ fm: X  [0,1] gọi độ đo tính mờ hạng từ X nếu: (i) fm đầy đủ, tức fm(c-) + fm(c+) =1 hH fm(hu) = fm(u), uX; (ii) fm(x) = 0, với x thỏa H(x) = {x} fm(0) = fm(W) = fm(1) = 0; fm(hx) fm(hy)  (iii) x,y  X, h  H, ký hiệu  (h) = , tỷ số không fm( x) fm( y) phụ thuộc vào x y, gọi độ đo tính mờ gia tử Mệnh đề 1.1: [49] Với độ đo tính mờ fm  định nghĩa Định nghĩa 1.6, ta có: (i) fm(c-) + fm(c+) =  hH fm(hx)  fm( x) ; (ii) j 1 q  (h j )   ,  pj1  (h j )   , với  ,  >  +  = 1; (iii) xX fm( x)  , Xk tập hạng từ có độ dài k; k (iv) fm(hx) =  (h).fm(x), xX, fm(x) = fm(x) = 0; (v) Cho fm(c-), fm(c+)  (h) với hH, với x = hn h1c, c  {c-, c+}, dễ dàng tính độ đo tính mờ x sau: fm(x) =  (hn)  (h1)fm(c) 1.2.4 Định lượng ngữ nghĩa giá trị ngôn ngữ Định nghĩa 1.8: Một hàm dấu Sign: X  {-1, 0, 1} ánh xạ định nghĩa đệ qui sau, h, h'  H c  {c-, c+}: (i1) Sign(c-) = -1, Sign(c+) = 1; (i2) Sign(hc) = -Sign(c) h âm c; Sign(hc) = Sign(c) h dương c; (i3) Sign(h'hx) = -Sign(hx), h'hx  hx h' âm h; Sign(h'hx) = Sign(hx), h'hx  hx h' dương h; (i4) Sign(h'hx) = 0, h'hx = hx Dựa định nghĩa hàm dấu để so sánh hx x Định nghĩa 1.9: Cho AX* ĐSGT tuyến tính đầy đủ fm độ đo tính mờ X Ta nói ánh xạ 𝔳𝔛 : X  [0, 1] cảm sinh độ đo tính mờ fm định nghĩa đệ qui sau: (i) 𝔳𝔛 (W)== fm(c-), 𝔳𝔛 (c-)=  –  fm(c-) = .fm(c-), 𝔳𝔛 (c+) =  + fm(c+); (ii) 𝔳𝔛 (hjx) = 𝔳𝔛 (x)+ Sign(h x)   (h ) fm( x)   (h x) (h x) fm( x) , j i  sign ( j ) i j j  i  sign ( j ) (1.5) với j, –q  j  p j  0, đó:  (h j x)  1  Sign(h j x) Sign(hp h j x)(   )  ,   ; (iii) 𝔳𝔛 (c-) = 0, 𝔳𝔛 (c-) =  = 𝔳𝔛 (c+), 𝔳𝔛 (c+) = 1, với j thỏa –q  j  p, j  0, ta có: Sign( j ) 𝔳𝔛 (hjx) = 𝔳𝔛 (x) + ijSign  (hi ) fm( x) 1  Sign(h j x)  (h j ) fm( x), ( j) Sign( j ) 𝔳𝔛 (hjx) = 𝔳𝔛 (x) + Sign(hj x)ijSign  (hi ) fm( x) 1  Sign(h j x) (h j ) fm( x) ( j) 1.2.5 Khoảng tính mờ Khoảng tính mờ hạng từ x  X, ký hiệu fm(x), đoạn [0, 1], fm(x)  Itv([0, 1]), độ dài độ đo tính mờ, |fm(x)| = fm(x) 1.2.6 Hệ khoảng tương tự Một khía cạnh khác ngữ nghĩa định lượng hạng từ khái niệm khoảng tương tự mức k, với k số dương xác định chiều dài tối đa hạng Các khoảng tương tự ℭ(𝑥) từ X(k) hình thành phân hoạch U 𝔳𝔛(x) ℭ(𝑥) Các giá trị tất khoảng mờ tương tự ℭ(𝑥) coi tương tự với khoảng khác với giá trị 𝔳𝔛(x) x với cấp độ k 1.3 Hệ mờ dựa luật 1.3.1 Các thành phần hệ mờ Một FRBS gồm có thành phần sau: sở liệu tập tập mờ gán nhãn dùng để xây dựng phân hoạch mờ miền tham chiếu biến, FRB tập luật mờ dạng if-then có dạng: rq: If 𝔛1 is Aq1 and … and 𝔛n is Aqn then 𝔛n+1 is Aq(n+1) (q = 1, ,M) (1.6) Aqj tập mờ, M số luật Nếu 𝔛n+1 biến ngôn ngữ ta gọi mô hình mờ Mamdani, 𝔛n+1 biến thực ta gọi mô hình mờ TakagiSugeno Và hệ suy diễn thực lập luận xấp xỉ dựa sở tri thức giá trị đầu vào Với toán phân lớp thường sử dụng hai phương pháp single-winner rule weighted vote Với toán hồi quy thường sử dụng phương pháp trung bình trọng số 1.3.2 Các mục tiêu xây dựng FRBS Khi xây dựng FRBS hai mục tiêu cần đạt hiệu thực tính giải nghĩa FRBS 1) Đánh giá hiệu thực FRBS Với toán phân lớp đánh giá dựa tỉ lệ phần trăm số mẫu phân lớp xác tổng số mẫu liệu kiểm tra Với toán hồi quy, sử dụng độ đo giá trị sai số bình phương trung bình (MSE) Giá trị MSE nhỏ độ xác FRBS cao N (1.12) MSE  ( yˆ i  y i )  i 1 2N yˆ i giá trị suy diễn từ FRBS với giá trị đầu vào pi, N số mẫu liệu kiểm tra 2) Vấn đề tính giải nghĩa FRBS Tính giải nghĩa FRBS vấn đề phức tạp, việc lựa chọn độ đo tính giải nghĩa vấn đề mở Trong số nghiên cứu cố gắng đánh giá tính giải nghĩa FRBS cách phân chia theo mức thiết lập tập ràng buộc mức FRBS thỏa mãn nhiều ràng buộc tính giải nghĩa cao 1.4 Kết luận chương Trong chương này, luận án trình bày tóm tắt kiến thức sở làm tảng phục vụ trình nghiên cứu Nó bao gồm nội dung sau đây: lý thuyết tập mờ, lý thuyết ĐSGT, thành phần FRBS Với kiến thức sở trình bày chương tảng để thực mục tiêu đặt luận án CHƯƠNG PHÁT TRIỂN CÁC THUẬT TOÁN TIẾN HÓA XÂY DỰNG CÁC LRBS GIẢI BÀI TOÁN PHÂN LỚP, HỒI QUY Trong chương này, luận án phát triển thuật toán xây dựng LRBS, ngữ nghĩa tính toán từ ngôn ngữ sử dụng LRBS xác định ĐSGT tính giải nghĩa LRBS định nghĩa dựa độ phức tạp giải toán phân lớp, hồi quy Các thuật toán thực học đồng thời ngữ nghĩa tính toán từ ngôn ngữ biểu diễn tập mờ tam giác, số từ sử dụng biến sở luật 2.1 Phát triển thuật toán giải toán phân lớp 2.1.1 Bài toán phân lớp Bài toán phân lớp Error! Reference source not found.7, 28, 39, 50]: Cho tập mẫu liệu D ={ (pi, Ci), i = 1, ,N }, pi véc tơ n chiều có dạng (di1, di2, , din), dij Uj  R (tập số thực) miền xác định biến (thuộc tính) 𝔛j toán, với j = 1, ,n, Ci  C tập nhãn có m lớp, i = 1, , m, N số mẫu liệu Từ tập mẫu liệu D xây dựng mô hình cho phép phân lớp mẫu liệu p  U = U1   Un Giải toán FRBS xây dựng hệ luật mờ S, để phân lớp hay ánh xạ từ tập liệu U vào tập giá trị nhãn lớp C Khi phát triển thuật toán giải toán này, phải thực công việc sau: - Thiết kế phân hoạch mờ (ngữ nghĩa tính toán từ) - Sinh tập luật mờ ứng cử - Tìm kiếm hệ luật mờ tối ưu S từ tập luật mờ ứng cử Trong chương đề xuất thuật toán goi OPHA-SGERD gồm hai pha: - Pha thiết kế tập từ ngôn ngữ sử dụng LRRB việc phát triển thuật toán OP-PARHA dựa thuật giải di truyền (GA) đề tìm tham số tính mờ tối ứu ĐSGT - Pha tìm kiếm hệ luật tối ưu việc phát triển thuật toán HAOFRB dựa thuật giải di truyền Trong hai pha, tập luật ứng cử sinh thuật toán HASGERD phát triển dựa ĐSGT, thuật toán SGERD tiêu chuẩn chọn luật mục 2.1.3 Trong hàm mục tiêu giải thuật GA f(S) = wp.fp(S) + wn.fn(S)-1 + wa.fa(S)-1  max, < wp, wn, wa < wp+wn+wa = 1, fp(S) hàm đánh giá hiệu phân lớp, fn(S) số luật fa(S) độ dài trung bình vế trái hệ luật S 2.1.2 Thuật toán OPHA-SGERD 1) Thiết kế phân hoạch mờ (ngữ nghĩa tính toán từ) Phân hoạch mờ thiết kế dựa ngữ nghĩa định lượng từ ngôn ngữ Aji (i=1, ,|Xj|) sinh từ ĐSGT tuyến tính AXj tương ứng với biến 𝔛j c- Vc- Lc- W Lc+ c+ Vc+ 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Hình 2.1 Một phân hoạch mờ đơn thể hạt xây dựng dựa ĐSGT 2) Các tiêu chuẩn chọn luật Tiêu chuẩn xác định hiệu tổng độ đốt cháy luật mẫu liệu đoán nhận xác không xác: f ( Aq  Cq )    A ( p i )    A ( pi ) (2.3) j piClassCq piClassCq q Tiêu chuẩn (2.4) cải tiến tiêu chuẩn (2.3) với việc bổ sung tham số ngưỡng để ước lượng không gian định luật: f ( Aq  Cq )    A ( p i )    A ( p i )   j (1   q ) (2.4) q số mẫu pi ClassCq j pi ClassCq q liệu có độ đốt cháy luật rq cao q q tham số ngưỡng xác định sau  q  0.5 với lq độ dài luật rq lq Tiêu chuẩn (2.5) thay  q  0.5 (2.4)  q   với  (0, 1) lq tối ưu f ( Aq  Cq )    piClassCq Aj lq ( pi )    piClassCq trình ( p i )   q (1   ) lq Aq tiến hóa (2.5) Trong q số mẫu liệu có độ đốt cháy luật rq lớn  l q 3) Thuật toán sinh hệ luật ứng cử Để sinh tập luật ứng cử phát triển thuật toán HA-SGERD dựa thuật toán SGERD [39] với phân hoạch mờ miền tham chiếu biến xây dựng mục 2.1.2 Thuật toán sinh tập luật ứng cử nhỏ 4) Thuật toán OP-PARHA thiết kế ngôn ngữ Thiết kế ngôn ngữ tìm tham số tính mờ tối ưu ĐSGT Giả thiết biến 𝔛j có gia tử, gia tử dương (Vj) gia tử âm (Lj) Khi việc tối ưu tham số ĐSGT cho tập liệu tìm j j tham số tối ưu op ={( o fmc  , o L , okj, o): j = 1, ,n} với tiêu chuẩn chọn luật j j (2.5) op ={( o fmc  , o L , okj) : j=1, ,n} với tiêu chuẩn lại Để tìm tham số tính mờ tối ưu ĐSGT, thiết kế thuật toán OP-PARHA dựa giải thuật di truyền với sơ đồ mã hóa nhị phân Và hàm mục tiêu perf(R, D) hiệu phân lớp hệ luật R toàn tập mẫu liệu D, R sinh từ HA-SGERD Các toán tử đột biến, lại ghép lựa chọn quần thể cho hệ thừa kế [5] 5) Thuật toán HA-OFRB tối ưu hệ luật Với tham số tối ưu tìm thuật toán OP-PARHA, áp dụng Ta giới hạn RB có M luật M  [Mmin, Mmax] Mỗi cá thể có hai mục tiêu độ xác MSE xác định theo (1.12) độ phức tạp Comp xác định theo (1.13) b Các toán tử di truyền - Toán tử lai ghép: Với hai cá thể bố mẹ p1, p2 sử dụng phương pháp lai ghép điểm (one-point crossover) độc lập Cµ, Ck CRB Lưu ý: Nếu CRB toán tử lai ghép không thực đột biến xảy - Toán tử đột biến: Với cá thể p thực đột biến theo thứ tự độc lập Cµ, Ck CRB Trên Cµ: Lựa chọn ngẫu nhiên số nguyên [1, 2(n + 1)], thực thay gen vị trí chọn giá trị chọn ngẫu nhiên khoảng xác định trước cho tham số Trên Ck: Nếu đột biến xảy gen ngẫu nhiên tăng giảm, giá trị nằm khoảng [1, kmax] đột biến bị bỏ qua Trên CRB: Chúng ta áp dụng hai toán tử 1) Toán tử 𝔬m1 thay đổi giá trị  gen CRB 2) Toán tử 𝔬m2 bổ sung  luật vào CRB Chú ý: Trong trình tiến hóa, luật trở nên có độ dài bị loại bỏ, số luật trở nên giống giữ lại Sau lai ghép đột biến, CRB có luật mà tiền điều kiện thứ j từ có độ dài lớn kj phải thực chuẩn hóa luật Định nghĩa 2.1: Luật rq gọi luật không chuẩn j cho từ Aq , j điều kiện tiền đề tương ứng với biến 𝔛j có độ dài lớn kj Nếu luật rq không chuẩn điều kiện tiền đề tương ứng với từ Aq , j gây nên bỏ gia tử bên trái Aq , j để từ Aq' , j có độ dài kj c Thuật toán tiến hóa đa mục tiêu: Tương tự [8-10, 12-15], áp dụng lược đồ tiến hóa (2+2)M-PAES [16] 2) Kết thử nghiệm Bảng 2.8 Các tham số thử nghiệm  = fmmin =0.3,  max =fmmax = 0.7 PAdd = 0.75 11 Pinc_k = 0.5 𝑃𝐶𝜇 = 0.75, 𝑃𝐶𝑘 = 0.3, 𝑃𝐶𝑅𝐵 = 0.3 kmax = 3, lmax = 5, max = 5,  max = archiveSize = 64, MaxGen = 300,000 𝑃𝑚𝜇 = 0.3, 𝑃𝑚𝑘 = 0.3, 𝑃𝑚𝑅𝐵 = 0.1 Mmin = 5, Mmax = 50 Chúng tiến hành thử nghiệm thuật toán HA-PAES-SG máy tính tương tự thử nghiệm [14] tập liệu hồi quy với tham số bảng 2.8 Các kết tổng hợp trình bày bảng 2.9 Từ bảng 2.9 cho thấy giá trị MSE thuật toán HA-PAES-SG tốt tập liệu tập huấn luyện tập kiểm tra, ngoại trừ ELE thấp tập huấn luyện Ở có khác biệt lớn độ xác thuật toán với thuật toán so sánh Bên cạnh độ phức tạp LRBS thấp tập liệu Chiều dài trung bình luật (Comp/#R) LRBS tạo từ thuật toán HA-PAESSG ngắn nhiều so với với thuật toán [14] Bảng 2.9 So sánh kết thử nghiệm thuật toán HA-PAES-SG với thuật toán (2+2)M-PAES(I) (2+2)M-PAES(C) [14] điểm FIRST Tập liệu ELE WA WI M PG6 STP TR Thuật toán #R Comp MSETr SDtr ttr MSETs SDts tts (2+2)M -PAES(I) 34.480 68.210 13660.200 1851.500 = 15768.600 3239.900 = (2+2)M -PAES(C) 24.240 96.480 13539.800 3764.700 * 15278.800 4129.000 = HA-PAES-SG 34.966 75.414 13732.337 2499.690 = 14969.681 4010.176 * (2+2)M -PAES(I) 20.200 75.160 1.911 0.381 + 1.997 0.298 + (2+2)M -PAES(C) 15.270 98.650 1.694 0.489 + 2.094 0.973 + HA-PAES-SG 24.100 58.000 1.265 0.175 * 1.383 0.229 * (2+2)M -PAES(I) 17.830 61.810 1.474 0.343 + 1.647 0.343 + (2+2)M -PAES(C) 13.120 83.550 1.441 0.276 + 1.556 0.243 + HA-PAES-SG 24.167 57.833 0.873 0.102 * 1.034 0.161 * (2+2)M -PAES(I) 40.360 130.280 2.565 0.341 + 4.185 1.352 = (2+2)M -PAES(C) 48.030 121.660 2.820 0.428 + 4.304 1.365 = HA-PAES-SG 47.700 112.033 2.153 0.192 * 4.036 1.117 * (2+2)M -PAES(I) 48.530 184.000 0.748 0.098 + 0.934 0.175 = (2+2)M -PAES(C) 49.420 181.730 0.795 0.225 + 1.046 0.309 + HA-PAES-SG 49.100 146.700 0.567 0.109 * 0.720 0.192 * (2+2)M -PAES(I) 25.100 103.920 0.056 0.020 = 0.100 0.097 = (2+2)M -PAES(C) 19.100 147.000 0.066 0.025 = 0.132 0.132 = HA-PAES-SG 29.267 62.267 0.038 0.014 * 0.068 0.094 * 2.2.3 Thuật toán HA-PAES-MG Trong phần phát triển thuật toán gọi HAPAES-MG (MG) tương tự thuật toán HA-PAES-SG (SG) Tuy 12 nhiên thuật toán đề xuất phương pháp thiết kế ngữ nghĩa tính toán từ dạng phân hoạch mờ đa thể hạt (hình 2.6) Hình 2.5 Một thiết kế phân hoạch Hình 2.6 Một thiết kế phân hoạch mờ đa thể hạt [50] với độ dài mờ đa thể hạt đề xuất với tối đa từ độ dài tối đa từ Chúng tiến hành thử nghiệm thuật toán MG tương tự [10] với tham số cho bảng 2.8, tham số Mmax = 30 Kết thử nghiệm đối sánh với thuật toán SG PAESKB [10] (viết tắt KB) Tổng hợp kết thử nghiệm điểm FIRST kết trung bình điểm MEDIAN, LAST trình bày bảng 2.11 Chúng tiến hành đối sánh phương pháp phân tích thống kê Wilcoxon test giá trị độ phức tạp (Comp) sai số bình phương trung bình tập kiểm tra MSEts với giả thiết H0 = “Không có khác biệt hai phương pháp đối sánh” Kết phân tích thống kê tổng hợp bảng 2.12 2.13 Tập liệu Bảng 2.11 Kết trung bình đạt HA-PAES-MG (MG), HA-PAESSG (SG) PAES KB (KB) điểm FIRST #R MG SG Comp KB MG SG SD’tr MSEts KB MG SG KB MG SG SD’ts MSEts KB MG SG Diff SG KB Diff KB MG SG KB ELE1 20.40 22.63 27.00 35.03 35.87 46.00 146130 159836 145995 0.031 0.068 0.026 192042 201897 -0.049 194028 -0.010 0.167 0.177 0.128 ELE2 24.43 26.67 30.00 57.17 59.07 65.00 WA 22.80 24.13 28.00 69.67 58.27 103.00 0.97 1.26 1.64 0.085 0.137 0.024 1.06 1.38 -0.231 3.92 -0.729 0.108 0.163 2.365 WI 23.33 24.17 25.00 72.57 57.83 91.00 0.74 0.87 1.30 0.103 0.115 0.208 0.87 1.03 -0.158 1.49 -0.415 0.144 0.153 0.174 TR 15.00 14.73 11.00 37.60 24.50 40.00 0.08 0.05 0.08 3.233 0.314 0.500 0.10 0.09 0.081 0.14 -0.317 3.050 1.567 1.071 AB 12.87 26.27 29.00 31.43 59.67 107.00 2.40 2.35 2.32 0.048 0.040 0.034 2.447 2.453 -0.002 2.48 -0.013 0.074 0.074 0.073 MTG 13.00 17.73 12.00 25.97 28.37 49.00 0.016 0.017 0.05 0.239 0.259 0.400 0.023 0.023 -0.005 0.09 -0.749 0.847 0.398 1.111 CA 10.57 15.00 10.00 29.90 45.07 30.00 4.76 4.73 11.99 0.139 0.192 0.249 4.95 4.99 -0.007 13.43 -0.631 0.137 0.193 0.347 78.23 87.02 -0.101 89.00 -0.121 0.289 0.200 0.281 -0.342 0.559 0.369 0.644 PT 11.20 26.40 14.00 35.83 67.77 Mean 17.07 FIRST Mean MED 10.81 Mean 5.01 LAST 6.30 75.87 82.87 11043 0.189 0.329 0.251 11397 21,255 -0.464 12606 -0.096 0.208 0.400 0.246 87.00 0.282 0.185 0.299 64.89 0.472 0.182 0.221 -0.104 12.6 21.27 25.89 25.8 0.460 0.250 0.261 -0.152 -0.33 0.492 0.490 0.587 5.00 5.00 0.414 0.768 0.527 -0.479 -0.365 0.451 0.816 0.654 21.97 20.67 43.91 48.49 14.52 53.00 9821 18,589 5.81 8.07 Từ bảng 2.13 cho thấy có khác biệt thống kê giá trị MSEts thuật toán MG với hai thuật toán so sánh Từ kết 13 luận thuật toán MG tạo LRBS có độ xác cao phân hoạch mờ dạng đa thể hạt tốt dạng đơn thể hạt Từ bảng 2.11 bảng kết phân tích thống kế 2.12 cho thấy, độ phức tạp LRBS tạo từ thuật toán thuật toán MG thấp thuật toán so sánh Mặc dù thuật toán MG thuật toán đối sánh phát triển lược đồ tiến hóa (2+2)M-PAES MG tạo LRBS tốt hai mục tiêu tính giải nghĩa độ xác Bảng 2.12 So sánh độ phức tạp (Comp) hệ luật phương pháp kiểm định giả thuyết Wilcoxon-test với mức α = 0.05 ba điểm đại diện The FIRST point The MEDIAN point The LAST point VS HA-PAES-SG PAESKB HA-PAES-SG PAESKB HA-PAES-SG PAESKB R+ 30.0 45.0 40.0 37.0 44.0 0.0 R 15.0 0.0 5.0 8.0 1.0 45.0 Exact P-value ≥ 0.2 0.003906 0.03906 0.09766 0.007812 ≥ 0.2 Confid -interval [-16.92 , 11.4] [-43.27 , -5.535] [-9.08 , -0.03] [-11.3 , 0.9] [-3.965 , -0.6] [0.07 , 1.585] Hypoth (H 0) Not Rejected Rejected Rejected Not Rejected Rejected Not Rejected Bảng 2.13 So sánh trung bình phương sai (MSEts ) phương pháp kiểm định giả thuyết Wilcoxon-test với mức α = 0.05 ba điểm đại diện The FIRST point The MEDIAN point The LAST point VS HA-PAES-SG PAESKB HA-PAES-SG PAESKB HA-PAES-SG PAESKB R+ 40.0 45.0 43.0 42.0 45.0 45.0 R 5.0 0.0 2.0 3.0 0.0 0.0 Exact P-value 0.03906 0.003906 0.011718 0.019532 0.003906 0.003906 Confid -interval [0.002 , 0.2355] [0.0655 , 0.631] [0.029 , 0.313] [0.0475 , 0.649] [0.2875 , 0.642] [0.013 , 0.696] Hypoth (H 0) Rejected Rejected Rejected Rejected Rejected Rejected 2.3 Kết luận chương Trong chương luận án đề xuất thuật toán giải toán phân lớp, hồi quy LRBS NNTT từ xác định ĐSGT điều chỉnh thông qua tham số mờ ĐSGT Thuật toán giải bải toán phân lớp sử dụng thuật toán SGERD [39] để sinh luật ứng cử, số luật ứng cử sinh nhỏ so với phương pháp sinh luật tổ hợp từ liệu [50, 52] Kết thử nghiệm cho thấy thuật toán tạo LRBS có tính giải nghĩa độ xác cao thuật toán so sánh Các thuật toán SG MG xây dựng LRBS giải toán hồi quy, thực tối ưu đồng thời NNTT từ, số từ sử dụng cho biến RB không gian tìm kiếm giảm đáng kể sinh luật từ mẫu liệu điều chỉnh ngữ nghĩa tính toán ĐSGT Các kết thử nghiệm so sánh với thuật toán đề xuất [14] [10] cho thấy thuật toán 14 phát triển luận án tốt hai mục tiêu Từ kết phân tích thống kê kết luận thiết kế NNTT từ ngôn ngữ cấu trúc dạng đa thể hạt tốt dạng đơn thể hạt CHƯƠNG TÍNH GIẢI NGHĨA ĐƯỢC CỦA CÁC KHUNG NHẬN THỨC NGÔN NGỮ VÀ BIỂU DIỄN NNTT CỦA CHÚNG 3.1 Vấn đề tính giải nghĩa FRBS Vấn đề tính giải nghĩa FRBS toán chưa giải phương pháp luận quán cách tiếp cận với phương pháp nghiên cứu lô gic truyền thống Các tiếp cận giải vấn đề chủ yếu dựa trực quan để đưa ràng buộc mức khác FRBS Trong chương luận án đề xuất hướng tiếp cận dựa ý tưởng logic truyền thống ĐSGT giải phần vấn đề Trước trình bày chi tiết ràng buộc, luận án trình bày số khái niệm 3.2 Khái niệm khung nhận thức khung nhận thức ngôn ngữ 3.2.1 Khung nhận thức tính giài nghĩa Theo Mencar Fanelli [41] khung nhận thức (Frame of Cognition- FoC) 𝔉 biến 𝔛 tập hữu hạn tập mờ có thứ tự miền tham chiếu 𝔛, gán cho nhãn ngôn ngữ tương ứng 𝔛 Các nhãn ngôn ngữ kết hợp với tập mờ tương ứng FoC 𝔉 𝔛 người dùng sử dụng để mô tả tính chất thực thể dạng ngôn ngữ Về mặt toán học FoC 𝔉 định nghĩa phép gán ngữ nghĩa cho nhãn ngôn ngữ cách ánh xạ nhãn ngôn ngữ 𝔉 tới NNTT chúng Một FoC 𝔉 giải nghĩa người sử dụng có đủ sở tin ngữ nghĩa nhãn ngôn ngữ biểu diễn tập mờ phù hợp với ngữ nghĩa vốn có nhãn ngôn ngữ tương ứng 3.2.2 Khung nhận thức ngôn ngữ Thay sử dụng khái niệm FoC phương pháp tiếp cận dựa lý thuyết tập mờ, luận án đưa khái niệm khung nhận thức ngôn ngữ (Linguistic Frame of Cognition – LFoC) hướng tiếp cận dựa ĐSGT Một LFoC xem tập từ ngôn ngữ mà từ có ngữ nghĩa riêng FoC xem phương 15 pháp biểu diễn NNTT tương ứng với LFoC Chúng ta có định nghĩa hình thức sau Định nghĩa 3.1: [v] Một LFoC 𝔉 biến 𝔛, tập từ 𝔛 sinh từ phần tử sinh {0, c, W, c+, 1} tập H gia tử người dùng thỏa mãn điều kiện sau: (i) {0, c, W, c+, 1}  𝔉; (ii) hx  𝔉  (h’  H) (h’x  𝔉) (hoặc tất từ hx, h H, phải thuộc vào 𝔉, không); (iii) x  𝔉 & x = hx’ & h  H  x’  𝔉 (đóng việc lấy tổ tiên nó) 3.3 Đề xuất ràng buộc tính giải nghĩa LFoC 3.3.1 Ràng buộc ngữ nghĩa vốn có từ Ràng buộc 1: [v] Ngữ nghĩa vốn có từ biến xuất sở luật ngôn ngữ (Linguistic Rule Base-LRB) phải sử dụng để tạo sở hình thức, từ xác định ngữ nghĩa định lượng từ, bao gồm ngữ nghĩa dựa tập mờ, biểu diễn ngữ nghĩa LRB Trong tính toán với từ ràng buộc yêu cầu tự nhiên cần thiết ánh xạ từ tập từ với cấu trúc tính toán yếu vào cấu trúc tính toán đủ giầu Trên quan điểm toán học, tập mờ gắn với từ ảnh tính toán tương ứng Nó gán người thiết kế LRBS, mục đích thực xử lý với ngữ nghĩa từ 3.3.2 Ràng buộc phương pháp xác định NNTT từ Chúng ta thấy miền từ biến ngôn ngữ phải hình thức hóa phương pháp xây dựng LRBS chủ yếu phát triển dựa thuật toán tiến hóa Vì vậy, để thuận lợi cho việc phát triển thuật toán phải có thủ tục để xác định NNTT từ, điều khiển, kiểm soát trình hiệu chỉnh ngữ nghĩa từ nhằm đảm bảo tính giải nghĩa LRBS mức từ Từ yêu cầu này, đưa ràng buộc sau đây: Ràng buộc 2: [v] NNTT từ, kể ngữ nghĩa dựa tập mờ, phải sinh phương pháp hình thức thích hợp miền từ biến ngôn ngữ chúng cần sinh thủ tục phát triển dựa phương pháp hình thức 3.3.3 Ràng buộc ngữ nghĩa khoảng từ Trong [49] rằng, ngữ nghĩa từ trở nên mờ chúng vào nhiều phần tử khác giới thực Vì vậy, Nguyễn Cát Hồ cộng gọi khía cạnh ngữ nghĩa ‘ngữ nghĩa khoảng’ từ 16 Ngữ nghĩa khoảng khái niệm hữu dụng cho việc đề xuất ràng buộc tính giải nghĩa ngữ nghĩa vốn có từ ngôn ngữ nhằm bảo toàn tính khái quát tính đặc tả từ Kí hiệu: 𝔖 tập từ LFoC biến 𝔛, Itv tập khoảng vũ trụ biến 𝔛 Ràng buộc 3: [v] Cho tập từ 𝔖 LFoC biến 𝔛, phép gán 𝔄: 𝔖 → Itv, phải bảo toàn mối quan hệ tính khái quát tính đặc tả từ, tức với hai từ x, hx  𝔖, h gia tử (hx)  𝔄(x) Ví dụ: (very very tall)  (very tall)  (tall) 3.3.4 Ràng buộc ngữ nghĩa thứ tự từ Xét biến ngôn ngữ 𝔛j với j = 1, , n+1, luật mờ rq: If 𝔛1 is Aq1 and … and 𝔛n is Aqn then 𝔛n+1 is Aq(n+1) (3.1) Trong [50, 52] Nguyễn Cát Hồ cộng chứng tỏ ngữ nghĩa thứ tự từ biến quan trọng cần thiết cho sống hàng ngày người, đặc biệt để người làm định Theo luật ngôn ngữ biểu diễn mối quan hệ miền từ biến xét phương diện quan hệ ngữ nghĩa thứ tự chúng Do ngữ nghĩa luật rq phải định nghĩa quan hệ ngữ nghĩa thứ tự miền từ biến Vì vậy, đòi hỏi phép gán ngữ nghĩa ℑ cho từ biến 𝔛 có mặt luật phải chuyển tải ngữ nghĩa thứ tự từ tới tập mờ (ký hiệu C(𝔛)) luật Cụ thể, yêu cầu ℑ ánh xạ, phải bảo toàn cấu trúc dựa thứ tự miền từ 𝔛, tức ℑ phải song ánh Ràng buộc 4: [v] Để bảo toàn ngữ nghĩa thứ tự luật ngôn ngữ, phép gán NNTT ℑ : Dom(𝔛) → C(𝔛) từ biến 𝔛 luật phải bảo toàn ngữ nghĩa thứ tự từ 𝔛 định nghĩa quan hệ thứ tự ≼ phù hợp C(𝔛) ℑ phải song ánh Ví dụ: ℑ (very bad) ≼ ℑ (bad) ≼ ℑ (good) ≼ ℑ (very good) 3.4 Biểu diễn NNTT dựa tập mờ từ LFoC 3.4.1 Biểu diễn đơn thể hạt LFoC Đặt 𝔉𝔛 LFoC 𝔛 thỏa mãn định nghĩa 3.1 𝔳𝔛 ánh xạ định lượng ngữ nghĩa xác định giá trị tham số tính mờ fm(c)  (h), h  H \{hp} cho trước Khi biểu diễn đơn thể hạt LFoC xây dựng hình 2.1 ví dụ 17 Để kiểm tra tính đắn tính giải nghĩa LFoC, luận án xem xét 𝔉𝔛 thỏa mãn ràng buộc đề xuất mục 3.3 Trước hết, định nghĩa quan hệ thứ tự tập mờ tam giác, tập mờ mô tả ba tham số (a, b, c) Định nghĩa 3.2: [v] Với hai tập mờ tam giác xác định ba giá trị (a, b, c) (d, e, f) định nghĩa tập vũ trụ chuẩn hóa đoạn [0, 1] biến 𝔛 Các tập mờ (a, b, c) (d, e, f) có quan hệ thứ tự (a, b, c) ≼ (d, e, f) thỏa mãn điều kiện sau đây: (i) Thứ tự mạnh ≼ s : (a, b, c)≼ s (d, e, f) b < e & a < d & c < f; (ii) Thứ tự trung bình ≼ m: (a, b, c) ≼ m (d, e, f) b < e & (a < d & c ≥f c < f & a ≥d); (iii) Thứ tự yếu ≼ w (ít hai tam giác vuông nằm vị trí vũ trụ): (a, b, c) ≼ w (d, e, f) điều kiện sau thỏa mãn: (aD) (b = e = a = d =  c < f); (bD) (b = e = c = f =  a < d); (cD) ((a > d & c = f = e = 1) (c > f & a = d = b = 0))  b < e Định lý 3.1: [v] Xét biến 𝔛 miền từ tương ứng, X = Dom(𝔛), xem ĐSGT, AX = (X, G, C, H, ) Cho giá trị tham số tính mờ 𝔛, fm(c)  (h), h  H \ {hp}, biểu diễn đơn thể hạt 𝔉𝔛 xây dựng thủ tục có tính chất sau: (i) Biểu diễn đơn thể hạt xác định nhất, thỏa mãn ràng buộc 1, 2; (ii) thỏa mãn ràng buộc 4, tức bảo toàn thứ tự từ 𝔉𝔛 với quan hệ thứ tự ≼ định nghĩa 3.2 (iii) Không thỏa mãn ràng buộc 3, độ hỗ trợ tập mờ tam giác (ngữ nghĩa khoảng) gán cho từ không bảo toàn tính khái quát tính đặc tả từ 𝔉𝔛 3.4.2 Biểu diễn đa thể hạt LFoC Giả sử X = Dom(𝔛), tập hợp tất từ 𝔛, chia thành tập Xk , k = đến, tập bao gồm từ mức đặc tả Hình 2.6 ví dụ minh họa cấu trúc đa thể hạt phát triển luận án Định lý 3.2: [v] Xét biến 𝔛 miền hạng từ nó, X = Dom(𝔛), xem ĐSGT AX = (X, G, C, H, ) 𝔛 Với giá trị 18 tham số tính mờ fm(c)  (h), h  H \ {hp} mức đặc tả k > cho trước, biểu diễn NNTT LFoC 𝔉𝔛 dạng đa thể hạt xây dựng theo thủ tục có tính chất sau: (i) Biểu diễn đa thể hạt xác định nhất, thỏa mãn ràng buộc 1, 2; (ii) Thỏa mãn ràng buộc 3, bảo toàn quan hệ tính khái quát tính đặc tả từ Tức là, xem độ hỗ trợ tập mờ tam giác biểu thị ngữ nghĩa từ x ngữ nghĩa khoảng nó, ký hiệu i(x), với hx  𝔉𝔛, h  H, có i𝔖(hx)  i𝔖(x); (iii) Phép gán 𝔄 : x → Trg(x), định nghĩa biểu diễn đa thể hạt 𝔉𝔛, Trg(x) biểu thị tam giác xây dựng cho từ x, song ánh Khi với hai từ x y thỏa mãn x < y quan hệ thứ tự Trg(x) ≼ Trg(y) điều kiện sau thỏa mãn: (aT) Với x, y {0l, 1l : l = 0, 1, …, k}, ta có Trg(x) ≼sw Trg(y), theo (i) (aD) (bD) (iii) định nghĩa 2.2; (bT) Ngược lại, với x, y thuộc Xl \ {0l, 1l}, mức l, có: (*) Trg(x) ≼ smw Trg(y), viết Trg(x) ≼ Trg(y), tức tất (i), (ii) (iii) định nghĩa 3.2 sử dụng; (**)Trg(x) ≼w Trg(y) xảy y = 1j, x  Xl \ {0l, 1l}, j < l x lận cận 1l, x = 0j, y  Xl \ {0l, 1l}, j < l y lân cận 0l Hơn nữa, tồn x’ mức với y khái quát x Trg(x’) ≼m Trg(y) 3.5 Phát triển thuật toán xây dựng LRBS giải toán hồi quy Trong chương này, luận án phát triển thuật toán tiến hóa gọi HA-PAES-MG-Kmax (MG-Kmax) xây dựng LRBS giải toán hồi quy, tính giải nghĩa được định nghĩa theo hướng tiếp cận 3.5.1 Thiết kế ngữ nghĩa tính toán (phân hoạch mờ) Như trình bày trên, thuật toán phát triển dựa khái niệm phương pháp thiết kế NNTT từ LFoC Trong thuật toán HAPAES-SG-Kmax sử dụng phương pháp thiết kế NNTT dạng đơn thể hạt LFoC thuật toán HA-PAES-MG-Kmax sử dụng phương pháp thiết kế dạng đa thể hạt LFoC Thuật toán HA-PAES-MG-Kmax xem thuật toán đề xuất chương luận án 19 3.5.2 Mã hóa cá thể Giả thiết biến 𝔛j có gia tử dương Vj gia tử âm Lj, LFoC 𝔉j 𝔛j tập gồm từ ngôn ngữ có độ dài nhỏ 3, Xj(3) với j =1, ,n Mỗi cá thể mã hóa gồm hai phần: Cµ biểu diễn tham số tính mờ tương ứng với ĐSGT biến CRB biểu diễn RB Mỗi luật mã hóa véc tơ gồm n+1 số nguyên Giả thiết từ 𝔉j  {Don’tcare} đánh số sau: giả sử ta có 𝔉j  {Don’tcare} = {yjk : k = 0, 1, …, T}, tất từ yjk mã hóa số k, với k = 0, 1, …, T j = 1, …, n+1 , yj0 = “Don’tcare”, có nghĩa “Don’tcare” có số “0” Khi đó, luật ngôn ngữ rq với giả thiết có 𝐴𝑞𝑗 = 𝑦𝑗𝑘𝑞𝑗 mã hóa véc tơ (kq1, …, kqn, kq(n+1)) Các luật RB sinh hàm GenerateRule từ mẫu liệu tương tự [5] với tham số tính mờ Cµ r1 L1  𝐶1− − … Ln+1  𝐶𝑛+1 k 11 rM … k k 1(n+1) k M1 … k Mn 1n Hình 3.4 Cấu trúc mã hóa cá thể 3.5.3 Thuật toán tiến hóa Các toán tử lại ghép, đột biến tương tự thuật toán HA-PAES-MG chương phần Cµ CRB Thuật toán tiến hóa đa mục tiêu phát triển dựa lược đồ tiến hóa (2+2)M-PAES [16] 3.5.4 Kết thử nghiệm Chúng tiến hành thử nghiệm thuật toán tương tự [10] Các tham số cho bảng 2.10, Mmax = 30 1) So sánh biểu diễn đa thể hạt đơn thể hạt LFoC Tiến hành thử nghiệm đối sánh hai thuật toán MG-Kmax SG-Kmax Ở giới hạn chiều dài tối đa từ kmax = nhằm đảm bảo NNTT từ với phân hoạch đơn thể hạt không đặc tả Kết thử nghiệm điểm FIRST giá trị trung bình điểm MEDIAN LAST tổng hợp bảng 3.2 Từ bảng 3.2 cho thấy biểu diễn đa thể hạt LFoC tốt nhiều đơn thể hạt tiêu chí xem xét pha kiểm tra pha huấn 20 luyện Từ kết phân tích thống kê bảng 3.3 3.4 cho thấy có khác biệt hai mục tiêu phân tích Kết phù hợp với ý tưởng trình bày từ với cấp độ khái quát cao làm giảm độ phức tạp tăng tính xác LRBS Bảng 3.2 Kết trung bình đạt HA-PAES-MG-Kmax HA-PAESSG-Kmax điểm FIRST HA-PAES-MG-Kmax Dataset ELE1 ELE2 WA WI TR AB MT G CA PT FIRST Me dian Last #R Mean Mean Mean Comp HA-PAES-SG-Kmax MSEtr SD’ tr MSEts SD’ ts #R Comp MSEtr SD’ tr MSEts SD’ ts Diff SG 11.40 18.17 163429 0.025 197301 0.166 25.10 40.13 16282 0.038 198924 0.181 -0.01 16.47 32.27 10816 0.174 12232 0.226 25.43 54.07 25300 0.285 27031 0.247 -0.55 16.37 44.03 1.03 0.061 1.11 0.123 24.77 60.83 1.30 0.201 1.45 0.205 -0.23 11.67 21.80 0.89 0.092 0.97 0.199 20.10 39.77 0.93 0.126 1.01 0.137 -0.04 14.63 41.63 0.03 0.091 0.04 0.350 25.43 70.77 0.07 0.424 0.07 0.370 -0.48 10.17 26.67 2.43 0.046 2.48 0.075 20.50 58.73 2.32 0.022 2.40 0.073 0.03 14.20 38.47 0.01 0.262 0.02 0.419 18.00 43.70 0.03 0.522 0.04 0.700 -0.58 9.80 23.77 5.21 0.177 5.72 0.261 9.60 24.00 7.93 0.147 8.36 0.178 -0.32 10.77 35.77 86.29 89.65 0.168 11.90 38.23 97.22 0.103 -0.12 31.40 0.221 20.09 47.80 0.123 0.210 101.95 12.83 0.150 0.120 8.66 15.83 0.120 0.212 11.99 22.08 5.00 5.00 0.260 0.298 5.00 5.00 0.244 -0.26 0.189 0.236 -0.25 0.199 0.300 -0.22 Bảng 3.3 So sánh độ phức tạp (Comp) hệ luật phương pháp kiểm định giả thuyết Wilcoxon-test với mức α = 0.05 ba điểm đại diện Point FIRST MEDIAN LAST VS R+ R HA-PAES-SG-Kmax HA-PAES-SG-Kmax HA-PAES-SG-Kmax 45 45 18 0 18 Exact P-value Confid -interval Exact-confid Hypoth (H0 ) 0.003906 0.003906 ≥ 0.2 [-25.55 , -8.515] [-9.515 , -3.57] [0, 0] 0.96094 0.96094 0.96094 Rejected Rejected Not Rejected Bảng 3.4 So sánh trung bình phương sai (MSEts ) phương pháp kiểm định giả thuyết Wilcoxon-test với mức α = 0.05 ba điểm đại diện Point FIRST MEDIAN LAST VS R+ HA-PAES-SG-Kmax HA-PAES-SG-Kmax HA-PAES-SG-Kmax 43 43 42 R 2 Exact P-value Confid -interval Exact-confid Hypoth (H0 ) 0.011718 0.011718 0.019532 [0.04 , 0.48] [0.04 , 0.49] [0.07 , 0.39] 0.96094 0.96094 0.96094 Rejected Rejected Rejected 2) So sánh với thuật toán HA-PAES-MG PAES KB Chúng thực nghiên cứu thử nghiệm máy tính để đối sánh thuật toán: MG-Kmax, HA-PAES-MG (viết tắt MG-Kopt) PAESKB Các kết thử nghiệm điểm FIRST giá trị trung bình điểm MEDIAN, LAST trình bày bảng 3.5, 3.6, 3.7 Từ bảng 3.6 cho thấy khác biệt thống kê thuật toán MGKmax với thuật toán đối sánh độ phức tạp RB Nhưng từ bảng 4.4 cho thấy thuật toán MG-Kmax tạo LRBS có độ phức tạp giảm so với thuật toán PAES KB tập liệu với mức giảm từ 9% đến 47%, tăng tập liệu với mức 1% (ELE1), 97.5% (TR) 21 4% (CA) Mặc dù độ phức tạp LRBS tạo từ thuật toán đề xuất tập liệu TR tăng gấp hai so với PAES KB, độ xác lại tăng gấp 4.7 lần Về hiệu thực MSEts , từ bảng 3.7 cho thấy có khác biệt thống kê thuật toán MG-Kmax với thuật toán PAES KB, quan sát giá trị DiffKB thấy kết MSEts MG-Kmax tốt PAES KB số tập liệu Từ kết luận thuật toán đề xuất tạo LRBS có độ xác tốt FRBS tạo từ thuật toán PAESKB So với thuật toán MG-Kopt, kết thống kê khác biệt đáng kể MG-Kmax MG-Kopt Tuy nhiên, dường MG-Kmax có xu hướng tốt MG-Kopt mà tốt tập liệu pha kiểm tra Hai thuật toán MG-Kmax MG-Kopt tương tự ngoại trừ giới hạn độ dài tối đa từ LFoC Với MGKmax cố định số nguyên Kmax cho tất biến Với MGKopt chúng xem tham số điều chỉnh giới hạn từ đến Kmax Do đó, không gian tìm kiếm MG-Kmax bao hàm không gian tìm kiếm MG-Kopt Vì lời giải tối ưu tìm thấy MG-Kopt tìm thấy MG-Kmax số hệ thiết lập lớn Tập liệu Bảng 3.5 Kết trung bình đạt HA-PAES-MG-Kmax (Kmax), HA-PAES-MG-Kopt (Kopt) PAESKB (KB) điểm FIRST #R Kmax Kopt Comp KB Kmax Kopt MSEtr KB Kmax Kopt KB Kmax SD’tr MSEts Kopt Diff Kop KB Kmax Kopt SD’ts KB Diff KB Kmax Kopt KB t 14312 14302 14599 19937 19800 19402 ELE1 27.37 25.47 27.00 46.43 43.53 46.00 0.041 0.052 0.026 0.007 0.027 5 ELE2 28.73 28.37 30.00 56.80 64.03 65.00 8829 7603 11043 0.157 0.197 0.251 10703 8575 0.199 12606 0.151 103.0 WA 25.00 23.60 28.00 58.17 68.90 1.04 0.96 1.64 0.060 0.061 0.024 1.26 1.09 0.132 3.92 0.679 WI 24.30 18.57 25.00 47.97 38.17 91.00 0.81 0.80 1.30 0.067 0.077 0.208 0.91 0.92 -0.015 1.49 0.391 29.63 27.30 11.00 79.00 82.83 40.00 0.02 0.03 0.08 0.111 0.102 0.500 0.03 0.04 -0.060 0.14 TR 0.755 107.0 21.00 16.47 29.00 66.30 49.67 2.29 2.32 2.32 0.021 0.024 0.034 2.40 2.42 -0.007 2.48 AB 0.031 0.01 0.01 0.05 0.190 0.254 0.400 0.022 0.019 0.117 0.09 MTG 18.00 18.00 12.00 35.57 45.87 49.00 0.760 12.80 10.07 10.00 31.23 24.27 30.00 5.18 5.03 11.99 0.140 0.088 0.249 4.86 5.22 -0.070 13.43 CA 0.638 16.60 11.20 14.00 48.27 38.80 53.00 66.05 82.91 87.00 0.226 0.393 0.299 69.86 84.71 -0.175 89.00 PT 0.215 Mean 22.60 19.89 20.67 52.19 50.67 64.89 0.113 0.139 0.221 0.014 FIRST 0.399 Mean 13.20 11.61 12.56 23.96 22.90 25.78 0.132 0.146 0.261 -0.102 MED 0.443 Mean 5.00 5.01 5.00 5.00 5.00 5.00 0.265 0.322 0.527 0.086 LAST 0.434 0.167 0.181 0.128 0.227 0.206 0.246 0.140 0.095 2.365 0.169 0.232 0.174 0.343 0.585 1.071 0.064 0.068 0.073 0.568 0.790 1.111 0.173 0.165 0.347 0.252 0.366 0.281 0.234 0.299 0.644 0.262 0.242 0.587 0.317 0.370 0.654 Từ phân tích cho thấy thuật toán đề xuất MG-Kmax tạo LRBS không giải nghĩa ngữ cảnh 22 mới, mà đạt độ xác cao thuật toán PAES KB Alcalá cộng [10], chúng phát triển lược đồ tiến hóa Bảng 3.6 So sánh độ phức tạp hệ luật (Comp) phương pháp kiểm định giả thuyết Wilcoxon-test với mức α = 0.05 ba điểm đại diện Point FIRST MEDIAN LAST VS HA-PAES-MG-Kopt PAESKB HA-PAES-MG-Kopt PAESKB HA-PAES-MG-Kopt PAESKB R+ 21 36 15 29 27 18 R 24 30 16 18 18 Exact P-value ≥ 0.2 0.1289 ≥ 0.2 0.406941 ≥ 0.2 ≥ 0.2 Confid –interval [-7.28 , 9.765] [-40.7 , 12.785] [-1.385 , 3.685] [-9.52 , 6.665] [-0.015 , 0] [0, 0] Exact-confid 0.96094 0.96094 0.96094 0.96094 0.96094 0.96094 Hypoth (H0 ) Not Rejected Not Rejected Not Rejected Not Rejected Not Rejected Not Rejected Bảng 3.7 So sánh trung bình phương sai (MSEts ) phương pháp kiểm định giả thuyết Wilcoxon-test với mức α = 0.05 ba điểm đại diện Point FIRST MEDIAN LAST VS HA-PAES-MG-Kopt PAESKB HA-PAES-MG-Kopt PAESKB HA-PAES-MG-Kopt PAESKB R+ 21.5 44 21 43 15 44 R 23.5 24 30 Exact P-value ≥ 0.2 0.007812 ≥ 0.2 0.011718 ≥ 0.2 0.007812 Confid -interval [-0.117 , 0.07] [0.094 , 0.699] [-0.152 , 0.0635] [0.051 , 0.669] [-0.196 , 0.0235] [0.214 , 0.638] Exact-confid 0.96094 0.96094 0.96094 0.96094 0.96094 0.96094 Hypoth (H0 ) Not Rejected Rejected Not Rejected Rejected Not Rejected Rejected 3.6 Kết luận chương Trong chương luận án thảo luận tính giải nghĩa FRBS theo hướng tiếp cận dưa lý thuyết tập mờ Phát biểu khái niệm LFoC sở khái niệm FoC lý thuyết ĐSGT Luận án đề xuất ràng buộc tính giải nghĩa theo hướng tiếp cận ĐSGT LRBS: ràng buộc vai trò ngữ nghĩa từ, ràng buộc phương pháp xác định NNTT từ, ràng buộc ngữ nghĩa khoảng từ, ràng buộc ngữ nghĩa thứ tự từ Luận án đề xuất phương pháp thiết kế NNTT từ dạng cấu trúc đa thể hạt cho từ LFoC thỏa mãn ràng buộc đề xuất, phát biểu chứng minh định lý tính đắn phương pháp thiết kế NNTT Trong chương này, luận án đề xuất thuật toán HA-PAES-MG-Kmax phát triển dựa lược đồ tiến hóa (2+2)M-PAES, ĐSGT khái niệm LFoC Thuật toán thử nghiệm đối sánh với MG-Kmax, MGKopt, PAESKB Kết phân tích thống kê cho thấy thuật toán MG-Kmax tạo LRBS thỏa mãn ràng buộc tính giải nghĩa đề xuất luận án, mà tạo LRBS có tính giải nghĩa cao theo hướng tiếp cận dựa độ phức tạp đồng thời có độ xác cao thuật toán đối sánh 23 KẾT LUẬN CỦA LUẬN ÁN Với mục tiêu đặt ra, luận án đạt số kết sau đây: 1) Đề xuất thuật toán xây dựng LRBS giải toán phân lớp thuật toán xây dựng LRBS giải toán hồi quy với mục tiêu tính giải nghĩa LRBS định nghĩa dựa độ phức tạp 2) Đề xuất hướng tiếp cận tính giải nghĩa LRBS dựa ĐSGT đề xuất ràng buộc tính giải nghĩa LRBS theo hướng tiếp cận 3) Phát biểu khái niệm LFoC dựa lý thuyết ĐSGT đề xuất phương pháp thiết kế NNTT từ LFoC thỏa mãn ràng buộc đề xuất Đề xuất thuật toán HA-PAES-MG-Kmax xây dựng LRBS từ liệu giải toán hồi quy với mục tiêu tính giải nghĩa được định nghĩa theo hướng tiếp cận đề xuất luận án Từ kết đạt luận án, rút số kết luận sau đây: 1) Phương pháp sinh luật từ mẫu liệu điều chỉnh NNTT từ ngôn biểu diễn tập mờ tham số tính mờ ĐSGT làm giảm không gian tìm kiếm không làm giảm độ xác LRBS 2) Phương pháp thiết kế NNTT từ ngôn ngữ biểu diễn tập mờ với phân hoạch mờ dạng đa thể hạt tốt dạng đơn thể hạt 3) Các thuật toán phát triển dựa phương pháp luận ĐSGT có xu hướng làm giảm độ phức tạp nâng cao độ xác LRBS sinh Mặc dù luận án đạt kết tốt, nhiên kết nghiên cứu chủ yếu tập trung vào giải toán phân lớp hồi quy dạng tổng quát mà chưa giải toán có đặc trưng riêng số chiều lớn, số mẫu liệu lớn, liệu phân bố không đều,… Các toán đòi hỏi phải có kỹ thuật riêng Thêm vào luận án đề xuất hướng tiếp cận cho vấn đề tính giải nghĩa LRBS đề xuất ràng buộc mức từ (mức thấp), chưa nghiên cứu đến tính giải mức sở luật (mức cao) Đó vấn đề mở, thời gian tới tiếp tục nghiên cứu giải vấn đề 24 CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN [i] Nguyễn Văn Long, Hoàng Văn Thông, Vấn đề kết nhập thông tin biểu diễn với ngữ nghĩa dựa Đại số gia tử, Tin học điều khiển học, Tập 27 số 3, 2011, trang 241-253 [ii] Nguyễn Cát Hồ, Hoàng Văn Thông, Nguyễn Văn Long, Một phương pháp tiến hóa sinh hệ luật mờ với ngữ nghĩa thứ tự ngôn ngữ, Tin học điều khiển học, Tập 28 số 4, 2012, trang 333345 [iii] Nguyễn Cát Hồ, Hoàng Văn Thông, Nguyễn Văn Long, Một phương pháp sinh hệ luật mờ Mamdani cho toán hồi quy với ngữ nghĩa Đại số gia tử, Tin học điều khiển học, Tập 30 số 3, 2014, pp 227-238 [iv] Hoàng Văn Thông, Nguyễn Cát Hồ, Nguyễn Đức Dư, Một phương pháp tiến hóa đa mục tiêu sinh hệ luật mờ Mamdani với từ ngôn ngữ ngữ nghĩa định tính cho toán hồi quy, Tạp chí Công nghệ thông tin & truyền thông, Chuyên san: “Các Công trình Nghiên cứu, Phát triển Ứng dụng Công nghệ thông tin Truyền Thông”, Tập V-1, Số 12, 2014, 5-13 [v] Cat Ho Nguyen, Van Thong Hoang, Van Long Nguyen, A discussion on interpretability of linguistic rule base systems and its application to solve regression problems, Knowledge-Based Systems, Vol 88, 2015, pp 107-133 25 [...]... Cát Hồ và cộng sự đã gọi khía cạnh ngữ nghĩa này là ngữ nghĩa khoảng’ của từ 16 Ngữ nghĩa khoảng là một khái niệm hữu dụng cho việc đề xuất ràng buộc tính giải nghĩa được trên ngữ nghĩa vốn có của từ ngôn ngữ nhằm bảo toàn tính khái quát và tính đặc tả của các từ Kí hiệu: 𝔖 là tập từ của một LFoC của một biến 𝔛, Itv là một tập các khoảng của vũ trụ của biến 𝔛 Ràng buộc 3: [v] Cho một tập từ 𝔖 của một... tiên của nó) 3.3 Đề xuất các ràng buộc tính giải nghĩa được trên các LFoC 3.3.1 Ràng buộc ngữ nghĩa vốn có của từ Ràng buộc 1: [v] Ngữ nghĩa vốn có của các từ của một biến xuất hiện trong một cơ sở luật ngôn ngữ (Linguistic Rule Base-LRB) phải được sử dụng để tạo ra một cơ sở hình thức, từ đó xác định ngữ nghĩa định lượng của từ, bao gồm cả ngữ nghĩa dựa trên tập mờ, trong biểu diễn ngữ nghĩa của LRB... mô tả các tính chất của các thực thể dưới dạng ngôn ngữ Về mặt toán học thì mỗi FoC 𝔉 định nghĩa một phép gán ngữ nghĩa cho các nhãn ngôn ngữ bằng cách ánh xạ các nhãn ngôn ngữ của 𝔉 tới NNTT của chúng Một FoC 𝔉 là giải nghĩa được nếu người sử dụng có đủ cơ sở tin rằng ngữ nghĩa của các nhãn ngôn ngữ được biểu diễn bằng các tập mờ phù hợp với ngữ nghĩa vốn có của các nhãn ngôn ngữ tương ứng 3.2.2 Khung... Hồ và các cộng sự chứng tỏ rằng ngữ nghĩa thứ tự của các từ của các biến là quan trọng và cần thiết cho cuộc sống hàng ngày của con người, và đặc biệt để con người làm quyết định Theo chúng tôi thì bất kỳ luật ngôn ngữ nào cũng biểu diễn một mối quan hệ giữa các miền từ của các biến xét về phương diện quan hệ ngữ nghĩa thứ tự của chúng Do đó ngữ nghĩa của luật rq phải được định nghĩa trên quan hệ ngữ. .. sau đây: Ràng buộc 2: [v] NNTT của các từ, kể cả ngữ nghĩa dựa trên tập mờ, phải được sinh ra bằng một phương pháp hình thức thích hợp trên miền từ của biến ngôn ngữ và chúng cần được sinh ra bằng một thủ tục được phát triển dựa trên chính phương pháp hình thức đó 3.3.3 Ràng buộc ngữ nghĩa khoảng của từ Trong [49] chỉ ra rằng, ngữ nghĩa của các từ trở nên mờ vì chúng chỉ vào nhiều phần tử khác nhau... của các biến độc lập (thuộc tính đầu vào) 𝔛j của bài toán, với j = 1, ,n; yi  Un+1  R (tập số thực) là miền xác định của biến phụ thuộc (thuộc tính đầu ra) 𝔛n+1, N là số mẫu dữ liệu Từ tập dữ liệu mẫu D xây dựng một hệ mờ cho phép tính giá trị yˆ  Un+1 ứng với mỗi giá trị đầu vào p  U = U1   Un Giải bài toán hồi quy bằng FRBS là đi xây dựng một hệ luật mờ S để ánh xạ tập dữ liệu đầu vào U vào. .. Trong tính toán với từ ràng buộc này là một yêu cầu tự nhiên và cần thiết khi ánh xạ từ tập các từ với cấu trúc tính toán yếu vào một cấu trúc tính toán đủ giầu Trên quan điểm toán học, các tập mờ được gắn với các từ chỉ là ảnh tính toán tương ứng Nó được gán bởi người thiết kế LRBS, trong khi mục đích thực sự của chúng ta là xử lý với ngữ nghĩa của các từ 3.3.2 Ràng buộc phương pháp xác định NNTT của từ. .. (MG-Kmax) xây dựng LRBS giải bài toán hồi quy, trong đó tính giải nghĩa được được định nghĩa theo hướng tiếp cận mới 3.5.1 Thiết kế ngữ nghĩa tính toán (phân hoạch mờ) Như trình bày ở trên, thuật toán được phát triển dựa trên khái niệm và phương pháp thiết kế NNTT của từ của LFoC Trong đó thuật toán HAPAES-SG-Kmax sử dụng phương pháp thiết kế NNTT dạng đơn thể hạt của LFoC và thuật toán HA-PAES-MG-Kmax sử dụng. .. bài toán phân lớp và 2 thuật toán xây dựng LRBS giải bài toán hồi quy với mục tiêu tính giải nghĩa được của LRBS được định nghĩa dựa trên độ phức tạp 2) Đề xuất một hướng tiếp cận mới về tính giải nghĩa được của LRBS dựa trên ĐSGT và đề xuất các ràng buộc tính giải nghĩa được của LRBS theo hướng tiếp cận mới này 3) Phát biểu khái niệm LFoC dựa trên lý thuyết ĐSGT và đề xuất phương pháp thiết kế NNTT của. .. Khi xây dựng các FRBS cho bài toán hồi quy, các luật sử dụng trong RB thường là luật mờ Mamdani Trong chương này luận án đề xuất hai thuật toán được gọi là HA-PAES-SG và HA-PAES-MG dựa trên lược đồ tiến hóa (2+2)M-PAES và ĐSGT xây dựng LRBS giải bài toán này Trong đó tính giải nghĩa được của LRBS được định nghĩa dựa trên độ phức tạp 2.2.2 Thuật toán HA-PAES-SG Thuật toán cho phép học đồng thời ngữ nghĩa

Nghiên cứu ngữ nghĩa tính toán của từ ngôn ngữ và ứng dụng vào việc xây dựng hệ mờ tối ưu dựa trên luật tt

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan