DỰ ĐOÁN SỰ HÀI LÒNG VỀ CHẤT LƯỢNG DỊCH VỤ TƯỚI TIÊU TẠI ĐỒNG BẰNG SÔNG HỒNG DÙNG CÁC MÔ HÌNH HỒI QUY

13 642 0
DỰ ĐOÁN SỰ HÀI LÒNG VỀ CHẤT LƯỢNG DỊCH VỤ TƯỚI TIÊU TẠI ĐỒNG BẰNG SÔNG HỒNG DÙNG CÁC MÔ HÌNH HỒI QUY

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài trình bày Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công Nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 DỰ ĐOÁN SỰ HÀI LÒNG VỀ CHẤT LƯỢNG DỊCH VỤ TƯỚI TIÊU TẠI ĐỒNG BẰNG SÔNG HỒNG DÙNG CÁC MÔ HÌNH HỒI QUY Nguyễn Thanh Tùng1 Khoa Công nghệ thông tin, Trường Đại học Thủy Lợi tungnt@tlu.edu.vn TÓM TẮT—Việc xác định mức độ hài lòng người dân dịch vụ tưới tiêu sách thủy lợi phí có ảnh hưởng lớn đến tổ chức quản lý khai thác công trình thuỷ lợi, ngân sách quốc gia an sinh xã hội Trong báo này, mô hình hồi quy áp dụng cho phân tích hồi quy đa biến nhằm mục đích dự đoán độ hài lòng người dân hệ thống tưới tiêu đồng sông Hồng Kết thực nghiệm cho thấy mô hình hồi quy phi tuyến cho kết tốt mô hình tuyến tính, tính đa dạng khả thi mô hình dự đoán áp dụng để xử lý toán kinh tế lĩnh vực quản lý tài nguyên nước Từ khóa— Hồi quy đa biến, LASSO, k láng giềng, mạng nơ-ron, véc-tơ hỗ trợ hồi quy, rừng ngẫu nhiên hồi quy, khai phá liệu, máy học I ĐẶT VẤN ĐỀ Với hệ thống tưới tiêu cụ thể Việt Nam, việc đánh giá mức độ hài lòng hộ dùng nước tác động lớn đến sách thủy lợi phí Chính phủ Từ nghiên cứu, phân tích định lượng liên quan đến hài lòng người dân giúp Chính phủ điều chỉnh sách thủy lợi phí phù hợp nhằm nâng cao chất lượng dịch vụ tưới tiêu nông nghiệp Trong nghiên cứu này, mô hình hồi quy tiên tiến nghiên cứu để phân tích, dự đoán mức độ hài lòng người dân vùng đồng sông Hồng, từ lựa chọn mô hình phù hợp để áp dụng xử lý toán kinh tế, thủy văn thực tiễn Xét mô hình hồi quy tổng quát để giải toán xác định mức độ hài lòng hộ dân dùng dịch vụ nước tưới tiêu, thông thường viết sau: Y = f(X) + ϵ, (1) ϵ lỗi mô hình, E(ϵ) = 0, Var(ϵ) = σ Tập liệu đầu vào ℒ = (X , Y ) dùng để xây dựng mô hình hồi quy thu thập, khảo sát độc lập từ hộ dùng nước với tiêu chí quan sát X (predictor features) biến đích Y (response feature) lưu giá trị đánh giá mức độ hài lòng hộ dùng nước Trong biểu thức (1), X ∈ ℝ Y ∈ ℝ biến ngẫu nhiên với xác suất , cụ thể, (X = x, Y = y) xác suất mà biến ngẫu nhiên X, Y nhận giá trị x y Ở đây, M số chiều tập liệu đầu vào N số mẫu thu thập Mục tiêu toán hồi quy tìm mô hình mà giá trị ước lượng dự đoán hàm f(∙) có trung bình sai số bình phương (mean squared errors) nhỏ tốt Các mô hình hồi quy trình bày báo dùng hàm f: ℝ → ℝ ước lượng giá trị y ∈ Y tương ứng với liệu đầu vào x ∈ ℝ Các nghiên cứu đánh giá độ hài lòng hộ dùng nước tưới tiêu nói riêng toán kinh tế lượng nói chung Việt Nam, sau bước khảo sát tiền xử lý số liệu, mô hình hồi quy tuyến tính thường sử dụng để phân tích biến thiên số liệu, dự báo mẫu tương lai Mô hình tuyến tính ưa dùng dễ sử dụng, dễ cài đặt việc diễn giải kết dễ hiểu Tuy nhiên, kết hồi quy dùng mô hình tuyến tính thường có lỗi dự báo cao gặp khó khăn liệu phức tạp có số liệu trống (missing value), số liệu dạng số, số lượng biến giải thích gấp nhiều lần so với số lượng mẫu Ngoài ra, lớp mô hình tuyến tính cần giả định phân bố chuẩn, liệu quan hệ tuyến tính để có kết dự báo hợp lý Trong nghiên cứu này, mô hình hồi quy tuyến tính nhiều biến phi tuyến nghiên cứu áp dụng cho toán xác định mức độ hài lòng hộ dùng nước tưới tiêu đồng sông Hồng Kỹ thuật kiểm tra chéo (kfolds cross validation) [10] sử dụng cho mô hình hồi quy tập huấn luyện để tìm tham số tối ưu dùng cho dự đoán liệu kiểm thử Độ đo quan trọng tiêu chí liên quan đến hài lòng hộ dùng nước tưới tiêu phân tích, đánh giá hiển thị trực quan giúp nhà quản lý có thêm thông tin cần thiết để đầu tư, nâng cấp dịch vụ tưới tiêu Kết thực nghiệm báo cho thấy mô hình phi tuyến cho kết dự đoán tốt hơn, đặc biệt mô hình tổ hợp hồi quy, tính đa dạng mô hình hồi quy ứng dụng giải lớp toán hồi quy lĩnh vực kinh tế Việt Nam II CÁC MÔ HÌNH HỒI QUY A Mô hình hồi quy tuyến tính nhiều biến Mô hình hồi quy tuyến tính gồm hồi quy đơn biến (single) nhiều biến (multivariate) Hồi quy đơn biến mô hình hồi quy với biến giải thích (biến độc lập), hồi quy đa biến mô hình hồi quy với nhiều biến giải thích thường sử dụng rộng rãi thực tế Với tập liệu đầu vào ℒ cho trước, mô hình hồi quy tổng quát công thức (1) viết lại dạng sau [10]: DỰ ĐOÁN SỰ HÀI LÒNG VỀ CHẤT LƯỢNG DỊCH VỤ TƯỚI TIÊU TẠI ĐỒNG BẰNG SÔNG HỒNG DÙNG CÁC MÔ HÌNH HỒI QUY = ( | ) + ϵ, ϵ ∼ (0, (2) ) ( | )= + , (3) hệ số chặn (intercept) độ dốc (slope) Để tìm hệ số mô hình, cách tiếp cận phổ biến dựa phương pháp bình phương nhỏ [11], tìm hệ số = ( , , … , ) để cực tiểu hóa tổng bình phương phần dư (residual sum of squares, RSS): − ( | ) ( ) = = − − (4) Ta cần xác định véc-tơ cho hệ số mô hình hồi quy, giả thiết điều kiện cho mô hình tuyến tính ( ) = ( − ) ( − ) đáp ứng (xem Huber [11]) Công thức (4) viết sau: (5) Nếu không suy biến, giải véc-tơ phương trình sau: =( ) Từ (6) ta có phương trình hồi quy nhiều biến, để dự đoán giá trị tuyến tính nhiều biến sau: = =( ) = ta tính đầu (6) mô hình hồi quy (7) Hồi quy LASSO Phương pháp LASSO (Least absolute shrinkage and selection operator) [10], [18] phương pháp hồi quy tuyến tính nhiều biến có hiệu chỉnh mô hình, phương pháp đưa thêm hàm phạt vào hàm lỗi để lỗi hồi quy đạt nhỏ nhất: − ( | ) ( ) = + | | (8) Trong hệ số phạt dùng để điều chỉnh mô hình, chuẩn L1 dùng cho việc dự đoán tham số Trong trường hợp đủ lớn có số tham số hồi quy tiến dần 0, chúng không đóng vai trò mô hình hồi quy Phương pháp LASSO dùng cho toán lựa chọn thuộc tính, với biến có tham số hồi quy ta loại khỏi mô hình B Phương pháp hồi quy k láng giềng Phương pháp k láng giềng dùng cho toán hồi quy trình huấn luyện để xây dựng mô hình học [10], dự đoán mẫu mới, giải thuật tìm k (k=1, 2, ) láng giềng gần mẫu tập liệu huấn luyện ℒ, sau tính giá trị trung bình (hoặc trung vị) để trả kết cuối Quá trình tìm k láng giềng mẫu thường sử dụng khoảng cách Euclidean định nghĩa sau: − , xa xb mẫu độc lập (9) C Cây hồi quy Mô hình hồi quy tách đệ quy theo hàng tập liệu đầu vào ℒ thành tập liệu nhỏ hơn, hình thành nút Tại lần tách nút, thuộc tính giá trị tách thuộc tính chọn để chia nút thành nút con, nút trái nút phải Xây dựng hồi quy Gọi nút cha để tách nhánh hồi quy Việc tách nhánh thuộc tính xác định việc giảm hỗn tạp nút , ký hiệu ∆ ( , ), xem Breiman đồng nghiệp [5] Kỳ vọng nút tối thiểu hóa nhờ hàm lỗi bình phương sai số định nghĩa sau: ( )= ∈ℒ [( − ) ]= ∈ℒ () ( − ) ∈ (10) Trong ( ) tổng số mẫu nút trung bình mẫu Nguyễn Thanh Tùng nút thành nút trái nút phải phụ thuộc vào ≤ ∈ , > }, = Độ biến thiên mẫu cho nút Gọi giá trị chia tách thuộc tính > , = { ∈ , ≤ } = { ( )= ( ) Trong trung bình mẫu mẫu kích thước mẫu − () , ( )= ∈ − ( ) kích thước mẫu Như vậy, việc giảm độ hỗn tạp theo việc chia tách ∈ Tương tự, (11) ( ) trung bình (12) Điểm chia tách tính sau: Δ ( , ) = ( ) − [ ( ) ( ) + ( ) ( )] Trong ( ) = ( )/ ( ) ( ) = ( )/ ( ) tỷ lệ quan sát chọn thuộc tính cho nút giá trị làm cho ∆ ( , ) đạt cực đại Dự đoán dùng hồi quy Khi xây dựng hồi quy, ta cần phải tính toán giá trị cho nút cây, trình mô tả sau Sử dụng ký hiệu Breiman [4], gọi véc-tơ chứa tham số ngẫu nhiên để xác định việc xây dựng Trong hồi quy, ta tính toán trọng số dương ( , ) cho mẫu ∈ ℒ Đặt ( , , ) nút hồi quy Các mẫu ∈ ( , , ) gán trọng số ( , ) = 1/ ( ), số mẫu ( , , ) Nghĩa việc dự đoán dùng hồi quy đơn giản tính giá trị trung bình mẫu nút Với liệu thử nghiệm = , giá trị dự đoán hồi quy tính sau: = ( , ) ( , ) = , ∈( , , ) (13) D Mạng nơ-ron nhân tạo Mạng nơ-ron nhân tạo giả lập trình học tập tính toán não người [1], [16] Một mạng nơ-ron nhân tạo xây dựng từ thành phần sở nơ-ron nhân tạo gồm nhiều đầu vào đầu (Hình 1) Mỗi nơ-ron nhân tạo giả lập nơ-ron sinh học, gồm ngưỡng kích hoạt (bias) hàm kích hoạt (hay hàm truyền –transfer function), đặc trưng cho tính chất nơ-ron Các nơ-ron nhân tạo liên kết với kết nối Mỗi kết nối có trọng số kết nối (weight), đặc trưng cho khả nhớ mạng nơ-ron Quá trình huấn luyện mạng nơ-ron trình điều chỉnh ngưỡng kích hoạt trọng số kết nối, dựa liệu học Hình Kiến trúc nơ-ron nhân tạo Trong đó: v(t): Tổng tất đầu vào mô tả toàn tác động thân nơ-ron Xk(t): Các biến đầu vào (biến giải thích), k=1 M wk: Trọng số liên kết đầu vào k với nơ-ron H(.): Hàm kích hoạt Y(t): Tín hiệu đầu nơ-ron : Ngưỡng (là số), xác định ngưỡng kích hoạt Khi kết hợp nơ-ron lại với ta có mạng nơ-ron nhân tạo Tuỳ theo cách thức liên kết nơron mà ta có loại mạng khác như: mạng truyền thẳng (Hình 2), mạng phản hồi,… Ta xem mạng nơ-ron nhân tạo biểu thị mô hình hồi quy theo công thức (1) với X véctơ số liệu đầu vào Y véctơ số liệu đầu 4 DỰ ĐOÁN SỰ HÀI LÒNG VỀ CHẤT LƯỢNG DỊCH VỤ TƯỚI TIÊU TẠI ĐỒNG BẰNG SÔNG HỒNG DÙNG CÁC MÔ HÌNH HỒI QUY Ưu điểm mạng nơ-ron nhân tạo cho phép xây dựng mô hình tính toán có khả học liệu cao Có thể coi mạng nơ-ron nhân tạo hộp đen có nhiều đầu vào nhiều đầu có khả học mối quan hệ đầu đầu vào dựa liệu học Hình Mạng nơ-ron lan truyền thẳng Quá trình huấn luyện mạng nơ-ron dựa lỗi hồi quy giá trị dự đoán giá trị quan sát biến đích, giải thuật huấn luyện điều chỉnh trọng số kết nối mạng nơ-ron nhằm cực tiểu hóa lỗi hồi quy mẫu huấn luyện Sau mạng huấn luyện thành công, tri thức tích luỹ trình huấn luyện mạng (các ma trận trọng số, tham số tự do, v.v) cập nhật vào sở tri thức để sử dụng trình dự đoán.Có nhiều loại mạng nơ-ron, nhiều tầng dùng cho toán học có giám sát học không giám sát Trong nghiên cứu này, cài đặt mạng nơ-ron lớp truyền thẳng, sử dụng trọng số suy giảm (weight decay) hệ số co mô hình để  tránh tình trạng học vẹt (over-fitting), xem thêm [16] E Máy véc-tơ hỗ trợ hồi quy Máy véc-tơ hỗ trợ hồi quy (Support Vector Regression, SVR) [17] tìm siêu phẳng qua tất điểm liệu với độ lệch chuẩn ε Trong hồi quy ε – SV, mục đích tìm hàm f(X) công thức (1) có sai số nhỏ ε so với biến đích Yi: f(X) = w Φ(X) + b, (14) Trong w  RM, (X) biểu thị hàm phi tuyến chuyển từ không gian RM vào không gian nhiều chiều Mục đích cần tìm w b để giá trị X=x xác định cách tối thiểu hóa lỗi hồi quy Từ dẫn đến giải toán quy hoạch toàn phương sau: N  (w, b,  ,  * )  w  C ( i   i* ) i 1  (15) Với điều kiện: Yi  ( wX i  b)     i  * (wX i  b)  Yi     i  *  i ,  i  Ở đây, i, i* hai biến bù [17] C > dùng để chỉnh độ rộng lề lỗi Để giải toán (15), trước tiên phải tìm cực tiểu hàm L theo w, b, i, i* L(w, b,  ,  *,  ,  * ,  , *)    w C N  (  i  Yi  wT ( X i )  b)  i 1 i   N i 1 N i 1 (i  i* )   N i 1 (i i  i * i* )  i* (   i*  Yi  wT ( X i )  b) (16) Với i, i*, i, i* hệ số Lagrange thỏa mãn điều kiện: i, i*, i, i*  0, i=1 N Lấy đạo hàm cấp phương trình (16), hồi quy phi tuyến SVR sử dụng hàm lỗi  tính sau: − ( − ∗) − ∗ Φ , ( − + ∗) + ( − ∗) (17) với ràng buộc: ∑ ( − ∗) = 0; , ∗ ∈ [0, ] (18) Nguyễn Thanh Tùng Giải biểu thức (17) với ràng buộc (18) xác định nhân tử Lagrange i, i* Khi đó, mô hình hồi quy SVR trình bày (14), với = Trong Xj Xk véc-tơ hỗ trợ, ( − ∗) , ∈ (0, ) =− ∗ + ∈ (0, ) SVR dùng hàm nhân khác để giải lớp toán hồi quy phi tuyến mà không cần thay đổi mặt thuật toán, hàm nhân dùng thông dụng như: − Hàm nhân đa Gaussian RBF có dạng: K(u, v) = e − Hàm nhân đa thức bậc d > 0: K(u, v) = (C + u v) || || F Rừng ngẫu nhiên hồi quy Rừng ngẫu nhiên hồi quy (RF) [3], [4] gồm tập hợp hồi quy trình bày mục II C Từ tập liệu đầu vào ℒ, RF dùng kỹ thuật lấy mẫu bootstrap có hoàn lại tạo nhiều tập liệu khác Trên tập liệu này, lấy ngẫu nhiên lượng cố định thuộc tính, thường gọi mtry để xây dựng Mỗi hồi quy xây dựng không cắt nhánh với chiều cao tối đa Việc lấy hai lần ngẫu nhiên mẫu thuộc tính tạo tập liệu khác giúp RF giảm độ dao động (variance) mô hình học Dự đoán rừng ngẫu nhiên hồi quy Việc xây dựng rừng ngẫu nhiên hồi quy dự đoán mẫu mô tả sau Đặt Θ = { } tập gồm K véc-tơ tham số ngẫu nhiên cho rừng sinh từ ℒ, véc-tơ tham số ngẫu nhiên để xác định độ lớn thứ rừng (k = K) Gọi ℒ tập liệu thứ sinh từ ℒ dùng kỹ thuật bootstrap, hồi quy từ ℒ , ta tính trọng số dương ( , ) cho mẫu ∈ ℒ Đặt ( , , ) nút ( , ) = 1/ ( ), ( ) số mẫu ( , , ) Mẫu ∈ ( , , ) gán trọng số Trong trường hợp này, tất mẫu ℒ gán trọng số dương mẫu không ℒ gán Với hồi quy , có giá trị thử nghiệm = ( , = giá trị dự đoán ) = ( , , ∈ ( , tương ứng: ) , ) (18) Trọng số ( ) tính rừng ngẫu nhiên giá trị trung bình trọng số dự đoán tất rừng Công thức tính sau: ( )= ( , ) (19) Cuối cùng, giá trị dự đoán rừng ngẫu nhiên hồi quy cho bởi: = ( ) (20) Độ đo quan trọng thuộc tính Khi hồi quy phân chia tập liệu đầu vào thành vùng không giao (theo hàng), giá trị dự đoán giá trị trung bình gán vào vùng tương ứng (lá cây) Tại bước tính toán để tách nút , theo công thức (12) tất giá trị thuộc tính xét để tìm điểm tách đạt độ giảm hỗn tạp (impurity) Δ ( , ) lớn Do đó, trình xây dựng hồi quy, việc giảm hỗn tạp thuộc tính cụ thể dùng để tính độ đo quan trọng thuộc tính dùng mô hình [5] Với mô hình rừng ngẫu nhiên, độ đo quan trọng thuộc tính tính cách lấy giá trị trung bình tất độ đo hồi quy độc lập Có điểm lợi việc tính độ đo quan trọng thuộc tính dùng mô hình rừng ngẫu nhiên độ đo biến có tương tác lẫn xem xét cách tự động, điều khác hẳn với phương pháp tính tương quan tuyến tính Kendall, Pearson Độ đo quan trọng thuộc tính tính theo cách khác dùng phương pháp lặp hoán vị [13], [14] cho kết xác hơn, nhiên thời gian tính toán lâu chạy nhiều lần rừng ngẫu nhiên tập liệu mở rộng cỡ 2M chứa biến giả Gọi ( ), độ đo quan trọng thuộc tính Xj hồi quy Tk(k=1 K) rừng ngẫu nhiên Từ công thức (12), ta tính độ đo quan trọng Xj từ hồi quy độc lập sau: DỰ ĐOÁN SỰ HÀI LÒNG VỀ CHẤT LƯỢNG DỊCH VỤ TƯỚI TIÊU TẠI ĐỒNG BẰNG SÔNG HỒNG DÙNG CÁC MÔ HÌNH HỒI QUY = , Δ , ∈ (20) từ rừng ngẫu nhiên là: = (21) G Boosting Mô hình boosting [6], [7] ban đầu phát triển xử lý toán phân lớp sau mở rộng cho toán hồi quy Trong mục này, kỹ thuật điển hình boosting AdaBoost (Adaptive Boost) trình bày vắn tắt, sau mô hình boosting Friedman với hàm sở hồi quy áp dụng xử lý toán dự đoán hài lòng hộ dân dùng nước tưới tiêu Adaboost phân loại mạnh phi tuyến dựa hướng tiếp cận boosting Freund Schapire đưa vào năm 1996 xử lý toán phân lớp nhị phân [8] Adaboost hoạt động nguyên tắc kết hợp tuyến tính phân loại yếu để hình thành phân loại mạnh Để kết hợp phân loại yếu, adaboost sử dụng trọng số (weight) để đánh dấu mẫu khó nhận dạng Trong trình huấn luyện, phân loại yếu xây dựng, thuật toán tiến hành cập nhật lại trọng số để chuẩn bị cho việc xây dựng phân loại yếu tiếp theo: tăng trọng số mẫu bị nhận dạng sai giảm trọng số mẫu nhận dạng phân loại yếu vừa xây dựng Bằng cách này, phân loại yếu sau tập trung vào mẫu mà phân loại yếu trước chưa thực tốt Sau phân loại yếu kết hợp tùy theo mức độ ‘tốt’ chúng để tạo nên phân loại mạnh Các bước thực thuật toán AdaBoost sau: - - Khởi tạo trọng số ban đầu cho tất mẫu: với m số mẫu (ứng với mẫu có nhãn Y = 1) l số mẫu sai (có nhãn tương ứng Y = -1) 1 , , = 2 (22) Xây dựng T phân loại yếu Lặp t = 1, …, T  Với mẫu ℒ, xây dựng phân loại yếu hj với ngưỡng θj lỗi εj = , ℎ( )− (23)   Chọn hj với εj nhỏ nhất, ta ℎ : Cập nhật lại trọng số: , = → {1, −1} , × , , ℎ ( )= ℎ ( )≠ (24) Trong đó: α = ln - hệ số dùng để đưa Phân loại mạnh xây dựng : , (25) đoạn [0,1] (normalization factor) ( )= ấ ℎ( ) (26) Friedman [9] đề xuất mô hình máy boosting dùng hàm học sở định xử lý toán phân lớp hồi quy Ý tưởng xây dựng mô hình hồi quy sau: Mô hình học ban đầu khởi tạo với hồi quy hàm lỗi cho trước (thường dùng hàm lỗi bình phương), giải thuật tìm mô hình cực tiểu hóa lỗi hồi quy Bước đầu tiên, giải thuật dự đoán biến đầu i cách lấy giá trị trung bình biến quan sát Yi Tiếp theo lặp lại K lần (số hồi quy K tham số mô hình) để thực hiện: (i) Tính toán phần dư = − xây dựng mô hình hồi quy dùng phần dư biến đích với mục tiêu cực tiểu hóa lỗi (ii) Dự đoán mẫu dùng mô hình hồi quy bước trước (iii) Cập nhật cách thêm giá trị dự đoán lần lặp trước vào giá trị dự đoán tạo bước trước Mô hình Boosting dùng hồi quy khác rừng ngẫu nhiên Boosting có đóng góp khác đưa kết dự đoán cuối hồi quy sau xây dựng phụ thuộc trước, chúng xây dựng với chiều cao biết trước rừng ngẫu nhiên hồi quy xây dựng độc lập không cắt nhánh Nguyễn Thanh Tùng III KẾT QUẢ THỰC NGHIỆM A Mô tả liệu Dữ liệu dùng thực nghiệm thu thập vùng đồng sông Hồng (tỉnh Thái Bình, Nam Định, Bắc Ninh Hà Nội) gồm 480 hộ dùng nước (mẫu quan sát) 05 nhóm tiêu chí sau1: Tính hữu hình (Tangibility) gồm biến quan sát:  Các hệ thống tưới, tiêu có chất lượng tốt, đảm bảo chuyển nước phân phối nước đến diện tích cần tưới, tiêu (HH1)  Các đơn vị cung cấp dành đủ kinh phí cho công tác quản lý, vận hành bảo dưỡng hệ thống tưới, tiêu (HH2)  Nhân viên thủy lợi mặc đồng phục đơn vị (HH3)  Tổ chức cung cấp nước có tài liệu hướng dẫn quản lý vận hành công trình thủy lợi (HH4)  Hợp đồng cung cấp dịch vụ trình bày dễ hiểu (HH5)  Các thiết bị tổ chức cung cấp nước có chất lượng tốt (HH6)  Việc tu, bảo dưỡng hệ thống tưới thực đặn cần (HH7) - Độ tin cậy (Reliability) gồm biến quan sát:  Đơn vị cung cấp dịch vụ tưới, tiêu giới thiệu đầy đủ nội dung hợp đồng với tổ chức cung cấp nước kỹ thuật cách sử dụng ông bà muốn đăng ký sử dụng (STC1)  Tổ chức cung cấp nước thực dịch vụ tưới tiêu hợp đồng (STC2)  Tổ chức cung cấp nước xử lý cố công trình hư hỏng, xuống cấp (STC3)  Từ năm 2008 đến tổ chức cung cấp nước không để xảy sai sót tính chi phí hàng tháng (STC4) - Độ đáp ứng (Responsiveness) gồm biến quan sát  Nhân viên thủy lợi cho ông bà biết thực dịch vụ tưới tiêu (DDU1)  Nhân viên thủy lợi nhanh chóng thực dịch vụ cho ông bà (DDU2)  Tổ chức cung cấp nước thực lịch cấp nước (DDU3)  Tổ chức cung cấp nước cung cấp tối đa khả cấp nước (DDU4)  Khối lượng nước cấp đáp ứng tốt nhu cầu theo giai đoạn sinh trưởng, phát triển trồng (DDU5)  Nhân viên thủy lợi cung cấp luôn sẵn sàng đáp ứng yêu cầu ông bà (DDU6)  Chất lượng nước tưới đảm bảo (DDU7)  Thời gian khắc phục hư hỏng nhanh chóng (DDU8)  Ông bà lặp lại khiếu nại trước (DDU9) - Sự đảm bảo (Assurance) gồm biến quan sát:  Cách cư xử nhân viên gây niềm tin cho ông bà (SBD1)  Ông bà cảm thấy an toàn giao dịch với tổ chức cung cấp nước (SBD2)  Nhân viên thủy lợi có đủ hiểu biết để trả lời tất câu hỏi ông bà liên quan đến hệ thống tưới, tiêu (SBD3)  Nhân viên thủy lợi tổ chức cung cấp nước luôn niềm nở với ông bà (SBD4)  Thời gian phân phối nước tới ruộng luôn đủ nước đợt tưới (SBD5)  Từ năm 2008 đến nhân viên thủy lợi trả lời tất thắc mắc ông bà liên quan đến số tiền ông bà trả tháng (SBD6)  Nhân viên thủy lợi nhanh khắc phục hệ thống tưới, tiêu có cố (SBD7) - Sự đồng cảm (Empathy) gồm biến quan sát:  Nhân viên kỹ thuật thủy lợi làm việc vào thuận tiện cho ông bà (SDC1)  Không có Tổ chức cung cấp nước quan tâm đến xúc ông bà dịch vụ tưới, tiêu (SDC2)  Lịch phân phối nước thuận tiện theo sản xuất gia đình ông bà (SDC3)  Ông bà quan tâm ý thắc mắc dịch vụ tưới, tiêu (SDC4)  Tổ chức cung cấp nước điều chỉnh lịch tưới phù hợp với thay đổi thời tiết (SDC5)  Nhân viên tổ chức cung cấp nước hiểu rõ nhu cầu ông bà (SDC6)  Đơn vị cung cấp lấy lợi ích ông bà mục tiêu phát triển bền vững họ (SDC7) Biến đích đo hài lòng (SHL) hộ dùng nước có giá trị kiểu thập phân, SHL  [0.0, 10.0], giá trị cao phản ánh hài lòng chất lượng dịch vụ tưới tiêu Các tiêu chí đo lường chất lượng dịch vụ lấy theo mô hình Servqual Parasuraman đồng nghiệp [15] đề xuất, phương pháp Cronbach Alpha [2] dùng để kiểm định độ tin cậy biến, tiền xử lý chúng trước đưa vào mô hình hồi quy để huấn luyện - B Tham số mô hình phương pháp đánh giá Chúng dùng bình phương sai số (Root mean squared error-RMSE), sai số tuyệt đối (mean absolute errorMAE) hệ số xác định bội (coefficient of determination) R2 để đánh giá tính hiệu mô hình hồi quy: = ∑ ( − ) ; = N ∑Ni=1 |Yi − Yi | =1−∑ ( − )⁄∑ ( − ) Trong đó: Yi, Y giá trị thực, giá trị dự đoán giá trị trung bình mẫu thứ i tương ứng Mô hình hồi quy cho kết tốt mô hình đạt sai số RMSE MAE nhỏ Giá trị R2 cao dấu hiệu cho thấy mối liên hệ Phần ngoặc viết tắt tên biến dùng cho huấn luyện mô hình hồi quy DỰ ĐOÁN SỰ HÀI LÒNG VỀ CHẤT LƯỢNG DỊCH VỤ TƯỚI TIÊU TẠI ĐỒNG BẰNG SÔNG HỒNG DÙNG CÁC MÔ HÌNH HỒI QUY biến giải thích biến số SHL chặt chẽ Giá trị R2 cao cho thấy mô hình sử dụng để phân tích có khả giải thích tốt khác biệt độ hài lòng hộ dùng nước Gói phần mềm caret [12] sử dụng để tiến hành thực nghiệm môi trường R, mô hình hồi quy liệt kê mục II tích hợp gói phần mềm Từ tập liệu ban đầu gồm 480 mẫu quan sát 34 tiêu chí, chia làm phần để huấn luyện kiểm thử mô hình, tập liệu huấn luyện gồm 336 mẫu (70%) tập liệu kiểm thử gồm 144 mẫu (30%) Khi xây dựng mô hình hồi quy, sử dụng kỹ thuật kiểm tra chéo 5-folds với lần lặp dựa hàm lỗi RMSE để tìm tham số tối ưu mô hình, sau lựa chọn mô hình có RMSE nhỏ với tham số tìm để dự đoán liệu kiểm thử Kỹ thuật kiểm tra chéo cho phép tính hệ số xác định bội R2 phản ánh khả giải thích mô hình hồi quy Các thực nghiệm tiến hành máy phục vụ dùng hệ điều hành Windows Server 2012 64-bit, máy có cấu hình IntelR XeonR CPU E5-2640 2.5 GHz, 24 cores, MB cache 128 GB RAM Các mô hình cài đặt song song sử dụng hết 24 cores máy để huấn luyện, tìm tham số tối ưu thực nghiệm khác C Kết dự đoán độ hài lòng chất lượng dịch vụ tưới tiêu Kết mô hình hồi quy dự đoán độ hài lòng hộ dùng nước dịch vụ tưới tiêu trình bày Bảng Ở cột R2, RMSE MAE kết dự đoán với R2 cao lỗi dự đoán thấp in đậm gạch dưới, kết tốt thứ nhì thứ ba được in với số lượng dấu (**) (***) tương ứng Ta dễ dàng nhận thấy mô hình hồi quy tuyến tính nhiều biến có kết dự đoán nhất, mô hình LASSO có cải thiện khả dự đoán so với mô hình tuyến tính nhiều biến kết kiểm thử xa mô hình khác Các mô hình hồi quy phi tuyến tỏ rõ ưu hơn, cụ thể rừng ngẫu nhiên, mạng nơ-ron nhân tạo k láng giềng có kết dự đoán với lỗi hồi quy nhỏ Mô hình hồi quy cho kết theo R2 RMSE, mô hình máy véc-tơ hỗ trợ hồi quy mô hình boosting có kết dự đoán mô hình tuyến tính tập liệu kiểm thử tiến hành thực nghiệm Kết trình bày Bảng cho thấy mô hình k láng giềng đạt lỗi MAE thấp nhất, phương pháp hồi quy phi tuyến hiệu quả, mô hình có khả dự đoán đạt độ xác cao thời gian tính toán nhanh Tuy nhiên, xét khả dự đoán mô hình hồi quy liệt kê Bảng 1, ta thấy rõ mô hình rừng ngẫu nhiên dự đoán xác Bảng Kết mô hình hồi quy dự đoán độ hài lòng chất lượng dịch vụ tưới tiêu liệu kiểm thử TT Mô hình hồi quy Hồi quy tuyến tính (LM) Hồi quy LASSO K láng giềng (KNN) Cây hồi quy (CART) Mạng nơ ron nhân tạo (ANN) Máy véc-tơ hỗ trợ (SVR) Rừng ngẫu nhiên (RF) Boosting Tham số tối ưu Mặc định = 0.01 k=1 Complexity parameter (cp)=0 Trọng số phân rã=0.1 số nơ-ron=9 RBF, σ = 0.032, =0.1 C = 32 mtry = K=1000 K = 500, interaction.depth = shrinkage = 0.1 R2 0.839 0.844 **0.894 0.835 ***0.892 0.852 0.902 0.873 RMSE 0.267 0.263 **0.216 0.272 ***0.218 0.255 0.208 0.237 MAE 0.167 0.163 0.085 0.156 **0.106 0.143 ***0.107 0.119 Hình hiển thị kết mô hình hồi quy tập huấn luyện (336 mẫu) dựa giá trị R2 xếp giảm dần theo khả giải thích khác biệt độ hài lòng hộ dùng nước Chúng ta thấy mô hình rừng ngẫu nhiên cho kết tốt nhất, giải thích khoảng 93% khác biệt độ hài lòng hộ dùng nước tưới tiêu, theo sát mô hình boosting có R2=92.445% SVR đạt R2=92.444% Xếp cuối phương pháp hồi quy có R2 thấp nhất, khả giải thích mô hình hồi quy khoảng 85% mô hình hồi quy tuyến tính nhiều biến có R2=87.481% Kết cho thấy mô hình rừng ngẫu nhiên đạt hiệu cao dựa vào lỗi dự đoán thấp tập liệu kiểm thử khả giải thích mô hình với R2 tốt Hình So sánh mô hình hồi quy dựa kết huấn luyện Kết huấn luyện mô hình hồi quy dựa theo hệ số xác định bội R2 RMSE so sánh theo cặp trình bày Hình Đường kẻ dọc (mốc 0.0) dùng để làm mốc so sánh, hai mô hình hồi quy có lỗi huấn luyện RMSE ngang tâm đường thằng nằm ngang trùng với mốc Nếu mô hình vị trí bên trái tốt tâm đường kẻ ngang lệch sang trái so với mốc, ngược lại lệch sang phải Khi hai mô hình không đáng kể đường kẻ ngang có độ dài ngắn (ví dụ LM-LASSO), ngược lại mô hình hồi quy trội hẳn lỗi dự đoán đường kẻ ngang kéo dài (chẳng hạn LM-KNN) Nguyễn Thanh Tùng Hình So sánh lỗi huấn luyện RMSE mô hình hồi quy theo cặp Hình thể mối quan hệ 34 tiêu chí với giá trị tương quan tuyệt đối từ đến Các tiêu chí có tương quan mạnh với thể kích cỡ hình tròn màu xanh đậm (đường chéo biểu đồ giá trị tương quan tiêu chí với nó) Với tiêu chí có tương quan yếu quan hệ với hiển thị biểu đồ với màu xanh nhạt màu trắng tương ứng (tương quan 0) Ta nhận thấy tiêu chí có ảnh hưởng lẫn đến dịch vụ tưới tiêu thường có tương quan mạnh, chẳng hạn HH1 DDU8 lý giải hệ thống tưới tiêu có chất lượng tốt (HH1) khắc phục hư hỏng nhanh chóng (DDU8); STC3 SBD7 hiểu cố công trình xử lý (STC3) phụ thuộc lớn vào nhân viên thủy lợi khắc phục nhanh (SBD7) v.v Những số liệu biểu đồ tương quan tiêu chí dễ lý giải toán thực tế Hình hiển thị độ đo quan trọng 34 tiêu chí xếp theo chiều giảm dần, độ đo tính theo công thức (21) từ rừng ngẫu nhiên Ta Hình Biểu đồ tương quan tiêu chí thấy tiêu chí HH1, HH7, STC3 có độ quan trọng cao, HH1="Các hệ thống tưới, tiêu có chất lượng tốt, đảm bảo chuyển nước phân phối nước đến diện tích cần tưới, tiêu" có độ quan trọng cao Kết tiêu chí lý giải dịch vụ cung cấp nước tưới tiêu, hộ dùng nước quan tâm đến hệ thống tưới tiêu có chất lượng tốt, độ đáp ứng đơn vị cung cấp nước, bao gồm yếu tố tu, bảo dưỡng thực đầy đủ đặn, sửa chữa cố công trình hư hỏng xuống cấp, thực lịch cấp nước, cung cấp tối đa khả cấp nước, đáp ứng tốt nhu cầu theo giai đoạn sinh trưởng phát triển trồng, chất lượng nước đảm bảo 10 DỰ ĐOÁN SỰ HÀI LÒNG VỀ CHẤT LƯỢNG DỊCH VỤ TƯỚI TIÊU TẠI ĐỒNG BẰNG SÔNG HỒNG DÙNG CÁC MÔ HÌNH HỒI QUY Cũng hình 6, tiêu chí DDU6="Nhân viên thủy lợi cung cấp luôn sẵn sàng đáp ứng yêu cầu ông bà" có độ quan trọng thấp Điều dễ lý giải nhân viên thủy lợi có không đáp ứng yêu cầu cá nhân hộ dùng nước không ảnh hưởng nhiều đến hài lòng chung chất lượng dịch vụ tưới tiêu Như vậy, mô hình hồi quy khả dự đoán trợ giúp người dùng phân tích hiển thị trực quan tiêu chí đánh giá, giúp nhà quản lý có thêm thông tin để đầu tư, nâng cấp chất lượng dịch vụ tưới tiêu nhằm đáp ứng cao độ hài lòng người dân IV KẾT LUẬN Chúng trình bày mô hình hồi quy dự đoán mức độ hài lòng hộ dùng nước liên quan đến dịch vụ tưới tiêu đồng sông Hồng Các mô hình hồi quy tuyến tính, LASSO, hồi quy, k láng giềng, mạng nơ-ron, véc-tơ hỗ trợ hồi quy, rừng ngẫu nhiên boosting nghiên cứu, phân tích so sánh với dự đoán độ hài lòng hộ dùng nước tưới tiêu dựa phương pháp đánh giá R2, RMSE MAE Kết thực nghiệm cho thấy mô hình hồi Hình Độ đo quan trọng tiêu chí quy tuyến tính dễ cài đặt dễ sử dụng lỗi dự đoán cao, mô hình phi tuyến tỏ vượt trội khả dự đoán xác hơn, đặc biệt mô hình rừng ngẫu nhiên cho kết dự đoán xác khả giải thích khác biệt biến đích quan sát tốt Ngoài ra, độ đo quan trọng tiêu chí tính toán từ rừng ngẫu nhiên hiển thị trực quan giúp nhà quản lý nắm bắt thông tin cần thiết để nâng cấp dịch vụ tưới tiêu Trong tương lai, áp dụng kết nghiên cứu mở rộng cho toán kinh tế toán liên quan đến dự đoán với số chiều cao Việt Nam V LỜI CẢM ƠN Xin cảm ơn thầy Đỗ Văn Quang, Phó trưởng Khoa kinh tế quản lý-Trường Đại học Thủy Lợi hỗ trợ cung cấp tài liệu số liệu thử nghiệm VI TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] Christopher M Bishop et al Neural networks for pattern recognition 1995 J Martin Bland, Douglas G Altman, et al Statistics notes: Cronbach’s alpha Bmj, 314(7080):572, 1997 Leo Breiman Bagging predictors Machine learning, 24(2):123–140, 1996 Leo Breiman Random forests Machine learning, 45(1):5–32, 2001 Leo Breiman, Jerome Friedman, Charles J Stone, and Richard A Olshen Classification and regression trees CRC press, 1984 Yoav Freund, Robert Schapire, and N Abe A short introduction to boosting Journal-Japanese Society For Artificial Intelligence, 14(771-780):1612, 1999 Yoav Freund and Robert E Schapire Adaptive game playing using multiplicative weights Games and Economic Behavior, 29(1):79–103, 1999 Yoav Freund, Robert E Schapire, et al Experiments with a new boosting algorithm In ICML, volume 96, pages 148–156, 1996 Jerome H Friedman Greedy function approximation: a gradient boosting machine Annals of Statistics, pages 1189–1232, 2001 Trevor Hastie, Robert Tibshirani, Jerome Friedman, T Hastie, J Friedman, and R Tibshirani The elements of statistical learning, volume Springer, 2009 Peter J Huber Robust statistics Springer, 2011 Max Kuhn Building predictive models in r using the caret package Journal of Statistical Software, 28(5):1–26, 2008 Thanh-Tung Nguyen, Joshua Z Huang, Qingyao Wu, Thuy T Nguyen, and Mark J Li Genome-wide association data classification and snps selection using two-stage quality-based random forests BMC Genomics, 16(Suppl 2):S5, 2015 Thanh-Tung Nguyen, JoshuaZ Huang, and ThuyThi Nguyen Two-level quantile regression forests for bias correction in range prediction Machine Learning, pages 1–19, 2014 Arun Parasuraman, Leonard L Berry, and Valarie A Zeithaml Refinement and reassessment of the servqual scale Journal of retailing, 1991 Brian D Ripley Pattern recognition and neural networks Cambridge university press, 1996 Alex J Smola and Bernhard Schölkopf A tutorial on support vector regression Statistics and computing, 14(3):199–222, 2004 Robert Tibshirani Regression shrinkage and selection via the lasso Journal of the Royal Statistical Society Series B (Methodological), pages 267–288, 1996 Nguyễn Thanh Tùng 11 PREDICTING THE QUALITY OF IRRIGATION SERVICES IN THE RED RIVER DELTA WITH REGRESSION MODELS Nguyen Thanh Tung Faculty of Computer Science and Engineering, Thuyloi University, Hanoi, Vietnam tungnt@tlu.edu.vn ABSTRACT— To predict the satisfaction of users who use the water services is very important for the fee exemption policy to water and agriculture services This policy has positive impacts on the water exploited and management enterprises, the national budget and social security In this paper, we present some regression models to predict the satisfaction of users related to the quality of irrigation service in the red river delta Experimental results showed that the non-linear regression models achieve lower regression errors than linear models The diversity and feasibility of these regression models can be applied for dealing with economic problems in the domain of water resource management Keywords— multivariate regression, LASSO, k nearest neighbors, neuron networks, SVR, random forests, data mining, machine learning 12 DỰ ĐOÁN SỰ HÀI LÒNG VỀ CHẤT LƯỢNG DỊCH VỤ TƯỚI TIÊU TẠI ĐỒNG BẰNG SÔNG HỒNG DÙNG CÁC MÔ HÌNH HỒI QUY VII PHỤ LỤC Các dòng lệnh ngôn ngữ lập trình R sử dụng tiến hành thực nghiệm indx

Ngày đăng: 20/09/2016, 02:10

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan