Phương pháp VB và ứng dụng

80 358 0
Phương pháp VB và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN ——————————— Đỗ Thị Len PHƯƠNG PHÁP VB ỨNG DỤNG LUẬN VĂN THẠC SĨ KHOA HỌC HÀ NỘI - 2016 ĐẠI HỌC QUỐC GIA HÀ NÔI ĐẠI HỌC KHOA HỌC TỰ NHIÊN ——————————— Đỗ Thị Len PHƯƠNG PHÁP VB ỨNG DỤNG Chuyên ngành: LÍ THUYẾT XÁC SUẤT THỐNG KÊ TOÁN HỌC Mã số: 60 46 01 06 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC TS Trần Mạnh Cường HÀ NỘI - 2016 Lời cảm ơn Luận văn hoàn thành với hướng dẫn tận tình nghiêm khắc TS Trần Mạnh Cường Trước trình bày nội dung luận văn, tác giả muốn bày tỏ lòng biết ơn chân thành sâu sắc tới người thầy đáng kính Thầy tận tình hướng dẫn giải đáp thắc mắc tác giả suốt trình làm luận văn Tác giả muốn gửi tới toàn thể thầy cô Khoa Toán - Cơ - Tin học trường Đại học Khoa học Tự nhiên - Đại học Quốc gia Hà Nội, thầy cô đảm nhận giảng dạy khóa Cao học 2014 - 2016, đặc biệt thầy cô tham gia giảng dạy nhóm Xác suất thống kê 2014 - 2016 lời cảm ơn chân thành công lao dạy dỗ suốt thời gian khóa học Tác giả xin cảm ơn gia đình, bạn bè, đồng nghiệp anh chị em nhóm Xác suất thống kê 2014 - 2016, thành viên nhóm Seminar thầy Trần Mạnh Cường phụ trách chủ đề liên quan đến Thống kê Bayes quan tâm, giúp đỡ, tạo điều kiện động viên tinh thần để tác giả hoàn thành khóa học Tác giả xin chân thành cảm ơn! Hà Nội, ngày tháng năm 2016 Học viên Đỗ Thị Len Mục lục Lời cảm ơn Lời mở đầu Thống kê Bayes Thống kê Bayes 1.1 Giới thiệu 1.2 Một số phân phối thường dùng 1.3 Suy luận Bayes cho tham số tỉ lệ phân phối nhị thức 14 1.3.1 Tiên nghiệm 14 1.3.2 Hậu nghiệm 15 1.3.3 Ước lượng 15 1.3.4 Kiểm định giả thiết 16 1.4 Suy luận Bayes cho kỳ vọng phân phối Gaussian 17 1.4.1 Tiên nghiệm 17 1.4.2 Hậu nghiệm 17 1.4.3 Ước lượng 18 1.4.4 Kiểm định giả thiết 19 1.5 Hồi quy Bayes 20 1.5.1 Suy luận Bayes cho mô hình hồi quy tuyến tính Bayes đơn 21 1.5.2 Mô hình hồi quy tuyến tính Bayes bội 25 1.5.3 Mô hình hồi quy Logistic Bayes 27 MỤC LỤC MỤC LỤC Phương pháp VB 30 2.1 Nguồn gốc toán học 30 2.2 Xấp xỉ phân phối hậu nghiệm 32 2.2.1 Xấp xỉ phân phối hậu nghiệm biến Z độc lập khối 32 2.2.2 Xấp xỉ địa phương - Tham số biến phân 34 2.3 Áp dụng phương pháp VB cho phân phối Gaussian 36 2.3.1 Phân phối Gaussian chiều 36 2.3.2 Phân phối đa thức Gaussian 40 2.4 Áp dụng phương pháp VB cho mô hình hồi quy Bayes 47 2.4.1 Mô hình hồi quy tuyến tính Bayes 47 2.4.2 Mô hình hồi quy Logistic Bayes 52 Ứng dụng 59 3.1 Phân phối hậu nghiệm không thuộc họ phân phối biết 59 3.1.1 Bài toán 60 3.1.2 Thuật toán 63 3.1.3 Code chạy phần mềm mathlab 63 3.1.4 Kết 66 3.2 Phân phối hậu nghiệm thuộc họ phân phối biết 67 3.2.1 Bài toán 67 3.2.2 Thuật toán 71 3.2.3 Code chạy phần mềm mathlab 71 3.2.4 Kết 73 Kết luận 75 Lời mở đầu Hiện nay, thống kê có hai trường phái: Thống kê tần suất thống kê Bayes Thống kê tần suất đời trước phương pháp phổ biến Nó dựa kết quan sát mẫu mà không cần đến thông tin, liệu biết trước Thống kê Bayes dựa thông tin liệu biết trước kết quan sát mẫu để suy luận cho thống kê Thống kê Bayes hay gọi suy luận Bayes đời sở định lý Bayes Đó kiểu suy luận thống kê mà đó, nhà thống kê sử dụng phân phối tiên nghiệm (thông tin biết trước) vấn đề xét thông tin mẫu (các quan sát hay chứng), áp dụng công thức định lý Bayes để tìm phân phối hậu nghiệm (xác suất xảy tại), từ dùng phân phối hậu nghiệm để suy luận cho thống kê Ví dụ: Xét toán ước lượng cho tham số θ biến ngẫu nhiên X với mẫu X , X , , X n • Theo thống kê tần suất, tham số θ biến ngẫu nhiên nhận giá trị Ta tìm tham số mẫu θ ∗ theo công thức tính dựa theo giá trị quan sát mẫu Ta có E [θ ∗ ] = θ Do đó, ta dùng θ ∗ để ước lượng cho tham số θ Chẳng hạn, ước lượng cho giá n X i , sau dùng trị trung bình µ biến ngẫu nhiên: ta tính trung bình mẫu X = n i =1 giá trị trung bình mẫu để ước lượng cho µ • Theo thống kê Bayes, tham số θ biến ngẫu nhiên liên tục Trước hết, ta biết phân phối tiên nghiệm θ p (θ) Sau đó, áp dụng định lý Bayes ta tính mật độ hậu nghiệm p (θ|X , X , , X n ) Khi tham số mẫu dùng để ước lượng xác Lời mở đầu định sau: θ ∗ = E [θ] = θp (θ|X , X , , X n ) d θ Để ước lượng cho tham số thống kê tại, nhà thống kê Bayes cần dùng phân phối hậu nghiệm để ước lượng Như vây ta nói phân phối hậu nghiệm yếu tố đặc biệt quan trọng trình suy luận Bayes Tuy nhiên, việc tính toán để tìm phân phối hậu nghiệm phức tạp không tính Để giải vấn đề này, người ta tìm cách xấp xỉ phân phối hậu nghiệm Do đó, phương pháp VB (Variational Bayesian) đời để tìm giá trị gần phân phối hậu nghiệm Trong luận văn này, tác giả trình bày phương pháp suy luận Bayes phương pháp VB số ứng dụng phương pháp Luận văn tác giả chia làm chương: Chương Thống kê Bayes Trong chương này, tác giả giới thiệu chung thống kê Bayes; số phân phối thông thường; số mô hình suy luận Bayes: Suy luận Bayes cho tham số phân phối nhị thức, kỳ vọng phân phối Gaussian chiều, tham số mô hình hồi quy tuyến tính Bayes đơn Từ làm sở để nghiên cứu phần Chương Phương pháp VB Trong chương này, tác giả trình bày kiến thức phương pháp VB bao gồm: Nguồn gốc toán học; xấp xỉ phân phối hậu nghiệm; áp dụng phương pháp VB cho phân phối Gaussian, áp dụng phương pháp VB cho mô hình hồi quy Bayes Chương Ứng dụng Trong chương này, tác giả giới thiệu ứng dụng phương pháp VB cho hai trường hợp: Phân phối hậu nghiệm không thuộc họ phân phối biết; phân phối hậu nghiệm thuộc họ phân phối biết Để nghiên cứu đề tài "Phương pháp VB ứng dụng", tác giả tham khảo số tài liệu nước thống kê tần suất, thống kê Bayes, phần mềm Mathlab Trong Lời mở đầu ◦ Nội dung chương luận văn tham khảo tài liệu [5] [8]; ◦ Nội dung chương luận văn tham khảo tài liệu [5] [6]; ◦ Nội dung chương luận văn tham khảo tài liệu [5]; ◦ Ở phần ứng dụng phương pháp VB, tác giả áp dụng phương pháp VB để tính toán Từ đó, viết thuật toán dùng phần mềm Mathlab để thực kết Chương Thống kê Bayes Thống kê Bayes có khác biệt so với thống kê tần suất cách thức tiếp cận vấn đề: Thống kê tần suất quan niệm tham số biến ngẫu nhiên giá trị đó, thống kê Bayes quan niệm tham số biến ngẫu nhiên biến ngẫu nhiên Suy luận Bayes thực theo trình tự: từ phân phối tiên nghiệm mà ta tin tưởng, áp dụng định lý Bayes tìm phân phối hậu nghiệm, sau dùng phân phối hậu nghiệm để ước lượng, kiểm định giả thiết thống kê, phân tích hồi quy tuyến tính 1.1 Giới thiệu Suy luận Bayes xuất phát từ định lý Bayes điều chỉnh xác suất có thông tin theo cách sau đây: P (Z |X ) = P (X |Z ) P (Z ) P (X ) Trong Z đại diện cho giả thiết, giả thiết suy luận trước có thông tin P (Z ) gọi xác suất tiên nghiệm Z P (X |Z ) xác suất xảy X biết giả thiết Z Đại lượng gọi hàm hợp lý (likelihood) biểu diễn dạng hàm X cho trước Z thông tin Giới thiệu Thống kê Bayes P (X ) gọi xác suất biên duyên X P (Z |X ) gọi xác suất hậu nghiệm Z biết X Theo định lý xác suất hậu nghiệm tỉ lệ với tích xác suất tiên nghiệm hàm hợp lý, kí hiệu P (Z |X ) ∝ P (Z ) × P (X |Z ) Tức tiên nghiệm nhân với số không ảnh hưởng đến kết hậu nghiệm P (X |Z ) đại diện cho ảnh hưởng thông tin thu P (X ) xác xuất xảy Z biết X Nếu hệ số có giá trị lớn, nhân xác suất tiên nghiệm Hệ số Bayes B = với hệ số này, ta xác suất hậu nghiệm lớn Nhờ đó, suy luận Bayes, định lý Bayes đo mức độ mà thông tin làm thay đổi mức độ tin tưởng vào giả thiết Khi có thông tin biến ngẫu nhiên, suy luận Bayes cho biến ngẫu nhiên thực theo bước sau: • Xác định phân phối tiên nghiệm Phân phối tiên nghiệm (prior distribution) biến ngẫu nhiên Z phân phối mà ta tin tưởng, có từ kinh nghiệm tích lũy, kí hiệu p (Z ) • Áp dụng định lý Bayes để tìm phân phối hậu nghiệm Phân phối hậu nghiệm (posterior distribution) biến Z biết X phân phối có tính toán theo định lý Bayes, sau có thông tin p (X |Z ) Kí hiệu p (Z |X ) • Dùng phân phối hậu nghiệm để suy luận cho thống kê tại: Ước lượng, kiểm định giả thiết thống kê, phân tích hồi quy tuyến tính Trong luận văn này, phân phối tiên nghiệm để suy luận cho biến ngẫu nhiên phân phối tiên nghiệm liên hợp Phân phối tiên nghiệm liên hợp (conjugate prior) phân phối tiên nghiệm mà phân phối hậu nghiệm tìm họ với phân phối tiên nghiệm Các nhà thống kê Bayes lập luận người ta có xác suất chủ quan tiên nghiệm khác với thông tin từ quan sát lặp lặp lại có xu hướng đưa xác suất hậu nghiệm họ lại gần Hậu nghiệm không thuộc họ phân phối biết Ứng dụng Thành phần thứ hai σ2β Ta có đạo hàm riêng cận biên duyên theo σ2β ∂L q ∂σ2β = −n exp −2µα + 2σ2α − σ20 + σ2β cho đạo hàm 0, ta tìm điểm làm cận biên duyên cực đại σ2β = n exp −2µα + 2σ2α + −1 (3.9) σ20 Thành phần thứ ba µα Ta có đạo hàm riêng cận biên duyên theo µα ∂L q ∂µα = −2n + 2n y − 2yµβ + µ2β + σ2β exp −2µα + 2σ2α − 2µα σ20 để giải phương trình đạo hàm 0, ẩn µα ta đặt đạo hàm riêng cận biên duyên theo µα f µα sau lấy đạo hàm f µα từ tìm nghiệm xấp xỉ theo phương pháp Newton f (x) = → x n+1 = x n − f (x n ) (3.10) f (x n ) Thành phần thứ tư σ2α Ta có đạo hàm riêng cận biên duyên theo σ2α ∂L q ∂σ2α = −2n y − 2yµβ + µ2β + σ2β exp −2µα + 2σ2α − σ20 + σ2β để giải phương trình đạo hàm 0, ẩn σ2α ta đặt đạo hàm riêng cận biên duyên theo σ2α g σ2α sau lấy đạo hàm g σ2α từ tìm nghiệm xấp xỉ theo phương pháp Newton g (x) = → x n+1 = x n − 62 g (x n ) g (x n ) (3.11) Hậu nghiệm không thuộc họ phân phối biết 3.1.2 Ứng dụng Thuật toán Theo (3.8) ÷ (3.11) để tìm điểm cực đại cận biên duyên ta thực theo bước Khởi trị µα0 , σ2α0 Tính µα = µα0 − σ2α = σ2α0 − µβ = σ2β f µα0 f (3.12) µα0 g σ2α0 (3.13) g σ2α0 n y exp −2µα + 2σ2α σ20 (3.14) + n exp −2µα + 2σ2α = n exp −2µα + 2σ2α + −1 σ20 (3.15) Kết tìm thay vào công thức ta có cực đại cận biên duyên 3.1.3 Code chạy phần mềm mathlab Theo công thức (3.12) ÷ (3.15), trước hết ta viết chương trình thực việc tính toán function [mu_alpha, sigma_alpha2, mu_beta, sigma_beta2,LBq] = NRapproximate_correct(y,sigma20) n = length(y); mual = 0; sigal2 = 1; y1 = mean(y); y2 = mean(y.^2); tol = 1e-5; LB0 = 0; 63 Hậu nghiệm không thuộc họ phân phối biết stopmain = 0; while ~stopmain e = exp(-2*mual + 2*sigal2); mubeta = (n*y1*e)/(sigma20^-1 + n*e); sigbeta2 = (n*e+sigma20^-1)^-1; k = y2 - 2*y1*mubeta + mubeta^2 + sigbeta2; stop = 0; mual_old = mual; while ~stop e = exp(-2*mual_old + 2*sigal2); f0 = mual_old/sigma20 + n - n*k*e; f1 = sigma20^-1 + 2*n*k*e; mual_new = mual_old - f0/f1; if (abs(mual_new - mual_old) < tol) stop = 1; else mual_old = mual_new; end; end; mual = mual_old; stop = 0; sigal2_old = sigal2; while ~stop e = exp(-2*mual + 2*sigal2_old); g0 = sigma20^-1 + 2*n*k*e - sigal2_old^-1; g1 = sigal2_old^-2 + 4*n*k*e; sigal2_new = sigal2_old - g0/g1; if sigal2_new 0; µ q µ = µ0 ; σ2q (µ) = σ20 (3.28) Tính n B q (σ2 ) = B + n y − 2yµq (µ) + µq (µ) (3.29) A q (σ2 ) = A + σ2q (µ) = n A q (σ2 ) B q (σ2 ) µq (µ) = n y 3.2.3 + A q (σ2 ) B q (σ2 ) + σ2q (µ) −1 (3.31) σ20 + (3.30) µ0 σ20 σ2q (µ) (3.32) Code chạy phần mềm mathlab Theo công thức (3.28) ÷ (3.32), trước hết ta viết chương trình thực việc tính toán function [muiq,sigmaq] = task2(y,mmui0,msigma0,mui0,sigma0,alpha0,beta0) n = length(y); tol = 1e-5; stop = 0; 71 Hậu nghiệm thuộc họ phân phối biết Ứng dụng mui = mui0; sigma = sigma0; while ~stop alpha = alpha0 + n/2; beta = beta0 + 1/2*(sum(y.^2) - 2*mui*sum(y) + n*(mui^2 + sigma^2)); mui1 = (sum(y)*alpha/beta + mmui0/msigma0^2)/(n*alpha/beta + 1/msigma0^2); sigma1 = 1/(n*alpha/beta + 1/msigma0^2); if (abs(mui1 - mui)< tol)&& (abs(sigma1 - sigma)< tol) stop = 1; else mui = mui1; sigma = sigma1; end; end muiq = mui1; sigmaq = sigma1; end Chương trình sử dụng chương trình đưa kết đồ thị minh họa clear all; mu_true = 0; sigma_true = 10; n = 100; y = normrnd(mu_true,sigma_true,n,1); [mu,sigma] = task2(y,0,100,0,1,0,0); x = [-4:0.01:4]; z = normpdf(x,mu,sigma); mmu = (sum(y)/sigma_true^2+ mu_true/100^2)/(n/sigma_true^2+1/100^2); msigma = 1/(n/sigma_true^2+1/100^2); w = normpdf(x,mmu,msigma); 72 Hậu nghiệm thuộc họ phân phối biết Ứng dụng mu sigma mmu msigma plot(x,z,x,w); 3.2.4 Kết Các giá trị tham số xấp xỉ phân phối hậu nghiệm mu = -0.1054 sigma = 0.9685 mmu = -0.1054 msigma = 0.9999 Đồ thị minh họa cho xấp xỉ hậu nghiệm hình 3.3 73 Hậu nghiệm thuộc họ phân phối biết Ứng dụng Hình 3.3: Xấp xỉ hậu nghiệm µ, σ2 74 Kết luận Trong trình nghiên cứu, luận văn trình bày số nội dung: ◦ Một số kiến thức thống kê Bayes; ◦ Phương pháp VB áp dụng phương pháp cho phân phối Gaussian, mô hình hồi quy tuyến tính; ◦ Ứng dụng phương pháp VB cho số mô hình cách sử dụng phần mềm Matlab Nếu có nhiều thời gian hơn, theo hướng nghiên cứu luận văn nghiên cứu thêm về: ◦ Tốc độ hội tụ phân phối hậu nghiệm; ◦ So sánh với phương pháp khác để đánh giá độ hiệu tính phổ biến cho mô hình 75 Tài liệu tham khảo [1] Hoàng Trọng Chung, Nguyễn Mộng Ngọc(2007), Thống kê ứng dụng kinh tế - xã hội, Nhà xuất thống kê, Hà Nội [2] Đào Hữu Hồ(2008), Xác suất thống kê, Nhà xuất Đại học Quốc gia Hà Nội, Hà Nội [3] Nguyễn Văn Hữu, Đào Hữu Hồ, Hoàng Hữu Như (2004), Thống kê toán học, Nhà xuất Đại học Quốc gia Hà Nội [4] Đặng Hùng Thắng (2012), Thống kê ứng dụng, Nhà xuất Giáo dục Việt Nam, Hà Nội [5] Christopher M Bishop(2006), Pattern Recognition and Machine Learning, Springer, New York [6] J T Ormerod and M P Wand(2010), "Explaining Variational Approximations", The American Statistician, Vol.64 (No 2), 140-153 [7] Minh-Ngoc Tran, David J Nott, Robert Kohn(2016), "Variational Bayes with Intractable Likelihood", arXiv: 1503.08621v2[stat.ME]4Aug2016 [8] William M Bolstad(2007), IntroductionToBayesianStatistics (2nd edition), Wiley, New Jersey 76 ... Do đó, phương pháp VB (Variational Bayesian) đời để tìm giá trị gần phân phối hậu nghiệm Trong luận văn này, tác giả trình bày phương pháp suy luận Bayes phương pháp VB số ứng dụng phương pháp. .. Chương Phương pháp VB Trong chương này, tác giả trình bày kiến thức phương pháp VB bao gồm: Nguồn gốc toán học; xấp xỉ phân phối hậu nghiệm; áp dụng phương pháp VB cho phân phối Gaussian, áp dụng phương. .. VB cho phân phối Gaussian, áp dụng phương pháp VB cho mô hình hồi quy Bayes Chương Ứng dụng Trong chương này, tác giả giới thiệu ứng dụng phương pháp VB cho hai trường hợp: Phân phối hậu nghiệm

Ngày đăng: 27/08/2017, 17:12

Từ khóa liên quan

Mục lục

  • Li cam n

  • Li m u

  • Thng kê Bayes

    • Thng kê Bayes

      • Gii thiu

      • Mt s phân phi thng dùng

      • Suy lun Bayes cho tham s ti l phân phi nhi thc

        • Tiên nghim

        • Hu nghim

        • c lng

        • Kim inh gia thit

        • Suy lun Bayes cho ky vong phân phi Gaussian

          • Tiên nghim

          • Hu nghim

          • c lng

          • Kim inh gia thit

          • Hi quy Bayes

            • Suy lun Bayes cho mô hình hi quy tuyn tính Bayes n

            • Mô hình hi quy tuyn tính Bayes bi

            • Mô hình hi quy Logistic Bayes

            • Phng pháp VB

              • Ngun gc toán hoc

              • Xp xi phân phi hu nghim

                • Xp xi phân phi hu nghim cua bin Z c lp tng khi

                • Xp xi ia phng - Tham s bin phân

                • Áp dung phng pháp VB cho phân phi Gaussian

                  • Phân phi Gaussian mt chiu

                  • Phân phi a thc Gaussian

Tài liệu cùng người dùng

Tài liệu liên quan