Quyết định bayes và bài toán occam’s razor

82 446 0
Quyết định bayes và bài toán occam’s razor

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - - - - - - - - - o0o - - - - - - - - - NGUYỄN ĐỨC HÙNG QUYẾT ĐỊNH BAYES VÀ BÀI TOÁN OCCAM’S RAZOR LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - - - - - - - - - o0o - - - - - - - - - NGUYỄN ĐỨC HÙNG QUYẾT ĐỊNH BAYES VÀ BÀI TOÁN OCCAM’S RAZOR Chuyên ngành: Lý thuyết xác suất thống kê toán Mã số: 60 46 01 06 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS TRỊNH QUỐC ANH Hà Nội - 2014 LỜI CẢM ƠN Trong suốt trình học tập, nghiên cứu hoàn thành luận văn này, em nhận hướng dẫn, giúp đỡ quý báu thầy cô, đồng nghiệp, gia đình bạn bè Em xin bày tỏ lòng kính trọng cảm ơn sâu sắc tới: - Tiến sỹ Trịnh Quốc Anh – Giảng viên Bộ môn Xác suất Thống kê, Khoa Toán – Cơ – Tin học, Trường Đại học Khoa học Tự nhiên động viên, hướng dẫn bảo tận tình em suốt trình em thực nghiên cứu đề tài Nhờ động viên dạy tận tình thầy, em cố gắng vượt qua khó khăn để hoàn thành đề tài nghiên cứu - Các thầy cô Khoa Toán - Cơ - Tin học, Trường Đại học Khoa học Tự nhiên tạo điều kiện thuận lợi giúp đỡ em trình học tập hoàn thành đề tài nghiên cứu Những kiến thức mà em nhận từ thầy cô hành trang giúp em vững bước tương lai - Các đồng nghiệp Khoa Khoa học bản, ban giám hiệu trường Đại học Công nghệ Giao thông vận tải giúp đỡ tạo điều kiện tốt để tác giả hoàn thành khóa học - Gia đình toàn thể bạn bè quan tâm, động viên giúp đỡ tác giả vượt qua khó khăn, thử thách sống học tập hoàn thành luận văn Hà Nội, tháng 10 năm 2014 Học viên Nguyễn Đức Hùng Mục lục Cơ sở lý thuyết 1.1 Tổng quan thống kê Bayes 1.2 Suy luận Bayes cho biến ngẫu nhiên rời rạc 1.2.1 Định lý Bayes cho tỷ lệ p phân phối nhị thức với tiên nghiệm rời rạc 1.2.2 Định lý Bayes cho tỷ lệ p phân phối nhị thức sử dụng tiên nghiệm liên tục 1.2.3 Ước lượng cho tỷ lệ p phân phối nhị thức 1.2.4 Kiểm định giả thiết cho tỷ lệ p phân phối nhị thức 1.3 Suy luận Bayes cho biến ngẫu nhiên liên tục 1.3.1 Định lý Bayes cho trung bình µ phân phối chuẩn với tiên nghiệm rời rạc 1.3.2 Định lý Bayes cho trung bình µ phân phối chuẩn với tiên nghiệm liên tục 1.3.3 Ước lượng cho trung bình µ phân phối chuẩn 1.3.4 Kiểm định giả thuyết cho trung bình µ 1.4 Chuỗi Markov 1.4.1 Quá trình Markov 1.4.2 Không gian trạng thái rời rạc 1.4.3 Phương pháp chuỗi Markov Monte Carlo (MCMC) Bài toán Occam’s Razor 2.1 Bài toán occam’s razor 2.1.1 Khái niệm 2.1.2 Occam’s razor toán Galileo 2.2 Occam’s razor mô hình hồi quy tuyến tính 2.2.1 Phụ thuộc tuyến tính 2.2.2 Mô hình hồi quy tuyến tính 2.2.3 Ước lượng cổ điển 2.2.4 Suy luận Bayes cho mô hình hồi quy tuyến tính 5 10 13 17 17 18 21 23 25 25 26 28 30 30 30 31 32 32 34 34 36 2.2.5 Ứng dụng toán Occam’s razor việc lựa chọn mô hình hồi quy tuyến tính 49 Quyết định Bayes mô hình chuỗi thời gian 3.1 Ứng dụng toán Occam’s Razor mô hình log-tuyến tính 3.1.1 Bảng dự phòng 3.1.2 Suy luận theo tiên nghiệm 3.1.3 Chọn mô hình ý nghĩa tham số 3.2 Quyết định Bayes mô hình chuỗi thời gian 3.2.1 Mô hình tự hồi quy AR 3.2.2 Mô hình trung bình trượt MA 3.2.3 Mô hình ARMA 57 57 57 60 61 63 64 71 74 Lời mở đầu Thế giới xung quanh chứa điều bí ẩn Những biết giới nhỏ bé so với hùng vĩ Xuất phát từ nhu cầu muốn tìm hiểu, khám phá giới tự nhiên, hàng loạt ngành khoa học chuyên sâu đời, có khoa học thống kê Thống kê (theo nghĩa thống kê toán học) khoa học phương pháp tổng quát xử lí kết thực nghiệm Hiện nay, giới có hai trường phái suy luận tồn phát triển song song với nhau: thống kê tần suất thống kê Bayes Thống kê tần suất (thống kê cổ điển) xem tham số giá trị không ngẫu nhiên thống kê Bayes coi tham số biến ngẫu nhiên Suy luận Bayes thể cách suy nghĩ phổ biến tất tiếp thu kiến thức theo kiểu tích lũy Có thể diễn đạt thống kê Bayes sau “những biết tổng hợp biết cộng với chứng thực tế ” Trong luận văn này, tác giả trình bày tổng quan thống kê Bayes, thống kê Bayes mô hình hồi quy tuyến tính mô hình chuỗi thời gian, ứng dụng nguyên tắc "Lưỡi dao cạo Occam" để giải số toán thực tế Luận văn gồm chương: Chương Cơ sở lý thuyết Trong chương 1, tác giả hệ thống suy luận Bayes cho biến ngẫu nhiên rời rạc liên tục, đại diện tương ứng phân phối nhị thức phân phối chuẩn, với tiên nghiệm rời rạc liên tục So sánh suy luận tần suất Bayes Đồng thời giới thiệu phương pháp MCMC phương pháp thông dụng hiệu để lấy mẫu cho phân phối hậu nghiệm Chương Bài toán Occam’s razor Trong chương 2, tác giả trình bày mô hình hồi quy tuyến tính ứng dụng toán Occam’s razor việc lựa chọn mô hình (chọn biến), sử dụng thuật toán lấy mẫu Gibbs Chương Quyết định Bayes mô hình chuỗi thời gian Trong chương 3, tác giả trình bày ứng dụng toán Occam’s Razor mô hình log-tuyến tính sử dụng thuật toán MetropolisHastings để xấp xỉ hàm hợp lý Tác giả trình bày Thống kê Bayes mô hình chuỗi thời gian, kết ước lượng, dự đoán số thuật toán chạy sử dụng phân tích số liệu Bayes: Thuật toán nhảy ngược, thuật toán Metropolis-Hastings Đồng thời tác giả ứng dụng toán Occam’s razor mô hình Hà Nội, tháng 10 năm 2014 Chương Cơ sở lý thuyết 1.1 Tổng quan thống kê Bayes Thống kê Bayes ngày phổ biến xây dựng mẫu thống kê cho vấn đề thực tế Trong năm gần đây, phương pháp thống kê Bayes sử dụng nhiều lĩnh vực từ khảo cổ học đến tính toán Suy luận Bayes phương pháp kết hợp thông tin thu thập từ liệu thực nghiệm với thông tin có từ trước Với mô hình xác suất, y liệu thực tế, θ tham số chưa biết, có hai cách hiểu tham số θ tương ứng với hai trường phái suy luận: thống kê tần suất thống kê Bayes Nếu suy luận thống kê cổ điển coi tham số θ giá trị cố định chưa biết, thống kê Bayes coi θ biến ngẫu nhiên (theo nghĩa ta đưa phân bố xác suất thể chắn giá trị thực tham số) Đây khác biệt hai cách tiếp cận Có lý để thống kê Bayes hiệu thống kê cổ điển: (1) kết luận Bayes thiết lập có điều kiện (thông tin tiên nghiệm) dựa mẫu liệu thu thập được, (2) với quan điểm Bayes hoàn toàn hợp lý nói xác suất để tỉ lệ rơi vào khoảng ước lượng (vì tham số biến ngẫu nhiên) Cơ sở suy luận Bayes định lí Bayes Định lí cho phép xác định xác suất xảy kiện ngẫu nhiên biết kiện liên quan xảy Xét tham số biến ngẫu nhiên X, nhận giá trị x1 , x2 , , xI , không quan sát X Biến ngẫu nhiên Y, phụ thuộc vào tham số, với giá trị y1 , y2 , , yJ , Y quan sát Ta suy luận biến ngẫu nhiên X/Y = yj việc sử dụng định lý Bayes Gọi f phân phối chứa biến ngẫu nhiên Y, g phân phối chứa tham số biến ngẫu nhiên X Phân phối đồng thời f (xi , yj ) = g(xi )f (yj /xi ) Phân phối biên duyên Y n n g(xi )f (yj /xi ) Phân phối hậu nghiệm X/Y = yj f (xi /yj ) = i=1 i=1 là: g(xi /yj ) = g(xi )f (yj /xi ) n g(xi )f (yj /xi ) n , g(xi /yj ) = i=1 i=1 Phân phối xác suất tiên nghiệm g(xi ) biến ngẫu nhiên rời rạc X xác suất xi trước ta quan sát thấy liệu, xuất phát từ kinh nghiệm, từ liệu Khi quan sát Y = yj ta có hàm hợp lý f (yj /xi ) 1.2 Suy luận Bayes cho biến ngẫu nhiên rời rạc 1.2.1 Định lý Bayes cho tỷ lệ p phân phối nhị thức với tiên nghiệm rời rạc Cho Y ∼ B(n, p), hàm hợp lý: f (y/p) = Cny py (1 − p)n−y , ≤ p ≤ Ví dụ 1.1 : Y /p ∼ B(4, p) Giả sử xem xét giá trị có cho p là: 0,4; 0,5; 0,6 ( giả định chúng nhau) Bảng phân phối đồng thời, phân phối biên duyên hậu nghiệm p/Y = 3: p Tiên nghiệm 0,4 1/3 0,0432 0,1152 0,1152 0,0512 0,5 1/3 0,0208 0,0833 0,1250 0,0833 0,6 1/3 0,0085 0,0512 0,1152 0,1152 0,0725 0,2497 0,3554 0,2497 Biên duyên Hậu nghiệm 0,0502 0,2497 0.0833 0,2497 0,1152 0,2497 = 0, 205 = 0, 334 = 0, 461 1,000 Hệ quan trọng định lý Bayes: • Nhân số với tiên nghiệm không làm thay đổi kết định lý Bayes • Nhân hàm hợp lý với số không làm thay đổi kết định lý Bayes Trong tính toán phân phối hậu nghiệm, nói chung tìm mật độ biên duyên mật độ hậu nghiệm không dễ, nên thường sử dụng phân phối tiên nghiệm mà phân phối hậu nghiệm dễ tính toán, tiên nghiệm gọi tiên nghiệm liên hợp 1.2.2 Định lý Bayes cho tỷ lệ p phân phối nhị thức sử dụng tiên nghiệm liên tục a Sử dụng tiên nghiệm Cho Y ∼ B(n, p) Sử dụng tiên nghiệm đều: g(p) = 1, ≤ p ≤ Mật độ hậu nghiệm g(p/y) = g(p)f (y/p) g(p)f (y/p)dp = 1Cny py (1 − p)n−y y y 1Cn p (1 − p)n−y dp ∝ Cny py (1 − p)n−y Ta thấy phân phối hậu nghiệm hàm p phân phối phân phối Beta (a; b) với a = y + 1, b = n − y + Nếu | | < 1, (xt )t∈Z thể viết lại sau ∞ j xt = µ + εt−j (3.5) j=0 Dễ thấy trình dừng cấp hai hồi quy Nếu | | > 1, trình dừng cấp hai hồi quy (3.4) ∞ −j xt = µ − εt+j j=1 Phương pháp tính dừng cho thấy xt có tương quan với tiếng ồn trắng tương lai (εt )s>t , tính chất (3.5) | | > Đây hạn chế trình AR(1) với | | < 1, để xt có tính hồi quy giới hạn mối quan hệ khứ (εt )s≤t Hạn chế tương ứng với tính nhân hay trình tự hồi quy độc lập tương lai Chú ý rằng, tính nhân hạn chế cho mô hình AR(1) kết hợp tự nhiên với tiên nghiệm thống [−1, 1] Tổng quát mô hình AR(1) mô hình AR(p) thu cách tăng phụ thuộc vào giá trị khứ, xác định sau p xt = µ + i (xt+1−i − µ) + εt (3.6) i=1 Trong (εt )t∈(Z) tiếng ồn trắng Tương tự, tính dừng tính nhân áp dụng mô hình này, trình AR(p) bao gồm tính nhân tính dừng cấp hai tất nghiệm đa thức p i iu P (u) = − (3.7) i=1 Là bên hình tròn đơn vị mặt phẳng phức Bây ta xem xét hàm hợp lý liên kết với giá trị quan sát từ 65 trình x0:T phụ thuộc vào giá trị không quan sát x−p , , x−1 từ: l (µ, ∝σ , , p , σ|x0:T , x−p:−1 ) −T −1 p T exp − xt − µ − t=0 i (xt−i − µ) /2σ i=1 Những giá trị ban đầu không quan sát được xử lý theo cách khác Đầu tiên, tất thiết lập µ; thứ hai, dựa vào tính dừng tính nhân quả, trình (xt )t∈Z có phân phối dừng giả sử x−p:−1 phân phối từ phân phối dừng tương ứng, cụ thể phân phối Np (µ1p , A) Sau đó, tích hợp giá trị ban đầu để có hàm hợp lý biên duyên:   2 p T  −1 x −µ− (3.8) σ −T −1 exp i (xt−i − µ)   2σ t t=0 i=1 ×f (x−p:−1 |µ, A) dx−p:−1 Dựa lập luận chúng không quan sát trực tiếp Hàm hợp lý xử lý phân tích gặp nhiều khó khăn thông qua mẫu Gibbs mô giá trị ban đầu Một phương pháp tiếp cận khác rõ ràng thay hàm hợp lý có điều kiện giá trị quan sát ban đầu x0:p−1 nghĩa lc µ, ∝σ , , p , σ|xp:T , x0:(p−1) −T +p−1 p T exp − xt − µ − t=p 2 i (xt−i − µ) /2σ (3.9) i=1 Trong trường hợp này, không hạn chế không gian tham số thông qua điều kiện dừng, tiên nghiệm liên hợp tự nhiên tìm cho tham số θ = µ, , σ , tạo thành phân phối chuẩn (µ, ) phân phối nghịch đảo Gammar σ Thay dùng tiên nghiệm Jeffreys, đề xuất tiên nghiệm thiếu 66 : σ Nếu áp đặt hạn chế tính dừng nhân thông tin truyền thống g (θ) = mà tất nghiệm đa thức P (3.7) bên hình tròn đơn vị Một số chấp nhận trở nên phụ thuộc sử dụng cho phân phối tiên nghiệm phân phối giới hạn chuẩn, ta thiếu thuật toán đơn giản để mô tả quy định Một giải pháp khả thi đưa dựa mối tương quan tự động trình AR(p) Chúng ta có cách tiếp cận khác cách đó, tham số trở lại đơn giản cách sử dụng nghịch đảo nghiệm thực phức đa thức P, mà khoảng (−1, 1) hình cầu tương ứng Nếu ta đại diện cho đa thức (3.7) dạng nhân tử hóa nó: p (1 − λi x), Px = i=1 nghiệm nghịch đảo λi (i = 1, 2, , p) có giá trị thực phức Dưới hạn chế tính dừng nhân quả, tiên nghiệm tự nhiên sau sử dụng tiên nghiệm thống cho nghiệm này, lấy phân phối số lượng rp nghiệm phức liên hợp phân phối [−1, 1] hình cầu đơn vị ζ = {λ ∈ C; |λ| ≤ 1} cho nghiệm thực phức không liên hợp tương ứng Nói cách khác g (λ) = 1 1|λ | 1) Một tính chất quan trọng (3.10) mô hình định danh cho gia nhập Thật vậy, viết lại xt sau: xt = µ + εt−1 − εt , ε ∼ N 0, ϑ2 σ ϑ Vì vậy, hai cặp (ϑ, σ) ϑ , ϑσ đại diện tương đương mô hình Để đạt tính đồng nhất, không gian tham số trình M A(1) bị hạn chế |ϑ| < Quá trình gọi nghịch đảo Cũng tính nhân quả, tính nghịch đảo không đặc tính trình (xt )t∈Z mà liên kết hai trình (xt )t∈T (εt )t∈T Tổng quát mô hình M A(1) để tăng phụ thuộc vào khứ mô hình M A(q) xác định t ∈ T q x t = µ + εt ϑi εt−i (3.11) i=1 Trong (εt )t∈T tiếng ồn trắng Điều kiện “đồng nhất” tương ứng mô hình tất nghiệm đa thức q ϑi ui , Q (u) = − i=1 71 Đều nằm bên hình tròn đơn vị mặt phẳng phức Một khác biệt lớn mô hình M A(q) AR(p) cấu trúc M A(q) không Markov Trong trường hợp Gauss, toàn véc tơ quan sát x1:T biến chuẩn ngẫu nhiên thực, với số trung bình µ ma trận hiệp phương sai Do đó, cung cấp hàm hợp lý rõ ràng Tuy nhiên, việc tính toán hàm hợp lý tốn liên quan đến ma trận nghịch đảo (khá lớn) Một biểu khác hàm hợp lý M A(q) sử dụng hàm hợp lý x1:T có điều kiện tiếng ồn trắng ε0 , , ε−q+1 : c l (µ, ϑ1 , , ϑq , σ|x1:T , ε0 , , ε−q+1 ) ∝ σ −T   T  exp xt − µ +   t=1 2 q ϑj εt−j  /2σ   j=1 (3.12) q Trong đó: (t > 0) : εt = xt − µ + ϑj εt−j ε0 = ε0 , , ε1−q = ε1−q j=1 Định nghĩa đệ quy hàm hợp lý tốn liên quan đến tổng T q số hạng Tuy nhiên, vấn đề xử lý giá trị điều kiện (ε0 , , ε−q+1 ) phải xử lý riêng thông qua bước MCMC, phức tạp biểu dễ quản lý so với biểu xác chuẩn Chú ý rằng, phân phối có điều kiện (ε0 , , ε−q+1 ) cho hai x1:T tham số phân phối chuẩn Với hai x1:T tiếng ồn khứ (ε0 , , ε−q+1 ) , phân phối có điều kiện tham số (µ, ϑ1 , , ϑq , σ) gần với hậu nghiệm kết hợp với phân phối hậu nghiệm AR(q) Vì thế, tái xử dụng thuật toán (3.2) Tiếng ồn khứ ε−i (i = 1, , q) mô xt , tham số µ, σ ϑ = (ϑ1 , , ϑq ) Trong phân phối xác: T f (ε0 , , ε−q+1 |x1:T , µ, σ, ϑ) ∝ e i=−q+1 −ε2i /2σ 2 e−ˆεt /2σ (3.13) t=1 Trong εˆt định nghĩa trên, phân phối chuẩn véc 72    tơ (ε0 , , ε−q+1 ) Tính toán tốn cho biến với giá trị thực T Do đó, sử dụng thuật toán hỗn hợp Gibbs tiếng ồn biến ε = (ε0 , , ε−q+1 ) mô từ đề nghị dựa giá trị mô trước (ε0 , , ε−q+1 ) dựa phân phối có điều kiện (ε0 , , ε−q+1 ) tham số phân phối chuẩn Thuật toán 3.3[10]: Nhảy ngược M A(q) Khởi tạo: Chọn λ(0) , ε(0) , µ(0) σ (0) tùy ý Lặp lặp lại t(t ≥ 1) : Chạy bước từ đến thuật toán (3.2) với điều kiện ε(t−1) với hàm hợp lý có điều kiện xác tương ứng Mô ε(t) bước Metropolis-Hasting Ví dụ 3.2[10] (tiếp): Chúng ta xem xét 350 điểm chuỗi Air Liquide Eurostoxx50 Kết đại diện cho q = 10000 lần lặp lại thuật toán (3.3), với ước lượng sau: Hình 3.3[10] 73 Hàng cùng: biểu đồ bên trái trình tự nghiệm phức (dao động từ đến 8); biểu đồ phải chuỗi µ σ Hàng trình tự ước lượng ϑi (i = 1, 2, 3) Hàng : biểu đồ bên trái trình tự hàm hợp lý quan sát; biểu đồ biểu đám mây nghiệm phức với ranh giới hình tròn đơn vị; biểu đồ bên phải phát triển mô ε−t 3.2.3 Mô hình ARMA Mở rộng hai mô hình trước mô hình ARM A(p, q), xt (t ∈ Z) xác định bởi: p xt = µ − q i (xt−i ϑj εt−j , εt ∼ N 0, σ − µ) + εt − i=1 j=1 74 (3.14) Trong εt độc lập Cho phương trình quan sát:  yt+1     =     r xt = µ − (ϑr−1 ϑr−2 ϑ1 − 1) yt ,   0          yt + εt+1     0    r−1 r−2 Với r = max(p, q + 1) quy ước m          (3.15) = m >p ϑm = m>q Tương tự trường hợp MA(q), đại diện không gian trạng thái tiện dụng việc đưa thuật toán MCMC hội tụ đến phân phối hậu nghiệm tham số mô hình Nếu định nghĩa (t>p) p xt = xt − µ + i (xt−i − µ), i=1 Hàm hợp lý giống hàm hợp lý tiêu chuẩn M A(q) xt , khôi phục hàm hợp lý AR(p) nhiều Nếu định nghĩa số dư q εt = ϑj εt−j , log-hàm hợp lý điều kiện x0:(p−1) là: j=1 T −  υj [xt−j − µ] − εt  /2σ xt − µ − t=p 2 p j=1 Rõ ràng log-hàm hợp lý AR(p) dạng đóng, ngoại trừ εt Kết luận: Trên đây, thấy vai trò thống kê Bayes việc xử lý mô hình chuỗi thời gian AR, M A, ARM A Các mô hình có điểm chung sử dụng hàm tiên nghiệm thiếu thông tin khác hàm hợp lý Các hàm hợp lý liên kết với giá trị quan sát Ta xem 75 xét phương pháp chọn hàm hợp lý mô hình AR(p) dựa giá trị quan sát: Đầu tiên xem xét hàm hợp lý liên kết với giá trị quan sát x0:T , phụ thuộc vào giá trị không quan sát x−p , , x−1 Tuy nhiên việc tính toán hàm hợp lý tốn liên quan tới tích phân (khá lớn) Thứ hai xem xét hàm hợp lý liên kết với giá trị quan sát xp:T , phụ thuộc vào giá trị quan sát ban đầu x0 , , xp−1 Sau ta áp dụng thuật toán nhảy ngược kết hợp với thuật toán MetropolisHastings xấp xỉ hàm hợp lý để ước lượng hệ số mô hình chuỗi thời gian Đối với mô hình khác, việc chọn hàm hợp lý giống mô hình AR(p) Phương pháp xem xét hàm hợp lý liên kết với giá trị quan sát phụ thuộc vào giá trị quan sát ban đầu đơn giản hơn, rõ ràng giải việc ước lượng hệ số mô hình cách hiệu Đây lời giải toán Occam’s razor việc lựa chọn phương pháp xử lý mô hình chuỗi thời gian 76 Kết luận Luận văn trình bày tổng quan thống kê Bayes, so sánh thống kê tần suất Bayes số trường hợp Thống kê tần suất xem tham số giá trị không ngẫu nhiên thống kê Bayes coi tham số biến ngẫu nhiên tuân theo phân phối đó, tham số lại phụ thuộc vào tham số khác gọi siêu tham số (hyperparameters) Trong luận văn trình bày suy luận Bayes ước lượng, kiểm định, dự đoán với trường hợp tiên nghiệm chứa thông tin tiên nghiệm thiếu thông tin dựa vào phân phối hậu nghiệm, đồng thời so sánh với tần suất Luận văn trình bày ứng dụng Occam’s razor để giải số toán thực tế: chọn biến mô hình hồi quy tuyến tính, toán Galileo, phân tích mô hình chuỗi thời gian Từ mô hình hồi quy tuyến tính tới mô hình chuỗi thời gian, nhờ thống kê Bayes, có kết suy luận tốt cho mẫu liệu thực tế, cập nhật liên tục có phân phối dừng Tuy nhiên, có số hạn chế suy luận Bayes việc tính toán: tính tích phân, kích thước mẫu lớn Trong luận văn trình bày phương pháp MCMC để giải hạn chế Cuối tác giả mong muốn tiếp tục sâu nghiên cứu thống kê Bayes, để có hiểu biết sâu sắc hơn, đầy đủ phương pháp Tác giả hy vọng tương lai áp dụng suy luận Bayes vào thực tiễn sống 77 Tài liệu tham khảo [1] Đào Hữu Hồ, Thống kê toán học, NXB ĐH THCN, NXB ĐHQG Hà Nội, (1984) [2] Nguyễn Văn Hữu, Nguyễn Hữu Dư Phân tích thống kê dự báo, NXB ĐHQG Hà Nội, (2003) [3] Nguyễn Xuân Dực, Phương pháp mô Monte Carlo: Giải thuật Gibbs, Khóa luận tốt nghiệp, Trường Đại học Khoa học Tự nhiên [4] Andrew Gelman, John B Carlin, Hal S Stern and Donald, Bayesian Data analysis [5] Congdon, Bayesian Statistical Modelling, John Wiley, New York, (2001) [6] Dupuis, Bayesian estimation of movement probabilities in open populations using hidden Markov chains, Biometrika, 82(4):761–772, (1995) 78 [7] Green, Reversible jump MCMC computation and Bayesian model determination, Biometrika, 82(4):711–732, (1995) [8] William H Jefferys and James O Berger, Ockham’s Razor and Bayesian Analysis [9] [10] William M Bolstad, Introduction to Bayesian statistics Jean- Michel Marin Christian P.Robert, Bayesian core: A practical approach to computational Bayesian statistics 79 [...]... kê Bayes Các bài toán suy luận {f (θ|y), f (θi |y), f (˜ y |y)} được MCMC mô phỏng một cách dễ dàng Các nhà khoa học đã nghiên cứu và đề xuất ra nhiều giải thuật thuộc lớp phương pháp MCMC giải quyết bài toán lấy mẫu Trong số đó, lấy mẫu Gibbs là một giải thuật khá mạnh giải quyết vấn đề này, đặc biệt với sự trợ giúp của máy tính điện tử 29 Chương 2 Bài toán Occam’s Razor 2.1 2.1.1 Bài toán occam’s razor. .. tự nhau 22 1.3.4 Kiểm định giả thuyết cho trung bình µ a Kiểm định giả thuyết 1-phía cho µ i Theo tần suất Xét bài toán kiểm định:  H0 : µ ≤ µ0 H : µ > µ 1 0 Miền bác bỏ 1-phía tại mức α là z = y¯ − µ0 √ > zα , σ/ n y¯ − µ0 √ Nếu p-giá trị < α, bác bỏ giả thuyết H0 σ/ n ii Theo Bayes  H0 : µ ≤ µ0 1 Ta xét bài toán kiểm định H : µ > µ p-giá trị = P Z ≥ 1 0 2 Kiểm định Bayes, sử dụng cách tính... nhận H0 thì µ0 nằm trong khoảng tin cậy cho µ ii Theo Bayes Chúng ta kiểm định 2-phía H0 : µ = µ0 Trong kiểm định Bayes, nếu H1 : µ = µ0 dùng tiên nghiệm liên tục thì việc tính xác suất hậu nghiệm của giả thuyết không là bằng không, vì vậy chúng ta sử dụng khoảng tin được Bayes để kiểm định Bayes 2-phía Nếu µ0 thuộc khoảng tin được Bayes thì chấp nhận giả thuyết, nếu không thì bác bỏ giả thuyết 24 1.4... Kiểm định giả thuyết 2-phía cho µ i Theo tần suất Xét bài toán kiểm định H0 : µ = µ0 H1 : µ = µ0 y − µ0 √ > Ta chú ý miền bác bỏ cho kiểm định 2-phía tại mức α là Z = σ/ n σ σ zα/2 và điều này tương đương với µ0 < y−zα/2 √ hoặc µ0 > y+zα/2 √ n n Ta thấy nếu bác bỏ giả thuyết tại α thì µ0 nằm ngoài khoảng tin cậy (1 − α).100% Tương tự ta chấp nhận H0 thì µ0 nằm trong khoảng tin cậy cho µ ii Theo Bayes. .. trong bài toán của Galileo Bài toán của Galileo[8]: Giả sử bạn đang thu thập một số dữ liệu về chuyển động của vật thể, như Galileo đã làm trong thí nghiệm huyền thoại của mình tại tháp Pisa Bạn thả một vật có trọng lượng và ghi lại vị trí của nó, s, tại một số thời điểm, t, trong khi nó rơi Thí nghiệm đó là để đưa ra một quy luật toán học mô tả chuyển động của vật thể Quy luật của Galileo đề xuất, và. .. (y/p0 ) Nếu y=8 p - giá trị < α, kiểm định thống kê nằm trong miền bác bỏ và ngược lại Với y = 8 nằm trong miền chấp nhận và p - giá trị > α = 0, 05; bằng chứng không đủ mạnh để kết luận p > 0, 6 ii Theo  Bayes H0 = p ≤ p0 tại mức ý nghĩa α Phương pháp Bayes là cách Kiểm định H = p > p 1 0 dễ hiểu, chúng ta cần làm các tính toán xác suất hậu nghiệm bằng cách sau: p0 g(p/y)dp P (H0 : p < p0 /y) =... Họ thích phương trình bậc hai bởi vì nó đơn giản hơn, trong khi tất cả các đa thức bậc cao đều phức tạp một cách không cần thiết Bây giờ chúng ta sẽ tiếp cận bài toán Occam’s razor đối với việc lựa chọn mô hình hồi quy tuyến tính 2.2 Occam’s razor trong mô hình hồi quy tuyến tính 2.2.1 Phụ thuộc tuyến tính Một tỷ lệ lớn các phân tích thống kê với các đại diện phụ thuộc nhau trong một số hiện tượng... cứu và các nhà khoa học sử dụng nó mỗi ngày, ngay cả khi họ không trích dẫn một cách rõ ràng Nguyên tắc “Lưỡi dao cạo của Occam” cho chúng ta ủng hộ giả thuyết đơn giản nhất đó là phù hợp với dữ liệu, nhưng việc xác định giả thuyết đơn giản nhất thường gặp nhiều khó khăn Phân tích Bayes có thể trợ giúp cụ thể trong việc đánh giá mức độ mà một mô hình đơn giản hơn là được 30 ưa thích 2.1.2 Occam’s razor. .. phân phối tiên nghiệm có giá trị trung bình là 0,2 và độ lệch chuẩn là 0,8 Tiên nghiệm Beta (a; b)là phù hợp, được xác định bởi   a  = 0, 2  a = 4, 8 a+b ⇔ ab  b = 19, 2 2  = 0, 8 2 (a + b) (a + b + 1) Suy ra tiên nghiệm của Ann là Beta (4,8; 19,2) Sinh viên Bart không biết thông tin gì về vùng này nên đã quyết định dùng tiên nghiệm đều với và tiên nghiệm của Bart là Beta(1; 1) Sinh viên Chris... xác suất hậu nghiệm để kiểm định giả thuyết 2-phía vì P (H0 : p = p0 /y) = 0 Thay 16 vào đó chúng ta sử dụng khoảng tin được Bayes cho p: Nếu p0 nằm trong khoảng tin được, ta chấp nhận giả thuyết H0 và nếu p0 nằm ngoài khoảng đó thì ta bác bỏ giả thuyết Ví dụ 1.4 (tiếp): Nếu sử dụng tiên nghiệm là phân phối đều thì hậu nghiệm là phân phối Beta(10 + 1; 5 + 1) Khoảng tin được Bayes 95% cho p tìm bởi sử ... Monte Carlo (MCMC) Bài toán Occam’s Razor 2.1 Bài toán occam’s razor 2.1.1 Khái niệm 2.1.2 Occam’s razor toán Galileo 2.2 Occam’s razor mô hình hồi... - - - - - - - - o0o - - - - - - - - - NGUYỄN ĐỨC HÙNG QUYẾT ĐỊNH BAYES VÀ BÀI TOÁN OCCAM’S RAZOR Chuyên ngành: Lý thuyết xác suất thống kê toán Mã số: 60 46 01 06 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI... Chương Bài toán Occam’s razor Trong chương 2, tác giả trình bày mô hình hồi quy tuyến tính ứng dụng toán Occam’s razor việc lựa chọn mô hình (chọn biến), sử dụng thuật toán lấy mẫu Gibbs Chương Quyết

Ngày đăng: 29/10/2015, 21:04

Tài liệu cùng người dùng

Tài liệu liên quan