Hồi quy hai biến docx

15 280 0
Hồi quy hai biến docx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỒI QUY 2 BIẾN Chương 2 1) Hồi qui a- Khái niệm Phân tích hồi qui là nghiên cứusự phụ thuộccủa1 biến(biếnphụ thuộc) vào 1 hay nhiềubiến khác (biến độclập), nhằmmục đích ướclượng (hay dựđoán) giá trị trung bình củabiếnphụ thuộctrêncơ sở các giá trị biếttrướccủacácbiến độclập. 2.1. Giớithiệu 2.1.1. Khái niệmvề hồiquyvàtương quan ĐỒ THỊ PHÂN TÁN i. Quan hệ thống kê và quan hệ hàm số: Y = aX + b Năng suấtlúa= f(giống, kỹ thuậtcanhtác, đất đai thổ nhưỡng, vậttư nôngnghiệp,…) ii. Hồi quy và quan hệ nhân quả: Phân tích hồi quy không đòi hỏigiữabiếnphụ thuộcvà các biến độclậpphảicómốiquanhệ nhân quả. Vì hồi qui là để quyết định phương án tốtnhấtnhằmdự báo biếnY từ biếnX b) Sự khác nhau giữacácd ạng quan hệ trong hồiqui  Ví dụ 1 : Về nhân quả : khi thu nhậpcánhântăng (biến X) thì số thuế thu nhậpcánhânphảinộptăng (biếnY), vậy khi ta thấymộtngườinộpthuế thu nhậpcánhântăng, ta có thể cho rằng người đócómức thu nhậptăng. Tuy nhiên trong thựctế ta không thể xác định rõ biếnnào qui định biếnnào.  Ví dụ 2 : không phải nhân quả Lý thuyếtkinhtế cho rằng : tỷ lệ thấp nghiệptăng do giá lương thấp, nhưng cầnhiểurằng giá lương thấp không là nguyên khiếnthất nghiệptăng b) Sự khác nhau giữacácdạng quan hệ trong hồiqui a- Khái niệm –Phân tích tương quan : • Là đolường mức độ liên kếtcủahaibiếnnhằm cho biếtmột biếncóxuhướng thay đổinhư thế nào khi thay đổibiến còn lại. • Không có sự phân biệtgiữa các biến; các biếncótínhchất đối xứng. r xy = r yx Ví dụ : mốitương quan cao giữaviệc hút thuốcvàbệnh ung thư phổi –Phân tích hồi qui : Nhằm ướclượng hoặcdựđóan giá trị trung bình củabiếnphụ thuộcdựa trên giá trị xác định củabiến độclập. iii. tương quan: 2.2.1. Mô hình hồiquytổng thể (PRF-Public Regression Function) Ví dụ 2.1. Xét mốiquanhệ giữa chi tiêu dùng hàng tuần (Y) theo mức thu nhập(X) của 60 hộ dân tạimột địaphương.Ta đượcsố liệuchoở bảng sau: 2.2.Mô hình hồiquytổng thể và hồiquymẫu Bảng 2.1. Chi tiêu và thu nhậpcủahộ gia đình: MỨC THU NHẬP ( X ) 80 100 120 140 160 180 200 220 240 260 MỨC CHI TIÊU ( Y ) 55 65 79 80 102 110 120 135 137 150 60 70 84 93 107 115 136 137 145 152 65 74 90 95 110 120 140 140 155 175 70 80 94 103 116 130 144 152 165 178 75 85 98 108 118 135 145 157 175 180 88 113 125 140 160 189 185 115 162 191 ∑ Yi 325 462 445 707 678 750 685 1043 966 1211 E(Y/Xi) 65 77 89 101 113 125 137 149 161 173 )/()( XXYYPYX / YE ij 1 ji === ∑ = k j Vd : tính E(Y/X=100) = 6 1 88 6 1 85 6 1 80 6 1 74 6 1 70 6 1 65 +++++ E(Y/X i ) = f(X i ) = β 1 + β 2 X i β 1 : là hệ số chặn–tungđộ gốc β 2 : hệ số góc - hệ sốđo độ dốc đường hồi quy Ví dụ: ở hộ gia đình có mức chi tiêu trung bình 149 ta có được thu nhập ở mức: 149 = 17 +0.6X ⇒X = 220 Mô hình hồi quy tổng thể ngẫu nhiên: Y i = β 1 + β 2 X i + u i u i :sai số ngẫu nhiên củatổng thểứng vớiquansátthứ i u i : đạidiệnnhững nhân tố còn lại ảnh hưởng đếnchi tiêu Mô hình hồi quy tổng thể  Về mặthìnhhọc, một đường hồiquytổng thể là quỹ tích các giá trị trung bình có điềukiệncủa biếnphụ thuộc ứng vớimỗigiátrị cốđịnh của biếngiải thích.  Ứng vớimỗi giá trị củaX, cómộttổng thể các giá trị của Y, dao động xung quanh giá trị kỳ vọng có điềukiệncủaY Dependent Variable: CHITIEU Method: Least Squares Date: 09/19/10 Time: 09:08 Sample: 1 60 Included observations: 60 Variable Coefficient Std. Error t-Statistic Prob. C 17 4.66196662984 3.64652974802 0.000570143766419 THUNHAP 0.6 0.0254913443421 23.5374012428 2.30488954789e-31 R-squared 0.9052301916 82 Mean dependent var 121.2 Adjusted R- squared 0.9035962294 7 S.D. dependent var 36.4579163011 S.E. of regression 11.319802605 8 Akaike info criterion 7.72374945135 Sum squared resid 7432 Schwarz criterion 7.79356093675 Log likelihood -229.71248354 F-statistic 554.009257266 Durbin-Watson stat 1.5104951560 8 Prob(F-statistic) 0 -Bỏ sót biếngiải thích. -Saisố khi đolường biếnphụ thuộc. -Dạng mô hình hồi quy không phù hợp. -Cáctácđộng không tiên đoán được. Sai số ngẫu nhiên hình thành từ nhiềunguyên nhân: 40 60 80 100 120 140 160 50 100 150 200 250 X Y Y = E(Y/X i ) Y i u i E(Y/X i )=β 1 +β 2 X i Y i =β 1 +β 2 Xi+u i Y i = β 1 +β 2 X i Thu nhậpkhả dụng (X) Tiêu dùng (Y) β 1 β 2 Mô hình hồi quy mẫu: Trong đó : ướclượng cho β 1 . : Ướclượng cho β 2 . : Ướclượng cho E(Y/Xi) Mô hình hồi quy mẫungẫu nhiên ii XY 21 ˆˆ ˆ ββ += 1 ˆ β 2 ˆ β i Y ˆ iii eXY ++= 21 ˆˆ ββ 2.2.2. Mô hình hồiquymẫu(SRF) 0 100 200 300 400 500 600 0 100 200 300 400 500 600 700 800 900 Thu nhập Tiêu dùng (PRF) (SRF) Xi Yi E(Y/Xi) Yi e i ε i β 1 β 1 β 2 β 2 β 2 Giả thiết1: Các biếngiải thích (biến độclập) là phi ngẫu nhiên tức là X nhận các giá trị xác định x i (giá trị của chúng đượcchotrướchoặc đượcxácđịnh) , khi đó mớitồntạibiếnngẫu nhiên có điềukiện (Y/Xi) và mớitồntại trung bình E(Y/Xi). ¾Từđómới xây dựng hàm hồi qui tổng thế và biếnngẫu nhiên . 2.3.1.Các giảđịnh củamôhìnhhồiquytuyến tính cổđiển Giả thiết2: Kỳ vọng củayếutố ngẫu nhiên u i bằng 0, tứclà: E[ u i / X i ] = 0 ∀i # j •Nghĩa là E(ui/Xi) = f(Xi), hay hàm hồi qui tổng thể đượcxácđịnh là điqua đúng các điểm trung bình có điềukiện. •Sự dao động ngẫunhiêntriệttiêunhauvìvậy không tác động đếnxuthế biến động trung bình, mà xu thế này do biến độclậpX giảithích 2.3.1.Các giảđịnh củamôhìnhhồiquytuyến tính cổđiển U i + U i - Y X Ảnh hưởng cân bằng củanhiễuUi Vd : sự chênh lệch giữa những nhóm ngườilàm việc trong ngành ngân hàng và ngành y có cùng mức thu nhậpnhưng mức tiêu dùng khác nhau Giả thiết2:(tt) Giả thiết2:(tt) Phương sai sai số ngẫunhiên(u i ) bằng nhau (phương sai thuầnnhất) Var(u i /X i ) = var(u j /X i ) = σ 2 ∀ i,σ 2 > 0 Độ giao động phương sai là đồng nhấtgiữacácgiátrị Xi Giả thiết3 : Giả thiết 3 (tt): Phương sai thuầnnhất Trường hợpphương sai thay đổi Các sai số ngẫunhiên(u i ) không tương quan lẫn nhau: Cov [u i ,u j ]= E(u i ,u j ) = 0 ∀ i # j Khi X = X i , sự dao động của Y không liên quan đến sự giao động của Y khi X = X j ¾Nhằm đảmbảosự biến động củaY tạicácvị trí độc lậpvới nhau và sai số ngẫu nhiên là thậtsự ngẫu nhiên chứ không mang tính xu thế Giả thiết4: Giả thiết 4 (tt): Tự tương quan củaphầndư ( nhiễu–Ui) c) Không tương quan b) Tương quan âm a) Tương quan dương Sai số ngẫu nhiên (u i ) và các biến độclập( X i ) không tương quan với nhau: Cov (u i ,X i ) = 0 Biến độclập X và u cùng tác dụng đếnbiếnY, làtác động riêng lẽ không liên quan với nhau, chúng hoàn toàn độclậpvớinhau Giả thiết5 :  Định lý Gauss-Markov Vớicácgiảđịnh củamôhìnhhồiquytuyến tính cổđiển, mô hình hồiquytuyếntínhtheophương phápbìnhphương tốithiểu(OLS) là ướclượng tuyến tính không thiên lệch tốtnhất 2.3.1.Các giảđịnh củamôhìnhhồi quy tuyếntínhcổđiển 2.3.2. Phương pháp bình phương nhỏ nhất (OLS) iiiii iiiii XYY ˆ Ye eY ˆ eXY ∧∧ ∧∧ −−=−=⇔ +=++= 21 21 ββ ββ 1 β ˆ Ta có hàm SRF: •Ta muốn tìm và sao cho gầnbằng với Y nhất, có nghĩalàΣe i nhỏ nhất. Tuy nhiên, Σei thường rấtnhỏ và thậm chí bằng 0 vì chúng triệttiêulẫn nhau. • Để tránh tình trạng này, ta dùng phương pháp “Bình phương nhỏ nhất” 2 ˆ β Y ˆ Cho n quan sát của2 đạilượng (Y i , X i ) Mô hình hồi quy mẫungẫu nhiên có dạng ni ,1= iii eXY ++= 21 ˆˆ ˆ ββ iii YYe ˆ −= 0min). ˆˆ ( ˆ 1211111 ⇔⇒+−=−= XYYYe ββ 0). ˆˆ ( ˆ 2212222 ⇒+−=−= XYYYe ββ 0). ˆˆ ( ˆ 3213333 ⇒+−=−= XYYYe ββ Nội dung củaphương pháp Phương pháp OLS (tt) () 2 21 2 ∑∑ −−= iii X ˆˆ Ye ββ 1 β ˆ •Bâygiờ, ta muốntìm và saochoΣe i 2 nhỏ nhất. •Lưuý rằng biểuthứctrêncóthểđượcxemnhư là một hàm số theo và và chúng ta cần tìm các β sao biểuthức đạtcựctiểu 2 β ˆ 1 β ˆ 2 β ˆ ) ˆ , ˆ (fe i 21 2 ββ ∑ = () 0e2X ˆˆ Y2 ˆ e n 1i i n 1i i21i 1 n 1i 2 i =−=β−β−−= β∂ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ∂ ∑∑ ∑ == = () 0Xe2XX ˆˆ Y2 ˆ e n 1i iii n 1i i21i 2 n 1i 2 i =−=β−β−−= β∂ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ∂ ∑∑ ∑ == = • Để tìm ∑ei2 => 0: sử dụng Phương pháp bình phương bé nhất(OSL) •Vậy để tìm giá trị cựctiểucủabiểuthứctrên, tacần tính đạohàmcủahàmsố trên theo các β và cho các đạohàm=0. Giảihệ phương trình trên, chúng ta thu được: XY 21 ˆˆ ββ −= ∑ ∑ = = − − = n i i n i ii XnX YXnXY 1 22 1 2 ).( ˆ β XXx ii −= YYy ii −= ∑ ∑ = = =β n 1i 2 i n 1i ii 2 x xy ˆ n Y Y n X X i i ∑ ∑ = = Với đặt ⇒ Phương pháp OLS (tt) 1 β ˆ và 2 β ˆ Đượcgọilàcácướclượng bình phương nhỏ nhất của β 1 và β 2 Các thuộctínhcủa 1 β ˆ và 2 β ˆ  Các ướclượng OLS là các ướclượng điểm, có nghĩa là, vớimẫuchotrước, mỗi ướclượng chỉ cho biếtduy nhấtmột giá trị củathamsố củatổng thể nghiên cứu.  Mộtkhithuđược các ướclượng từ mẫu, ta có thể vẽ được đường hồiquymẫuvàđường này có những đặc tính sau: Đặc điểmcủa đường hồi quy mẫu Đi qua giá trị trung bình mẫucủa X và Y, do XY ββ ˆˆ 21 += Đặc điểmcủa đường hồiquymẫu 2. Giá trịướclượng trung bình củaY bằng vớigiátrị trung bình của Y quan sát. 3. Giá trị trung bình củasaisố e i bằng 0: ⎯e i = 0. 4. Sai số e i không có tương quan vớigiátrị dự báo Y i . 5. Sai số e i không có tương quan vớiX i . YY = ˆ Trong đó: σ 2 = var (u i ). Do σ 2 chưabiếtnên dùng ướclượng củanólà(ướclượng điểm phương sai sai số ngẫu nhiên) Phương sai Sai số chuẩn 2 ˆˆ 2 2 2 2 ˆ 2 2 ˆˆ 1 2 2 2 2 ˆ 1 222 111 ˆˆ ) ˆ ( 1 ) ˆ ( ˆˆ ) ˆ () ˆ ( βββ βββ σσβσσβ σσβσσβ ==== ==== ∑ ∑ ∑ se x Var se xn X Var i i i 22 ˆ 2 2 − = − = ∑ n RSS n e i σ 2.4.1. Phương sai và sai số chuẩncủacácướclượng 2.4. Phương sai, sai số chuẩncủacácước lượng, hệ số xác định R 2 , hệ số tương quan  Ví dụ : chúngtacómộtTổng thể chỉ 10 người, và chiều cao tính bằng cm của10 ngườinàylà:  Tổng thể: 130, 189, 200, 156, 154, 160, 162, 170, 145, 140  Như vậychiều cao trung bình củaTổng thể (chúng ta biết) là 160.6 cm. Gọichỉ số này là μ = 160.6 cm.  Bây giờ, giả sử chúng ta không có điềukiệnvàtàilực để đochiềucaocủatoànbộ Tổng thể, mà chỉ có khả năng lấy mẫu5 ngườitừ Tổng thể này để ước tính chiềucao.  Chúngtacóthể lấy nhiềumẫungẫunhiên, mỗilần5 người: 2.4. Phương sai, sai số chuẩn b ) Sai số chuẩn(SE)  Lầnthứ 1: 140, 160, 200, 140, 145 x1 = 157.0  Lầnthứ 2: 154, 170, 162, 160, 162 x2 = 161.6  Lầnthứ 3: 145, 140, 156, 140, 156 x3 = 147.4  Lầnthứ 4: 140, 170, 162, 170, 145 x4 = 157.4  Lầnthứ 5: 156, 156, 170, 189, 170 x5 = 168.2  Lầnthứ 6: 130, 170, 170, 170, 170 x6 = 162.0  Lầnthứ 7: 156, 154, 145, 154, 189 x7 = 159.6  Lầnthứ 8: 200, 154, 140, 170, 170 x8 = 166.8  Lầnthứ 9: 140, 170, 145, 162, 160 x9 = 155.4  Lầnthứ 10: 200, 200, 162, 170, 162 x10 = 178.8 n S SE = Cứ mỗilầnchọnmẫu, số trung bình chiều cao ước tính khác nhau, và biến thiên từ 147.4 cm đến 178.8 cm (x i ởđây là các giá trị trung bình). Các số trung bình này dao động chung quanh số trung bình củatổng thể (tức là 160.6 cm). Nếu chúng ta chọnmẫu N lần(mỗilầnvới n đốitượng), thì chúng ta sẽ có N số trung bình khác nhau. Sai số chuẩn SE được tính bằng công thứcsau: 2.4.2. Hệ số xác định R 2 và hệ số tương quan r Thước đo độ phù hợpcủamôhìnhđốivới dữ liệulàR 2 Y Yi Yi Xi X Y SRF ii yYY ˆ ˆ =− iii eYY =− ˆ ii yYY =− TSS = = ESS =RSS •TSS (Total Sum of Squares): Tổng bình phương tấtcả các sai lệch giữa giá trị thựctế củaY với giá trị trung bình củanó. RSSESSnTSS Y Y Y Y i n i i +=−=−= ∑∑ = 2 2 2 1 )()( [...]... số hồi quy với mức ý nghĩa α (độ tin cậy 1-α) như sau Để xác suất mà giá trị đúng của tham số cần ước lượng nằm trong khoảng (1-α) P ( βˆ i − ε i ≤ β i ≤ βˆ i + ε i ) = 1 − α ˆ ˆ ˆ β i ∈ ( β i − ε i ; β i + ε i ) Với ε i = t( n − 2,α / 2 ) SE ( β i ) ˆ β i − ε i : giới hạn tin cậy dưới ˆ β i + ε i : giới hạn tin cậy trên ε : độ chính xác của ước lượng (ε > 0) 2.7 Kiểm định giả thiết về hệ số hồi quy. .. βˆ 2 − β 2* Cách 1: Kiểm định t: t = SE ( βˆ 2 ) Quy tắc quy t định Nếu t > t ( n − 2,α / 2 ) thì bác bỏ H0 Nếu t ≤ t( n − 2,α / 2 ) thì ta không thể bác bỏ H0 -t α/2 -4 -3 * Để tìm giá trị tα/2, n-2, sử dụng hàm TINV(α/2, n-2) Cách 2: Phương pháp khoảng tin cậy Với ˆ εi = t(n−2,α / 2) * se(βi ) với mức ý nghĩa α trùng với mức ý nghĩa của gt H0 Quy tắc quy t định * ˆ ˆ - Nếu βi ∈ (βi − ε i ; βi + ε i... Kiểm định giả thiết H0: R2 = 0 với mức ý nghĩa α hay độ tin cậy 1 - α R 2 (n − 2) Xét thống kê F = 2 Quy tắc quy t định 1 − R - Nếu F > Fα(k-1,n-k): Bác bỏ H0 - Nếu F ≤ Fα(k-1,n-k): Chấp nhận H0 Miền bác bỏ Miền chấp nhận Tra bảng Fα(n1, n2) để tìm giá trị F trong đó n1 = k-1, n2 = n-k, với k là tổng số biến trong mô hình 2.8 Kiểm định sự phù hợp của mô hình – Dự báo (tt) 2)Dự báo Cho trước giá trị Xi... i i 0 -2 t -1 0 t 1 α/2 2 3 Cách 3: Phương pháp P-value Giả sử ta tìm được khoảng tin cậy của βi là: ˆ ˆ βi ∈ ( βi − ε i ; β i + ε i ) α/2 α/2 Tính ˆ β i − β i* ti = ˆ se ( β i ) P (T > t i ) = p Quy tắc quy t định - Nếu p ≤ α : Bác bỏ H0 - Nếu p > α: Chấp nhận H0 (Phương pháp này thường dùng khi tiến hành trên máy vi tính) Vd nếu α = 0,05 = 5%, ta đọc “xác suất để khoảng tin cậy chứa giá trị thực... ∑x i =1 2 i i =1 = 2 i Σ ( X − X )(Y − Y ) ∑ ( X − X ) 2 (Y i − Y i i i i i )2 Tính chất của r: - r > 0: giữa X và Y có quan hệ đồng biến r→ ± 1: X và Y có quan hệ tuyến tính chặt chẽ r → 0: X và Y có quan hệ tuyến tính không chặt chẽ r < 0: X và Y có quan hệ nghịch biến - Hệ số tương quan có tính chất đối xứng: rXY = rYX - r độc lập với gốc toạ độ và các tỷ lệ Nghĩa là: với a, c > 0, b, d là hằng... 30 35 35 40 38 37 39 36 CHI TIÊU (Yi) ' ˆ Với: ε 0 = se (Y0 − Y0 ) t ( n − 2 ,α / 2 ) 31 25 26 25 29 29 33 31 30 32 29 Dựa vào bảng số liệu trên, anh (chị) hãy tính : ˆ ˆ • Các hệ số hồi qui β , β • Viết phương trình hồi qui chi tiêu theo thu nhập của 10 hộ dân trên 2 • Hãy tính các hệ số : RSS, ESS, TSS, R2, σ ˆ • Kiểm định β2, kiểm định F 1 ˆ ˆ se (Y0 − Y0 ) = Var (Y0 − Y0 ) 2 ˆ ) = σ 2 (1 + 1 +... Y n RSS = ∑ ei = ∑ (Y n ˆ ) = (β ) ∑ x2 i 2 i =1 ESS = ∑ (Y − Y ˆ 2 i i =1 • RSS 2 2 i =1 ˆ i −Y i) 2 n R2 = ESS RSS SSE = 1− =1− =1− TSS TSS SST ∑e i=1 n ∑y i=1 Hệ số xác định R2 thể hiện phần tỷ lệ biến thiên của Y được giải thích bởi mối liên hệ tuyến tính của Y theo X và được viết thành: ˆ β2 R2 = 2 n ∑ i =1 n ∑ y i =1 R2 x i2 2 i 2 i Hệ số tương quan r Hệ số tương quan r đo lường mức độ phụ thuộc . HỒI QUY 2 BIẾN Chương 2 1) Hồi qui a- Khái niệm Phân tích hồi qui là nghiên cứusự phụ thuộccủa1 biến( biếnphụ thuộc) vào 1 hay nhiềubiến khác (biến độclập),. nôngnghiệp,…) ii. Hồi quy và quan hệ nhân quả: Phân tích hồi quy không đòi hỏigiữabiếnphụ thuộcvà các biến độclậpphảicómốiquanhệ nhân quả. Vì hồi qui là để quy t

Ngày đăng: 20/03/2014, 23:20

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan