Phân tích hồi qui tuyến tính

Thông tin tài liệu

Hồi qui

10 Phân tích hi qui tuyn tính Phân tích hi qui tuyn tính (linear regression analysis) có l là mt trong nhng phng pháp phân tích s liu thông dng nht trong thng kê hc. Anon tng vit “Cho con ngi 3 v khí – h s tng quan, hi qui tuyn tính và mt cây bút, con ngi s s dng c ba”! Trong chng này, tôi s gii thiu cách s dng R đ phân tích hi qui tuyn tính và các phng pháp liên quan nh h s tng quan và kim đnh gi thit thng kê. Ví d 1.  minh ha cho vn đ, chúng ta th xem xét nghiên cu sau đây, mà trong đó nhà nghiên cu đo lng đ cholestrol trong máu ca 18 đi tng nam. T trng c th (body mass index) cng đc c tính cho mi đi tng bng công thc tính BMI là ly trng lng (tính bng kg) chia cho chiu cao bình phng (m 2 ). Kt qu đo lng nh sau: Bng 1.  tui, t trng c th và cholesterol Mã s ID (id)  tui (age) BMI (bmi) Cholesterol (chol) 1 46 25.4 3.5 2 20 20.6 1.9 3 52 26.2 4.0 4 30 22.6 2.6 5 57 25.4 4.5 6 25 23.1 3.0 7 28 22.7 2.9 8 36 24.9 3.8 9 22 19.8 2.1 10 43 25.3 3.8 11 57 23.2 4.1 12 33 21.8 3.0 13 22 20.9 2.5 14 63 26.7 4.6 15 40 26.4 3.2 16 48 21.2 4.2 17 28 21.2 2.3 18 49 22.8 4.0 Nhìn s qua s liu chúng ta thy ngi có đ tui càng cao đ cholesterol cng càng cao. Chúng ta th nhp s liu này vào R và v mt biu đ tán x nh sau: > age <- c(46,20,52,30,57,25,28,36,22,43,57,33,22,63,40,48,28,49) > bmi <-c(25.4,20.6,26.2,22.6,25.4,23.1,22.7,24.9,19.8,25.3,23.2, 21.8,20.9,26.7,26.4,21.2,21.2,22.8) > chol <- c(3.5,1.9,4.0,2.6,4.5,3.0,2.9,3.8,2.1,3.8,4.1,3.0, 2.5,4.6,3.2, 4.2,2.3,4.0) > data <- data.frame(age, bmi, chol) > plot(chol ~ age, pch=16) 20 30 40 50 60 2.0 2.5 3.0 3.5 4.0 4.5 age chol Biu đ 10.1. Liên h gia đ tui và cholesterol. Biu đ 10.1 trên đây gi ý cho thy mi liên h gia đ tui (age) và cholesterol là mt đng thng (tuyn tính).  “đo lng” mi liên h này, chúng ta có th s dng h s tng quan (coefficient of correlation). 10.1 H s tng quan H s tng quan (r) là mt ch s thng kê đo lng mi liên h tng quan gia hai bin s, nh gia đ tui (x) và cholesterol (y). H s tng quan có giá tr t -1 đn 1. H s tng quan bng 0 (hay gn 0) có ngha là hai bin s không có liên h gì vi nhau; ngc li nu h s bng -1 hay 1 có ngha là hai bin s có mt mi liên h tuyt đi. Nu giá tr ca h s tng quan là âm (r <0) có ngha là khi x tng cao thì y gim (và ngc li, khi x gim thì y tng); nu giá tr h s tng quan là dng (r > 0) có ngha là khi x tng cao thì y cng tng, và khi x tng cao thì y cng gim theo. Thc ra có nhiu h s tng quan trong thng kê, nhng  đây tôi s trình bày 3 h s tng quan thông dng nht: h s tng quan Pearson r, Spearman ρ, và Kendall τ. 10.1.1 H s tng quan Pearson Cho hai bin s x và y t n mu, h s tng quan Pearson đc c tính bng công thc sau đây: ()() ()() ∑ − ∑ − ∑ −− = == = n i i n i i n i ii yyxx yyxx r 1 2 1 2 1 Trong đó, nh đnh ngha phn trên, x và y là giá tr trung bình ca bin s x và y.  c tính h s tng quan gia đ tui age và cholesterol, chúng ta có th s dng hàm cor(x,y) nh sau: > cor(age, chol) [1] 0.936726 Chúng ta có th kim đnh gi thit h s tng quan bng 0 (tc hai bin x và y không có liên h). Phng pháp kim đnh này thng da vào phép bin đi Fisher mà R đã có sn mt hàm cor.test đ tin hành vic tính toán. > cor.test(age, chol) Pearson's product-moment correlation data: age and chol t = 10.7035, df = 16, p-value = 1.058e-08 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.8350463 0.9765306 sample estimates: cor 0.936726 Kt qu phân tích cho thy kim đnh t = 10.70 vi tr s p = 1.058e-08; do đó, chúng ta có bng chng đ kt lun rng mi liên h gia đ tui và cholesterol có ý ngha thng kê. Kt lun này cng chính là kt lun chúng ta đã đi đn trong phn phân tích hi qui tuyn tính trên. 10.1.2 H s tng quan Spearman ρ H s tng quan Pearson ch hp lí nu bin s x và y tuân theo lut phân phi chun. Nu x và y không tuân theo lut phân phi chun, chúng ta phi s dng mt h s tng quan khác tên là Spearman, mt phng pháp phân tích phi tham s. H s này đc c tính bng cách bin đi hai bin s x và y thành th bc (rank), và xem đ tng quan gia hai dãy s bc. Do đó, h s còn có tên ting Anh là Spearman’s Rank correlation. R c tính h s tng quan Spearman bng hàm cor.test vi thông s method=”spearman” nh sau: > cor.test(age, chol, method="spearman") Spearman's rank correlation rho data: age and chol S = 51.1584, p-value = 2.57e-09 alternative hypothesis: true rho is not equal to 0 sample estimates: rho 0.947205 Warning message: Cannot compute exact p-values with ties in: cor.test.default(age, chol, method = "spearman") Kt qu phân tích cho thy giá tr rho = 0.947, và tr s p = 2.57e-09. Kt qu t phân tích này cng không khác vi phân tích hi qui tuyn tính: mi liên h gia đ tui và cholesterol rt cao và có ý ngha thng kê. 10.1.3 H s tng quan Kendall τ H s tng quan Kendall (cng là mt phng pháp phân tích phi tham s) đc c tính bng cách tìm các cp s (x, y) “song hành" vi nhau. Mt cp (x, y) song hành  đây đc đnh ngha là hiu (đ khác bit) trên trc hoành có cùng du hiu (dng hay âm) vi hiu trên trc tung. Nu hai bin s x và y không có liên h vi nhau, thì s cp song hành bng hay tng đng vi s cp không song hành. Bi vì có nhiu cp phi kim đnh, phng pháp tính toán h s tng quan Kendall đòi hi thi gian ca máy tính khá cao. Tuy nhiên, nu mt d liu di 5000 đi tng thì mt máy vi tính có th tính toán khá d dàng. R dùng hàm cor.test vi thông s method=”kendall” đ c tính h s tng quan Kendall: > cor.test(age, chol, method="kendall") Kendall's rank correlation tau data: age and chol z = 4.755, p-value = 1.984e-06 alternative hypothesis: true tau is not equal to 0 sample estimates: tau 0.8333333 Warning message: Cannot compute exact p-value with ties in: cor.test.default(age, chol, method = "kendall") Kt qu phân tích h s tng quan Kendall mt ln na khng đnh mi liên h gia đ tui và cholesterol có ý ngha thng kê, vì h s tau = 0.833 và tr s p = 1.98e- 06. Các h s tng quan trên đây đo mc đ tng quan gia hai bin s, nhng không cho chúng ta mt phng trình đ ni hai bin s đó vi nhau. Thành ra, vn đ đt ra là chúng ta tìm mt phng trình tuyn tính đ mô t mi liên h này. Chúng ta s ng dng mô hình hi qui tuyn tính. 10.2 Mô hình ca hi qui tuyn tính đn gin 10.2.1 vài dòng lí thuyt  tin vic theo dõi và mô t mô hình, gi đ tui cho cá nhân i là x i và cholesterol là y i .  đây i = 1, 2, 3, …, 18. Mô hình hi tuyn tính phát biu rng: iii yx α βε = ++ [1] Nói cách khác, phng trình trên gi đnh rng đ cholesterol ca mt cá nhân bng mt hng s α cng vi mt h s β liên quan đn đ tui, và mt sai s ε i . Trong phng trình trên, α là chn (intercept, tc giá tr lúc x i =0), và β là đ dc (slope hay gradient). Trong thc t, α và β là hai thông s (paramater, còn gi là regression coefficient hay h s hi qui), và ε i là mt bin s theo lut phân phi chun vi trung bình 0 và phng sai σ 2 . Các thông s α, β và σ 2 phi đc c tính t d liu. Phng pháp đ c tính các thông s này là phng pháp bình phng nh nht (least squares method). Nh tên gi, phng pháp bình phng nh nht tìm giá tr α, β sao cho () 2 1 n ii i yx αβ =   −+   ∑ nh nht. Sau vài thao tác toán, có th chng minh d dàng rng, c s cho α và β đáp ng điu kin đó là: ()() () 1 2 1 ˆ n ii i n i i x xy y xx β = = − − = − ∑ ∑ [2] và yx α β =− ) ) [3]  đây, x và y là giá tr trung bình ca bin s x và y. Chú ý, tôi vit α ) và β ) (vi du m phía trên) là đ nhc nh rng đây là hai c s (estimates) ca α và β, ch không phi α và β (chúng ta không bit chính xác α và β, nhng ch có th c tính mà thôi). Sau khi đã có c s α ) và β ) , chúng ta có th c tính đ cholesterol trung bình cho tng đ tui nh sau: ˆ ˆ ii yx α β =+ ) Tt nhiên, ˆ i y  đây ch là s trung bình cho đ tui x i , và phn còn li (tc i y - ˆ i y ) gi là phn d (residual). Và phng sai ca phn d có th c tính nh sau: () 2 1 ˆ 2 n ii i yy s n = − = − ∑ [4] s 2 chính là c s ca σ 2 . Trong phân tích hi qui tuyn tính, thông thng chúng ta mun bit h s β = 0 hay khác 0. Nu β bng 0, thì cng có ngha là không có mi liên h gì gia x và y; nu β khác vi 0, chúng ta có bng chng đ phát biu rng x và y có liên quan nhau.  kim đnh gi thit β = 0 chúng ta dùng xét nghim t sau đây: () ˆ ˆ t SE β β = [5] () ˆ SE β có ngha là sai s chun (standard error) ca c s β ) . Trong phng trình trên, t tuân theo lut phân phi t vi bc t do n-2 (nu tht s β = 0). 10.2.2 Phân tích hi qui tuyn tính đn gin bng R Hàm lm (vit tt t linear model) trong R có th tính toán các giá tr ca α ) và β ) , cng nh s 2 mt cách nhanh gn. Chúng ta tip tc vi ví d bng R nh sau: > lm(chol ~ age) Call: lm(formula = chol ~ age) Coefficients: (Intercept) age 1.08922 0.05779 Trong lnh trên, “chol ~ age” có ngha là mô t chol là mt hàm s ca age. Kt qu tính toán ca lm cho thy α ) = 1.0892 và β ) = 0.05779. Nói cách khác, vi hai thông s này, chúng ta có th c tính đ cholesterol cho bt c đ tui nào trong khong tui ca mu bng phng trình tuyn tính: ˆ i y = 1.08922 + 0.05779 x age Phng trình này có ngha là khi đ tui tng 1 nm thì đ cholesterol tng khong 0.058 mmol/L. Tht ra, hàm lm còn cung cp cho chúng ta nhiu thông tin khác, nhng chúng ta phi đa các thông tin này vào mt object. Gi object đó là reg, thì lnh s là: > reg <- lm(chol ~ age) > summary(reg) Call: lm(formula = chol ~ age) Residuals: Min 1Q Median 3Q Max -0.40729 -0.24133 -0.04522 0.17939 0.63040 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.089218 0.221466 4.918 0.000154 *** age 0.057788 0.005399 10.704 1.06e-08 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.3027 on 16 degrees of freedom Multiple R-Squared: 0.8775, Adjusted R-squared: 0.8698 F-statistic: 114.6 on 1 and 16 DF, p-value: 1.058e-08 Lnh th hai, summary(reg), yêu cu R lit kê các thông tin tính toán trong reg. Phn kt qu chia làm 3 phn: (a) Phn 1 mô t phn d (residuals) ca mô hình hi qui: Residuals: Min 1Q Median 3Q Max -0.40729 -0.24133 -0.04522 0.17939 0.63040 Chúng ta bit rng trung bình phn d phi là 0, và  đây, s trung v là -0.04, cng không xa 0 bao nhiêu. Các s quantiles 25% (1Q) và 75% (3Q) cng khá cân đi chung quan s trung v, cho thy phn d ca phng trình này tng đi cân đi. (b) Phn hai trình bày c s ca α ) và β ) cùng vi sai s chun và giá tr ca kim đnh t. Giá tr kim đnh t cho β ) là 10.74 vi tr s p = 1.06e-08, cho thy β không phi bng 0. Nói cách khác, chúng ta có bng chng đ cho rng có mt mi liên h gia cholesterol và đ tui, và mi liên h này có ý ngha thng kê. Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.089218 0.221466 4.918 0.000154 *** age 0.057788 0.005399 10.704 1.06e-08 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (c) Phn ba ca kt qu cho chúng ta thông tin v phng sai ca phn d (residual mean square).  đây, s 2 = 0.3027. Trong kt qu này còn có kim đnh F, cng ch là mt kim đnh xem có qu tht β bng 0, tc có ý ngha tng t nh kim đnh t trong phn trên. Nói chung, trong trng hp phân tích hi qui tuyn tính đn gin (vi mt yu t) chúng ta không cn phi quan tâm đn kim đnh F. Residual standard error: 0.3027 on 16 degrees of freedom Multiple R-Squared: 0.8775, Adjusted R-squared: 0.8698 F-statistic: 114.6 on 1 and 16 DF, p-value: 1.058e-08 Ngoài ra, phn 3 còn cho chúng ta mt thông tin quan trng, đó là tr s R 2 hay h s xác đnh bi (coefficient of determination). H s này đc c tính bng công thc: () () 2 2 1 2 1 ˆ n i i n i i yy R yy = = − = − ∑ ∑ [6] Tc là bng tng bình phng gia s c tính và trung bình chia cho tng bình phng s quan sát và trung bình. Tr s R 2 trong ví d này là 0.8775, có ngha là phng trình tuyn tính (vi đ tui là mt yu t) gii thích khong 88% các khác bit v đ cholesterol gia các cá nhân. Tt nhiên tr s R 2 có giá tr t 0 đn 100% (hay 1). Giá tr R 2 càng cao là mt du hiu cho thy mi liên h gia hai bin s đ tui và cholesterol càng cht ch. Mt h s cng cn đ cp  đây là h s điu chnh xác đnh bi (mà trong kt qu trên R gi là “Adjusted R-squared”). ây là h s cho chúng ta bit mc đ ci tin ca phng sai phn d (residual variance) do yu t đ tui có mt trong mô hình tuyn tính. Nói chung, h s này không khác my so vi h s xác đnh bi, và chúng ta cng không cn chú tâm quá mc. 10.2.3 Gi đnh ca phân tích hi qui tuyn tính Tt c các phân tích trên da vào mt s gi đnh quan trng nh sau: (a) x là mt bin s c đnh hay fixed, (“c đnh”  đây có ngha là không có sai sót ngu nhiên trong đo lng); (b) ε i phân phi theo lut phân phi chun; (c) ε i có giá tr trung bình (mean) là 0; (d) ε i có phng sai σ 2 c đnh cho tt c x i ; và (e) các giá tr liên tc ca ε i không có liên h tng quan vi nhau (nói cách khác, ε 1 và ε 2 không có liên h vi nhau). Nu các gi đnh này không đc đáp ng thì phng trình mà chúng ta c tính có vn đ hp lí (validity). Do đó, trc khi trình bày và din dch mô hình trên, chúng ta cn phi kim tra xem các gi đnh trên có đáp ng đc hay không. Trong trng hp này, gi đnh (a) không phi là vn đ, vì đ tui không phi là mt bin s ngu nhiên, và không có sai s khi tính đ tui ca mt cá nhân. i vi các gi đnh (b) đn (e), cách kim tra đn gin nhng hu hiu nht là bng cách xem xét mi liên h gia ˆ i y , i x , và phn d i e ( ˆ iii eyy = − ) bng nhng đ th tán x. Vi lnh fitted() chúng ta có th tính toán ˆ i y cho tng cá nhân nh sau (ví d đi vi cá nhân 1, 46 tui, đ cholestrol có th tiên đoán nh sau: 1.08922 + 0.05779 x 46 = 3.747). > fitted(reg) 1 2 3 4 5 6 7 8 3.747483 2.244985 4.094214 2.822869 4.383156 2.533927 2.707292 3.169600 9 10 11 12 13 14 15 16 2.360562 3.574118 4.383156 2.996234 2.360562 4.729886 3.400753 3.863060 17 18 2.707292 3.920849 Vi lnh resid() chúng ta có th tính toán phn d i e cho tng cá nhân nh sau (vi đi tng 1, e 1 = 3.5 – 3.74748 = -0.24748): > resid(reg) 1 2 3 4 5 6 -0.247483426 -0.344985415 -0.094213736 -0.222869265 0.116844338 0.466072660 7 8 9 10 11 12 0.192707505 0.630400424 -0.260562185 0.225881729 -0.283155662 0.003765579 13 14 15 16 17 18 0.139437815 -0.129885972 -0.200753116 0.336939804 -0.407292495 0.079151419  kim tra các gi đnh trên, chúng ta có th v mt lot 4 đ th mà tôi s gii thích sau đây: > op <- par(mfrow=c(2,2)) #yêu cu R dành ra 4 ca s > plot(reg) #v các đ th trong reg 2.5 3.0 3.5 4.0 4.5 -0.4 0.0 0.2 0.4 0.6 Fitted values Residuals Residuals vs Fitted 8 6 17 -2-1012 -1012 Theoretical Quantiles Standardized residuals Normal Q-Q 8 6 17 2.5 3.0 3.5 4.0 4.5 0.00.51.01.5 Fitted values Standardized residuals Scale-Location 8 6 17 0.00 0.05 0.10 0.15 0.20 0.25 -1 0 1 2 Leverage Standardized residuals Cook's distance 0.5 0.5 1 Residuals vs Leverage 6 2 8 Biu đ 10.2. Phân tích phn d đ kim tra các gi đnh trong phân tích hi qui tuyn tính. (a)  th bên trái dòng 1 v phn d i e và giá tr tiên đoán cholesterol ˆ i y .  th này cho thy các giá tr phn d tp chung quanh đng y = 0, cho nên gi đnh (c), hay ε i có giá tr trung bình 0, là có th chp nhn đc. (b)  th bên phi dòng 1 v giá tr phn d và giá tr kì vng da vào phân phi chun. Chúng ta thy các s phn d tp trung rt gn các giá tr trên đng chun, và do đó, gi đnh (b), tc ε i phân phi theo lut phân phi chun, cng có th đáp ng. (c)  th bên trái dòng 2 v cn s phn d chun (standardized residual) và giá tr ca ˆ i y .  th này cho thy không có gì khác nhau gia các s phn d chun cho các giá tr ca ˆ i y , và do đó, gi đnh (d), tc ε i có phng sai σ 2 c đnh cho tt c x i , cng có th đáp ng.

Ngày đăng: 24/10/2013, 15:11

Xem thêm: Phân tích hồi qui tuyến tính, Phân tích hồi qui tuyến tính