Khai thác và sử dụng SPSS để xử lý số liệu nghiên cứu trong lâm nghiệp - Chương 6 doc

37 791 6
Khai thác và sử dụng SPSS để xử lý số liệu nghiên cứu trong lâm nghiệp - Chương 6 doc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

114 Hình 5.41 Bảng trên ( H 5.39) cho thấy các công thức khác nhau là rõ. Điều này cũng phản ảnh rõ ràng ở 2 bảng dới (H 5.40 và H 5.41) vì các công thức chia thành 3 nhóm với công thức 3 (a 1 b 3 ) là tốt nhất. Có nghĩa là cây trồng ở cự ly 10*10m và 24 tháng tuổi là tốt nhất. CHƯƠNG 6 Hồi quy Tuyến tính Một lớp v nhiều lớp 6.1. Hệ số tơng quan 6.1.1. Công thức tính hệ số tơng quan Hệ số tơng quan là khái niệm chỉ mức độ liên hệ giữa 2 đại lợng ngẫu nhiên đợc tính theo công thức r = QyQx Qxy . (6.1) Với Qxy = xy - (x)*( y)/n và Qx = x 2 - (x) 2 /n , x và y là 2 đại lợng quan sát ở mẫu 6.1.2. Kiểm tra giả thuyết hệ số tơng quan Hệ số tơng quan mẫu thờng đợc ký hiệu là r (Hiện nay các phần mềm chuyên dụng thờng ký hiệu chung là R). Ngời ta chứng minh đợc rằng hệ số tơng quan r là một ớc lợng không chệch của hệ số tơng quan tổng thể chỉ khi = 0. Ta đặt giả thuyết H 0 : = 0,H 1 : 0 Ngời ta chứng minh rằng nếu trong tổng thể = 0 thì đại lợng. T = r/ 2 (1 )( 2)rn (6-2) Có phân bố t với n-2 bậc tự do. Giả thuyết H 0 bị bác bỏ nếu giá trị tuyệt đối của t tính theo (5-2) lớn hơn t /2 tra bảng. Trong trờng hợp r 0.03 thì (1-r 2 ) trong công thức (6-2) gần 1, nên việc kiểm tra giả thuyết H 0 có thể thực hiện theo công thức rút gọn sau: T = r 2n Ngoài phơng pháp tính hệ số tơng quan nói trên (gọi là hệ số tơng quan Pearson), ngời ta còn tính theo phơng pháp phi tham số mà thờng dùng là hệ số tơng quan hạng của Spearman. Cách tính theo phơng pháp này nh sau: 115 Gọi R i là vị thứ của biến X sau khi đã xếp hạng từ lớn đến nhỏ và S i là vị thứ xếp hạng từ lớn đến nhỏ của y và r s là hệ số tơng quan hạng của của Spearman ta có công thức: r s = 1 - 6(R i =S i ) 2 / (n 3 n) (6-3) Việc kiểm tra sự tồn tại của r s cũng đợc thực hiện theo công thức (6-2) chỉ cần thay r bằng r s trong công thức này. Các hệ số tơng quan hạng thờng dùng thích hợp cho những trờng hợp các đại lợng quan sát không tuân theo luật chuẩn. Ví dụ 6.1 : Quan hệ giữa đờng kính tán cây (Dt) và đờng kính D 1,3 nh sau Bảng 6.1 Đờng kính D 1.3 và đờng kính tán Dt (nguồn Ngô Kim Khôi) D 1.3 (cm) 7.6 8.8 8.9 9.3 9.7 10.6 11 11.8 11.9 12.3 Dt (m) 2.5 2.8 3 3.4 3.7 4 4.5 4.9 5.2 5.7 Sau khi đa các biến D 1.3 và Dt vào máy ta thực hiện Quy trình tính theo SPSS cho ví dụ (5-1) nh sau: QT6.1 Analyze\Correlate \ Bivariate. Trong hộp thoại Bivariate Correlations đa các biến Dt và D 1.3 vào khung Variables Đánh dấu vào Pearson (có thể thêm hệ số tơng quan Spearman và Kendall tau-b nếu cần) OK 116 Hình 6.1 Hộp thoại Bivariate correlation Kết quả nh sau Correlations 1 .984** . .000 10 10 .984** 1 .000 . 10 10 Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N DT D1.3 DT D1.3 Correlation is significant at the 0.01 level (2 il d) **. Hình 6.2 Correlations 1.000 1.000** . . 10 10 1.000** 1.000 . . 10 10 Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N D1.3 DT Spearman's rho D1.3 DT Correlation is significant at the 0.01 level (2-tailed). **. Hình 6.3 Giải thích: Bảng 1 (H 6.2) cho hệ số tơng quan Pearson giữa Dt và D 1.3 ở hàng thứ 2 theo kiểu ma trận. Nh trong ví dụ của ta cho hệ số tơng quan r = 0,984. Hàng thứ 3 cho xác suất kiểm tra sự tồn tại của r theo công thức (6-2). Vì xác suất quá nhỏ nên r tồn tại, cũng có nghĩa giả thuyết H 0 : = 0 bị bác bỏ ở mức =0.01. Bảng 2 (H 6.3) chỉ hệ số tơng quan đợc tính theo phơng pháp phi tham số có tên chung là tơng quan 117 hạng của Spearman và Kendall có kết cấu nh hình 6.2 nhng mức độ liên hệ bằng 1 cao hơn hệ số tơng quan tính theo Pearson. ở đây, không khai báo vấn đề tơng quan riêng phần (Partial correlation) vì nó sẽ đề cập trong phân tích hồi quy nhiều biến số. 6.2. Hồi quy tuyến tính một lớp 6.2.1. Cách biểu thị một hàm hồi quy tuyến tính một lớp Nếu 2 đại lợng X và Y trong tổng thể có quan hệ tuyến tính thì quan hệ đó đợc viết dới dạng kỳ vọng. E(Y/X) = A + B X (6-4) Còn ở mẫu yabx=+ (6-5) Ngoài ra ngời ta còn có thể biểu thị dới dạng phơng trình mô hình y i = A + BX + i (6-6) x 0 0 Y X Hình 5.4: Phân bố chuẩn của Y dới điều kiện X= x 0 Trong hình số (5-4) các giá trị y quan sát có phân bố chuẩn với kỳ vọng là E(Y/X) và phơng sai là 2 . Ngày nay, trong các phần mềm thống kê chuyên dụng đều có chơng trình kiểm tra mô hình trên rất thuận tiện. 6.2.2. Xác định các hệ số ở mẫu Việc xác định các hệ số a, b đợc tiến hành bằng phơng pháp bình phơng bé nhất và đợc tính theo các công thức sau b = Qx Qxy (6.7) a =y - bx (6.8) 6.2.3. Kiểm tra sự tồn tại của các hệ số Ngời ta đặt giả thuyết H 0 : A=0 và B=0 và kiểm tra chúng bằng tiêu chuẩn t theo các công thức t a = a/S a (6.9) 118 t b = b/S b (6.10) Trong đó: S a = S y x nQx / 2 và S b = S y X Q/1 Còn 2 ()/(2) y Syyn = gọi là sai tiêu chuẩn hồi quy. Nếu giá trị tuyệt đối của t a và t b tính theo 2 công thức trên > t /2 ứng với bậc tự do k= n - 2 thì giả thuyết bị bác bỏ , ngợc lại ta tạm thời chấp nhận giả thuyết. Trong các công thức trên thì S a và S b là sai số của các hệ số n dung lợng quan sát mức ý nghĩa dùng để kiểm tra ( mặc định = 0.05 ). Cần chú ý rằng việc kiểm tra hệ số b theo công thức (6.9) là đồng nhất với việc kiểm tra tồn tại của r trình bày ở mục (6.1.2). 6.2.4. Hệ số xác định Trong phân tích hồi quy thờng ngời ta dùng cái gọi là Hệ số xác định (Coefficient of determination) để đánh giá mức độ phụ thuộc giữa Y và X. Hệ số xác định đợc tính theo công thức: R 2 = 1 - ((y- y ) 2 / ( y -y ) 2 (6 -11) Hoặc R 2 = ( y - y) 2 / ( y - y ) 2 Theo các công thức trên thì Hệ số xác định là tỷ lệ biến động của đại lợng Y đợc giải thích bởi hàm hồi quy y . Theo các công thức trên R 2 bằng 1 khi tất cả giá trị y đều bằng y . Cũng tức là các điểm quan sát của Y đều nằm trên đờng hồi quy. R 2 = 0 khi y = y. Nh vậy, hệ số xác định nằm giữa 0 và 1. Trong trờng hợp tuyến tính đơn giữa 2 biến ngẫu nhiên theo mô hình II thì hệ số xác định cũng chính là hệ số tơng quan bình phơng. Nh vậy, hệ số xác định là một đặc trng thống kê chung nhất có thể dùng cho mô hình I và mô hình II. Trong khi đó hệ số tơng quan chỉ đợc dùng cho mô hình II. Trong nhiều tài liệu khoa học hiện nay, ngời ta vẫn gọi R là hệ số tơng quan chung cho mọi trờng hợp. Điều đó chỉ mang ý nghĩa hình thức nhng không đúng về mặt lý luận. Ngoài ra ngời ta còn tính Hệ số xác định có điều chỉnh theo công thức R a 2 = 1 - S 2 y / S 2 y (6.12) Với S 2 y là phơng sai hồi quy hay phơng sai d. 6.2.5. Bảng phân tích phơng sai trong phân tích Hồi quy Để phân tích sâu hơn về quan hệ giữa 2 đại lợng theo mô hình I hoặc mô hình II ngoài những thông tin về hệ số tơng quan hoặc hệ số xác định và phơng sai hồi quy ngời ta còn đa ra một bảng phân tích phơng sai (ANOVA) có dạng sau: Bảng 6-2: ANOVA Nguồn biến động (Source) Tổng B.Đ (SS ) Bậc tự do ( DF) Phơng sai (MS) F.tính Xác suất của F(Sig) 119 Hồi quy QR 1 MR MR/ME Sai số d QE n-2 ME Tổng Qx n-1 Trong bảng trên ta ký hiệu nh sau QR = ( y - y ) 2 ; QE = (y- y ) 2 MR = QR/ Bậc tự do (trong hồi quy 1 lớp k=1); ME = QE/ (n-2) = S 2 y Tổng biến động ( y - y ) 2 = [(y- y ) 2 + ( y - y )] 2 với bậc tự do tơng ứng là n- 2 và 1. Cho nên hàng cuối cùng bằng hàng thứ 2 cộng với hàng thứ 3 về các tổng biến động cũng nh bậc tự do. Thực chất của bảng phân tích phơng sai nói trên là việc kiểm ra sự tồn tại của hệ số xác định R 2 theo tiêu chuẩn F theo công thức: F = MR/ME (6.13) Với bậc tự do k1=1, k2= n-2. Nếu mức ý nghĩa của F (sigF) < 0.05 hoặc F tính lớn hơn F tra bảng thì hệ số xác định là tồn tại và phơng trình hồi quy mới có ý nghĩa . 6.2.6. Dự báo trung bình và dự báo cá biệt (mean prediction, individual prediction) Trong nhiều trờng hợp ngời ta cần ớc lợng giá trị của E(Y/X) thông qua hàm ớc lợng yabx = + bằng cách thay x 0 vào phơng trình hồi quy ở mẫu. Sai số ớc lợng trung bình đợc tính theo công thức: K 0 = S y 2 0 1/ ( ) /nxxQx+ (6-14) Từ đó ta có công thức ớc lợng khoảng của E(Y/X) nh sau: P( y -t /2 K 0 E(Y/X) y + t /2 K 0 ) =1- (6-15) t /2 đợc tra bảng theo phân bố t với n-2 bậc tự do và . Ngoài việc ớc lợng trung bình ngời ta còn đề cập đến vấn đề dự báo giá trị Y cá biệt theo mô hình (6-6) khi biết đợc một giá trị cụ thể của biến X, tức x 0 . Trong trờng hợp này, nếu dùng hàm hồi quy mẫu để dự báo ta sẽ mắc sai số cực hạn nh sau: y = t /2* QxXxnS y /)(/11 2 0 ++ (6-16) Nh vậy độ tin cậy của khoảng dự báo khi dự báo một giá trị của y cá biệt tính theo mô hình (6-6) là P( y - y y 0 y + y ) = 1- (6-17) 6.2.7. Chuẩn hoá các sai số phần d Để đánh giá mức độ phân tán các giá trị quan sát y so với giá trị y ngoài việc tính các trị phần d (y- y ) ngời ta còn tính các giá trị chuẩn hoá theo công thức: r*=(y- y )/ S y (6-18) với S y là sai tiêu chuẩn hồi quy 120 Bây giờ ta thử dùng phần mềm SPSS để phân tích hồi quy theo ví dụ 6.1 với quy trình sau QT6.2 1. Analyze\Regression\ Linear 2 Trong hộp toại Linear Resgession ghi DT vào Dependent và ghi D 1.3 vào Independent(s) chọn Enter trong Method (vì chỉ có một biến độc lập) 3 Nháy chuột vào Statistics chọn Estimates và confidence interval trong Regression coefficients 4 Nháy chuột vào Save, chọn unstandardized và standardized trong Predicted valuve, trong Residuals chọn unstandardized và standardized,trong Prediction intervals chọn Mean & individual 5 Nếu muốn kiểm tra các điều kiện của mô hình thì nháy chuột vào Plots: Đa Zresid vào khung Y (Trục Y) đa Zpred vào khung X (trục X), chọn Histogram và Normal probability Plot 6. OK Kết quả nh sau: Hình 6.5 Hộp thoại Linear Regresion 121 H×nh 6.6 Hép tho¹i Regresion Stattistics H×nh 6.7 Hép tho¹i Regression Save 122 H×nh 6.8 Hép tho¹i Regression Plots Model Summary b .984 a .969 .965 .20319 Model 1 R R Square Adjusted R Square Std. Error of the Estimate Predictors: (Constant), D1.3 a. Dependent Variable: DT b. H×nh 6.9 ANOVA b 10.191 1 10.191 246.833 .000 a .330 8 .041 10.521 9 Regression Residual Total Model 1 Sum of Squares df Mean Square F Sig. Predictors: (Constant), D1.3 a. Dependent Variable: DT b. H×nh 6.10 Coefficients a -2.945 .445 -6.621 .000 -3.971 -1.919 .679 .043 .984 15.711 .000 .579 .778 (Constant) D1.3 Model 1 B Std. Error Unstandardized Coefficients Beta Standardize d Coefficients t Sig. Lower Bound Upper Bound 95% Confidence Interval for B Dependent Variable: DT a. H×nh 6.11 123 Residuals Statistics a 2.2124 5.4019 3.9700 1.06410 10 -1.652 1.346 .000 1.000 10 .06665 .12901 .08884 .02011 10 2.0181 5.2734 3.9493 1.08062 10 2482 .2981 .0000 .19157 10 -1.222 1.467 .000 .943 10 -1.293 1.832 .043 1.106 10 2790 .4819 .0207 .26596 10 -1.360 2.250 .106 1.254 10 .068 2.728 .900 .844 10 .001 1.134 .225 .376 10 .008 .303 .100 .094 10 Predicted Value Std. Predicted Value Standard Error of Predicted Value Adjusted Predicted Valu e Residual Std. Residual Stud. Residual Deleted Residual Stud. Deleted Residual Mahal. Distance Cook's Distance Centered Leverage Valu e Minimum Maximum Mean Std. Deviation N Dependent Variable: DT a. H×nh 6.12 Regression Standardized Residual 1.501.00.500.00 50-1.00 Histogram Dependent Variable: DT Frequency 3.5 3.0 2.5 2.0 1.5 1.0 .5 0.0 Std. Dev = .94 Mean = 0.00 N = 10.00 H×nh 6.13 Normal P-P Plot of Regression Standardized Residual Dependent Variable: DT Observed Cum Prob 1.00.75.50.250.00 Expected Cum Prob 1.00 .75 .50 .25 0.00 H×nh 6.14 [...]... Correlations Covariances 4 Correlations Covariances G/ha 1.000 442 1.000 -. 67 6 493 -1 . 068 1.000 -. 755 -. 784 753 -1 .302 -1 .45E-04 Htb G/ha*N/ha -. 67 6 1.000 -1 . 068 5.052 -. 755 1.000 499 -1 .302 3.953 2.113E-04 1.000 -. 229 1.845 -4 .28E-05 -. 784 499 1.000 -1 .448E-04 2.113E-04 4.534E-08 -. 229 1.000 -4 .276E-05 1.897E-08 a Dependent Variable: M/ha Hình 6. 44 a Collinearity Diagnostics Variance Proportions Condition Model... Total Regression Residual Total Regression Residual Total Sum of Squares 13905. 964 365 5.145 17 561 .109 15 469 .473 2091 .63 6 17 561 .109 164 04.343 11 56. 766 17 561 .109 162 26. 433 1334 .67 6 17 561 .109 df 1 18 19 2 17 19 3 16 19 2 17 19 Mean Square 13905. 964 203. 064 F 68 .481 Sig .000a 7734.737 123.037 62 . 865 000b 5 468 .114 72.298 75 .63 3 000c 8113.217 78.510 103.339 000d a Predictors: (Constant), G/ha b Predictors:... Probabilit y-of-F-to-e nter = 100) Stepwise (Criteria: Probabilit y-of-F-to-e nter = 100) Stepwise (Criteria: Probabilit y-of-F-to-e nter = 100) Dependent Variable: M/ha Hình 6. 39 144 e Model Summary Change Statistics Model 1 2 3 4 R Square R 890a 792 939b 881 c 967 934 961 d 924 Adjusted... 000 6. 903 15.2 26 822 815 368 433 2.3 004 2 56 3.455 003 005 020 201 65 4 2 26 779 1.3 VIF a Dependent Variable: M/ha Hình 6. 27 a Coefficient Correlations Model 1 Correlations N/ha G/ha Htb N/ha G/ha Htb Covariances N/ha 1.000 -. 423 450 1. 269 E-05 -9 .11E-04 3.147E-03 G/ha -. 423 1.000 -. 738 -9 .11E-04 366 -. 8 76 Htb 450 -. 738 1.000 3.147E-03 -. 8 76 3.854 a Dependent Variable: M/ha Hình 6. 28 a Residuals Statistics... Prob Hình 6. 48 148 Scatterplot Regression Standardized Residual Dependent Variable: M/ha 2.5 2.0 1.5 1.0 5 0.0 -. 5 -1 .0 -1 .5 -3 -2 -1 0 1 2 Regression Standardized Predicted Value Hình 6. 49 Partial Regression Plot Partial Regression Plot Dependent Variable: M/ha M/ha M/ha Dependent Variable: M/ha 40 30 50 40 20 30 10 20 0 10 -1 0 0 -2 0 -1 0 -3 0 -2 0 -4 0 -3 0 -4 -3 -2 -1 0 1 2 3 -3 0000 -2 0000 -1 0000 0 10000... 67 3 66 9 231 365 2.738 000 123.975 -6 5.575 000 11. 069 16. 801 822 928 68 6 948 1.055 000 001 001 67 3 875 499 948 1.055 a Dependent Variable: M/ha Hình 6. 42 e Excluded Variables Model Beta In 1 Htb 405a N/ha 068 a G/ha*n/ha 073a 2 N/ha 256b G/ha*n/ha 382b 3 N/ha 057c 4 N/ha -. 167 d G/ha 220d t 3. 565 61 4 464 3.455 3.5 96 208 -1 .2 06 1. 569 Sig .002 547 64 8 003 002 838 245 1 36 Collinearity Statistics Partial... 1.00 Observed Cum Prob Hình 6. 31 Scatterplot Regression Standardized Residual Dependent Variable: M/ha 3 2 1 0 -1 -2 -3 -2 -1 0 1 2 Regression Standardized Predicted Value Hình 6. 32 137 Partial Regression Plot M/ha Dependent Variable: M/ha 30 20 10 0 -1 0 -2 0 -6 -4 -2 0 2 4 6 8 10 12 G/ha (a) Partial Regression Plot M/ha Dependent Variable: M/ha 30 20 10 0 -1 0 -2 0 -3 0 -4 0 -3 -2 -1 0 1 2 Htb (b) Partial... 166 20 20 20 20 20 N/ha G/ha*N/ha 201 67 3 151 717 -. 2 26 229 1.000 7 76 7 76 1.000 198 001 263 000 170 166 000 000 20 20 20 20 20 20 20 20 20 20 Hình 6. 38 143 a Variables Entered/Removed Variables Entered Model 1 Variables Removed G/ha Htb G/ha*n/ha 2 3 4 a G/ha Method Stepwise (Criteria: Probabilit y-of-F-to-e nter = 100) Stepwise (Criteria: Probabilit y-of-F-to-e... Dependent Variable: M/ha Hình 6. 41 145 a Coefficients Unstandardized tandardize CoefficientsCoefficients Mod B td Erro Beta t 1 (Const-1.181 0.453 -. 113 G/ha 5.501 66 5 890 8.275 2 (Const 58.537 8.030 -3 .247 G/ha 3.807 702 61 6 5.419 Htb 8.012 2.248 405 3. 565 3 (Const 82 .66 1 5. 363 -5 .380 G/ha 1. 361 868 220 1. 569 Htb 1.580 1.988 5 86 5.824 G/ha*n 001 000 382 3.5 96 4 (Const 94.775 3.840 -6 .848 Htb 3.935 1.358 705... 2.01793 6. 95022 Predicted Value Adjusted Predicted Valu 3. 366 0 123.5170 Residual -1 1.8239 19.1122 Std Residual -1 .334 2.157 Stud Residual -1 . 463 2.297 Deleted Residual -1 9.7470 21 .66 65 Stud Deleted Residual -1 .518 2 .68 3 Mahal Distance 035 10.740 Cook's Distance 000 1.019 Centered Leverage Valu 002 565 Mean Std Deviation 81.2035 29.22 367 000 1.000 N 20 20 3.20843 1.24922 20 81 .69 00 0000 000 -. 021 -. 4 865 -. 003 . Value 1.51.0.50.0 5-1 . 0-1 . 5-2 .0 Regression Standardized Residual 1.5 1.0 .5 0.0 5 -1 .0 -1 .5 Hình 6. 15 Giải thích Bảng đầu tiên (H 6. 9) chỉ hệ số tơng quan, hệ số xác định và hệ số xác định. D t = 4,50 m, trị số đờng kính tán lý thuyết =4,51 968 m, có trị số trung bình nằm trong khoảng từ 4,350 96 đến 4 ,68 839m; giá trị cá biệt nằm từ 4,02 167 đến 5,01 768 m. Với số liệu này ta có thể. coefficients, trong Residuals chọn Durbin-Watson để kiểm tra tính độc lập của sai số d (Xem H6.20) 4. Click vào Plots: Đa ZRESID vào Y và ZPRED vào X chọn Histogram và Normal probability plot (Xem H6.21)

Ngày đăng: 05/08/2014, 19:21

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan