Tài liệu Toán xác suất_ Chương 7 ppt

10 307 0
Tài liệu Toán xác suất_ Chương 7 ppt

Đang tải... (xem toàn văn)

Thông tin tài liệu

Gv. Cao Hào Thi CHƯƠNG 7 TƯƠNG QUAN & HỒI QUI TUYẾN TÍNH (Linear Correlation and Regression) 7.1. KHÁI NIỆM CHUNG Trong các chương trước chúng ta chỉ nghiên cứu các vấn đề liên quan đến mẫu ngẫu nhiên của một biến ngẫu nhiên X. Trong chương này, chúng ta quan tâm đến mẫu ngẫu nhiên bao gồm các cặp giá trò của hai biến ngẫu nhiên X và Y. Ví dụ Để nghiên cứu về chiều cao và sức nặng của các em học sinh trong một trường, chúng ta lấy mẫu ngẫu nhiên gồm n học sinh và thu thập các số liệu về chiều cao và sức nặng của n học sinh. Gọi X là biến ngẫu nhiên để dư chiều cao của học sinh và Y là biến ngẫu nhiên chỉ sức nặng của học sinh. Với n học sinh ta có n cặp giá trò (Y i , X i ). X (m) x 1 x 2 x 3 . x i . x n Y(kg) y 1 y 2 y 3 y i y n Mục tiêu của chương này là nghiên cứu sự liên hệ giữa biến Y và X bằng sự phân tính tương quan và hồi qui. Trong phân tích tương quan người ta đề cập đề cường độ của mối quan hệ giữa hai biến Y và X, đánh giá xem hai biến Y và X có quan hệ với nhau hay không. Trong phân tích hồi qui người ta lại xác đònh quan hệ giữa hai biến Y và X dưới dạng phương trình toán học, từ đó ta có thể dự đoán được biến Y (biến phụ thuộc, dependent variable) dựa vào biến X (biến độc lập, independent variable) Trong chương này, chúng ta cũng giới hạn chỉ nghiên cứu tương quan và hồi qui đơn biến và tuyến tính, nghóa là chỉ nghiên cứu trường hợp biến Y chỉ phụ thuộc vào 1 biến X và dạng phương trình hồi qui là phương trình đường thẳng (khác với các tương quan và hồi qui bội và phi tuyến). 7.2. TƯƠNG QUAN TUYẾN TÍNH (Linear Correlation) 7.2.1. Đồ thò phân tán (Scatter Diagram) Đồ thò phân tán của biến Y đối với biến X là tập hợp các điểm M(x i , y i ) trong hệ tọa độ vuông góc. Dựa vào đồ thò phân tán ta có thể xác đònh được dạng quan hệ giữa 2 biến Y và X. Gv. Cao Hào Thi 2 7.2.2. Tương quan tuyến tính (Linear Correlation) Trong đồ thò phân tán, nếu các điểm M(x i , y i ) qui tụ xung quanh một đường thẳng (D) ta nói hai biến ngẫu Y và X có một sự tương quan tuyến tính. Đường thẳng (D) được gọi là đường hồi qui tuyến tính (đường hòa hợp thẳng). 7.2.3. Hệ số tương quan ρ của tập hợp chính (The Population Correlation Coefficient) Gọi X, Y là cặp giá trò của các biến ngẫu nhiên với số trung bình là µ x , µ y và phương sai là σ x 2 , σ y 2 . Để đo lường mức độ quan hệ giữa X và Y người ta dùng đại lượng hiệp tượng quan (covariance) và hệ số tương quan (correlation coefficent). 7.2.3.1. Hiệp tương quan (Covariance) σ X,Y = Cov(X,Y) = E [(x - µ x )(y - µ y )] σ µµ xy ixiy i N Cov X Y xy N == −− = ∑ (,) ()() 1 7.2.3.2. Hệ số tương quan của tập hợp chính ρ σσ ==Corr X Y Cov X Y xy (,) (,) ρ σ σσ = xy xy Với σ µ σ µ x x i N y iii i N x N y N 2 1 2 1 2 2 1 = − = − = = ∑ ∑ () () hay Y X X Y X Y (D) Gv. Cao Hào Thi 3 ρ µ µ µµ = − − −− EX Y EX EY xy xy [( )( )] [( ) ] * [( ) ] 22 ρ µµ µµ = −− −− − == ∑ ∑∑ ()() ()*() xy xy xi y i N ix iy i N i N 1 1 22 11 Tính chất - 1 ≤ ρ ≤ 1 • ρ = + 1 : X, Y tương quan tuyến tính dương tuyệt đối • ρ ï = - 1 : X, Y tương quan tuyến tính âm tuyệt đối • ρ ï = 0 : X, Y không tương quan tuyến tính. 7.2.4. Hệ số tương quan r của mẫu 7.2.4.1. Hiệp tương quan của mẫu (Sample Covariance) 1n yyxx YXCovS i n 1i i YX − −− ∑ == = ∧ ))(( ),( , 7.2.4.2. Hệ số tương quan của mẫu r (Sample Correlation Coefficient) r S SS XY XY = − r xxyy xx yy i i n i i i n i i n = −− −− = == ∑ ∑∑ ()() ()*() 1 1 2 1 2 hay r xy nxy xnx yny ii i n i i n i i n = − −         −         = == ∑ ∑∑ 1 2 1 2 2 1 2 . Ghi Chú • -1 ≤ r ≤ 1 • r được dùng để ước lượng hướng và độ mạnh của mối quan hệ giữa X,Y.  r  > 0.8 tương quan mạnh  r  = 0.4 - 0.8 tương quan trung bình  r  < 0.4 tương quan yếu. Gv. Cao Hào Thi 4  r  càng lớn thì tương quan giữa X và Y càng chặt r > 0 hướng TN - ĐB, r < 0 hướng TB - ĐN 0 < r ≤ 1 : gọi là tương quan tuyến tính thuận (X ↑ , Y ↑ ) -1 ≤ r ≤ 0 : gọi là tương quan tuyến tính nghòch (X ↑ , Y ↓ ) • r là ước lượng của ρ Ví dụ Tính hệ số tương quan giữa 2 biến X, Y cho bởi bảng tương quan sau: X 0 1 2 3 4 Y 6 7 8 9 4 Giải Số phần tử của mẫu n = 5 x i y i (x i - x) (y i - y) (x i - x) 2 (y i - y) 2 (x i - x )(y i - y) 0 1 2 3 4 6 5 7 8 4 -2 -1 0 1 2 0 -1 1 2 -2 4 1 0 1 4 0 1 1 4 4 0 1 0 2 -4 10 30 10 10 -1 x == 10 5 2 y == 30 5 6 n = 5 10 1010 1 yyxx yyxx r 2 5 1i i 2 5 1i i i 5 1i i . )()( )()( −= × − = ∑ −×− ∑ −⋅ ∑ − = == = r = -0.1 tương quan yếu. Gv. Cao Hào Thi 5 7.2.5. Kiểm đònh giả thuyết về ρ Nếu chúng ta muốn kiểm đònh giả thuyết cho rằng các biến không có tương quan tuyến tính thì ta phải kiểm đònh giả thuyết H 0 : ρ = 0. Ta có 3 trường hợp: Trường hợp 1 H 0 : ρ = 0 H 1 : ρ ≠ 0 R : bác bỏ H 0 nếu t n-2 < - t n - 2, α /2 hay t n-2 > t n-2, α /2 Với )/()( 2nr1 r t 2 2n −− = − r: hệ số tương quan của mẫu n: cỡ mẫu t n-2 : tuân theo phân phối Student t với độ tự do n-2 Trường hợp 2 H 0 : ρ = 0 H 1 : ρ > 0 R : bác bỏ H 0 nếu t n-2 > - t n - 2, α Trường hợp 3 H 0 : ρ = 0 H 1 : ρ < 0 R : bác bỏ H 0 nếu t n-2 < - t n - 2, α Ví dụ Lấy mẫu ngẫu nhiên 2 biến X và Y ta có các giá trò (x i , y i ) cho bởi bảng sau: X 13 18 9 25 36 19 Y 70 55 100 40 15 20 a) Tìm hệ số tương quan giữa 2 biến X, Y b) Kiểm đònh giả thuyết cho rằng biến giữa X và Y không tương quan, với α = 0.05 Giải a) Tính r Gv. Cao Hào Thi 6 y I x i y x 2 x i 2 x i y i 70 55 100 40 15 20 13 18 9 25 36 19 4900 3025 10000 1600 225 400 169 324 81 625 1296 361 910 991 900 1000 540 380 Tổng 300 120 20150 2856 4720 () () () 25651280502064720 5 1 yxnyx 1n 1 S 10305515050620150 5 1 yny 1n 1 S 29154562062856 5 1 xnx 1n 1 S 20 6 120 n x x 50 6 300 n y y 6 1i iiXY 2 2 6 1i 2 i 2 y 2 2 6 1i 2 i 2 X i i −=−=−=       ⋅ ∑ − − = ==−=       − ∑ − = ==−=       − ∑ − = == ∑ = == ∑ = = = = /** /* ./* Hệ số tương quan: r S SS XY XY == − =− 256 91 2 1030 0 835 .* . tương quan mạnh b) Kiểm đònh giả thuyết : 1. H 0 : ρ = 0 2. H 1 : ρ ≠ 0 3. α = 0.05 => α /2 = 0.025 n = 6 => n - 2 = 4 t n -2, α/2 = t 4 , 0.025 = 2.776 - t n - 2 , α/2 = -2.776 4. r = -0.835 t r rn n− −− = − −− 2 22 12 0 835 108354()/() . [(.)]/ t n -2 = - 3.03 5. Ra quyết đònh t n - 2 = - 3.03 < - t n -2, α/2 = -2.776 => Bác bỏ H 0 . Giữa 2 biến Y và X có tương quan nghòch. Gv. Cao Hào Thi 7 7.3. HỒI QUI TUYẾN TÍNH ĐƠN GIẢN (Simple Linear Regression) 7.3.1 Khái niệm cơ bản về hồi qui tuyến tính đơn giản 7.3.1.1. Mô hình hồi qui tuyến tính đơn giản (Simple Linear Regression Model) Để mô hình hóa quan hệ tuyến tính trong đó diễn tả sự thay đổi của biến Y theo biến X cho trước người ta sử dụng mô hình hồi qui tuyến tính đơn giản. Mô hình hồi qui tuyến tính đơn giản có dạng sau: Y i = A + BX i + e i (mô hình hồi qui tuyến đơn giản Y theo X) • Y i : Giá trò của biến phụ thuộc Y trong lần quan sát thứ i. • X i : Giá trò của biến độc lập X trong lần quan sát thứ i . • e i : Giá trò đối với sự dao động ngẫu nhiên hay sai số trong lần quan sát thứ i. • A : là thông số diễn tả tung độ gốc của đường hồi qui của tập hợp chính, hay A là giá trò trung bình của biến phụ thuộc Y khi biến độc lập X thay đổi 1 đơn vò. • B : là thông số diễn tả độ dốc của đường hồi qui của tập hợp chính, hay B diễn tả sự thay đổi của giá trò trung bình của biến phụ thuộc Y khi biến độc lập X thay đổi 1 đơn vò. 7.3.1.2. Phương trình hồi qui tuyến tính đơn giản của tập hợp chính (Population Simple Linear Regression Equation) Là phương trình diễn tả giá trò trung bình của biến phụ thuộc Y theo biến độc lập X đã biết. µ Y/ X = A + BX 7.3.1.3. Phương trình hồi qui tuyến tính đơn giản của mẫu Chúng ta có thể ước lượng các tham số (A,B) của phương trình hồi qui tuyến tính đơn giản của tập hợp chính bằng cách sử dụng số liệu của mẫu ngẫu nhiên thu thập được. Dựa vào số liệu của mẫu ta có phương trình hồi qui tuyến tính đơn giản của mẫu. Y ∧ = a + bX Gv. Cao Hào Thi 8 Trong đó: • Y ∧ là ước lượng của giá trò trung bình của Y đối với biến X đã biết • a: là ước lượng của A • b là ước lượng của B Ghi chú • Phương trình hồi qui của Y theo X khác phương trình hồi qui của X theo Y • Nếu X đổi mà Y không đổi => Y và X không có tương quan Y X Dựa vào phương trình hồi qui ta có thể tự đoán Y khi biết X 7.3.2. Xác đònh dốc và tung độ gốc của đường hồi qui tuyến tính Dựa vào số hiệu của mẫu ta có phương trình hồi qui của Y theo X có dạng: Y ∧ = a + bX Trong thống kê, để xác đònh tung độ gốc a và độ dốc b người ta thường sử dụng phương pháp bình phương tối thiểu (least squared method) () eYY YabX i n i ii i n i i n ∧ = ∧ == ∑∑ ∑ =−=−− 1 2 1 2 1 2 () Y b 1 Y ∧ i Y i ê i = Y i - Y ∧ i a X i X Gv. Cao Hào Thi 9 Trong phương pháp bình phương tối thiểu ta có: Min e i i n ∧ = ∑ 2 1 Để tìm cực tiểu ta cần giải hệ phương trình: () ∂ ∂ ∂ ∂ a YabX b YabX ii i n i i n i −− = −− = = = ∑ ∑ 2 1 1 2 0 0() Giải hệ phương trình ta có: ()() () b xxyy xx xy nxy xnx aybx ii i n i i n ii i n i a i n = −− − = − − =− = = = = ∑ ∑ ∑ ∑ 1 2 1 1 1 2 Người ta chứng minh được rằng a, b là những ước lượng không chệch và vững của A,B. Đường thẳng Y ∧ = a + bX được gọi là đường hồi qui thực nghiệm Đường thẳng Y ∧ = A + BX được gọi là đường hồi qui lý thuyết Ví dụ Tìm đường hồi qui thực nghiệm của y theo x cho bời bảng tương quan sau: x i 1 2 3 4 5 y i 2 5 4 3 6 Giải Gọi phương trình đường hồi qui là y = a + bx => xác đònh a, b. x i y i x ì 2 x i y i 1 2 3 4 5 2 5 4 3 6 1 4 9 16 25 2 10 12 12 30 Tổng 15 20 55 66 n = 2 x == 15 5 3 y == 20 5 4 Gv. Cao Haứo Thi 10 b xy nxy xnx aybx ii i i i n = = == = = = = = 1 5 2 1 2 2 66 534 55 5 3 6 10 06 406322 ** * . .* . Phửụng trỡnh ủửụứng hoi qui thửùc nghieọm laứ y = 0.6x + 2.2 . = -2 .77 6 => Bác bỏ H 0 . Giữa 2 biến Y và X có tương quan nghòch. Gv. Cao Hào Thi 7 7.3. HỒI QUI TUYẾN TÍNH ĐƠN GIẢN (Simple Linear Regression) 7. 3.1. /2 = 0.025 n = 6 => n - 2 = 4 t n -2, α/2 = t 4 , 0.025 = 2 .77 6 - t n - 2 , α/2 = -2 .77 6 4. r = -0.835 t r rn n− −− = − −− 2 22 12 0 835 108354()/()

Ngày đăng: 25/12/2013, 21:16

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan