Tiểu luận môn Hệ hỗ trợ quyết định Tương quan tuyến tính

16 405 0
Tiểu luận môn Hệ hỗ trợ quyết định Tương quan tuyến tính

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tiểu luận môn Hệ hỗ trợ quyết định I. Tương quan tuyến tính (Linear Correlation): 1. Đồ thị phân tán (Scatter Diagram): Đồ thị phân tán của biến Y đối với biến X là tập hợp các điểm M(x i , y i ) trong hệ tọa độ vuông góc. Dựa vào đồ thị phân tán ta có thể xác định được dạng quan hệ giữa 2 biến Y và X. 2. Tương quan tuyến tính (Linear Correlation) Trong đồ thị phân tán, nếu các điểm M(x i , y i ) qui tụ xung quanh một đường thẳng (D) ta nói hai biến ngẫu Y và X có một sự tương quan tuyến tính. Đường thẳng (D) được gọi là đường hồi qui tuyến tính (đường hòa hợp thẳng). 3. Hệ số tương quan ρ của tập hợp chính (The Population Correlation Coefficient) Gọi X, Y là cặp giá trị của các biến ngẫu nhiên với số trung bình là μx , μy và phương sai là σ 2 x , σ 2 y . Để đo lường mức độ quan hệ giữa X và Y người ta dùng đại lượng hiệp tương quan (covariance) và hệ số tương quan (correlation coefficent). Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013 Trang 3 Y X Hình 1:Quan hệ tuyến tính X Hình 2:Quan hệ phi tuyến Y X Hình 3: Không quan hệ Tiểu luận môn Hệ hỗ trợ quyết định a. Hiệp tương quan (Covariance) )])([(),( µµ σ yx xy yxEYXCov −−== b. Hệ số tương quan của tập hợp chính: * Tính chất: − ρ = +1 : X, Y tương quan tuyến tính dương tuyệt đối − ρ = - 1 : X, Y tương quan tuyến tính âm tuyệt đối − ρ = 0: X, Y không tương quan tuyến tính. Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013 Trang 4 N YXCov N i y i x i xy y x ∑ = −− == 1 ))(( ),( µµ σ -1 ≤ ρ ≤ 1 Tiểu luận môn Hệ hỗ trợ quyết định 4. Hệ số tương quan r của mẫu a. Hiệp tương quan của mẫu (Sample Covariance) b. Hệ số tương quan của mẫu r (Sample Correlation Coefficient) Ghi Chú − -1 ≤ r ≤ 1 − r được dùng để ước lượng hướng và độ mạnh của mối quan hệ giữa X,Y. | r | > 0,8 tương quan mạnh | r | = 0,4 - 0,8 tương quan trung bình | r | < 0,4 tương quan yếu | r | càng lớn thì tương quan giữa X và Y càng chặt r > 0 hướng TN - ĐB, r < 0 hướng TB - ĐN 0 < r ≤ 1 : gọi là tương quan tuyến tính thuận (X↑, Y↑) -1 ≤ r ≤ 0 : gọi là tương quan tuyến tính nghịch (X↑, Y↓) − r là ước lượng của ρ Ví dụ 1: − Tính hệ số tương quan giữa 2 biến X, Y cho bởi bảng tương quan sau: Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013 Trang 5 Tiểu luận môn Hệ hỗ trợ quyết định X 0 1 2 3 4 Y 6 7 8 9 4 Giải Số phần tử của mẫu n = 5 x i y i )( x x i − )( y y i − 2 )( x x i − 2 )( y y i − )( x x i − )( y y i − 0 1 2 3 4 6 5 7 8 4 -2 -1 0 1 2 0 -1 1 2 -2 4 1 0 1 4 0 1 1 4 4 0 1 0 2 -4 10 30 10 10 -1 2 5 10 ==x 6 5 30 ==y n=5 1,0 1010 1 )()( )).(( 5 1 5 1 22 5 1 −= × − = −×− −− = ∑ ∑ ∑ = = = i i ii i ii yyxx yyxx r r = - 0,1 tương quan yếu. Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013 Trang 6 Tiểu luận môn Hệ hỗ trợ quyết định 5. Kiểm định giả thuyết về ρ Nếu chúng ta muốn kiểm định giả thuyết cho rằng các biến không có tương quan tuyến tính thì ta phải kiểm định giả thuyết H0: ρ = 0. Ta có 3 trường hợp: Trường hợp 1: Với )2/()1( 2 2 −− = − nr r t n r : hệ số tương quan của mẫu n : cỡ mẫu t n-2 : tuân theo phân phối Student t với độ tự do n-2 Trường hợp 2: Trường hợp 3 Ví dụ 2: Lấy mẫu ngẫu nhiên 2 biến X và Y ta có các giá trị (xi, yi) cho bởi bảng sau: X 13 18 9 25 36 19 Y 70 55 100 40 15 20 a. Tìm hệ số tương quan giưa hai biến X, Y b. Kiểm định giả thiết cho rằng biến giữa X và Y không tương quan, với α = 0.05 Giải: a. Tính r Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013 Trang 7 H 0 : ρ = 0 H 1 : ρ > 0 R : bác bỏ H0 nếu t n-2 > - t n - 2, α Tiểu luận môn Hệ hỗ trợ quyết định y i x i 2 i y 2 i x x i y i 70 55 100 40 15 20 13 18 9 25 36 19 4900 3025 10000 1600 225 400 169 324 81 625 1296 361 910 991 900 1000 540 380 Tổng 300 120 20150 2856 4720 Hệ số tương quan 835,0 1030*2,91 256 −= − == ss s yx xy r tương quan mạnh b) Kiểm định giả thuyết: 1. H 0 : ρ = 0 2. H 1 : ρ ≠ 0 3. α = 0,05 => α/2 = 0,025 n = 6 => n - 2 = 4 t n -2, α/2 = t 4, 0,025 = 2,776 -t n - 2 , α/2 = -2,776 4. r = -0,835 4/])835,0(1[ 835,0 )2/()1( 22 2 −− − = −− = − nr r t n Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013 Trang 8 Tiểu luận môn Hệ hỗ trợ quyết định t n-2 = - 3,03 5. Ra quyết định t n - 2 = - 3,03 < - t n -2, α/2 = -2,776 => Bác bỏ H 0 . Giữa 2 biến Y và X có tương quan nghịch. II. Phân tích hồi qui tuyến tính: 1.Khái niệm: Phân tích hồi qui là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn gọi là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay còn gọi là biến giải thích) với ý tưởng cơ bản là ước lượng (hay dự đoán) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị đã biết của biến độc lập. * Một số ví dụ: Vd1: Công ty địa ốc rất quan tâm đến việc liên hệ giữa giá bán một ngôi nhà với các đặc trưng của nó như kích thước, diện tích sử dụng, số phòng ngủ và phòng tắm, các loại thiết bị gia dụng, có hồ bơi hay không, cảnh quan có đẹp không, Vd2: Để nghiên cứu về chiều cao và cân nặng của các em học sinh trong một trường, chúng ta lấy mẫu ngẫu nhiên gồm n học sinh và thu thập các số liệu về chiều cao và cân nặng của n học sinh. Gọi X là biến ngẫu nhiên để đo chiều cao của học sinh và Y là biến ngẫu nhiên chỉ cân nặng của học sinh. Với n học sinh ta có n cặp giá trị (Y i , X i ). X(m) x 1 x 2 x 3 … x i … x n Y(kg) y 1 y 2 y 3 … y i … y n Trong phân tích hồi qui người ta lại xác định quan hệ giữa hai biến Y và X dưới dạng phương trình toán học, từ đó ta có thể dự đoán được biến Y (biến phụ thuộc, dependent variable) dựa vào biến X (biến độc lập, independent variable) 2. Phân tích hồi qui giải quyết các vấn đề sau: − Ước lượng giá trị trung bình của biến phụ thuộc với giá trị đã cho của biến độc lập. − Kiểm định giả thiết về bản chất của sự phụ thuộc. − Dự đoán giá trị trung bình của biến phụ thuộc khi biết giá trị của các biến độc lập. − Kết hợp các vấn đề trên. 3. Mô hình hồi quy tuyến tính cổ điển: Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013 Trang 9 Tiểu luận môn Hệ hỗ trợ quyết định Giả sử X 1 , X 2 ,…, X k là k biến độc lập dùng để dự báo và Y là biến phụ thuộc cần dự báo. Chẳng hạn, trong VD1 ở trên, Y là giá trị hiện hành. Khi đó Y phụ thuộc chủ yếu vào các yếu tố sau : 1) X 1 là diện tích sử dụng (m 2 ), 2) X 2 là vị trí vùng (thành phố, quận, huyện, …), 3) X 3 là giá của năm trước (qúy trước, tháng trước, …), 4) X 4 là chất lượng xây dựng (giá xây dựng trên một m 2 ) Sự phụ thuộc của biến Y theo các biến X 1 , X 2 ,…, X k nói chung là phức tạp. Mô hình hối quy tuyến tính cổ điển khẳng định Y phụ thuộc tuyến tính vào các X i . Y = β 0 + β 1 X 1 + … + β k X k + ε Trong đó ε là sai số ngẫu nhiên và β i , với ki ,1= là các hệ số chưa biết . Giả sử ta có n mẫu (bản ghi) nhận được từ thực nghiệm với các số liệu của các thuộc tính X 1 , X 2 ,…, X k và Y tương ứng tuân theo mô hình sau: y 1 = β 0 + β 1 x 11 + … + β k x 1k + ε 1 y 2 = β 0 + β 1 x 21 + … + β k x 2k + ε 2 … Y n = β 0 + β 1 x n1 + … + β k x 1k + ε n Trong đó các sai số ε 1 , …, ε n thỏa ba điều kiện: 1) E( ε j ) = 0: việc đo đạc không chịu sai lệch hệ thống. 2) D( ε j ) = σ 2 : phương sai không đổi hay độ chuẩn xác đo đạc như nhau. 3) Cov( ε i , ε j ) = 0 với i ≠ j. Sự phụ thuộc trên có thể biểu diễn bằng ma trận: được gọi là ma trận thiết kế. Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013 Trang 10 + y 1 y 2 y 4  1 x 11 x 12 … x 1k 1 x 21 x 22 … x 2k 1 1 x n1 x n2 … x nk     = β 1 β 2 β k  ε 1 ε 2 ε k  1 x 11 x 12 … x 1k 1 x 21 x 22 … x 2k 1 1 x n1 x n2 … x nk     Ma trận X = Với β = β 1 β 2 β k  ε 1 ε 2 ε n  và ε = Tiểu luận môn Hệ hỗ trợ quyết định biểu thức phụ thuộc trên có thể viết lại: Y = X β + ε III. Ứng dụng minh họa: 1. Mô tả dữ liệu: Dữ liệu lấy từ địa chỉ: http://ykhoa.net Tập dữ liệu được sử dụng trong tiểu luận được lấy từ một nghiên cứu đo lường cholesterol trong máu của 18 bệnh nhân nam. Trong đó có 2 thuộc tính điều kiện là Age (tuổi) và Bmi (Body Mass Index - Chỉ số khối lượng cơ thể là khối tượng cơ thể tính theo đơn vị kg chia cho bình phương chiều cao tính bằng m 2 ), thuộc tính quyết định là Cholesterol (Chol). Đồ thị phân bố của tập dữ liệu là như sau: Phân bố của tập dữ liệu cho thấy mối liên hệ giữa độ tuổi (age) và cholesterol là một đường thẳng (tuyến tính), vì vậy chúng tôi chọn mô hình hồi quy tuyến tính đơn: đầu vào có 2 biến, đầu ra 1 biến. 2. Giải bài toán: Gọi x 1 là age, x 2 là bmi và y là chol. Ta có mô hình hồi quy tuyến tính như sau: y = β 0 + β 1 x 1 + β 2 x 2 . Với 18 mẫu thu được từ thực nghiệm ta có số liệu của các thuộc tính x 1, x 2 và y. Có thể viết lại dưới dạng ma trận Y = βX Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013 Age Bmi Chol 46 25.4 3.5 20 20.6 1.9 52 26.2 4.0 30 22.6 2.6 57 25.4 4.5 25 23.1 3.0 28 22.7 2.9 36 24.9 3.8 22 19.8 2.1 43 25.3 3.8 57 23.2 4.1 33 21.8 3.0 22 20.9 2.5 63 26.7 4.6 40 26.4 3.2 48 21.2 4.2 28 21.2 2.3 49 22.8 4.0 Trang 11 chol 2.0 2.5 3.0 3.5 4.0 4.5 20 30 40 50 60 age Tiểu luận môn Hệ hỗ trợ quyết định 1 46 25.4 1 20 20.6 1 52 26.2 1 30 22.6 1 57 25.4 1 25 23.1 X = 1 28 22.7 1 36 24.9 1 22 19.8 1 43 25.3 1 57 23.2 1 33 21.8 1 22 20.9 1 63 26.7 1 40 26.4 1 48 21.2 1 28 21.2 1 49 22.8 Ma trận chuyển vị Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013 Trang 12 [...]... 2011 – 2013 Trang 16 Tiểu luận môn Hệ hỗ trợ quyết định MỤC LỤC Mục lục 2 I Tương quan tuyến tính (Linear Correlation) 3 1 Đồ thị phân tán (Scatter Diagram): 3 2 Tương quan tuyến tính (Linear Correlation) 3 3 Hệ số tương quan ρ của tập hợp chính (The Population Correlation Coefficient) 3 4 Hệ số tương quan r của mẫu 5 5 Kiểm định giả thuyết về... 0.0680 -0.0737 -0.0216 -0.0391 Trang 14 Tiểu luận môn Hệ hỗ trợ quyết định Ta có : 3.5 1.9 4.0 2.6 4.5 3.0 Y= 2.9 3.8 2.1 3.8 4.1 3.0 2.5 4.6 3.2 4.2 2.3 4.0 0.4555 =>(XTX)-1 XTY = 0.0541 0.0334 Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013 Trang 15 Tiểu luận môn Hệ hỗ trợ quyết định β0 = 0.4555 => β1 = 0.0541 β2 = 0.0334 Vậy ta có phương trình hồi quy tuyến tính : y = 0.4555 + 0.0541x1 + 0.0334x2... hồi qui tuyến tính 9 1.Khái niệm 9 2 Phân tích hồi qui giải quyết các vấn đề sau .9 3 Mô hình hồi quy tuyến tính cổ điển 9 III Ứng dụng minh họa .11 1 Mô tả dữ liệu 11 2 Giải bài toán 12 Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013 Trang 17 Tiểu luận môn Hệ hỗ trợ quyết định Bảng phân công nhiệm vụ I Tương quan tuyến tính : Hưng,.. .Tiểu luận môn Hệ hỗ trợ quyết định 1 X’= 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 46 20 52 30 57 25 28 36 22 43 57 33 22 63 40 48 28 49 22.6 25.4 19.8 25.3 23.2 21.8 20.9 26.7 26.4 21.2 21.2 22.8 25.4 20.6 26.2 Từ đó ta có : 23.1 22.7 24.9 0.0699 0.0420 0.0699 3.0287 1.6670 0.0420 XTX= 0.0018 1.6670 0.9892 Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013 Trang 13 Tiểu luận môn Hệ hỗ trợ quyết định a... bài toán 12 Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013 Trang 17 Tiểu luận môn Hệ hỗ trợ quyết định Bảng phân công nhiệm vụ I Tương quan tuyến tính : Hưng, Ngọc II Phân tích hồi quy tuyến tính : Chiến, Cự III Ứng dụng minh họa : Hoàng Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013 Trang 18 . liệu: Dữ liệu lấy từ địa chỉ: http://ykhoa.net Tập dữ liệu được sử dụng trong tiểu luận được lấy từ một nghiên cứu đo lường cholesterol trong máu của 18 bệnh nhân nam. Trong đó có 2 thuộc tính điều kiện. theo đơn vị kg chia cho bình phương chiều cao tính bằng m 2 ), thuộc tính quyết định là Cholesterol (Chol). Đồ thị phân bố của tập dữ liệu là như sau: Phân bố của tập dữ liệu cho thấy mối liên. điểm M(x i , y i ) trong hệ tọa độ vuông góc. Dựa vào đồ thị phân tán ta có thể xác định được dạng quan hệ giữa 2 biến Y và X. 2. Tương quan tuyến tính (Linear Correlation) Trong đồ thị phân tán,

Ngày đăng: 02/06/2015, 10:57

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan