bài tập phân tích dữ liệu

37 0 0
Tài liệu đã được kiểm tra trùng lặp
bài tập phân tích dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Cho bảng số liệu lượng tiêu thụ sản phẩm của doanh nghiệp được ghi theo mùatrong nhiều năm Hãy thực hiện xử lý dữ liệu thích hợp, phân tích ảnh hưởng của mùa tới lượng tiêuthụ của sản ph

Trang 1

HỌC VIỆN TÀI CHÍNH

VIỆN ĐÀO TẠO QUỐC TẾ

Institute of International Finance Education

DUAL DEGREE PROGRAMME- DDP

BÀI TẬP PHÂN TÍCH DỮ LIỆU

Course name: RESEARCH METHOD

(Phương pháp nghiên cứu)

Academic Year (Semester): 2023-2024 (Semester 1)

Student Full Name: Hồ Tự Hồng Student ID: DDP0603123 Class Code: RM1.0601

Page of 137

Trang 2

Mentor: PGS.TS Lê Đình Hải

BÀI LÀM

Bài 1 Cho bảng số liệu

Obs thunhap tieudung Obs thunhap tieudung

Trang 3

1 Cộtđầutiên làtêncácbiến 2 Cột

thứ 2là N=44,đâychínhlà sốlượng mẫu

3 Cột thứ 3 là Minimum, là giá trị nhỏ nhất Giá trị nhỏ nhất của biến Thu nhập là0.25 có ý nghĩa: trong 44 người được khảo sát thì 0.25 là mức thu nhập thấp nhất;giá trị nhỏ nhất của biến Tiêu dùng là 0.18 có ý nghĩa: trong 44 người được khảo sátthì 0.18 là mức tiêu dùng thấp nhất

4 Cột thứ 4 là Maximum, là giá trị lớn nhất Giá trị lớn nhất của biến Thu nhập là 1.80có ý nghĩa: trong 44 người được khảo sát thì 1.80 là mức thu nhập cao nhất; giá trịlớn nhất của biến Tiêu dùng là 0.95 có ý nghĩa: trong 44 người được khảo sát thì0.95 là mức tiêu dùng cao nhất

5 Cột thứ 5 là Mean, giá trị trung bình Giá trị trung bình của biến Thu nhập là 0.7898có ý nghĩa: mức thu nhập trung bình của 44 người tham gia khảo sát là 0.7898; Giátrị trung bình của biến Tiêu dùng là 0.4539 có ý nghĩa: mức tiêu dùng trung bình của44 người tham gia khảo sát là 0.4539

6 Cột tiếp theo là Std.Deviation, độ lệch chuẩn Độ lệch chuẩn biến Thu nhập là0.41414 lớn hơn so với độ lệch chuẩn biến Tiêu thụ là 0.20308 Theo 44 ngườitham gia khảo sát thì mức thu nhập giữa họ có sự khác nhau nhiều hơn mức tiêudùng

Page of 337

Descriptive Statistics

Std.DeviationStatisticStatisticStatisticStatistic Std ErrorStatistic

Valid N (listwise)44

Trang 4

b Vẽ biểu đồ Histogram của thu nhập trên đó có vẽ đường cong chuẩn, hãy nhậnxét phân bố của biến thu nhập

Biểu đồ trên thể hiện sự phân bố của biến Thu nhập với cỡ mẫu là 44

Nhìn vào đây ta thấy biểu đồ phân bố theo hình dạng phân phối chuẩn Có một đườngcong giống hình chuông trên hình là đường phân phối chuẩn, ta thấy biểu đồ tần sốhistogram tương ứng với đường cong hình chuông đó Bên cạnh đó, giá trị trung bìnhmean là 0.79 và độ lệch chuẩn bằng 0.414; biểu đồ phân bố lệch trái

Với dạng biểu đồ này ta thấy rằng dữ liệu đã bị giới hạn một phía Ta có thể khắcphục bằng cách đưa những dữ liệu bị giới hạn hay bị loại bỏ bởi tiêu chuẩn nào đó vàovà tìm hiểu, rà soát lại lịch sử lấy dữ liệu

Page of 437

Trang 5

c Hãy sử dụng các thủ tục cần thiết phân tích mối quan hệ giữa thu nhập và tiêudùng

** Correlation is significant at the 0.01 level (2-tailed)

Từ bảng Correlations ta thấy giá trị Sig.(2-tailed)= 0,000< α = 0,05 nên 2 biến thunhập và tiêu dùng có tương quan rất chặt chẽ với nhau

Hệ số tương quan bội giữa thu nhập và tiêu dùng là r = 0.975 (0,9 < r= 0,975 < 1)

2 biến thu nhập và tiêu dùng có mối tương quan đồng biến với nhau, khi thu nhậptăng thì tiêu dùng cũng tăng và ngược lại

Vậy 2 biến thu nhập và tiêu dùng có tương quan rất chặt chẽ và đồng biến với nhau

Bài 2 Cho bảng số liệu doanh thu trong ngày của 2 cửa hàng của công ty như sau:

Page of 537

Cửa hàng 1 4.5 4.75 4.85 3.85 3.9 4.35 4.7 4.25 5.3 3.9 5.4 5.3 4.5 3.95 4.35Cửa hàng 2 3.4 4.25 4.5 4.9 4.6 4.45 3.95 3 4.7 3.7 5.05 3.3 3.43 4.15 5.2

Trang 6

Hãy dùng các thủ tục cần thiết trong SPSS để phân tích và so sánh doanh thu của haicửa hàng nói trên Cửa hàng nào cho doanh thu cao hơn (giả thiết rằng doanh thutrong ngày có phân bố gần phân bố chuẩn)

Group Statistics

Std ErrorMean

Kiểm định phương sai 2 mẫu :

H0: Var 1 (Cửa hàng 1) = Var 2 (Cửa hàng 2)H1: Var 1 (Cửa hàng 1) ≠ Var 2 (Cửa hàng 2)

Var 1 phương sai về doanh thu của cửa hàng 1 Var 2 phương sai về doanh thu của cửa hàng 2 Kiểm định giá trị bình quân của 2 mẫu độc lập: H0: µ1 (Cửa hàng 1) = µ2 (Cửa hàng 2) H1: µ1 (Cửa hàng 1) ≠ µ2 (Cửa Hàng 2)

Kiểm định ta được:

( Dựa vào Independent Samples Test )

Page of 637

Trang 7

Independent Samples Test

t-test for Equality of Means

Page of 737

Trang 8

Sig (2-tailed)Mean DifferenceStd ErrorDifference

Independent Samples Test

t-test for Equality of Means95% Confidence Interval of the DifferenceIndependent Samples Test

Levene's Test for Equality ofVariances

t-test for Equality ofMeans

Trang 9

Nhìn vào bảng Independent Samples Test ta thấy:

Cột Sig = 0,216 > α =0,05 nên ta có cơ sở chấp nhận H0 Var 1 = Var 2

Phương sai 2 mẫu bằng nhau

Khi đó:

So sánh giá trị ở cột Sig.(2-tailed) dòng 1 với α = 0,05

Cột Sig.(2-tailed) dòng 1 = 0,126 > α = 0,05 nên ta có cơ sở chấp nhận H0 µ1 = µ2

Doanh thu bình quân của 2 cửa hàng không có sự khác biệt đáng kể với mức độ tin cậy 95%

Bài 3 Cho bảng số liệu lượng tiêu thụ sản phẩm của doanh nghiệp được ghi theo mùa

trong nhiều năm

Hãy thực hiện xử lý dữ liệu thích hợp, phân tích ảnh hưởng của mùa tới lượng tiêuthụ của sản phẩm

Descriptives Tiêu Thụ

N Mean Deviation Std. Error Std.

Trang 10

Test of Homogeneity of VariancesLevene

Trang 11

Kiểm định giả thuyết:

H0: M1 (Mùa Xuân) = M2 (Mùa Hạ) = M3 (Mùa Thu)= M4 (Mùa Đông)

H1: Có ít nhất một M khác biệt nhiều so với các M còn lại (Tức là có ít nhất 1 mùa códoanh thu khác biệt đáng kể với các mùa còn lại)

So sánh giá trị cột sig của bảng ANOVA với α = 0,05

sig. ở bảng ANOVA = 0,001 < α = 0,05 nên ta có cơ sở bác bỏ H0, chấp nhận H1.

Vậy với mức độ tin cậy 95% luôn khẳng định rằng có ít nhất 1 mùa khác biệt đáng kể với 3 mùa cònlại

Dựa vào bảng Multiple Comparisons, giá trị cột Mean Difference (I-J) các dòng có dấu

* thì giá trị ở cột Sig tương ứng < α = 0,05 và có sự khác biệt đáng kể.

Vậy với mức độ tin cậy 95% ta luôn khẳng định rằng Mùa đông có lượng tiêu thụ thấp hơnmột cách đáng kể so với 3 mùa còn lại.

Page 11 of 37

Trang 12

Bài 4: Tìm hiểu về nhu cầu sử dụng điện thoại, ông Bình đã sử dụng bộ dữ liệu củaSingapore giai đoạn 1960-1981 với 2 biến sau:

TEL: Số lượng máy điện thoại trên 1000 người

GDP: Tổng sản phẩm quốc nội theo đầu người, tại mức giá cơ cấu tính theo đô la Singapore năm1968

Trang 13

b Hãy tính các trị thống kê tổng hợp cho biến GDP và TEL (trung bình, phương sai, độlệch chuẩn, Max, Min)

Descriptive Statistics

StatisticStatisticStatisticStatisticStd ErrorStatisticStatistic

Trang 14

Trong đó:

- Mean: Giá trị trung bình

** Correlation is significant at the 0.01 level (2-tailed)

Bảng Correlations cho ta thấy giá trị Sig (2-tailed) = 0,000 < α = 0,05 nên 2 biến GDPvà TEL có tương quan rất chặt chẽ với nhau

Hệ số tương quan bội giữa GDP và TEL là r = 0.973 gần bằng 1, nên 2 GDP và TELcó mối tương quan đồng biến với nhau, khi GDP tăng thì TEL cũng tăng và ngược lại

Vậy 2 biến GDP và TEL có tương quan rất chặt chẽ và đồng biến với nhau.

d Xây dựng mô hình hồi quy giữa TEL và GDP.

Page of 1437

Trang 15

a Predictors:(Constant), GDP

b Dependent Variable: TEL

Ta có phương trình mô hình hồi quy mẫu: TEL= GDP + Trong đó:

- TEL: Biến phụ thuộc - GDP: Biến độc lập- hệ số tự do - hệ số góc phần dư

Kiểm tra sự phù hợp và tin cậy của mô hình:

Dựa vào bảng Model Summaryb ta thấy mô hình tương đối phù hợp và đáng tin cậyvì R = 0.943 có nghĩa là trong các nhân tố ảnh hưởng đến sự thay đổi của TEL thì GDP2đã giải thích được 94,3% sự thay đổi của TEL còn lại 5,7% chịu tác động ảnh hưởng cácnhân tố khác chưa có điều kiện đưa vào mô hình

Adjusted RSquare

Std Error oftheEstimate

Change StatisticsR Square

ChangeFChange1,973a,946,94321,061,946 350,667

Trang 16

Unstandardized Coefficients

a Dependent Variable: TEL

Kiểm tra sự tồn tại của hệ số hồi quy: H0: B1 = 0

H1: B1 ≠ 0 H0: B2 = 0 H1: B2 ≠ 0

Phương trình của mô hình hồi quy: TEL = -66.106 + 0.065 GDP .

Với mức độ tin cậy 95% hệ số hồi quy của biến GDP luôn luôn khác 0 vì Sig = 0,000 < α =0,05 và GDP ảnh hưởng đáng kể đến TEL

Vậy trong trường hợp các yếu tố khác không đổi, khi GDP tăng lên 1 triệu đô thì TEL tăng 0.065 đơn vị

Ta có được thống kê số dư là:

Trang 17

Bài 5: Sinh viên tự đề xuất một yêu cầu nghiên cứu trong thực tế và ứng dụng công cụ

SPSS để tính toán, xây dựng mô hình, giải thích ý nghĩa và đề xuất giải pháp nếu có

Bài 6: Cho số liệu về sản xuất lúa ở tệp "RiceProduction", các biến tương ứng là:

Các điều kiện sản xuất và đặc trưng của hộ gia đình

- Plot: số mảnh ruộng của hộ gia đình

- LandClass: Cấp đất (cấp đất càng cao đất càng xấu) - Crop: hệ số mùa vụ (số vụ lúa bình quân/năm) - Age: tuổi của chủ hộ

Page of 1737

Trang 18

- Hhsize: số người trong hộ gia đình

- Vùng miền: Các quan sát từ 1-192 là các hộ gia đình ở miền Bắc (mã hóa Miền Bắc =1),các quan sát từ số 193 trở đi là các hộ gia đình miền Nam (mã hóa Miền Nam=0)

Yêu cầu:

1 Nhập dữ liệu từ file Excel vào phần mềm SPSS và ghi vào fileTen_RiceProduction_STT.sav

2 Bỏ đi 10 quan sát ngẫu nhiên (STT và 9 quan sát khác)

3 Xây dựng hàm hồi quy nghiên cứu các nhân tố ảnh hưởng đến sản lượng lúa của hộ giađình, ước lượng hàm hồi quy, phân tích ảnh hưởng của các nhân tố, gợi mở hoặc đề xuấtchính sách.

Trang 19

Khi kiểm tra yếu tố sản lượng lúa, ta loại bỏ các số dị biệt có số thứ tự: 202, 190, 226, 214

- Kiểm tra phân phối chuẩn các biến định lượng:

Page of 1937

Trang 20

Các biến đều chưa tiệm cận với phân phối chuẩn Sử dụng phương pháp chuyển đổi biến Ln

Trang 21

Page of 2137

Trang 22

Phương trình: LnOutput =

- Phân tích tương quan giữa các biến độc lập với biến phụ thuộc:

Correlations LnLan

d LnFertiliser LnLabo

ur LnMachi ne LnPlot Cấp đất Tuổi của hộ

chủ Số khẩu của hộ Vùng miền

Page of 2237

Trang 23

Correlation 1 .946

-.031 552 369

.260**-.509 **

Sig (2-tailed) N

.000 000 000 369

.265 369

LnLabour Pearson

Correlation 820 **.848 **1 823 **.226 **.196**.028 595 369

Sig (2-tailed) N

LnPlot Pearson

Correlation -.121 *-.058 226 **-.077 1 -.145**-.041 429 369

.109*-.448 **

Sig (2-tailed) N

.000 000 000 000 369

.005 369

.001 369

-.169**1 Sig (2-tailed) 000 000 000 000 000 000 001

** Correlation is significant at the 0.01 level (2-tailed)

Page of 2337

Trang 24

Dựa vào bảng trên, ta loại các biến LnPlot, tuổi chủ hộ và số khẩu có |r| < 0,3 do cótương quan yếu với sản lượng lúa

Phương trình: LnOutput =

(3)

- Kiểm tra các khuyết tật mô hình:

+ Hiện tượng đa cộng tuyến:

Model

Unstandardized Coefficients

Standardized Coefficients

Dựa vào bảng Coefficients, có giá trị ở cột VIF của LnLand, LnFertiliser,LnMachine >= 10 nên có hiện tượng đa cộng tuyến

Để khắc phục điều này, ta có bỏ biến LnLand, chạy lại mô hình

Model

Unstandardized Coefficients

Standardized Coefficients

Trang 25

LnLabour 301 043 177 6.990 000 171 5.837 LnMachine 365 035 344 10.548 000 103 9.682

Cấp đất -.054 010 -.067 -5.668 000 776 1.289 Vùng miền -.409 029 -.235 -14.235 000 403 2.480 a Dependent Variable: LnOutput

VIF của tất cả các biến đều <10 nên mô hình không có hiện tượng đa cộng tuyến

+ Hiện tượng tương quan phần dư:

Model Summaryb

Model R R Square Adjusted Square

R Std Error of the

Estimate Durbin-Watson 1

.960 960 17514 1.462 a Predictors: (Constant), Vùng miền, LnLabour, Cấp đất, LnFertiliser, LnMachine b Dependent Variable: LnOutput

Ta thấy Durbin-Watson = 1,462 thỏa mãn điều kiện lớn hơn 1 và nhỏ hơn 3 nên môhình không có hiện tượng tự tương quan phần dư

+ Phần dư có tiệm cận với phân phối chuẩn hay không:

Page of 2537

Trang 26

Căn cứ vào đồ thị Histogram có dạng giống hình chuông Phân bố của phần dư tiệm cận phân phối chuẩn

- Kiểm tra sự tồn tại của mô hình:

Model Sum of Squares df Mean Square F Sig 1

Regression Residual Total

267.929 5 53.586 1746.849 000 b

11.135 363 031 279.064 368 a Dependent Variable: LnOutput

b Predictors: (Constant), Vùng miền, LnLabour, Cấp đất, LnFertiliser, LnMachine

H0: B1 = B2 = B3 = B4 = B5 = 0

H1: Có ít nhất một B khác biệt đáng kể với các B còn lại Page of 2637

Trang 27

So sánh giá trị cột sig của bảng ANOVA với α = 0,05

Vì Sig = 0,000 < α = 0,05 nên ta có cơ sở bác bỏ H0, chấp nhận H1 Vậy với mức độ tin cậy 95% mô hình luôn tồn tại

- Kiểm định sự phù hợp và tin cậy của mô hình:

Model Summaryb

Model R R Square Adjusted Square

R Std Error of the

Estimate Durbin-Watson 1

.960 960 17514 1.462 a Predictors: (Constant), Vùng miền, LnLabour, Cấp đất, LnFertiliser, LnMachine b Dependent Variable: LnOutput

Mô hình tương đối phù hợp và đáng tin cậy vì R2 = 0,960 có nghĩa là trong các yếutố ảnh hưởng đến sản lượng lúa của hộ gia đình, các yếu tố trong mô hình của phương trình(3) đã giải thích được 96,0% sự thay đổi về sản lượng lúa của hộ gia đình và còn lại 4,0%được giải thích bằng các yếu tố khác chưa giải quyết trong mô hình

- Kiểm định sự tồn tại của hệ số hồi quy:

Trang 28

- Xác định tầm quan trọng của các yếu tố ảnh hưởng:

Model

UnstandardizedCoefficients

StandardizedCoefficients ABS

(Beta) %

Tầm quantrọng B Std Error Beta

Trang 29

*Ông cha ta đã có câu “Nhất nước, nhì phân, tam cần, tứ giống” nước hiện tải thìchưa cần nhắc đến còn việc bón phân và sử dụng đúng loại phân bón tốt sẽ giúp cải thiên vànâng cao chất lượng lúa cũng như sản lượng lúa.

+ Tích cực đầu tư cơ giới hóa, phát triển cơ sở hạ tầng, máy móc thiết bị + Ưu tiên phát triển trồng lúa các vùng miền Nam

+ Đào tạo chất lượng cho lao động nông thôn, cải tạo chất lượng đất trồng.

Page of 2937

Trang 30

Bài 7: Cho số liệu về khảo sát các nhân tố ảnh hưởng đến nghèo tại 1 địa phương Yêu cầu: Xây dựng hàm hồi quy nghiên cứu các nhân tố ảnh hưởng đến nghèo tại địa

phương nghiên cứu, phân tích ảnh hưởng của các nhân tố, gợi mở hoặc đề xuất chính sách

Phương trình hồi quy: DANGHO =

Trang 31

- Phân tích mối quan hệ giữa Hocvan và với các biến quan sát còn lại

hệ số tương quan bội (Pearson Correlation)

0,0 < r=0,026 < 0,3 chúng ta kết luận rằng Hocvan và Pthuoc có mối quan hệ

- Xác định tương quan giữa các biến định tính với nhau:

Dân tộc với Giới tính chủ hộ không có sự tương quan vì giá trị cột Sig = 0,744 > 0,3

Dân tộc với Nghề chủ hộ có mối quan hệ tương quan và có mối quan hệ tương quan lỏng

Dân tộc với Đường ô tô tương quan trung bình, thể hiện tương quan nghịchDân tộc với Làm xa nhà có mối quan hệ tương quan yếu và ngược chiều.Dân tộc với Có vay ngân hàng có mối quan hệ tương quan yếu và nghịch biến; người Kinh, Hoa vay vốn có cơ hội thoát nghèo

Trang 32

Page of 3237

Trang 33

Page of 3337

Trang 34

- Chuyển đổi biến cũ phân phối không đều thành các biến phân phối chuẩn: dùngchuyển đổi biến Ln

- Biến diện tích: Coi: LnDtich = Ln(Dtich + 1) sau đó kiểm tra Histogram, ta thấy sốdị biệt đã giảm đi đáng kể so với ban đầu

- Tương tự với 3 biến còn lại: LnPTHUOC, LnHOCVAN, LnKCACH

Phương trình hồi quy: DANGHO =

(2)

Page of 3437

Trang 35

- Kiểm định sự tồn tại của mô hình: (Phân tích bằng Binary Logisstic ởRegression )

Omnibus Tests of Model Coefficients

Cox & SnellR Square

Nagelkerke RSquare

Dựa vào bảng Model Summary, giá trị Nagelkerke R-Square = 0,538 có nghĩa làtrong các yếu tố ảnh hưởng đến xác suất nghèo/không nghèo của hộ gia đình, các yếu tốtrong mô hình đã giải thích được 52,1% còn lại 47,9% được giải thích bởi các yếu tố khácchưa có điều kiện đưa vào mô hình

Mô hình tương đối phù hợp

- Kiểm định về mức độ chính xác dự báo của mô hình

(Phân tích bằng Binary Logisstic ở Regression )

Page of 3537

Ngày đăng: 16/05/2024, 16:24

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan