Đề tài phân tích thông tin về một cửa hàng điện tử trực tuyến

- ả ết không H0 : Null Hypothesis là giả Gi thi thiết về yếu tố cần kiểm định của tổng thể ở ạng thái bình thường, không chịu tác động củtr a các hiện tượng liên quan.- ả Gi thiết đối H1

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA

KHOA ĐIỆN- ỆN TỬĐI

Tạ Duy Khiêm 2211575 Thống kê mô tả

Lê Đức Mạnh 2211994 Bài toán kiểm định 2 mẫu Nguyễn Hồ Vương Bảo 2210237 Hồi quy tuyến tính Đỗ Việt Hùng 2211323 Phân tích anova 1 yếu tố Mai Chánh Lộc 2211923 Bài toán kiểm định 1 mẫu

Trang 2

Mục L c ụ

I Cơ sở lý thuyết: 3

1) Bài toán kiểm định 1 mẫu 3

3) Bài toán kiểm định ANOVA 5

4) Các phương pháp hồi quy tuyến tính 6

II Thống kê mô tả 7

III. Thống kê suy diễn: 21

3) Bài toán kiểm định ANOVA 28

4) Các phương pháp hồi quy tuyến tính 32

IV Tài liệu tham khảo: 41

Trang 3

I Cơ sở lý thuyết: 1) Bài toán kiểm định 1 mẫu

- ả ết không H0 : (Null Hypothesis) là giả Gi thi thiết về yếu tố cần kiểm định của tổng thể ở ạng thái bình thường, không chịu tác động củtr a các hiện tượng liên quan.

- ả Gi thiết đối H1 (Alternative Hypothesis) là một mệnh đề mâu thuẫn với H0 , H1 thể hiện xu hướng cần kiểm định

- Tiêu chuẩn kiểm định là hàm thống kê G = G( X1 ,X2 , ,Xn , 0 ), xây dựng trên mẫu  ngẫu nhiên W= ( X1 , X2 , , Xn ) và tham số 0 liên quan đến H0 ; Điều kiện đặ t ra v i ớ thống kê G là nếu H0 đúng thì quy luật phân phối xác suất của G phải hoàn toàn xác định - Miền bác bỏ giả ết RR ( Rejection region) là miền số ực thỏa P(G RR /H0 thi th  đúng) =   là mộ ố khá bé, thường không quá 10% và đượt s c gọi là mức ý nghĩa của kiểm định Một ký hiệu khác của miền bác bỏ được dùng trong bài: W Mi - ền chấp nhận AR: phần bù của miền bác bỏ trong R

Quy tắc kiểm định: Từ mẫu thực nghiệm, ta tính được một giá trị cụ ể củth a tiêu chuẩn kiểm định, gọi là giá trị kiểm định thống kê: gqs = G(x1 , x2 , , xn , 0 ) Theo nguyên  lý xác suất bé, biến cố G  RR có xác suất nhỏ nên với 1 mẫu thực nghiệm ngẫu nhiên, nó không thể xảy ra

Kết luận của một bài toán kiểm định có thể mắc các sai lầm sau: - Sai lầm loại I: Bác bỏ giả ết H0 trong khi H0 đúng Xác suất mắc phảthi i sai l m này nầ ếu H0 đúng chính bằng mức ý nghĩa  Nguyên nhân mắc phải sai lầm lo i I thưạ ờng có thể do kích thước mẫu quá nhỏ, có thể do phương pháp lấy mẫu … - Sai lầm loại II: Thừa nhận H0 trong khi H0 sai, tức là mặc dù thực tế H1 đúng nhưng giá trị thực nghiệm gqs không thuộc RR

2) Bài toán kiểm định 2 mẫu

Bài toán kiểm định 2 mẫu là một trong những bài toán thống kê cơ bản, được sử dụng để so sánh hai mẫu dữ ệu và xem xét sự khác biệt giữa hai mẫu, từ đó đưa ra nhận xét hay li kết luận về sự khác biệt đó.

2.1) Giả thuyết:

1 Giả thuyết không:

H0 (Null Hypothesis): Không có sự khác biệt ý nghĩa nào giữa hai mẫu Cả hai mẫu được cho là đến từ cùng một phân phối

2 Giả thuyết thay thế:

H1 (Alternative Hypothesis): Có sự khác biệt ý nghĩa giữa hai mẫu Một trong những dạng phổ biến của giả thuyết thay thế là (trung bình của hai mẫu khác nhau).

Trang 4

2.2) Loại kiểm định:

1 Kiểm định z hoặc t:

Sự lựa chọn giữa kiểm định z (khi biết đến độ lệch chuẩn của quần thể) và kiểm định t (khi chỉ biế ến độ lệch chuẩn mẫu) phụ t đ thuộc vào thông tin có sẵn.

So sánh thống kê với giới hạn quyế ịnh (critical value) hoặt đ c giá tr p: ị

Nếu p-value nhỏ hơn một ngưỡng alpha (thường là 0.05), ta bác bỏ giả thuyết không Ngược lại, nếu p-value lớn hơn α, ta không thể bác bỏ giả thuyết không

• Kết lu n: ậ

Tính ý nghĩa thực tế:

Nếu bác bỏ giả thuyết không, ta có thể kết luận rằng có sự khác biệt ý nghĩa giữa hai mẫu Ngược lại, nếu không bác bỏ, ta không có đủ ứng cứ để kết luận rằng có sự khác biệt ý ch nghĩa

• Lưu ý:

- Sự quan trọng của kích thước mẫu: Kích thước mẫu lớn thường giúp kiểm định có sức mạnh thống kê cao hơn

- ểm tra các điều kiện kiểm định: Cần kiểm tra các điều kiện cho phép sử dụng kiểKi m định z hoặc t, đặc biệt là về tính phân phối chuẩn và tính đồng nhấ ủa phương sai.t c Trong bài toán kiểm định 2 mẫu, việc hiểu và áp dụng đúng các khái niệm trên sẽ giúp xác định xem có sự khác biệt giữa hai mẫu hay không và đưa ra kết luận hợp lý dựa trên thông tin thống kê

Trang 5

3) Bài toán kiểm định ANOVA 3.1) Khái niệm:

Phân tích phương sai (Analysis of Variance) hay còn gọi là kiểm định ANOVA là một kỹ thuật thống kê tham số đượ ử dụng để so sánh các bộ dữ c s liệu Nói một cách dễ hiểu, phân tích ANOVA có chức năng đánh giá sự khác biệt ti m năng trong mề ột biến phụ thuộc mức quy mô bằng một biến mức danh nghĩa có từ 2 loại trở lên Các nhà phân tích sử dụng thử nghiệm ANOVA để xác định ảnh hưởng của các biến độ ập đốc l i với biến phụ thuộc trong nghiên cứu hồi quy Kỹ thuật kiểm định ANOVA này được phát triển bởi Ronald Fisher năm 1918

Ví dụ về phân tích phương sai:

Một nhóm bệnh nhân tâm thần đang thử ba liệu pháp khác nhau: tư vấn, dùng thuốc và phản hồi sinh học Bạn muốn xem liệu mộ ệu pháp tốt hơn những liệu pháp khác.t li

3.2) Phân loại:

a) Anova mộ ếu tố:t y

Anova một yếu tố là một lo i thạ ử nghiệm thống kê so sánh phương sai trong nhóm có nghĩa là trong một mẫu trong khi chỉ xem xét mộ ếu tố hoặt y c một biến độ ập Phương c l sai một yếu tố so sánh ba hoặc nhiều hơn ba nhóm phân loại để xác định xem có sự khác biệt giữa chúng hay không Trong mỗi nhóm nên có ba hoặc nhiều quan sát và phương tiện của các mẫu được so sánh

Các giả định của anova 1 yếu tố:

-Tổng thể có phân phối chuẩn hoặc gần chuẩn -Mẫu phải được chọn ngẫu nhiên và độc lập -Tổng thể ải có phương sai bằng nhauph b) Anova hai yếu tố:

Anova hai yếu tố mở rộng khám phá sự ảnh hưởng của hai yếu tố độ ập đến biến phụ c l thuộc Nó không chỉ giúp xác định sự ảnh hưởng củ ừng yếu tố một cách riêng lẻ a t mà còn xem xét xem có tương tác giữa chúng hay không, tức là liệu sự ảnh hưởng của một yếu tố có thể phụ thuộc vào giá trị của yếu tố khác hay không.

Trang 6

4) Các phương pháp hồi quy tuyến tính

- Hồi quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụ thuộc và một nhóm tập hợp các biến độ ập Mô hình vớc l i một biến phụ thuộc với hai hoặc nhiều biến độc lập được gọi là hồi quy bội (hay còn g i là hồi quy đa biến) ọ Ví dụ: Ch tiêu cỉ ủa hộ gia đình về thực phẩm phụ thuộc vào quy mô hộ gia đình, thu nhập, vị trí địa lý…; Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu nhập bình quân đầu người, trình độ giáo dục, ; Lương của một người phụ thuộc vào ch c vứ ụ, kinh nghiệm, độ tu i, ổ

- Nếu mô hình hồi quy phân tích sự ụ ph thuộc của 1 biến phụ thuộc vào 1 biến độ ập c l gọi là hồi quy đơn, nếu có nhiều biến độ ập gọc l i là hồi quy bội Hồi quy tuyến tính là mô hình hồi quy trong đó mối quan hệ giữa các biến được biểu diễn bởi một đường thẳng (đường thẳng là đường phù hợp nhấ ới dữ ệu) t v li

- Trong phần bài tập lớn chúng ta quan tâm đến hồi quy tuyến tính Logistic, một kỹ thuật phân tích dữ ệu sử dụng toán học để tìm ra mốli i quan hệ giữa hai yếu tố dữ ệu Sau đó, li kỹ thuật này sử dụng mối quan hệ đã tìm được để dự đoán giá trị của những yếu tố đó dựa trên yếu tố còn lại Dự đoán thường cho ra mộ ố kết s t quả hữu hạn, như có hoặc không

Trang 7

II Thống kê mô t ả

Tính các giá trị thống kê mô tả (trung bình, độ lệch chuẩn, min, max, trung vị) cho các biế

Tính các giá trị ống kê mô tả (trung bình, độ lệth ch chuẩn, min, max, trung vị) cho các biến sau khi đã chuyển qua dạng log(x+1)

Trang 8

Vẽ biểu đồ Histogram thể hiện phân phố ủa biến is_expedited_delivery trước và sau khi i c chuyển sang dạng log(x+1)

hist(new_df[,"is_expedited_delivery"],xlab="is_expedited_delivery ",main="Histogram o f

hist(new_df2[,"is_expedited_delivery"] ,xlab="log(is_expedited_delivery +1) ",main="H istogram of log( is_expedited_delivery+1)",ylim=c(0,150),col=3,labels=T)

Trang 9

Vẽ biểu đồ Histogram thể hiện phân phố ủa biến order_price trước và sau khi chuyển i c

Trang 10

Vẽ biểu đồ Histogram thể hiện phân phố ủa delivery_charges order_price trước và sau i c khi chuyển sang dạng log(x+1)

Trang 11

Vẽ biểu đồ Histogram thể hiện phân phố ủa delivery_charges trước và sau khi chuyển i c

Trang 12

Vẽ biểu đồ Histogram thể hiện phân phố ủa order_total trước và sau khi chuyển sang i c

Trang 13

Vẽ biểu đồ Histogram thể hiện phân phố ủa distance_to_nearest_warehouse trước và i c sau khi chuyển sang dạng log(x+1)

Trang 14

Vẽ biểu đồ Histogram thể hiện phân phố ủa is_happy_customer trưới c c và sau khi chuyển sang dạng log(x+1)

hist(new_df[,"is_happy_customer"],xlab=" is_happy_customer",main="Histogram of is_

Nhìn vào biểu đồ histogram, ta thấy đa số các biến không có phân phối chuẩn do đồ thị bị lệch về một bên hoặc không có dạng hình chuông

Trang 15

Vẽ biểu đồ phân tán thể hiện sự phân phối của biến is_happy_customer theo biến is_expedited_delivery trước và sau khi chuyển sang dạng log(x+1)

plot(is_happy_customer~ is_expedited_delivery,data=new_df,xlab=" is_expedited_delive ry ",ylab="is_happy_customer",main="Plot of is_happy_customer and is_expedited_deli very ",col=2)

plot(is_happy_customer~ is_expedited_delivery,data=new_df2,xlab=" log(is_expedited_ delivery +1)",ylab="is_happy_customer",main="Plot of is_happy_customer and log(is_e xpedited_delivery+1) ",col=3)

Trang 16

Vẽ biểu đồ phân tán thể hiện sự phân phối của biến is_happy_customer theo biến order_price trước và sau khi chuyển sang dạng log(x+1)

plot(is_happy_customer~ order_price,data=new_df,xlab=" order_price",ylab="is_happy_ customer",main="Plot of is_happy_customer and order_price",col=2)

plot(is_happy_customer~ order_price,data=new_df2,xlab=" log(order_price+1)",ylab="is _happy_customer",main="Plot of is_happy_customer and log(order_price+1) ",col=3)

Trang 17

Vẽ biểu đồ phân tán thể hiện sự phân phối của biến is_happy_customer theo biến delivery_charges trước và sau khi chuyển sang dạng log(x+1).

plot(is_happy_customer~ delivery_charges,data=new_df,xlab=" delivery_charges",ylab= "is_happy_customer",main="Plot of is_happy_customer and delivery_charges",col=2) plot(is_happy_customer~ delivery_charges,data=new_df2,xlab=" log(delivery_charges+1 )",ylab="is_happy_customer",main="Plot of is_happy_customer and log(delivery_charge s+1) ",col=3)

Trang 18

Vẽ biểu đồ phân tán thể hiện sự phân phối của biến is_happy_customer theo biến coupon_discount trước và sau khi chuyển sang dạng log(x+1)

plot(is_happy_customer~ coupon_discount,data=new_df,xlab=" coupon_discount",ylab= "is_happy_customer",main="Plot of is_happy_customer and coupon_discount",col=2) plot(is_happy_customer~ coupon_discount,data=new_df2,xlab=" log(coupon_discount+1 )",ylab="is_happy_customer",main="Plot of is_happy_customer and log(coupon_discoun t+1) ",col=3)

Trang 19

Vẽ biểu đồ phân tán thể hiện sự phân phối của biến is_happy_customer theo biến order_total trước và sau khi chuyển sang dạng log(x+1)

plot(is_happy_customer~ order_total,data=new_df,xlab=" order_total",ylab="is_happy_c ustomer",main="Plot of is_happy_customer and order_total",col=2)

plot(is_happy_customer~ order_total,data=new_df2,xlab=" log(order_total+1)",ylab="is_ happy_customer",main="Plot of is_happy_customer and log(order_total+1) ",col=3)

Trang 20

Vẽ biểu đồ phân tán thể hiện sự phân phối của biến is_happy_customer theo biến is_expedited_delivery trước và sau khi chuyển sang dạng log(x+1)

plot(is_happy_customer~ is_expedited_delivery,data=new_df,xlab=" is_expedited_delive ry",ylab="is_happy_customer",main="Plot of is_happy_customer and is_expedited_deliv ery",col=2)

plot(is_happy_customer~ is_expedited_delivery,data=new_df2,xlab=" log(is_expedited_ delivery+1)",ylab="is_happy_customer",main="Plot of is_happy_customer and log(is_ex pedited_delivery+1) ",col=3)

- Nhận xét

Dựa vào biểu đồ phân tán, ta thấy có rất nhiều điểm không tập trung thành một vệt thẳng Điều này thể hiện mối tương quan tuyến tính tương đối không rõ giữa các biến được vẽ

Trang 21

III Thống kê suy diễn: 1) Bài toán kiểm định 1 mẫu

*Kiểm tra các giả định:

- Giả định 1: Chi phí đặt hàng ở các kho hàng tuân theo phân phối chuẩn:

Trang 23

- Giả định 2:

leveneTest(order_total~as.factor(nearest_warehouse),data=open_data_2)

+ Nhận xét:

Giả thuyết H0: Phương sai chi phí đặt hàng ở 3 kho hàng bằng nhau Giả thuyết H1: có ít nhất 2 kho hàng có phương sai chi phí đặt hàng khác nhau Vì p-value = 0.4631 > mức ý nghĩa 5% nên ta chưa bác bỏ được giả thuyết H0 Vì vậy phương sai chi phí đặt hàng của khách hàng ở ở 3 kho hàng bằng nhau

+ Thực hiện phân tích phương sai 1 nhân tố:

aov(order_total~nearest_warehouse,data=open_data_2) summary(anova_model_1)

+ Nhận xét:

Giả thuyết H0: chi phí đặt hàng trung bình ở 3 kho hàng bằng nhau Giả thuyết H1: có ít nhất 2 kho hàng có chi phí đ t hàng trung bình khác nhau.ặ Vì p-value = 0.856 > mức ý nghĩa 5% nên ta chưa bác bỏ được giả thuyết H0 Vì vậy chi phí đặt hàng trung bình của khách hàng ở ở 3 kho hàng bằng nhau.

+ Nhận xét: Dựa trên các đ th QQồ ị -plot, ta nhận thấy các quan sát không nằm trên đường thẳng, ta có thể kết luận chi phí đặt hàng ở các kho hàng không tuân theo phân phối chuẩn Ngoài ra, p-value ở các kiểm định đều bé hơn rất nhiều so với mức ý nghĩa 5%, nên ta cũng có thể đưa ra kết luận là chi phí đặt hàng ở các kho hàng đều không tuân theo phân ph i chuố ẩn

Trang 24

2) Bài toán kiểm định 2 mẫu

Khi làm bài toán ểm định 2 mẫu, trước hết ta cần xác định 2 mẫu, và ta sẽ đi kiểm định kicùng 1 thông số của 2 mẫu đó Ở đây có nhiều mẫu để xét, nhưng ta sẽ đặt vấn đề hướng đến sự hài lòng của khách hàng ( một yếu tố quan trọng bậc nhất trong kinh doanh ) Và ta sẽ ọn các thông số để so sánh, ở bài này, ta sẽ ọn kiểchchm định loại t

2.1) Kiểm định chung

Kiểm định đối với giá trị vận chuyển: Thực tế là giá trị vận chuyển của đơn hàng có tác động lớn đối với sự hài lòng của khách hàng Chi phí vận chuyển hợp lý đối với khoảng cách, kích thước đơn hàng và giá trị đơn hàng là một ki m đế ịnh hết sức thiết thực Trước tiên, ta cần xác định xem chi phí giao hàng giữa 2 mẫu có liên quan tới nhau hay khôn, hay nói cách khác là xét xem chi phí giao hàng có ảnh hưởng tới sự hài lòng của khách hàng hay không Tức là nếu được cho là “ Có ý nghĩa thống kê “ thì ta có thể kết luận là chi phí giao hàng có ảnh hưởng tới sự hài lòng của khách hàng, và qua đó ta đi phân tích xem ảnh hưởng cụ thể như thế nào

Ở đây ta dùng kiểm định T-test để kiểm định

Trước tiên ta gõ lệnh: table(data$is_happy_customer) để ểm tra số ợng hàng lòng và ki lư không hài lòng

Ta nhận được kết quả trong 500 khách hàng thì có 359 người hài lòng và 141 người hài lòng, tỷ lệ là gần 7:3, hay nói cách khách tỷ lệ khách hàng hài lòng là 71,8% và tỷ lệ khách hàng không hài lòng là 28,2% Ta mô tả bằng biểu đồ pie plot sau:

Trang 25

Để mô tả về 2 loại khách hàng Hài Lòng và Không Hài Lòng, ta dùng lệnh sau:

describeBy(delivery_charges,is_happy_customer)

Ở đây ta đặt tên dữ liệu là data, ta nhận được kết qu : ả

Vì để giá trị là 0,1 sẽ khó hình dung nên ta đã đổi “1” thành “HaiLong”, “0” thành “KhongHaiLong”, và ta thu đư c nhợ ững thông số cơ bản như trên

ếp đến, ta sử dụng kiểm định t.test có sẵn trong R, để có thể kiểm định 2 mẫu khách Ti hàng

Ta dùng lệnh sau:

t=t.test(delivery_charges~is_happy_customer) print(t)

Và ta thu được kết quả dưới đây:

Ở đây, p-value là rất nhỏ, t.test cho ta kết quả t = 9.6782, tức là “diffirent” cao gấp 9 lần “SD of diffirent”, hay nói một cách đơn giản, là kiểm định của ta CÓ Ý NGHĨA THỐNG KÊ

Vậy, ý nghĩa thống kê của nó như thế nào, ta cùng theo dõi phần tiếp theo, ta sẽ phân tích dữ ệu bằng sơ đồ.li