trực quan hoá và phân tích các tập dữ liệu

44 1 0
Tài liệu đã được kiểm tra trùng lặp
trực quan hoá và phân tích các tập dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Create histograms for distribution visualization Dưới đây là một số biểu đồ thể hiện tần suất để trực quan hóa phân phối của các biến: Temperature, Rain Volume, Marketing Spend và Ice Cr

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VĂN LANG

KHOA THƯƠNG MẠI

BÁO CÁO CUỐI KÌ

HỌC PHẦN: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU CHỦ ĐỀ:

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

Giảng viên hướng dẫn : Lương Thái Hà Mã lớp học phần : 231_71MISS40233_07

Nhóm sinh viên thực hiện : Nhóm 01

TP.HCM, ngày 25 tháng 12 năm 2023

Trang 2

5 Đỗ Lê Quỳnh Như 2273401220113 100% 6 Bùi Nguyễn Ngọc Trinh 2273401220182 100% 7 Nguyễn Thị Tuyết Trinh 2273401220184 100%

8 Bùi Thị Thu Thảo 2273401220144 100% Nhóm trưởng 9 Phạm Ngọc Phương Trang 2273401220173 100%

10 Nguyễn Trần Triệu Vy 2273401220197 100%

Trang 3

III LỜI CẢM ƠN

Lời đầu tiên, để hoàn thành bài báo cáo, nhóm em xin gửi lời cảm ơn chân thành đến:

Ban giám hiệu trường Đại học Văn Lang vì đã tạo điều kiện về cơ sở vật chất, với hệ thống thư viện hiện đại, đa dạng các loại sách, tài liệu thuận lợi,… để nhóm em có thể dễ dàng hơn trong việc tìm kiếm và nghiên cứu thông tin về môn học

Tiếp theo, nhóm em xin trân trọng cảm ơn giảng viên bộ môn – Thầy Lương Thái Hà Trong quá trình học tập và tìm hiểu bộ môn Khai Thác Và Phân Tích Dữ Liệu, nhóm em đã nhận được sự quan tâm giúp đỡ, hướng dẫn rất tận tình và tâm huyết của Thầy Thầy đã giúp nhóm em có cái nhìn sâu hơn, rõ hơn, tích luỹ được nhiều kiến thức hơn về bộ môn này để áp dụng chúng vào thực tế Chính nhờ những kiến thức Thầy đã truyền tải mà nhóm em đã có đầy đủ thông tin về bài học và vận dụng chúng vào bài báo cáo này

Có lẽ kiến thức là vô hạn mà sự tiếp nhận kiến thức của bản thân mỗi người luôn tồn tại những hạn chế nhất định Do đó, trong quá trình hoàn thành bài tiểu luận, chắc chắn sẽ không tránh khỏi những thiếu sót Nhóm em rất mong nhận được những nhận xét, ý kiến đóng góp từ phía Thầy để bài báo cáo của nhóm được hoàn thiện hơn.

Lời cuối cùng, em xin kính chúc Thầy thật nhiều sức khỏe, thành công và hạnh phúc trên con đường sự nghiệp giảng dạy

Trang 4

IV M C L C Ụ Ụ

DANH SÁCH NHÓM 01 II LỜI CẢM ƠN III

TASK 1: REGRESSION PROBLEM 1

1 Descriptive Statistical Analysis 1

1.1 Calculate mean, median, mode, range, standard deviation 1

1.2 Frequency for "Public Holidays" 2

2 Skewness Analysis, Visualization, and Time Series 3

2.1 Determine skewness (threshold: |skewness| > 0.5 indicates significant skew) 3

2.2 Create histograms for distribution visualization 3

2.3 Monthly averages visualization over two years for continuous variables 6

3 Boxplot Analysis for Outliers 11

3.1 Generate boxplots for each continuous variable 11

4 Correlation Analysis 14

4.1 Analyze correlations between independent variables and Ice Cream Sales 14

5 Regression Analysis 15

5.1 Conduct linear regression to identify significant variables impacting sales 15

5.2 Interpret coefficients, p-values, and R-squared 16

6 Interpretation and Insights 17

6.1 Provide analytical insights based on analyses 17

6.2 Discuss brief implications in a marketing context 17

TASK 2: CLASSIFICATION PROBLEM 18

1 Create a SCATTER PLOT 18

2 Based on a provided scatter plot, decide the value of K 18

3 Select Initial Centroids: Choose k data points from the dataset as the initial centroids 18

4 Assign Points to Clusters 19

5 Recalculate Centroids 21

6 Iterate the Process 21

Trang 5

V

TASK 3: DATA VISUALIZATION 24

1 Giới thiệu về tập dữ liệu 24

1.1 Dataset này thể hiện dữ liệu của ngành công nghiệp nào? 24

1.2 Giới thiệu sơ lược về ngành công nghiệp đó, ở nơi mà tập dữ liệu này được tạo ra 24

1.3 Cấu trúc dataset này như thế nào? 24

1.4 Nêu ra các cột dữ liệu chứa missing values? Chỉ rõ bao nhiều dòng, và bao nhiêu % số dòng thuộc cột đó gặp tình trạng missing values? 25

1.5 Có xử lý missing values không? Nêu phương pháp Imputation cho từng cột dữ liệu có chứa missing values 25

2 Các bước chuẩn bị 25

2.1 Bao nhiêu cột được sử dụng trong bài phân tích? Liệt kê các cột 25

2.2 Nêu sơ lược các nội dung muốn truyền tải đến người đọc thông qua bài phân tích 25

2.3 Nêu ra các cột/biến (variables) tham gia trong từng mục 26

2.4 Nếu mục nào có tạo biến mới thì kê khai biến đó ra Và nếu biến mới được tạo ra bởi hàm/syntax (theo 2.2) thì kê khai hàm/câu lệnh ra, hoặc nêu cách tạo biến mới 26

3 Data visualization 28

3.1 Trình bày các Figures (hình ảnh) ứng với thứ tự đã kê khai trong 2.2 28

3.2 Giải thích insight ứng với các Figures trong 3.1 33

4 Kết luận và nhận định sau khi phân tích 37

4.1 Nhận định chung về tình hình (kinh doanh, dich bệnh,…) đã quan sát được từ việc trực quan hóa tập dữ liệu 37

4.2 Đưa ra suggestions để cải thiện issues mà Walmart Retail gặp phải 38

Trang 6

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

1 TASK 1: REGRESSION PROBLEM 1 Descriptive Statistical Analysis

1.1 Calculate mean, median, mode, range, standard deviation

Dưới đây là bảng mô tả các giá trị Calculate Mean, Median, Mode, Range, Standard Deviation của 4 biến: Temperature, Rain Volume, Marketing Spend và Ice Cream Sales

Trang 7

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

a Multiple modes exist The smallest value is shown 1.2 Frequency for "Public Holidays"

Bảng 2: Frequency của Public Holidays

Từ Bảng 2 ta thấy cụ thể ở biến “Public Holidays”: Số Non-Holiday đạt số liệu cao nhất chiếm 371 trên tổng số 731, chiếm tỉ lệ 50,8% mẫu khảo sát Còn lại là Holiday chiếm 360 trên tổng số 731, chiếm tỉ lệ 49,2% mẫu ảo sát Số kh lượng Holiday và Non – Holiday trong khảo sát chênh lệch nhau không quá lớn (nằm trong khoảng 1,6%) Kèm với bảng tần số là biểu đồ tròn thể hiện cơ cấu của biến Public Holidays

Public Holidays

Holiday Non-Holiday

Trang 8

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

3 2 Skewness Analysis, Visualization, and Time Series

2.1 Determine skewness (threshold: |skewness| > 0.5 indicates significant skew) Bảng 3: Kết quả Determine skewness

Descriptive Statistics

Statistic Statistic Statistic Statistic Std Error

Dựa vào dữ liệu đã tính được ở Bảng 3 ta có thể thấy rằng:

- Temperature có độ lệch bằng 0 nên tập dữ liệu Temperature là phân phối chuẩn Vì ph n phối chuẩn â có dạng hình chuông, nên các giá trị gần giá trị trung bình (Mean) sẽ có xác suất xuất hiện cao hơn so với các giá trị ở xa giá trị trung bình (Mean)

- Rain Volume có độ lệch bằng - 0,498 nên hình dạng của dữ liệu này bị lệch trái, cho thấy rằng có một số lượng lớn các giá trị Rain Volume nhỏ hơn giá trị trung bình (Mean) và đuôi trái của phân phối dài hơn đuôi phải

- Marketing Spend có độ lệch bằng 0 554 nên hình dạng của tệp dữ liệu này bị lệch phải Độ lệch , dương cho biết rằng số lượng lớn giá trị Marketing Spend lớn hơn giá trị trung bình (Mean) và đuôi phải của phân phối dài hơn đuôi trái

- Ice Cream Sales có độ lệch là - 0,094 nên hình dạng của tập dữ liệu này bị lệch trái Trong đó có một số lượng lớn giá trị Ice Cream Sales nhỏ hơn giá trị trung bình (Mean và đuôi trái của phân phối ) dài hơn đuôi phải

2.2 Create histograms for distribution visualization

Dưới đây là một số biểu đồ thể hiện tần suất để trực quan hóa phân phối của các biến: Temperature, Rain Volume, Marketing Spend và Ice Cream Sales.

Trang 9

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

4

Ảnh 1: Biểu đồ ần suất của t biến Temperature

- Ảnh 1 thể hiện biểu đồ tần suất hoàn chỉnh của biến Temperature Biểu đồ này cho biết nhiệt độ hàng tháng trong năm 2020 và năm 2021 Từ biểu đồ ta thấy được giá trị xuất hiện thường xuyên nhất trong biểu đồ là 10 và 30 Nhiệt độ dao động từ 10 và duy trì trung bình ở nhiệt độ 20, sau đó tăng lên nhiệt độ là 30

Trang 10

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

5

Ảnh 2: Biểu đồ tần suất củabiến Rain Volume

- Từ Ảnh 2 ta có thể ấy biểu đồ bị lệch về phía bên trái, đồng thời cũng thấy được giá trị xuất hiệth n thường xuyên nhất trong 2 năm đó là lượng mưa đạt 10 Biểu đồ tần suất này còn cho thấy sự thay đổi của lượng mưa, cụ ể là lượng mưa từ 0 đến 10.th

Ảnh 3: Biểu đồ tần suất của biến Marketing Spend

Trang 11

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

6

- Ta có thể thấy ở Ảnh 3 biểu đồ bị lệch về phía bên phải, đồng thời cũng thấy được giá trị xuất hiện thường xuyên nhất trong 2 năm đó là chi phí tiếp thị với khoảng từ 1200 đến 1300 Biểu đồ tần suất này còn cho thấy sự thay đổi của chi phí tiếp thị, cụ thể là từ 400 đến 5000.

Ảnh : Biểu đồ tần suất của biến Ice Cream Sales4

- Nhìn vào biểu đồ ở Ảnh 4, ta thấy biểu đồ có hình dáng đối xứng, đồng thời cũng thấy được giá trị xuất hiện thường xuyên nhất trong 2 năm, đó là số lượng kem bán được từ khoảng 1100 đến 1200 Biểu đồ tần suất còn cho thấy sự thay đổi của số lượng kem được bán, cụ thể là từ 300 đến 2300 2.3 Monthly averages visualization over two years for continuous variables

Các biến liên tục được sử dụng để trực quan hóa mức trung bình hàng tháng trong hai năm bao gồm:

- Biến Temperature:

Trang 12

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

7

Ảnh : Biểu đồ thể hiện mức trung bình trong hai năm của biến Temperature5

+ Năm 2020 bắt đầu bằng nhiệt độ trung bình hàng tháng 22,5°C vào tháng 1 và tiếp tục tăng đều trong giai đoạn mùa xuân, đạt đỉnh là 29,63°C vào tháng 4 Sau đó, nhiệt độ trung bình giảm dần trong giai đoạn mùa hè và mùa thu, và cuối cùng đạt đến 17,45°C vào tháng 12

+ Năm 2021 có xu hướng tương tự như năm 2020 với đỉnh điểm nhiệt độ trung bình hàng tháng vào tháng 4 (29,63°C) Tuy nhiên, một điểm đáng chú ý là nhiệt độ trung bình hàng tháng trong năm 2021 có xu hướng cao hơn so với năm 2020 trong giai đoạn mùa hè và mùa thu Tháng 5 và tháng 6 của năm 2021 có nhiệt độ trung bình cao hơn so với năm 2020 Sau đó, nhiệt độ trung bình giảm dần trong giai đoạn mùa thu và mùa đông, và cuối cùng đạt đến 17,45°C vào tháng 12

Cả hai năm 2020 và 2021 đều cho thấy một xu hướng tăng nhiệt độ từ mùa đông đến mùa xuân, sau đó giảm dần từ mùa hè đến mùa thu Tuy nhiên, năm 2021 có xu hướng nhiệt độ cao hơn so với năm 2020 trong giai đoạn mùa hè và mùa thu

- Biến Rain Volume:

Trang 13

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

8

Ảnh 6: Biểu đồ thể hiện mức trung bình trong hai năm của biến Rain Volume

+ Trong năm 2020, lượng mưa trung bình hàng tháng có sự biến động từ khoảng 4,51233 mm đến 9,58828 mm Các tháng có lượng mưa trung bình cao nhất là tháng 2 và tháng 8, với lượng mưa trung bình lần lượt là 9,58828 mm và 9,53258 mm Tháng 2 và tháng 8 có xu hướng mưa nhiều hơn so với các tháng khác trong năm, có thể là do yếu tố thời tiết hoặc các yếu tố khí hậu địa phương Trong khi đó, tháng 4 và tháng 7 có lượng mưa trung bình thấp nhất, chỉ khoảng 4,51233 mm và 4,57452 mm Có thể rằng các tháng này đón nhận ít mưa hơn do yếu tố khí hậu hoặc đặc điểm địa lý của vùng + Tiếp theo, trong năm 2021, lượng mưa trung bình hàng tháng cũng có sự biến động từ khoảng 4,51233 mm đến 9,61786 mm Tháng 2 và tháng 8 tiếp tục là các tháng có lượng mưa trung bình cao nhất, lần lượt là 9,61786 mm và 9,53258 mm Điều này cho thấy rằng xu hướng mưa cao trong tháng 2 và tháng 8 có thể là đặc điểm khí hậu ổn định hoặc mô hình thời tiết của vùng trong năm Tháng 4 và tháng 7 tiếp tục là các tháng có lượng mưa trung bình thấp nhất, tương tự như trong năm 2020

Tổng quan, cả năm 2020 và năm 2021 đều có sự biến động trong lượng mưa trung bình hàng tháng Tháng 2 và tháng 8 trong cả hai năm đều là các tháng có lượng mưa trung bình cao nhất, trong khi tháng 4 và tháng 7 là các tháng có lượng mưa trung bình thấp nhất Ngoài ra, không có sự khác biệt đáng kể về lượng mưa giữa năm 2020 và năm 2021 Cả hai năm có xu hướng tương tự và không có sự thay đổi đáng kể

- Biến Marketing Spend:

Trang 14

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

9

Ảnh 7: Biểu đồ thể hiện mức trung bình trong hai năm của biến Marketing Spend + Các tháng đầu năm 2020 cho thấy sự tăng trưởng ổn định trong chi tiêu tiếp thị, với giá trị trung bình hàng tháng dao động từ 2.189,6 đến 2.681,5 Tuy nhiên, từ tháng 3 đến tháng 6 năm 2020, chúng ta đã chứng kiến một sự giảm nhẹ trong chi tiêu với giá trị trung bình hàng tháng dao động từ 2.236,7 đến 2.380,1 Tiếp theo, từ tháng 7 đến tháng 9 năm 2020, chi tiêu tiếp thị trung bình hàng tháng tiếp tục tăng lên với giá trị trung bình hàng tháng dao động từ 2.164,4 đến 2.681,5 Đây có thể là do các chiến dịch tiếp thị mạnh mẽ hoặc các hoạt động quảng cáo đặc biệt trong khoảng thời gian này + Trong năm 2021, ta thấy một mức độ biến động lớn hơn trong chi tiêu tiếp thị Các tháng đầu năm tiếp tục duy trì mức chi tiêu tương đối cao, nhưng từ tháng 2 đến tháng 4, chúng ta đã ghi nhận một sự giảm đi đáng kể trong chi tiêu, với giá trị trung bình hàng tháng giảm từ 2.412,9 xuống còn 1.947,5 Tuy nhiên, từ tháng 5 đến tháng 8 năm 2021 đã có sự tăng trưởng dần đều trong chi tiêu tiếp thị Giá trị trung bình hàng tháng trong giai đoạn này dao động từ 2.098,8 đến 2.387,2

Tổng quan, có sự biến động trong chi tiêu tiếp thị trung bình hàng tháng từ năm 2020 đến năm 2021 Mặc dù đã có các tháng có chi tiêu cao và các tháng có chi tiêu thấp hơn, chúng ta có thể nhìn thấy một xu hướng tăng trưởng tổng thể trong chi tiêu tiếp thị trong khoảng thời gian này Điều này có thể cho thấy sự đầu tư và chú trọng vào các chiến dịch tiếp thị và quảng cáo để thúc đẩy sự phát triển và tăng trưởng kinh doanh

Trang 15

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

10 - Biến Icecream Sales:

Ảnh 8: Biểu đồ thể hiện mức trung bình trong hai năm của biến Icecream Sales + Trong khoảng thời gian từ năm 2020 đến năm 2021, doanh số bán kem trung bình hàng tháng đã trải qua biến động đáng kể Năm 2020 bắt đầu với một sự tăng trưởng ổn định, khi doanh số bán kem tăng từ mức 1.090,5 vào tháng 1 lên đến đỉnh cao 1.312,5 vào tháng 3 Tuy nhiên, từ tháng 4 đến tháng 6, doanh số bán kem có một sự suy giảm nhẹ Sự suy thoái này tiếp tục trong quý tiếp theo, khi doanh số bán kem dao động ở mức thấp từ tháng 7 đến tháng 9 Tuy nhiên, cuối năm 2020, thị trường kem đã trở lại với sự tăng trưởng nhẹ, khi doanh số bán kem trung bình hàng tháng tăng lên và dao động từ 1.010,5 đến 1.119,5 vào tháng 12

+ Năm 2021 đầu với một mức doanh số bán kem khá cao, đạt đỉnh cao nhất vào tháng 2 với 1.319,2 Tuy nhiên, từ tháng 3 đến tháng 5, doanh số bán kem giảm mạnh, ghi nhận mức thấp nhất vào tháng 5 với 1.188,3 Từ tháng 6 đến tháng 7, thị trường kem có một sự phục hồi nhẹ, nhưng từ tháng 8 đến tháng 9, doanh số bán kem lại có sự giảm nhẹ Cuối năm 2021, doanh số bán kem dao động từ 1.068,4 đến 1.165,6, thể hiện sự ổn định sau giai đoạn biến động

Nhìn chung, không có một xu hướng rõ ràng trong doanh số bán kem trung bình hàng tháng từ năm 2020 đến năm 2021 Doanh số kem đã trải qua sự tăng trưởng ban đầu, sau đó là một giai đoạn suy thoái và cuối cùng là sự ổn định Các yếu tố như mùa, nhu cầu của người tiêu dùng và tình hình kinh tế có thể đã ảnh hưởng đến biến động trong doanh số bán kem trong giai đoạn này

Trang 16

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

11 3 Boxplot Analysis for Outliers

3.1 Generate boxplots for each continuous variable Bảng 4: Giá trị Boxplots của các biến

Ảnh : Boxplot của biến Temperature9

+ Vì data shape của biến Temperature có dạng hình chuông (phân phối chuẩn) nên dữ liệu có xu hướng tập trung nhiều về điểm trung vị và các giá trị gần giá trị trung bình (Mean = 20) sẽ có xác suất xuất hiện cao hơn so với các giá trị ở xa giá trị trung bình Từ oxplot ta có thể thấy nhiệt độ dữ B liệu này đối xứng với nhau Nhiệt độ cao nhất là 30 và nhiệt độ thấp nhất là 10 Nhiệt độ dao động từ khoảng 10 đến khoảng 30 độ và luôn dưới 30 độ Nhiệt độ từ 10 (Min) đến Q1 (từ 10-13) chiếm 25% số lượng mẫu (n=731) từ đó ta suy ra có ít nhất 75% ngày trong 731 ngày có nhiệt độ từ 13 độ trở lên Điểm trung vị là 20 nên ta có khẳng định rằng có ít nhất 365,5 ngày trong 731 ngày có nhiệt độ là 20 độ trở lên Ta có IQR của dữ liệu là 14 suy ra được outlier của dữ liệu này sẽ nhỏ hơn 8 và lớ- n

Trang 17

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

12

hơn 41 Nhìn chung, nhiệt độ trong 2 năm qua ở khu vực này khá hài hòa và không thay đổi nhiều và qua mỗi năm có xu hướng lặp đi lặp lại

- Biến Rain Volume:

Ảnh 10: Boxplot của biến Rain Volume

+ Data shape của Rain Volume lệch trái cho thấy tần suất phân bổ của những ngày có lượng mưa từ 7,06 (Median) đến 10 (Max) cao hơn những ngày có lượng mưa trung bình (hoặc nhỏ hơn 6.3576) Lượng mưa dao động từ 0 đến 10 và luôn dưới 10 Lượng mưa từ 0 (Min) đến Q1 (0-3,78) chiếm 25% số lượng mẫu (n=731) từ đó ta suy ra được có ít nhất 75% ngày trong 731 ngày có lượng mưa từ 3,78 trở lên Ta có IQR của Rain Volume là 5,46 từ đó suy ra được outlier của dữ liệu này sẽ nhỏ hơn 4,41 và lớn hơn 18,19 Nhìn chung, khu vực này thường xuyên mưa.

Biến Marketing Spend:

Trang 18

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

13

Ảnh 11: Boxplot của biến Marketing Spend

+ Data shape của Marketing Spend phân phối lệch phải cho thấy dữ liệu có xu hướng tập trung nhiều về bên trái Dữ liệu của Marketing Spend dao động từ 512 đến 4997 Chi tiêu cao nhất là 4997 và nhỏ nhất là 512 Chi tiêu từ 512 (Min) đến Q1 (từ 512-1435) chiếm 25% số lượng mẫu (n=731) từ đó ta suy ra có ít nhất 75% ngày trong 731 ngày có chi tiêu từ 1435 trở lên và luôn dưới 4997 Ta có IQR của Marketing Spend là 1504 suy ra outlier của dữ liệu này sẽ nhỏ hơn 821 và lớn hơn 5195 và dựa -vào boxplot ta thấy được Marketing Spend không có outlier Nhìn chung, doanh nghiệp chi tiêu Marketing cho khu vực này khá nhiều

- Biến Icecream Sales:

Trang 19

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

14

Ảnh 12: Boxplot của biến Ice Cream Sales

+ Data shape của Icecream Sales phân phối lệch trái cho thấy dữ liệu có xu hướng tập trung nhiều về bên phải Dữ liệu của Icecream Sales dao động từ 267 đến 2172 Doanh số bán kem cao nhất là 2172 và thấp nhất là 267 Doanh số từ 267 (Min) đến Q1 (từ 267-957) chiếm 25% số lượng mẫu (n=731) từ đó ta suy ra được có ít nhất 75% ngày trong 731 ngày có doanh số bán kem từ 957 trở lên và luôn dưới 2172 Ta có IQR của Icecream Sales là 420 suy ra outlier của dữ liệu này sẽ nhỏ hơn 327 và lớn hơn 2007 Quan sát từ Boxplot ta thấy được có 6 outliers cần loại bỏ để tránh sai sót Các outliers cần loại bỏ có ID là 68, 148, 226, 422, 566, 684 và có doanh số bán kem lần lượt là 2172, 2006, 301, 2016, 267, 306 Nhìn chung, doanh số bán kem trong 2 năm thuộc mức trung bình.

4 Correlation Analysis

4.1 Analyze correlations between independent variables and Ice Cream Sales Bảng 5: Kết quả phân tích tương quan

Trang 20

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

** Correlation is significant at the 0.01 level (2-tailed)

Căn cứ vào kết quả phân tích tương quan ở Bảng 5 ta thấy, biến phụ thuộc Ice Cream Sales có mối tương quan đồng biến với biến độc lập Temperature (0,248 > 0), điều này có nghĩa là khi nhiệt độ tăng thì doanh số bán kem cũng sẽ tăng Trái ngược lại, các biến độc lập Rain Volume (- 0,040 < 0) và Marketing Spend (- 0,19 < 0) lại có mối tương quan nghịch biến vớ biến phụ thuội c Ice Cream Sales, điều này cho thấy khi lượng mưa và chi phí tiếp thị tăng thì doanh số bán kem giảm Cùng với đó, hệ số Sig trong mối tương quan giữ biến phụ thuộc Ice Cream Sales vớ biến độc lập a i Temperature là 0,000 nhỏ hơn 0,05 (tức nhỏ hơn 5%) điều này cho thấy mối tương quan giữ biến a phụ thuộc Ice Cream Sales vớ biến độc lập Temperature có ý nghĩa thống kê Và trong mối tương i quan giữ biến phụ thuộc Ice Cream Sales với những biến độc lập Rain Volume, Marketing Spend a có hệ số Sig lần lượt là 0,282 và 0,600 đều lớn hơn 0,05, cho thấy mối tương quan này không có ý nghĩa thống kê

5 Regression Analysis

5.1 Conduct linear regression to identify significant variables impacting sales

Theo kết quả phân tích tương quan ở Bảng 5 có thể ấy rằng biến Rain Volume, Marketing th Spend không có ý nghĩa thống kê (hệ số Sig đề ớn hơn 0,05u l ) nên khi phân tích hồi quy nhóm sẽ ỉ ch giữ lại biến Temperature (hệ số Sig nhỏ hơn 0,05) để ến hành phân tích.ti

a Dependent Variable: Ice Cream Sales b Predictors: (Constant), Temperature

Trang 21

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

a Predictors: (Constant), Temperature b Dependent Variable: Ice Cream Sales

a Dependent Variable: Ice Cream Sales

5.2 Interpret coefficients, p-values, and R-squared

Sau khi thực hiện mô hình hồi quy, ta thu được kết quả như đã thấy ở Bảng , Bảng 6 7 và Bảng 8, những kết quả đó được giải thích như sau:

- Bảng là bảng ANOVA cho kết quả6 của kiểm định F để đánh giá giả thuyết sự phù hợp của mô hình hồi quy (giả thuyết H0: R = 02 ) Giá trị ig kiểm định F bằng 0S ,000 < 0,05 Do đó, mô hình hồi quy là phù hợp

- Bảng là bảng 7 Model Summary cho kết quả của R Square (R2) và Adjusted R Square (Adj R2) để đánh giá mức độ phù hợp của mô hình Ở đây, giá trị Adj R2 = 0,060 cho thấy biến độc lập Temperature đưa vào phân tích hồi quy ảnh hưởng 6% sự biến thiên của biến phụ thuộc Ice Cream Sales, còn lại 94% là do các biến ngoài mô hình và sai số ngẫu nhiên Giá trị Durbin-Watson = 2,024 nằm trong khoảng 1,5 đến 2,5 nên kết quả không vi phạm giả định tự tương quan chuỗi bậc nhất (chấp nhận giả định không có tương quan giữa các phần dư).

- Bảng là bảng 8 Coefficients cho kết quả của kiểm định t để đánh giá giả thuyết ý nghĩa hệ số hồi quy, chỉ số VIF đánh giá đa cộng tuyến và các hệ số hồi quy Biến độc lập Temperature có giá trị Sig kiểm định t = 0,000 < 0,05 Do đó biến này có ý nghĩa trong mô hình hồi quy, hay nói cách khác, biến này có sự tác động lên biến phụ thuộc Ice Cream Sales Đồng thời, hệ số hồi quy (B và Beta) của biến độc lập này mang dấu dương, như vậy biến độc lập Temperature có tác động thuận chiều lên biến phụ thuộc Ice Cream Sales

Trang 22

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

17 6 Interpretation and Insights

6.1 Provide analytical insights based on analyses

Qua phân tích trên có thể thấy, có ba yếu tố ảnh hưởng đến doanh thu bán kem (Ice Cream Sales) đó là: Temperature, Rain Volume và Marketing Spend rong đó T Temperature là yếu tố ảnh hưởng tiên quyết và có ảnh hưởng rất lớn đến Ice Cream Sales, bằng chứng là hai biến này có mối tương quan đồng biến với nhau Điều này cho thấy khi nhiệt độ càng cao, thì nhu cầu giải nhiệt của khách hàng cũng tăng cao, từ đó doanh thu bán kem cũng tăng Chính vì vậy mà doanh nghiệp nên cân nhắc việc quảng cáo và tiếp thị kem vào những tháng có nhiệt độ cao h ay có thể cân nhắc mở cửa hàng ở những khu vực có nhiệt độ cao quanh năm Những điều này có thể giúp doanh nghiệp tăng doanh thu bán kem tổng thể

6.2 Discuss brief implications in a marketing context

Trong bài phân tích này, biến Marketing Spend tác động rất yếu lên biến Ice Cream Sales mà thay vào đó biến Ice Cream Sales lại bị tác động mạnh bởi biến Temperature Chính vì vậy, thay vì phải suy nghĩ làm cách nào để biến Marketing Spend hoạt động có hiệu quả thì hãy tập trung vào cách áp dụng tiếp thị dựa vào yếu tố nhiệt độ Việc doanh thu bán kem (Ice Cream Sales) tăng vào những tháng có nhiệt độ cao đã được thể hiện rõ trong bài phân tích Đó là điều hiển nhiên, khi trời nóng thì nhu cầu của mọi người chủ yếu là giải nhiệt vậy ngoài nước uống thì kem là một món giải nhiệt vô cùng hợp lý Thế nên, đội ngũ Marketing của doanh nghiệp nên dựa vào mối quan hệ giữa doanh thu bán kem (Ice Cream Sales) và nhiệt độ (Temperature) để phát triển chiến dịch Marketing của mình, bằng những cách như:

• Chiến dịch marketing nên tập trung vào việc quảng cáo và tiếp thị kem vào những tháng có nhiệt độ cao ở khu vực

• Hay sử dụng các hình ảnh và thông điệp hấp dẫn, phù hợp với thời tiết nóng • Hay cung cấp các ưu đãi và khuyến mãi đặc biệt để khuyến khích mọi người mua kem

Ngày đăng: 04/05/2024, 14:20

Tài liệu cùng người dùng

Tài liệu liên quan