Bài tập lớn Phân tích dữ liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Khoa Viễn Thơng HỌC PHẦN: LƯU TRỮ VÀ PHÂN TÍCH DỮ LIỆU ĐỀ TÀI: PHÂN TÍCH DỮ LIỆU VÀ DỰ ĐỐN CROSS SELL KHÁCH HÀNG CÓ NHU CẦU MUA BẢO HIỂM SỨC KHỎE Giảng viên Nhóm thực Sinh viên thực : Lê Hải Châu : 04 : Nguyễn Công Dũng - B19DCVT054 : Đặng Thị Thùy Linh – B19DCVT218 : Phạm Thùy Trang – B19DCVT406 : Nguyễn Nhật Nam – B19DCVT266 Hà Nội – 2023 MỤC LỤC DANH MỤC HÌNH ẢNH THUẬT NGỮ VIẾT TẮT LỜI NÓI ĐẦU CHƯƠNG I: TỔNG QUAN VỀ MƠ HÌNH 1.1 Đặt vấn đề mơ tả tốn 1.2 Khái niệm thuật ngữ 1.2.1 Cross sell (bán chéo) 1.2.2 Bảo hiểm ô tô 1.2.3 Bảo hiểm sức khỏe 1.2.4 Mối liên hệ bảo hiểm ô tô bảo hiểm sức khỏe 1.2.5 Dự đoán bán chéo sản phẩm( Cross sell Prediction) 1.3 Những yếu tố quan trọng 1.4 Ứng dụng mơ hình CHƯƠNG 2: PHÂN TÍCH VÀ XỬ LÝ NGUỒN DỮ LIỆU 2.1 Mô tả xử lý liệu đầu vào 2.1.1: Đọc liệu 10 2.2: Categorical data 10 2.3 Data scaling 11 CHƯƠNG 3: MƠ HÌNH THUẬT TỐN 13 3.1 Xử lý cân liệu SMOTE (Synthetic Minority Oversampling) 13 3.1.1 Dữ liệu cân (Imbalanced data) 13 3.1.2, SMOTE (Synthetic Minority Over-sampling) 14 3.1.3 Áp dụng SMOTE vào xử lý liệu 16 3.2 Thuật toán Logistic Regression 17 CHƯƠNG 3: KẾT LUẬN 22 TÀI LIỆU THAM KHẢO 23 DANH MỤC HÌNH ẢNH Hình 1: Hình ảnh mối quan tâm người Việt tới bảo hiểm sức khỏe Hình 2: Một số thơng tin phục vụ mơ hình Hình 3: Một số thuật tốn phổ biến thường sử dụng Hình 1: Dữ liệu hiển thị 10 Hình 2: Bảng liệu sau scale 12 Hình 1: Ví dụ LR 17 Hình 2: Đồ thị hàm Sigmoid 18 Hình 3: Đồ thị ROC 19 Hình 4: Kết tốn trước tối ưu 19 Hình 5: Kết tốn sau tối ưu 20 Hình 6: ROC sau tối ưu 21 THUẬT NGỮ VIẾT TẮT STT Từ viết tắt ID ROI Tên đầy đủ Identification Return on Investment ML AI AUC MachiFne Learning Artificial Intelligence Area Under the Curve TPR True positive rate FPR False Positive Rate ROC Receiver Operating Characteristi 10 11 12 TP FN FP TN True Positive False Negative False Positive True Negative Giải nghĩa Mã khách hàng Tỷ lệ lợi nhuận rịng tổng chi phí đầu tư Học máy Trí tuệ nhân tạo Diện tích đường cong Tỷ lệ dương tính Tỷ lệ dương tính sai Đặc tính hoạt động máy nhận dạng Dương tính Âm tính sai Dương tính sai Âm tính LỜI NÓI ĐẦU Cross sell (bán chéo) biết đến nghệ thuật bán hàng hiệu Bất lĩnh vực áp dụng chiến lược thu lợi nhuận khủng Trong kinh doanh, tài hay bán lẻ khơng cịn q xa lạ áp dụng kỹ thuật cross sell chiến lược kinh doanh mang lại nhiều lợi nhuận cho doanh nghiệp Đặc biệt lĩnh vực bảo hiểm, người hướng đến nhu cầu bảo vệ sức khỏe không thân mà đồ vật mà họ sở hữu dòng khai thác lớn cho doanh nghiệp hay công ty bảo hiểm Tuy nhiên lĩnh vực đầy rủi ro gặp phải tình trạng khách hàng khơng có mong muốn dùng không muốn sử dụng tiếp Điều gây tổn thất tài chính, làm cho hoạt động kinh doanh doanh nghiệp bị thua lỗ, chí phá sản khơng tính tốn dự đốn xác mức độ sử dụng khách hàng Để khắc phục vấn đề nhiều giải pháp đưa ra, số áp dụng công nghệ vào việc phân liệu dự đoán khả bán chéo dịch vụ sản phẩm với khách hàng thành viên sử dụng Với phát triển công nghệ Machine Learning, AI, Big Data, việc áp dụng chúng vào lĩnh vực bảo hiểm doanh nghiệp quan tâm sử dụng rộng rãi Điều giúp công ty bảo hiểm đưa định thơng minh hơn, đồng thời giảm thiểu rủi ro tối đa hóa lợi nhuận Tuy nhiên, để thực điều đó, việc phân tích liệu dự đốn khả bán chéo sản phẩm yếu tố quan trọng cần đặc biệt trọng nghiên cứu kỹ lưỡng Báo cáo tập trung vào việc tìm hiểu phương pháp phân tích liệu dự đoán khả bán chéo dựa vào lần mua hàng trước để khảo sát nhu cầu khách hàng sau áp dụng vào thực tế cách hiệu Báo cáo chia làm chương sau: ❖ CHƯƠNG 1: “Tổng quan mơ hình” trình bày khái niệm thuật ngữ bản, đưa ứng dụng mơ hình ❖ CHƯƠNG 2: “Phân tích xử lý nguồn liệu” mô tả tập liệu, đồng thời thực tiền xử lý liệu ❖ CHƯƠNG 3: “Mơ hình thuật tốn” trình bày mơ hình thuật tốn phân tích kết đạt Mặc dù nhóm cố gắng kiến thức hạn chế nên báo cáo khơng tránh thiếu sót Do vậy, chúng em mong nhận đóng góp ý kiến thầy cô bạn để báo cáo nhóm hồn thiện CHƯƠNG I: TỔNG QUAN VỀ MƠ HÌNH 1.1 Đặt vấn đề mơ tả toán Trong lĩnh vực bảo hiểm nay, với mạnh áp dụng Machine Learning, AI, Big Data, cơng ty bảo hiểm dự đốn sản phẩm dịch vụ mà khách hàng muốn mua dựa lịch sử mua hàng trước thơng tin mà khách hàng cung cấp, từ cải thiện trải nghiệm khách hàng Bài tốn đặt ra: Một cơng ty bảo hiểm thu thập đc liệu khách hàng mua bảo hiểm công ty, dựa vào liệu khảo sát khứ khách hàng mua bảo hiểm xe tơ có nhu cầu mua thêm bảo hiểm sức khỏe cho họ Mục tiêu: Để giải toán này, cần sử dụng phương pháp phân tích liệu học máy để xây dựng model dự đoán khách hàng mua bảo hiểm ô tô có nhu cầu mua bảo hiểm sức khỏe Từ tư vấn cơng tệp đối tượng đó, gia tăng khả thành cơng tiếp cận, tiết kiệm nhiều chi phí nhân sự, tin nhắn, khuyến mãi,… tiếp cận để bán thêm nhiều sản phẩm khác có liên quan tới khách hàng Bài tốn giải nhiều phương pháp khác Cụ thể này, nhóm chúng em sử dụng mơ hình thuật tốn Logictis Regression để so sánh dự đoán thuật toán mang lại hiệu tối ưu cho tốn sau áp dụng mục tiêu cần thiết, phù hợp với khách hàng 1.2 Khái niệm thuật ngữ 1.2.1 Cross sell (bán chéo) Là kĩ thuật bán hàng sử dụng để khiến khách hàng chi tiêu nhiều cách mua hay nhiều sản phẩm có liên quan đến họ dự định mua Đó sản phẩm có tác dụng bổ trợ, có tính tương đồng, hay đơn giản dùng chung tăng trải nghiệm khách hàng Ưu điểm cross sell:  Tăng lợi nhuận, doanh số: Lợi nhuận ln đích cuối mà doanh nghiệp mong muốn Vì vậy, cross sell trợ thủ đắc lực khiến cho khách hàng bỏ thêm tiền để mua sản phẩm Điều đồng nghĩa với việc, lợi nhuận mà doanh nghiệp nhận nhiều  Tăng trải nghiệm cho khách hàng: Việc áp dụng cross selling không dừng lại chỗ cố bán hàng mà hình thức gián tiếp giúp nghiên cứu khả chi tiêu nhu cầu khách hàng để gợi ý cho họ cách xác sản phẩm phù hợp Từ trải nghiệm khách hàng nâng cao  Tăng ROI: Với cross sell, không cần bỏ nhiều chi phí để tiếp cận khách hàng mà doanh thu tăng nhanh chóng  Tăng giá trị trọn đời: Khi giá trị chi tiêu trung bình khách hàng tăng đồng nghĩa với việc họ trở thành khách hàng trung thành doanh nghiệp kéo theo gia tăng giá trị trọn đời họ  Sự tiện lợi: Có thể đánh phủ nhu cầu khách hàng tương lai cách cung cấp đầy đủ chí nhiều mà họ cần để tạo thuận lợi linh hoạt họ tìm đến 1.2.2 Bảo hiểm tô Bảo hiểm ô tô loại bảo hiểm kết hợp nhiều loại hình bảo hiểm bao gồm người, tài sản, hàng hóa vận chuyển có liên quan đến xe ô tô Bảo hiểm ô tô bắt buộc loại hình bảo hiểm trách nhiệm dân tất chủ sở hữu xe ô tô phải tham gia theo quy định Bởi bị cảnh sát giao thơng, quan chức có thẩm quyền kiểm tra mà chủ sở hữu xe bảo hiểm tơ bắt buộc bị coi vi phạm quy định pháp luật bị xử phạt theo quy định Ngoài ra, mua bảo hiểm ô tô bắt buộc dù đâu bạn nên đọc thêm quy định phạm vi bảo hiểm, điểm loại trừ bảo hiểm bắt buộc ô tô để công ty bảo hiểm chi trả bồi thường Trên thị trường bảo hiểm ơtơ có hình thức bảo hiểm phổ biến gồm:  Bảo hiểm bắt buộc trách nhiệm dân chủ xe giới  Bảo hiểm trách nhiệm dân chủ xe hàng hóa vận chuyển xe  Bảo hiểm thiệt hại vật chất xe giới  Bảo hiểm người ngồi xe tai nạn lái phụ xe 1.2.3 Bảo hiểm sức khỏe Bảo hiểm sức khỏe loại hình bảo hiểm tự nguyện, sử dụng trường hợp người bảo hiểm gặp rủi ro Cụ thể, doanh nghiệp bảo hiểm có nghĩa vụ chi trả phần hay tồn chi phí điều trị theo thỏa thuận hợp đồng ký kết người bảo hiểm gặp tai nạn, thương tật, Đầu tư vào bảo hiểm sức khỏe dạng đầu tư thông minh Tuy nhiên, thời hạn hợp đồng bảo hiểm ngắn (khoảng năm) thu phí lần Bảo hiểm sức khỏe dược phân làm loại chính:  Bảo hiểm tai nạn người  Bảo hiểm y tế thương mại  Bảo hiểm chăm sóc sức khỏe 1.2.4 Mối liên hệ bảo hiểm ô tô bảo hiểm sức khỏe Khảo sát cơng ty tồn cầu nghiên cứu thị trường Nielsen mối quan tâm người Việt sức khỏe ngày lớn, theo năm 2020 tăng 4% so với năm 2019 đứng top 1, ổn định công việc hay cân sống - công việc Xu hướng người tiêu dùng Việt cho thấy mức độ quan tâm tới gói bảo hiểm sức khỏe cao cấp trì mức cao, đứng top sau tiết kiệm mua sắm quần áo Hình 1: Hình ảnh mối quan tâm người Việt tới bảo hiểm sức khỏe Lý giải cho điều này, chuyên gia cho rằng, dịch bệnh diễn biến phức tạp cú hích thay đổi tư tiêu dùng, tâm lý lựa chọn nhiều người Việt thuộc giới trung lưu tăng nhanh Việt Nam năm gần Kể từ hậu COVID-19 giãn cách xã hội, lối sống quản lý tài người Việt có thay đổi theo hướng tăng ý thức phòng ngừa rủi ro tương lai Thay đầu tư vào khoản sinh lời tiêu sản, người tiêu dùng tìm đến đầu tư mang giá trị bền vững, đặc biệt đầu tư cho sức khỏe Bảo hiểm sức khỏe bổ trợ thêm cho bảo hiểm ô tô, ứng dụng nhiều vấn đề sức khỏe y tế Khi người tham gia giao thơng có nhu cầu mua bảo hiểm tơ họ khách hàng tiềm cho việc mua bảo hiểm sức khỏe Dựa vào đó, cơng ty bảo hiểm khai thác cross sell hướng họ đến nhu cầu sử dụng thêm bảo hiểm sức khỏe từ kích cầu cho cơng ty tạo nguồn lợi nhuận tăng đáng kể đến từ liệu có 1.2.5 Dự đốn bán chéo sản phẩm( Cross sell Prediction) Cross sell Prediction việc dự đoán khả khách hàng có nhu cầu sử dụng thêm bảo hiểm sức khỏe dựa thông tin liên quan đến khách hàng lịch sử dùng bảo hiểm ô tô họ Đây ứng dụng thực tế mơ hình dự đốn bán chéo, mục tiêu xác định xem khách hàng có nhu cầu mua thêm không để công ty bảo hiểm đưa định khách quan xác từ liệu khách hàng Các thơng tin sử dụng để dự đoán xác suất nhu cầu dùng thêm khách hàng bao gồm: giới tính, độ tuổi, có lái xe hay chưa, vùng khách hàng cư trú, độ tuổi phương tiện, phương tiện bị hỏng chưa, thời gian khách hàng gắn bó với cơng ty nhiều yếu tố khác Hình 2: Một số thông tin phục vụ mô hình Thơng thường, q trình dự đốn bán chéo sử dụng thuật tốn mơ hình học máy để phân tích yếu tố Sau đó, mơ hình ước tính khả khách hàng muốn sử dụng thêm sản phẩm khác tương lai dựa chúng Hình 3: Một số thuật toán phổ biến thường sử dụng 1.3 Những yếu tố quan trọng Những yếu tố quan trọng cần lưu ý:  Các yếu tố đánh giá khách hàng, bao gồm thu nhập, số tiền tiết kiệm, nợ xấu khứ, điểm tín dụng, số năm làm việc, yếu tố khác  Dữ liệu lịch sử khách hàng trước đó, bao gồm lịch sử tốn loại dịch vụ bảo hiểm sử dụng  Các yếu tố thị trường, bao gồm tình hình kinh tế yếu tố khác Từ đây, xây dựng mơ hình dự đốn khai thác khách hàng có nhu cầu sử dụng thêm dịch vụ cách xác Điều giúp cho doanh nghiệp tối ưu hóa khoanh vùng đổi tượng dễ dàng nhằm đảm bảo tính ổn định Tuy nhiên, để đạt mục tiêu này, cần có liệu đầy đủ xácvề khách hàng, đồng thời cần xử lý phân tích liệu cách khoa học hiệu Thêm vào đó, mơ hình dự đốn xác tin cậy yếu tố quan trọng để giúp cơng ty đưa định đắn Do đó, phân tích liệu dự đốn cros sell khách hàng có nhu cầu mua bảo hiểm sức khỏe dựa vào liệu khách hàng mua bảo hiểm ô tô toán quan trọng quan tâm lĩnh vực bảo hiểm Khi giải thành cơng tốn này, doanh nghiệp cải thiện hoạt động, đảm bảo tính ổn định tài tối ưu hóa lợi nhuận 1.4 Ứng dụng mơ hình Mơ hình phân tích liệu đốn khả cross sell khách hàng có nhu cầu mua bảo hiểm sức khỏe ứng dụng rộng rãi lĩnh vực bảo hiểm tài Dưới số ứng dụng cụ thể mơ hình này:  Đánh giá khách hàng tiềm năng: Các cơng ty bảo hiểm sử dụng mơ hình phân tích liệu dự đốn nhu cầu sử dụng thêm khách hàng để đánh giá khách hàng tiềm Từ đó, cơng ty định hướng tới tiếp cận khách hàng dễ dàng  Xác định yếu tố ảnh hưởng đến nhu cầu sử dụng khách hàng: Mô hình phân tích liệu dự đốn nhu cầu sử dụng khách hàng giúp cơng ty bảo hiểm xác định yếu tố ảnh hưởng đến loại bảo hiểm mà khách hàng quan tâm thêm, bảo hiểm sức khỏe, y tế, nhân thọ, v.v  Tối ưu hóa hoạt động tiếp cận khách hàng cơng ty bảo hiểm: Sử dụng mơ hình phân tích liệu dự đốn cross sell khách hàng mua bảo hiểm, doanh nghiệp mang lại nguồn lợi nhuận cao mà rủi ro  Nâng cao trải nghiệm khách hàng: Mơ hình đáp ứng cung cấp cho khách hàng sản phẩm dịch vụ bảo hiểm phù hợp với khả khách hàng CHƯƠNG 2: PHÂN TÍCH VÀ XỬ LÝ NGUỒN DỮ LIỆU Việc phân tích xử lý nguồn liệu bước quan trọng khơng thể thiếu Q trình phân tích tiền xử lý liệu giúp cải thiện kết giảm thời gian tính tốn cho model Chương giới thiệu liệu phân tích xử lý nguồn liệu Dữ liệu chia train-test theo tỉ lệ 80%-20% để phù hợp với mơ hình tốn 2.1 Mơ tả xử lý liệu đầu vào Dữ liệu toán công khai sử dụng từ Lending CLub Dữ liệu bao gồm 381109 khách hàng mô tả với thuộc tính tính có bảng đây: Variable Class Id Description Mã khách hàng numeric Gender character Male: nam Female: nữ Age numeric Tuổi khách hàng Driving_License numeric Region_Code numeric Bằng lái xe: 1: Khách hàng có lái xe 0: Khách hàng chưa có lái xe Vùng cư trú khách hàng Previously_Insured numeric 0: Khách hàng chưa có bảo hiểm 1: Khách hàng có bảo hiểm Vehicle_Age character Độ tuổi phương tiện Vehicle_Damage character Yes: Bảo hiểm bị hỏng No: Bảo hiểm chưa bị hỏng Annual_Premium numeric Số tiền khách hàng phải đóng phí bảo hiểm hàng năm Policy_Sales_Channel numeric Kênh tiếp cận khách hàng (Các đại lý, qua thư, điện thoại, trực tiếp,…) Vintage numeric Thời gian khách hàng gắn bó với cơng ty Response numeric 1: Khách hàng hứng thú mua bảo hiểm sức khỏe 0: Khách hàng không hứng thú mua bảo hiểm sức khỏe 2.1.1: Đọc liệu Bước 1: Import thư viện cần dùng import pandas as pd from sklearn.preprocessing import MinMaxScaler from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report from sklearn.linear_model import LogisticRegression from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import GridSearchCV from sklearn.ensemble import RandomForestClassifier Bước 2: Read and display data (đọc hiển thị liệu ) train = pd.read_csv("train.csv") train Hình 1: Dữ liệu hiển thị Sau đọc liệu ta thấy cột “Id” số tăng dần cột “Policy_Sales_Channel” kênh tiếp cận bán hàng khơng ảnh hưởng đến việc dự đốn model nên loại bỏ cột “Id” cột “Policy_Sales_Channel” train.drop(columns=["id","Policy_Sales_Channel"], inplace=True) 2.2: Categorical data Dữ liê ̣u phân loa ̣i, không giố ng với dữ liê ̣u da ̣ng số (numerical data), là loa ̣i dữ liê ̣u chỉ nhâ ̣n mô ̣t số lươ ̣ng hữu ̣n các giá tri cố ̣ đinh ̣ Ví du ̣ dataset trên, giới tính là mô ̣t feature da ̣ng categorical nó chỉ nhâ ̣n giá tri:̣ Nam hoă ̣c Nữ Viê ̣c sử du ̣ng categorical data bài toán ML có các thách thức sau:  Nhiề u model machine learning thường chỉ nhâ ̣n input là các giá tri ̣ numerical Để dùng các model này, categorical data buô ̣c phải đươ ̣c đưa về da ̣ng number 10  High cardinality: dữ liê ̣u có thể bao gồ m mô ̣t lươ ̣ng rấ t lớn các giá tri kha ̣ ́ c nhau, đó mỗi giá tri ̣chỉ xuấ t hiê ̣n rấ t ít lầ n  Máy tính không nhìn nhâ ̣n dữ liê ̣u da ̣ng phân loa ̣i và mố i quan ̣ giữa chúng cách người nhâ ̣n thức Vâ ̣y điề u cầ n thiế t là phải tim ̀ cách biế n đổ i các category này về da ̣ng numerical để máy tính có thể xử lý, cũng tìm cách extract đươ ̣c các thông tin "hữu ić h" mố i quan ̣ giữa chúng Có nhiều cách thức làm việc với Categorical data Integer encoding, Ordinal encoding, One-hot encoding, Dummy encoding,… Với liệu thông tin người mua bảo hiểm này, sử dụng phương pháp Dummy encoding cho cột “Gender”, “Vehicle_Age ” “Vehicle_Damage” Dummy encoding phương pháp biến biến phân loại thành tập hợp biến nhị phân train = pd.get_dummies(train, columns=["Gender"],drop_first=True) train = pd.get_dummies(train, columns=["Vehicle_Damage"],drop_first=True) train = pd.get_dummies(train, columns=["Vehicle_Age"],drop_first=True) 2.3 Data scaling Data scaling trình chuẩn hóa liệu để đưa giá trị biến phạm vi khoảng giá trị định Quá trình giúp cho thuật tốn phân tích liệu máy học hoạt động hiệu đảm bảo tính xác kết phân tích Các phương pháp phổ biến để tỷ lệ hóa liệu là:     Min-max Scaling Z-score Standardization Log Transformation Robust Scale Với phương pháp Min-max Scaling để chuyển đổi giá trị biến thành khoảng giá trị cụ thể khoảng [0,1] Phương pháp sử dụng để đưa giá trị biến phạm vi, giúp cho việc so sánh phân tích biến dễ dàng Min-max scaling thực cách sử dụng công thức: 11 Phương pháp Min-max scaling có ưu điểm đơn giản dễ hiểu, giúp cho biến chung phạm vi giảm độ lệch giá trị Tuy nhiên, phương pháp có nhược điểm nhạy cảm với nhiễu giá trị cực đại/cực tiểu, khiến cho trình chuẩn hóa liệu bị sai lệch Ngồi ra, phương pháp Min-max scaling áp dụng cho phạm vi giá trị khác cách thay khoảng giá trị [0,1] khoảng giá trị khác [-1,1] [0, 100] tùy vào nhu cầu toán Áp dụng vào toán gán trường đầu vào "Age","Annual_Premium","Vintage" ta được: from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() train[["Age","Annual_Premium","Vintage"]]=scaler.fit_transform(train[["Age", "Annual_Premium", "Vintage"]]) Hình 2: Bảng liệu sau scale 12 CHƯƠNG 3: MƠ HÌNH THUẬT TỐN Chương trình bày phương pháp SMOTE xử lý vấn đề cân liệu nhằm giúp tăng tính đắn model Bên cạnh thuật tốn Logistics Regression giải tốn đặt phân tích kết quả, đánh giá hiệu model 3.1 Xử lý cân liệu SMOTE (Synthetic Minority Oversampling) 3.1.1 Dữ liệu cân (Imbalanced data) Dữ liệu không cân đề cập đến loại liệu mà lớp mục tiêu có phân phối quan sát khơng đồng đều, tức nhãn lớp có số lượng quan sát cao (Majority) nhãn có số lượng quan sát thấp (Minority) Hình 3.1: So sánh liệu cân liệu cân Việc cân liệu thường thấy toán phân loại liên quan đến thư rác, tốn chó mèo, dự đốn rời bỏ khách hàng, dự đốn ung thư… Hình 3.2: Biểu đồ giá trị nhận diện giao dịch thẻ giả mạo ngân hàng toán dự đoán khách hàng rời bỏ Ở biểu đồ bên trái, thấy số lượng giao dịch thẻ bình thường ngân hàng nhiều (majority), số lượng giao dịch thẻ giả mạo (minority) Ở biểu đồ bên phải, số lượng khách hàng lại chiếm 85.93%, số lượng khách hàng rời bỏ chiếm 14.07% Có thể thấy số liệu lớp hai biểu đồ bị cân Trong thực tế 13 điều hiển nhiên, cịn tốn ảnh hưởng đến độ xác model Tác hại Imbalance:  Hầu hết thuật toán phân lớp Machine Learning (ML) hoạt động tốt với balance dataset  Khi dataset không balance:  Model có thiên hướng predict lớp đa số (majority) để tăng độ xác lên (accuracy)  Khi accuracy khơng cịn tác dụng đánh giá model Để xử lý đề cân liệu sử dụng số phương pháp như:  Thay đổi metric đánh giá model  Undersampling  Oversampling  Class weighted  Ensemble & Boosting Trong toán xây dựng model dự đoán cho vay khách hàng, để xử lý liệu cân bằng, nhóm định chọn phương pháp upsambling SMOTE 3.1.2, SMOTE (Synthetic Minority Over-sampling) a SMOTE gì? SMOTE (Synthetic Minority Over-sampling) phương pháp sinh mẫu nhằm gia tăng kích thước mẫu nhóm thiểu số trường hợp xảy cân mẫu Để gia tăng kích thước mẫu, với mẫu thuộc nhóm thiểu số ta lựa chọn mẫu láng giềng gần với sau thực tổ hợp tuyến tính để tạo mẫu giả lập - Giới thiệu vấn đề: Lớp thiểu số/tích cực lớp quan tâm đặt mục tiêu đạt kết tốt lớp Nếu liệu cân khơng xử lý trước, điều làm giảm hiệu suất mơ hình phân loại Hầu hết dự đoán tương ứng với lớp đa số coi đặc trưng lớp thiểu số nhiễu liệu bỏ qua chúng Điều dẫn đến sai lệch cao mơ hình Hình 3.3: Mơ hình phân bố liệu 14 - Nghịch lý độ xác: Giả sử, bạn giải vấn đề phát gian lận dựa bảo hiểm y tế Trong vấn đề vậy, thường nhận thấy 100 yêu cầu bảo hiểm, 99 yêu cầu số khơng gian lận gian lận Vì vậy, mơ hình phân loại nhị phân khơng cần phải mơ hình phức tạp để dự đốn tất kết nghĩa không gian lận đạt độ xác cao 99% Rõ ràng, trường hợp phân phối lớp bị lệch vậy, số liệu độ xác bị sai lệch không ưu tiên b Sự khác biệt SMOTE với kỹ thuật lấy mẫu thông thường Trong kỹ thuật lấy mẫu mức cổ điển, liệu thiểu số chép từ quần thể liệu thiểu số Mặc dù làm tăng số lượng liệu, khơng cung cấp thông tin biến thể cho mơ hình học máy SMOTE hoạt động cách sử dụng thuật tốn k-hàng xóm gần để tạo liệu tổng hợp Đầu tiên, SMOTE bắt đầu cách chọn liệu ngẫu nhiên từ lớp thiểu số, sau k-hàng xóm gần từ liệu đặt Dữ liệu tổng hợp sau tạo liệu ngẫu nhiên hàng xóm k gần chọn ngẫu nhiên Hình 3.4: Mơ hình lấy mẫu SMOTE c Cách thức hoạt động Lúc đầu, tổng số khơng có quan sát lấy mẫu mức, N thiết lập Nói chung, chọn cho phân phối lớp nhị phân 1: Nhưng điều điều chỉnh dựa nhu cầu Sau đó, q trình lặp bắt đầu cách chọn ngẫu nhiên cá thể lớp tích cực Tiếp theo, KNN’s (theo mặc định 5) cho trường hợp lấy Cuối cùng, N số K cá thể chọn để nội suy cá thể tổng hợp Để làm điều đó, sử dụng số liệu khoảng cách nào, khác biệt khoảng cách vectơ đối tượng vùng lân cận tính tốn Bây giờ, khác biệt nhân với giá trị ngẫu nhiên (0,1] thêm vào vectơ đặc trưng trước Điều biểu diễn hình ảnh bên dưới: 15 Hình 3.5: Mơ hình hoạt động SMOTE Mặc dù thuật tốn hữu ích, có số nhược điểm kèm với : - Các thể tổng hợp tạo theo hướng, tức nối với đường nhân tạo thể đường chéo Điều đến lượt làm phức tạp bề mặt định tạo số thuật toán phân loại - SMOTE có xu hướng tạo số khơng lớn điểm liệu nhiễu không gian đối tượng 3.1.3 Áp dụng SMOTE vào xử lý liệu Upsampling SMOTE: from imblearn.over_sampling import SMOTE sm = SMOTE() X_train_os, y_train_os = sm.fit_resample(X_train, y_train) X_train_os.shape, y_train_os.shape - Kiểm tra cân liệu : y_train_os.value_counts() - Kết quả: * Nhận xét: Dữ liệu “Respone” cân số lượng khách hàng phản hồi việc mua bảo hiểm khách hàng không phản hồi việc mua bảo hiểm 16 3.2 Thuật tốn Logistic Regression Kỹ thuật mơ hình hóa thống kê logistic regression sử dụng có biến kết nhị phân Ví dụ: dựa thông số cho trước, học sinh đậu hay trượt? Trời có mưa hay khơng Hình 1: Ví dụ LR Vì vậy, có biến độc lập liên tục rời rạc, sử dụng kỹ thuật mơ hình hóa logistic regression để dự đoán kết biến phụ thuộc nhị phân Thuật tốn Logistic Regression sử dụng hàm logistic để tính toán xác suất biến phụ thuộc nhị phân Hàm logistic có dạng S-shaped curve có giá trị nằm khoảng từ đến 1, phù hợp với việc dự đốn xác suất Thuật tốn sử dụng thơng số mơ hình để ước lượng hệ số biến độc lập, từ tính tốn giá trị xác suất biến phụ thuộc Thuật toán Logistic Regression có nhiều ứng dụng thực tế, chẳng hạn lĩnh vực kinh doanh để dự đoán khả thành công chiến dịch quảng cáo, y học để dự đoán khả bệnh nhân mắc bệnh ung thư , dự đoán khả mua sản phẩm khách hàng,… Công thức cho logistic regression: 𝑆𝑖𝑔(𝑥) = + e−x Trong đó: e số mũ số hệ thống logarit tự nhiên X giá trị số học cần chuyển đổi 17 Hình 2: Đồ thị hàm Sigmoid Nếu đưa giá trị đầu cho hàm sigmoid, trả xác suất kết nằm khoảng từ đến Nếu giá trị nhỏ 0.5, đầu trả No/Fail/Deceased (trong ví dụ trên) Nếu giá trị lớn 0.5, đầu trả Yes/Pass/Deceased Các tham số đánh giá mô hình - Độ xác (accuracy) Khi xây dựng mơ hình phân loại muốn biết cách khái quát tỷ lệ trường hợp dự báo tổng số trường hợp Tỷ lệ gọi độ xác Độ xác giúp ta đánh giá hiệu dự báo mơ hình liệu Độ xác cao mơ hình chuẩn xác - Recall Recall đo lường tỷ lệ dự báo xác trường hợp positive tồn mẫu thuộc nhóm positive Để tính recall phải biết trước nhãn liệu Do recall dùng để đánh gía tập train validation biết trước nhãn - AUC ROC đường cong biểu diễn khả phân loại mơ hình phân loại ngưỡng threshold Đường cong dựa hai số : + TPR (true positive rate): Hay gọi recall sensitivity Là tỷ lệ trường hợp phân loại positive tổng số trường hợp thực tế positive Chỉ số đánh giá mức độ dự báo xác mơ hình positive Khi giá trị cao, mơ hình dự báo tốt nhóm positive Nếu TPR = 0.9 tin 90% mẫu thuộc nhóm positive mơ hình phân loại + FPR (false positive rate): Tỷ lệ dự báo sai trường hợp thực tế negative thành thành positive tổng số trường hợp thực tế negative Nếu giá trị FPR=0.1, mơ hình dự báo sai 10% tổng số trường hợp negative Một mô hình có 18 FPR thấp mơ hình chuẩn xác sai số nhóm negative thấp Phần bù FPR specificity đo lường tỷ lệ dự báo trường hợp negative tổng số trường hợp thực tế negative Đồ thị ROC đường cong cầu lồi dựa TPR FPR có hình dạng bên dưới: Hình 3: Đồ thị ROC AUC số tính tốn dựa đường cong ROC (receiving operating curve) nhằm đánh giá khả phân loại mơ hình tốt Phần diện tích nằm đường cong ROC trục hoành AUC (area under curve) có giá trị nằm khoảng [0, 1] Khi diện tích lớn đường cong ROC có xu hướng tiệm cận đường thẳng khả phân loại mơ hình tốt Khi đường cong ROC nằm sát với đường chéo qua hai điểm (0, 0) (1, 1), mơ hình tương đương với phân loại ngẫu nhiên Đây trường hợp tệ Mơ hình hồn tồn khơng có khả phân loại lớp Trước tối ưu Hình 4: Kết toán trước tối ưu Ta có bảng sau: 19 Model dự đốn Khách hàng có nhu cầu mua bảo hiểm Thực tế Khách hàng có nhu cầu mua bảo hiểm Khách hàng khơng có nhu cầu mua bảo hiểm Khách hàng khơng có nhu cầu mua bảo hiểm TP = 66699 FN = FP = 9522 TN = Sau tối ưu: Hình 5: Kết toán sau tối ưu  AUC: Giá trị AUC mơ hình 0,78414 tốt cải thiện Giá trị AUC tạo cách gọi hàm roc_auc_score() từ thư viện sklearn.metrics Sau trực quan hóa đường cong ROC từ mơ hình thuật tốn hồi quy logistic 20 Hình 6: ROC sau tối ưu 21 CHƯƠNG 3: KẾT LUẬN Đầu tiên, phân tích liệu cơng cụ quan trọng để hiểu dự đốn hành vi khách hàng Bằng cách sử dụng kỹ thuật phân tích liệu, tìm mối quan hệ, xu hướng mẫu đằng sau liệu khách hàng Từ đó, xác định yếu tố quan trọng để dự đoán hành vi mua bảo hiểm khách hàng Thứ hai, dự đoán cross sell phương pháp hiệu để tăng doanh số bảo hiểm Bằng cách sử dụng kỹ thuật dự đoán, xác định khách hàng có khả mua bảo hiểm đưa đề xuất bán hàng phù hợp Điều giúp tăng doanh số cải thiện lợi nhuận Cuối cùng, để thành công việc phân tích liệu dự đốn cross sell, cần sử dụng công cụ kỹ thuật phù hợp, đồng thời phải có kế hoạch thực đánh giá kết Chúng ta cần lưu ý liệu tài nguyên quý giá, cần bảo vệ quản lý liệu cách cẩn thận để đảm bảo tính xác bảo mật Tóm lại, phân tích liệu dự đốn cross sell công cụ quan trọng để cải thiện doanh số bảo hiểm nâng cao hiệu kinh doanh Tuy nhiên, để thành công, cần áp dụng kỹ thuật công cụ phù hợp đánh giá kết cách xác đầy đủ 22 TÀI LIỆU THAM KHẢO [1] Mì AI, “Xây dựng model dự đoán bán chéo sản phẩm (Cross sell prediction”, yt [2] “Oánh giá” model AI theo cách Mì ăn liền – Chương Precision, Recall F-Score [3] Sơn Nguyễn, “Logistic Regression thuật toán hồi quy Logistic” [4] “What is logistic regression?”, IBM [5] Tiep Vu, “Mã hóa one-hot”, machinelearningcoban.com [6] Anmol Kumar, “Health Insurance Cross Sell Prediction”, kaggle.com [7] Tuan Nguyen, “Random Forest algorithm”, machinelearningcoban.com [8] Lekhana_Ganji, “One Hot Encoding in Machine Learning”, geeksforgeeks.org [9] Yugesh Verma, “Why Data Scaling is important in Machine Learning & How to effectively it”, AIM [10] Aniruddha Bhandari, Feature Engineering: Scaling, Normalization, and Standardization (Updated 2023), Analytics Vidhya [11] Dr Dave Guggenheim, “Logistic Regression and the Feature Scaling Ensemble”, Towards Data Science [12] Hugo Bowne-Anderson, “Preprocessing in Data Science (Part 2): Centering, Scaling and Logistic Regression”, DataCamp 23