phân tích dữ liệu hành vi người lao động cho bài toán ra quyết định về nhân sự tại công ty vissan

93 0 0
Tài liệu đã được kiểm tra trùng lặp
phân tích dữ liệu hành vi người lao động cho bài toán ra quyết định về nhân sự tại công ty vissan

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 1

BỘ CÔNG THƯƠNG

HUỲNH MINH HOÀNG

PHÂN TÍCH DỮ LIỆU HÀNH VI NGƯỜI LAO ĐỘNG CHO BÀI TOÁN RA QUYẾT ĐỊNH VÈ

NHÂN Sự TẠI CÔNG TY VISSAN

Ngành:KHOAHỌC MÁYTÍNH

LUẬN VĂN THẠCsĩ

THÀNH PHỐ HỔ CHÍ MINH NĂM2023

Trang 2

Công trình được hoàn thành tạiTrường Đại học Công nghiệp TP Hồ Chí Minh.Người hướng dẫn khoa học: Tiến sĩ Đặng Quang Vinh

Luận văn thạc sĩ được bảo vệ tại Hội đồngchấm bảo vệ Luận vănthạc sĩ Trường Đại học Công nghiệp thành phố Hồ Chí Minh ngày 30 tháng 12 năm 2023

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

1 Tiến sĩ Lê NhậtDuy - Chủ tịch Hội đồng2 Tiến sĩ Đặng Thị Phúc - Phản biện 1

3 Tiến sĩ Phạm Xuân Kiên - Phản biện 2

4 Tiên sĩ Nguyên Tiên Thịnh - Ưy viên5 Tiến sĩ Tôn Long Phước - Thư ký

Trang 3

BỘ CÔNG THƯƠNG CỘNG HÒAXÃHỘI CHỦ NGHĨA VIỆTNAM

Mã ngành: 8480101

Phân tích dữ liệu hành vi người lao độngcho bài toán ra quyết định về nhân sự tại Công ty Vissan.

- Nghiên cứu, phân tích và xử lí dữ liệu của PTCNSCông tyVissan cung cấp.- Ảp dụng mô hìnhKaplan Meier, CoxPH, Hồi quy Logistic, Random Forest, KNN và SVM dự đoán được các yếu tố ảnh hưởng đến quyết định nghỉ việc của người laođộng tạiCông ty Vissan.

IV NGƯỜI HƯỚNG DẪNKHOA HỌC: Tiến sĩ Đặng Quang Vinh

Tp Ho Chí Minh, ngày tháng năm20

(Họ tên và chữký)

Trang 4

LỜI CẢMƠN

Đe hoàn thành được luận văn này, ngoài sự nỗ lực của cánhân, em xin chân thành cảm on quý Thầy cô trong Khoa Công nghệ thông tin, trường Đại học Công nghiệpTP.HCMđãtận tình giảng dạy, trang bị cho em những kiến thức quý báu trong nhữngchưong trình đàotạo Cao học.

Đặcbiệt, em xin bàytỏ lòng biết on chân thành đến Thầy Tiến sĩ Đặng Quang Vinh-người trựctiếphướng dẫn em.Nhờsự định hướng đúngđắng ngay từ đầu của Thầynên em mới có thể hoàn thành luận văn cao học của mình.

Ngoài ra, em xin chân thành cảm ơn TS Lê Nhật Duy - Trưởng khoa Công nghệ thông tin đãhướng dẫn và giúp đỡem trongquá trình học tậpcũng nhưcác quy trình,biểu mẫu để hoàn thành luận văn này, từ khi bắt đầu đăng ký đề cương đến khi bảo vệ luận văn.

Em cũng xin cám ơn đến Công ty Vissan đã tạo điều kiện tốt nhấttrong việc sử dụngdữ liệu Công ty cho mục đích nghiên cứu luận văn này, đồngthời vừa giúp em vừahoàn thành công việc cơ quan, vừa cóthể học tập, nghiên cứu vàhoàn thành chươngtrình caohọc.

Và cuối cùng, emxin chânthành cảm những người thân, bạn bè đã luôn bên em, độngviên em hoàn thànhkhoá học và bài luận văn này.

Một lần nữa, xin trân trọng cảm ơn!

Trang 5

TÓM TẤTLUẬN VĂN THẠC sĩ

Phân tích dữ liệu về cán bộ, công nhân viên là một trong những phương pháp có thể giúp cho doanh nghiệp có nhiều cách nhìn nhận về khả năng sử dụng lao động củamình, qua đó có những hành động để thúc đẩy sử dụng lao động một cách tốt nhất.Trongđó, phân tích dữ liệu về những lao độngđã nghỉ việc là mộtphần rất quan trọngvì đó là những đối tượng phản ánh được hiện tượngthực tế về nhiều mặttrong Công ty Đồngthời hỗ trợ cho người phụ trách của Phòng TCNS có cái nhìn tổng quát đểđưa ra các giải pháp để hạn chế được các nguyên nhân dẫ đến người lao động nghỉviệc.

Tác giả từng bước đánh giá và phằn tích dữ liệu từdữ liệu được Phòng TCNS cungcấp từ năm 2014 đến năm 2020, áp dụng các mô hình Hồi quy Logistic, RandomForest, KNN, SVM, Kaplan Meier, CoxPH Từ những kết quả đó để đưa ra đượcnhận xét về tình hình nhân sự nghỉ việc ở Công ty và đưa ra đượccác góc nhìn khácnhau về tình hình nhân sự nghỉ việc thực tế củaCông ty.

Trang 6

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của bản thân tôi Nhữngkếtquả nghiên cứu, phân tích và các kết luận trong luận văn này hoàn toàn làtrung thực và khôngsao chép từ bất kỳ mộtnguồn nào haydưới bất kỳ hình thứcnào Việc thamkhảo cácnguồn tài liệu (nếu có) đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảođúng quy định.

Họcviên

Trang 7

2 Mục tiêu nghiên cứu 2

3 Đốitượng và phạm vi nghiên cứu 2

4 Cách tiếp cận và phương pháp nghiên cứu 3

5 Y nghĩa thực tiễn của đề tài 3

CHƯƠNG 1 GIỚI THIỆUVẾ ĐỀ TÀI 4

1.1 Tổng quan về quản trị nhân sự 4

1.2 Tổng quan các bài toán về nhân sự 2

1.2.1 Bài toán xây dựng KPI 2

1.2.2 Bài toán xây dựng cơ chế tiền lương cho từng vị tríphù hợp 3

1.2.3 Bài toán về các báo cáo thông minh 4

1.2.4 Bài toán về phân tích hành vi người lao động để raquyết định 5

1.3 Lí do chọn bài toán phân tích hành vi người động cho bài toán ra quyếtđịnh tại Công tyVissan 6

1.4 Khó khăn và thách thức khi tiếp cận 7

1.5 Đe xuấthướng giải quyết 8

CHƯƠNG 2 Cơ SỞ LÝ THUYẾT 9

2.1 Một số khái niệm cơ bản 9

2.1.1 Nhân lực 9

2.1.2 Nguồn nhân lực 9

Trang 8

2.2 Quản lý nguồn nhân lực 10

2.2.1 Khái niệm quản lý nguồn nhân lực 10

2.2.2 Cáccông việc củaquản lý nguồn nhân lực tại Công ty Vissan 10

2.2.3 Tầm quan trọngcủa bộ phận quản trị nguồn nhân lực trongdoanh nghiệp 12

2.3 Phân tích dữ liệu (DataAnalytics) 13

2.3.1 Khái niệm về Phân tích dữ liệu 13

2.3.2 Cácloại phân tích dữ liệu 13

2.4 Phân tích sống còn (Survival Analysis) 14

2.4.1 Định nghĩa Sự kiện (Event) 14

2.6 Hồi quy Logistic (Logistic Regression) 21

2.6.1 Định nghĩavà ứngdụng của Hồi quy Logistic 21

2.6.2 Phưong trình tổngquát Hồi quy Logistic 22

2.6.3 Hàm Logit, hàm Sigmoid (Logitfunction & Sigmoid function) 24

2.7 Mô hình Rừng ngẫu nhiên (Random Forest): 26

2.7.1 Định nghĩaRừng ngẫunhiên 26

2.7.2 Ảp dụng môhình Rừngngẫu nhiên trong bài toán dự đoán 26

2.8 Mô hình Láng giềng gần nhấtKNN (K-NearestNeighbors) 27

2.8.1 Định nghĩa KNN 27

2.8.2 Ảp dụng môhình KNN trong bài toán dự đoán 27

2.9 Mô hình Máy hỗ trợ vector SVM (SupportVector Machine) 28

2.9.1 Định nghĩa SVM 28

2.9.2 Áp dụng môhình SVMtrong bài toán dự đoán 29

CHƯƠNG 3 ÁP dụng kết quảnghiên cứu 31

Trang 9

3.1 Đánh giá bộ tập dữ liệu 31

3.2 Cài đặt vàthử nghiệm mô hình 32

3.3 Đánh giákết quả 32

3.3.1 Xử lý data 32

3.3.2 Phân tích và trực quan hóadữ liệu 34

3.3.3 Dùngcác Mô hình để phân tích và dự báo các yếu tố ảnh hưởng đến tỉlệ nghỉ việc tại công ty 46

KẾTLUẬN VÀ KIẾN NGHỊ 75

DANH MỤC CÔNGTRÌNH ĐẪ CÔNG BỐ CỦA HỌCVIÊN 76

TÀI LIỆU THAM KHẢO 77

PHỤ LỤC 79

LÝLỊCH TRÍCHNGANG CỦA HỌC VIÊN 85

Trang 10

DANH MỤCHỈNH ẢNH

Hình 2.1 Đồ thị giới hạn được xác suất p từ 0 đến 1 23

Hình 2.2Đồ thị hàm Sigmoid 25

Hình 3.1 So sánhtình trạng làm việc/nghỉ việc theo cột trạng thái EMPL_STA 34

Hình 3.2 Đồ thị số lượngnhân viên nghỉ theo năm (2006-2020) 35

Hình 3.3 Đồ thị số lượngnhân viên nghỉ việc theo tháng(2014-2020) 36

Hình 3.4 Biểu đồ thể hiện Tổng số lượng nhân viên và số lượng nhân viên nghỉviệc phằn bố theotrình độ chuyên môn 38

Hình 3.5 Biểu đồ tròn thể hiện phân bố tỷ lệ nghỉ việc giữa các khu vực 42

Hình 3.6 Biểu đồ phân bổ lao động theo khu vực 43

Hình 3.7 Biểu đồ cột thể hiện Tỷ lệ nghỉ việc (%) của tất cả đon vị thuộc Công ty 44Hình 3.8 Biểu đồ phân bổ số lượng người lao động đã và đang làm việc tại các đonvị trongCông ty 45

Hình 3.9 Heatmap Matrix 49

Hình 3.10 Confusion Matrix 51

Hình 3.11 Confusion Matrix khi sử dụng Mô hình Random Forest 54

Hình 3.12 Confusion Matrix khi sử dụng Mô hình KNN 55

Hình 3.13 Confusion Matrix khi sử dụng Mô hình SVM 57

Hình 3.14 Đồ thị Kaplan-Meier 61

Hình 3.15 Đồ thị Baseline Hazard và đồ thị Hàm rủi ro 70

Trang 11

DANHMỤC BẢNG BIỂU

Bảng 1.1 Số lượngnhân sự qua các năm từ 2018 đến 2021 1

Bảng 2.1 Life Tabletheoước tính Kaplan Meier 19

Bảng 3.1 Bảng mô tảtổng quan vềtập dữ liệu 31

Bảng3.2 Ví dụ số hóa ở các cộtdữ liệu trong tập dữ liệucủa Côngty 32

Bảng 3.3 5 dòng đầu tiên của DataFrame sau khi chuyển đổi 33

Bảng 3.4 Bảng kiểu dữ liệu của các cột trong DataFrame 33

Bảng 3.5 5 dòng đầu tiên của DataFrame sau khi lọc những người đã nghỉ việc 34

Bảng3.6 Top 5 nhóm trình độ có tỷ lệ nghỉ việc cao nhất 37

Bảng3.7 Danh mục Khu vựccủa 63 tỉnh thành cả nước 39

Bảng 3.8 Top 5 khu vực có tỷ lệ nghỉ cao nhất 40

Bảng3.9 Top 5 khu vực có tỷ lệ nghỉ thấpnhất 40

Bảng3.10 Top 5 tỉnhthànhthuộc khu vực Đồng bằng sôngCửu Long có sốlượng người nghỉ cao nhất 41

Bảng 3.11 Top 10 đon vị có tỷ lệ nghỉ cao nhất 44

Bảng3.12 Top 10 chức danh có tỷ lệ nghỉ việc cao nhất 46

Bảng3.13 Bảng mô tả dữ liệu và Phần trăm phân vị 47

Bảng3.14 Bảng thông số vềtập Huấn luyện và tập Kiểm tra 49

Bảng3.15 Cácdòng đầu tiêncủa Tập X 50

Bảng3.16 Kiểu dữ liệu của từng cột của tập X 51

Bảng3.17 Bảng so sánh thông số giữa4 Mô hình 58

Bảng3.18 3 dòng đầu tiên của DataFrame “survival” 59

Bảng3.19 Kiểu dữ liệu các cộttrong DataFrame “survival” 60

Bảng3.20 Hàm survival tại mỗi điểm quan sát 62

Bảng 3.21 Khoảng tin cậy cho hàm survival tại mỗi điểm quan sát 62

Bảng3.22 Bảng tóm tắt so bộ về mô hình CoxPH 63

Bảng3.23 Bảng tóm tắt các thông số tínhtoán của mô hình CoxPH 65

Bảng3.24 Bảng tóm tắt các thông số còn lại của CoxPH 66

Bảng3.25 Bảng trọng so (weight)của các cột 68

Bảng3.26 Bảng đánh giáKích thước dữ liệu của06 mô hình 72

Bảng3.27 Bảng đánh giá Thời gian huấn luyện của 06 mô hình 73

Trang 12

DANH MỤCTừ VIẾT TẤT

BI Business Intelligence

CSV Comma-Separated Values

HR Hazards Ratio

KNN k-Nearest Neighbors

KPI Key Performance Indicator

MLE Maximum Likelihood Estimation

SVM Support VectorMachine

TCKT Tài chính ke toán

TCNS Tổ chức nhân sự

TDVH Trình độ văn hóa

Trang 13

Nhân lực là tài nguyên quan trọng đối với sự phát triển của mọi doanh nghiệp, tổchức, và đặc biệt ở các công ty chuyên vềgia công và sản xuất như Côngty Vissanluôn đòi hỏi nguồn lao động dồi dào và được đào tạo bài bản Nhân viên nghỉviệc/chuyển việc là vấn đề nghiêm trọng, ảnh hưởng tói dây chuyền sản xuất kinhdoanh của công ty.

Chi phí sinh hoạt leo thang khiến tiền lưong tạicác doanh nghiệp không còn đáp ứngđủ mong muốn củangười lao động dẫn tới giảm số lượng người lao động ở doanh nghiệp Cụ thể:

Bảng 1.1 Số lượng nhân sự qua các năm từ 2018 đến 2021[theo “Báo cáothường niên năm 2021” của Công tyVissan]

Từ đó, Công ty rất cần một công cụ có thể đưa ra đánhgiá về mức độ nghỉ việc củanhân sự Công ty để bộ phận nhân sự có thể tìm trước các nguồn bổ sung nhân lực,đặc biệt là nguồn nhân lực phổ thôngvà các công việc liên quan tói bán hàng để đảm bảo dây chuyền sản xuất kinhdoanh củaCông ty không xảy ra gián đoạn.

Đe tàicần giải quyết các vấn đề sau:

Trang 14

- Sử dụng các phương pháp kỹ thuật machine learning thực hiện thống kê và phân tíchdữ liệu nhân sựdo Phòng TCNS cung cấp

2.Mục tiêu nghiên cứu

Mụctiêu nghiên cứu tổng quát: tìm hiểu các phương pháp phân tích dữ liệu để đưa ra được quyếtđịnh tối ưu, từ đó đưa rabáo cáo giúp cho Phòng TCNS có được cái nhìn tổng quan về khảnăng nghỉ việc của người lao động.

Mục tiêunghiên cứu cụ thể: tìm hiểu và đánh giá các thuật toán máy học và phân tích dữ liệu hành vi người lao động để cóthể đưarakết quả dự báo tối ưu nhất cho Công ty, cụ thể là đưa ra được dự đoán khả năng nghỉ việc của người lao động qua một hoặc nhiều các tác nhân có trongtập dữ liệu, tổng hợp được các nguyên nhân có ảnhhưởngnhiều đến khảnăng nghỉ việc của người lao động, từ đó đưa ra được báo chi tiết để Phòng TCNS có thể tổng hợp, đề xuất và đưa ra giải pháp cụ thể cho các kếhoạch tuyển dụng nhân sự thay thế, hoặc điều chỉnh lại cách phân công nhân sự sao cho giảm thiểu được tỷ lệ nghỉ việc ở mứcthấp nhất Ngoài ra, báo cáocòn cung cấp cho Phòng TCNS có cái nhìn tổng quan về mức độ hài lòng vàthâm niên cống hiếncủa người lao động tại công ty từ đó đưa ra được các hình thức khen thưởng và ghi nhận để thúc đẩy năng suấtcông việc vàgiảm thiểu được sự bất mãn của người laođộng tạiCông ty.

Đối tượng nghiên cứu: phương pháp machine learning; phương pháp phân tích dữ liệu.

Phạm vi nghiên cứu: tìm hiểu, nghiên cứu và đưa ra được kết quả dự báo tối ưu vềcác hành vicủa người lao đông, dựa trên dữ liệu người lao động được bộ phận nhân sự công ty cung cấp.

Không gian: nghiên cứu và phân tích dữliệu trongtập dữ liệu đượccung cấp.

Trang 15

4 Cách tiếp cận và phươngpháp nghiên cứu

Thời gian nghiên cứu: thời gian nghiên cứu trong khoản 6 tháng từ 12/2020 đến 05/2021.

Địa điểm nghiên cứu: nghiên cứu được thực hiện tại Phòng TCNS.

Vật liệu nghiên cứu: máy tính, các nguồn thông tin thu thập từ mạngInternet, tài liệu tham khảo

Phương pháp nghiên cứu:

• Phương pháp nghiên tài liệu: Thu thập, phân tích, xử lý thông tin từ tập dữ liệu được bộ phận nhân sự cung cấp

• Phương pháp nghiên cứu dựa trên thực nghiệm: Thông qua việc hiện thực giảiphápvà vận hành thử nghiệm trên các tập dữ liệu đầu vào có độ tin cậy cao.

Sử dụng các phương pháp kỹ thuậtmachine learning thực hiện thống kê và phân tíchdữ liệu do Phòng TCNS cung cấp để giúp Công ty dự đoán đượcnhững nhân sự cókhảnăng nghỉ việc để mau chóng đưa ra giải pháp tuyển dụng thay thế để mọi hoạt độngcủa công ty được ổn định.

Trang 16

CHƯƠNG 1 GIỚITHIỆU VỀ ĐỀ TÀI

Địnhnghĩa: Quản lý nhân sự là sự khai thác và sử dụng nguồn nhân lực của một tổ chức hoặc một công ty một cách hợp lý và hiệu quả.

Quản lý nhân sự mang một ý rất lớn cho sự thành công của một tổ chức hoặc một công ty vì nguồn lực conngười đóng vai trò quan trọng tronghoạt động của các doanhnghiệp hay tổ chức Việcquản lý nguồn lực đòi hỏi sự hiểu biết về con người ở nhiều khíacạnh, vàquan niệm rằng con người làyếu tố trung tâm của sự phát triển Các kỹthuật quản lý nhân lực thườngcó mục đích tạo điều kiện để con người phát huy hết khảnăng tiềm ẩn, giảmlãng phí nguồn lực, tăng hiệu quả của tổ chức Tổngquan cácnghiệp vụ nhân sự tại Công tyVissan.

Một số quy trình nghiệp vụ đượcPhòngTCNS cung cấp đểgiải quyếtđề tàiluận văn:• Quy trình tuyển dụng:

- Chuẩn bị tuyển dụng- Thông báo tuyển dụng- Thu nhận và chọn lọc hồ sơ- Phỏng vấn

- Tiếp nhận tập sự - thử việc- Quyết định tuyển dụng- Lưu trữ hồ sơ

• Quy trình giải quyết nghỉ việc:

- Xác định từng trường hợp nghỉ việc- Thời gian nộp đơn nghỉ việc

Trang 17

- Tiếp nhận và xử lý đơn nghỉ việc- Xử lí hồ sơ nghỉ việc

- Thanh lý hợp đồng và quyết định cho nghỉ việc- Lưu giữ hồ sơ người nghỉ việc

• Quy trình chấm công - tính lương:- Chấm công

- Đối chiếu và điều chỉnhcông- Lập bảng chấm công hoàn chỉnh- Tính lương

- Kiểm trabảng lương và thanh toán- Lưu hồ sơ

1.2 Tổng quancác bài toánvề nhânsự

Có rấtnhiều bài toán về nhân sự được đưa ra, cụ thể:

Công ty vẫn đangdùng đánh giá hiệu quả công việc dựa trên thang điểm ABC, thangđo này chỉ thể hiện được sự tổng quát về chất lượng nhân viên, không thể đánh giáchi tiết vàđầy đủ nhất chất lượng của công việccủa nhân viên.

Từ đóyêu cầu đưara được giải pháp đểcóthể giúpCông ty đánh giáchấtlượngcôngviệc chi tiết hơn là xây dựng KPI Thông thường mỗi chức danh sẽ có bảng mô tảcông việc riêng Thông thường hệ thống KPI cóthể thuộc ba loại nhưsau:

• Hệ thống KPI tậptrung vào đầu ra (output)

Cho phépthực hiện công tác đánh giánhanh và hiệu quả Tuy nhiên hệthốngnày có

Trang 18

không khuyến khích phát triển, tạo điều kiện cho nhân viên tập trung vào các giảipháp ngắn hạn tình thế.

• Hệ thống KPI hành vi (behavior)

Thích hợpvới các vị trí mà đầu rarất khó lượnghóa Ví dụ tại vị trí chuyên viên dịch vụ khách hàng, các hành vi như tích cực làm việc, chăm chỉ, cẩn thận là những yếu tố tiên quyết đảmbảo đầu ra tại vị trí làm việc.

• Hệ thống KPI năng lực (competencies)

Chú trọng vào khả năng của người nhân viên Hệ thống KPI năng lực tập trung vàonguyên nhân thay vì kếtquả như trong hệthống KPI tập trung vào đầu ra.

Bài toán áp dụng hệthống KPI là điều chỉnh ỷ lệ các nhóm KPI cho từngvị trí côngviệc, chức danh, theo từng hoàn cảnh môi trường sẽ quyết định được tính hiệu quả của công tácnhân sự.

1.2.2Bài toán xây dựng cơ che tiền lương cho từng vị trí phù họp

Cơ chế trả lương luôn là mối quan tâm hàng đầu của người lao động trong doanh nghiệp bêncạnh các yếu tố quan trọngkhác như ngành nghề, uy tín của doanh nghiệp, môi trường làm việc này cơ hội thăng tiến Một cơ chế trả lương phù hợp có tác dụng nâng cao năng suấtvà chất lượng lao động, giúp doanh nghiệp thu hút và duytrì được nhữngcán bộ, nhằn viên giỏi.

Mặt bằng lương chung củaxã hội của ngành và khu vực Doanh nghiệp không chỉ chịu sức ép cạnh tranh về đầu ra của sản phẩm, dịch vụ mà còn chịu sự cạnh tranh gay gắt của các yếu tố đầu vào mà nhân lực luôn luôn làyếu tố quan trọng nhất, cầnphải xác định được mặtbằng mứclương bình quân của các vịtrí lao động trong cùngngành và trong cùng khu vực địa lý Điều này giúp đưa ra được các mức tiền lươngcạnh tranh, cókhảnăng thu hút và lưu giữ nhân viên.

Hiện nay, Công ty đã xâydựng được thang bảng lương cơbản đảm bảo lớn hơn mức lương tối thiểu vùng, tuy nhiên vẫn chưa đáp ứng được đúng với nguyện vọng của

Trang 19

các ứng viên trẻ khi tuyển dụng vào Công ty và thangbảng lương cũng chỉ xâydựng trên những yếu tố khách quan và sự tịnh tiến theo khung cố định và thời gian 3 nămtăng lương một lần Không thựcsự thúc đẩy được khảnăng của những lao động, đặcbiệt lànhững là lao độngtrẻ.

Từ đó, Công tyđang triển khai kế hoạch về sử dụng trí tuệ nhân tạo để phân tích dựa trên các dữ liệu có sẵn, hoặc tham khảo từ nhiều công ty để có thể đưa ra đượcmức lương phù hợpcho từngngười, từng vị trí đảm nhận, đảm bảo được cuộc sống hằngngày của người lao động và thúc đẩy được khảnăng của người lao động, giúp côngty pháttriển hơn.

7.2.3 Bài toán vềcácbáo cáo thông minh

Thống kê số liệu, hoạch định kế hoạch tuyển dụng, định biên lao động, báo cáo số liệu về lao động liên tục và nhiều thời điểm khác nhau đòi hỏi người chuyên viên củaPhòngTCNS phải có nhữngkiến thức cụthể về lĩnh vực thống kêsố liệu.

Giải pháp BI phân mảng về nhân sự góp phần rấtnhiều trong việc đưa ranhiều báo cáosố liệu với nhiều hình thức khác nhau, giúp người xem có cái nhìn trực quang và đầy đủthông tin nhất để phục vụ trong công việc.

Giải pháp BI có thể ápdụng rất nhiều lĩnh vực trong Công ty như hoạt động sản xuất kinh doanh vì có những dữ liệu về nhà cung cấp và khách hàng là rấtnhiều nên đòihỏi việc quản lý rất nhiều; mặt khác về sản xuất có rất nhiều các dữ liệu về nhiều dòng sản phẩm có quy trình sản xuất phức tạp Khi cần truy xuất mất rấtnhiều thờigian từ đó BI là công cụ không thể thiếu trongmọi lĩnh vực hoạt động củaCôngty BIgiúp phântích để hiểu dữ liệu đượcthu thập đượcqua các quá trình hoạt độngsản xuất, kiểm soátđượckhối dữ liệu khổnglồ.

Đồngthời đó là cơ sở báo cáo định kỳ hằng ngày, hằng tháng, hằng quý, hay hằngnăm cho các cơ sở ban ngành khi hiện nay rấtnhiều biểu mẫu được đưa ra phục vụcho số liệu của Nhànước.

Lợi ích mà các báo cáoBI manglại gồm:

Trang 20

• Hỗ trợ công ty nhận biết các điểm khác biệt trước các đối thủ cạnhtranh: xác định xu hướng thị trường; phát hiện sớm các mối đe dọa từ đối thủ cạnh tranh; thựchiệncác nhiệm vụ hành động được xâydựng từ các dữ liệu kinh doanh.

• Tối ưu hóagiátrị của khách hàng và tối đahóalợi nhuận chocác xưởng sản xuất:dự đoán các chi phí sản xuất để doanh nghiệp có thể đề xuất mức giá tốt trên thị trường sovới các đối thủ khác; tìm kiếm cơ hội chéo, liên kết, tăng và đổi mới cácsản phẩm; duy trì mối quan hệ tốt với khách hàng bằng cách tương tác với họ và đúng thời điểm cần thiết Phân tích xu hướng bán hàng trong tương lai.

• Giảm rủi ro từ các yêu cầu đặt hàng của khách hàng: phân tích các lời phê bìnhcủa sản phẩm từ đó dự đoán sản phẩm bị lỗi như thế nào; phát hiện sớm được cáckhâu sản xuất bị trục trặc gây ảnh hưởng đến chấtlượng sản phẩm.

1.2.4 Bài toán ve phân tíchhành vỉ người laođộngđể ra quyết định

Đây là một trongnhững bài toán mang tính gấp rút tại công ty, bài toán thu thập cácthông tin có sẵn do Phòng TCNS cung cấp, sau đó lựa chọn và cài đặt độ ưu tiên củatừng mục tiêu chí dữ liệu Sau đó đưa ra được các dự đoán về nhân sự có thể và sẽ nghỉ việc trong tương lai đểgiúp cho Phòng TNCS cóthể tiến hành kiếm nguồn nhân lựcbổ sung khi cần thiết, đặc biệt là trong những dịp tết nguyên đán, khi mà tấtcảcông ty thực phẳm cần số lượng lớn lao động phổ thông để tăng gia sản xuất thì dự đoán được nhân sựnghỉ việc để bổ sung là mộttrong những vấn đề gấp rúttại côngty Hoặc áp dụng cho ra quyết định về khảnăng của từngnhân viên để có kế hoạchbồi dưỡng hoặc nâng cao để trở thành chuyên viên tay nghề cao góp phần xây dựngchoCông ty và gồm nhiều những quyết định khác.

Đồng thời bài toán dựa trên rất nhiều tiêu chí để đánh giá một hành vi cụ thể củangười lao động để dự đoán được các quyết định có thể được đưa ra như tuyển dụng khi người lao độngcó các hành vi dự đoán sẽ nghỉ việc, dự đoán về mức gắn bó củangười lao động với công ty, hoặc dự đoán năng lực của người laođộng để có các biệnpháp khen thưởng hoặc kỷ luật, góp phần thúc đẩy khảnăng của người lao động và Phòng TCNS sẽ đễ dàng cónhữngkếhoạch kịp thời khi xảy ra sự biến động lao động.

Trang 21

Bài toán áp dụng các mô hình như: mô hìnhcủa phươngphápước tính Kaplan-Meierđể phân tíchcác sự kiện (event history analysis); mô hìnhCoxPH cùngvới các thuật toán học có giám sát để phân tích hành vi của người lao động, từ đó đưa ra được dựđoán về sự gắn bó của người lao động với Công ty và giúp cho Phòng TCNS có kếhoạch tuyển dụng khi những điều dự đoán thật sự xảy ra, đảm bảo tiến độ công việc luôn được rành mạch khôngbị ngắt quãng.

địnhtại Công tyVissan

Trong thời điểm hiện tại, cùng với sự phát triển nhanh chóng của khoa học kỹthuật là sự phân cônglao động ngày càng sâu sắc trên phạm vi toàn thếgiới nói chung vàViệt Nam nói riêng Nước ta đang trên con đường pháttriển và hội nhập kinh tế quốc tế, quá trình này đã mang đến cho các doanh nghiệp trong nước rất nhiều cơ hội và cả những thách thức Doanh nghiệp để tồn tại và phát triển trong môi trường canh tranh gay gắt như hiện naycần phát huy tối đa các nguồn lực của mình cả về cơ sởvật chất, tài chính, thị trường và đặc biệt lànguồn lực con người củadoanh nghiệp.Bởi vìcon người mới chính làyếu tố chính trong việc vận hành các trang thiết bị, quy trình, kế hoạch kinh doanh phát triển,

Các doanh nghiệp trong quá trìnhsản xuất kinh doanh thường sẽ gặp những khó khăn Nhưng nếu có sự phân công về nhằn sự hợp lý hay nói cách khác là sử dụng nhân sựhiệu quả chính là mấu chốt giúp giải quyết cáctrở ngại một cách nhanh chóng, vấnđề đặt ra là làm sao để bố trí nhân sự đúng vị trí, trình độ và phù hợp với năng lựccủa họ? Làm thếnào để tìm kiếm và thu hút được người tài để họ gắn bó lằu dài vớidoanh nghiệp? Và làm thếnào để xây dựng được mộthệthống quản trị nhân lực hiệuquả? Đe trảlời được những câu hỏi trên, doanh nghiệp cần có mộthệthốngphân tíchvà đưara các quyết định phù hợp với từng vấn đề được đặt ra.

Công tyVissan đang trong giai đoạn chuyển mình với việc áp dụng nhiều công nghệ vào công cuộc đổi mới về sản xuất cũng như về mặt quản lí Từ đó đưa ra rất nhiều các vấn đề về nhân sự Và bài toán về phân tích hành vi người lao động để ra quyết

Trang 22

người lao động, giúp giải đáp cáccâu hỏi ở trên, góp phần giúp cho Phòng TCNS cócác kế hoạch và quyết định vềnhằn sự mang tính chính xác hon Từ đó áp dụng rộng rãi cho các chi nhánh và co sỏtrên toàn quốc, mang đến sự thống nhất vàluôn đảm bảo tốt về mặt nhânsự Hỗ trợ toàn diện choviệc sản xuất và quản lí đểCông ty luônhoạt động hiệu quả và không bị trục trặc.

1.4Khókhăn và thách thức khi tiếpcận

Do Phòng TCNS chỉ vừa áp dụng quản lí dữ liệu nhân sự đồng bộ với nhau từ năm2014 nên vẫn còn thiếu rất nhiều dữ liệu từ quákhứ, không kịp thời lưu trữ dữ liệu của các năm trước nên khó xâydựng chi tiếtđượccác tiêuchí để có thể đưara quyếtđịnh, chỉ có thể dùng những dữ liệu nhằn sự có sẵn từ năm 2014 cho đến hết năm2020.

Phần mềm quản lý nhân sự đã cũ và chưa đượccập nhật thay thế các tính năng mới,thiết kếcũ và không đáp ứng được các hoạt động hiện tại của Phòng TCNS, khó màđưa ra đượccácmẫu báo cáo dữ liệu cần thiết phục vụ cho việc phân tích dữ liệu đểđánh giá hành vi người lao độngtại Công ty.

File CSV do Phòng TCNS quản lý không đồng bộ về format cũng như là tính nhất quáncủa dữ liệu vì trải qua nhiều người phụ trách với mỗitư duy và định nghĩakhácnhau, tạo sự khó khăn khi đồngbộ lại dữ liệu một cách có hệ thống để đảm bảotínhnhất quán trong dữ liệu sử dụng phục vụ đề tài Bên cạnh đó, dữ liệu còn rất nhiều trường bỏ trống do không cập nhật kịp thời hoặc không có thông tin chính xác đểnhập vào dẫn đến hệthống sẽ gặp khó khăn khi phân tích và ra quyết định.

Các sự thay đổi về quy trình làm việc cũngảnh hưởng tới dữ liệu và quy trình đánhgiánhân sự trong quá khứ cũng như hiện tại, rất khó để có thể đánh giá và so sánh các lao động vói những đánh giá và các định nghĩaphân loại luôn thay đổi theo từngnăm.

Các đơn vị,chi nhánh trực thuộccó những đặc thù và vài điểm không thốngnhấtvớiCông ty, tạonên sự khó khăn khi tiếp cận dữ liệu từ những đơn vị chi nhánh này Do

Trang 23

sự truyền đạt và hướng dẫn chưa kỹ vớinhững nghiệp vụ khi thay đổilà nguyên nhân dẫn đến sự sai lệch thông tin người lao động tại các chi nhánh và đơn vị trực thuộccủa Công ty.

Cáctiêu chí để dự đoán nhân sự nghỉ việc gặp khó khăn vàthách thức vì Công ty chưa có tiêu chuẩn đánhgiá KPI cholao động, dẫn tới việc cần tìm hiểu vàthảoluậnvới phòng nhân sự để đưara tiêu chí hợp lý, KPI là phươngpháp đưararấtnhiều tiêuchí sẽ dễ dàng hơntrong việc đưara quyết định.

1.5Đe xuất hướng giải quyết

Qua quá trìnhphân tíchva tổnghợpnhiềudữ liệu lại với nhau, Phòng TCNS đãthốngnhất và lựa chọn các tiêu chí hợp lý để có cơsở nền tảng cho việc phân tích dữ liệu của nhân sự nghỉ việc.

Trong thời gian thực hiện đề tài, Phòng TCNS vẫn tiếptục cập nhất những thông tin bị khuyết để đảmbảo cơsở dữ liệu đầy đủ nhất khi hệthống vận hành.

Dựavào các thông tin về khen thưởng - kỷ luậtđể đánh giá tạm thời chấtlượngcôngviệc của từng ngườilao động trongCông ty, đồng thời triển khai thang đánhgiá KPIđể sử dụng lâu dài và chính xác với hệ thống.

Dành một khoảnthời gian đểrà soát và đồng bộ lại file CSV dữ liệu vềmộtđịnhdạngthốngnhấtvàcó quy định sử dụng và cập nhật file rõ ràng để những ngườiđi sau tiếp cận vẫn có thểcó sẵn quy trìnhthực hiện để đảm bảo được tính nhất quán của dữ liệu từ hiện tại đến tương lai sau này.

Các sự thay đổi về quy trình làm việc cần phải được xem xét và thông qua, đồng thờicung cấptài liệu và thông báo rộng rãi trên toàn hệ thống của Công ty để tất cả cácđơn vị và chi nhánh dễ dàng tiếp cận và thực hiện theo chỉ đạo.

Xây dựng các chương trình đào tạo và huấn luyện cho người sử dụng dễ dàng tiếp cận với phương pháp phân tích dữ liệu và hệthống ra quyết định.

Trang 24

CHƯƠNG 2 Cơ SỞ LÝ THUYẾT

2.1 Một số khái niệm cơ bản

Nhân lực được hiểu là toàn bộ khả năng thể lực và trí lực củacon người dùngtham gia vào quá trình lao động, làtổng thể các yếu tố về thể chất vàtinh thần được huy động vào quá trình lao động.

Các yếu tố về giới tính, sức khỏe, trình độ chuyên môn, ý thức, tác phong, thái độlàm việc của người lao động thường đượcdùng để đánh giá chấtlượng nhân lực.

2.1.2Nguồn nhân lực

Có thể định nghĩa Nguồn nhân lực [1] là nguồn lực con người, yếu tố quan trọng,năng động nhất của tăng trưởng và pháttriển kinh tế - xã hội Nguồnnhân lực [2] củamột tổchức đượchình thànhtrên cơ sở của các cá nhằn có vai tròkhácnhau vàđượcliên kết với nhau theo những mục tiêu nhất định Hoặc có thể hiểu nguồn nhân lực[3] lànguồn lực con ngườicủa những tổ chức (với quy mô, loại hình,chức năng khácnhau) có khảnăng và tiềm năng tham gia vào quá trình pháttriển của tổ chức cùngvới sự pháttriển kinh tế - xã hội của quốc gia, khu vực, thế giới.

Với các tiếp cận dựa vào khả năng lao động của con người: nguồn nhân lực là khả năng lao động củaxã hội, của toàn bộ những con người có khảnăng lao động bìnhthường Ở Việt Nam,theo tính toán và dựbáonguồn nhân lực của quốc gia được chialàm02 nhóm là: những người trong độ tuổi lao động có khảnăng lao động vànhữngngười ngoài độ tuổi lao động cótham gia lao động.

Vớicách tiếp cận dựa vào hoạtđộng kinh tế của con người: nguồnnhân lực lànhữngngười đang hoạt động trongcác ngành kinh tế, văn hóa, xã hội.

Với cách tiếp cận dựa vào khả năng lao động của con người và giới hạn độ tuổi laođộng: nguồn nhân lực gồm toàn bộ những người trong độ tuổi lao động và có khả năng lao động.

Trang 25

Qua nghiên cứu và xem xét theo chất lượng và số lượng nguồn nhân lực đãthể hiệnquymô và tốc độ tăng theo hàng năm Chất lượngnguồn nhân lực thể hiện mối quanhệ giữa các yếu tốcấu thành nên bản chấtbên trong của nguồn nhân lực, được biểudiễn qua các tiêu thức: sức khỏe, trình độ học van, trình độ chuyên môn, Chất lượng nguồn nhân lực do trình độ pháttriển kinh tế xã hội và chính sách đầu tư phát triển nguồn nhân lựccủa chính phủ quốc gia quyết định.

2.2 Quản lý nguồn nhânlực

2.2.1 Khái niệmquản lý nguồnnhân lực

Quản lý nguồn nhân lực được hiểu lànhững tác động hợp quy luật của chủ thểquảnlý nguồn nhân lực đến các khách thể quản lý nguồn nhân lực nhằm đạt được cácmục tiêu quản lý nguồn nhân lực đã đề ra.

Quản trị nguồn nhân lựccung cấp cách tiếpcận có kế hoạch đối với việc quản lýconngười hiệu quả, tập trung xây dựng phong cách quản lý linh hoạt, quan tâm tới conngười, từ đónhân viên có độnglực làm việc hơn, được pháttriển hợp lí và đónggóp vào việc thực hiện mục tiêu và sứ mệnh của doanh nghiệp tốt hơn Có thể nói quảnlý nguồn nhân lực [5] là nghệthuật và khoahọc của việcthu hút, phát triển, sửdụngvà quản lý nhân sự một cách hiệu quả để đạt được mục tiêu của tổ chức.

Quản trị nguồn nhân lựcmang một ý rất lớn cho sự thành công của một tổchức hoặcmộtcông ty vì nguồn lựccon người đóng vai trò quan trọng trong hoạt độngcủa cácdoanhnghiệp hay tổ chức Việc quản lý nguồn lực đòi hỏi sự hiểu biết về con ngườiở nhiều khíacạnh, và quan niệm rằng con người làyếu tố trung tâm của sự phát triển Cáckỹ thuật quản lý nhân lực thường có mục đích tạo điều kiện để con người phát huy hếtkhảnăngtiềm ẩn, giảm lãng phí nguồn lực, tăng hiệu quả của tổchức.

2.2.2Các công việc của quản lý nguồn nhân lực tại Công tyVissan

Cơ cấu, tổ chức bộ máy: định hìnhvà tham mưu cho Ban TGĐ vềcơcấu cánbộ hoặctổ chứcbộ máy hoạt động côngty quacác quyết định về nhân sự và tổ chức để phùhợp với tình hình thực tế và kinh tế xã hội hiện nay Việc bổ nhiệm cán bộ giúp các

Trang 26

đơn vị có những mục tiêu và tầm nhìn mới,thườngnhững lao động được bổ nhiệmcác chức vụ quan trọng đều có thâm niên trong lĩnh vực hoạt động, có khảnăng gắnkết cáccá nhân lại với nhau tạo nên tinhthần đoàn kết của đơn vị giúpcho mọi hoạt động sản xuất kinh doanh của Công ty luôn được ổn định và pháttriển.

Quản lý hồsơ nhân sự của công ty: bao gồm cáchồ sơ của người lao động đanglàm việc, hồ sơ của nhữngứng viên tham gia phỏng vấn để vào làm tại Công ty và bao gồm cảhồ sơ của những người lao động đã nghỉ việc.

Chấm công và tính lương chonhân viên: theo dõi ngày công của người lao động tại khối văn phòng và khối xưởng sản xuất của Công ty Quản lý được ngày công củanhững đơn vị chi nhánh trựcthuộc công ty Có cácchế độ lương thưởng theo doanh thu hoặccác dịp lễ tết, góp phần thúc đẩytinhthần làm việccủa người lao động Trả lương đúng ngày theothỏaước lao động tập thể tại công ty.

Đánh giá năng lực, ý thức trách nhiệm: trưởng đơn vị của từng phòng ban có trách nhiệm đánh giá năng lực và mức độ hoàn thành công việc của từng người lao độngthuộcđơn vị mình quản lý, phối hợp với Phòng TCNS để có những đánh giátốt nhất cho người lao động.

Khen thưởng, kỷ luật: định kỳ hàng năm, Công ty đều tổng hợp các sángkiến thức đẩy quá trình làm việc hoặc tăng năng suấttrong quy trình sản xuất, tăng lợi nhuậntừ việc bán hàng, tất cảcác ýkiến và đóng góp của người lao động đề đượccông ty lưu lại và thể hiện quacác phần khen thưởng cấp công ty, cấp thành phố, cấpbộ và cả cấp quốc gia Đồng thời những hành vi gây tổn thất về mặt tinh thần con ngườihay ảnhhưởng đến hoạt động sản xuất kinh doanh đều đượcđưa ra hội đồng kỷ luật của công ty để răn đe và mang tính kỷ luậttrong môi trường làm việc.

Tuyển dụng nhân sư: tiếpnhận ý kiếncủa các đơn vị để cókếhoạchtuyển dụng hiệuquả, đúng người đúng việc Trình bày báo các công tác tuyển dụng định kỳ cho BanTGĐ để có cái nhìn tổng quan và có chiến lược cụ thể trong việc sử dụng lao độngtại Công ty.

Trang 27

Đào tạo nhân sự: tổ chức các lớp học liên quan đến các yêu cầu thiết yếu của Công việc như công nhân và nhân viên bán hàng cần được đào tạo về an toàn lao động, vệsinh an toàn thực phẩm, vì các chứng chỉ này được cấp có thời hạn, mỗi năm sẽ đều có thay đổi để cập nhật thay đổi bổ sungnhữngcái mới màngành Công nghiệpthực phẩm cần có.

Duytrì nguồn nhân lực: thị trường lao động càng cạnh tranh thì người lao động càng có nhiều cơ hội lựa chọn chỗ làm Điều này khiến công ty gặp rất nhiều khó khăn trong việcduytrìnguồn nhân lực, nhất là nguồnnhân lực có tay nghề và kinh nghiệmcao Côngty cần xây dựng được một chính sách về tiền lương vàcác đãi ngộ tốt đểcó thể giữ chân được người laođộng làm việc tại công ty Thiết lập được môi trường làm việc thân thiện cũng làmộtyếu tố để Công ty giữ chân được người lao động.

2.2.3Tầmquan trọng của bộ phậnquảntrị nguồnnhân lựctrongdoanhnghiệp

Vai trò của quản trị nhân sự [6] vừalà khoa học vừa là nghệthuật Quản trị nhân sựđượcxem làkhoahọc vì đã đượcnghiên cứu từ rấtlâu, được đúc kếtthành các triếtlýđược áp dụng, rút kinhnghiệm qua thựctếtriển khai các hoạt động, luôn phản ánh được thựctế, được thực tế kiểm nghiệm và chấp nhận.

Tầm quan trọng của bộ phận quản trị nguồn nhân lực [7] được thể hiện rõ rệtthôngqua những nhiệm vụ và chức năng liên quan đếnchính sách, chế độ đối với nhân viêntrong toàn doanhnghiệp, cụ thể là:

• Bộ phận quản trị nguồn nhân lực lànơi đề rachính sách chế độ về nhân viên Cácchính sách này được thi hành thống nhấttrong toàn tổchức

• Bộ phận quản trị nguồn nhân lực thực hiện chức năng cố vấn cho cáccấp quản trịgia, cũng như các bộ phận trong doanh nghiệp về vấn đề nhân viên.

• Bộ phận quản trị nguồn nhân lực là đơn vị duynhấtcó quyền kiểm traviệc tổ chứcthi hành các chính sách, đánh giá, khen thưởngbổ nhiệm ở các đơn vị cơ sở củadoanh nghiệp

Trang 28

2.3 Phân tích dữ liệu(DataAnalytics)

2.3.1 Khái niệmvềPh ântíchdữ liệu

Phân tích dữ liệu [8] là quá trình kiểm tradữ liệu thô để rút ra những hiểu biết sâu sắc và đưara quyết định sáng suốt Baogồm nhiềukỹ thuật và công cụ khác nhau đểphân tích các tập hợp dữ liệu lớn, xác định các mẫu và đưa ra kết luận có thể giúp doanh nghiệp đưara quyết định dựa trên dữ liệu Phân tích dữ liệu có thể giúp doanh nghiệphiểu rõ hon về khách hàng, cải thiện hoạt động và cuối cùng làthúc đẩy tăng trưởng.

Phân tích dữ liệu được sử dụng trong hoạt động nội chính về quản lý nhân sự, phân tích dữ liệu giúp hỗ trợ rất nhiều trong việc phân tích hành vi người lao động hoặcđánhgiá đượcnăng lực của nhân sựtrong Công ty.

5 bước cơbản để thực hiện phân tích dữliệu [9] gồm:• Xác định các mục tiêu yêu cầu

• Thu thập và lưu trữ dữ liệu• Làm sạch và chuẩn bị dữ liệu• Phân tíchdữ liệu

• Trực quan hóa và truyền đạt dữ liệu

2.3.2 Các loạiphân tích dữ liệu

Phân tích văn bản: tìm kiếm và trích xuấtthông tin nằmtrong văn bản, được sử dụngđể chuyển đổi dữ liệu thô thành thông tin kinh doanh Là một cách để trích xuất và kiểm tradữ liệu Ngày nay với sựtăng trưởng nhanhchóng của dữ liệu văn bản, phân tích văn bản càng cónhiều ứng dụng trong thực tế Mục đích của phân tích văn bản [10] là cung cấp các công cụ chuyên môn nhưphê bình văn học, ngữ văn hoặc phân tích nội dung để giải mã các văn bản mà người đọc bình thường không thể tiếp cận

Trang 29

được; phân tích văn bản nhằm mục đích quan sát và khám phá thái độ, hành vi, mối quan tâm, động cơ và văn hóa của người tạo văn bản từ quan điểm chuyên gia.Phân tích thống kê: phân tích dữ liệu từ quá khứ, gồm thu nhập, phân tích, giải thích,trình bày và môhình hóadữ liệu Phân tích một mẫu hoặc tâp hợp dữ liệu Thống kêtoán học [11] củaviệctổ chức và giải thích các thông tindạng số Kết quả của những phân tích thốngkê làcác mô tả, các so sánh, các dự báo, các mối quan hệ, v.v Phân tích thống kê gồm hai loại phân tích làPhân tích mô tả và Phân tích suy luận.

Phân tích dự đoán: thể hiện dự đoán những thứ sáp xảy ravới các dữ liệu của hiệntại hoặc quá khứ Dựbáo chỉ cóthể là ướctính, độ chính xác dựa trên số lượngthông tin chi tiết của dữ liệu và những thông tin khám phá được từ nhữngdữ liệu đó Phântíchdự đoán [12] là mộtthuật ngữ chủ yếu được sử dụng trong các kỹ thuậtthống kê vàphân tích Thuật ngữnày được rútratừ sốliệu thống kê, học máy, kỹ thuậtcơ sở dữ liệu và kỹ thuật tối ưu hóa, có nguồn gốc từ thống kê cổ điển và dự đoán tương lai bằng cách phân tích dữliệu hiệntại và lịchsử Các sựkiện và hành vitrong tương lai của các biến cóthể được dự đoán bằng cách sử dụng cácmô hình phân tích dự đoán.

2.4.1 Địnhnghĩa Sự kiện (Event)

Phân tích sống còn [14] đề cập tới các sự kiện liên quan đến thất bại Và thất bại cóthể xảy ra một hoặc nhiều lần với bất kỳ đối tượng nào Đối tượng có thể là người, máy móc hoặc thậm chí là toàn bộ vùng địa lý.

Có rấtnhiều trường hợp sử dụng Phân tích sống còn, được áp dụng trong việctìm ra cơ hội xảy ra sự kiện, một trong số đó có thể là:

• Tự tử

• Sự không thànhcông của các công cụ hay máy móc• Sự quan tâm từ nhân sự trong một tổchứchoặccông ty

Trang 30

• Thảm họathiên tai xảy ra(lũ lụt, động đất,núi lửaphun trào, v.v )

Theo thời gian (cóthể được địnhnghĩa là năm, tháng,ngày hoặc tuần) kể từ khi phân tíchdữ liệu cho đến khixảy ra một sự kiện (như cái chết, nhân viên nghỉ việc, động đất) Thời gian chođến khixảy rasự kiện hay còngọi là thời gian đến khi xảy rathấtbại hoặc thời gian tồn tại Thời gian không nhất thiết phải luôn là một đon vị vật lý, đôi khi được sử dụng như là đon vị logical, cần lưu ý những điểm dưới đây trước khi xác định thời gian:

• Nguồn gốc thời gian phải được xácđịnh rõ ràng

• Xác định được thang đo để đo được sự chênh lệchthời gian• Định nghĩavề thất bại (sự kiện - event) phải rõ ràng

2.4.2Định nghĩa sồng còn (Survival)

Khinói về sống còn lànói đến xác suất [14] Xác suất khôngxảy ramột sự kiện nào đó chođến một thời điểm nào đó cóthể đượccoi là xác suất sống còn.Nói các khácthời gian xảy ra sự kiện sau mộtthời gian nhất định làxác suấtsống còn.

Một trong những mục đích của phân tích tỉ lệ sống còn là tìm ra phân bố xác suất Nhiều suy luận thống kê theo miền cụ thể khác cũng có thể được rút ratừ điều này Có thể quan sát xác suất sống sót giảm dần theo thời gian Đó là một tính năng rất quan trọngcủa phân phối.

2.4.3Địnhnghĩa Phân tích sốngcòn

Phân tích sống còn giúp ước lượng thời gian cho tói khi sự kiện xảy ra với một đốitượng haynhóm đốitượng nghiêncứu, xác định khoảng thời gian cần để mộtsự kiệnnào đó xảy ra Phân tích sống còn [15] là phân tích dữ liệu liên quan đến thời gianxảy ramột số sự kiện quan tâm Các đặc điểm khác biệt của dữ liệu về tỷ lệ sống cònhoặc thời gian xảy ra sự kiện và mục tiêu của phân tíchtỷ lệ sống còn được mô tả.Biến mục tiêu trong phân tích sống còn chủ yếu là biến thời gian (đon vị có thể là ngày, tháng hoặc năm, kết hợp với biến nhị phân (có hoặc không xảy ra) cho sự

Trang 31

kiện đó Tập trung xây dựng môhình “Dữ liệu thời gian và sự kiện (Time to event)”, định lượng các biến dự báo lên thời gian đến khi sự kiện xảy ra.

ÁpdụngPhân tíchsống còn trongbài luận văn để cóthể xây dựng đượcbảng Sự kiệncác nhân sự đã nghỉ việctrong quá khứ từ đó có các dữ liệu cụ thể cho việc phân tíchhành vi người lao động Sẽ có 2 giá trị “còn” hoặc “đã nghỉ” để dự đoán nghỉ việcchocác đơn vị hiện hữu của Công ty.

2.4.4 Hàm sinh ton (Survival Function)và Hàm rủi ro(Hazard Function)

Gọi “T” là thời gian người lao độnggắng bó làm việc với công ty cho đến khi quyết định nghỉ việc.

Gọi “t” là thời gian muốn xem xét liệu người lao động có nghỉ hay không.

Gọi “d” là thể hiện của trạngthái của sự kiện quan tâm diễn ra hay chưa, “d” cũngđược coi là biến ngẫu nhiên khi nó được xem xét trạng thái sự kiện xảy ra hoặc chưaxảy ra đối với người lao động tại Công ty.

Neu “d= 0”làsự kiện chưa xảy ra trong thời gian nghiên cứu, không biết liệu sự kiệncó xảy rahay khôngkhi đã hoàn thànhnghiên cứu, ngược lại, nếu “d =1” thì sự kiệnđã xảy ra trong thời gian nghiên cứu vàđược ghi nhận lại cụ thể.

Trang 32

Hàm sinh tồn tích lũy xác suất không xảy ra sự kiện nghỉ việc(sống còn) của người lao động ở các “t” khác nhau, qua đó manglại nhiều thông tin quan trọng cho Phân tích sống còn.

2.4.4.2 Hàm rủi ro

Là hàm rủi ro tính khảnăng người lao độngquyết định nghỉ việc(sự kiện) được quantâm trong một khoản thời gian theo dõi với điều kiện là người lao động chưa quyếtđịnh nghỉ việc cho đến thời điểm bắt đầu theo dõi Là mộtxác xuất người lao độngquyết định nghỉ việc trong một khoản khắcmà trước đó họ chưa quyết định nghỉCông thứctổng quát của Hàm rủi ro:

p(t <T <t + kt\T >t) 1 ds(t)f(t)h(t) — lim - -= -——7“ = 777

Hàm rủi ro còn được gọi là tỷ lệ xảy ra sự kiện, và tỷ lệ này được tính liên tục suốtkhoản thời gian theo dõi và điều kiện ở thời điểm bắt đầu, sự kiện phải chưa xảy ra (T > t) Lànguy cơ mà nghỉ việc xảy ratrong khoản thời gian từt đến + At (vàAtrất là nhỏ)

Tỷ lệrủi ro tính từ hàm rủi ro là tỷ lệ giới hạn có điều kiện vì giữa điểmt bắtđầu theodõi cho đến thời điểm kết thúc theodõi có khoản thời gian là At Được tính liên tụctheo thời gian từ t (thời điểm bắt đầu) đến t + At (thời điểm kết thúc), khoản thờigian At càng lớn (cho đến thời điểm kết thúc), t + At càng lớn, tỷ lệ rủi ro càngtăng.Hàm rủi ro h(t) cung cấp tỷ lệ rủi ro tức tại thời điểm t để chỉ ra ngay nguy cơ xảy ra nghỉ việc tại Công ty.

Đặc tính của hàm rủi ro:

• Khi xảy ra sự kiện nghỉ việc là 0, tỷ lệ rủi ro sẽ thấp nhất

• Neu nguy cơ nghỉ việcxảy ratăng lên theo thời gian, tỷ lệ rủi ro sẽ tăng theo, tín hiệu không tốt chotương lai.

Trang 33

• Neu nguy cơ nghỉ việc xảy ra giảm dần theo thời gian, tỷ lệ hazard sẽ giảm dần,tươnglai sẽ tốt hơn.

2.5.1 Phân tíchKaplan Meier2.5.ỉ ỉ LifeTable

Lifetable [16] thường được coi là thước đo tóm tắt về tỷ lệ tử vong theo độtuổi cụthể trong từng thời kỳ Life table cũng có đặc điểm là mô tả trải nghiệm sinh tồn giảđịnh củamộtnhóm thuần tậptổnghợp hoặc hư cấu, phụthuộc vào tỷ lệ tử vong hiệntại trong một quá trình giả tượng.

2.5.ỉ 2 ước tính Kaplan Meier

Kaplan - Meier ước tính từng tỷ lệ sống sót mỗi lần xảy ra sự kiện, không bắt buộc chia thời gian bằng các khoản bằng nhau Cụ thể khi áp dụng vào Cơ sở dữ liệu củaPhòng TCNS, chúng ta có thể tính toán dựa trên các sự kiện “Nghỉ việc” và bắt đầutínhtoán từ tháng 01/2015 đến thời điểm 31/12/2020.

Công thức tính xác suất tích lũy của Kaplan - Meier:

Trang 34

Bảng 2.1 Life Tabletheo ước tính Kaplan Meier

2.5.2Môhình CoxPH

Là mô hình phân tích hồi quy và không được xem là mô hình phi tham số (non- parametric) hay môhình tham so (parametric), nói đúng hon mô hình CoxPH là mô hình Semiparametric đều có tính chất của mô hình tham sốvà môhình phi tham số.Sử dụng CoxPH không cần đưa ra bất kỳ giả định gì về quy luật phân phối, khôngphải xác định bất kỳ tham số cũng như là mô hình nào cho nó, hay không cần ướclượng /i0(t).

• h0(t) được gọi làBaseline Hazards function hoặc hàm Rủi ro theo thời gian.

h(t) = ^0© * exp(& + £l*i + ftx2 + ■■• + Ppxp) = ^o(t) exp (^ íh*i)

^^i=ỵ Pi^i là hàm mũ e, các biến X độc lập với thời gian đại diện chocác yếu tố tác động đến tỉ lệ rủi ro h(t) được định lượng bởi các hệ số hồi quy p Trong đó /?1?

/?2, Pp là hệ số cần được ướctính từ dữ liệu thực tế.

Trang 35

• Hazard Ratio (HR): dùng để so sánh tỷ lệ rủi ro xảy ra sựkiện giữa 2 nhóm, công thức tổng quát của HR:

Oa/Eah^ì) p

• OA và OB là đối tượngthuộc nhóm A và Btrải qua sự kiện được quan tâm EA

và Eb là số đối tượngcó nguy cơ đối mặt vớisự kiện được quan tâm

• Nếu giá trị HR = 1, không có sự khác biệt giữa tỷ lệ rủi ro giữa 2 nhóm so sánh, biến đầu vào so sánh không có tác động nguy cơ xảy ra sự kiện.

• Nếu HR > 1, có sự khác biệt giữa tỷlệ rủi ro giữa 2 nhóm so sánh, giá trị củabiến đầuvào đang xét tănglên, sẽ khiến nguycơ xảy ra sự kiện tăng theo.• Nếu HR < 1, có sự khác biệt giữa tỷ lệ rủi ro giữa 2 nhóm so sánh, giá trị của

biến đầuvào đang xét tănglên, sẽ khiến nguy cơ xảy ra sự kiện giảm xuống.Mô hình hồi quyCoxPH cóthể phát biểu ở2 dạngcông thứctổng quát

• Theo Hàm rủi ro:

Trang 36

giữa các hiệp phương sai độc lập và hàm rủi ro cơbản; tác động của hiệpphương sai luôn giốngnhau.

Mô hình áp dụng vào phân tíchnhân sự để dự đoán khoảnthời gian trung bình từ lúcnhân sự được tuyển dụng cho đến lúc nhân sự nghỉ việc Đánh giá được mức độcóthể nghỉ việc trong tương lai của nhằn sự.

Trong thực tế khi tiến hành phân tích, cần xem xét đến nhiều nhóm đối tượng khácnhau Ví dụ như những nhân sự thuộc nhóm văn phòng thường có xu hướng ítnghỉviệc hơn những nhóm người làm ở bộ phận sản xuất hoặckinh doanh.

Các yếu tố xung quanh như: thu nhập, độ tuổi, cực kỳ hữu ích khi được đưa vàomô hình Cox để định lượngtác động và hỗ trợ phân tích sâu hơn vềđộ ở lại làm việc hoặc rủi ro nghỉ việc của từng nhân sự trong công ty.

2.6.1 Định nghĩa và ứngdụng của Hổiquy Logistic

Hồi quy Logistic [19] đôi khi được gọi là mô hình logistic hoặc mô hình logit, phân tích mối quan hệ giữa nhiều biến độc lậpvà biến phụ thuộc phân loại vàước tính xác suất xảy ra sự kiện bằng cách khớp dữ liệu với đường cong logistic.

Hồi quy Logistic được ứngdụng trong phân tích dựbáo, đã được ứng dụng rộng hơn trongmachine learning, xuất hiện trong cácphần mềm thống kê và khai phá dữ liệu(data mining), giúp người dùng tìm hiểu mối quan hệ giữa biến mục tiêu là biến định tính vàmộthay nhiều biến độc lập thông qua thiết lập phươngtrình hồi quy logistic.ứng dụngtrongviệc xây dựng mô hình dự báo với cácdoanhnghiệpvì giúp họ khaiphá các mối quan hệ, những yếu tố tác động lên doanh thu, lợi nhuận và quản lý hành chính nội bộdoanhnghiệp.

Làphương pháphồi quy thông dụng nhất, áp dụng cho các biến mục tiêu không phảilà biến định lượng liên tục, đặc biệt là Hồi quy Logisticnhị phân vì đây làdạng phổ biến nhấttrong các hồi quy logistic.

Trang 37

Sự khác biệt của biến mục tiêu chính là cơ sở phân biệt hồi quy logistic với cácphương pháp hồi quykhác Điều quan trọng phảihiểu rằngmục tiêu sư dụng mô hìnhnày cũng giống bất kỳ mô hình hồi quy nào khác trong thống kê là tìm ra được môhình phù hợp nhất và tối ưu nhất để mô tả mối quan hệ giữa biến mục tiêu y và một tập hợp các biến độc lập X (biến dự đoán hoặc giải thích) qua đó đưa ra các kết quả dự báo hayphân loại trong tương lai.

Hồi quy Logistic dùng để dự báo khảnăng xảy rasự kiện, tìnhhuống trong tương lai.Điển hình ở đây là việc áp dụng vào việc dự đoán xem người lao độngcó quyết định nghỉ việchay không, qua các dựbáo công tysẽ biết và lập kếhoạch sử dụng lao độngđể không gián đoạn việcsản xuất kinhdoanh tại công ty.

Kết quả của biến mục tiêuy trong Hồi quy logistic mang giátrị xác suất (probability)để phân loại đối tượng nghiên cứu hay quyết định giátrị cuối cùngcủa biến y trongdanh mục các giátrị địnhtính Nhiệm vụ phân tích sau cùng của hồi quy logistic đưa ra kết quả dự báo chính xác (value prediction) và có cả kết quả phân loại chính xác (category classification).

2.6.2Phươngtrình tống quát Hoiquy Logistic

Phương trình cơbản của Hồi quy Logistic:

Dựa vào xác suất để quyết định giá trị cuối cùng của Y (y chỉ có 2 giá trị: có hoặckhông), thông thường theothông lệ, các chuyên giatrong lĩnh vực phằn tích sẽ gány = 0 cho kết quả “không; thất bại; nghỉ việc; ”, còn gán y —1 chocácgiá trị cònlại vàcó kết quả tích cực, kết quả mong đợi của người phân tích.

Biến đổi phương trình tổng quát của Hồi quy Logistic sẽ có dạng tổng quát với p là xác suất cần tìm

p = fỉữ+ P-ỊX+£

Trang 38

Xác suất chỉ có giá trịtừ 0 tới 1, khixác suất có giá trịlớn tiến đến 1 thì tương úngkhả năng y = 1 càng cao và khi xác suất có giá trị tiến đến thì tương ứng khảnẵngy = 0 càng cao Lưuỷ giá trị 0 và 1 củaykhông phải giá trị số thực, mà là kết quả mã hóa (coding) của những giá trị định tính của biến y, ví dụy = 0 nghĩa là đốitượng nghiên cứu trong bài ở tươnglai có thể “nghỉ việc”, y = 1 thì suyngược lại.với p là biến phụ thuộc, xác suất khả năng y xảy ra 0 hoặc 1 (chịu ảnh hưởng của biên %), là biên chúng ta sẽ dự báo giá trị X là biên độc lập (biên tác động lên biên phụ thuộc), pồ là giá trịước lượng của p khi X đạt giá trị 0, dùng để xác định giátrịtrung bình củap tăng hay giảm khi X tăng, 8 là sai số, thề hiện giá trị của cácyếutố khác không thể nghiên cứu hết và cácyếu tố này vẫn tácđộng lên giá trịp.

Tuy nhiên phương trình tổng quát trên lại khôngthích hợptrong việc ước lượng xác suất trung bình của biến mục tiêu y cho một đốitượng bất kỳ trong tổng thểnghiêncứu mặc dủchúngvẫn thể hiện mối quanhệ giữa biến yvà biến X bằng hệ số hồi quy

Như đã nói nếu sử dụng phương trình trên thì giá trị xác suất p có thể không nằm trong giới hạn 0 và 1, tức có thể p lớn hơn 1 hoặc p bé hơn 0 mang giá trị âm Vớiphương trình trên có thể suy ra dạngđồthị tồng quát của hồi quy logistic:

Trang 39

Phương trình tông quát của Hôi quy Logistic:

g^o + ^i^i+^2^2+ •••+ Ppxp1 ỵ Ạ- e^o +Plxl+p2x2+ "+Ppxp

Phương trình tông quát đêước lượngxác suằt:

gồQ + b^Xỵ-ị-b2x2-ị- +bpXp

= ước lương P(y = llxi.Xo, = - , , ,—-r—

2.6.3 Hàm Logit,hàm Sigmoid(Logit function & Sigmoid function)

Để giới hạn kết quả tính toán nằm từ 0 đến 1, là xác suất của phương trình hồi quylogistic, người ta sử dụng mộtloại hàm trong toán học gọi là Hàm Sigmoid (SigmoidFunction)hay Hàm Logistic (Logistic Function) hay Phép biến đổi Logistic (Logistic Transformation) CÓ 3 tên khác nhau nhưng cùng chung một dạng gọi là hàm Logitđảo ngược (Inverse logit function).

1, và giá trị hàm logitsẽ tiến đến -co khi xác suấtptiến đến 0.

2.6.3.2 Hàm Sigmoid

Công thức của hàm Sigmoid

Trang 40

HàmSigmoid là mộtdạng ngược lại của hàm logit, tức nếu có xác suất pthì sigmoid (logit(p)) = p, nghĩa là sẽchuyểnđược các giá trị thực của một biến bất kỳ nằm trongkhoảng (-00; +®) sang giátrị nằm trong khoảng (0, 1], Dođốhàm Sigmoid rất hữu ích trong các bài toán phân loại (Classification) lchi tính năng chính của nó phù hợpđể xem xét, tínhtoánkết quà phân tích ỏ' giai đoạnsau cùng của quy trình phân loại thành những kết quâ cụ thể.

Hình 2.2ĐỒ thị hàm Sigmoid

Hàm Sigmoid được nhận biết vớiđặc điểm nổibật làđộthịcủa nócóhình cong như chữS Hàm Sigmoid thựcchất bắt nguồntừ hàm Logistic, còn hàm LogitvàSigmoidgiống như biếnthể của hàm logistic Và cũng chính vì thế mặc dù hàm Sigmoid đượcdùng trong mô hìnhhổiquy áp dụng cho biến mục tiễu là biến thay phiên, biến nhịphân (binary) nhưngkhông được gọi là Hồi quy Sigmoid (Sigmoid Regression)mà Hồi quy Logistic.

Hàm Sigmoid là giá trị tại đó chiếu thẳng lên điểm chính giữa đường cong có thễđược dùng đề làm mốc kết luận giá trị cùa biến y, nghĩa là có thễ lấy p = 0.5 làm chuẩn Giảsử trong bài luận văn ước lượng xác suất nghỉviệccủa nhân viên A là 0.7thìnhânviên này cókhà năng không nghỉ việcvì0.7 >0.5 nên biếny sẽ mang giátrị

Ngày đăng: 06/05/2024, 17:23

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan