Đề tài ứng dụng sas jmp để thực hiện khai phá dữ liệu nhằm dự đoán bệnh tim mạch tại bệnh viện vinmec

Trang 1

BỘ TÀI CHÍNH

TRƯỜNG ĐẠI HỌC TÀI CHÍNH – MARKETINGKHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN MÔN HỌCKHAI PHÁ DỮ LIỆU Tên đề tài:

Giảng viên hướng dẫn: ThS Nguyễn Thị Trần Lộc

Danh sách nhóm sinh viên thực hiện:

1 Lê Nhật Đăng Khoa - 2021010172 - 2311112005902

Trang 2

BỘ TÀI CHÍNH

TRƯỜNG ĐẠI HỌC TÀI CHÍNH – MARKETINGKHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN MÔN HỌCKHAI PHÁ DỮ LIỆU Tên đề tài:

Giảng viên hướng dẫn: ThS Nguyễn Thị Trần Lộc

Danh sách nhóm sinh viên thực hiện:

1 Lê Nhật Đăng Khoa - 2021010172 - 2311112005902

Trang 3

TRÍCH YẾU

Bệnh lý tim mạch (Cardiovascular diseases - CVDs) là nguyên nhân hàng đầu gây tử vong trên toàn thế giới, nhiều hơn cả ung thư dù là ở các nước đã hay đang phát triển Uớc tính, CVDs cướp đi sinh mạng của 17,9 triệu người mỗi năm, chiếm 31% tổng số ca tử vong trên toàn thế giới Bốn trong số 5 ca tử vong liên quan đến bệnh lý tim mạch là do đau tim, đột quỵ.

Tại Việt Nam, theo thống kê của Bộ Y tế mỗi năm có khoảng 200.000 người tử vong vì bệnh tim mạch, chiếm 33% ca tử vong Theo thống kê của Viện Tim Mạch năm 2015, tỷ lệ tăng huyết áp ở người trưởng thành trong độ tuổi 18- 65 chiếm 25%, vậy cứ 4 người trưởng thành thì có một người tăng huyết áp Tăng huyết áp làm tăng nguy cơ tử vong do đột quỵ lên gấp 4 lần và tăng nguy cơ tử vong do bệnh lý tim mạch lên gấp 3 lần so với người không mắc bệnh Bệnh lý tim mạch thường được cho là chỉ gặp ở người lớn tuổi Song trên thực tế, tần suất mắc bệnh ở người trẻ và trung niên cao hơn chúng ta nghĩ, nó có thể xảy ra với bất kỳ ai và bất kỳ lứa tuổi nào và tuổi mới bị mắc cũng ngày càng trẻ hoá.

Nhận thấy được những thực tế đó, Davide Chicco và Giuseppe Jurman từ Đại học Ca 'Foscari ở Venice, Italy đã tạo ra bộ dữ liệu Heart Failure Prediction nhằm hỗ trợ cho việc dự đoán nguy cơ bệnh lý tim mạch của bệnh nhân, giúp cho việc chẩn đoán và điều trị bệnh tim mạch hiệu quả hơn Việc có một bộ dữ liệu chính xác và đầy đủ về các yếu tố gây ra bệnh tim mạch, các chỉ số sinh lý, cũng như dữ liệu điều trị là rất cần thiết để giúp các nhà nghiên cứu, bác sĩ và các chuyên gia y tế phát triển các phương pháp và công nghệ để giảm thiểu rủi ro mắc bệnh tim mạch, cải thiện chẩn đoán và điều trị, cũng như nâng cao chất lượng cuộc sống của các bệnh nhân.

Ngoài ra, bộ dữ liệu này cũng là một tài nguyên hữu ích cho các nhà khoa học máy tính và các chuyên gia về học máy để phát triển các mô hình dự đoán bệnh tim mạch, từ đó cung cấp cho các bác sĩ và các chuyên gia y tế các công cụ hỗ trợ quan trọng trong việc đưa ra quyết định chẩn đoán và điều trị.

Chúng em nhận thấy được đây là một bộ dữ liệu mang tính nhân văn và ý

Trang 4

chung Và đó là lý do, chúng em quyết định chọn đề tài “Ứng dụng SAS JMP đểthực hiện khai phá dữ liệu nhằm dự đoán bệnh tim mạch tại bệnh viện Vinmec.”.

Trang 5

MỤC LỤC

TRÍCH YẾU i

MỤC LỤC iii

LỜI CẢM ƠN v

DANH MỤC TỪ VIẾT TẮT vi

DANH MỤC THUẬT NGỮ ANH – VIỆT vii

1.3 Dự kiến kết quả đạt được 5

CHƯƠNG 2:CƠ SỞ LÝ THUYẾT 6

2.1 Giới thiệu về khai phá dữ liệu 6

2.1.1 Khái niệm 6

2.1.2 Vai trò của khai phá dữ liệu trong kinh doanh 7

2.1.3 Quy trình khai phá dữ liệu 8

2.2 Kho dữ liệu 8

2.2.1 Kiến trúc luồng dữ liệu 8

2.2.2 Kho dữ liệu và khai phá dữ liệu trong BI 13

2.3 Các phương pháp trong khai phá dữ liệu 18

Trang 6

CHƯƠNG 3:ỨNG DỤNG PHẦN MỀM SAS JMP 63

3.1 Mô tả bài toán 63

3.2 Mô tả và phân tích bộ dữ liệu 63

3.2.1 Mô tả bộ dữ liệu 63

3.2.2 Tiền xử lý dữ liệu 68

3.3 Quá trình chạy thuật toán 73

3.3.1 Thuật toán phân lớp 73

3.3.2 Thuật toán phân cụm (K Means) 81

3.3.3 Thuật toán kết hợp 87

3.3.4 Thuật toán Neural Network 91

3.3.5 Tính năng Graph Builder 98

3.4 Kết luận của mỗi thuật toán 102

3.4.1 Kết luận thuật toán phân lớp 102

3.4.2 Kết luận thuật toán phân cụm 103

3.4.4 Kết luận thuật toán kết hợp 113

3.4.5 Kết luận thuật toán Neural Network 113

3.4.6 Kết luận tính năng Graph Builder 114

CHƯƠNG 4:KẾT LUẬN 115

4.1 Kết quả đạt được 115

4.2 Hạn chế của đề tài 116

4.3 Hướng phát triển tiếp của đề tài 116

TÀI LIỆU THAM KHẢO 117

PHỤ LỤC 118

Trang 7

LỜI CẢM ƠN

Lời đầu tiên, chúng em xin gửi lời cảm ơn chân thành nhất đến giảng viên bộ môn Khai phá dữ liệu - cô Nguyễn Thị Trần Lộc – người đã hướng dẫn chúng em trong quá trình học tập Chúng em nhận được sự tận tình, giúp đỡ của cô trong các buổi giảng Thông qua bộ môn, chúng em tích lũy thêm nhiều kiến thức cơ sở về việc khai phá dữ liệu, cũng như có cái nhìn tổng quan để chuẩn bị cho các công việc sau này có liên quan Ngoài ra, bộ môn còn giúp chúng em biết thêm nhiều kĩ năng mới cần chú trọng như việc sử dụng các phần mềm khác nhau để phục vụ cho việc khai phá dữ liệu Điều đó giúp cho chúng em được trang bị thêm nhiều kiến thức cho công việc trong tương lai.

Thông qua bài báo cáo, chúng em muốn trình bày những gì mình đã được biết

được học vào việc thực hiện đề tài “Ứng dụng SAS JMP để thực hiện khai phá dữ

liệu dự đoán các bệnh tim mạch tại bệnh viện Vinmec” Đây là lần đầu tiên chúng

em bắt tay vào việc khai phá cho một bộ dữ liệu bằng phần mềm trong khi kiến thức thì vô hạn mà bản thân mỗi người luôn tồn tại những hạn chế nhất định Thế nên, trong quá trình trình bày và thực hiện chắc chắn không tránh khỏi còn nhiều thiếu sót Chúng em vô cùng chờ mong sẽ nhận được những đánh giá và góp ý của cô để bài báo cáo của mình trở nên hoàn thiện hơn.

Một lần nữa chúng em xin chân thành cảm ơn sự giúp đỡ của cô trong thời gian vừa qua Cuối cùng, chúng em xin chúc cô sức khỏe dồi dào, luôn hạnh phúc và thành công trên con đường sự nghiệp của chính mình.

Trang 8

ATA Atypical Angina NAP Non-anginal pain

ASY Asymptomatic

Trang 9

DANH MỤC THUẬT NGỮ ANH – VIỆT

ChestPainType Mô tả loại đau ngực

Resting BP Huyết áp của người được xét nghiệm khi đang nghỉ ngơi

Cholesterol Chỉ số cholesterol trong huyết thanh

ExerciseAngina Chỉ số đau thắt ngực

OldPeak Độ suy giảm ST khi tập luyện.

ST_Slope Gia tốc ST của người được xét nghiệm khi tập luyện

Cubic Clustering Criterion Phép đo chất lượng dùng để đánh giá hiệu quả của việc

phân cụm trong phân tích dữ liệu

Typical Angina Đau ngực điển hình

Atypical Angina Đau ngực không điển hình

Non-anginl pain Đau ngực không thể phân loại

Asymptomatic Đau ngực không đối xứng

Data Flow Architecture Kiến trúc luồng dữ liệu

Trang 10

Hình 2 5 Mô tả thuật toán Naive Bayes 23

Hình 2 6 Mô tả thuật toán K-Nearest Neighbors 24

Hình 2 7 Mạng neural feed-forward đa tầng 25

Hình 2 8 Quá trình xử lý thông tin tại một neuron của mạng Neural 26

Hình 2 9 Phương pháp gom cụm 27

Hình 2 10 Công thức để tính support 30

Hình 2 11 Công thức để tính độ tin cậy 30

Hình 2 12 : Biểu diễn luật kết hợp 31

Hình 2 13 Giải thuật Apriori: Loại bỏ dựa trên độ hỗ trợ 33

Hình 2 14 Cơ sở dữ liệu giao dịch bán hàng 34

Hình 2 15 Thuật toán Apriori tìm các luật kết hợp trong giao dịch bán hàng 34

Trang 11

Hình 2 40 Minh họa sử dụng Distribution cho Dataset 56

Hình 2 41 Minh họa Phù hợp lưỡng biến với dataset 57

Hình 2 42 Minh họa Phân tích phương sai một chiều 57

Hình 2 43 Minh họa Hồi quy logistic 58

Hình 2 44 Minh họa Phân tích bảng dự phòng 58

Hình 2 45 Minh họa cho Tabulate 59

Hình 2 46 Minh họa Text Explorer trên dataset 59

Trang 12

Hình 2 47 Minh họa Fit Model trên dataset 60

Hình 3 1 Dữ liệu gốc của Heart Disease 64

Hình 3 10 Lựa chọn thuộc tính trong hộp thoại “Partition” 75

Hình 3 11 Kết quả phân tích phân lớp 76

Hình 3 12 Chọn chức năng Color Points 77

Hình 3 13 Kết quả cây ra quyết định cấp 6 78

Hình 3 14 Chức năng Set Color 79

Hình 3 15 Copy Cây ra quyết định 79

Hình 3 16 Kết quả cây ra quyết định 80

Hình 3 17 Small tree view 80

Hình 3 18 “K Means Cluster” 81

Hình 3 19 Chọn thuộc tính cho thuật toán phân cụm 82

Hình 3 20 Chọn số cụm và giới hạn số lượng 82

Hình 3 21 Xem giá trị CCC của thuật toán phân cụm 84

Hình 3 22 Số lượng mẫu trong các cụm 85

Trang 13

Hình 3 23 Xét tương quan giữa các Cluster 86

Hình 3 24 Scatterplot Matrix 87

Hình 3 25 Sử dụng “Association Analysis” 88

Hình 3 26 Chọn các thuộc tính cho thuật toán kết hợp 89

Hình 3 27 Kết quả chi tiết của Rules 89

Hình 3 28 Kết quả chi tiết của Frequent Item Sets 90

Hình 3 29 Transaction Listing 91

Hình 3 30 Chọn “Neural” 92

Hình 3 31 Chọn thuộc tính trong Neural 93

Hình 3 32 Chỉnh sửa thông số 94

Hình 3 33 Kết quả thuật toán Neural 95

Hình 3 34 Mục Diagram của Neural 96

Hình 3 35 Đổi sang chế độ xem Profiler và Categorical Profiler 96

Hình 3 36 Chế độ xem Profiler và Categorical Profiler 98

Hình 3 37 Chế độ xem Profiler và Categorical Profiler 98

Hình 3 38 Chọn chức năng Graph Builder 99

Hình 3 39 Các chức năng phần Title 99

Hình 3 40 Chọn biểu đồ trong Graph Builder 100

Hình 3 41 Kết quả của Graph Builder 101

Hình 3 42 Thuật toán kết hợp – Cluster 1 104

Trang 14

Hình 3 51 Kết quả các Rules của luật kết hợp 113

Hình 3 52 Profiler của một bệnh nhân 114

Trang 15

DANH MỤC CÁC BẢNG BI

Bảng i Phân công công việc 2

Bảng ii Kế hoạch thực hiện đồ án 2

YBảng 3 1 Bảng thuộc tính của bộ Heart Disease 64

Bảng 3 2 Bảng thuộc tính của bộ Netflix_Dataset_Rating 67

Bảng 3 3 Bảng 3 2 Bảng thuộc tính của bộ Netflix_Dataset_Movie 68

Trang 16

NHẬN XÉT VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN 1

Trang 17

NHẬN XÉT VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN 2

Trang 18

DẪN NHẬP

Trong những năm gần đây, bệnh tim mạch đang trở thành một trong những nguyên nhân hàng đầu của tử vong trên toàn thế giới Đặc biệt tại Việt Nam, bệnh tim mạch cũng đang trở thành một trong những bệnh lý thường gặp và ngày càng gia tăng Với mong muốn đưa ra những giải pháp tốt nhất cho bệnh nhân, Bệnh viện Vinmec đã quyết định thực hiện khai phá dữ liệu nhằm dự đoán bệnh tim mạch.

Dựa trên các thông tin từ bệnh nhân, chúng em sẽ tiến hành thu thập dữ liệu nhằm phân tích các yếu tố có ảnh hưởng đến bệnh tim mạch, như độ tuổi, giới tính, lượng đường huyết, hàm lượng cholesterol, v.v từ đó xây dựng các mô hình dự đoán bệnh tim mạch Việc này giúp cho các bác sĩ và nhân viên y tế có thể đưa ra những phương pháp điều trị phù hợp, giảm thiểu tối đa các rủi ro và nâng cao chất lượng chăm sóc sức khỏe cho bệnh nhân.

Chúng em tin rằng, việc sử dụng kỹ thuật khai phá dữ liệu sẽ giúp cho Bệnh viện Vinmec có được những thông tin quý giá, từ đó cải thiện chất lượng chăm sóc và tăng cường sức khỏe cho người dân, đặc biệt là trong lĩnh vực bệnh tim mạch.

 Mục tiêu của đồ án

 Ứng dụng phần mềm SAS JMP để phân tích và khai thác các dữ liệu có sẵn, từ đó đưa ra các kết luận và dự đoán về các mối quan hệ và xu hướng trong dữ liệu

 Áp dụng các kỹ thuật khai phá dữ liệu để giúp các doanh nghiệp và tổ chức có thể ra quyết định đúng đắn hơn dựa trên thông tin được thu thập từ dữ liệu  Cung cấp cho người đọc một cái nhìn tổng quan về các kỹ thuật khai phá dữ

liệu và phân tích dữ liệu, cùng với các kết quả và dự đoán từ các phân tích thực hiện trên dữ liệu.

 Biết cách làm việc nhóm  Phân công công việc

Trang 19

Bảng i Phân công công việc

1 Trần Minh Thư Tìm kiếm và tìm hiểu về bộ dữ liệu, giải thích ý nghĩa của các cột dữ liệu Thực hiện chạy các thuật toán và rút ra kết luận, ý nghĩa của các thuật toán.

2 Lê Nhật Đăng Khoa Tìm hiểu về phần mềm, cách chạy các thuật toán, các thông số mà phần mềm biểu thị Thực hiện chạy các thuật toán và rút ra kết luận, ý nghĩa của các thuật toán.

 Kế hoạch thực hiện đồ án

Bảng ii Kế hoạch thực hiện đồ án

1 Chia nhóm, chọn đề tài Trần Minh Thư

2 Thảo luận, trao đổi, phân công công việc.

Lê Nhật Đăng Khoa

5 Tiền xử lý dữ liệu Trần Minh Thư

6 Đưa bộ dữ liệu vào phần mềm, chạy các thuật toán, đưa ra kết luận của thuật toán.

Cả nhóm

7 Thực hiện báo cáo cuối kì Cả nhóm

Trang 20

8 Chỉnh sửa, hoàn thiện bản báo cáo môn học.

Cả nhóm

Trang 21

CHƯƠNG 1: TỔNG QUAN 1.1 Lý do hình thành đồ án

Đồ án được thực hiện với mục đích nghiên cứu và ứng dụng phần mềm SAS JMP để thực hiện khai phá dữ liệu nhằm dự đoán bệnh tim mạch tại bệnh viện Vinmec Bệnh tim mạch là một trong những nguyên nhân hàng đầu gây tử vong trên thế giới và ở Việt Nam Việc phát hiện sớm và điều trị kịp thời bệnh tim mạch có thể cứu sống nhiều người và giảm thiểu chi phí y tế Tuy nhiên, việc chẩn đoán bệnh tim mạch không phải là đơn giản, bởi nó phụ thuộc vào nhiều yếu tố như tuổi, giới tính, huyết áp, cholesterol, tiền sử gia đình, hút thuốc, tiểu đường, béo phì, vận động thể chất, stress và các triệu chứng khác Do đó, việc sử dụng phần mềm SAS JMP để khai phá dữ liệu và xây dựng các mô hình dự đoán bệnh tim mạch là rất cần thiết và hữu ích

Phần mềm SAS JMP là một công cụ thống kê và phân tích dữ liệu mạnh mẽ, linh hoạt và dễ sử dụng Nó cho phép người dùng nhập, xử lý, khám phá, trực quan hóa và mô hình hóa dữ liệu từ nhiều nguồn khác nhau Nó cũng cung cấp nhiều kỹ thuật thống kê tiên tiến như hồi quy tuyến tính và phi tuyến, phân loại và hồi quy cây, phân tích thành phần chính, phân tích nhân tố, phân tích cụm, phân tích đa biến, v.v… Bằng cách sử dụng SAS JMP, người dùng có thể khai thác được những thông tin quý giá từ dữ liệu và tạo ra các báo cáo trực quan và sinh động

Đồ án này sẽ sử dụng bộ dữ liệu về bệnh tim mạch của bệnh viện Vinmec để minh họa các bước khai phá dữ liệu và xây dựng các mô hình dự đoán bệnh tim mạch bằng SAS JMP Bộ dữ liệu gồm có 918 quan sát với 12 biến, trong đó biến đích là có hay không bị bệnh tim mạch (1 hoặc 0), còn lại là các biến giải thích liên quan đến các yếu tố nguy cơ của bệnh tim mạch Đồ án này sẽ trình bày các nội dung chính sau: giới thiệu về bệnh tim mạch và SAS JMP; nhập và kiểm tra chất lượng dữ liệu; khám phá và trực quan hóa dữ liệu; xây dựng và lựa chọn các mô hình dự đoán; kiểm tra và đánh giá hiệu quả của các mô hình; kết luận và kiến nghị.

1.2 Mục tiêu đồ án

- Tìm hiểu về ứng dụng SAS JMP và các tính năng hỗ trợ khai phá dữ liệu và dự đoán bệnh tim mạch.

Trang 22

- Thu thập và tiền xử lý dữ liệu về các bệnh nhân mắc bệnh tim mạch tại bệnh viện Vinmec.

- Phân tích thống kê và trực quan hóa dữ liệu để khám phá các mối quan hệ và xu hướng liên quan đến bệnh tim mạch.

- Đề xuất các giải pháp và khuyến nghị để phòng ngừa và điều trị bệnh tim mạch hiệu quả hơn.

1.3 Dự kiến kết quả đạt được

- Hiểu được cách sử dụng các công cụ, các chức năng trên SAS JMP để khai thác dữ liệu.

- Trình bày kết quả phân tích và khai phá dữ liệu bằng các biểu đồ, bảng số liệu và báo cáo trực quan trên phần mềm SAS JMP

Trang 23

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Giới thiệu về khai phá dữ liệu

3.1.1 Khái niệm

Khai phá dữ liệu (Data mining) là quá trình khám phá thông tin từ các tập dữ

liệu lớn bằng cách sử dụng các phân tích toán học để tìm ra các mẫu và xu hướng trong dữ liệu mà không thể tìm thấy bằng phương pháp truyền thống.[CITATION Owe22 \l 1033 ]

Những mẫu và xu hướng này có thể được thu thập và xác định dưới dạng mô hình khai thác dữ liệu Các mô hình khai thác này có thể được áp dụng cho các tình huống cụ thể, chẳng hạn như:

- Dự báo: Ước tính doanh số, dự đoán tải máy chủ hoặc thời gian ngừng hoạt động của máy chủ.

- Rủi ro và xác suất: Chọn khách hàng tốt nhất để gửi thư mục tiêu, xác định điểm hòa vốn có thể xảy ra cho các tình huống rủi ro, chỉ định xác suất cho chẩn đoán hoặc các kết quả khác.

- Đề xuất: Xác định sản phẩm nào có khả năng được bán cùng nhau, tạo đề xuất - Trình tự tìm kiếm: Phân tích các lựa chọn của khách hàng trong giỏ hàng, dự

đoán các sự kiện có thể xảy ra tiếp theo.

- Nhóm: Phân chia khách hàng hoặc sự kiện thành các cụm có liên quan, phân tích và dự đoán mối quan hệ giữa chúng.

Cũng có thể hiểu, Data Mining – khai phá dữ liệu là quá trình phân loại, sắp xếp các tập hợp dữ liệu lớn để xác định các mẫu và thiết lập các mối liên hệ nhằm giải quyết các vấn đề nhờ phân tích dữ liệu Các MCU khai phá dữ liệu cho phép các doanh nghiệp có thể dự đoán được xu hướng tương lai.

Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu chuyên sâu cũng như các công nghệ tính toán Hơn nữa, Data Mining không chỉ giới hạn trong việc trích xuất dữ liệu mà còn được sử dụng để chuyển đổi, làm sạch, tích hợp dữ liệu và phân tích mẫu.

Trang 24

Có nhiều tham số quan trọng khác nhau trong Data Mining, chẳng hạn như quy tắc kết hợp, phân loại, phân cụm và dự báo Một số tính năng chính của Data Mining:

- Dự đoán các mẫu dựa trên xu hướng trong dữ liệu - Tính toán dự đoán kết quả

- Tạo thông tin phản hồi để phân tích - Tập trung vào cơ sở dữ liệu lớn hơn - Phân cụm dữ liệu trực quan

Khai phá dữ liệu có nhiều ứng dụng trong các lĩnh vực khác nhau như kinh doanh, y tế, khoa học dữ liệu, v.v Nó giúp tìm ra các mô hình dự đoán và giải thích mối quan hệ giữa các biến, từ đó giúp các doanh nghiệp hoạt động hiệu quả hơn, đưa ra quyết định đúng đắn và tối ưu hóa quy trình sản xuất, cũng như phát hiện ra các bệnh và đưa ra các phương pháp điều trị hiệu quả.

3.1.2 Vai trò của khai phá dữ liệu trong kinh doanh

Khai phá dữ liệu (Data Mining) đóng vai trò rất quan trọng trong kinh doanh bởi vì nó giúp các doanh nghiệp phát hiện ra các mẫu, xu hướng và thông tin giá trị từ tập dữ liệu của mình Cụ thể, khai phá dữ liệu trong kinh doanh có các vai trò sau:

- Phát hiện mô hình và xu hướng: Khai phá dữ liệu giúp tìm ra các mô hình và xu hướng tiềm ẩn trong dữ liệu Nó có thể giúp các doanh nghiệp hiểu rõ hơn về khách hàng, sản phẩm và thị trường, giúp họ đưa ra các quyết định chiến lược và kinh doanh chính xác hơn.

- Dự đoán và phân loại: Khai phá dữ liệu cũng giúp các doanh nghiệp dự đoán các xu hướng tương lai và phân loại khách hàng, sản phẩm hoặc dịch vụ vào nhóm tương ứng Điều này giúp cho việc đưa ra các quyết định về sản xuất, quảng cáo và tiếp thị một cách thông minh và hiệu quả.

- Tối ưu hóa quy trình: Khai phá dữ liệu cũng có thể giúp tối ưu hóa quy trình sản xuất, đặc biệt là trong các ngành công nghiệp sản xuất Nó giúp các doanh

Trang 25

nghiệp hiểu rõ hơn về các vấn đề liên quan đến sản xuất và quản lý, giúp họ tìm ra các điểm yếu và đưa ra các cải tiến cho quy trình sản xuất.

- Phát hiện gian lận và rủi ro: Khai phá dữ liệu cũng có thể giúp các doanh nghiệp phát hiện các gian lận và rủi ro trong hoạt động kinh doanh Nó giúp các doanh nghiệp tìm ra các mẫu bất thường trong dữ liệu và phát hiện các hành vi lừa đảo hoặc nguy cơ rủi ro khác.

Tóm lại, khai phá dữ liệu là một công cụ quan trọng giúp các doanh nghiệp hiểu rõ hơn về dữ liệu của họ và đưa ra các quyết định kinh doanh thông minh và hiệu quả Nó giúp các doanh nghiệp cải thiện hiệu quả hoạt động, tối ưu hóa quy trình và nâng cao khả năng cạnh tranh trong thị trường.

3.1.3 Quy trình khai phá dữ liệu

Các quy trình khai phá dữ liệu thường có thể bao gồm các bước sau đây: [ CITATION gee23 \l 1033 ]

- Hiểu về tình hình kinh doanh (Business Understanding): Xác định vấn đề và mục tiêu cho dự án khai thác dữ liệu.

- Hiểu về dữ liệu (Data Understanding): Thu thập và khám phá dữ liệu để hiểu được tính chất và đặc điểm của nó

- Chuẩn bị dữ liệu (Data Preparation): Làm sạch, biến đổi và tiền xử lý dữ liệu để chuẩn bị cho việc phân tích

- Mô hình hóa (Modeling): Áp dụng nhiều kỹ thuật và thuật toán cho dữ liệu để trích xuất thông tin và nhận được những hiểu biết hữu ích

- Đánh giá (Evaluation): Đánh giá chất lượng và tính hữu dụng của các mô hình và mẫu tìm được

- Triển khai (Deployment): Sử dụng các mẫu và mô hình tìm được để giải quyết vấn đề kinh doanh và đưa ra quyết định.

Quá trình khai thác tri thức không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã qua.

Trang 26

2.2 Kho dữ liệu

2.2.1 Kiến trúc luồng dữ liệu

Kiến trúc luồng dữ liệu (Data Flow Architecture) là một khái niệm trong khoa học dữ liệu, đề cập đến cách thức dữ liệu được di chuyển và xử lý qua các thành phần của hệ thống Nó được sử dụng để mô tả cấu trúc tổng thể của hệ thống và phân rã chúng thành các thành phần nhỏ hơn để dễ quản lý và phát triển Kiến trúc luồng dữ liệu bao gồm các thành phần sau:

- Nguồn dữ liệu: Đây là nơi dữ liệu được tạo ra hoặc nhập vào hệ thống, ví dụ như các bảng cơ sở dữ liệu, tập tin hoặc thiết bị đo lường.

- Xử lý dữ liệu: Các thành phần này được sử dụng để xử lý dữ liệu, ví dụ như các thuật toán khai phá dữ liệu, các kịch bản xử lý dữ liệu, hoặc các tiến trình thống kê.

- Lưu trữ dữ liệu: Đây là nơi dữ liệu được lưu trữ, ví dụ như cơ sở dữ liệu, kho dữ liệu hoặc các tập tin lưu trữ.

- Điều khiển luồng dữ liệu: Các thành phần này được sử dụng để điều khiển luồng dữ liệu qua các thành phần khác nhau của hệ thống, ví dụ như các kịch bản dữ liệu, các trình quản lý luồng dữ liệu, hoặc các hệ thống quản lý quy trình kinh doanh.

- Đích dữ liệu: Đây là nơi dữ liệu được đưa ra sau khi được xử lý và lưu trữ, ví dụ như các báo cáo, ứng dụng, hay các hệ thống khác.

Trong kiến trúc luồng dữ liệu, toàn bộ hệ thống phần mềm được coi là một chuỗi các phép biến đổi trên các phần liên tiếp hoặc tập hợp dữ liệu đầu vào, trong đó dữ liệu và hoạt động độc lập với nhau Theo cách tiếp cận này, dữ liệu được đưa vào hệ thống và sau đó lần lượt chảy qua các mô-đun cho đến khi chúng được gán cho một số đích cuối cùng (đầu ra hoặc kho lưu trữ dữ liệu).

Các kết nối giữa các thành phần hoặc mô-đun có thể được triển khai dưới dạng luồng I/O, bộ đệm I/O, đường ống hoặc các loại kết nối khác Dữ liệu có thể được di chuyển trong cấu trúc liên kết đồ thị có chu kỳ, trong cấu trúc tuyến tính không có chu kỳ hoặc trong cấu trúc kiểu cây Mục tiêu chính của phương pháp này là để đạt được những phẩm chất của tái sử dụng và sửa đổi Nó phù

Trang 27

hợp cho các ứng dụng liên quan đến một loạt các phép biến đổi hoặc tính toán dữ liệu độc lập được xác định rõ ràng trên đầu vào và đầu ra được xác định theo thứ tự, chẳng hạn như trình biên dịch và ứng dụng xử lý dữ liệu kinh doanh Có ba loại trình tự thực thi giữa các mô-đun:

- Chuỗi tuần tự

- Chế độ đường ống và bộ lọc hoặc đường ống không tuần tự - Kiểm soát quá trình

a Chuỗi tuần tự

- Chuỗi tuần tự là một mô hình xử lý dữ liệu cổ điển, trong đó một hệ thống con chuyển đổi dữ liệu chỉ có thể bắt đầu quá trình của nó sau khi hệ thống con trước đó hoàn thành thông qua

- Luồng dữ liệu mang toàn bộ một lô dữ liệu từ hệ thống con này sang hệ thống con khác

- Giao tiếp giữa các mô-đun được thực hiện thông qua các tệp trung gian tạm thời có thể bị xóa bởi các hệ thống con liên tiếp

- Nó được áp dụng cho những ứng dụng mà dữ liệu được xử lý theo lô và mỗi hệ thống con đọc các tệp đầu vào có liên quan và ghi các tệp đầu ra - Ứng dụng điển hình của kiến trúc này bao gồm xử lý dữ liệu kinh doanh

như ngân hàng và thanh toán tiện ích.

Hình 2 1: Mô hình chuỗi tuần tự

Ưu điểm

- Cung cấp sự phân chia đơn giản hơn trên các hệ thống con

- Mỗi hệ thống con có thể là một chương trình độc lập làm việc trên dữ liệu đầu vào và tạo ra dữ liệu đầu ra.

Nhược điểm

- Cung cấp độ trễ cao và thông lượng thấp

- Không cung cấp giao diện đồng thời và tương tác

Trang 28

- Kiểm soát bên ngoài là cần thiết để thực hiện.

b Chế độ đường ống và bộ lọc

Theo cách tiếp cận này, luồng dữ liệu được điều khiển bởi dữ liệu và toàn bộ hệ thống được phân tách thành các thành phần của nguồn dữ liệu, bộ lọc, đường ống và phần chứa dữ liệu

 Bộ lọc

Bộ lọc là một bộ chuyển đổi luồng dữ liệu độc lập hoặc bộ chuyển đổi luồng Nó biến đổi dữ liệu của luồng dữ liệu đầu vào, xử lý nó và ghi luồng dữ liệu đã chuyển đổi qua một đường ống để bộ lọc tiếp theo xử lý

Nó hoạt động ở chế độ gia tăng, trong đó nó bắt đầu hoạt động ngay khi dữ liệu đến qua đường ống được kết nối Có hai loại bộ lọc là bộ lọc chủ động và bộ lọc thụ động.

 Bộ lọc chủ động : Bộ lọc chủ động cho phép các đường ống được kết

nối kéo dữ liệu vào và đẩy dữ liệu đã chuyển đổi ra Nó hoạt động với đường ống thụ động, cung cấp cơ chế đọc/ghi để kéo và đẩy Chế độ này được sử dụng trong cơ chế lọc và ống UNIX.

 Bộ lọc thụ động: Bộ lọc thụ động cho phép các đường ống được kết nối

đẩy dữ liệu vào và kéo dữ liệu ra Nó hoạt động với đường ống đang hoạt động, lấy dữ liệu từ bộ lọc và đẩy dữ liệu vào bộ lọc tiếp theo Nó phải cung cấp cơ chế đọc/ghi.

Hình 2 1 Mô hình chế độ đường ống và bộ lọc

Ưu điểm

Trang 29

- Cung cấp đồng thời và thông lượng cao để xử lý dữ liệu quá mức - Cung cấp khả năng tái sử dụng và đơn giản hóa việc bảo trì hệ

thống Cung cấp khả năng sửa đổi và khớp nối thấp giữa các bộ lọc

- Cung cấp sự đơn giản bằng cách cung cấp sự phân chia rõ ràng giữa hai bộ lọc bất kỳ được kết nối bằng đường ống

- Cung cấp tính linh hoạt bằng cách hỗ trợ cả thực thi tuần tự và song song.

Nhược điểm

- Không thích hợp cho các tương tác năng động

- Mẫu số chung thấp là cần thiết để truyền dữ liệu ở định dạng

Các đường ống là không trạng thái và chúng mang luồng nhị phân hoặc ký tự tồn tại giữa hai bộ lọc Nó có thể di chuyển luồng dữ liệu từ bộ lọc này sang bộ lọc khác Các đường ống sử dụng một ít thông tin theo ngữ cảnh và không giữ lại thông tin trạng thái giữa các lần khởi tạo.

c Kiểm soát quá trình

Đây là một loại kiến trúc luồng dữ liệu trong đó dữ liệu không phải là luồng tuần tự cũng như luồng đường ống Luồng dữ liệu đến từ một tập hợp các biến, điều khiển việc thực hiện quy trình Nó phân tách toàn bộ hệ thống thành các hệ thống con hoặc mô-đun và kết nối chúng.

 Các loại hệ thống con

Kiến trúc Kiểm soát quy trình sẽ có một đơn vị xử lý để thay đổi các biến kiểm soát quy trình và một đơn vị kiểm soát để tính toán số lượng thay đổi Một bộ điều khiển phải có các yếu tố sau :

Trang 30

- Biến được kiểm soát: Biến được kiểm soát cung cấp các giá trị cho hệ thống cơ bản và phải được đo bằng các cảm biến Ví dụ, tốc độ trong hệ thống kiểm soát hành trình

- Biến đầu vào: Đo đầu vào của quy trình Ví dụ, nhiệt độ của khí hồi trong hệ thống kiểm soát nhiệt độ

- Biến thao tác: Giá trị biến thao tác được điều chỉnh hoặc thay đổi bởi bộ điều khiển

- Định nghĩa quy trình: Bao gồm các cơ chế để thao tác một số biến quy trình

- Cảm biến: Nhận các giá trị của các biến quy trình thích hợp để kiểm soát và có thể được sử dụng làm tham chiếu phản hồi để tính toán lại các biến được thao tác

- Đặc điểm: Đó là giá trị mong muốn cho một biến được kiểm soát

- Thuật toán điều khiển: Nó được sử dụng để quyết định cách thao tác các biến quy trình.

 Lĩnh vực ứng dụng: Kiến trúc kiểm soát quy trình phù hợp trong các

lĩnh vực sau:

- Thiết kế phần mềm hệ thống nhúng, trong đó hệ thống được thao tác bằng dữ liệu biến điều khiển quá trình

- Các ứng dụng, nhằm mục đích duy trì các thuộc tính cụ thể của các đầu ra của quy trình ở các giá trị tham chiếu đã cho

- Áp dụng cho hệ thống kiểm soát hành trình ô tô và kiểm soát nhiệt độ tòa nhà

- Phần mềm hệ thống thời gian thực để điều khiển chống bó cứng phanh ô tô, nhà máy điện hạt nhân, v.v.

Kiến trúc luồng dữ liệu giúp các nhà phát triển và quản trị hệ thống dễ dàng hiểu được cấu trúc tổng thể của hệ thống, đồng thời giúp họ tối ưu hóa hoạt động của hệ thống, tăng hiệu quả và giảm thiểu chi phí Nó cũng giúp cho việc mở rộng hệ thống trở nên dễ dàng hơn, cho phép thêm các thành phần mới một cách linh hoạt và hiệu quả.

Trang 31

2.2.2 Kho dữ liệu và khai phá dữ liệu trong BI

a Data warehouse

Kho dữ liệu (DW - Data Warehouse) là một hệ thống lưu trữ dữ liệu

được tối ưu hóa cho việc truy vấn và phân tích dữ liệu Nó được thiết kế để thu thập dữ liệu từ nhiều nguồn khác nhau và tổ chức chúng thành một cơ sở dữ liệu đồng nhất, giúp người dùng truy cập và phân tích dữ liệu một cách dễ dàng và nhanh chóng.

Data Warehouse hoạt động như một kho lưu trữ trung tâm Dữ liệu đi vào kho dữ liệu từ hệ thống giao dịch và các cơ sở dữ liệu liên quan khác Sau đó, dữ liệu được xử lý, chuyển đổi để người dùng có thể truy cập những dữ liệu này thông qua công cụ Business Intelligence, SQL client hay bảng tính Một Data Warehouse thường bao gồm các yếu tố như:

- Một cơ sở dữ liệu quan hệ để lưu trữ và quản lý dữ liệu.

- Giải pháp trích xuất, tải và biến đổi ELT để chuẩn bị dữ liệu cho phân tích.

- Khả năng phân tích thống kê, báo cáo và khai thác dữ liệu.

- Các công cụ phân tích khách hàng để trực quan hóa và trình bày dữ liệu cho người dùng doanh nghiệp.

- Các ứng dụng phân tích khác, phức tạp hơn tạo ra thông tin có thể hành động bằng cách áp dụng khoa học dữ liệu và thuật toán trí tuệ nhân tạo AI hoặc các tính năng đồ thị và không gian cho phép nhiều loại phân tích dữ liệu hơn trên quy mô lớn.

Đặc điểm chính của Data Warehouse gồm:  Hướng chủ đề (Subject-Oriented)

Data warehouse cung cấp thông tin phục vụ cho một chủ thể cụ thể thay vì các hoạt động liên tục của toàn tổ chức Các chủ đề đó có thể là bán hàng, khuyến mãi, hàng tồn kho,… Ví dụ, nếu bạn muốn phân tích dữ liệu bán hàng của công ty, bạn cần xây dựng một kho dữ liệu tập trung vào việc bán hàng Một nhà kho như vậy sẽ cung cấp những thông

Trang 32

tin có giá trị như “ai là khách hàng tốt nhất của bạn năm ngoái?” hoặc “ai có khả năng trở thành khách hàng tốt nhất của bạn trong năm tới?”  Được tích hợp (Integrated)

Data warehouse được phát triển bằng cách tích hợp dữ liệu từ nhiều nguồn khác nhau thành một định dạng nhất quán Dữ liệu phải được lưu trữ trong kho một cách nhất quán và được mọi người chấp nhận về cách đặt tên, định dạng và mã hóa Điều này tạo điều kiện cho việc phân tích dữ liệu hiệu quả

 Bất biến (Non-volatile)

Dữ liệu một khi được nhập vào kho dữ liệu phải không thay đổi Tất cả dữ liệu ở chế độ chỉ đọc (read-only) Dữ liệu trước đó không bị xóa khi nhập dữ liệu hiện tại Điều này giúp bạn phân tích những gì đã xảy ra và khi nào Data warehouse tách biệt với cơ sở dữ liệu hoạt động, có nghĩa là bất kỳ thay đổi thường xuyên nào trong cơ sở dữ liệu hoạt động sẽ không được nhìn thấy trong kho dữ liệu.

 Có gán nhãn thời gian (Time-Variant)

Dữ liệu được lưu trữ trong Data warehouse cung cấp thông tin từ một thời điểm lịch sử cụ thể; do đó, dữ liệu được phân loại với một khung thời gian cụ thể Ví dụ về Time-Variant trong Data warehouse được hiển thị trong Primary Key có yếu tố thời gian như ngày, tuần hoặc tháng Cả kho dữ liệu và khai phá dữ liệu là hai thành phần quan trọng của Business Intelligence (BI), một phương pháp được sử dụng để thu thập, quản lý và phân tích dữ liệu doanh nghiệp để hỗ trợ việc ra quyết định BI có thể giúp doanh nghiệp nắm bắt các cơ hội mới, tối ưu hóa quy trình kinh doanh và cải thiện hiệu quả hoạt động tổng thể của doanh nghiệp.

b BI – Business Intelligence

Hệ thống thông tin quản trị thông minh (Business Intelligence – BI)

là một hệ thống giúp các nhà quản lý công cụ và một phương pháp mới điều hành doanh nghiệp Theo Gartner định nghĩa BI là “một thuật ngữ chung bao gồm các ứng dụng, cơ sở hạ tầng và công cụ cũng như các phương pháp hay

Trang 33

nhất cho phép truy cập và phân tích thông tin để cải thiện và tối ưu hóa các quyết định cũng như hiệu suất.” Một số lợi ích của BI gồm:

- Truy cập/kiểm soát dữ liệu độc quyền - Cải thiện hiểu biết về dữ liệu trực quan hóa

- Khai thác dữ liệu điểm chuẩn quản lý hiệu suất tình báo bán hàng - Tinh giản hoạt động loại bỏ phỏng đoán

- Sử dụng BI là một lợi thế cạnh tranh

c Sự liên quan giữa DW và BI

Hình 2 2 Kiến trúc BI

Kiến trúc BI mạnh mẽ có các lớp và thành phần khác nhau, với các khả năng khác nhau để tạo ra bảng điều khiển và báo cáo Kho dữ liệu (DW) là một phần quan trọng của kiến trúc BI Một kiến trúc BI mạnh mẽ cần có các chức năng:

 Thu thập dữ liệu

Các doanh nghiệp thu thập dữ liệu từ các hệ thống vận hành như CRM, ERP, tài chính, sản xuất, quản lý chuỗi cung ứng, v.v Người dùng cũng có thể thu thập nó từ các nguồn thứ cấp như cơ sở dữ liệu khách hàng và dữ liệu thị trường

Trang 34

Các công cụ BI hiện đại tận dụng các trình kết nối dữ liệu mạnh mẽ để kết hợp dữ liệu từ các nguồn khác nhau Dữ liệu có thể tồn tại ở định dạng có cấu trúc, bán cấu trúc hoặc không cấu trúc.

 Tích hợp dữ liệu

Để phân tích dữ liệu, cần hợp nhất các nguồn thông tin khác nhau để cung cấp một cái nhìn thống nhất Nó liên quan đến việc trích xuất dữ liệu từ nhiều hệ thống và tải nó vào kho dữ liệu (DW) Quá trình này được gọi là ETL (trích xuất, chuyển đổi và tải) Trong quá trình trích xuất dữ liệu, dữ liệu thô được trích xuất từ các vị trí nguồn như tệp phẳng, cơ sở dữ liệu, trang web hoặc máy chủ SQL.

Giai đoạn chuyển đổi bao gồm lọc dữ liệu, làm sạch, loại bỏ trùng lặp và thực hiện các tính toán và tóm tắt trên dữ liệu thô Nó cũng có thể bao gồm thay đổi tiêu đề hàng và cột, chỉnh sửa chuỗi văn bản và định dạng dữ liệu thành bảng để khớp với giản đồ kho dữ liệu đích Ở bước cuối cùng, dữ liệu được tải vào DW.

 Lưu trữ dữ liệu

Kho dữ liệu lưu trữ dữ liệu có cấu trúc dưới dạng cơ sở dữ liệu quan hệ, cột hoặc đa chiều để phân tích thêm Nó giúp đạt được phân tích liên chức năng, tóm tắt dữ liệu và duy trì một phiên bản duy nhất của sự thật trong toàn tổ chức.

 Phân tích dữ liệu

Sau khi dữ liệu được xử lý, làm sạch và chuyển đổi, bước tiếp theo là rút ra kết luận Phân tích dữ liệu trích xuất thông tin có liên quan, có thể thực hiện từ bộ dữ liệu giúp doanh nghiệp đưa ra quyết định tốt hơn Những thông tin chi tiết hoặc số liệu thống kê này thường được trình bày dưới dạng đồ thị, biểu đồ, bảng, bản đồ và các hình ảnh trực quan khác.

Các công cụ BI hiện đại cho phép người dùng doanh nghiệp tạo bảng điều khiển, báo cáo và trực quan hóa trực quan thông qua khả năng kéo và thả mà không cần kiến thức kỹ thuật chuyên sâu.

Trang 35

 Thông tin chi tiết về dữ liệu

Rút ra những thông tin có giá trị liên quan đến việc phát hiện các mẫu trong biểu diễn bảng hoặc các số có xu hướng tăng lên trong biểu đồ đường Nó cũng có thể có nghĩa là mô tả phân phối thu nhập hoặc số giờ dành cho các nhiệm vụ khác nhau vào một ngày cụ thể trong biểu đồ hình tròn.

Việc xem xét lịch sử dữ liệu có thể cung cấp thông tin chi tiết về cách doanh nghiệp phản ứng với các tình huống khác nhau, bao gồm biến động thị trường, tính thời vụ, xu hướng, chu kỳ kinh tế, v.v Phân tích dữ liệu có thể phù hợp với điều kiện hiện tại để doanh nghiệp có thể đưa ra quyết định thông minh hơn dựa trên thực tế.

Cả kho dữ liệu và khai phá dữ liệu là hai thành phần quan trọng của

Business Intelligence (BI), một phương pháp được sử dụng để thu thập, quản lý và

phân tích dữ liệu doanh nghiệp để hỗ trợ việc ra quyết định BI có thể giúp doanh nghiệp nắm bắt các cơ hội mới, tối ưu hóa quy trình kinh doanh và cải thiện hiệu quả hoạt động tổng thể của doanh nghiệp.

2.3 Các phương pháp trong khai phá dữ liệu

2.3.1 Phương pháp phân lớp

Dạng phân tích dữ liệu nhằm rút trích các mô hình mô tả các lớp dữliệu hoặc dự đoán xu hướng dữ liệu Quá trình gồm hai bước:

- Học (giai đoạn huấn luyện): xây dựng bộ Phân lớp (Classifier) bằng việc phân tích/học tập huấn luyện

- Phân lớp (classification): Phân lớp dữ liệu/đối tượng mới nếu độ chính xác của bộ Phân lớp được đánh giá là có thể chấp nhận được (Acceptable)

Phân lớp là một kỹ thuật được sử dụng rộng rãi trong lĩnh vực khai phá dữ liệu, nơi khả năng mở rộng và hiệu quả là những vấn đề trước mắt trong các thuật toán phân loại cho cơ sở dữ liệu lớn Phân lớp là một kỹ thuật học có giám sát trong khai phá dữ liệu trong đó dữ liệu được dành cho bộ phân lớp xây dựng với các quy tắc phân lớp Sau đó, nếu dữ liệu kiểm tra được cung cấp cho bộ phân lớp, nó sẽ dự đoán các giá trị cho các thuộc tính chưa biết Phân lớp bao

Trang 36

gồm dự đoán một kết quả nhất định dựa trên một đầu vào nhất định Để dự đoán kết quả, thuật toán xử lý một tập huấn luyện chứa một tập hợp các thuộc tính và kết quả tương ứng thường được gọi là thuộc tính dự đoán Thuật toán cố gắng khám phá các mối quan hệ giữa các thuộc tính để có thể dự đoán kết quả Để dự đoán mọi thứ một cách chính xác, xây dựng thuộc tính là cần thiết để giải quyết các vấn đề

Phân lớp sử dụng một quyết định để phân lớp dữ liệu Mỗi quyết định được thiết lập trên một truy vấn liên quan đến một trong các biến đầu vào Dựa trên các xác nhận, cá thể dữ liệu được phân lớp.

Kỹ thuật khai thác dữ liệu phân lớp liên quan đến việc phân tích các thuộc tính khác nhau liên quan đến các loại dữ liệu khác nhau Một khi tổ chức xác định các đặc điểm chính của các loại dữ liệu này, tổ chức có thể phân loại hoặc phân loại dữ liệu liên quan Làm như vậy là rất quan trọng để xác định, ví dụ, các tổ chức thông tin nhận dạng cá nhân có thể muốn bảo vệ hoặc biên soạn lại khỏi các tài liệu.

Phân loại là một trong những kỹ thuật được sử dụng phổ biến nhất khi phân loại các tập dữ liệu lớn Phương pháp phân tích dữ liệu này bao gồm các thuật toán để học có giám sát được điều chỉnh cho phù hợp với chất lượng dữ liệu.

 Các thuật toán khai phá dữ liệu để phân lớp

 Cây quyết định

Cây quyết định là một kiểu mô hình dự báo (Predictive Model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng

- Mỗi một nút trong (Internal Node) tương ứng với một biến

- Đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó

- Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó

Trang 37

Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị thuộc tính Quá trình này được lặp lại một cách đệ quy cho mỗi tập con dẫn xuất Quá trình đệ quy hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụng một số cây quyết định để có thể cải thiện tỉ lệ phân loại

Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật (Series Of Rules) Các thuộc tính của đối tượng (ngoại trừ thuộc tính phân lớp – Category attribute) có thể thuộc các kiểu dữ liệu khác nhau (Binary, Nominal, ordinal, quantitative values) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal Tóm lại, cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes) của nó, cây quyết định sẽ sinh ra các luật để dự đoán lớp của các đối tượng chưa biết (unseen data).

Cây quyết định được coi là thuật toán khai thác dữ liệu mới nhất Chúng giúp phân tích phần nào của cơ sở dữ liệu thực sự hữu ích hoặc phần nào chứa giải pháp cho vấn đề của bạn Nó là một công cụ hỗ trợ sử dụng biểu đồ hoặc mô hình quyết định và những hậu quả có thể xảy ra Điều đó bao gồm kết quả của các sự kiện may rủi, chi phí tài nguyên và tiện ích Từ góc độ quyết định, cây quyết định là số lượng câu hỏi ít nhất phải được thừa nhận để đánh giá khả năng đưa ra quyết định chính xác Bằng cách xem xét các yếu tố dự đoán hoặc giá trị cho mỗi lần phân tách trong cây, bạn có thể rút ra một số ý tưởng hoặc tìm câu trả lời cho các câu hỏi bạn đã đặt ra Cây quyết định cho phép bạn tiếp cận chướng ngại vật trong một hành vi có cấu trúc và có hệ thống.

Đặc điểm của cây quyết định: là một cây có cấu trúc, trong đó:

- Root (Gốc): Là nút trên cùng của cây

- Node nội (trong): nút trung gian trên một thuộc tính đơn (hình Oval) - Nhánh: Biểu diễn các kết quả của kiểm tra trên nút

- Node lá: Biểu diễn lớp hay sự phân phối lớp (hình vuông hoặc chữ nhật)

Trang 38

Hình 2 3 Đặc điểm của cây ra quyết định

Ví dụ để giải thích về cây quyết định để giải quyết bài toán của David, người ta đã đưa ra một mô hình cây quyết định.

Hình 2 4 Ví dụ về Cây ra quyết định

Có 3 nhóm:

- Nhóm người chơi golf khi trời nắng

Trang 39

- Nhóm chơi khi trời nhiều mây - Nhóm chơi khi trời mưa Kết luận thứ nhất:

- Nếu trời nhiều mây, người ta luôn luôn chơi golf

- Và có một số người ham mê đến mức chơi golf cả khi trời mưa Tiếp theo, ta lại chia nhóm trời nắng thành hai nhóm con theo độ ẩm Ta thấy rằng khách hàng không muốn chơi golf nếu độ ẩm lên quá 70%

Cuối cùng, ta chia nhóm trời mưa thành hai nhóm Thấy rằng khách hàng sẽ không chơi golf nếu trời nhiều gió.

Và đây là lời giải ngắn gọn cho bài toán mô tả bởi cây phân loại

- David cho phần lớn nhân viên nghỉ vào những ngày trời nắng và ẩm, hoặc những ngày mưa gió Vì hầu như sẽ chẳng có ai chơi golf trong những ngày đó.

- Vào những hôm khác, khi nhiều người sẽ đến chơi golf, anh ta có thể thuê thêm nhân viên thời vụ để phụ giúp công việc

 Cây quyết định giúp ta biến một biểu diễn dữ liệu phức tạp thành một cấu trúc đơn giản hơn rất nhiều.

 Phân loại Naive Bayes

Naive Bayes là một thuật toán phân loại đơn giản, sử dụng dữ liệu lịch sử để dự đoán việc phân loại dữ liệu mới Nó tính toán xác suất mà một sự kiện sẽ xảy ra cho rằng một sự kiện khác đã xảy ra Chúng cho phép chúng tôi dự đoán khả năng xảy ra một sự kiện dựa trên các điều kiện mà chúng tôi biết đối với các sự kiện được đề cập.

Một số ví dụ thực tế về phân loại Naive Bayes là:

- Để lọc một email là thư rác hoặc không phải là thư rác - Xếp hạng một bài báo về công nghệ, chính trị hoặc thể thao - Được sử dụng cho phần mềm nhận dạng khuôn mặt

Trang 40

Hình 2 5 Mô tả thuật toán Naive Bayes

 Phân lớp với K phần tử láng giềng gần nhất

K-Nearest Neighbors algorithm (K-NN) là phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần xếp lớp (Query point) và tất cả các đối tượng trong Training Data Một đối tượng được phân lớp dựa vào K láng giềng của nó.

- K là số nguyên dương được xác định trước khi thực hiện thuật toán - Người ta thường dùng khoảng cách Euclidean để tính khoảng cách

giữa các đối tượng.

 Thuật toán K-NN được mô tả như sau:

Đề tài ứng dụng sas jmp để thực hiện khai phá dữ liệu nhằm dự đoán bệnh tim mạch tại bệnh viện vinmec

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan