đồ án giữa kì môn học máy machine learning introduction to machine learning

Mục tiêu củamachine learning nói chung là hiểu cấu trúc dữ liệu và điều chỉnh dữ liệu đó thànhcác model mà mọi người có thể hiểu và sử dụng.Mặc dù machine learning là một lĩnh vực trong

Trang 1

ĐỒ ÁN GIỮA KÌ MÔNHỌC MÁY (MACHINE LEARNING)

Introduction to Machine Learning

Người hướng dẫn: GV LÊ ANH CƯỜNGNgười thực hiện: TRẦN QUANG ĐÃNG – 52100174

TRƯƠNG ĐÌNH VĂN – 52100369HOÀNG ĐẮC BÌNH – 52100163

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2023

TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM

Trang 2

ĐỒ ÁN GIỮA KÌ MÔNHỌC MÁY (MACHINE LEARNING)

Introduction to Machine Learning

Người hướng dẫn: GV LÊ ANH CƯỜNGNgười thực hiện: TRẦN QUANG ĐÃNG – 52100174

TRƯƠNG ĐÌNH VĂN – 52100369HOÀNG ĐẮC BÌNH – 52100163

Trang 4

LỜI CẢM ƠN

Để hoàn thành bài báo cáo này, em xin tỏ lòng biết ơn sâu sắc đếnthầy Lê Anh Cường, đã tận tình hướng dẫn trong suốt quá trình viết báo cáo.Em chân thành cảm ơn quý thầy, cô trong khoa Công nghệ thông tin, TrườngĐại học Tôn Đức Thắng đã tận tình truyền đạt kiến thức giúp em trong thờigian học tập

Với vốn kiến thức được tiếp thu trong quá trình học không chỉ là nềntảng cho quá trình nghiên cứu bài báo cáo mà còn là hành trang quí báu đểem có thể có thể kinh nghiệm cho việc học sau này

Cuối cùng em kính chúc quý thầy, cô dồi dào sức khỏe và thành côngtrong sự nghiệp cao quý,.luôn dồi dào sức khỏe, đạt được nhiều thành côngtốt đẹp trong công việc.

Chân thành cảm ơn!

Trang 5

ĐỒ ÁN ĐƯỢC HOÀN THÀNHTẠI TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG

Tôi xin cam đoan đây là sản phẩm đồ án của riêng tôi / chúng tôi và được sựhướng dẫn của GV Huỳnh Anh Khiêm Các nội dung nghiên cứu, kết quả trong đềtài này là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây Nhữngsố liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá đượcchính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu thamkhảo.

Ngoài ra, trong đồ án còn sử dụng một số nhận xét, đánh giá cũng như sốliệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồngốc.

Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu tráchnhiệm về nội dung đồ án của mình Trường đại học Tôn Đức Thắng không liên

quan đến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thựchiện (nếu có).

TP Hồ Chí Minh, ngày 02 tháng 02 năm 2023 Tác giả

(ký tên và ghi rõ họ tên)Hoàng Đắc BìnhTrần Quang Đãng

Trương Đình Văn

Trang 6

PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊNPhần xác nhận của GV hướng dẫn

Tp Hồ Chí Minh, ngày tháng năm (kí và ghi họ tên)

Phần đánh giá của GV chấm bài

Tp Hồ Chí Minh, ngày tháng năm (kí và ghi họ tên)

Trang 7

TÓM TẮT

Machine learning là một lĩnh vực của trí tuệ nhân tạo (AI) Mục tiêu củamachine learning nói chung là hiểu cấu trúc dữ liệu và điều chỉnh dữ liệu đó thànhcác model mà mọi người có thể hiểu và sử dụng.

Mặc dù machine learning là một lĩnh vực trong khoa học máy tính, nó khácvới các phương pháp tính toán truyền thống Trong tính toán truyền thống, các thuậttoán là tập hợp các hướng dẫn được lập trình rõ ràng được sử dụng bởi các máy tínhđể tính toán hoặc giải quyết vấn đề Thay vào đó, thuật toán machine learning chophép máy tính đào tạo dữ liệu đầu vào và sử dụng phân tích thống kê để đưa ra cácgiá trị nằm trong một phạm vi cụ thể Do đó, machine learning tạo điều kiện cho cácmáy tính xây dựng model từ dữ liệu mẫu để tự động hóa các quy trình ra quyết địnhdựa trên dữ liệu đầu vào.

Bất kỳ người dùng công nghệ ngày nay đã được hưởng lợi từ machinelearning Công nghệ nhận dạng khuôn mặt cho phép các nền tảng truyền thông xãhội giúp người dùng gắn thẻ và chia sẻ ảnh của bạn bè Công nghệ nhận dạng ký tựquang học (OCR) chuyển đổi hình ảnh của văn bản thành loại có thể di chuyển Cáccông cụ đề xuất, được hỗ trợ bởi machine learning, đề xuất những bộ phim hoặcchương trình truyền hình nào để xem tiếp theo dựa trên sở thích của người dùng Xetự lái dựa vào machine learning để điều hướng có thể sớm có sẵn cho người tiêudùng.

Trong bài báo cáo này, chúng ta sẽ tìm hiểu các phương pháp machinelearning phổ biến về học tập có giám sát và không giám sát, và các phương pháp tiếpcận thuật toán phổ biến trong machine learning

Trang 8

1.1 Trình bày các khía cạnh sau đây của các mô hình học máy: 1

1.1.1 Mục tiêu của việc tạo ra mô hình 1

1.1.2 Phương pháp, giải thuật để học mô hình thế nào, tiêu chí học là gì? 1

1.1.3 Mô hình phù hợp cho loại bài toán và dữ liệu nào, ưu nhược điểm Đối với các mô hình: kNN, Linear Regression, Naive Bayes classifiers, Decision Tree Phân tích, so sánh các mô hình này theo 3 yếu tố trên 4

Trang 9

DANH MỤC HÌNH VẼ

Hình 1: cách thức hoạt động của SupervisedHình 2: cách thức hoạt động của UnsupervisedHình 3: hình biểu diễn của 1 overfitting

Trang 10

DANH MỤC BẢNG BIỂU

Bảng 1:So sánh hiệu quả của các phương pháp

Trang 11

Câu 1:

1.1 Trình bày các khía cạnh sau đây của các mô hình học máy:

1.1.1 Mục tiêu của việc tạo ra mô hình

Mục tiêu của việc tạo ra mô hình học máy là để giải quyết một bài toán cụ thể,thông qua việc học hỏi từ dữ liệu Mô hình học máy sẽ tìm ra các mối quan hệ giữacác biến trong dữ liệu, và sử dụng các mối quan hệ này để:

Phân loại dữ liệuDự đoán hoặc dự báoTối ưu hóa và tìm kiếmXử lí ngôn ngữ tự nhiênGợi ý cá nhân hóa

1.1.2 Phương pháp, giải thuật để học mô hình thế nào, tiêu chí học là gì?

Có hai phương pháp chính để hướng dẫn mô hình học máy: supervised(có

giám sát) và unsupervised(không giám sát)

Supervised: Kỹ thuật học có giám sát được sử dụng phổ biến hơn trong học

máy vì nó xử lý các tác vụ đơn giản và dễ thực hiện Dữ liệu đầu vào đượcgắn nhãn với câu trả lời mà thuật toán sẽ tìm ra, giúp máy chọn ra các mẫutrong tương lai, phân biệt dữ liệu tốt hơn hoặc đưa ra dự đoán Học có giámsát được phân thành hai loại thuật toán và lý tưởng cho các vấn đề có sẵnđiểm tham chiếu.

1 Phân loại Một vấn đề phân loại tồn tại khi biến đầu ra là một danh:

mục cụ thể.

2 Hồi quy Vấn đề hồi quy tồn tại khi biến đầu ra là một giá trị thực:

dao động (ví dụ: đô la, trọng lượng, số đo).

Trang 12

Hình 1: cách thức hoạt động của Supervised

Unsupervised : mô hình học máy học một cách tự nhiên thay vì nhận tập dữ

liệu có hướng dẫn rõ ràng Sau đó, nó cố gắng tự động tìm cấu trúc trong dữliệu thô thông qua phân tích và diễn giải Mặc dù học có giám sát là dễ dàngnhất nhưng không phải lúc nào chúng ta cũng có quyền truy cập vào các bộdữ liệu được gắn nhãn hoàn chỉnh, hoàn chỉnh để huấn luyện thuật toán Khihọc có giám sát có câu trả lời “đúng”, thì học không giám sát sẽ hữu íchtrong trường hợp các nhà phân tích (hoặc thực sự là bất kỳ ai) đặt câu hỏi vàthuật toán không có câu trả lời hoặc có nhiều hơn một câu trả lời Mô hìnhhọc tập không giám sát được phân thành bốn loại thuật toán khác nhau,nhóm dữ liệu dựa trên sự tương đồng hoặc mối quan hệ giữa các biến:

1 Phân cụm Mô hình học sâu tìm kiếm dữ liệu và tính năng tương tự:

nhau rồi nhóm chúng lại với nhau.

2 Liên kết Bằng cách xem xét các thuộc tính chính trong dữ liệu, mô:

hình học không giám sát có thể dự đoán các thuộc tính khác mà chúngthường được liên kết.

3 Phát hiện bất thường Trong trường hợp này, mô hình được sử dụng:

để thu hút sự chú ý đến các dữ liệu ngoại lệ Ví dụ: các ngân hàng

Trang 13

phát hiện gian lận bằng cách tìm kiếm các hành vi mua hàng bấtthường với khách hàng—chẳng hạn như nếu thẻ được sử dụng ở haiđịa điểm rất khác nhau trong một ngày, ngân hàng sẽ thông báo vàđiều tra hoạt động đó.

4 Mạng thần kinh nhân tạo (hoặc bộ mã hóa tự động) Bộ mã hóa tự:

động lấy dữ liệu đầu vào, nén thành mã, sau đó cố gắng tạo lại đầuvào từ mã đó đồng thời loại bỏ mọi nhiễu tín hiệu để cải thiện chấtlượng dữ liệu.

Hình 2: cách thức hoạt động của Unsupervised

Vi dụ các phương pháp :

1 kNN: Phương pháp kNN (k-Nearest Neighbors) là một mô hình họcmáy dựa trên sự gần gũi Mô hình này sẽ dự đoán nhãn của một điểmdữ liệu mới dựa trên nhãn của các điểm dữ liệu gần nhất với

nó(Thuộc Supervised)

2 Linear Regression: Phương pháp Linear Regression là một mô hìnhhọc máy dựa trên tuyến tính Mô hình này sẽ xây dựng một hàmtuyến tính để dự đoán giá trị của một biến phụ thuộc dựa trên các giá

trị của các biến độc lập (Thuộc Supervised)

Trang 14

3 Naive Bayes classifiers: Phương pháp Naive Bayes classifiers là mộtmô hình học máy dựa trên xác suất Mô hình này sẽ tính xác suất củamột điểm dữ liệu thuộc về mỗi lớp, và sử dụng lớp có xác suất cao

nhất làm dự đoán.(Thuộc Supervised)

4 Decision Tree: Phương pháp Decision Tree là một mô hình học máydựa trên cây quyết định Mô hình này sẽ xây dựng một cây quyết địnhđể phân loại dữ liệu.(Trường hợp đặc biệt Decision Tree có thể thuộccả vào Supervised learning và Unsupervised learning, tùy thuộcvào cách sử dụng)

1.1.3 Mô hình phù hợp cho loại bài toán và dữ liệu nào, ưu nhược điểm Đối với các mô hình: kNN, Linear Regression, Naive Bayes classifiers, Decision Tree Phân tích, so sánh các mô hình này theo 3 yếu tố trên.

1.1.3.1 kNN:

Phù hợp cho: Bài toán phân loại và hồi quyDữ liệu: hiệu quả với dữ liệu nhiễuƯu điểm:

1 Dễ thực hiện : Với tính đơn giản và chính xác của thuật toán, đây làmột trong những phân loại đầu tiên mà một nhà khoa học dữ liệu mớisẽ học.

2 Thích ứng dễ dàng : Khi các mẫu đào tạo mới được thêm vào, thuậttoán sẽ điều chỉnh để tính đến bất kỳ dữ liệu mới nào vì tất cả dữ liệuđào tạo được lưu vào bộ nhớ.

3 Ít siêu tham số : KNN chỉ yêu cầu giá trị ak và thước đo khoảng cách,thấp khi so sánh với các thuật toán học máy khác.

Nhược điểm: Có thể không hiệu quả với dữ liệu lớn, ngoài ra

1 Không có khả năng mở rộng tốt : Vì KNN là một thuật toán “lườibiếng” nên nó chiếm nhiều bộ nhớ và lưu trữ dữ liệu hơn so với cácbộ phân loại khác Điều này có thể tốn kém từ cả góc độ thời gian và

Trang 15

tiền bạc Nhiều bộ nhớ và dung lượng lưu trữ hơn sẽ làm tăng chi phíkinh doanh và nhiều dữ liệu hơn có thể mất nhiều thời gian hơn đểtính toán

2 Lời nguyền về chiều : Thuật toán KNN có xu hướng trở thành nạnnhân của lời nguyền về chiều, nghĩa là nó không hoạt động tốt với dữliệu đầu vào có chiều cao Điều này đôi khi còn được gọi là peakingphenomenon( hiện tượng đạt đỉnh)

3 Dễ bị overfitting : Do bị “lời nguyền về chiều kích”, KNN cũng dễ bịoverfitting hơn Mặc dù các kỹ thuật lựa chọn tính năng và giảm kíchthước được tận dụng để ngăn điều này xảy ra, giá trị của k cũng có thểảnh hưởng đến hành vi của mô hình Giá trị k thấp hơn có thể khớp dữliệu quá mức, trong khi giá trị k cao hơn có xu hướng “làm mịn” cácgiá trị dự đoán vì nó lấy trung bình các giá trị trên một khu vực hoặcvùng lân cận lớn hơn Tuy nhiên, nếu giá trị của k quá cao thì dữ liệucó thể không phù hợp.

1.1.3.2 Linear Regression:Phù hợp cho: Bài toán hồi quyDữ liệu: hiệu quả với dữ liệu tuyến tínhƯu điểm:

1 Thực hiện đơn giản: Dễ hiểu và triển khai

2 Hiệu suất trên các bộ dữ liệu có thể phân tách tuyến tính: Hồi quytuyến tính phù hợp gần như hoàn hảo với các tập dữ liệu có thể phântách tuyến tính và thường được sử dụng để tìm ra bản chất của mốiquan hệ giữa các biến.

3 Overfitting có thể được giảm bớt bằng cách chính quy hóa: là một kỹthuật có thể được thực hiện dễ dàng và có khả năng làm giảm độ phứctạp của một hàm một cách hiệu quả để giảm nguy cơ Overfitting.

Nhược điểm:

1 Có thể không hiệu quả với dữ liệu phi tuyến

Trang 16

2 Dễ bị Underfitting: Một tình huống phát sinh khi mô hình học máykhông thu thập được dữ liệu đúng cách Điều này thường xảy ra khihàm giả thuyết không thể khớp tốt với dữ liệu.

3 Nhạy cảm với các ngoại lệ:Các ngoại lệ của một tập dữ liệu là các giátrị bất thường hoặc cực trị lệch khỏi các điểm dữ liệu khác của phânphối Các ngoại lệ dữ liệu có thể làm hỏng nghiêm trọng hiệu suấtcủa mô hình học máy và thường có thể dẫn đến các mô hình cóđộ chính xác thấp.

1.1.3.3 Naive Bayes classifiers:

Phù hợp cho: Bài toán phân loạiDữ liệu: hiệu quả với dữ liệu phân tách tốtƯu điểm:

1 Dễ hiểu và triển khai

2 Thuật toán này hoạt động nhanh chóng và có thể tiết kiệm rất nhiềuthời gian

3 Naive Bayes phù hợp để giải các bài toán dự đoán đa lớp

4 Nếu giả định về tính độc lập của các tính năng là đúng thì nó có thểhoạt động tốt hơn các mô hình khác và yêu cầu ít dữ liệu huấn luyệnhơn nhiều

5 Naive Bayes phù hợp hơn với các biến đầu vào phân loại hơn là cácbiến số.

1 Có thể không hiệu quả với dữ liệu phân tách kém

2 Naive Bayes cho rằng tất cả các yếu tố dự đoán (hoặc đặc điểm) đềuđộc lập, hiếm khi xảy ra trong đời thực Điều này hạn chế khả năngáp dụng thuật toán này trong các trường hợp sử dụng trong thế giớithực.

Trang 17

3 Thuật toán này phải đối mặt với 'vấn đề tần số bằng 0' trong đó nógán xác suất bằng 0 cho một biến phân loại có danh mục trong tập dữliệu thử nghiệm không có sẵn trong tập dữ liệu huấn luyện Sẽ tốtnhất nếu bạn sử dụng kỹ thuật làm mịn để khắc phục vấn đề này.4 Ước tính của nó có thể sai trong một số trường hợp, vì vậy bạn không

nên quá coi trọng kết quả xác suất của nó.

1.1.3.4 Decision Tree:

Phù hợp cho: Bài toán phân loạiDữ liệu: dữ liệu phân tách tốtƯu điểm:

1 Dễ hiểu và triển khai, hiệu quả với

2 Khả năng giải thích: Một trong những ưu điểm quan trọng nhất củaCây quyết định là nó rất trực quan và dễ hiểu

3 Ít chuẩn bị dữ liệu hơn: Các bước chuẩn bị dữ liệu điển hình nhưchuẩn hóa/tiêu chuẩn hóa dữ liệu, xử lý giá trị còn thiếu, giới hạnngoại lệ, v.v., không bắt buộc đối với cây quyết định, khiến nó trởthành thuật toán 'bắt buộc' đối với các nhà khoa học dữ liệu.4 Phi tham số: Cây quyết định là một thuật toán phi tham số và do đó

không có giả định quan trọng nào cần được thực hiện hoặc phânphối dữ liệu cần được xem xét

5 Tính linh hoạt: một thuật toán rất linh hoạt và có thể thực hiện nhiềuvai trò ngoài các dự đoán tiêu chuẩn.

6 Phi tuyến tính: Cây quyết định có thể tạo ra các ranh giới quyết địnhphức tạp, cho phép chúng dễ dàng giải quyết các vấn đề phi tuyếntính Trong khi các thuật toán khác có thể giải quyết vấn đề phituyến tính, ưu điểm của Cây quyết định là nó mang lại khả năngdiễn giải được

1 Có thể không hiệu quả với dữ liệu nhiễu

Trang 18

2 Overfitting: Một trong những nhược điểm phổ biến và nổi bật nhấtcủa cây quyết định là thuật toán có phương sai cao Điều này có nghĩalà nó có thể dễ dàng bị Overfitting vì nó không có cơ chế cố hữu đểdừng lại, từ đó tạo ra các quy tắc quyết định phức tạp.

3 Giảm tính năng và lấy mẫu lại dữ liệu: Cây quyết định có thể tốnnhiều thời gian trong giai đoạn huấn luyện và vấn đề này có thể bịphóng đại nếu có nhiều biến độc lập liên tục Ngoài ra, nếu có tập dữliệu lớp không cân bằng, mô hình có thể trở nên thiên về lớp đa số4 Tối ưu hóa: Ở mọi cấp độ, thuật toán cây quyết định tìm kiếm nút

thuần túy và không xem xét quyết định gần đây sẽ ảnh hưởng như thếnào đến một số giai đoạn phân tách tiếp theo Đây là lý do tại sao nóđược biết đến như một thuật toán tham lam.Phương pháp làm việc nàylàm cho mô hình có thể hiểu được nhưng không đảm bảo rằng thuậttoán sẽ trả về kết quả tối ưu toàn cục Ngoài ra, nếu một vài biến có ýnghĩa lớn hoặc gây rò rỉ dữ liệu, chúng sẽ ‘chiếm quyền điều khiển'quy trình

quy Hồi quy Phân loại Phân loại

Phương pháp Dựa trên sự gần

Dựa trên tuyến

tính Dựa trên xác suất

Dựa trên câyquyết định

Phù hợp vớiloại bài toán

Phân loại và hồiquy

Hồi quy Phân loại Phân loại

Trang 19

và dữ liệu

Ưu điểm

Dễ hiểu và triểnkhai, hiệu quả với

dữ liệu nhiễu

Dễ hiểu và triểnkhai, hiệu quả vớidữ liệu tuyến tính

Dễ hiểu và triểnkhai, hiệu quả với

dữ liệu phân táchtốt

Dễ hiểu và triểnkhai, hiệu quả vớidữ liệu phân tách

Nhược điểm Có thể không hiệu

quả với dữ liệu lớn

Có thể khônghiệu quả với dữ

liệu phi tuyến

Có thể không hiệuquả với dữ liệu

phân tách kém

Có thể khônghiệu quả với dữ

Lọc features giúp giảm thiểu độ phức tạp của mô hình Mô hình có độ phứctạp thấp sẽ ít bị quá khớp (overfitting) hơn Quá khớp là hiện tượng mô hình họcquá nhiều thông tin từ dữ liệu huấn luyện, dẫn đến việc mô hình không thể dự đoánchính xác dữ liệu mới.

Lọc features giúp cải thiện tốc độ học tập của mô hình Mô hình với ít thuộctính sẽ học nhanh hơn mô hình với nhiều thuộc tính Điều này là do mô hình với ítthuộc tính cần ít dữ liệu hơn để học.