Học nửa giám sát dựa trên đồ thị và ứng dụng

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ––––––––––––––––––––––––––––––––––– MA THỊ HỒNG THU HỌC NỬA GIÁM SÁT DỰA TRÊN ĐỒ THỊ VÀ ỨNG DỤNG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐOÀN VĂN BAN THÁI NGUYÊN - 2015 i LỜI CẢM ƠN Trong trình làm luận văn “Học nửa giám sát dựa đồ thị ứng dụng” nhận giúp đỡ tận tình cá nhân tập thể Trước hết, xin bày tỏ lòng biết ơn sâu sắc đến thầy giáo PGS.TS Đoàn Văn Ban, người tận tình hướng dẫn, bảo cho suốt trình thực luận văn Xin bày tỏ lòng biết ơn chân thành tới thầy, cô giáo Viện Công nghệ Thông tin thầy, cô giáo Trường Đại học Công nghệ Thông tin & Truyền thông Thái Nguyên, đem lại cho kiến thức vô có ích năm học tập trường Cuối xin gửi lời cám ơn đến gia đình, bạn bè, đồng nghiệp người bên cạnh, động viên khuyến khích trình thực đề tài nghiên cứu Tôi xin chân thành cảm ơn! Thái Nguyên, ngày 10 tháng năm 2015 MỤC LỤC LỜI CẢM ƠN i DANH MỤC HÌNH VẼ v LỜI MỞ ĐẦU 1 Lý chọn đề tài Mục đích nghiên cứu Đối tượng phạm vi nghiên cứu Tóm tắt luận điểm Phương pháp nghiên cứu Nội dung luận văn CHƯƠNG 1: TỔNG QUAN VỀ CÁC PHƯƠNG PHÁP HỌC MÁY 1.1 Giới thiệu học máy 1.2 Các phương pháp học máy 1.2.1 Học có giám sát 1.2.2 Học không giám sát 1.2.3 Học tăng cường 11 1.2.4 Học nửa giám sát 12 1.3 Một số phương pháp học nửa giám sát 14 1.3.1 Phương pháp tự huấn luyện 14 1.3.2 Phương pháp đồng huấn luyện 15 1.3.3 Phương pháp Máy véc tơ hỗ trợ truyền dẫn 18 1.3.4 Phương pháp dựa đồ thị 22 1.4 Kết luận 24 CHƯƠNG 2: PHƯƠNG PHÁP HỌC NỬA GIÁM SÁT DỰA TRÊN ĐỒ THỊ 25 2.1 Giới thiệu 25 2.2 Các loại đồ thị phổ biến sử dụng học nửa giám sát 27 2.2.1 Đồ thị kết nối đầy đủ 27 2.2.2 Đồ thị rời rạc 27 2.2.3 Đồ thị -láng giềng gần 28 2.2.4 Đồ thị -láng giềng gần 28 2.2.5 Đồ thị trọng số exp 29 2.3 Các phương pháp xác định khoảng cách điểm liệu 29 2.3.1 Khoảng cách cục bộ, khoảng cách toàn cục trọng số 29 2.3.2 Khoảng cách Hamming 30 2.3.3 Khoảng cách Manhattan cho thuộc tính số học 30 2.3.4 Các hàm khoảng cách cục không đồng 31 2.3.5 Hàm khoảng cách tri thức chuyên gia 31 2.4 Thuật toán lan truyền nhãn đồ thị 32 2.4.1 Ký hiệu 32 2.4.2 Nội dung thuật toán 33 2.4.3 Sự hội tụ thuật toán 34 2.4.4 Phương pháp xác định siêu tham số đồ thị 36 2.4.5 Độ phức tạp thuật toán 38 2.5 Thuật toán học nửa giám sát dựa đồ thị - Mincut 38 2.6 Các trường Gaussian ngẫu nhiên hàm điều hòa 40 2.6.1 Các trường Gaussian ngẫu nhiên 40 2.6.2 Đồ thị Laplacian 42 2.6.3 Các hàm điều hòa 43 2.7 Đánh giá 44 2.8 Kết luận chương 44 CHƯƠNG 3: CÀI ĐẶT VÀ THỬ NGHIỆM THUẬT TOÁN 45 3.1 Mô tả toán 45 3.2 Mô tả liệu đầu vào 45 3.3 Trích chọn đặc trưng 47 3.4 Cài đặt thử nghiệm 50 Môi trường cài đặt thử nghiệm 50 Các chức chương trình 51 3.5 Kết thực nghiệm đánh giá độ phức tạp 54 3.6 Kết luận 56 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 57 TÀI LIỆU THAM KHẢO 58 DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT Thuật ngữ Viết tắt Ý nghĩa Concept Concept Khái niệm Self-training Self-training Tự huấn luyện Co-training Co-training Đồng huấn luyện Machine learning Machine learning Học máy Supervised learning Supervised learning Học có giám sát Unsupervised learning Unsupervised learning Học không giám sát Reinforcement learning Reinforcement learning Học tăng cường Semi-supervised learning Support vector machine Transductive support vector machine Semi-supervised learning SVM TSVM Học nửa giám sát Máy véc tơ hỗ trợ Máy véc tơ hỗ trợ truyền dẫn Labeled Propagation Labeled Propagation Lan truyền nhãn Graph-based Graph-based Dựa đồ thị DANH MỤC HÌNH VẼ Hình 1.1: Phương pháp phân cụm liệu Hình 1.2: Khung nhìn liệu văn liên kết 17 Hình 1.3: Dữ liệu học theo phương pháp Co-training 18 Hình 1.4: Phương pháp Máy véc tơ hỗ trợ 19 Hình 1.5: Phương pháp máy vecto hỗ trợ truyền dẫn 22 Hình 1.6: Minh họa đồ thị gán nhãn 23 Hình 2.1: Phương pháp dựa đồ thị 25 Hình 2.2: Đồ thị kết nối đầy đủ 27 Hình 2.3: Đồ thị rời rạc 27 Hình 2.4: Đồ thị -láng giềng gần 28 Hình 2.5: Đồ thị -láng giềng gần 28 Hình 2.6: Trọng số cạnh hai đỉnh đồ thị 29 Hình 2.7: Đồ thị với trọng số cạnh 32 Hình 3.1: Tệp liệu tin nhắn mẫu 45 Hình 3.2: Nội dung tin nhắn chuyển thành dạng vector 46 Hình 3.3: Nội dung file liệu dạng vector 47 Hình 3.4: Trích chọn đặc trưng 48 Hình 3.5: Trích chọn thuộc tính cho file đầu vào chương trình 49 Hình 3.6: Dữ liệu chương trình 49 Hình 3.7: Dữ liệu chương trình mở Notepad 50 Hình 3.8: Giao diện chọn tệp liệu 51 Hình 3.9: Kết lựa chọn phương pháp tự huấn luyện 52 Hình 3.10: Giao diện đồ thị lan truyền nhãn trước thực 53 Hình 3.11: Giao diện đồ thị lan truyền nhãn sau thực 54 Hình 3.12: Kết đồ thị sau gán nhãn dạng đồ thị 54 LỜI MỞ ĐẦU Lý chọn đề tài Học máy (Machine learning) ngành khoa học nghiên cứu kĩ thuật, phương pháp cho phép máy tính có khả "học" giống người Hay nói cách khác cụ thể hơn, học máy phương pháp để tạo chương trình máy tính việc phân tích tập liệu, qua máy tính có khả tích lũy tri thức thông qua việc học khái niệm để định trường hợp tương tự Lĩnh vực học máy truyền thống thường chia thành bốn lĩnh vực con, bao gồm: Học có giám sát (Supervised learning), Học không giám sát (Unsupervised learning), Học nửa giám sát (Semi-Supervised learning) Học tăng cường (Reinforcement learning) Học nửa giám sát sử dụng liệu gán nhãn chưa gán nhãn để huấn luyện - điển hình lượng nhỏ liệu có gán nhãn với lượng lớn liệu chưa gán nhãn Học nửa giám sát đứng học không giám sát (không có liệu có nhãn nào) có giám sát (toàn liệu gán nhãn) Để gán nhãn liệu cho toán học máy thường đòi hỏi phân loại tay ví dụ huấn luyện Chi phí cho quy trình khiến tập liệu gán nhãn hoàn toàn trở nên không khả thi, liệu không gán nhãn thường có chi phí thấp Trong tình đó, học nửa giám sát có giá trị thực tiễn lớn lao Chính vậy, học nửa giám sát kết hợp số lượng lớn liệu chưa gán nhãn với liệu gán nhãn để xây dựng phân lớp tốt Một số phương pháp điển hình lĩnh vực kể đến như: Phương pháp EM với mô hình sinh hỗn hợp (EM with generative mixture models), phương pháp Tự huấn luyện (Self-training), phương pháp Đồng huấn luyện (Co-training), phương pháp máy véc tơ hỗ trợ (Transductive support vector machines) phương pháp Dựa đồ thị (Graph-based) Trong phương pháp học nửa giám sát dựa đồ thị (Graph-based) hướng nghiên cứu mở đem lại hiệu lớn Với lý trên, tác giả chọn đề tài “Học nửa giám sát dựa đồ thị ứng dụng” làm đề tài nghiên cứu luận văn tốt nghiệp thạc sĩ chuyên ngành Khoa học máy tính Mục đích nghiên cứu Nghiên cứu tổng quan học nửa giám sát số phương pháp học nửa giám sát Nghiên cứu phương pháp học nửa giám sát dựa đồ thị Cài đặt thử nghiệm thuật toán lan truyền nhãn đồ thị thuật toán tự huấn luyện Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: Học nửa giám sát Phạm vi nghiên cứu: - Nghiên cứu tổng quan học có giám sát, học không giám sát học nửa giám sát - Các phương pháp học nửa giám sát phổ biến - Phương pháp học nửa giám sát dựa đồ thị (Graph-based) số thuật toán - Cài đặt thử nghiệm thuật toán lan truyền nhãn phương pháp học nửa giám sát dựa đồ thị thuật toán tự huấn luyện Tóm tắt luận điểm Các luận điểm mà luận văn thể được: Nghiên cứu tổng quan đánh giá phương pháp học nửa giám sát, tập trung vào phương pháp học nửa giám sát dựa đồ thị Tập trung tìm hiểu số thuật toán lĩnh vực học nửa giám sát như: Phương pháp EM với mô hình sinh hỗn hợp, phương pháp Tự huấn luyện, phương pháp Đồng huấn luyện phương pháp máy véc tơ hỗ trợ Đồng thời tập trung nghiên cứu chi tiết phương pháp dựa đồ thị Cài đặt phần mềm thử nghiệm mô thuật toán lan truyền nhãn thuật toán tự huấn luyện, đánh giá độ phức tạp hai thuật toán Phương pháp nghiên cứu - Đọc tài liệu, phân tích, tổng hợp - Thống kê, phân tích liệu - Thực nghiệm đánh giá kết - Kết hợp nghiên cứu lý thuyết, tìm hiểu tình hình ứng dụng, đánh giá khả ứng dụng đề xuất giải pháp Nội dung luận văn Nội dung luận văn gồm 03 chương:  Chương 1: Tổng quan phương pháp học máy Chương trình bày tổng quan phương pháp học máy gồm phương pháp Học có giám sát (Supervised learning), Học không giám sát (Unsupervised learning), Học nửa giám sát (Semi-Supervised learning)  Chương 2: Phương pháp học nửa giám sát dựa đồ thị Tập trung tìm hiểu số thuật toán lĩnh vực học nửa giám sát như: Phương pháp EM với mô hình sinh hỗn hợp, phương pháp Tự huấn luyện, phương pháp Đồng huấn luyện phương pháp máy véc tơ hỗ trợ Đồng thời tập trung nghiên cứu chi tiết phương pháp dựa đồ thị  Chương 3: Cài đặt thử nghiệm thuật toán Cài đặt thử nghiệm thuật toán tự huấn luyện lan truyền nhãn dựa đồ thị, đánh giá độ phức tạp hai thuật toán CHƯƠNG 1: TỔNG QUAN VỀ CÁC PHƯƠNG PHÁP HỌC MÁY 1.1 Giới thiệu học máy Học máy (Machine Learning) ngành khoa học nghiên cứu thuật toán cho phép máy tính học khái niệm (concept)[7] Có hai loại phương pháp học máy chính:  Phương pháp quy nạp: Máy học/phân biệt khái niệm dựa liệu thu thập trước Phương pháp cho phép tận dụng nguồn liệu nhiều sẵn có  Phương pháp suy diễn: Máy học/phân biệt khái niệm dựa vào luật Phương pháp cho phép tận dụng kiến thức chuyên ngành để hỗ trợ máy tính Hiện nay, thuật toán cố gắng tận dụng ưu điểm hai phương pháp Các ngành khoa học liên quan đến lĩnh vực học máy điển hình là:  Lý thuyết thống kê: kết xác suất thống kê tiền đề cho nhiều phương pháp học máy Đặc biệt, lý thuyết thống kê cho phép ước lượng sai số phương pháp học máy  Các phương pháp tính: thuật toán học máy thường sử dụng tính toán số thực/số nguyên liệu lớn Trong đó, toán như: tối ưu có/không ràng buộc, giải phương trình tuyến tính v.v… sử dụng phổ biến  Khoa học máy tính: sở để thiết kế thuật toán, đồng thời đánh giá thời gian chạy, nhớ thuật toán học máy  Lĩnh vực học máy truyền thống thường chia thành bốn lĩnh vực con:  Học có giám sát: Máy tính xem số mẫu gồm đầu vào đầu tương ứng trước Sau học xong mẫu này, máy tính quan sát đầu vào cho kết  Học không giám sát: Máy tính xem mẫu đầu ra, sau máy tính phải tự tìm cách phân loại mẫu mẫu Hàm điều hòa thể vài cách nhìn khác cách nhìn khác cung cấp tập hợp lý luận bổ sung kỹ thuật phong phú cho lĩnh vực học nửa giám sát 2.7 Đánh giá Hầu hết thuật toán học nửa giám sát dựa đồ thị dựa việc học lan truyền, nhược điểm phương pháp dễ dàng mở rộng thêm điểm liệu mà không thuộc tập L∪ U, điểm liệu thêm vào đồ thị làm thay đổi cấu trúc đồ thị, dẫn tới chi phí tính toán bị tăng lên Bên cạnh đó, lý có ảnh hưởng tới chi phí tính toán phụ thuộc vào loại đồ thị xây dựng, sử dụng đồ thị kết nối đầy đủ ta phải tính toán cho tất cạnh nối hai đỉnh 2.8 Kết luận chương Trong chương này, tìm hiểu phương pháp học nửa giám sát dựa đồ thị số thuật toán sử dụng để phục vụ trình học Nghiên cứu thuật toán lan truyền nhãn để học từ liệu gán nhãn chưa gán nhãn, nhãn lan truyền đồ thị thông qua hàm trọng số đỉnh lân cận gán nhãn Đây thuật toán quan trọng với học máy đồ thị Chúng ta nghiên cứu cách xác định siêu tham số để phục vụ trình lan truyền nhãn với thuật toán Cây khung nhỏ Vì đồ thị đầu vào tất thuật toán nên cần xây dựng đồ thị cho phù hợp với yêu cầu toán CHƯƠNG 3: CÀI ĐẶT VÀ THỬ NGHIỆM THUẬT TOÁN 3.1 Mô tả toán Với mục tiêu gán nhãn cho đỉnh đồ thị dựa sở đỉnh có nhãn trọng số cạnh đỉnh, tác giả tiến hành xây dựng chương trình ứng dụng nhằm mô trình thực thuật toán Chương trình ứng dụng cài đặt hai thuật toán học nửa giám sát theo hai phương pháp phương pháp tự huấn luyện với kết hợp liệu gán nhãn, chưa gán nhãn phương pháp lan truyền nhãn dựa đồ thị để thực việc phân loại tin nhắn rác có tập tin nhắn thông thường 3.2 Mô tả liệu đầu vào Dữ liệu đầu vào chương trình lấy ngẫu nhiên với 50 tin nhắn có tin nhắn rác liệu thử nghiệm SMS Spam corpus (nguồn http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/) Mỗi dòng liệu chứa nội dung tin nhắn dạng text Kết thúc dòng dấu phân cách “phẩy”, sau dấu phẩy tin nhắn phân loại thành ham-tin nhắn hợp lệ spam-tin nhắn rác Ví dụ nội dung liệu: Hình 3.1: Tệp liệu tin nhắn mẫu Trước tiến hành phân lớp liệu, cần phải xử lý để chuyển đổi liệu định dạng phù hợp Luận văn sử dụng phần mềm Weka (nguồn http://www.cs.waikato.ac.nz/ml/weka/) để thực thao tác tiền xử lý liệu Chi tiết bước xử lý sau: Bước 1: Chuyển đổi liệu dạng chuỗi dạng vector: weka xây dựng từ điển từ khóa Sau chuyển đổi, liệu dùng để chuyển đổi bao gồm 148 ghi 100 thuộc tính Hình 3.2 rõ liệu sau chuyển đổi Hình 3.2: Nội dung tin nhắn chuyển thành dạng vector Khi liệu dạng vector mô tả hình sau Các thuộc tính từ nội dung tin nhắn, thuộc tính cột liệu Mỗi tin nhắn thể hàng với số 0,1… thể số lần xuất thuộc tính (từ tiếng anh) nội dung tin nhắn hình 3.3 Khi ta chỉnh sửa nội dung file cần Hình 3.3: Nội dung file liệu dạng vector Bước 2: Trích chọn đặc trưng trình bày chi tiết mục 3.3 Bước 3: Thực gán số thứ tự cho đỉnh với đỉnh SMS thể dòng liệu gán nhãn trước cho số đỉnh số đỉnh chưa gán nhãn Bằng cách thêm số nhãn 1,0 (thể nhãn) hay -1 (chưa gán nhãn) trước phần liệu tin nhắn Bước thực chương trình nhằm chuẩn hóa liệu đầu vào cho phù hợp với liệu đầu vào thuật toán 3.3 Trích chọn đặc trưng Trích chọn đặc trưng (Feature Selection, Feature Extraction) nhiệm vụ quan trọng giai đoạn tiền xử lý liệu triển khai mô hình khai phá liệu máy học Một vấn đề gặp phải liệu dùng để xây dựng mô hình liệu thường chứa nhiều thông tin không cần thiết (thậm chí gây nhiễu) cho việc xây dựng mô hình Chẳng hạn, liệu gồm hàng trăm thuộc tính dùng để mô tả khách hàng doanh nghiệp thu thập, nhiên xây dựng mô hình cần khoảng 50 thuộc tính từ hàng trăm thuộc tính Nếu ta sử dụng tất thuộc tính (hàng trăm) khách hàng để xây dựng mô hình ta cần nhiều CPU, nhiều nhớ trình huấn luyện, chí thuộc tính không cần thiết làm giảm độ xác mô hình gây khó khăn việc phát tri thức Có nhiều phương pháp để trích chọn thuộc tính tốt để huấn luyện mà đảm bảo yêu cầu, giúp trình thực thi huấn luyện nhanh Trong trích chọn đặc trưng văn bản, phương pháp kể đến Bag-of-words hay Chỉ số Gain,… luận văn sử dụng phương pháp trích chọn dựa bag-of-words với kỹ thuật loại bỏ từ dừng “stop word” lấy từ gốc “stemming” Sau đặc trưng phù hợp chọn, phân lớp đào tạo với tập liệu huấn luyện Quá trình huấn luyện thường lặp lặp lại nhiều lần để có mô hình tốt Hiệu mô hình phân loại sau đánh giá tập liệu kiểm tra chuẩn bị riêng Trong luận văn Wake sử dụng để chọn đặc trưng tốt cách sử dụng tính Attribute Selection với tùy chọn Best First để lọc bỏ tính không thực quan trọng từ giảm số thuộc tính cần xét giúp chương trình thuật toán thực nhanh mà đảm bảo số tiêu chí dùng cho phân lớp hình sau Hình 3.4: Trích chọn đặc trưng Từ ta file đầu vào cho toán tự huấn luyện lan truyền nhãn với 30 thuộc tính hình 3.5 Dữ liệu đầu vào xem sửa cần thiết hình 3.5 sau: Hình 3.5: Trích chọn thuộc tính cho file đầu vào chương trình Hình 3.6: Dữ liệu chương trình Dữ liệu đầu vào thuật toán tập ghi liệu chưa phân lớp Với ghi liệu chứa giá trị thuộc miền rời rạc Hình 3.7: Dữ liệu chương trình mở Notepad Cấu trúc liệu tệp đầu vào mô tả lại sau:  Đầu tiên thông tin Wake  Tiếp theo n dòng thông tin thuộc tính có dạng @ thuộc tính với n số thuộc tính  Mỗi dòng tương ứng với giá trị đối tượng luận văn dòng thể liệu thuộc tính sms  Các giá trị thuộc tính cách dấu “,” 3.4 Cài đặt thử nghiệm Môi trường cài đặt thử nghiệm Chương trình thử nghiệm viết ngôn ngữ C#.Net Visual Studio 2010 sử dụng phiên Net Framework 4.0 Dữ liệu chương trình lưu trữ hệ quản trị sở liệu Sql Server 2008 R2 Các chức chương trình Nhập liệu: Cho phép nhập liệu từ tệp text có cấu trúc mô tả mục 3.6 Trước nhập liệu, người dùng chỉnh sửa giao diện phần mềm Wake Để nhập liệu, người dùng nhấn vào nút “Chọn ”, sau tìm đến tệp liệu lưu trữ máy tính có đuôi dạng *.arff *.text Sau chọn tệp, liệu lấy thông tin cần thiết thuộc tính thực lưu vào sở liệu hiển thị lên tab “Chi tiết liệu” để phục vụ cho việc thực thuật toán dễ dàng Hình 3.8: Giao diện chọn tệp liệu Tại giao diện này, cột wi thuộc tính thứ i thuộc tính trích chọn bên người dùng thực thao tác lựa chọn vào combobox “Chọn phương pháp” Chương trình cho phép lựa chọn phương pháp tự huấn luyện phương pháp lan truyền nhãn Sau lựa chọn, nhấn nút “Thực hiện” Với phương pháp tự huấn luyện, kết hiển thị sau: Hình 3.9: Kết lựa chọn phương pháp tự huấn luyện Các tin nhắn thuộc lớp sms spam 11 lại ham Với phương pháp lan truyền nhãn, giao diện hiển thị thông tin ma trận nhãn, ma trận xác suất nhãn, ma trận trọng số cạnh ma trận xác suất Mỗi nút đồ thị SMS Ngoài tab “Đồ thị lan truyền nhãn”, hiển thị đồ thị nhãn với đỉnh hình tròn, đỉnh màu đỏ ứng với trường hợp chưa gán nhãn, đỉnh xanh ứng với nhãn đỉnh vàng ứng với nhãn đường nối đỉnh Trong hình 3.10 ta xem chi tiết ma trận tính toán trình lan truyền nhãn như: ma trận trọng số cạnh W, ma trận xác suất chuyển đổi P, ma trận nhãn YL, ma trận xác suất chuyển nhãn f Hình 3.10: Giao diện đồ thị lan truyền nhãn trước thực Ở giao diện bảng “Nút i” thể SMS thứ i Để thực thuật toán lan truyền nhãn, người dùng nhấn vào nút “Thực hiện” tab “Phương pháp lan truyền nhãn”, chương trình trả kết đỉnh gán nhãn Đồng thời hiển thị ma trận xác suất hội tụ ma trận xác xuất nhãn fu với tin nhắn spam Sau hệ thống thực xong việc lan truyền nhãn, ta xem kết dạng bảng ma trận xác suất nhạn hội tụ ma trận xác suất nhãn fu dạng đồ thị hình 3.11 Màn hình hiển thị thông tin đỉnh nhãn chúng sau lan truyền từ đỉnh gán nhãn khác Hình 3.11: Giao diện đồ thị lan truyền nhãn sau thực Sau thực thuật toán lan truyền nhãn, đỉnh gán nhãn nên không đỉnh màu đỏ (chưa gán nhãn) hình Tại giao diện này, người dùng nhấn vào nút “Lưu kết quả” để lưu lại liệu gán nhãn Kết xuất tệp text 3.5 Kết thực nghiệm đánh giá độ phức tạp 3.5.1 Kết thực nghiệm Hình 3.12: Kết đồ thị sau gán nhãn dạng đồ thị Kết thực nghiệm thuật toán thu 11 tin nhắn phân lớp tin nhắn rác 39 tin nhắn tin nhắn phân lớp sai, tỷ lệ tin nhắn phân lớp đạt 94% 3.5.2 Đánh giá độ phức tạp thuật toán  Với thuật toán tự huấn luyện Dữ liệu đầu vào bao gồm: ℓ: số lượng liệu gán nhãn u: số lượng liệu chưa gán nhãn (u ≫ ℓ) n = ℓ + u =50 : tổng số lượng liệu Độ phức tạp thuật toán tự huấn luyện dựa việc đánh giá trình lặp bước (xem 1.3.1):  Thuật toán thực số vòng lặp nhiều là: u vòng lặp Trong đó: Vòng lặp thứ có độ phức tạp: O (ℓ) Vòng lặp thứ hai có độ phức tạp là: O (ℓ + 1) Vòng lặp thứ u có độ phức tạp là: O (ℓ+u 1) Do thuật toán có độ phức tạp là: O (ℓ) + O (ℓ +1) + + O (ℓ +u 1) = O(ℓ +u 1) (O (ℓ +u) O (ℓ))/ = O(ℓ +u 1) O (u) / ≈ O(n2) ≈ O(502)  Với thuật toán lan truyền nhãn Thuật toán lan truyền nhãn thực dựa trình tính toán ma trận việc lặp lại để xác định hội tụ thuật toán Đầu vào thuật toán đồ thị, đó: ℓ: số đỉnh gán nhãn u: số đỉnh chưa gán nhãn (u ≫ ℓ) n = ℓ + u =50: tổng số đỉnh đồ thị Thuật toán thực trình tính toán với độ phức tạp thành phần sau: - Quá trình xác định ma trận trọng số W, ma trận xác suất P, ma trận xác suất chuyển nhãn PUU, ma trận xác suất PUL, ma trận nhãn YL, ma trận xác suất nhãn f, có độ phức tạp: O(n2) (1) - Quá trình xác định siêu tham số α dựa thuật toán tìm khung nhỏ nhất, có độ phức tạp: O (n2×log n) (2) - Quá trình lặp để thực việc lan truyền nhãn thực m bước lặp (m lớn), đó: việc xác định hội tụ thuật toán dựa trình tính toán định thức ma trận, phép toán nhân ma trận tìm ma trận nghịch đảo, có độ phức tạp: O(n3) Do đó, độ phức tạp trình lặp là: O (m×n3) (3)  Từ (1), (2) (3) suy độ phức tạp thuật toán la truyền nhãn là: O (m×503) 3.6 Kết luận Trong chương này, tác giả cài đặt chương trình thử nghiệm phương pháp tự huấn luyện lan truyền nhãn dựa học nửa giám sát Với thuật toán tự huấn luyện, ứng dụng cho phép người dùng nhập liệu đầu vào, gán nhãn thông qua trình tự huấn luyện Với thuật toán lan truyền nhãn đồ thị, chương trình cho phép theo dõi kết trình tính toán thông qua ma trận, đồng thời hiển thị kết cách trực quan lên giao diện Chương trình dễ dàng phát triển với nhiều thuộc tính Trong chương này, tác giả chương trình thử nghiệm thuật toán phân lớp áp dụng vào toán phân loại tin nhắn rác Với phương pháp trích chọn đặc trưng trình bày trên, giúp giảm nhiều thời gian thực phân lớp thuật toán Đồng thời, luận văn trình bày chi tiết bước tiền xử lý liệu cho phép khai thác thuật toán phân lớp hiệu KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN  Kết luận Luận văn "Học nửa giám sát dựa đồ thị ứng dụng" đạt số kết sau: - Trình bày khái quát học có giám sát, học không giám sát học nửa giám sát - Giới thiệu số phương pháp học nửa giám sát phổ biến như: Self-training, Co-training, TSVM đánh giá ưu nhược điểm phương pháp - Trình bày phương pháp học nửa giám sát dựa đồ thị số thuật toán như: Labeled Propagation, Mincut - Đã cài đặt chương trình thử nghiệm thuật toán lan truyền nhãn đồ thị thuật toán tự huấn luyện  Hạn chế Về chương trình ứng dụng: thời gian có hạn nên chưa có điều kiện xây dựng phần mềm ứng dụng hoàn chỉnh, áp dụng thuật toán vào lĩnh vực đời sống  Hướng phát triển Với việc nghiên cứu học nửa giám sát phương pháp học nửa giám sát dựa đồ thị, tiếp tục nghiên cứu sâu hướng tìm hiểu phương pháp, thuật toán học nửa giám sát khác để áp dụng lý thuyết nghiên cứu nhằm xây dựng phần mềm áp dụng vào thực tiễn TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] TS Nguyễn Tân Ân (2011), Bài giảng mạng noron nhân tạo, Trường Đại học Sư phạm Hà Nội, Hà Nội [2] PGS TS Đoàn Văn Ban, ThS Nguyễn Hiền Trinh (2009), Ngôn ngữ hình thức ôtômát, NXB Đại học Thái Nguyên [3] PGS TS Hà Quang Thụy (2011), Bài giảng nhập môn khai phá liệu, Trường Đại học Công nghệ Đại học Quốc gia Hà Nội, Hà Nội Tài liệu tiếng Anh [4] Avirm Blum, Shuchi Chawla (2001), Learning from labeled and Unlabeled Data using Graph Mincuts, Computer Science Department, Carnegie Mellon University, 5000 Forbes Avenue, Pittsburgh, PA15213USA [5] Amarnag Subramanya (2012), Partha Pratim Talukdar, A Tutorial on Graph-based Semi-Supervised Learning Algorithms for NLP, South Korea [6] Matthias Seeger (2001), Learning with labeled and unlabeled data, Technical Report, University of Edinburgh [7] Olivier Chapelle, Bernhard Sch¨olkopf, Alexander Zien (2006), SemiSupervised Learning [8] Partha Pratim Talukdar (July 16, 2010), Experiments in Graph-based SemiSupervised Learning Methods for Class-Instance Acquisition, Search Labs, Microsoft Research Mountain View, CA 94043, Fernando Pereira Google, Inc.Mountain View, CA 94043 [9] Xiaojin Zhu (May 2005), Semi-Supervised Learning with Graphs [10] Zoubin Ghahramani (2012), Graph-based Semi-supervised Learning, Department of Engineering University of Cambridge, UK, La Palma [...]... lĩnh vực học nửa giám sát TSVM tìm một cách gán nhãn cho tất cả các dữ liệu chưa gán nhãn và sự phân chia đồng đều, ví dụ như lề cực đại đạt được trên cả dữ liệu đã gán nhãn và dữ liệu chưa gán nhãn Phương pháp học nửa giám sát dựa trên đồ thị (Graph-based) hiện nay đã thu hút số lượng lớn các nhà nghiên cứu Các phương pháp học nửa giám sát dựa trên đồ thị bắt đầu với một đồ thị mà tại đó các đỉnh... mở rộng phương pháp này cho các đồ thị có hướng  Nhược điểm: - Hiệu suất của thuật toán là tồi nếu đồ thị là tồi - Dễ thay đổi nếu cấu trúc đồ thị và các trọng số cạnh khi có sự thay đổi các đỉnh 1.4 Kết luận Trong chương này, chúng ta đã nghiên cứu tổng quan về học có giám sát, học không giám sát và học nửa giám sát Đồng thời nghiên cứu một số phương pháp học nửa giám sát phổ biến hiện nay như: Self-training,... trong đồ thị Cấu trúc của đồ thị Các thuật toán trong phương pháp học nửa giám sát dựa trên đồ thị hầu như có tư tưởng giống nhau và điều quan trọng là cần xây dựng được một đồ thị tốt, hơn là việc sẽ sử dụng thuật toán nào giữa chúng Cho đồ thị G = (V, E) với n đỉnh, V: tập đỉnh, E: tập cạnh Đồ thị G được thể hiện bởi ma trận liền kề W trong đó wij > 0 nếu có cạnh nối giữa đỉnh i và đỉnh j và wij... nhãn và chưa được gán nhãn, và các cạnh phản ánh sự “tương tự” của các đỉnh Giả sử rằng các đỉnh được nối với nhau bởi một cạnh có trọng số lớn thì có xu hướng có cùng nhãn và các nhãn có thể lan truyền trong đồ thị Phương pháp dựa trên đồ thị (Graph-based) được thừa hưởng các đặc tính tốt đẹp từ lý thuyết quang phổ đồ thị[ 9] Hình 2.1: Phương pháp dựa trên đồ thị Trước khi đi vào việc học trên đồ thị, ... nhãn và chưa được gán nhãn, và các cạnh (có trọng số) phản ánh sự tương tự của các đỉnh Giả sử, các đỉnh được kết nối với nhau bởi một cạnh có trọng số lớn thì có khuynh hướng có cùng nhãn, các nhãn có thể lan truyền thông qua đồ thị Các giải thuật dựa trên đồ thị được thừa hưởng từ lý thuyết quang phổ đồ thị[ 10] 1.2.4.2 Bài toán học nửa giám sát Học nửa giám sát là một trong số các kỹ thuật học máy,... được lại bị giới hạn về miền tri thức, đồng thời ta cần có một đồ thị để bắt đầu việc giải quyết vấn đề đó, do vậy, dưới đây là một số cách phổ biến dùng để xây dựng đồ thị phục vụ cho các thuật toán học nửa giám sát[ 10] 2.2.1 Đồ thị kết nối đầy đủ Hình 2.2: Đồ thị kết nối đầy đủ Đồ thị kết nối đầy đủ là đồ thị với mỗi cặp đỉnh có một cạnh kết nối giữa chúng Đồ thị được đánh trọng số, các đỉnh “tương... chất của học nửa giám sát, ta sẽ xem xét các khái niệm về học có giám sát, học không giám sát và học tăng cường 1.2 Các phương pháp học máy 1.2.1 Học có giám sát Học có giám sát là một kỹ thuật của ngành học máy nhằm mục đích xây dựng một hàm f từ dữ tập dữ liệu huấn luyện (Training data) Dữ liệu huấn luyện bao gồm các cặp đối tượng đầu vào và đầu ra mong muốn Đầu ra của hàm f có thể là một giá trị... đó K là một hạt nhân đáp ứng điều kiện Mercer, để đảm bảo wTKw với K= (K(xi, xj)), i, j=1 n trở thành một chuẩn đúng 1.3.4 Phương pháp dựa trên đồ thị Phương pháp Graph-based với các điểm dữ liệu đã gán nhãn và chưa gán nhãn được xem như các đỉnh của một đồ thị, mục đích của chúng ta là dựa vào các dữ liệu đã gán nhãn, kết hợp với các thuật toán học nửa giám sát dựa trên đồ thị để gán nhãn cho các dữ... chúng Ưu điểm của đồ thị kết nối đầy đủ là trong việc học trọng số- với một hàm trọng số khác nhau Điều này dễ dàng đưa ra các dẫn xuất của đồ thị, trọng số tham số Nhược điểm của đồ thị kết nối đầy đủ là chi phí tính toán lớn do giữa các đỉnh đều có cạnh nối 2.2.2 Đồ thị rời rạc Hình 2.3: Đồ thị rời rạc Đồ thị rời rạc là đồ thị NN hay εNN mà mỗi đỉnh chỉ kết nối tới một vài đỉnh khác Đồ thị này được tính... tức thì  Một con rô bốt di động quyết định có nên đi vào một căn phòng mới để tìm kiếm đường về trạm sạc pin của nó Nó đưa ra quyết định dựa trên việc làm thế nào để có thể tìm được trạm sạc pin trong quá khứ một cách nhanh chóng và dễ dàng 1.2.4 Học nửa giám sát 1.2.4.1 Tổng quan về học nửa giám sát Ban đầu, học nửa giám sát giả sử có hai lớp và mỗi lớp có một phân phối Gaussian Điều này giả sử rằng

Học nửa giám sát dựa trên đồ thị và ứng dụng

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan