NGHIÊN CỨU VỀ THUẬT TOÁN PHÂN LỚP SỬ DỤNG QUÁ TRÌNH HỌC MÁY BÁN GIÁM SÁT, ỨNG DỤNG TRONG VIỆC PHÂN LỚP TRANG WEB

40 883 0
NGHIÊN CỨU VỀ THUẬT TOÁN PHÂN LỚP SỬ DỤNG QUÁ TRÌNH HỌC MÁY BÁN GIÁM SÁT, ỨNG DỤNG TRONG VIỆC PHÂN LỚP TRANG WEB

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN THUYẾT MINH ĐỀ TÀI NCKH CẤP TRƯỜNG ĐỀ TÀI NGHIÊN CỨU VỀ THUẬT TOÁN PHÂN LỚP SỬ DỤNG QUÁ TRÌNH HỌC MÁY BÁN GIÁM SÁT, ỨNG DỤNG TRONG VIỆC PHÂN LỚP TRANG WEB Chủ nhiệm đề tài: ThS Lê Hoàng Dương Thành viên tham gia: ThS Ngô Quốc Vinh Hải Phòng, tháng 4/2016 MỤC LỤC MỞ ĐẦU 1 Tính cấp thiết vấn đề nghiên cứu Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài Mục tiêu, đối tượng, phạm vi nghiên cứu Phương pháp nghiên cứu, kết cấu công trình nghiên cứu Kết đạt đề tài CHƯƠNG TỔNG QUAN VỀ VIỆC PHÂN LỚP SỬ DỤNG PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT 1.1 Tổng quan phân lớp liệu 1.1.1 Tổng quan toán phân lớp liệu 1.1.2 Tổng quan trình phân lớp liệu 1.2 Tổng quan phân lớp liệu văn 1.2.1 Thực trạng vấn đề 1.2.2 Sử dụng mô hình vector biểu diễn văn 1.2.3 Tổng quan phương pháp phân lớp văn 11 1.2.4 Ứng dụng việc phân lớp liệu văn 12 1.2.5 Quá trình phân lớp liệu văn bản: 12 1.2.6 Đánh giá máy phân lớp liệu văn 14 1.2.7 Những yếu tố ảnh hưởng đến trình phân lớp 15 1.3 Các thuật toán học máy ứng dụng phân lớp 15 1.3.1 Phương pháp học có giám sát 15 1.3.2 Thuật toán phân lớp liệu theo phương pháp học bán giám sát 18 i CHƯƠNG BÀI TOÁN PHÂN LỚP ÁP DỤNG SVM VÀ PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT SVM 21 2.1 Máy hỗ trợ vector – Support Vector Machine 21 2.1.1 Giới thiệu thuật toán SVM 22 2.1.2 Huấn luyện SVM 23 2.1.3 Ưu điểm SVM phân lớp văn 24 2.2 Bán giám sát SVM phân lớp trang Web 26 2.2.1 Giới thiệu bán giám sát SVM 26 2.2.2 Phân lớp trang Web sử dụng bán giám sát SVM 27 CHƯƠNG KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ 30 3.1 Giới thiệu phần mềm SVMlin 30 3.2 Sử dụng phần mềm kết đánh giá 31 KẾT LUẬN 34 TÀI LIỆU THAM KHẢO 35 ii DANH SÁCH HÌNH ẢNH Số hình 1.1 1.2 1.3 1.4 1.5 1.6 Tên hình Mô hình tổng quan toán phân lớp Ví dụ việc biểu diễn văn vector đặc trưng Sơ đồ biểu diễn trình phân lớp liệu văn Mặt siêu phẳng h phân điểm thành lớp + - với khoảng cách biên lớn Các điểm gần mặt siêu phẳng h vector hỗ trợ Thuật toán Self training Thuật toán Co training Trang 13 18 19 20 iii DANH SÁCH THUẬT NGỮ, CHỮ VIẾT TẮT Chữ viết tắt SVM: Support Vector Machine VC: Vapnik-Chervonenkis S3VM: Semi Supervised Support Vector Machine Trang 21 26 iv MỞ ĐẦU Tính cấp thiết vấn đề nghiên cứu Với xu hướng phát triển tại, khối lượng liệu sống ngày lớn dẫn đến việc vai trò phân lớp liệu ngày quan trọng hơn, đánh giá vấn đề thiết ngành xử lý liệu văn Một yêu cầu thiết yếu cần đưa cải thiện hiệu suất thuật toán thực việc phân lớp, gia tăng giá trị độ đo hồi tưởng, tính xác phương pháp Tuy nhiên thực tế, nguồn liệu thiết lập nhãn trước lúc đáp ứng dẫn đến việc phải xây dựng phương pháp phân lớp sử dụng tập liệu chưa gán nhãn Để thỏa mãn hai yêu cầu trình bày phía phương pháp phân lớp bán giám sát tỏ tương đối hiệu Các phương pháp phân lớp tận dụng nguồn liệu chưa đánh nhãn phong phú đồng thời tận dụng hiệu số lượng nhỏ liệu thiết lập nhãn sẵn Một phương pháp sử dụng đánh giá tương đối tốt thời gian qua để sử dụng công việc nhận dạng hay phân loại phương pháp SVM - phân loại máy hỗ trợ vector (Support Vector Machine) Các nghiên cứu công bố chứng minh hiệu suất phân loại văn tốt phương pháp SVM Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài Trong lĩnh vực khai phá liệu, phương pháp phân lớp văn dựa phương pháp định định Bayes, định, K-người láng giềng gần nhất, … Những phương pháp cho kết chấp nhận sử dụng nhiều thực tế Trong năm gần đây, phương pháp phân lớp sử dụng trình học máy bán giám sát quan tâm sử dụng nhiều lĩnh vực nhận dạng, phân lớp Nhận thấy tính vấn đề nên tác giả lựa chọn đề tài “Nghiên cứu thuật toán phân lớp sử dụng trình học máy bán giám sát, Trang ứng dụng việc phân lớp trang Web” để sử dụng cho việc nghiên cứu Mục tiêu, đối tượng, phạm vi nghiên cứu Những năm gần đây, giới chứng kiến phát triển bùng nổ khoa học nói chung lĩnh vực công nghệ thông tin nói riêng Chính điều làm gia tăng hình thức trao đổi thông tin thông qua hệ thống Internet cách chóng mặt, kể đến thư viện điện tử, báo điện tử… Vì lý mà lượng liệu văn Internet ngày tăng theo cách đáng kể, kèm theo tốc độ thông tin thay đổi nhanh chóng Với lượng liệu thông tin càng lớn, yêu cầu thiết lập làm cách tổ chức khai thác thông tin cách hiệu Để giải yêu cầu toán phân lớp giải pháp thích hợp Tuy nhiên thực tế, lượng thông tin lại lớn để phân lớp cách thủ công thực phân lớp phương pháp đơn giản thủ công điều không khả thi Một chương trình máy tính thực phân lớp liệu văn cách tự động chìa khóa để giải vấn đề Trong thực tế, khó khăn mà thường phải đối mặt xử lý toán phân lớp tự động làm để tạo phân lớp có độ tin cậy cao số lượng liệu gán nhãn sẵn sẵn Các liệu thiết lập nhãn sẵn thường nhiều để có chúng đòi hỏi phải tốn nhiều công sức thời gian để xây dựng thiết lập nhãn Điều dẫn đến việc phải có phương pháp học không đòi hỏi nhiều liệu thiết lập nhãn sẵn đồng thời tận dụng hiệu nguồn liệu chưa thiết lập nhãn có nhiều thực tế, phương pháp học lựa chọn để nghiên cứu phương pháp học bán giám sát Thực chất phương pháp học bán giám sát xem cách học sử dụng liệu chứa liệu chưa thiết lập nhãn Trang liệu thiết lập nhãn Vì ưu điểm tiện lợi phương pháp nên áp dụng rộng rãi Vì lý trên, nghiên cứu tập trung vào việc trình bày toán phân lớp liệu sử dụng phương pháp học bán giám sát việc áp dụng phương pháp học bán giám sát sử dụng máy hỗ trợ vector vào việc phân lớp liệu trang Web Mục tiêu đề tài bao gồm: + Nghiên cứu thuật toán phân lớp sử dụng trình học máy bán giám sát + Ứng dụng thuật toán việc phân lớp trang Web Phương pháp nghiên cứu, kết cấu công trình nghiên cứu Nghiên cứu định tính: Thực tham khảo báo khoa học liên quan đến thuật toán học máy học máy bán giám sát tham khảo công trình công bố lĩnh vực Nghiên cứu định lượng: Cài đặt thuật toán, ứng dụng việc phân lớp trang Web Đánh giá kết đạt đồng thời hiệu chỉnh thuật toán hệ thống để đạt kết tốt Nghiên cứu trình bày chương Cấu trúc cụ thể sau: Chương 1: Tổng quan việc phân lớp sử dụng phương pháp học bán giám sát Chương 2: Bài toán phân lớp áp dụng SVM phương pháp học bán giám sát SVM Chương 3: Kết thử nghiệm đánh giá Kết đạt đề tài Kết đạt đề tài: báo cáo kết nghiên cứu thuật toán phân lớp sử dụng trình học máy bán giám sát, kết việc ứng dụng thuật toán việc phân lớp trang Web Trang Đối tượng phục vụ: kết nghiên cứu tài liệu phục vụ cho việc tham khảo nghiên cứu đối tượng lĩnh vực Khai phá liệu CHƯƠNG TỔNG QUAN VỀ VIỆC PHÂN LỚP SỬ DỤNG PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT 1.1 Tổng quan phân lớp liệu 1.1.1 Tổng quan toán phân lớp liệu Bài toán phân lớp liệu trình phân lớp đối tượng liệu cụ thể vào nhiều lớp liệu xác định trước thông qua mô hình phân lớp xây dựng từ trước dựa tập đối tượng liệu thiết lập nhãn sẵn từ trước hay thường gọi tập huấn luyện Quá trình phân lớp liệu gọi với tên khác trình thiết lập nhãn cho đối tượng liệu Nhiệm vụ việc phân lớp liệu tạo mô hình phân lớp để có đối tượng liệu đưa mô hình phân lớp liệu xếp đối tượng liệu vào lớp hay coi thiết lập nhãn cho đối tượng liệu Trong thực tế phân lớp liệu có nhiều toán khác toán phân lớp nhị phân, toán phân lớp đa trị,… Bài toán phân lớp nhị phân hiểu phân lớp đối tượng liệu vào hai lớp cho trước khác thông qua việc xem xét đối tượng liệu có hay đặc tính phân loại đặt theo quy ước mô hình phân lớp Bài toán phân lớp đa trị toán phân lớp mà đối tượng liệu tập liệu gán nhãn đối tượng liệu chưa gán nhãn sau phân lớp xếp vào hai lớp trở lên Trang Tiếp theo đây, nghiên cứu trình bày tổng quan trình phân lớp liệu phương pháp phân lớp liệu 1.1.2 Tổng quan trình phân lớp liệu Hình 1.1 Mô hình tổng quan toán phân lớp Như hình thể trình phân lớp liệu thực qua hai bước chính: Bước 1: Thiết lập mô hình phân lớp: Mô hình phân lớp tạo nên dựa việc phân tích đối tượng liệu tập huấn luyện Các lớp gán nhãn tập liệu gán nhãn xác định thủ công từ trước, phương pháp học gọi với tên khác phương pháp học có giám sát (supervised learning) Tại bước này, độ xác mô hình cần tính đến Nếu độ xác mô hình chấp nhận mô hình phân lớp dùng để xác định nhãn cho đối tượng chưa gán nhãn Trong trình đánh giá mô hình phân lớp, độ đo sử dụng để đánh giá độ chất lượng tập phân lớp Trong thực tế có nhiều phương pháp phân lớp liệu để giải toán phân lớp tùy thuộc vào cách tạo mô hình phân lớp Có thể kể đến số phương pháp Bayes, định, SVM, K láng giềng gần nhất, Các Trang CHƯƠNG BÀI TOÁN PHÂN LỚP ÁP DỤNG SVM VÀ PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT SVM Trong nghiên cứu thời gian gần đây, phương pháp phân lớp dùng tập phân lớp vector hỗ trợ nghiên cứu áp dụng tương đối mạnh mẽ lĩnh vực phân lớp nhận dạng SVM phương pháp đời từ lý thuyết học thống kê Vapnik Chervonenkis nghiên cứu phát triển Đây phương pháp có nhiều tiềm phát triển thực tiễn nghiên cứu lý thuyết Từ kết nghiên cứu gần cho thấy SVM phương pháp có khả phân lớp tốt không toán phân lớp liệu văn mà nhiều ứng dụng nhận dạng văn viết tay, phát mặt người khung hình… Khả phân lớp phương pháp SVM đánh giá cao so với phương pháp khác 2.1 Máy hỗ trợ vector – Support Vector Machine SVM sử dụng thuật toán học với mục tiêu tìm mặt siêu phẳng làm nhỏ độ phân lớp sai cho đối tượng liệu Độ phân lớp sai mặt siêu phẳng đặc trưng khoảng cách từ điểm gần tới siêu phẳng Đặc trưng thiết yếu thể khả mô hình phân lớp khả phân lớp liệu sau trình huấn luyện Phương pháp huấn luyện đánh giá tốt hiệu suất tổng quát hoá mô hình phân lớp cao ngược lại phương pháp huấn luyện đánh giá chưa tốt hiệu suất tổng quát hóa mô hình thấp Hiệu suất tổng quát hoá phụ thuộc vào hai yếu tố lực máy học sai số huấn luyện Trong tham số sai số huấn luyện hiểu tỷ lệ sai lỗi trình phân lớp tập liệu huấn luyện Còn yếu tố thứ hai lực máy học xác định kích thước VC (Vapnik-Chervonenkis) Đây coi khái niệm quan trọng mô hình phân lớp Kích thước VC tính số điểm cực đại mô hình phân lớp tách không gian đối tượng cần phân loại Trang 21 2.1.1 Giới thiệu thuật toán SVM Xét ví dụ toán phân tập liệu mẫu thành lớp: m {( x i, yi) i = 1, 2,…, N, x i ∈R} Trong đối tượng liệu mẫu vector đối tượng phân lớp lớp chia thành lớp mẫu dương lớp mẫu âm hình 1.4:  Lớp mẫu dương lớp mẫu xi thuộc vào lĩnh vực quan tâm thiết lập nhãn yi =  Lớp mẫu âm mẫu xi không thuộc vào lĩnh vực quan tâm thiết lập nhãn yi = - Phương pháp chất toán tối ưu, mục tiêu toán tìm không gian H mặt siêu phẳng định h H với sai số phân lớp cực tiểu Mô hình phân lớp SVM thực chất mặt siêu phẳng phân tách mẫu dương âm với độ chênh lệch lớn nhất, độ chênh lệch xác định khoảng cách nhỏ mẫu dương mẫu âm với mặt siêu phẳng Phương trình mặt siêu phẳng xác định sau: C + w1 x1 + w2 x2 + … + wn xn = Hoặc sử dụng công thức tương đương sau để biểu diễn cho phương trình mặt siêu phẳng C + ∑wi xi = (2.2) với i=1,…,n Trang 22 w = w1 + w2 + …+ wn hệ số siêu phẳng vector trọng số mặt siêu phẳng, C độ dịch, Thay đổi w C làm thay đổi hướng khoảng cách từ gốc toạ độ đến mặt siêu phẳng Tập phân lớp SVM định nghĩa sau: f(x) = sign(C + ∑wi xi) (2.3) sign(z) = +1 z ≥0, sign(z) = -1 z < Khi f(x) = xác định x thuộc lĩnh vực quan tâm, ngược lại, f(x) = -1 x không thuộc vào lĩnh vực cần quan tâm Mô hình học SVM coi mô hình học với siêu phẳng phụ thuộc vào tham số vector trọng số w mặt siêu phẳng tham số độ dịch C Mục tiêu mô hình học SVM xác định w C để cực đại hoá khoảng cách tối thiểu điểm dương điểm âm với mặt siêu phẳng Về việc xây dựng mô hình cần phải giải phương trình sau: để tìm vector trọng số w sai số điểm tập huấn luyện để có phương trình tổng quát mặt siêu phẳng: f(x1, x2,…, xn) = C +∑ wi xi Với i = 1,…, n Trong n tổng số đối tượng liệu dùng để huấn luyện 2.1.2 Huấn luyện SVM Để huấn luyện máy hỗ trợ vector thực chất tiến hành giải toán quy hoạch toàn phương Support Vector Machine Để giải toán dùng phương pháp số Cụ thể phương pháp cần Trang 23 ma trận kích thước bình phương số lượng mẫu dùng việc training Điều thực tế không khả thi kích thước tập liệu dùng để training thường lớn (thậm chí đến hàng chục nghìn mẫu huấn luyện) Nhằm giải vấn đề nêu người ta phát triển nhiều thuật toán khác dựa việc phân rã tập training thành nhóm liệu Lúc toán quy hoạch toàn phương giải với kích thước nhỏ Sau đó, thuật toán kiểm tra điều kiện Karush KuhnTucker để tìm phương án tối ưu Một vài phương pháp huấn luyện dựa vào tính chất: Nếu tập training toán quy hoạch toàn phương Support Vector Machine (bài toán nhỏ) có mẫu vi phạm vào điều kiện Karush KuhnTucker, toán sau giải, hàm mục tiêu tăng Một loạt toán quy hoạch toàn phương Support Vector Machine với mẫu vi phạm điều kiện Karush KuhnTucker đảm bảo hội tụ đến phương án tối ưu 2.1.3 Ưu điểm SVM phân lớp văn Chúng ta thấy từ thuật toán phân lớp hai lớp SVM đến thuật toán phân lớp đa lớp có đặc điểm chung yêu cầu văn phải biểu diễn dạng vector đặc trưng, nhiên thuật toán khác phải sử dụng uớc lượng tham số ngưỡng tối ưu thuật toán SVM tự tìm tham số tối ưu Trong phương pháp SVM phương pháp sử dụng không gian vector đặc trưng lớn (hơn 10.000 chiều) phương pháp khác có số chiều bé nhiều (như Naïve Bayes 2000, k-Nearest Neighbors 2415…) Trang 24 Trong công trình năm 1999, Joachims so sánh SVM với Naïve Bayesian, k-Nearest Neighbour, Rocchio, C4.5 đến năm 2003, Joachims chứng minh SVM làm việc tốt với đặc tính đề cập trước văn Các kết cho thấy SVM đưa độ xác phân lớp tốt so sánh với phương pháp khác Theo Xiaojin Zhu công trình nghiên cứu nhiều tác giả (chẳng hạn Kiritchenko Matwin vào năm 2001, Hwanjo Yu Han vào năm 2003, Lewis vào năm 2004) thuật toán SVM đem lại kết tốt phân lớp văn Kiritchenko Matwin nghiên cứu so sánh phương pháp SVM với kỹ thuật Naïve Bayesian, sau chứng minh SVM phương pháp tốt cho phân lớp thưđiện tử phân lớp văn Hwanjo Yu Han cho thấy SVM hoàn toàn tiến hành tốt so với phương pháp phân lớp văn khác Tất tài liệu nghiên cứu cho thấy SVM đưa kết xác khía cạnh phân lớp văn Lewis nghiên cứu phân lớp văn khám phá kết SVM tốt Lewis đưa tập hợp nhỏ tài liệu phân lớp văn Tác giả cố gắng cải tiến phương pháp RCV1 cho phân lớp văn sử dụng phương pháp ứng dụng cho số kỹ thuật phân lớp văn khác SVM đưa kết tốt đặt dựa vào k-người láng giềng gần kỹ thuật tập phân lớp RocchioStyle Prototype Những phân tích tác giả cho thấy SVM có nhiều điểm phù hợp cho việc ứng dụng phân lớp văn Và thực tế, thí nghiệm phân lớp văn tiếng Anh SVM đạt độ xác phân lớp cao tỏ xuất sắc so với phương pháp phân lớp văn khác Vấn đề học bán giám sát tận dụng liệu chưa gán nhãn để cải tiến hiệu độ xác phân lớp, điều Trang 25 đưa để so sánh với tập phân lớp thiết kề mà không tính đến liệu chưa gán nhãn Trong phần sau chương này, nghiên cứu giới thiệu phương thức cải tiến SVM bán giám sát SVM (semi-supervised support vector machine – S3VM) Bán giám sát SVM đưa nhằm nâng SVM lên mức cao hơn, SVM thuật toán học có giám sát, sử dụng liệu gán nhãn bán giám sát SVM sử dụng liệu gán nhãn (tập huấn luyện – training set) kết hợp với liệu chưa gán nhãn (working set) 2.2 Bán giám sát SVM phân lớp trang Web 2.2.1 Giới thiệu bán giám sát SVM Chúng ta giới thiệu phương thức cải tiến SVM Bán giám sát SVM (Semi Supervised Support Vector Machine - S3VM) Cho tập huấn luyện (training set) dữliệu gán nhãn có tham gia tập liệu chưa gán nhãn (working set), S3VM xây dựng máy hỗ trợ vector sử dụng training set working set Bài toán truyền dẫn dựđoán giá trị hàm phân lớp tới điểm cho working set Trong SVM thuật toán có giám sát sử dụng liệu gán nhãn, S3VM xây dựng sử dụng hỗn hợp liệu gán nhãn (training set) liệu chưa gán nhãn (working set) Mục đích để gán lớp nhãn tới working set cách tốt nhất, sau sử dụng hỗn hợp liệu huấn luyện gán nhãn liệu working set sau gán nhãn để phân lớp liệu Nếu working set rỗng phương pháp trở thành phương pháp chuẩn SVM để phân lớp Nếu training set rỗng, sau phương pháp trở thành hình thể học không giám sát Học bán giám sát xảy training set working set không rỗng Để hiểu cách rõ ràng cụ thể S3VM, cần hiểu SVM trình bày Với thời gian điều kiện không cho phép, khoá Trang 26 luận em tìm hiểu thuật toán S3VM toán phân lớp nhị phân Cho trước tập huấn luyện gồm liệu gán nhãn với tập liệu chưa gán nhãn working set bao gồm n liệu Mục đích gán nhãn cho liệu chưa gán nhãn Với hai lớp cho trước gồm lớp dương (lớp +1) lớp âm (lớp –1) Mỗi liệu xem điểm không gian vector Mỗi điểm i thuộc tập liệu huấn luyện có sai số ηivà điểm j thuộc working set có hai sai sốξj (sai số phân lớp với giả sử j thuộc lớp +1) zi (sai số phân lớp với giả sử j thuộc lớp –1) S au tìm ξi zj, có sai số nhỏ điểm j, Nếu ξi < zj điểm j thuộc lớp dương, ngược lại ξi> zj điểm j thuộc lớp âm Quá trình diễn tất điểm thuộc working set, sau trình hoàn thành, tất điểm chưa gán nhãn sẽđược gán nhãn Tập liệu chưa gán nhãn working set sau gán nhãn sẽđược đưa vào tập liệu huấn luyện, sử dung thuật toán SVM để học tạo SVM mới, SVM S3VM có siêu phẳng Sau áp dụng siêu phẳng để phân lớp mẫu liệu đưa vào 2.2.2 Phân lớp trang Web sử dụng bán giám sát SVM 2.2.2.a Giới thiệu toán phân lớp trang Web (Web Classification) Trang 27 Phân lớp trang Web trường hợp đặc biệt phân lớp văn diện siêu liên kết trang Web, cấu trúc trang Web chặt chẽ, đầy đủ hơn, dẫn đến tính hỗn hợp plain texts, thẻ hypertext, hyperlinks… Internet với 10 tỷ trang Web tập huấn luyện phong phú chủđề sống, với số lượng chủđề Website không nhiều việc sử dụng Internet sở huấn luyện phù hợp Trong trang Web, độ xác tuyệt đối, ta thấy chủđề gồm có nhiều từ chuyên môn với tần suất xuất cao, việc tận dụng tần số phụ thuộc từ vào chủđề có thểđem lại kết khả quan cho phân lớp 2.2.2.b Áp dụng S3VM vào phân lớp trang Web Có thể thấy trang Web siêu văn (hypertext) phổ dụng Nội dung trang Web thường mô tả ngắn gọn, súc tích, có siêu liên kết chỉđến Web có nội dung liên quan cho phép trang khác liên kết đến Nhưđã nói trên, xem văn thông thường nên trình phân lớp trang Web việc biểu diễn văn sử dụng mô hình không gian vector Việc biểu diễn xử lý tài liệu Web giống biểu diễn xử lý văn mô hình Tuy nhiên phân lớp Web việc khai thác mạnh siêu liên kết văn vấn đềđáng quan tâm Với việc sử dụng siêu liên kết trang Web từđó lấy thông tin mối liên hệ nội dung trang, dựa vào để nâng cao hiệu phân lớp tìm kiếm Để áp dụng vào phân lớp trang Web, thuật toán S3VM xem trang Web vector f(d1, d2,…, dn)được biểu diễn giống văn Áp dụng công thức (2.5) phương trình siêu phẳng: Trang 28 f(x1, x2,…, xn) = C +∑ wi xi Thay văn tương ứng với trang Web vào phương trình siêu phẳng này: f(d1, d2,…,dn) = C +∑ wi di (2.6) Với i=1,…,n Nếu f(d) ≥ trang Web thuộc lớp +1 Ngược lại f(d) < trang Web thuộc lớp –1 Có thể thấy trình áp dụng thuật toán S3VM vào toán phân lớp trang Web việc thay vector trọng số biểu diễn trang Web vào phương trình siêu phẳng S3VM, từđó tìm nhãn lớp trang Web chưa gán nhãn Như vậy, thực chất trình phân lớp bán giám sát áp dụng liệu trang Web tập liệu huấn luyện trang Web tập working set (dữ liệu chưa gán nhãn) trang Web trang Web có nhãn tập huấn luyện trỏ tới Trang 29 CHƯƠNG KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ Trong nghiên cứu này, tác giả sử dụng phần mềm nguồn mở để tiến hành thực nghiệm phân lớp bán giám sát tài liệu Web Trong nội dung chương giới thiệu giới thiệu phần mềm nguồn mở SVMlin Vikas Sindhwani công bố, trình bày trình khai thác phần mềm nhằm thực toán phân lớp đánh giá 3.1 Giới thiệu phần mềm SVMlin SVMlin gói phần mềm dành cho SVMs tuyến tính, thoả mãn toán phân lớp số lớn mẫu liệu đặc trưng Là chương trình phần mềm viết ngôn ngữ C++ Ngoài tập liệu gán nhãn, SVMlin tận dụng tập liệu chưa gán nhãn trình học Tập liệu chưa gán nhãn thực sử hữu ích việc nâng cao độ xác trình phân lớp mà số lượng liệu gán nhãn từ trước Hiện SVMlin thực cài đặt thuật toán sau:  Thuật toán học có giám sát (chỉ sử dụng liệu gán nhãn)  Thuật toán phân lớp bình phương tối thiểu chuẩn hóa tuyến tính (Linear Regularized Least Squares Classification)  Thuật toán học bán giám sát (có thể sử dụng liệu chưa gán nhãn)  Thuật toán học tuyến tính SVM truyền dẫn sử dụng nhiều lần chuyển đổi (Multi-switch linear Transductive L2-SVMs) Theo Vikas Sindhwani, dùng SVMlin phân loại văn (tập liệu RCV1v2/LYRL2004) với 804414 liệu gán nhãn 47326 đặc trưng, SVMlin hai phút để huấn luyện SVM tuyến tính máy Intel với tốc độ xử lý 3GHz 2GB RAM Nếu cho 1000 nhãn, sử dụng hàng trăm ngàn liệu chưa gán nhãn để huấn luyện SVM tuyến tính bán giám Trang 30 sát vòng khoảng 20 phút Dữ liệu chưa gán nhãn hữu ích việc cải thiện trình phân lớp số lượng nhãn lớp không lớn Download SVMlin: phiên SVMlin tải trang Web: http://www.cs.uchicago.edu/people/vikass Cài đặt: - Thực giải nén file cài đặt lệnh sau: unzip svmlin.zip tar –xvzf svmlin.tar.gz - Kết giải nén tạo thư mục svmlin-v1.0 gồm File: Makefile, ssl.h, ssl.cpp svmlin.cpp - Gõ lệnh: make Sẽ tạo file thực thi svmlin Quá trình thực thi sử dụng để huấn luyện, kiểm tra đánh giá trình thực 3.2 Sử dụng phần mềm kết đánh giá  Các file liệu Định dạng liệu đầu vào cho SVMlin tương tự định dạng công cụ SVM-Light/LIBSVM (điểm khác biệt cột mô tả nhãn liệu) Mỗi dòng mô tả mẫu liệu danh sách cặp gồm số đặc trưng : giá trị đặc trưng cho đặc trưng có giá trị khác không, phân cách ký tự trống Mỗi hàng kết thúc ký tự ‘\n’ :: : Ta xét ví dụ với ma trận liệu với liệu đặc trưng sau: Trang 31 0 0 0 Được mô tả file đầu vào là: 2:3 5:1 1:4 2:1 2:5 3:9 4:2 1:6 4:5 5:3 Nhãn liệu huấn luyện chứa file riêng biệt, gọi file mô tả nhãn liệu Mỗi dòng file chứa nhãn cho liệu dòng tương ứng file mô tả liệu Nhãn liệu nhận giá trị sau: +1 (dữ liệu gán nhãn thuộc lớp dương) -1 (dữ liệu gán nhãn thuộc lớp âm) (các liệu chưa gán nhãn)  Quá trình huấn luyện Gõ lệnh: svmlin [options] training_examples training_labels Trong đó: - training_examples.weights File chứa liệu huấn luyện - training_examples.outputs File chứa kết mô hình phân lớp  Kiểm tra (testing) Gõ lệnh: svmlin -f training_examples.weights test_examples_filename Trong đó: Trang 32 training_examples.weights: File chứa kết mô hình phân lớp test_examples_filename: File chứa liệu kiểm tra  Đánh giá Nếu nhãn liệu kiểm thử biết trước, sử dụng lệnh sau để tính ma trận thực thi trình phân lớp: svmlin -f weights_filename test_examples_filename test_labels_filename  Dữ liệu dùng cho trình huấn luyện Dữ liệu huấn luyện sử dụng bao gồm 1460 tài liệu (trongđó có 50 tài liệu gán nhãn) lấy từ liệu chuẩn 20-newsgroups  Kết phân lớp Với liệu huấn luyện đây, SVMlin đạt độ xác 92.8% lựa chọn chức multi-switch TSVM đạt độ xác 95.5% lựa chọn chức semi-supervised SVM Điều khẳng định tính hiệu học bán giám sát SVM Trang 33 KẾT LUẬN Kết nghiên cứu số vấn đề toán phân lớp như: phương pháp phân lớp liệu, phân lớp văn bản, áp dụng thuật toán học máy vào toán phân lớp, tập trung trình bày phương pháp học bán giám sát – phương pháp hiệu sử dụng phổ biến Về phân lớp liệu, nghiên cứu đưa toán tổng quan trình bày phương pháp phân lớp liệu tổng quát từ giúp người đọc hiểu toán phân lớp Nghiên trình bày toán phân lớp văn bản, cách văn toán phân lớp biểu diễn, qua nêu lên phương pháp phân lớp văn Nghiên cứu đồng thời tìm hiểu việc sử dụng thuật toán học máy toán phân lớp văn như: thuật toán phân lớp sử dụng trình học có giám sát học bán giám sát Kết việc tìm hiểu nêu lên số phương pháp học bán giám sát điển hình, sở sâu tìm hiểu thuật toán học bán giám sát SVM Nghiên cứu giới thiệu công cụ có tên SVMlin, cách sử dụng phần mềm kết chạy phần mềm V Sindhwani tiến hành năm 2007 Hướng nghiên cứu thời gian tới Như trình bày trên, nghiên cứu chưa thể tìm hiểu sâu, đặc biệt tiến hành thực phần mềm SVMlin khảo sát Vì thời gian tới tìm hiểu kỹ phần mềm để chủ động nắm vững việc thực phần mềm, đặc biệt thuật toán học bán giám sát tảng lý thuyết phần mềm Trang 34 TÀI LIỆU THAM KHẢO Balaij Krishnapuuram, David Williams, Ya Xue,k Alex Hartemink, Lawrence Carin, Masrio A.T.Figueiredo (2005) On Semi-Supervised Classification NIPS: 721-728, 2005 Panu Erastox (2001) Support Vector Machines: Background and Practice Academic Dissertation for the Degree of Licentiate of Philosophy University of Helsinki, 2001 T Joachims (2003) Transductive learning via spectral graph partitioning Proceeding of The Twentieth International Conference on Machine Learning (ICML2003): 290-297 Trang 35

Ngày đăng: 19/07/2016, 06:37

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan