ỨNG DỤNG CÁC PHƯƠNG PHÁP HỌC NỬA GIÁM SÁT VÀO BÀI TOÁN PHÂN LOẠI VĂN BẢN

72 1.1K 3
ỨNG DỤNG CÁC PHƯƠNG PHÁP HỌC NỬA GIÁM SÁT VÀO BÀI TOÁN PHÂN LOẠI VĂN BẢN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ỨNG DỤNG CÁC PHƯƠNG PHÁP HỌC NỬA GIÁM SÁT VÀO BÀI TOÁN PHÂN LOẠI VĂN BẢN, luận văn công nghẹ thông tin

   HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG  NGUYỄN NGỌC MINH ỨNG DỤNG CÁC PHƯƠNG PHÁP HỌC NỬA GIÁM SÁT VÀO BÀI TOÁN PHÂN LOẠI VĂN BẢN LUẬN VĂN THẠC SỸ KỸ THUẬT      HÀNỘI–NĂM2013    HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG NGUYỄN NGỌC MINH ỨNG DỤNG CÁC PHƯƠNG PHÁP HỌC NỬA GIÁM SÁT VÀO BÀI TOÁN PHÂN LOẠI VĂN BẢN   CHUYÊNNGÀNH:HỆTHỐNGTHÔNGTIN MÃSỐ:60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT  NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS ĐOÀN VĂN BAN   HÀNỘI-NĂM2013    LỜI CAM ĐOAN Tôicamđoanđâylàcôngtrìnhnghiêncứucủariêngtôi. Cácsốliệu,kếtquảnêutrongluậnvănlàtrungthựcvàchưatừngđượcai côngbốtrongbấtkỳcôngtrìnhnàokhác.  Tác giả luận văn Nguyễn Ngọc Minh    LỜI CẢM ƠN  Lờiđầutiênemxingửilờicảmơnđếntoànthểcácthầy,côgiáoHọcviện CôngnghệBưuchínhViễnthôngđãtậntìnhchỉbảoemtrongsuốtthờigianhọc tậptạinhàtrường. EmxingửilờicảmơnsâusắcđếnPGS.TS.ĐoànVănBan,ngườiđãtrực tiếphướngdẫn,tạomọiđiềukiệnthuậnlợivàtậntìnhchỉbảochoemtrongsuốt thờigianlàmluậnvăntốtnghiệp. Bêncạnhđó,đểhoànthànhđồánnày,emcũngđãnhậnđượcrấtnhiềusự giúpđỡ,nhữnglờiđộngviênquýbáucủacácbạnbè,giađìnhvàđồngnghiệp.Em xinchânthànhcảmơn. Tuynhiên,dothờigianhạnhẹp,mặcdùđãnỗlựchếtsứcmình,nhưngchắc rằngđồánkhótránhkhỏithiếusót.Emrấtmongnhậnđượcsựthôngcảmvàchỉ bảotậntìnhcủaquýthầycôvàcácbạn.  HỌCVIÊN Nguyễn Ngọc Minh i   MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC i DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT v DANH MỤC CÁC HÌNH vi DANH MỤC CÁC BẢNG vii MỞ ĐẦU 1 CHƯƠNG 1 - TỔNG QUAN VỀ PHƯƠNG PHÁP HỌC MÁY 3 1.1. Khái niệm học máy 3 1.2. Một số khái niệm cơ bản trong học máy 4 1.2.1.Khônggianbiểudiễncủadữliệu 4 1.2.2.Bảnchấtcủacácdữliệu 4 1.2.3.Tiềnxửlýdữliệu 4 1.2.4.Quátrìnhrờirạchóadữliệu 5 1.2.5.Tậpmẫu 5 1.2.6.Quátrìnhtìmkiếmtrongkhônggiangiảthuyết 5 1.3. Họcgiám sát 5 1.3.1.Kháiniệm 5 1.3.2.Cáchgiảimộtbàitoánhọccógiámsát 7 1.4. Học không có giám sát 8 1.4.1.Kháiniệm 8 1.4.2.Môhìnhtoánhọc 9 1.5. Học nửa giám sát 9 1.5.1.Kháiniệm 9 ii   1.5.2.Môhìnhtoánhọc 10 1.6. Tổng kết chương 10 CHƯƠNG 2 - MỘT SỐ THUẬT TOÁN HỌC NỬA GIÁM SÁT 11 2.1. Mô hình sinh và thuật toán kỳ vọng cực đại 11 2.1.1.Giớithiệuvềmôhìnhsinh 11 2.1.2.Môhìnhsinhtronghọcnửagiámsát 11 2.1.3.Thuậttoánkỳvọngcựcđại 12 2.1.3.1.Giớithiệuthuậttoán 12 2.1.3.2.Nộidungthuậttoán 12 2.1.3.3.Đánhgiáthuậttoán 14 2.2. Thuật toán tự huấn luyện 15 2.2.1.Giớithiệuthuậttoántựhuấnluyện 15 2.2.2.Đánhgiáthuậttoán 16 2.3. Thuật toán S3VM 16 2.3.1.ThuậttoánSVM 16 2.3.2.GiớithiệuthuậttoánS3VM 21 2.3.3.NộidungthuậttoánS3VM 22 2.3.4.NhậnxétvềS3VM 23 2.4. Thuật toán K - láng giềng gần nhất 23 2.4.1.Giớithiệuthuậttoán 23 2.4.2.ÁpdụngKNNvàobàitoánphânloạivănbản 24 2.5. Thuật toán Naive Bayes 26 2.5.1.Thuậttoán 26 2.5.2.Ápdụngvàobàitoánphânloại 27 iii   2.5.3.ỨngdụngNaiveBayestrongphânlớpvănbản 30 2.6. Thuật toán cây quyết định 32 2.6.1.Giớithiệuthuậttoán 32 2.6.2.ThuậttoánID3 36 2.6.2.1.Entropy 36 2.6.2.2.InformationGain 36 2.6.2.3.PhátbiểuthuậttoánID3 37 2.6.3.Đánhgiáthuậttoáncâyquyếtđịnh 37 2.7. Tổng kết chương 38 CHƯƠNG 3 - PHÂN LOẠI VĂN BẢN DỰA VÀO PHƯƠNG PHÁP HỌC NỬA GIÁM SÁT 39 3.1. Phát biểu bài toán phân loại văn bản 39 3.1.1.Môhìnhtổngquát 41 3.1.1.1.Giaiđoạnhuấnluyện 41 3.1.1.2.Giaiđoạnphânlớp 43 3.1.2.Quátrìnhtiềnxửlývănbản 44 3.1.3.Phươngphápbiểudiễnvănbản 44 3.1.3.1.Môhìnhkhônggianvéctơ 45 3.1.3.2.Kháiniệmtrọngsố 45 3.1.4.Đánhgiábộphânlớp 47 3.1.4.1.Macro-Averaging 48 3.1.4.2.Micro-Averaging 49 3.2. Giới thiệu bài toán thực nghiệm 49 3.3. Môi trường thực nghiệm 49 iv   3.3.1.Dữliệusửdụng 49 3.3.2.Tríchchọnđặctrưng 51 3.3.3.Phươngphápđánhgiá 52 3.3.4.Côngcụphânlớp 53 3.3.5.Kếtquảthửnghiệmvàđánhgiá 54 3.4. Tổng kết chương 57 KẾT LUẬN 58 TÀI LIỆU THAM KHẢO 59                   v   DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT  Thuật ngữ Viết tắt Ý nghĩa Côngnghệthôngtin CNTT Côngnghệthôngtin Cơsởdữliệu CSDL Cơsởdữliệu Self-training Self-training Tựhuấnluyện EM ExpectationMaximization  Kỳvọngcựcđại Machinelearning Machinelearning Họcmáy Supervisedlearning Supervisedlearning  Họccógiámsát Unsupervisedlearning Unsupervised learning Họckhônggiámsát K-NearestNeighbors algorithm KNN Klánggiềnggầnnhất Semi-supervised learning Semi-supervised learning Họcnửagiámsát NaiveBayes NaiveBayes Bayesngâythơ Decisiontree Decisiontree Câyquyếtđịnh Supportvectormachine  SVM Máyvéctơhỗtrợ Semi-supervised supportvectormachine S3VM Máyvéctơhỗtrợnửa giámsát   vi   DANH MỤC CÁC HÌNH  Hình1.1:Môhìnhhọccógiámsát 6 Hình1.2:Môhìnhhọcnửagiámsát 9 Hình2.1:Dữliệucónhãn 11 Hình2.2:Dữliệucónhãnvàchưacónhãn 12 Hình2.3PhânlớpSVM 17 Hình2.4:Câyquyếtđịnh 34 Hình3.1:Môhìnhgiaiđoạnhuấnluyện 41 Hình3.2:Chitiếtgiaiđoạnhuấnluyện 42 Hình3.3:Môhìnhgiaiđoạnphânlớp 43 Hình3.4:Chitiếtgiaiđoạnphânlớp 43 Hình3.5:Sosánhđộchínhxácvàđộbaophủbộdữliệubanđầu 57 Hình3.6:Sosánhđộchínhxácvàđộbaophủbộdữliệusaukhi“stemming”  57           [...]... Nghiên cứu tổng quan về học máy và một số phương pháp học máy, nghiên  cứu một số thuật toán họcgiám sát, học nửa giám sát từ kết quả thu được đề tài  cài đặt ứng dụng thử nghiệm vào bài toán phân loại văn bản.   3 Đối tượng và phạm vi nghiên cứu Luận văn này thực hiện nghiên cứu các kiến thức cơ bản về học máy, một số  các thuật toán họcgiám sát, nửa giám sátứng dụng phân loại văn bản.    4 Phương pháp nghiên... chương Trên đây là một số kiến thức cơ bản về học máy, thông qua đó ta có thể nắm  bắt  được  các kiến thức  nền  tảng  về học máy  như: Khái  niệm  thế  nào  là  học máy,  họcgiám sát, học không giám sáthọc nửa giám sát ; Các mô hình toán của  học máy, họcgiám sát, học không giám sát, học nửa giám sát ; Nắm được các bước giải một bài toán trong học máy. Đây chính là những kiến thức cơ sở để ta có ... 2: Một số thuật toán học nửa giám sát Chương 3: Phân loại văn bản dựa vào phương pháp học nửa giám sát Trong đó đề tài tập trung vào chương 3 nhằm nghiên cứu và áp dụng các kỹ  thuật phân loại email của bộ dữ liệu dbworld  [18].          3    CHƯƠNG 1 - TỔNG QUAN VỀ PHƯƠNG PHÁP HỌC MÁY 1.1 Khái niệm học máy Hoạt động học là hoạt động tiếp thu những tri thức lý luận, khoa học.  Nghĩa  là việc học không chỉ dừng lại ở việc nắm bắt những khái niệm đời thường mà học ... được coi là vô hạn trên Web. Tự động phân lớp văn bản là một nhiệm vụ rất quan  trọng có thể giúp ích cũng như tìm kiếm thông tin trên nguồn tài nguyên lớn này.  Với mục tiêu góp phần vào lĩnh vực nghiên cứu và ứng dụng phân loại văn bản vào cuộc sống, tác giả đã chọn đề tài  Ứng dụng các phương pháp học nửa giám sát vào bài toán phân loại văn bản   làm  đề  tài  nghiên  cứu  luận  văn tốt  nghiệp thạc sĩ chuyên ngành hệ thống thông tin.  ... điểm của họcgiám sáthọc không có giám sát.  Bằng cách kết hợp giữa học có  giám sáthọc không có giám sát,  với một lượng lớn dữ liệu chưa gán nhãn và một  lượng nhỏ những dữ liệu đã được gán nhãn, bằng các giải thuật học nửa giám sát sẽ  thu được kết quả vừa có độ chính xác cao vừa mất ít thời gian công sức. Do đó, học nửa giám sát là một phương pháp học đạt được hiệu quả rất tốt trong lĩnh vực học máy.  Tóm lại học nửa giám sát là một phương pháp của ngành học máy nhằm xây ... cứu  các thuật  toán về  học nửa giám sát trong  các chương tiếp theo.      11    CHƯƠNG 2 - MỘT SỐ THUẬT TOÁN HỌC NỬA GIÁM SÁT 2.1 Mô hình sinh và thuật toán kỳ vọng cực đại 2.1.1 Giới thiệu về mô hình sinh Trong học nửa giám sát, phương pháp được áp dụng lâu đời nhất là phương pháp sử dụng mô hình sinh. Mô hình sinh được mô tả bởi những chức năng và thao  tác toán học được sắp xếp theo sự phân cấp trên cùng một tập dữ liệu điểm. ...   2.2.2 Đánh giá thuật toán Giải thuật tự huấn luyện là phương pháp đơn giản nhất trong học nửa giám sát.   Thuật  toán tự  huấn  luyện  được  ứng dụng để  giải  quyết  các bài toán về  xử  lý  ngôn ngữ tự nhiên, các bài toán phát hiện các đối tượng hệ thống từ các hình ảnh.  Ngoài  ra  thuật  toán tự  huấn  luyện  còn  được  ứng dụng để  giải  quyết  các bài toán phân tách và dịch máy, …  ... chủ  đề  của  văn bản cần  phân loại.   Khoảng cách giữa 2 văn bản chính là độ tương tự giữa 2 văn bản đó, 2 văn bản có giá trị độ tương tự càng lớn thì khoảng cách càng gần nhau.  Ví dụ: Dùng công thức Cosine để tính độ tương tự giữa 2 văn bản:   ( ⃗, ⃗ ) = cos( ⃗, ⃗ ) = ⃗ ⃗   ‖ ⃗‖ ‖ ⃗‖ Văn bản A: Tôi là học sinh.  Văn Bản B: Tôi là sinh viên.  Văn bản C: Tôi là giáo viên.  Biểu diễn văn bản theo vector: ... Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng gần nhất  với đối tượng cần phân lớp   Lấy tất cả các lớp của K láng giềng gần nhất đã xác định   Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho đối tượng  2.4.2 Áp dụng KNN vào bài toán phân loại văn bản Khi cần phân loại một văn bản mới, thuật toán sẽ tính khoảng cách (khoảng  cách Euclidean, Cosine…) của tất cả các văn bản trong tập huấn luyện đến văn bản ... Thuật toán SVM  đã  được  ứng dung để giải  quyết rất  nhiều những  bài toán trong  các lĩnh  vực  khác  nhau.  Đặc biệt SVM  đã  được  ứng dụng để  giải  quyết  bài toán phân lớp văn bản và thu được nhưng thành tựu rất tích cực, nó đã được chứng  minh là một trong những thuật toán phân lớp văn bản mạnh nhất để giải quyết bài toán này [17].  Hình 2.3 sẽ minh hoa cho ý tưởng phân lớp của thuật toán SVM.  Mặt  

Ngày đăng: 24/05/2014, 09:04

Từ khóa liên quan

Mục lục

  • LỜI CAM ĐOAN

  • MỤC LỤC

  • DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT

  • DANH MỤC CÁC HÌNH

  • DANH MỤC CÁC BẢNG

  • MỞ ĐẦU

  • CHƯƠNG 1 - TỔNG QUAN VỀ PHƯƠNG PHÁP HỌC MÁY

    • 1.1. Khái niệm học máy

    • 1.2. Một số khái niệm cơ bản trong học máy

      • 1.2.1. Không gian biểu diễn của dữ liệu

      • 1.2.2. Bản chất của các dữ liệu

      • 1.2.3. Tiền xử lý dữ liệu

      • 1.2.4. Quá trình rời rạc hóa dữ liệu

      • 1.2.5. Tập mẫu

      • 1.2.6. Quá trình tìm kiếm trong không gian giả thuyết

      • 1.3. Học có giám sát

        • 1.3.1. Khái niệm

          • Hình 1.1: Mô hình học có giám sát

          • 1.3.2. Cách giải một bài toán học có giám sát

          • 1.4. Học không có giám sát

            • 1.4.1. Khái niệm

            • 1.4.2. Mô hình toán học

            • 1.5. Học nửa giám sát

              • 1.5.1. Khái niệm

                • Hình 1.2: Mô hình học nửa giám sát

                • 1.5.2. Mô hình toán học

                • 1.6. Tổng kết chương

Tài liệu cùng người dùng

Tài liệu liên quan