LUẬN VĂN:THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN pdf

54 476 1
LUẬN VĂN:THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN pdf

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Thị Oanh THUẬT TOÁN SELF-TRAINING CO-TRAINING ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Công nghệ thông tin HÀ NỘI – 2006 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Thị Oanh THUẬT TOÁN SELF-TRAINING CO-TRAINING ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS Hà Quang Thuỵ Cán bộ đồng hướng dẫn: NCS Lê Anh Cường HÀ NỘI – 2006 ii Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn chân thành sự biết ơn sâu sắc tới Tiến sĩ Hà Quang Thuỵ (trường Đại học Công nghệ) NCS Lê Anh Cường (Japan Advanced Institute of Science and Technology) đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện khoá luận này. Tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy tôi trong suốt bốn năm học qua, đã cho tôi những kiến thức quí báu để tôi có thể vững bướ c trên con đường đi của mình. Tôi xin gửi lời cảm ơn các anh chị trong nhóm seminar về khai phá dữ liệu: anh Nguyễn Việt Cường, anh Đặng Thanh Hải, chị Nguyễn Cẩm Tú, … đã nhiệt tình chỉ bảo trong quá trình tôi tham gia nghiên cứu khoa học làm khoá luận. Tôi xin gửi lời cảm ơn tới các bạn trong lớp K47CC, K47CA đã ủng hộ, khuyến khích tôi trong suốt quá trình học tập tại trường. Và lời cuối cùng, tôi xin bày tỏ lòng chân thành biết ơ n vô hạn tới cha mẹ, và các anh chị tôi, những người luôn ở bên cạnh tôi những lúc tôi khó khăn nhất, giúp tôi vượt qua khó khăn trong học tập cũng như trong cuộc sống. Hà Nội, ngày 24 tháng 05 năm 2006 Sinh viên Trần Thị Oanh iii TÓM TẮT NỘI DUNG Hiện nay, tồn tại một số thuật toán học phân lớp văn bản thực hiện có kết quả rất tốt khi được xây dựng dựa trên một tập ví dụ học lớn. Tuy nhiên, trong thi hành thực tế thì điều kiện này hết sức khó khăn vì ví dụ học thường được gán nhãn bởi con người nên đòi hỏi rất nhiều thời gian công sức. Trong khi đó, các dữ liệu chưa gán nhãn (unlabeled data) thì l ại rất phong phú. Do vậy, việc xem xét các thuật toán học không cần nhiều dữ liệu gán nhãn, có khả năng tận dụng được nguồn rất phong phú các dữ liệu chưa gán nhãn nhận được sự quan tâm của nhiều nhà khoa học trên thế giới. Việc học này được đề cập đến với tên gọi là học bán giám sát. Trong khóa luận này, chúng tôi khảo sát hai thuật toán học bán giám sát điển hình nhất, đó là self-training co-training đề xuất một s ố kỹ thuật làm trơn. Khóa luận cũng tiến hành ứng dụng các nghiên cứu nói trên vào bài toán phân lớp văn bản cho kết quả rất khả quan . iv MỤC LỤC MỞ ĐẦU 1 Chương 1 TỔNG QUAN VỀ PHÂN LỚP VĂN BẢN HỌC BÁN GIÁM SÁT 3 1.1. Phân lớp văn bản 3 1.2. Thuật toán phân lớp văn bản điển hình 5 1.2.1. Thuật toán Naive Bayes 5 1.3. Tổng quan về học bán giám sát 7 1.3.1. Học giám sát học không giám sát 9 1.3.2. Phạm vi sử dụng học bán giám sát 11 1.4. Một số phương pháp học bán giám sát 12 1.4.1. Thuật toán cực đại kỳ vọng toán 12 1.4.2. Học SVM truyền dẫn 13 1.4.3. Phân hoạch đồ thị quang phổ 15 CHƯƠNG 2 THUẬT TOÁN SELF-TRAINING CO-TRAINING.16 2.1. Thuật toán self-training 16 2.2. Thuật toán co-training 17 2.3. So sánh hai thuật toán 21 2.4. Các kỹ thuật làm trơn 23 2.4.1. Đảm bảo phân phối lớp 24 2.4.2. Kết hợp bộ phân lớp 26 2.4.3. Thuật toán self-training co-training với các kỹ thuật làm trơn 27 Chương 3 THỰC NGHIỆM TRONG BÀI TOÁN PHÂN LỚP VĂN BẢN 29 3.1. Giới thiệu bài toán thực nghiệm 29 3.2. Các lớp văn bản 31 3.3. Môi trường thực nghiệm 31 v 3.4. Bộ dữ liệu thực nghiệm 35 3.5. Quá trình tiến hành thực nghiệm 35 3.5.1. Xây dựng các đặc trưng 35 3.5.2. Thiết lập tham số cho mô hình 36 3.6. Kết quả của các bộ phân lớp 37 3.7. Một số nhận xét kết quả đạt được 40 KẾT LUẬN HƯỚNG PHÁT TRIỂN 41 Tài liệu tham khảo 42 vi Bảng các ký hiệu chữ viết tắt EM: Expectation-Maximization. i.i.d : independent and identically distributed random variables. PAC: Probably Approximately Correct. SAE: Selected Added Examples. TSVM: Transductive Support Vector Machine. WSD: Word Sense Disambiguation. vii Danh mục hình vẽ Hình 1. Siêu phẳng cực đại (thuật toán TSVM) Hình 2. Đồ thị trọng số dựa trên các mẫu dữ liệu gán nhãn chưa gán nhãn (thuật toán Spectral Graph Partition) Hình 3. Biểu diễn trực quan của thuật toán self-training Hình 4. Sơ đồ thuật toán self-training Hình 5. Biểu diễn trực quan thiết lập co-training. Hình 6. Sơ đồ thiết lập co-training cho bài toán hai lớp Hình 7. Sơ đồ thủ tục SAE để duy trì phân phối lớp Hình 8. Thuật toán co-training với kỹ thuật làm trơn được đề xu ất Hình 9: Hai khung nhìn của một trang web Hình 10: Đồ thị biểu diễn độ đo F1 của bộ phân lớp giám sát Naïve Bayes dựa trên content Hình 11: Đồ thị biểu diễn độ đo F1 của bộ phân lớp bán giám sát self- training gốc self-training cải tiến viii Danh mục các bảng biểu Bảng 1: Bảng so sánh hai thiết lập self-training co-training (trang 22). Bảng 2. Bảng mô tả các phân lớp Bảng 3: Cấu hình máy tính Bảng 4: Bảng công cụ phần mềm hỗ trợ Bảng 5: Bảng công cụ phần mềm xử lý dữ liệu Bảng 6: Bảng các lớp thực hiện học bán giám sát Bảng 7: Danh sách các n-gram Bảng 8: Các độ đo của bộ phân lớp giám sát Naïve Bayes dựa trên content Bảng 9: Các độ đo của self-training (ban đầu/cải tiến MAX/ c ải tiến MEDIAN) dựa trên content. ix [...]... ca nú 15 Thut toỏn self-training v co-training CHNG 2 THUT TON SELF-TRAINING V CO-TRAINING 2.1 Thut toỏn self-training Cú th núi rng, ý tng u tiờn v s dng d liu cha gỏn nhón trong phõn lp l thit lp self-training í tng v self-training xut hin t nhng nm 1960 ú l thut toỏn bc (wrapper-algorithm) s dng lp nhiu ln mt phng phỏp hc giỏm sỏt Hỡnh v 3 biu din mt cỏi nhỡn trc quan ca thit lp self-training Vũng:... Hỡnh 6:S thit lp co-training gc cho vn hai lp 2.3 So sỏnh hai thut toỏn Bng 1 a ra mt s so sỏnh hai thit lp self-training v co-training Núi chung, s khỏc nhau c bn gia thut toỏn self-training v co-training l ch: Selftraining ch s dng mt khung nhỡn d liu, trong khi ú co-training s dng hai khung nhỡn d liu Self-training khụng yờu cu s phõn chia ca features thnh hai khung nhỡn c lp nh co-training Nú ch... nh danh s dng chớnh t ú v ng cnh m t ú xut hin S co-training ó c s dng trong rt nhiu lnh vc nh phõn tớch thng kờ v xỏc nh cm danh t Hỡnh v 5 di õy cho chỳng ta mt cỏi nhỡn trc quan ca thit lp co-training Hỡnh 5: S biu din trc quan thit lp co-training 18 Thut toỏn self-training v co-training Blum v Mitchell [4] ó cụng thc hoỏ hai gi thit ca mụ hỡnh co-training v chng minh tớnh ỳng n ca mụ hỡnh da trờn... thut toỏn hc giỏm sỏt Chng 2 trỡnh by hai thut toỏn self-training v co-training Phn u chng gii thiu hai thut toỏn hc bỏn giỏm sỏt Self-training, Co-training v ỏnh giỏ chỳng Thụng qua ú, khúa lun xut mt s k thut lm trn v mụ hỡnh thi hnh thut toỏn self-training v co-training trờn c s thut toỏn Naùve Bayes 1 Thc nghim phõn lp trang web c trỡnh by trong Chng 3 Ni dung thc nghim cỏc phng phỏp Naùve Bayes... ch cn mt b phõn lp vi mt khung nhỡn ca d liu 21 Thut toỏn self-training v co-training Bng 1 Bng so sỏnh hai thit lp self-training v co-training Tiờu chớ Self-training Co-training Khung nhỡn 1 khung nhỡn 2 khung nhỡn c lp Tỡnh hung s dng Khi b phõn lp c l khú Tho món thit lp cochnh sa training u Tn dng ngun d liu cha gỏn nhón rt phong phỳ Hc tt trong trng hp cỏc features khụng th phõn chia thnh cỏc views... chỳng Tờn gi self-training xut phỏt t vic nú s dng d oỏn ca chớnh nú dy chớnh nú S thut toỏn self-training c mụ t nh hỡnh 4 t L : Tp cỏc d liu gỏn nhón U : Tp cỏc d liu cha gỏn nhón Lp - Hun luyn b phõn lp h trờn tp d liu hun - luyn L S dng h phõn lp d liu trong tp U Tỡm tp con U ca U cú tin cy cao nht L + U -> L U U-> U Hỡnh 4: S thut toỏn self-training Self-training ó c ng dng trong mt vi nhim... Mitchell ó tin hnh thc nghim co-training trong phõn lp trang web theo s trong hỡnh 6 th hin rng vic s dng d liu cha gỏn nhón to ra mt ci tin quan trng trong thc hnh Trong s thit lp trờn, vic s dng U ' s to ra kt qu tt hn vỡ: Nú bt buc hai b phõn lp la chn cỏc mu cú tớnh i din hn cho phõn phi D to ra tp U 20 Thut toỏn self-training v co-training Cho trc: o L l tp cỏc mu hun luyn ó gỏn nhón o U l tp cỏc... self-training Self-training ó c ng dng trong mt vi nhim v x lý ngụn ng t nhiờn: Riloff, Wiebe v Wilson (2003) [10] s dng self-training xỏc nh cỏc danh t cú thuc quan im cỏ nhõn hay khụng Self-training cng c ng dng trong phõn tớch cỳ phỏp v dch mỏy 2.2 Thut toỏn co-training Thut toỏn co-training da trờn gi thit rng cỏc features cú th c phõn chia thnh 2 tp con; Mi tp con phự hp hun luyn mt b phõn lp... bng thut toỏn co-training Hai ụng cng ó chng minh tớnh ỳng n ca s co-training bng nh lý sau: nh lý (A.Blum & T Mitchell) Nu C2 cú th hc c theo mụ hỡnh PAC vi nhiu phõn lp, v nu gi thit c lp iu kin tho món, thỡ ( C1 , C2 ) cú th hc c theo mụ hỡnh co-training ch t d liu cha gỏn nhón, khi cho trc mt b d oỏn yu nhng hu ớch ban u h ( x1 ) Blum v Mitchell ó tin hnh thc nghim co-training trong phõn lp trang... tho món Vỡ hc trờn 2 views d liu nờn chỳng s cung cp nhiu thụng tin hu ớch cho nhau hn - Khú khn trong la chn ngng tin cy ca d oỏn ( lm gim noise trong d oỏn) - Cú th cú trng hp cú mu khụng c gỏn nhón cn xỏc nh s ln lp trỏnh lp vụ hn Gi thit c lp iu kin thng khụng ỳng trong thc t Khú khn Co-training v self-training l hai thut toỏn hc bỏn giỏm sỏt cú nhim v chớnh l m rng tp cỏc mu gỏn nhón ban u Hiu . TỔNG QUAN VỀ PHÂN LỚP VĂN BẢN VÀ HỌC BÁN GIÁM SÁT 1.1. Phân lớp văn bản Phân lớp văn bản là việc gán một văn bản (tài liệu) được biểu diễn trong ngôn. TỔNG QUAN VỀ PHÂN LỚP VĂN BẢN VÀ HỌC BÁN GIÁM SÁT 3 1.1. Phân lớp văn bản 3 1.2. Thuật toán phân lớp văn bản điển hình 5 1.2.1. Thuật toán Naive Bayes

Ngày đăng: 14/03/2014, 17:20

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan