THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

54 528 0
THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Hiện nay, tồn tại một sốthuật toán học phân lớp văn bản thực hiện có kết quảrất tốt khi được xây dựng dựa trên một tập ví dụhọc lớn

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Thị Oanh THUẬT TOÁN SELF-TRAINING CO-TRAINING ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Công nghệ thông tin HÀ NỘI – 2006 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Thị Oanh THUẬT TOÁN SELF-TRAINING CO-TRAINING ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS Hà Quang Thuỵ Cán bộ đồng hướng dẫn: NCS Lê Anh Cường HÀ NỘI – 2006 ii Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn chân thành sự biết ơn sâu sắc tới Tiến sĩ Hà Quang Thuỵ (trường Đại học Công nghệ) NCS Lê Anh Cường (Japan Advanced Institute of Science and Technology) đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện khoá luận này. Tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy tôi trong suốt bốn năm học qua, đã cho tôi những kiến thức quí báu để tôi có thể vững bướ c trên con đường đi của mình. Tôi xin gửi lời cảm ơn các anh chị trong nhóm seminar về khai phá dữ liệu: anh Nguyễn Việt Cường, anh Đặng Thanh Hải, chị Nguyễn Cẩm Tú, … đã nhiệt tình chỉ bảo trong quá trình tôi tham gia nghiên cứu khoa học làm khoá luận. Tôi xin gửi lời cảm ơn tới các bạn trong lớp K47CC, K47CA đã ủng hộ, khuyến khích tôi trong suốt quá trình học tập tại trường. lời cuối cùng, tôi xin bày tỏ lòng chân thành biết ơ n vô hạn tới cha mẹ, các anh chị tôi, những người luôn ở bên cạnh tôi những lúc tôi khó khăn nhất, giúp tôi vượt qua khó khăn trong học tập cũng như trong cuộc sống. Hà Nội, ngày 24 tháng 05 năm 2006 Sinh viên Trần Thị Oanh iii TÓM TẮT NỘI DUNG Hiện nay, tồn tại một số thuật toán học phân lớp văn bản thực hiện có kết quả rất tốt khi được xây dựng dựa trên một tập ví dụ học lớn. Tuy nhiên, trong thi hành thực tế thì điều kiện này hết sức khó khăn vì ví dụ học thường được gán nhãn bởi con người nên đòi hỏi rất nhiều thời gian công sức. Trong khi đó, các dữ liệu chưa gán nhãn (unlabeled data) thì l ại rất phong phú. Do vậy, việc xem xét các thuật toán học không cần nhiều dữ liệu gán nhãn, có khả năng tận dụng được nguồn rất phong phú các dữ liệu chưa gán nhãn nhận được sự quan tâm của nhiều nhà khoa học trên thế giới. Việc học này được đề cập đến với tên gọi là học bán giám sát. Trong khóa luận này, chúng tôi khảo sát hai thuật toán học bán giám sát điển hình nhất, đó là self-training co-training đề xuất một s ố kỹ thuật làm trơn. Khóa luận cũng tiến hành ứng dụng các nghiên cứu nói trên vào bài toán phân lớp văn bản và cho kết quả rất khả quan . iv MỤC LỤC MỞ ĐẦU .1 Chương 1 TỔNG QUAN VỀ PHÂN LỚP VĂN BẢN HỌC BÁN GIÁM SÁT .3 1.1. Phân lớp văn bản 3 1.2. Thuật toán phân lớp văn bản điển hình 5 1.2.1. Thuật toán Naive Bayes .5 1.3. Tổng quan về học bán giám sát .7 1.3.1. Học giám sát học không giám sát 9 1.3.2. Phạm vi sử dụng học bán giám sát .11 1.4. Một số phương pháp học bán giám sát 12 1.4.1. Thuật toán cực đại kỳ vọng toán 12 1.4.2. Học SVM truyền dẫn .13 1.4.3. Phân hoạch đồ thị quang phổ .15 CHƯƠNG 2 THUẬT TOÁN SELF-TRAINING CO-TRAINING.16 2.1. Thuật toán self-training 16 2.2. Thuật toán co-training 17 2.3. So sánh hai thuật toán 21 2.4. Các kỹ thuật làm trơn 23 2.4.1. Đảm bảo phân phối lớp .24 2.4.2. Kết hợp bộ phân lớp .26 2.4.3. Thuật toán self-training co-training với các kỹ thuật làm trơn .27 Chương 3 THỰC NGHIỆM TRONG BÀI TOÁN PHÂN LỚP VĂN BẢN .29 3.1. Giới thiệu bài toán thực nghiệm 29 3.2. Các lớp văn bản .31 3.3. Môi trường thực nghiệm 31 v 3.4. Bộ dữ liệu thực nghiệm .35 3.5. Quá trình tiến hành thực nghiệm .35 3.5.1. Xây dựng các đặc trưng .35 3.5.2. Thiết lập tham số cho mô hình .36 3.6. Kết quả của các bộ phân lớp 37 3.7. Một số nhận xét kết quả đạt được 40 KẾT LUẬN HƯỚNG PHÁT TRIỂN 41 Tài liệu tham khảo .42 vi Bảng các ký hiệu chữ viết tắt EM: Expectation-Maximization. i.i.d : independent and identically distributed random variables. PAC: Probably Approximately Correct. SAE: Selected Added Examples. TSVM: Transductive Support Vector Machine. WSD: Word Sense Disambiguation. vii Danh mc hỡnh v Hỡnh 1. Siờu phng cc i (thut toỏn TSVM) Hỡnh 2. th trng s da trờn cỏc mu d liu gỏn nhón v cha gỏn nhón (thut toỏn Spectral Graph Partition) Hỡnh 3. Biu din trc quan ca thut toỏn self-training Hỡnh 4. S thut toỏn self-training Hỡnh 5. Biu din trc quan thit lp co-training. Hỡnh 6. S thit lp co-training cho bi toỏn hai lp Hỡnh 7. S th tc SAE duy trỡ phõn phi lp Hỡnh 8. Thut toỏn co-training vi k thut lm trn c xu t Hỡnh 9: Hai khung nhỡn ca mt trang web Hỡnh 10: th biu din o F1 ca b phõn lp giỏm sỏt Naùve Bayes da trờn content Hỡnh 11: th biu din o F1 ca b phõn lp bỏn giỏm sỏt self- training gc v self-training ci tin viii Danh mục các bảng biểu Bảng 1: Bảng so sánh hai thiết lập self-training co-training (trang 22). Bảng 2. Bảng mô tả các phân lớp Bảng 3: Cấu hình máy tính Bảng 4: Bảng công cụ phần mềm hỗ trợ Bảng 5: Bảng công cụ phần mềm xử lý dữ liệu Bảng 6: Bảng các lớp thực hiện học bán giám sát Bảng 7: Danh sách các n-gram Bảng 8: Các độ đo của bộ phân lớp giám sát Naïve Bayes dựa trên content Bảng 9: Các độ đo của self-training (ban đầu/cải tiến MAX/ c ải tiến MEDIAN) dựa trên content. ix [...]... ca nú 15 Thut toỏn self-training v co-training CHNG 2 THUT TON SELF-TRAINING V CO-TRAINING 2.1 Thut toỏn self-training Cú th núi rng, ý tng u tiờn v s dng d liu cha gỏn nhón trong phõn lp l thit lp self-training í tng v self-training xut hin t nhng nm 1960 ú l thut toỏn bc (wrapper-algorithm) s dng lp nhiu ln mt phng phỏp hc giỏm sỏt Hỡnh v 3 biu din mt cỏi nhỡn trc quan ca thit lp self-training Vũng:... Hỡnh 6:S thit lp co-training gc cho vn hai lp 2.3 So sỏnh hai thut toỏn Bng 1 a ra mt s so sỏnh hai thit lp self-training v co-training Núi chung, s khỏc nhau c bn gia thut toỏn self-training v co-training l ch: Selftraining ch s dng mt khung nhỡn d liu, trong khi ú co-training s dng hai khung nhỡn d liu Self-training khụng yờu cu s phõn chia ca features thnh hai khung nhỡn c lp nh co-training Nú ch... nh danh s dng chớnh t ú v ng cnh m t ú xut hin S co-training ó c s dng trong rt nhiu lnh vc nh phõn tớch thng kờ v xỏc nh cm danh t Hỡnh v 5 di õy cho chỳng ta mt cỏi nhỡn trc quan ca thit lp co-training Hỡnh 5: S biu din trc quan thit lp co-training 18 Thut toỏn self-training v co-training Blum v Mitchell [4] ó cụng thc hoỏ hai gi thit ca mụ hỡnh co-training v chng minh tớnh ỳng n ca mụ hỡnh da trờn... thut toỏn hc giỏm sỏt Chng 2 trỡnh by hai thut toỏn self-training v co-training Phn u chng gii thiu hai thut toỏn hc bỏn giỏm sỏt Self-training, Co-training v ỏnh giỏ chỳng Thụng qua ú, khúa lun xut mt s k thut lm trn v mụ hỡnh thi hnh thut toỏn self-training v co-training trờn c s thut toỏn Naùve Bayes 1 Thc nghim phõn lp trang web c trỡnh by trong Chng 3 Ni dung thc nghim cỏc phng phỏp Naùve Bayes... ch cn mt b phõn lp vi mt khung nhỡn ca d liu 21 Thut toỏn self-training v co-training Bng 1 Bng so sỏnh hai thit lp self-training v co-training Tiờu chớ Self-training Co-training Khung nhỡn 1 khung nhỡn 2 khung nhỡn c lp Tỡnh hung s dng Khi b phõn lp c l khú Tho món thit lp cochnh sa training u Tn dng ngun d liu cha gỏn nhón rt phong phỳ Hc tt trong trng hp cỏc features khụng th phõn chia thnh cỏc views... chỳng Tờn gi self-training xut phỏt t vic nú s dng d oỏn ca chớnh nú dy chớnh nú S thut toỏn self-training c mụ t nh hỡnh 4 t L : Tp cỏc d liu gỏn nhón U : Tp cỏc d liu cha gỏn nhón Lp - Hun luyn b phõn lp h trờn tp d liu hun - luyn L S dng h phõn lp d liu trong tp U Tỡm tp con U ca U cú tin cy cao nht L + U -> L U U-> U Hỡnh 4: S thut toỏn self-training Self-training ó c ng dng trong mt vi nhim... Mitchell ó tin hnh thc nghim co-training trong phõn lp trang web theo s trong hỡnh 6 th hin rng vic s dng d liu cha gỏn nhón to ra mt ci tin quan trng trong thc hnh Trong s thit lp trờn, vic s dng U ' s to ra kt qu tt hn vỡ: Nú bt buc hai b phõn lp la chn cỏc mu cú tớnh i din hn cho phõn phi D to ra tp U 20 Thut toỏn self-training v co-training Cho trc: o L l tp cỏc mu hun luyn ó gỏn nhón o U l tp cỏc... self-training Self-training ó c ng dng trong mt vi nhim v x lý ngụn ng t nhiờn: Riloff, Wiebe v Wilson (2003) [10] s dng self-training xỏc nh cỏc danh t cú thuc quan im cỏ nhõn hay khụng Self-training cng c ng dng trong phõn tớch cỳ phỏp v dch mỏy 2.2 Thut toỏn co-training Thut toỏn co-training da trờn gi thit rng cỏc features cú th c phõn chia thnh 2 tp con; Mi tp con phự hp hun luyn mt b phõn lp... bng thut toỏn co-training Hai ụng cng ó chng minh tớnh ỳng n ca s co-training bng nh lý sau: nh lý (A.Blum & T Mitchell) Nu C2 cú th hc c theo mụ hỡnh PAC vi nhiu phõn lp, v nu gi thit c lp iu kin tho món, thỡ ( C1 , C2 ) cú th hc c theo mụ hỡnh co-training ch t d liu cha gỏn nhón, khi cho trc mt b d oỏn yu nhng hu ớch ban u h ( x1 ) Blum v Mitchell ó tin hnh thc nghim co-training trong phõn lp trang... tho món Vỡ hc trờn 2 views d liu nờn chỳng s cung cp nhiu thụng tin hu ớch cho nhau hn - Khú khn trong la chn ngng tin cy ca d oỏn ( lm gim noise trong d oỏn) - Cú th cú trng hp cú mu khụng c gỏn nhón cn xỏc nh s ln lp trỏnh lp vụ hn Gi thit c lp iu kin thng khụng ỳng trong thc t Khú khn Co-training v self-training l hai thut toỏn hc bỏn giỏm sỏt cú nhim v chớnh l m rng tp cỏc mu gỏn nhón ban u Hiu

Ngày đăng: 25/04/2013, 10:36

Hình ảnh liên quan

Mục đích là tìm ram ột nhát cắt cực tiểu (v v+ −) trên đồ thị (như hình 2). Sau đĩ, gán nhãn dương cho tất cả các mẫu chưa gán nhãn thuộc đồ thị con chứa v + , và gán  nhãn âm cho tất cả các mẫu chưa gán nhãn thuộc đồ thị con chứa v − - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

c.

đích là tìm ram ột nhát cắt cực tiểu (v v+ −) trên đồ thị (như hình 2). Sau đĩ, gán nhãn dương cho tất cả các mẫu chưa gán nhãn thuộc đồ thị con chứa v + , và gán nhãn âm cho tất cả các mẫu chưa gán nhãn thuộc đồ thị con chứa v − Xem tại trang 25 của tài liệu.
Hình 3: Biểu diễn trực quan của thiết lập self- self-training  - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

Hình 3.

Biểu diễn trực quan của thiết lập self- self-training Xem tại trang 26 của tài liệu.
Hình 4: Sơ đồ thuật tốn self-training - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

Hình 4.

Sơ đồ thuật tốn self-training Xem tại trang 27 của tài liệu.
Hình 5: Sơ đồ biểu diễn trực quan thiết lập co-training - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

Hình 5.

Sơ đồ biểu diễn trực quan thiết lập co-training Xem tại trang 28 của tài liệu.
Blum và Mitchell [4] đã cơng thức hố hai giả thiết của mơ hình co-training và chứng minh tính đúng đắn của mơ hình dựa trên thiết lập họ c giám sát theo mơ hình  PAC chuẩn - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

lum.

và Mitchell [4] đã cơng thức hố hai giả thiết của mơ hình co-training và chứng minh tính đúng đắn của mơ hình dựa trên thiết lập họ c giám sát theo mơ hình PAC chuẩn Xem tại trang 29 của tài liệu.
Nếu C2 cĩ thể học được theo mơ hình PAC với nhiễu phân lớp, và nếu giả thiết - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

u.

C2 cĩ thể học được theo mơ hình PAC với nhiễu phân lớp, và nếu giả thiết Xem tại trang 30 của tài liệu.
Bảng 1 đưa ram ột số so sánh hai thiết lập self-training và co-training. Nĩi chung, sự khác nhau cơ bản giữa thuật tốn self-training và co-training là ở chỗ :  Self-training chỉ  sử  dụng một khung nhìn dữ liệu, trong khi đĩ co-training sử  dụ ng hai  khu - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

Bảng 1.

đưa ram ột số so sánh hai thiết lập self-training và co-training. Nĩi chung, sự khác nhau cơ bản giữa thuật tốn self-training và co-training là ở chỗ : Self-training chỉ sử dụng một khung nhìn dữ liệu, trong khi đĩ co-training sử dụ ng hai khu Xem tại trang 31 của tài liệu.
Bảng 1. Bảng so sánh hai thiết lập self-training và co-training - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

Bảng 1..

Bảng so sánh hai thiết lập self-training và co-training Xem tại trang 32 của tài liệu.
Hình7: SAE: SelectedAddedExamples để lựa chọn các mẫu được gán nhãn mới mà vẫn đảm bảo được phân phối lớp ban đầu - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

Hình 7.

SAE: SelectedAddedExamples để lựa chọn các mẫu được gán nhãn mới mà vẫn đảm bảo được phân phối lớp ban đầu Xem tại trang 35 của tài liệu.
Hình 8: Thuật tốn co-training mới với thủ tục duy trì phân phối lớp và liên kết các bộ phân lớp - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

Hình 8.

Thuật tốn co-training mới với thủ tục duy trì phân phối lớp và liên kết các bộ phân lớp Xem tại trang 38 của tài liệu.
Hình 9: Hai khung nhìn của một trang web - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

Hình 9.

Hai khung nhìn của một trang web Xem tại trang 40 của tài liệu.
Bảng 2. Bảng mơ tả các phân lớp - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

Bảng 2..

Bảng mơ tả các phân lớp Xem tại trang 41 của tài liệu.
3.3.2. Cơng cụ phần mềm. - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

3.3.2..

Cơng cụ phần mềm Xem tại trang 42 của tài liệu.
Bảng 4: Bảng cơng cụ phần mềm hỗ trợ - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

Bảng 4.

Bảng cơng cụ phần mềm hỗ trợ Xem tại trang 42 của tài liệu.
Bảng 5: Bảng cơng cụ phần mềm xử lý dữ liệu - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

Bảng 5.

Bảng cơng cụ phần mềm xử lý dữ liệu Xem tại trang 43 của tài liệu.
Bảng 6: Bảng các lớp thực hiện học bán giám sát - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

Bảng 6.

Bảng các lớp thực hiện học bán giám sát Xem tại trang 44 của tài liệu.
Bảng 7: Danh sách các n-gram - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

Bảng 7.

Danh sách các n-gram Xem tại trang 46 của tài liệu.
• Bộ phân lớp giám sát Nạve Bayes dựa trên nội dung của một tài liệu: Bảng 8 biểu diễn kết quả bộ phân lớp này với các độđo: Độ chính xác, độ hồi tưởng,  độđo F1 - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

ph.

ân lớp giám sát Nạve Bayes dựa trên nội dung của một tài liệu: Bảng 8 biểu diễn kết quả bộ phân lớp này với các độđo: Độ chính xác, độ hồi tưởng, độđo F1 Xem tại trang 47 của tài liệu.
Hình 10: Đồ thị biểu diễn độ đo F1 của bộ phân lớp giám sát Nạve Bayes dựa trên content  - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

Hình 10.

Đồ thị biểu diễn độ đo F1 của bộ phân lớp giám sát Nạve Bayes dựa trên content Xem tại trang 48 của tài liệu.
Từ bảng các độ đo kết quả, ta biểu diễn đồ thị độ đo F1 trung bình của các bộ phân lớp bán giám sát self-training (ban đầu/ MAX/ MEDIAN) như hình vẽ  11 - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

b.

ảng các độ đo kết quả, ta biểu diễn đồ thị độ đo F1 trung bình của các bộ phân lớp bán giám sát self-training (ban đầu/ MAX/ MEDIAN) như hình vẽ 11 Xem tại trang 49 của tài liệu.
Hình 11: Đồ thị biểu diễn độ đo F1 của bộ phân lớp bán giám sát self-training gốc và self-training cải tiế n  - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

Hình 11.

Đồ thị biểu diễn độ đo F1 của bộ phân lớp bán giám sát self-training gốc và self-training cải tiế n Xem tại trang 50 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan