Mô hình maximum entropy và ứng dụng

61 1.3K 15
Mô hình maximum entropy và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tài liệu tham khảo công nghệ thông tin Mô hình maximum entropy và ứng dụng

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆTrần Quang DũngMÔ HÌNH MAXIMUM ENTROPYVÀ ỨNG DỤNGKHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUYNgành: Công Nghệ Thông TinHÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆTrần Quang DũngMÔ HÌNH MAXIMUM ENTROPYVÀ ỨNG DỤNGKHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUYNgành: Công Nghệ Thông TinCán bộ hướng dẫn: Lê Anh CườngHÀ NỘI - 2010 TÓM TẮT NỘI DUNGTrong những năm gần đây, với sự phát triển mạnh mẽ của công nghệ thông tin nhu cầu sử dụng Internet của tất cả mọi người trên thế giới đã làm tăng vọt lượng thông tin giao dịch trên Internet. Vì vậy mà số lượng văn bản xuất hiện trên Internet tăng nhanh chóng mặt cả về số lượng chủ đề. Với khối lượng thông tin đồ sộ như vậy, để tìm được những thông tin cần thiết cho mục đích của chúng ta sẽ mất rất nhiều thời gian công sức. Một câu hỏi được đặt ra, làm thế nào có thể tổ chức tìm kiếm thông tin một cách nhanh chóng hiệu quả nhất? câu trả lời hợp lý cho câu hỏi trên là phân loại thông tin tự động bằng máy tính. Trong luận văn này, em tập trung tìm hiểu về hình cực đại entropy áp dụng hình để xây dựng chương trình phân loại văn bản Tiếng Việt tự động dựa trên tập dữ liệu huấn luyện. Từ đó hướng tới việc xây dựng chương trình chặn nội dung web bằng việc phân tích nội dung web.Hiện nay, việc kiểm soát truy cập Internet vẫn chưa đạt được hiệu quả tốt. Những trang web với nội dung xấu vẫn được truy cập rất dễ dàng mà không có bất kỳ sự kiểm soát nào. Với chương trình chặn nội dung web, em hy vọng có thể giúp ngăn chặn được những trang web có nội dung xấu. Bên cạnh đó, cũng giúp mọi người có thể lọc ra được những trang web có nội dung phù hợp với nhu cầu của từng người trong những lĩnh vực riêng biệt.i LỜI CẢM ƠNEm xin gửi lời cảm ơn chân thành sâu sắc nhất tới Thầy LÊ ANH CƯỜNG đã tận tụy hướng dẫn, động viên, giúp đỡ em trong suốt thời gian thực hiện đề tài.Em xin chân thành cảm ơn quý Thầy Cô trong khoa Công Nghệ Thông Tin đã truyền đạt những kiến thức quý báu cho chúng em trong những năm học vừa qua.Chúng con xin nói lên lòng biết ơn đối với Ông Bà, Cha Mẹ luôn là nguồn động viên, chăm sóc trên bước đường học vấn của chúng con.Xin chân thành cảm ơn các anh chị bạn bè đã ủng hộ, giúp đỡ động viên chúng em trong thời gian học tập nghiên cứu.Mặc dù em đã cố gắng hoàn thành luận văn trong phạm vi khả năng cho phép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót. Em kính mong nhận được sự cảm thông tận tình chỉ bảo của quý Thầy Cô các bạn.Hà nội, 06/2010 Sinh viên thực hiện, Trần Quang Dũngii Mc lcChng 1: Tng quỏt 11.1 t vn . 1 1.2 Gii thiu mụ hỡnh cc i entropy 2 1.3 Mc tiờu ca lun vn . 3 Chng 2: Cỏc phng phỏp phõn loi vn bn .5 2.1 Cỏi nhỡn tng quỏt v cỏc phng phỏp phõn loi vn bn 5 2.2 Mụ t bi toỏn phõn loi vn bn . 5 2.3 Biu din vn bn . 6 2.4 Cỏc phng phỏp phõn loi vn bn 7 2.4.1 Naùve Bayes (NB) .72.4.2 k-Nearest Neighbor (kNN) 82.4.3 Linear Least Square Fit (LLSF) 92.4.4 Support Vector Machine (SVM) 10Chng 3: Mụ hỡnh cc i entropy 12 3.1 Tng quỏt mụ hỡnh cc i entropy 12 3.2 Mụ hỡnh cc i entropy 15 3.2.1 D liu hun luyn .153.2.2 Thng kờ, c trng v rng buc 163.2.3 Nguyờn lý cc i entropy .173.2.4 Tham s hỡnh thc .183.2.5 Mi quan h vi cc i Likelihood .203.2.6 Tớnh cỏc tham s 20 3.3 La chn c trng . 22 3.3.1 í ngha ca vic la chn c trng .223.3.2 C s la chn c trng .24 3.3.3 Giỏ tr gn ỳng 26 Chng 4: Thc nghim phõn loi vn bn .29 4.1 Thng kờ kt qu thc nghim 29 iii 4.2 Các thành phần chức năng của chương trình . 34 4.2.1 Chức năng huấn luyện .344.2.2 Chức năng kiểm thử 364.2.3 Chức năng gán nhãn .37 4.3 Ứng dụng chặn nội dung web . 39 4.3.1 Kỹ thuật lọc web Blue Coat 394.3.2 Chức năng ứng dụng chặn nội dung web .41Chương 5: Kết luận .45 5.1 Kết quả đạt được . 45 5.2 Những hạn chế hướng giải quyết 46 Tài liệu tham khảo .47Phụ lục .49iv Danh sách hìnhHình 2.1: Các điểm được khoanh tròn là các vector hỗ trợ 10Hình 3.1: Lựa chọn đặc trưng 24Hình 3.2 log-likelihood được biểu diễn như hàm lồi 2 tham số 28Hình 4.1: Giao diện chức năng huấn luyện 34Hình 4.2: Giao diện chức năng kiểm thử .36Hình 4.3: Giao diện chức năng gán nhãn .37Hình 4.4: Giao diện giới thiệu 38Hình 4.5: Giao diện chặn nội dung web .41Hình 4.6: Cửa sổ setting .42Hình 4.7: Cửa sổ giới thiệu 43v Danh sách bảngBảng 4.1: Số lượng file của dữ liệu huấn luyện 29Bảng 4.2: Số lượng file của dữ liệu kiểm thử .30Bảng 4.3: tả giao diện huấn luyện 35Bảng 4.4: Kết quả huấn luyện .35Bảng 4.5: tả chức năng kiểm thử 36Bảng 4.6: Kết quả kiểm thử 37Bảng 4.7: Kết quả gán nhãn 38Bảng 4.8: Chức năng giao diện chặn nội dung web .42vi Chương 1: Tổng quát1.1 Đặt vấn đềTrong thời đại bùng nổ công nghệ thông tin hiện nay, các tài liệu giấy dần được số hóa thành các dạng tài liệu được lưu trữ trên máy tính thay thế cho những tài liệu giấy cồng kềnh. Tài liệu số với những ưu điểm gọn nhẹ, dễ bảo quản, lưu trữ được lâu, dễ dàng chia sẻ với bạn bè, có thể sửa đổi . đã ngày càng trở nên phổ biến tiện dụng. Vì vậy mà số lượng tài liệu số tăng nhanh đến chóng mặt. Với một khối lượng lớn các tài liệu số như vậy, làm cách nào chúng ta có thể lọc ra được những tài liệu thực sự cần thiết cho một mục đích nào đó của chúng ta?Câu trả lời đó là phân loại văn bản tự động! Một chương trình có thể tự động phân loại văn bản theo các chủ đề cụ thể. Khi đó sẽ giúp chúng ta giới hạn được nội dung của tài liệu theo đúng mục đích sử dụng. Với một khối lượng khổng lồ các tài liệu số. Thì việc phân loại văn bản tự động sẽ giúp chúng ta tiết kiệm được rất nhiều thời gian công sức tìm kiếm.Theo Yang & Xiu (1999), “Việc phân loại văn bản tự động là việc gán các nhãn phân loại lên một văn bản mới dựa trên mức độ tương tự của văn bản đó so với các văn bản đã được gán nhãn trong tập huấn luyện”.Dựa trên thống kê của Yang & Xiu các tài liệu khác, một số phương pháp phân loại thông dụng hiện nay là: Naïve Bayes [Baker & Mccallum, 2000], k-Nearest Neighbor [Yang, 1994], Linear Least Squares Fit [Yang & Chute, 1994], Support Vector Machine [Joachims, 1998] , 1998], Maximum Entropy [Berger, 1996 Della Pietra, 1997]. Các phương pháp đều dựa vào xác suất thống kê hoặc thông tin về trọng số của từ trong văn bản. Chi tiết về các phương pháp sẽ được trình bày trong chương 2.Trong phân loại văn bản tiếng Anh, kết quả phân loại là rất khả quan. Còn đối với tiếng Việt vẫn còn nhiều hạn chế. Hạn chế về mặt ngôn ngữ: Tiếng Anh định nghĩa từ là một tập hợp các ký tự có nghĩa chúng được tách biệt với nhau bởi khoảng trắng. Ví dụ: this, house, wonderland, pacific . Do đó việc tách từ đối với tiếng Anh là rất đơn giản. Tuy nhiên, với tiếng Việt thì việc xác định các từ trở nên khó khăn hơn. Các từ không phải được xác định dựa vào khoảng trắng mà nó phụ thuộc vào ngữ cảnh. Ví dụ các từ 1 sau: “thế giới”, “tiền”, “chiến binh”, “quyển sách” . Hạn chế về tập dữ liệu huấn luyện kiểm thử chuẩn . Tuy nhiên cũng đã có nhiều nhà nghiên cứu trong lĩnh vực này đạt được những kết quả ban đầu như [Huỳnh Quyết Thắng Đinh Thị Phương, 1999], [Nguyễn Linh Giang Nguyễn Mạnh Hiển, 2005]. Các hướng tiếp cận bao gồm: lý thuyết đồ thị [Đỗ Bích Diệp, 2004], sử dụng lý thuyết tập thô [Nguyễn Ngọc Bình, 2004], thống kê [Nguyễn Linh Giang Nguyễn Duy Hải, 1999], học không giám sát đánh chỉ mục [Huỳnh Quyết Thắng Đinh Thị Phương, 1999].Luận văn là một đóng góp tiếp tục trong việc nghiên cứu lý thuyết phát triển các hệ thống thực nghiệm cho việc phân loại văn bản tiếng Việt. Phương pháp phân loại được nghiên cứu trong luận văn là hình cực đại entropy [Berger, 1996 Della Pietra, 1997].1.2 Giới thiệu hình cực đại entropyMô hình cực đại entropy là phương pháp phân loại văn bản được sử dụng rộng rãi trong nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên như: ngôn ngữ hình hóa [Chen Rosenfeld, 1999], gán nhãn từ loại [Ratnaparkhi, 1996], phân loại văn bản [Beeferman, 1999].Mô hình cực đại entropy là kỹ thuật dùng để đánh giá phân phối xác suất của dữ liệu văn bản. Tư tưởng chính của phương pháp là những gì chưa biết hoặc không rõ ràng thì không có bất kỳ giả định gì (cực đại hóa độ hỗn loạn). Tức là áp đặt một phân phối đều lên các sự kiện chưa biết. Dữ liệu đã được gán nhãn được sử dụng để lấy ra tập các ràng buộc cho hình mà nó tả đặc điểm riêng cho từng lớp cụ thể có thể được gán cho văn bản cần phân lớp. Cuối cùng, thuật toán IIS sẽ tìm ra phân phối mà nó thỏa mãn các ràng buộc đã đưa ra thỏa mãn cực đại entropy với phân phối xác suất là đều nhất.Để có thể áp dụng được thật toán IIS trên văn bản cần phân lớp. Bước đầu tiên cần phải thực hiện là chuyển văn bản đang ở dạng chuỗi các ký tự thành các vector đặc trưng.Một yếu tố trong quá trình huấn luyện của hình cực đại entropy chính là việc lựa chọn các vector đặc trưng cho từng lớp. Các vector đặc trưng này phải miêu tả được đầy đủ nhất tính riêng biệt của từng lớp phải có khả năng phân loại giữa các lớp với nhau. 2 [...].. .Mô hình cực đại entropy có được tối ưu hay không là phụ thuộc rất nhiều vào việc lựa chọn này Ưu điểm lớn nhất của hình cực đại entropy là tính mềm dẻo của hình: nó cung cấp một hệ thống các quy luật có tính thống kê ngẫu nhiên để bổ sung các cú pháp, ngữ nghĩa căn cứ vào các vector đặc trưng Tuy nhiên, hình cực đại entropy đòi hỏi một chi phí khá lớn... phân loại phụ thuộc vào toàn bộ dữ liệu Khi dữ liệu có sự thay đổi thì kết quả cũng thay đổi 11 Chương 3: hình cực đại entropy Dựa trên tài liệu hình cực đại entropy của [Adam L Berger & Stephen A Della Pietra & Vincent J Della Pietra, 1996] một số nguồn khác Dưới đấy là những cơ sở lý thuyết cơ bản về hình cực đại entropy Về cách xây dựng hình, nguyên lý cực đại entropy, cách tính các... của hình cực đại entropy Tham số hình thức cách tính toán các tham số đó Ý nghĩa cơ sở của việc lựa chọn các đặc trưng sao cho hiệu quả nhất Từ đó áp dụng lý thuyết vào bài toán phân loại văn bản tiếng Việt ứng dụng chặn nội dung web trên cơ sở phân loại nội dung trang web (dựa vào bài toán phân loại văn bản) Để hiểu sâu sắc thuật toán, luận văn đề ra mục tiêu xây dựng từ đầu thuật toán mô. .. 1998], hình cực đại Entropy [Berger, 1996 Della Pietra, 1997] Từ những phương pháp đó, lựa chọn phương pháp áp dụng cho phân loại văn bản tiếng Việt Phương pháp phân loại văn bản tiếng Việt được sử dụng trong luận văn là hình cực đại Entropy [Berger, 1996 Della Pietra, 1997] Phần lý thuyết của hình trình bày về cách biểu diễn của dữ liệu huấn luyện Các khái niệm về thống kê, đặc trưng và. .. (19) hình tối ưu trong không gian này, được biểu diễn bởi pS, là hình với entropy lớn nhất: PS = arg max p∈C ( S ) H ( p) (20) Bằng cách thêm đặc trưng f̃ vào tập S, chúng ta thu được tập mới với các đặc trưng có hiệu lực Sυf̃ Như công thức (19), tập đặc trưng này quyết định tập các hình: 24 C(S U f̃) = {p € P | E(f) = Ẽ(f) với mọi f € S U f̃} (21) hình tối ưu trong không gian hình. .. đặc trưng ứng cử được nối tiếp vào S, ràng buộc tuyến tính khác được áp dụng lên không gian C(S) của hình được cho phép bởi các đặc trưng trong tập S Như vậy kết quả là, C(S) được rút gọn lại; xác suất mô hình p* trong C với entropy lớn nhất phản ánh sự hiểu biết tăng mãi mãi vì vậy việc miêu tả bài toán sẽ trở nên chính xác hơn.Điều này giúp cho không gian chấp nhận được của các mô hình được... nói cách khác, mô hình luôn luôn dự đoán đó là “dans” Mô hình khác tuân theo ràng buộc này dự đoán “pendant” với xác suất là ½, “à” với xác suất là ½ Nhưng theo cảm giác của chúng ta thì cả hai mô hình này đều không ổn cho lắm: hệ thống dịch luôn luôn lựa chọn 1 trong số 5 từ (cụm từ) tiếng Pháp, làm thế nào chúng ta có thể chứng minh mỗi phân phối xác suất đó là 12 đúng? Mỗi hình mới chỉ dừng... (25) Chỉ duy nhất tham số mà nó phân biệt được các hình có dạng (24) là α Trong số các hình đó, chúng ta quan tâm tới hình mà nó làm tăng tính gần đúng G S , f (α ) = L( PSα f ) − L( PS ) , ~ = − ∑ x ~ ( x) log Z α ( x) + α E ( f ) p (26) Chúng ta sẽ biểu diễn sự tăng thêm của hình này bởi: ~ ∆ L( S , f ) = max α G S , f (α ) (27) hình tối ưu bởi: ~ PS ∪ f = arg max G S , f (α ) trên... cung cấp bởi entropy có điều kiện: 17 H ( p ) = −∑x , y ~ ( x ) p ( y | x) log( p ( y | x)) p (5) Entropy là bị chặn dưới bởi 0, entropy của hình không có sự không chắc chắn nào, chặn trên bởi log|Y|, entropy của phân phối ngang bằng nhau trên toàn bộ các giá trị có thể |Y| của y Với định nghĩa này, chúng ta đã sẵn sàng để biểu diễn nguyên lý của cực đại entropy: Để lựa chọn hình từ một tập... tới những xác suất hình, p(y|x), như trong công thức (3), chúng ta loại trừ các hình được xem xét mà nó không thích hợp với mẫu huấn luyện dựa vào cách thông thường mà output của bài toán sẽ đưa ra đặc trưng f Tóm lại, chúng ta có được giá trị trung bình cho các thống kê tương ứng với các hiện tượng tồn tại trong dữ liệu mẫu, Ẽ(f), cũng là giá trị trung bình yêu cầu mà hình của bài toán . [Berger, 1996 và Della Pietra, 1997].1.2 Giới thiệu mô hình cực đại entropyMô hình cực đại entropy là phương pháp phân loại văn bản được sử dụng rộng rãi. 2010 ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆTrần Quang DũngMÔ HÌNH MAXIMUM ENTROPYVÀ ỨNG DỤNGKHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUYNgành: Công Nghệ

Ngày đăng: 23/11/2012, 15:03

Hình ảnh liên quan

MƠ HÌNH MAXIMUM ENTROPY - Mô hình maximum entropy và ứng dụng
MƠ HÌNH MAXIMUM ENTROPY Xem tại trang 1 của tài liệu.
MƠ HÌNH MAXIMUM ENTROPY - Mô hình maximum entropy và ứng dụng
MƠ HÌNH MAXIMUM ENTROPY Xem tại trang 2 của tài liệu.
Hình 2.1: Các điểm được khoanh trịn là các vector hỗ trợ - Mô hình maximum entropy và ứng dụng

Hình 2.1.

Các điểm được khoanh trịn là các vector hỗ trợ Xem tại trang 18 của tài liệu.
Hình 3.1: Lựa chọn đặc trưng - Mô hình maximum entropy và ứng dụng

Hình 3.1.

Lựa chọn đặc trưng Xem tại trang 32 của tài liệu.
Hình 3.2: log-likelihood được biểu diễn như hàm lồi 2 tham số - Mô hình maximum entropy và ứng dụng

Hình 3.2.

log-likelihood được biểu diễn như hàm lồi 2 tham số Xem tại trang 36 của tài liệu.
Bảng 4.1: Số lượng file của dữ liệu huấn luyện - Mô hình maximum entropy và ứng dụng

Bảng 4.1.

Số lượng file của dữ liệu huấn luyện Xem tại trang 37 của tài liệu.
Bảng 4.2: số lượng file của dữ liệu kiểm thử - Mô hình maximum entropy và ứng dụng

Bảng 4.2.

số lượng file của dữ liệu kiểm thử Xem tại trang 38 của tài liệu.
Hình 4.1: Giao diện chức năng huấn luyện - Mô hình maximum entropy và ứng dụng

Hình 4.1.

Giao diện chức năng huấn luyện Xem tại trang 42 của tài liệu.
Bảng thơng báo kết quả huấn luyện cĩ dạng như sau: - Mô hình maximum entropy và ứng dụng

Bảng th.

ơng báo kết quả huấn luyện cĩ dạng như sau: Xem tại trang 43 của tài liệu.
Bảng 4.3: Mơ tả giao diện huấn luyện - Mô hình maximum entropy và ứng dụng

Bảng 4.3.

Mơ tả giao diện huấn luyện Xem tại trang 43 của tài liệu.
Hình 4.2: Giao diện chức năng kiểm thử - Mô hình maximum entropy và ứng dụng

Hình 4.2.

Giao diện chức năng kiểm thử Xem tại trang 44 của tài liệu.
Bảng mơ tả các chức năng của giao diện kiểm thử: - Mô hình maximum entropy và ứng dụng

Bảng m.

ơ tả các chức năng của giao diện kiểm thử: Xem tại trang 44 của tài liệu.
Bảng 4.5: Mơ tả chức năng kiểm thử - Mô hình maximum entropy và ứng dụng

Bảng 4.5.

Mơ tả chức năng kiểm thử Xem tại trang 45 của tài liệu.
Hình 4.3: Giao diện chức năng gán nhãn - Mô hình maximum entropy và ứng dụng

Hình 4.3.

Giao diện chức năng gán nhãn Xem tại trang 46 của tài liệu.
Hình 4.4: Giao diện giới thiệu - Mô hình maximum entropy và ứng dụng

Hình 4.4.

Giao diện giới thiệu Xem tại trang 47 của tài liệu.
Hình 4.5: Giao diện chặn nội dung web - Mô hình maximum entropy và ứng dụng

Hình 4.5.

Giao diện chặn nội dung web Xem tại trang 49 của tài liệu.
Bảng 4.8: Chức năng giao diện chặn nội dung web - Mô hình maximum entropy và ứng dụng

Bảng 4.8.

Chức năng giao diện chặn nội dung web Xem tại trang 50 của tài liệu.
Hình 4.6: Cửa sổ setting - Mô hình maximum entropy và ứng dụng

Hình 4.6.

Cửa sổ setting Xem tại trang 51 của tài liệu.
Hình 4.7: Cửa sổ giới thiệu - Mô hình maximum entropy và ứng dụng

Hình 4.7.

Cửa sổ giới thiệu Xem tại trang 52 của tài liệu.
double get_model_expectation(int Trả lại giá trị kỳ vọng mơ hình của cặp đặc trưng - Mô hình maximum entropy và ứng dụng

double.

get_model_expectation(int Trả lại giá trị kỳ vọng mơ hình của cặp đặc trưng Xem tại trang 58 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan