TÌM HIỂU THUẬT TOÁN BAYES VÀ CÀI ĐẶT ỨNG DỤNG DOCUMENT CLARIFICATION

20 1.2K 12
TÌM HIỂU THUẬT TOÁN BAYES VÀ CÀI ĐẶT ỨNG DỤNG DOCUMENT CLARIFICATION

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đại Học Quốc Gia TP.HCM Trường Đại Học Công Nghệ Thơng Tin BÀI THU HOẠCH MƠN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: TÌM HIỂU THUẬT TỐN BAYES VÀ CÀI ĐẶT ỨNG DỤNG DOCUMENT CLARIFICATION GVHD: PGS.TS Đỗ Phúc Người thực hiện: Bùi Chí Cường Mã số: CH1101007 Lớp: Cao học khóa TP.HCM – 2012 LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời chân thành cảm ơn đến Ban Chủ nhiệm trường Đại học công nghệ thông tin TP HCM tạo điều kiện cho em tiếp cận với môn Khai phá liệu Em xin cảm ơn thầy PGS.TS Đỗ Phúc tận tình truyền đạt kiến thức cho chúng em thầy giúp đỡ, hướng dẫn để em thực tiểu luận Em xin gửi lời cảm ơn sâu sắc đến quý thầy cô Khoa Công nghệ Thông tin bạn bè thân hữu nhiệt tình đóng góp ý kiến, động viên để em hồn thiện đề tài Mặc dù cố gắng đề tài khó tránh khỏi thiếu sót sai lầm, em mong thầy bạn bè cho ý kiến để đề tài ngày hoàn thiện Một lần nữa, em xin chân thành cảm ơn! Tp HCM, 10 tháng 11 năm 2012 Bùi Chí Cường CH1101007 MỤC LỤC LỜI CẢM ƠN ii MỤC LỤC .iii DANH MỤC CÁC HÌNH .iv CHƯƠNG I - MỞ ĐẦU .5 1.1 Giới thiệu chung .5 1.2 Hoạt động nghiên cứu CHƯƠNG II - TỔNG QUAN VỀ THUẬT TOÁN BAYES 2.1 Sự phân hoạch công thức Bayes 2.2 Bộ phân lớp Naïve Bayes 2.3 Áp dụng định lý Bayes phân loại văn CHƯƠNG III – DEMO VÀ SETUP 12 3.1 Tổng quan chương trình demo 12 3.2 Hướng dẫn cài đặt sử dụng chương trình 12 3.2.1 Yêu cầu 12 3.2.2 Cài đặt sử dụng chương trình .12 3.2.3 Xử lý văn 14 3.2.4 Huấn luyện văn bản: .15 3.2.5 Phân loại văn 17 3.2.6 Thử nghiệm .19 CHƯƠNG IV - KẾT LUẬN 20 4.1 Tóm tắt kết đạt .20 4.2 Hướng phát triển 20 4.3 Tài liệu tham khảo 20 DANH MỤC CÁC HÌNH Hình - Giao diện .13 Hình - Giao diện about .13 Hình - Training with text input 15 Hình - Training with file input 16 Hình - Chọn file để clarify 17 Hình - Clarify file chọn 18 Hình - Clarify với liệu nhập vào textbox 18 Hình - Kết sau clarify 18 iv BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 CHƯƠNG I - MỞ ĐẦU 1.1 Giới thiệu chung Ngày này, internet ngày phát triển phổ biến giới dẫn đến thông tin ngày da dạng Việc phân loại thơng tin tay khó khăn tốn nhiều thời gian Với phát triển công nghệ thông tin giúp cho việc phân loại thông tin trở nên dễ dàng Một lĩnh vực quan trọng máy học (learning machine) phân loại văn Phân loại văn tức gom văn có chung chủ đề vào nhóm Những văn mục tin tức, mục giải trí, thể thao… Hiện nay, có nhiều kỹ thuật để phân loại văn k+nearestneighbor, support vector machines(SVM), boosting decisiontreesand neural network Có nhiều nghiên cứu ứng dụng sử dụng kỹ thuật SVM để phân loại văn Tuy nhiên, có kỹ thuật phổ biến cho độ xác cao việc phân loại văn phương pháp phân loại theo xác suất Bayes Đây phương pháp mà đề tài thực nghiên cứu áp dụng Trong đề tài tìm hiểu lý thuyết Bayes phân lớp từ áp dụng phân loại văn Tiếp theo đề tài cài đặt chạy demo thử nghiệm với số văn để thử nghiệm Chương trình demo viết ngơn ngữ C# quen thuộc dễ phát triển Cuối số danh sách tài liệu tham khảo 1.2 Hoạt động nghiên cứu • Nghiên cứu áp dụng cơng thức Bayes phân loại văn • Cài đặt thử nghiệm phân lớp Bayes phân loại văn BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 CHƯƠNG II - TỔNG QUAN VỀ THUẬT TOÁN BAYES 2.1 Sự phân hoạch công thức Bayes Cho H1, H2, …, Hn phân hoạch không gian mẫu M A biến cố M Ta có: n P ( A ) = ∑ P ( Hi )( A | Hi ) i =0 Các xác suất P(Hi) P(A|Hi) thường biết trước thực phép thử gọi xác suất tiền nghiệm ( apriori probability) Xác suất P(A|Hi) cho biết khả tham gia Hi vào việc xảy biến cố A Xác suất P(A|Hi) gọi xác suất hậu nghiệm ( a posteriori probability) Có thể tính xác suất hậu nghiệm từ xác suất tiền nghiệm theo công thức sau: P ( Hi | A) = P ( Hi ) P ( A | Hi ) P ( A) * Định lý Bayes: Cho H1, H2, …, Hn phân hoạch không gian mẫu A biến cố M Khi với i= 1….n ta có: P( Hi | A) = P ( Hi ) P( A | Hi ) n ∑ P( H k =0 k ) P( A | H k ) 2.2 Bộ phân lớp Naïve Bayes Cho V1,V2, …, Vn phân hoạch không gian mẫu V, Vi lớp Không gian thể X gồm thể mô tả tập thuộc tính A1, A2, …, An Khơng gian thể X tập học Khi với giá trị , phân lớp xuất giá trị hàm phân lớp f(x) Vi Tiếp cận Bayes lấy giá trị có xác suất cao VMAP cho thể Chữ MAP viết tắt cụm từ Maximum A Posterior VMAP = max vi ∈V P (vi | a1 , a2 , , an ) BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 Sử dụng định lý Bayes ta có: VMAP = max vi ∈V P (vi ) P (a1 , a2 , , an | vi ) P (a1 , a2 , , an ) = max P (vi ) P( a1 , a2 , , an | vi ) (4.1) Trong cơng thức có hai số hạng cần quan tâm P(v1) P(a1,a2,…,an) Ta tính P(vj) cách đếm số lần xuất giá trị đích vj tập học Để tính P(a1,a2,…,an) ta giả thuyết ban đầu thuộc tính độc lập Nói cách khác, xác suất thể quan sát lớp vj tích khả thuộc tính riêng biệt vj P (a1 , a2 , , a n | vi ) = ∏ P( | vi ) i Do vậy, công thức (4.1) viết lại là: VNB = max vi∈V P (vi )∏ P (ai | vi ) i với NB viết tắt cụm từ Naïve Bayes Bộ phân lớp Bayes liên quan đến bước học P(vj) P(a1,a2,…,an) tính dựa tập học Để phân lớp ta dùng công thức: n VNB = arg max vi ∈V P(vi )∏ P( | vi ) i Ví dụ: Cho bảng liệu “Chơi bóng đá” Thời tiết Nắng Nắng U_ám Mưa Mưa Mưa U_ám Nhiệt độ Nóng Nóng Nóng Ấm_áp Mát Mát Mát Độ ẩm Cao Cao Cao Cao Vừa Vừa Vừa Gió Khơng Khơng Khơng Khơng Khơng Có Có Lớp N N P P P N P BÙI CHÍ CƯỜNG - CH1101007 Nắng Nắng Nắng Mưa Nắng U_ám U_ám Mưa Ấm_áp Ấm_áp Mát Ấm_áp Ấm_áp Ấm_áp Nóng Ấm_áp LỚP CH CNTTQM - K6 Cao Cao Vừa Vừa Vừa Cao Vừa Cao Không Không Không Không Có Có Khơng Có N N P P P P P N Ta tính xác suất sau: Thời tiết P(nắng | p) = 2/9 P(u_ám | p) = 4/9 P(mưa | p) = 3/9 Nhiệt độ P(nóng | p) = 2/9 P(ấm áp | p) = 4/9 P(mát | p) = 3/9 Độ ẩm P(cao | p) = 3/9 P(vừa | p) = 6/9 Gió P(có | p) = 3/9 P(không | n) = 6/9 P(nắng | n) = 3/5 P(u_ám | n) = P(mưa | n) = 2/5 P(nóng | n) = 2/5 P(ấm áp | n) = 2/5 P(mát | n) = 1/5 P(cao | n) = 4/5 P(vùa | n) = 1/5 P(có | n) = 3/5 P(không | n) = 2/5 Cuối ta có P(p) = 9/14 P(n) = 5/14 Với bảng liệu Cho phân lớp X chưa tìm thấy sau X= < mưa, nóng, cao, không> Phân lớp X: Một mẫu chưa gặp X = P(X|p)P(p) = P(mưa|p)P(nóng|p)P(cao|p)P(khơng|p)P(p) = 3/9x2/9x3/9x6/9x9/14=0.010582 P(X|n)P(n)= P(mưa|n)P(nóng|n)P(cao|n)P(khơng|n)P(n) = 2/5x2/5x4/5x2/5/5/14=0.018286 Vậy mẫu X phân vào lớp n (khơng chơi bóng đá) BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 2.3 Áp dụng định lý Bayes phân loại văn Phương pháp phân loại Bayes thực việc phân loại bắt đầu với việc phân tích văn cách trích từ chứa văn Để thực việc phân tích này, thuật tốn trích từ đơn giản để lấy từ khác văn Những từ lưu vào danh sách dùng để tính xác suất từ thuộc loại Danh sách từ sau sử dụng để sinh bảng chứa xác suất từ thuộc loại Bảng gồm cột “word” chứa từ văn số cột xác suât từ cho loại, tức có loại văn có nhiêu cột xác suất Giá trị cột xác suất tính theo cơng thức Bayes mà trình bày bên Trước tính xác từ thuộc loại nào, từ cần phải huấn luyện tập liệu huấn luyện tổ chức, định dạng theo qui chuẩn Mỗi từ phân biệt từ văn huấn luyện loại đưa vào danh sách xuất từ cho loại Dựa vào danh sách xuất từ, việc phân loại theo xác suất tiến hành tính tốn xác suất hậu nghiệm từ thuộc loại cụ thể cách sử dụng công thức (2) Từ xuất nhiều cho loại xác suất càng cao, việc phân loại xác Cơng thức cho thấy cách quan sát giá trị từ cụ thể wj, xác suất loại cụ thể Ci, Pr(Ci) chuyển thành xác suất hậu nghiệm Pr(Ci|wj) Pr(Ci|wj) xác suất từ wj thuộc loại Ci Pr(Ci) tính cơng thức sau: BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 Pr(wj) tính cơng thức sau: Theo công thức Bayes phân loại văn bản, với giá trị xác suất Pr(Category), Pr(Word|Category) Pr(Word), xác suất hậu nghiệm Pr(Category | Word) từ văn thuộc loại xác định Xác suất hậu nghiệm từ thuộc loại điền vào bảng xác suất bên Sau ô xác suất điền vào, xác suất tổng thể văn thuộc loại cụ thể Ci tính cách chia tổng cột xác suất cho tổng số từ văn w1, w2, w3, …., w n-1, wn từ trích văn 10 BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 Loại có xác suất Pr(Category | Document) cao văn thuộc loại theo luật phân loại Bayes 11 BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 CHƯƠNG III – DEMO VÀ SETUP 3.1 Tổng quan chương trình demo  Chương trình demo thực qua giai đoạn: o Training cho ứng dụng phân loại xác o Làm rõ phân loại văn 3.2 Hướng dẫn cài đặt sử dụng chương trình 3.2.1 Yêu cầu Chương trình chạy Net Framework 4.0 nên người dùng cần phải cài đặt Net Framework 4.0 Tải cài đặt địa chỉ: http://www.microsoft.com/en-us/download/details.aspx?id=17851 3.2.2 Cài đặt sử dụng chương trình Chương trình đóng gói thành tập tin DocumentClarification.exe Người dùng click setup theo hướng dẫn cài đặt hoàn tất Sau kết thúc cài đặt, khởi động chương trình cách double click vào biểu tượng hình mặt cười desktop 12 BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 Giao diện hình giao diện hiển thị Hình - Giao diện Hình - Giao diện about 13 BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 Người dùng thông qua giao diện ( GUI ) để huấn luyện số văn cho số loại cụ thể Các văn thông qua Learning Facility để chia nhóm văn theo loại Nhóm văn lưu vào sở liệu sau thơng qua Training data gerneration facility để sinh danh sách số lần xuất từ Danh sách dùng việc tính xác suất Bayes cơng thức phân loại văn Để tiến hành phân loại người dùng thông qua giao diện để nhập văn cần phân loại Văn đưa vào phân tích từ gọi Input Document Analysis để sinh danh sách số lần xuất từ Danh sách tính tốn cơng thức Nạve Bayes để tính xác suất cho loại văn nhập vào Chương trình demo gồm chức huấn luyện văn phân loại văn Dữ liệu huấn luyện lưu lại theo chuẩn sử dụng cho lần huấn luyện 3.2.3 Xử lý văn Để tiến hành huấn luyện hay phân loại văn bản, trước hết văn cần phải đưa qua xử lý văn Nhiệm vụ chủ yếu xử lý văn tách từ riêng biệt văn đưa vào danh sách Những từ tách văn từ có chiều dài tối thiểu tùy thuộc vào chương trình qui định Trong chương trình demo đề tài từ cần xử lý từ có chiều dài tối thiểu ký từ Vì từ có có chiều dài q ngắn khơng mang nhiều ý nghĩa văn Bộ xử lý văn cần xử lý từ thường xuyên xuất khơng mang ý nghĩa văn Những từ gọi STOP LIST, chẳng hạn từ the, a, an, is, …Việc loại bỏ từ góp phần cho liệu huấn luyện xác 14 BÙI CHÍ CƯỜNG - CH1101007 3.2.4 LỚP CH CNTTQM - K6 Huấn luyện văn bản: Từ giao diện chương trình click vào biểu tượng , chương trình mở hộp thoại người dùng huấn luyện văn Để huấn luyện văn bản, người dùng nhập trực tiếp nội dung vào chương trình nhập từ tập tin văn Sau chọn loại cho văn nhấn nút Add Hình - Training with text input 15 BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 Hình - Training with file input Vì mục đích demo, chương trình hổ trợ loại văn bản: Sport, News, Entertainment…Những văn mang nội dung thể thao bóng đá, bóng rỗ, quần vợt, … thuộc loại Sport Những văn mang tính chất tin tức tài chính, giới, kinh tế, cổ phẩn, thị trường chứng khoán… thuộc loại News Những văn mang nội dung giải trí âm nhạc, điện ảnh, thời trang… thuộc loại Entertainment Việc huấn luyện cần phải thực xác cho loại, tức văn thuộc loại cần phải chọn loại cho văn Việc huấn luyện nhiều chương trình phân loại xác Sau huấn luyện xong, nhấn nút Finish để kết thúc trình huấn luyện văn Chương trình tạo tập tin liệu huấn luyện “dictionary.bcc” với thư mục chạy chương trình Người dùng lưu tập tin để sử dụng cho lần huyến luyện 16 BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 Người dùng khám phá tập tin liệu huấn luyện “dictionary.bcc” mở tập tin chương trình soạn thảo văn Tập tin chứa tất từ mà người dùng huấn luyện với số lần xuất cho loại Chú ý người dùng không nên sửa đổi tập tin gây hỏng liệu 3.2.5 Phân loại văn Có cách phân loại văn bản: Mở file liệu có sẵn : - Click “Browse ” button Hình - Chọn file để clarify - Chọn file liệu click “Clarify” button 17 BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 Hình - Clarify file chọn Nhập văn vào textbox click “Clarify” button Hình - Clarify với liệu nhập vào textbox Kết phân loại văn hiển thị: Hình - Kết sau clarify 18 BÙI CHÍ CƯỜNG - CH1101007 3.2.6 LỚP CH CNTTQM - K6 Thử nghiệm Chương trình tiến hành huấn luyện liệu từ trang tin tức CNN news http://edition.cnn.com/ Sau số kết trình huấn luyện phân loại Văn Huấn luyện Sport Entertainment News Văn Sport Entertainment News Văn Sport Entertainment News 25 20 35 Tổng sổ lần xuất 3312 2223 1424 Số văn 60 45 55 Phân loại 39 38 50 Tổng sổ từ 1240 3291 2611 Phân loại sai 21 Tỉ lệ 65% 85% 90% Kết phân loại mang tính tương đối việc huấn luyện thực phạm vi nhỏ Nhưng đa số văn mà người dùng huấn luyện vài lần cho việc phân loại xác Tuy nhiên, tổng thể liệu huấn luyện cần phải huấn luyện từ vài ngàn đến vài chục ngàn văn trở lên đảm bảo tính xác cho việc phân loại 19 BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 CHƯƠNG IV - KẾT LUẬN 4.1 Tóm tắt kết đạt Đề tài nghiên cứu áp dụng lý thuyết phân lớp Bayes vào việc phân loại văn Chương trình demo áp dụng thành công lý thuyết Bayes phân loại văn 4.2 Hướng phát triển Do đề tài thực thời gian ngắn nên liệu huấn luyện nhỏ dẫn đến việc huấn luyện thiếu xác Để khắc phục nhược điểm đề tài cần có thêm thời gian để huấn luyện thêm văn Chương trình demo xử lý cho ngơn ngữ tiếng Anh Tương lai đề tài cần mở rộng xử lý cho ngôn ngữ tiếng Việt Về tốc độ xử lý chậm đề tài cần phải cải thiện Để khắc phục nhược điểm này, đề tài cần phải kết hợp với thuật toán SVM việc phân loại văn 4.3 Tài liệu tham khảo [1] Dino Isa, V P Kallimani , R Rajkumar , Lam Hong, Lee - Text Document PreProcessing Using the Bayes Formula for Classification Based on the Vector Space Model 2008 [2] TS Đỗ Phúc - Giáo trình khai thác liệu, Đại Học Quốc Gia HCM 2006 [3] Kun Yang, Fei Yao - Document Classification 2005 [4] XiaohuaZhou, XiaodanZhang, XiaohuaHu - Semantic Smoothing for Bayesian Text Classification with Small Training Data 20 ... TỔNG QUAN VỀ THUẬT TOÁN BAYES 2.1 Sự phân hoạch công thức Bayes 2.2 Bộ phân lớp Naïve Bayes 2.3 Áp dụng định lý Bayes phân loại văn CHƯƠNG III – DEMO VÀ SETUP ... Nghiên cứu áp dụng công thức Bayes phân loại văn • Cài đặt thử nghiệm phân lớp Bayes phân loại văn BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 CHƯƠNG II - TỔNG QUAN VỀ THUẬT TOÁN BAYES 2.1 Sự... Bayes Đây phương pháp mà đề tài thực nghiên cứu áp dụng Trong đề tài tìm hiểu lý thuyết Bayes phân lớp từ áp dụng phân loại văn Tiếp theo đề tài cài đặt chạy demo thử nghiệm với số văn để thử nghiệm

Ngày đăng: 10/04/2015, 00:24

Từ khóa liên quan

Mục lục

  • 1 CHƯƠNG I - MỞ ĐẦU

    • 1.1 Giới thiệu chung.

    • 1.2 Hoạt động nghiên cứu.

    • 2 CHƯƠNG II - TỔNG QUAN VỀ THUẬT TOÁN BAYES

      • 2.1 Sự phân hoạch và công thức Bayes

      • 2.2 Bộ phân lớp Naïve Bayes

      • 2.3 Áp dụng định lý Bayes trong phân loại văn bản

      • 3 CHƯƠNG III – DEMO VÀ SETUP

        • 3.1 Tổng quan về chương trình demo

        • 3.2 Hướng dẫn cài đặt và sử dụng chương trình

          • 3.2.1 Yêu cầu

          • 3.2.2 Cài đặt và sử dụng chương trình

          • 3.2.3 Xử lý văn bản

          • 3.2.4 Huấn luyện văn bản:

          • 3.2.5 Phân loại văn bản

          • 3.2.6 Thử nghiệm

          • 4 CHƯƠNG IV - KẾT LUẬN

            • 4.1 Tóm tắt kết quả đạt được

            • 4.2 Hướng phát triển

            • 4.3 Tài liệu tham khảo

Tài liệu cùng người dùng

Tài liệu liên quan