ỨNG DỤNG NAÏVE BAYES VÀ ONTOLOGY VÀO BÀI TOÁN PHÂN LỚP VÀ TRÍCH XUẤT KEYPHRASE CHO TÀI LIỆU HỌC TẬP CÔNG NGHỆ THÔNG TIN

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  ỨNG DỤNG GIẢI THUẬT NAÏVE BAYES VÀO BÀI TOÁN PHÂN LỚP VÀ TRÍCH XUẤT KEYPHRASE CHO TÀI LIỆU HỌC TẬP CÔNG NGHỆ THÔNG TIN GVHD : PGS.TS VŨ THANH NGUYÊN HVTH : NGUYỄN VĂN TIẾN MSHV: CH1301109 Lớp : CH-08 TP. Hồ Chí Minh – Tháng 3 Năm 2014 Nguyn Vn Tin CH1301109 Trang 2 MC LC I. C S Lí THUYT V THUT TON BAYES V CC VN LIấN QUAN. 3 1. Cỏc cụng thc xỏc sut 3 2. Cụng thc Bayes 4 3. Bi toỏn phõn lp 4 4. Thut toỏn Naùve Bayes 4 II. NG DNG NAẽVE BAYES V ONTOLOGY VO BI TON PHN LP V TRCH XUT KEYPHRASE 5 1. t vn 5 2. Ni dung ti: 6 3. Phng phỏp xõy dng mụ hỡnh Naùve Bayes 6 4. Cỏc c trng dựng phõn lp d liu 8 5. Xõy dng mụ hỡnh Naùve Bayes 11 6. Trớch xut Keyphrase cho ti liu. 13 III. CI T V TH NGHIM 14 1. Chc nng c bn: 14 2. Cụng ngh s dng: 14 3. Giao din ngi dựng: 14 4. Kt qu t c v ỏnh giỏ: 18 IV. TI LIU THAM KHO 19 Nguyễn Văn Tiến – CH1301109 Trang 3 I. CƠ SỞ LÝ THUYẾT VỀ THUẬT TOÁN BAYES VÀ CÁC VẤN ĐỀ LIÊN QUAN. Định lý Bayes được đặt tên sau khi Reverend Thomas Bayes (1702 – 1761), người đã nghiên cứu việc làm thế nào để tính toán một phân phối cho các tham số xác suất của một phân phối nhị thức. Sau khi Bayes chết, bạn của ông ấy là Richard Price đã biên tập và trình bày công việc này vào năm 1763. Phân loại Naïve Bayes là một phân loại xác suất đơn giản dựa trên việc áp dụng định lý Bayes với sự độc lập hoàn toàn của các giả thiết. Bayesian Classification là lớp các giải thuật học dựa trên định lý Bayes bao gồm mạng Bayes và thuật toán Naïve Bayes, nó giải quyết các vấn đề về phân loại và gom nhóm, được ứng dụng thành công trong nhiều lĩnh vực: phân tích dữ liệu, phân loại văn bản, lọc thư rác, … Thuật toán Naïve Bayes xem độ quan trọng của các thuộc tính là như nhau và các thuộc tính hoàn toàn độc lập với nhau. Tuy nhiên, việc giả thiết các thuộc tính hoàn toàn độc lập với nhau không bao giờ đúng, tuy vậy trong thực tế Naïve Bayes cho kết quả khá tốt. 1. Các công thức xác suất  Công thức xác suất có điều kiện: )( )( )( )( )( )( AP ABP A|BP BP ABP B|AP    Công thức nhân xác suất: P(AB)=P(A).P(B|A)=P(B).P(A|B)  Công thức độc lập xác suất: A 1 , A 2 ,…, A n độc lập với nhau  P(A 1 .A 2 .….A n ) = P(A 1 ).P(A 2 ).….P( A n ).  A, B độc lập  P(AB)=P(A).P(B). Nguyễn Văn Tiến – CH1301109 Trang 4  A, B, C độc lập với nhau  P(A.B.C)=P(A).P(B).P(C). 2. Công thức Bayes Theo định lí Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào 3 yếu tố:  Xác suất xảy ra A của riêng nó, không quan tâm đến B. Kí hiệu là P(A)  Xác suất xảy ra B của riêng nó, không quan tâm đến A. Kí hiệu là P(B)  Xác suất xảy ra B khi biết A xảy ra. Kí hiệu là P(B|A). )( )()( )( BP APA|BP B|AP  3. Bài toán phân lớp Đầu vào:  Một tập các thuộc tính của mẫu X = {x 1 , x 2 , …, x n }  Một tập cố định các phân lớp C = {c 1, c 2 , …, c l } Đầu ra: Phân lớp c i mà mẫu X thuộc về. 4. Thuật toán Naïve Bayes Quá trình học: cho một tập tài liệu huấn luyện S ;in examples with )|( estimate)|( ˆ ),1 ;,,1( attributeeach of valueattributeevery For ;in examples with )( estimate)( ˆ of t valueeach targeFor 1 S S ijkjijkj jjjk ii Lii cCxXPcCxXP N,knj Xx cCPcCP )c,,c(c c     Đầu ra: bảng xác suất điều kiện cho X j , bao gồm N j xL phần tử. Quá trình kiểm tra: cho một mẫu chưa xác định X’ = (a’ 1 , a’ 2 , ….a’ n ), tìm kiếm trong bảng để gán c* cho X’ nếu: Lnn ccccccPcaPcaPcPcaPcaP ,, , ),( ˆ )]|( ˆ )|( ˆ [)( ˆ )]|( ˆ )|( ˆ [ 1 * 1 *** 1         Nguyễn Văn Tiến – CH1301109 Trang 5 II. ỨNG DỤNG NAÏVE BAYES VÀ ONTOLOGY VÀO BÀI TOÁN PHÂN LỚP VÀ TRÍCH XUẤT KEYPHRASE 1. Đặt vấn đề Thế giới dưới sự ảnh hưởng mạnh mẽ này cũng dần dần chuyển sang một nền kinh tế xã hội mà tri thức là nguồn lực chủ yếu. Với sự xuất hiện của Internet tốc độ cao, các thiết bị lưu trữ trở nên vô cùng phổ biến, các tài liệu điện tử được sử dụng hết sức rộng rãi, thì lượng thông tin ngày càng khổng lồ, nhu cầu đối với những thông tin này tất nhiên cũng ngày càng bức thiết: đó là nhu cầu học tập, chia sẻ, quản lý,… Hiện nay, hầu hết các hệ thống tìm kiếm thông tin đều đang tập trung vào việc nghiên cứu tìm kiếm thông tin theo ngữ nghĩa, phương pháp này mang lại độ chính xác cao hơn vì nó mô phỏng gần gũi hơn với yêu cầu của con người. Một vấn đề quan trọng trong hệ thống tìm kiếm thông tin theo ngữ nghĩa là việc lấy ra các thành phần quan trọng trong các tài liệu, hay còn gọi là rút trích keyphrase. Keyphrase là một khái niệm không thể thiếu đối với các hệ thống tìm kiếm thông tin theo ngữ nghĩa, nó là một đơn vị thông tin mang đặc trưng, thể hiện nội dung chính của tài liệu Các keyphrase có vai trò hết sức quan trọng trong các hệ quản lý tài liệu và biểu diễn thông tin theo ngữ nghĩa. Nó ảnh hưởng trực tiếp đến sự hiệu quả của các hệ thống này, bởi các keyphrase mô tả nội dung chính của tài liệu, nó chứa siêu dữ liệu ngữ nghĩa có thể sử dụng cho nhiều mục đích khác nhau: biểu diễn và xử lý thông tin theo ngữ nghĩa, tìm kiếm ngữ nghĩa, quản lý tài nguyên theo ngữ nghĩa… Để có được những tập keyphrase tốt chúng ta cần một phương pháp tốt để phân lớp dữ liệu dựa theo máy học để trích xuất chúng. Do vậy, bài toán phân lớp dữ liệu là một trong những bài toán quan trọng trong trích xuất dữ liệu, nó là tiền đề để phương pháp trích xuất có hiệu quả cao nhất. Nguyễn Văn Tiến – CH1301109 Trang 6 2. Nội dung đề tài: Sử dụng phương pháp máy học Naïve Bayes để phân lớp các keyphrase trong lĩnh vực Công nghệ thông tin nhằm tạo mô hình máy học và áp dụng mô hình máy học này kết hợp thuật giải KEA++ để trích xuất keyphrase cho lĩnh vực Công nghệ thông tin. 3. Phương pháp xây dựng mô hình Naïve Bayes Trong thuật ngữ của học máy, cụm trong tài liệu là các “ví dụ” và vấn đề học ở đây là tìm một kết nối từ các ví dụ đến hai lớp: “keyphrase” hoặc “không phải là keyphrase”. Quá trình huấn luyện dùng một tập tài liệu huấn luyện trong đó các cụm từ khóa đã được tác giả xác định trước. Đối với mỗi tài liệu trong tập huấn luyện, những cụm ứng viên sẽ được xác định và các giá trị đặc trưng của từng cụm ứng viên sẽ được tính toán. Mỗi cụm ứng viên sẽ được gán nhãn là cụm từ khóa hay không là cụm từ khóa dựa vào những cụm từ khóa do tác giả chỉ định. Quá trình huấn luyện sẽ sinh ra một một mô hình và mô hình này được dùng để dự đoán lớp cho các mẫu dữ liệu mới, sử dụng các giá trị các đặc trưng đã được tính toán. Nguyễn Văn Tiến – CH1301109 Trang 7 Hình 1: Quá trình huấn luyện – xây dựng mô hình máy học Naïve Bayes ONTOLOGY Cập nhật các ứng viên dưới sự giám sát của con người. Thêm các ứng viên được cho là quan trọng và loại bỏ các cụm không là ứng viên. Thực hiện tính toán các đặc trưng cho các ứng viên mới được thêm vào. So khớp các cụm từ trong tài liệu với các Keyphrase trong ontology, chọn các cụm từ trùng khớp làm các ứng viên. Một tập các ứng viên đã được đánh dấu là Keyphrase hay không. Tính toán các đặc trưng cho từng ứng viên Một tập các ứng viên cùng các đặc trưng Mô hình huấn luyện Các bài báo tiếng Anh (*.PDF) Lấy các Keyphrase trong bài báo, lưu ra một file riêng, đặt tên trùng với tên bài báo, định dạng *.key, và đặt trong cùng một thư mục. Một tập các bài báo cùng các tập Keyphrase tương ứng. Quá trình do con người thực hiện Một tập các ứng viên cùng với các đặc trưng sau khi đã được cập nhật Xây dựng mô hình huấn luyện Naïve Bayes Một tập các ứng viên Đánh dấu các ứng viên có phải là keyphrase hay không dựa vào tập keyphrase kèm theo tài liệu Xây dựng mô hình:  Rời rạc hóa các đặc trưng.  Tính toán lớp xác xuất.  TÍnh xác suất P YES , P NO Nguyễn Văn Tiến – CH1301109 Trang 8 4. Các đặc trưng dùng để phân lớp dữ liệu Để xây dựng được một mô hình hoàn chỉnh cho phương pháp trích xuất ta cần những đặc trưng cơ bản sao cho từ những đặc trưng cơ bản đó chúng ta sẽ xây dựng được mô hình máy học cho trích xuất. Ở đây, chúng ta sẽ sử dụng các đặc trưng sau để xây dựng mô hình máy học: a. TF, IDF, TFxIDF. TF được gọi là tần số thuật ngữ, là tần số xuất hiện của một từ hoặc một cụm từ trong một văn bản. IDF là tần số nghịch của một từ trong một tập các văn bản. TFxIDF là kết quả của hai số liệu thống kê tần số từ (thuật ngữ) TF và tần số nghịch của một từ trong tập ngữ liệu IDF. Giá trị TFxIDF là một thống kê phản ánh tầm quan trọng của một từ trong tài liệu trong một tập ngữ liệu. Nó thường được sử dụng như một yếu tố quan trọng trong trích xuất thông tin và khai phá dữ liệu. Giá trị TFxIDF tăng theo tỉ lệ thuận với số lần một từ xuất hiện trong các tài liệu, nhưng được bù đắp bởi các tần số của các từ trong tập ngữ liệu, giúp kiểm soát một số từ phổ biến.  TF: tần số xuất hiện của một từ trong một văn bản. Cách tính: ( , ) ( , ) ax{ (w,d):w } f t d tf t d m f d   (3.1) Trong đó:  ft(t,d): tần số xuất hiện của một từ trong một văn bản. Giá trị của biểu thức là thương của số lần xuất hiện 1 từ trong văn bản với số lần xuất hiện nhiều nhất của một từ bất kỳ trong văn bản đó. Giá trị của tf(t,d) sẽ thuộc khoảng [0,1].  f(t,d): số lần xuất hiện từ t trong văn bản d.  max{f(w,d):wd}: số lần xuất hiện nhiều nhất của một từ bất kỳ trong văn bản. Nguyễn Văn Tiến – CH1301109 Trang 9  IDF: Số tài liệu chứa từ hay cụm từ trong một tập tài liệu. Việc tính IDF với mục đích giảm giá trị của những từ phổ biến. Mỗi từ chỉ có 1 giá trị IDF duy nhất trong tập văn bản. Công thức tính IDF như sau: || ( , ) log |{d D: }| D idf t D td   (3.2) Trong đó:  idf(t ,D): số tài liệu chứa từ hay cụm từ t trong tập tài liệu D.  |D|: tổng số văn bản trong tập D.  |{dD :td}|: số lượng văn bản chứa từ nhất định, với điều kiện t xuất hiện trong văn bản d (hay: tf(t ,d)  0). Nếu từ đó không xuất hiện trong tập mẫu nào trong tập thì mẫu số sẽ bằng 0 nên phép chia cho không không hợp lệ, vì thế người ta thường thay bằng mẫu thức: 1 |{d D:t d}|   (3.3) Cơ số logarit trong công thức (2) không thay đổi giá trị của 1 từ mà chỉ thu hẹp khoảng cách của từ đó. Vì thay đổi cơ số sẽ dẫn đến việc giá trị của các từ thay đổi bởi một số nhất định và tỷ lệ giữa các trọng lượng với nhau sẽ không thay đổi. Nói cách khác, thay đổi cơ số sẽ không ảnh hưởng đến tỷ lệ giữa các giá trị IDF. Tuy nhiên, việc thay đổi khoảng giá trị sẽ giúp tỷ lệ giữa IDF vs TF tương đồng để dùng cho công thức TFxIDF.  TFxIDF: tfidf(t, d, D) = tf(t, d) x idf(t, D) (3.4) b. Vị trí xuất hiện đầu tiên, vị trí xuất hiện cuối cùng. Vị trí xuất hiện đầu tiên và vị trí xuất hiện cuối cùng của một từ hay cụm từ là một trong những đặc trưng không thể thiếu trong trích xuất keyphrase. Vị trí xuất hiện đầu Nguyễn Văn Tiến – CH1301109 Trang 10 tiên và cuối cùng của một từ hay cụm từ cho ta biết được sự quan trọng của từ hay cụm từ đó. Theo các chuyên gia lập chỉ mục thì các keyphrase thông thường nằm ở vị đầu hoặc cuối của tài liệu.  Vị trí xuất hiện đầu tiên: được tính bằng số lượng từ trước sự xuất hiện đầu tiên của cụm từ chia cho số từ có trong tài liệu. Kết quả là một số giữa 0 và 1 đại diện cho bao nhiêu cụm từ xuất hiện đầu tiên của cụm từ.       Vị trí xuất hiện cuối cùng: được tính bằng số lượng từ đứng sau vị trí xuất hiện cuối cùng của từ hoặc cụm từ chia cho tổng số từ của tài liệu. Giá trị của vị trí xuất hiện cuối cùng nằm trong khoảng [0…1].     c. Số từ trong cụm ứng viên Chiều dài tối đa: phrase ứng viên thường tối đa là 3 từ Phrase ứng viên không thể là tên riêng Phrase ứng viên không được phép bắt đầu và kết thúc với 1 stopword. Tất cả các dãy từ liền nhau trong mỗi dòng sẽ được kiểm tra dùng 3 luật trên. Kết quả là một tập các cụm ứng viên. Ví dụ: Dòng Cụm ứng viên the programming by demonstration method programming demonstration method programming by demonstration demonstration method (3.7) (3.8) [...]... keyphrase cho tài liệu Sau khi chọn được các keyphrase cho tài liệu ta tiến hành lưu các keyphrase của từng tài liệu vào các tập tin có dạng .key được lưu trong cùng một thư mục với tài liệu, tập tin có cấu trúc như sau: …………… b Quá trình do máy tính thực hiện và xây dựng mô hình Đối với tập tài liệu dùng để huấn luyện Đầu tiên chương trình máy học sẽ so khớp... hình Naïve Bayes Dựa vào quy trình trên (hình 1) chúng ta sẽ phân ra 2 giai đoạn để xây dựng mô hình Máy học cho bài toán như sau: a Quá trình được chuyên gia/ người có kiến thức về lĩnh vực công nghệ thông tin: Người có chuyên môn trong lĩnh vực Khoa học máy tính sẽ thu thập các bài báo và các bài viết khoa học về ngành Khoa học máy tính Sau khi thu thập các bài báo về lĩnh vực này, ta phân các tài liệu. .. các cụm từ trong tài liệu với các keyphrase trong ontology, chỉ giữ lại các cụm từ xuất hiện trong ontology, gọi các cụm từ này là các cụm ứng viên Sau đó, so khớp các cụm ứng viên này với tập các keyphrase kèm theo tài liệu, đối với các Nguyễn Văn Tiến – CH1301109 Trang 11 ứng viên xuất hiện trong tập keyphrase của tài liệu, ta gán cho nó thuộc tính quyết định là “Yes”, đối với các cụm ứng viên còn lại... bản: Ứng dụng cho phép người dùng xây dựng mô hình Máy học bán tự động dưới sự giám sát của chuyên gia giúp trích xuất keyphrase cho các tạp chí, báo khoa học, hay các văn bản, sách có định dạng *.pdf Ở đây chương trình sử dụng tập thử nghiệm trên các bài báo khoa học về lĩnh vực Khoa học máy tính 2 Công nghệ sử dụng: Sử dụng các công nghệ:  Framework NET 4.0 với ngôn ngữ lập trình C#  Sử dụng WPF... hai tập khác nhau, một tập dùng để huấn luyện xây dựng mô hình, một tập dùng để kiểm tra hiệu năng của mô hình vừa xây dựng Đối với tập tài liệu dùng để huấn luyện, ta thực hiện việc trích xuất bằng tay các keyphrase cho tài liệu, công việc này được thực hiện bằng cách duyệt qua các phần chính của bài báo như: title, abstract, keyword và các tiêu đề chính trong bài báo để chọn ra các keyphrase cho tài. .. khoa học máy tính như: bài báo khoa học, ebook,… - Tập các keyphrase do chuyên gia/người có chuyên môn trong ngành Khoa học máy tính trích xuất từ tập văn bản trên Hình 2: Ví dụ minh họa tập dữ liệu training Giao diện người dùng: Nguyễn Văn Tiến – CH1301109 Trang 15 Hình 3: Trích xuất dữ liệu từ văn bản Hình 4: Kết quả xây dựng mô hình Naïve Bayes Nguyễn Văn Tiến – CH1301109 Trang 16 b Trích xuất dữ liệu: ... liệu: Hình 5: Rút trích ứng viên của một văn bản Nguyễn Văn Tiến – CH1301109 Trang 17 Hình 6: Rút trích tập keyphrase cho văn bản Kết quả đạt được và đánh giá: Phương pháp phân lớp Bayes được xem như là thuật toán cơ bản nhất trong các thuật 4 toán Nó được xem như tiền đề cho các phương pháp mới sau này như mạng neural, SVM,… dùng để phân lớp dữ liệu Mặc dù là phương pháp cũ nhưng phân lớp Bayes là một... Trích xuất Keyphrase cho tài liệu Để rút trích các cụm từ khóa từ một tài liệu mới, chương trình xác định các cụm ứng viên và các giá trị đặc trưng, sau đó áp dụng mô hình đã xây dựng trong quá trình huấn luyện Mô hình xác định xác suất mà mỗi ứng viên là một cụm từ khóa Sau đó thực hiên thao tác hậu xử lý để chọn ra tập hợp những cụm từ khóa tốt nhất có thể Giả sử khi mô hình Naïve Bayes được áp dụng cho. .. một tập các ứng viên để làm keyphrase cho tài liệu cùng với thuộc tính quyết định của nó Bước tiếp theo, ta tính toán các đặc trưng cho từng cụm ứng viên, các đặc trưng được tính toán như trong phần tính toán đặc trưng đã được trình bày ở trên Bao gồm các đặc trưng: TF, TFxIDF, vị trí xuất hiện đầu tiên, vị trí xuất hiện cuối cùng, độ dài cụm từ và độ liên quan ngữ nghĩa Sau bước này ta có được tập. .. của phân lớp “Yes” có giá trị là 0.0056 Cuối cùng ta tính toán các xác suất ưu tiên PYes và PNo, 2 xác suất ưu tiên này được tính bằng công thức sau: PYes = 𝑌 𝑌+𝑁 trong đó, Y là tổng số các keyphrase được gán sẵn, N là tổng số các ứng viên mà không phải là keyphrase, ta có công thức tính PNo tương tự như sau: PNo = 𝑁 𝑌+𝑁 Như vậy ta đã có được một mô hình hoàn chỉnh cho việc trích xuất keyphrase 6 Trích . ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  ỨNG DỤNG GIẢI THUẬT NAÏVE BAYES VÀO BÀI TOÁN PHÂN LỚP VÀ TRÍCH XUẤT KEYPHRASE CHO TÀI LIỆU HỌC TẬP CÔNG. máy học Naïve Bayes để phân lớp các keyphrase trong lĩnh vực Công nghệ thông tin nhằm tạo mô hình máy học và áp dụng mô hình máy học này kết hợp thuật giải KEA++ để trích xuất keyphrase cho. báo để chọn ra các keyphrase cho tài liệu. Sau khi chọn được các keyphrase cho tài liệu ta tiến hành lưu các keyphrase của từng tài liệu vào các tập tin có dạng <Tên tài liệu& gt;.key được

ỨNG DỤNG NAÏVE BAYES VÀ ONTOLOGY VÀO BÀI TOÁN PHÂN LỚP VÀ TRÍCH XUẤT KEYPHRASE CHO TÀI LIỆU HỌC TẬP CÔNG NGHỆ THÔNG TIN

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan