báo cáo sử lý ngôn ngữ tự nhiên đề tài phân nhóm văn bản sử dụng phương pháp học naïve bayes

ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG - - BÀI TẬP LỚN Môn: Xử Lý Ngôn Ngữ Tự Nhiên Đề tài: Phân nhóm văn sử dụng phương pháp học Naïve Bayes GV hướng dẫn: PGS.TS Lê Thanh Hương Sinh viên thực hiện: Phạm Chiến Thắng 20082485 Nguyễn Mạnh Hoằng 20081088 Đinh Đức Tân 20082311 Nguyễn Tuấn Anh 20080075 Hà Nội 04/2012 Contents Contents I.Mơ tả tốn II.Phương pháp giải toán Vector biểu diễn văn 2.Phân loại Naïve Bayes 3.Kịch ứng dụng III.Giao diện, chức chương trình .8 1.Chức phân tách trainning dataset 2.Chức kiểm thử 3.Chức phân loại văn 11 IV.Đánh giá độ xác phân loại 13 V.Kết luận 15 VI.Phụ lục 15 I Mơ tả tốn Ngày với phát triển ngày nhanh internet nhu cầu tìm kiếm, tìm kiếm văn phần tìm kiếm chủ đạo Việc phân loại văn theo nhãn hỗ trợ nhiều cho việc truy sở liệu, từ giúp nâng cao hiệu tìm kiếm, nâng cao tổ chức liệu, Bài toán phân loại văn đặt để giải vấn đề a Đầu vào: Một tập văn biểu diễn dạng vector với thuộc tính từ khóa số lần xuất từ khóa văn b Xử lý: Dựa vào vector biểu diễn văn bản, gán nhãn phù hợp cho văn c Đầu ra: Mỗi văn tập văn đầu vào gán nhãn phù hợp II Phương pháp giải tốn Nạve Bayes phương pháp học đơn giản cho hiệu cao, phù hợp toán phân loại văn bản, cụ thể việc áp dụng sau: Vector biểu diễn văn  Mỗi văn dataset biểu diễn dạng vector n+1 chiều: keyword[1] numberRepeated[1] keyword[2] numberRepeated[2] … … keyword[n] numberRepeated[n] label labelName Với n số từ khóa văn  Tập label phân loại: 10 Antibodies Carcinoma DNA In-Vitro Molecular-Sequence-Data Pregnancy Prognosis Receptors Risk-Factors Tomography Phân loại Naïve Bayes  Biểu diễn toán phân loại:  Một tập học D_train, ví dụ học x biểu diễn vector n+1 chiều (keyword[1], keyword[2], …, keyword[n], label)  Tập nhãn lớp (label) C = { Antibodies , Carcinoma , DNA, InVitro, Molecular-Sequence-Data, Pregnancy, Prognosis, Receptors, Risk-Factors, Tomography}  Với ví dụ z, z phân vào lớp nào?  Mục tiêu: xác định phân lớp phù hợp với z b  Để tìm phân lớp z  Giả sử phân loại Nạve Bayes: xác suất từ khóa t j xuất lớp ci độc lập vị trí từ khóa văn  Đối với phân lớp ci, tính giá trị likehood văn d ci:  Phân lớp văn d thuộc vào lớp c*  Vấn đề 1:  Nếu khơng có ví dụ gắn với phân lớp c i có giá trị thuộc tính x j P(xj, ci) = 0, vậy:  Giải pháp: sử dụng ước lượng Bayes  Vấn đề 2:  Giới hạn độ xác tính tốn máy tính  P(xj, ci) < 1, thuộc tính xj phân lớp ci  Trong dataset nhóm sử dụng có số thuộc tính lớn nên:  Giải pháp: sử dụng hàm logarit cho giá trị xác suất: Kịch ứng dụng  Giai đoạn học (trainning phase), sử dụng tập học Đối với phân lớp (mỗi nhãn lớp) ci ∈ C:  Tính giá trị xác suất trước: P(ci)  Đối với giá trị thuộc tính x j, tính giá trị xác suất xảy giá trị thuộc tính phân lớp ci: P(xj|ci)  Giai đoạn phân lớp (classification phase), ví dụ mới:  Đối với phân lớp ci ∈ C, tính giá trị biểu thức:  Xác định phân lớp z c*: III Giao diện, chức chương trình Chức phân tách trainning dataset Bộ dataset sử dụng chương trình lấy từ liệu weka, link download tài liệu: http://www.cs.waikato.ac.nz/ml/weka/index_datasets.html Khởi động ứng dụng cho phép người dùng lựa chọn tỉ lệ D_train D_test sau người dùng sử dụng chức “Trainning” Chức thực hai cơng việc chính: Tách dataset làm D_train D_test Tính xác suất trước P(ci) cho phân lớp c i xác xuất xuất từ khóa từ khóa với phân lớp tương ứng Sau thực hiện, kết lưu vào CSDL để tiện tính tốn phân loại sau Chức kiểm thử Khi chọn chức chương trình thực gán nhãn cho văn tập dataset sau tính tốn độ xác phân loại chương Độ xác phân loại nhãn đánh giá độ xác (Precision) Sau độ xác chương trình đánh giá Macro-Averaging, trung bình cộng độ xác phân loại phân lớp Kết lưu vào CSDL để kiểm tra, xem xét kết 10 Chức phân loại văn Chức thực phân loại văn thực qua bước tiền xử lý Kết lưu vào CSDL trình bày cho người dùng xem dạng: Trong bảng “Result on real data” cho biết tên văn bản, nhãn đầu vào nhãn ứng dụng gán cho dựa vào giải thuật 11 Khi bấm vào “More detail…” hệ thống cho biết thông tin chi tiết văn gồm: nội dung văn bản, từ khóa xuất tập từ khóa, xác suất phân loại với nhãn lớp 12 IV Đánh giá độ xác phân loại a Phương pháp đánh giá Trong chương trình phân loại nhóm em sử dụng phương pháp đánh giá Hold-out (Splitting) Việc lựa chọn phương pháp đánh giá nhóm phù hợp với dataset tương đối lớn (|D| = 11162) Khi thực kiểm thử, chương trình cho phép người dùng lựa chọn tỉ lệ việc phân tách tập liệu D thành D_train D_test với lựa chọn 70%-30%, 60%-40%, 50%-50%, 40%-60% b Độ xác phân loại Trong chương trình nhóm em sử dụng hàm đánh giá độ xác phân loại Macro-Averaging Kết thực gán nhãn văn tập D_test, thực với lựa chọn lần, lấy kết trung bình sau: Lần Lần Lần Lần Lần Trung bình 70%-30% 73.126 78.813 79.110 78.917 78.733 77.740 60%-40% 79.657 78.781 78.854 78.729 78.920 78.988 50%-50% 78.782 79.125 78.619 78.763 77.987 78.655 40%-60% 78.473 77.796 78.568 78.632 78.827 78.459 Nhận xét: - Độ xác phân loại chương trình thay đổi khơng đáng kể thay đổi tỉ lệ D_train:D_test, điều cho thấy liệu lớn phân bố nhãn 13 - Độ xác phân loại chưa cao (~80%), có kết nhãn văn có nội dung gần (đều vấn đề y học), với độ xác phân loại hoàn toàn chấp nhận 14 V Kết luận - Naïve Bayes phương pháp cài đặt tương đối đơn giản, hiệu toán phân loại văn - Naïve Bayes thực phân loại cho kết tốt - Thời gian trả kết tương đối nhanh - Có thể dễ diễn giải với người dùng VI Phụ lục - Chương trình demo viết java (jdk 1.6) Sử dụng IDE Netbean 6.9.1 Sử dụng MySQL 1.2.17 Sử dụng thư viện iText-2.1.7 để xử lý lấy nội dung file pdf Cài đặt chương trình - Tạo thư mục “Naïve Bayes” “C:/” - Copy file config.cfg vào thư mục trên, sửa username password vào MySQL cho xác - Chạy file backup naiveBayesDocumentClassificationDatabase.sql để copy data cho chương trình - Chạy chương trình file Classifier.jar 15 - DANH MỤC TÀI LIỆU THAM KHẢO Bài giảng Xử lý ngôn ngữ tự nhiên – PGS.TS Lê Thanh Hương Bài giảng Học máy, Trí tuệ nhân tạo – TS Nguyễn Nhật Quang http://www.cs.waikato.ac.nz/ml/weka/index_datasets.html Etc… 16 ... gán nhãn phù hợp II Phương pháp giải tốn Nạve Bayes phương pháp học đơn giản cho hiệu cao, phù hợp toán phân loại văn bản, cụ thể việc áp dụng sau: Vector biểu diễn văn  Mỗi văn dataset biểu diễn... tính xj phân lớp ci  Trong dataset nhóm sử dụng có số thuộc tính lớn nên:  Giải pháp: sử dụng hàm logarit cho giá trị xác suất: Kịch ứng dụng  Giai đoạn học (trainning phase), sử dụng tập học. .. IV Đánh giá độ xác phân loại a Phương pháp đánh giá Trong chương trình phân loại nhóm em sử dụng phương pháp đánh giá Hold-out (Splitting) Việc lựa chọn phương pháp đánh giá nhóm phù hợp với dataset

báo cáo sử lý ngôn ngữ tự nhiên đề tài phân nhóm văn bản sử dụng phương pháp học naïve bayes

Thông tin tài liệu

Từ khóa liên quan

Mục lục

Contents

I. Mô tả bài toán.

II. Phương pháp giải quyết bài toán.

1. Vector biểu diễn văn bản.

2. Phân loại Naïve Bayes.

3. Kịch bản ứng dụng.

III. Giao diện, chức năng chương trình.

1. Chức năng phân tách và trainning dataset.

2. Chức năng kiểm thử.

3. Chức năng phân loại văn bản.

IV. Đánh giá độ chính xác phân loại.

V. Kết luận.

VI. Phụ lục.

Tài liệu cùng người dùng

Tài liệu liên quan