GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM

55 367 0
GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Đức Trọng GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI – 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Đức Trọng GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán hướng dẫn: TS Nguyễn Trí Thành Cán đồng hướng dẫn: ThS Trần Mai Vũ HÀ NỘI - 2011 Lời cảm ơn Lời đầu tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Hà Quang Thụy, Tiến sĩ Nguyễn Trí Thành, Thạc sỹ Trần Mai Vũ tận tình hướng dẫn, giúp đỡ suốt trình thực khóa luận tốt nghiệp Tôi xin chân thành cảm ơn thầy, cô tạo cho điều kiện thuận lợi để học tập, rèn luyện nghiên cứu trường Đại học Công nghệ Tôi xin gửi lời cảm ơn tới anh chị bạn sinh viên phòng thí nghiệm KT-Sislab, bạn nhóm nghiên cứu khoa học giúp đỡ, hỗ trợ trình thu thập liệu thực nghiệm mô hình Đồng thời xin gửi lời cảm ơn đề tài QG 10.38 hỗ trợ trình hoàn thành khóa luận Tôi gửi lời cảm ơn tới bạn lớp K52CA K52CHTTT ủng hộ, khích lệ, giúp đỡ sát cánh bên suốt trình học tập, rèn luyện trường Và cuối cùng, xin gửi lời cảm ơn vô hạn tới gia đình, người thân bạn bè – người bên lúc khó khăn nhất, động viên tôi, khuyến khích sống học tập, công việc Tôi xin chân thành cảm ơn ! Sinh viên Lê Đức Trọng Lời cam đoan Tôi xin cam đoan mô hình đề xuất giải toán đồng tham chiếu văn tiếng Việt thực nghiệm trình bày khóa luận thực hướng dẫn Tiến sĩ Nguyễn Trí Thành Thạc sỹ Trần Mai Vũ Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo khóa luận Khóa luận không chép tài liệu, công trình nghiên cứu người khác mà không rõ mặt tài liệu tham khảo Các kết thực nghiệm khóa luận tiến hành thực nghiệm thống kê từ kết thực Sinh viên Lê Đức Trọng Tóm tắt Bài toán đồng tham chiếu văn toán xác định cụm từ (ngữ danh từ đại từ) tài liệu tới thực thể xác định giới thực gom nhóm cụm từ thành chuỗi đồng tham chiếu [6] Đây vấn đề khó lĩnh vực xử lý ngôn ngữ tự nhiên [16], nhận quan tâm lớn từ nhà nhiên cứu hội nghị lớn giới Tại Việt Nam, toán đặt nhiều thách thức tính phức tạp ngôn ngữ tiếng Việt không đầy đủ nguồn tài nguyên ngôn ngữ học chuNn Tuy nhiên, toán có tiềm khai thác cho nguồn liệu tiếng Việt, cần tìm hiểu nghiên cứu Dựa sở đặc trưng miền liệu tiếng Việt, dựa tính mới, tính xác phương pháp tiếp cận giải quyết, khóa luận chọn hướng tiếp cận sử dụng phương pháp máy vector hỗ trợ SVM để giải toán đồng tham chiếu văn tiếng Việt Ý tưởng hướng tiếp cận ghép cặp cụm từ tiềm năng, cụm từ thể cho quan hệ, quan hệ biểu diễn vector đặc trưng Sau đưa vào phân lớp SVM để xác định tính chất đồng tham chiếu, từ gom nhóm cụm từ đồng tham chiếu với Khóa luận sử dụng nguồn liệu nội dung báo tải tự động bóc tách nội dung từ chuyên mục Văn hóa – xã hội báo điện tử Vnexpress.net để xây dựng liệu học cho mô hình đề xuất Kết phần thực nghiệm bước đầu mô hình đề xuất đạt độ xác 76,51 % Trong độ xác mô hình sở 73.79 % với đặc trưng tương đương Điều khẳng định mô hình khả thi có khả ứng dụng thực tế Lời mở đầu Chương 1: Khái quát toán đồng tham chiếu văn 1.1 Quan hệ đồng tham chiếu 1.1.1 Khái niệm 1.1.2 Các thành phần quan hệ đồng tham chiếu thường gặp 1.1.3 Phân loại quan hệ đồng tham chiếu 1.2 Bài toán đồng tham chiếu văn 1.3 Ứng dụng 1.4 Khó khăn thách thức Tóm tắt chương Chương 2: Một số hướng tiếp cận giải toán đồng tham chiếu văn 2.1 Phương pháp học không giám sát 2.1.1 Phương pháp xếp hạng 2.1.2 Phương pháp gom cụm 11 2.2 Phương pháp học giám sát 15 2.2.1 Phương pháp định C4.5 15 2.2.2 Phương pháp máy vector hỗ trợ (SVM) 17 2.3 Nhận xét 21 Tóm tắt chương hai 21 Chương Giải toán đồng tham chiếu văn tiếng Việt dựa vào phương pháp máy vector hỗ trợ 22 3.1 Đặc trưng văn tiếng Việt 22 3.1.1 Đặc trưng từ tiếng Việt 22 3.1.2 Đặc trưng tên người tiếng Việt 23 3.1.3 Đặc trưng quan hệ ngữ nghĩa 24 3.2 Phát biểu toán đồng tham chiếu văn tiếng Việt 25 3.2.1 Phát biểu toán 25 3.2.2 Ý tưởng giải toán 25 3.3 Mô hình trích chọn quan hệ đồng tham chiếu văn tiếng Việt dựa vào phương pháp máy vector hỗ trợ 26 3.3.1 Xây dựng liệu học 26 3.3.2 Mô hình trích chọn quan hệ đồng tham chiếu văn tiếng Việt 29 Tóm tắt chương 34 Chương 4: Thực nghiệm đánh giá 35 4.1 Môi trường thực nghiệm 35 4.1.1 Cấu hình sử dụng 35 4.1.2 Công cụ phần mền 35 4.2 Dữ liệu thực nghiệm 36 4.3 Thực nghiệm 36 4.3.1 Mô tả cài đặt chương trình 36 4.3.2 Xây dựng liệu học 36 4.3.3 Xây dựng phân lớp 40 4.4 Đánh giá, so sánh 40 4.4.1 Đánh giá hệ thống 40 4.4.2 Phương pháp đánh giá 40 4.4.3 Kết thực nghiệm 41 4.5 Nhận xét 42 Kết luận 44 Tài liệu tham khảo 45 Danh sách hình vẽ Hình 1: Mô hình chung giải toán đồng tham chiếu Hình 2: Một ví dụ định 15 Hình 3: Mô hình thu thập liệu thô cho việc xây dựng liệu học 27 Hình 4: Văn tải dạng html 28 Hình : Mô hình xây dựng liệu học 28 Hình 6: Mô hình trích chọn quan hệ đồng tham chiếu văn tiếng Việt 29 Hình 7: Ví dụ liệu gán nhãn 37 Hình 8: Một ví dụ sinh vector đặc trưng 39 Hình 9: Kết độ đo xác hai mô hình thực nghiệm 10 văn 41 Hình 10: Kết độ đo hồi tưởng hai mô hình thực nghiệm 10 văn 42 Hình 11: Kết độ đo F1 hai mô hình thực nghiệm 10 văn 42 Danh sách bảng Bảng 1: Hàm bất tương hợp (incompatibility) trọng số đặc trưng tương ứng ma trận khoảng cách 13 Bảng 2: Đặc trưng mô tả ứng viên tiền ngữ 18 Bảng 3: Đặc trưng mô tả cụm từ xét 18 Bảng 4: Đặc trưng mô tả mối quan hệ tiền ngữ ứng viên cụm từ xét 18 Bảng 5: Đặc trưng thêm mô tả mối quan hệ tiền ngữ ứng viên cụm từ xét 20 Bảng 6: Bảng đặc trưng cụm từ NP1 32 Bảng 7: Bảng đặc trưng cụm từ NP2 32 Bảng 8: Bảng đặc trưng mô tả quan hệ NP1 NP2 33 Bảng 9: Cấu hình phần cứng 35 Bảng 10: Danh sách phần mềm sử dụng 35 Bảng 11: Độ xác trung bình hai mô hình theo LibSVM thực nghiệm thực tế 10 văn 41 Bảng kí hiệu viết tắt Từ cụm từ Kí hiệu viết tắt Vietname semantic web VSW Name entity recognition NER Part-of-speech tagging Support vector machines A library for Support Vector Machines POS-tagging SVM LibSVM Lời mở đầu Bài toán đồng tham chiếu văn toán xác định cụm từ (ngữ danh từ đại từ) tài liệu tới thực thể xác định giới thực gom nhóm cụm từ thành chuỗi đồng tham chiếu [6] Đây vấn đề khó lĩnh vực xử lý ngôn ngữ tự nhiên [16], nhận nhiều quan tâm nhà nghiên cứu, hội nghị lớn giới như: ACL (Association for Computational Linguistics ), IJCAI (International Joint Conference on Artifical intelligence) Nếu phương pháp giải đề xuất cho kết tốt nhiều toán khác như: Hệ thống hỏi đáp, trích chọn quan hệ, nhận dạng thực thể, tóm tắt văn [20], tự động sinh biểu diễn tương đương đoạn văn [4] … cải thiện chất lượng cách đáng kể Xuất phát từ lý mong muốn nâng cao chất lượng đề tài nghiên cứu khoa học sinh viên 2010 – 2011 “Hệ thống hỏi đáp thực thể tên người cho tiếng Việt”, khóa luận chọn toán đồng tham chiếu văn tiếng Việt làm nội dung tập trung nghiên cứu xây dựng mô hình giải Bài toán đồng tham chiếu văn đời từ năm 60-70 kỉ trước [21], phương pháp tiếp cận ban đầu chủ yếu dựa phương pháp tiếp cận kinh nghiệm Cho tới có nhiều phương pháp tiếp cận khác đề xuất để giải toán Tuy nhiên, bật phương pháp dựa hướng tiếp cận học máy không giám sát học máy giám sát Những công trình mang tính ứng dụng cao, ngày cải tiến cho hiệu tốt Khóa luận giới thiệu số phương pháp tiếp cận giải điển hình như: phương pháp xếp hạng, phương pháp gom cụm, phương pháp định phương pháp máy vector hỗ trợ (SVM) Trong phương pháp đó, phương pháp máy vector hỗ trợ phương pháp (2005) cho kết khả quan (độ xác đạt 69.2%) Vì sử dụng phương pháp cho việc giải toán đồng tham chiếu văn tiếng Việt, cụ thể xây dựng mô hình trích chọn quan hệ đồng tham chiếu văn tiếng Việt Kết thực nghiệm bước đầu cho thấy mô hình phù hợp với miền liệu tiếng Việt có khả ứng dụng tốt Nội dung khóa luận bao gồm có chương: Chương 1: Giới thiệu khái quát toán đồng tham chiếu khái niệm liên quan Chương 2: Giới thiệu số phương pháp tiếp cận giải toán đồng tham chiếu bao gồm hai phương pháp học máy không giám sát hai phương pháp học máy có giám sát Đây sở lý thuyết, phương pháp luận quan trọng để khóa • Phần ba đặc trưng thể mối quan hệ NP1 NP2, mô tả bảng Bảng 6: Bảng đặc trưng cụm từ NP1 STT Tên đặc trưng Giá trị Ý nghĩa TYPE_1 [1, 2, 3] Là đặc trưng kiểu NP1 Các giá trị tương ứng với kiểu tên, danh từ, đại từ SUBJECT_1 [0, 1] Là đặc trưng khả NP1 chủ ngữ câu JOB_1 [0, 1] Là đặc trưng khả NP1 nghề nghiệp, chức vụ GENDER_1 [-1, 0, 1] Là đặc trưng giới tính NP1 Nếu nam có giá trị Giá trị Và -1 không xác định NUMBER_1 [1, 2] Là đặc trưng số lượng NP1 Nếu lớn hai coi có giá trị Còn lại có giá trị Bảng 7: Bảng đặc trưng cụm từ NP2 STT Tên đặc trưng Giá trị Ý nghĩa TYPE_2 [1, 2, 3] Là đặc trưng kiểu NP2 Các giá trị tương ứng với kiểu tên, danh từ, đại từ SUBJECT_2 [0, 1] Là đặc trưng khả NP2 chủ ngữ câu JOB_2 [0, 1] Là đặc trưng khả NP2 nghề nghiệp, chức vụ [-1, 0, 1] Là đặc trưng giới tính NP2 Nếu nam có giá trị Giá trị Và -1 không xác định GENDER_2 Là đặc trưng số lượng NP2 Nếu lớn 10 NUMBER_2 [1, 2] hai coi có giá trị Còn lại có giá trị 32 Bảng 8: Bảng đặc trưng mô tả quan hệ NP1 NP2 STT Tên đặc trưng 11 12 BOTH_SUBJECT BOTH_NE Giá trị [0,1] [0, 1] Ý nghĩa Là đặc trưng khả đồng thời chủ ngữ cụm NP1 NP2 Là đặc trưng khả đồng thời thực thể tên cụm NP1 NP2 13 BOTH_N [0, 1] Là đặc trưng khả đồng thời cụm danh từ NP1 NP2 14 BOTH_PRO [0, 1] Là đặc trưng khả đồng thời đại từ NP1 NP2 15 STR_MATCH [0, 1] 16 SUB_STR_MATCH [0, 1] Là đặc trưng khả trùng khớp phận NP1 NP2 17 GENDER [-1, 0, 1] Là đặc trưng khả giới tính NP1 NP2 18 NUMBER [-1, 0, 1] Là đặc trưng khả trùng khớp toàn phần NP1 NP2 Là đặc trưng khả số lượng NP1 NP2 19 AGREEMENT [-1, 0, 1] Là đặc trưng khả số lượng giới tính NP1 NP2 20 APPOSITTIVE [0, 1] Là đặc trưng khả đồng vị ngữ NP1, NP2 21 SEN_DISTANCE [0, 1, …] Là đặc trưng khoảng cách NP1 NP2 22 [-1, 0, 1, POS_IN_SEN_DISTANCE …] Là đặc trưng khoảng cách NP1 NP2 tồn câu c Pha nhận dạng Tập vector đặc trưng sinh đưa qua mô hình phân lớp học phần trước nhằm xác định nhãn lớp Từ đó, xác định cặp cụm từ vector đặc trưng gán nhãn tương ứng có quan hệ đồng tham 33 chiếu với (nhãn 1) hay quan hệ đồng tham chiếu ( nhãn 0) Bước cuối nhóm cặp có quan hệ đồng tham chiếu với vào nhóm Tóm tắt chương Trong chương này, dựa phân tích đặc trưng văn tiếng Việt, khóa luận đưa phương án xây dựng liệu học bán tự động mô hình trích chọn quan hệ đồng tham chiếu văn tiếng Việt dựa vào phương pháp máy vector hỗ trợ SVM Kết thực nghiệm chương sau cho thấy mô hình đề xuất hoàn toàn khả thi 34 Chương 4: Thực nghiệm đánh giá Trong chương này, khóa luận trình bày số thực nghiệm để minh chứng tính đắn tính thực tiễn mô hình đề xuất Vì thời gian có hạn, khóa luận xây dựng thực nghiệm kiểm tra quan hệ đồng tham chiếu cụm từ văn thông qua việc xây dựng phân lớp SVM dựa đặc trưng đề xuất Ngoài ra, nhằm minh chứng mô hình đề xuất phù hợp với miền liệu tiếng Việt cho kết tốt mô hình sở với đặc trưng tương đương, khóa luận xây dựng đồng thời phân lớp dựa mô hình sở (tiến hành ghép cặp toàn văn bản) Mô hình đề xuất đặt tên PModel, mô hình sở đặt tên Bmodel 4.1 Môi trường thực nghiệm 4.1.1 Cấu hình sử dụng Bảng 9: Cấu hình phần cứng Thành phần Chỉ số CPU Core i5 2.27 Ghz RAM GB HDD 320 GB OS Window Ultimate 32 bit 4.1.2 Công cụ phần mền Tác giả sử dụng công cụ sau trình xây dựng hệ thống liệt kê bảng 10: Bảng 10: Danh sách phần mềm sử dụng STT Tên phần mềm Eclipse-SDK3.6.1-win32 Vietnam semantic web (VSW) Tác giả Nguồn http://www.eclipse.org/downloads Nguyễn Tuấn Anh Trần Mai Vũ 35 http://code.google.com/p/vsw/ httpClient 4.1 Apache http://hc.apache.org/httpcomponent s-client-ga/ htmlParser Derrick Oswald http://htmlparser.sourceforge.net libSVM Chih-Chung Chang, Chih-Jen Lin http://www.csie.ntu.edu.tw/~cjlin/li bsvm/ 4.2 Dữ liệu thực nghiệm Dữ liệu thực nghiệm gồm 200 trang báo tiếng Việt lấy từ trang báo điện tử VnExpress.net chuyên mục Văn hóa – xã hội 4.3 Thực nghiệm 4.3.1 Mô tả cài đặt chương trình Chương trình thực nghiệm tổ chức thành gói: • Cor.analysis: Thực việc tách câu từ văn đầu vào, phân tích nhận dạng thực thể tên, danh từ, đại từ câu • Cor.entity: Các lớp thực thể sử dụng mô hình • Cor.fextract: Thực việc ghép cặp cụm từ câu câu phía trước • Cor.dict: Thực việc xác định xem từ có nằm từ điển nghề nghiệp, chức vụ hay không • Cor.crawler: Thực việc tải trích xuất nội dung cho liệu học • Cor.util: Thực xử lý vào file, xử lý xâu, biểu thức quy • Cor.classification: Thực việc phân lớp vector đặc trưng • Cor.libsvm: Bộ thư viện LibSVM 4.3.2 Xây dựng liệu học a Pha tiền xử lý Tiến hành thu thập tập tài liệu nội dung 200 báo liệu thực nghiệm chiến lược đề xuất mục 3.3.1 Theo mô hình đề xuất đưa tài liệu qua bước tiền xử lý nhằm nhận dạng cụm từ tiềm tham gia vào quan hệ đồng tham chiếu thông qua công cụ VSW Tuy nhiên, trình thực nghiệm, nhận thấy tính xác pha tiền xử lý yếu tố quan trọng định ảnh hưởng tới tính xác phân lớp nói riêng hay tính xác toàn 36 mô hình nói chung Pha tiền xử lý chuNn xác vector đặc trưng sinh sát với liệu thực tế, từ phân lớp cho kết cao Vì vậy, để đầu pha tiền xử lý chuNn xác, thực nghiệm tiến hành gán nhãn tay tập liệu nội dung tải để máy tính bắt cách chuNn xác Trong phần thực nghiệm này, xét thành phần tiềm tham gia vào quan hệ đồng tham chiếu là: Thực thể tên người, đại từ, danh từ nghề nghiệp Các nhãn gán bao gồm: NE, N, P Trong đó, NE thể cho thực thể tên, N thể cho danh từ nghề nghiệp, chức vụ khác, P thể cho đại từ Trịnh Công Sơn (28/2/1939 - 1/4/2001) nhạc sĩ lớn tân nhạc Việt Nam Ngoài nhạc,

ông

xem nhà thơ, họa sĩ Trịnh Công Sơn sáng tác khoảng 500 ca khúc, mang đậm phong cách riêng mà gửi gắm nhiều triết lý

Ông

lý giải: "

Tôi

tên hát rong qua miền đất để hát lên linh cảm

mình

giấc mơ đời hư ảo" Hình 7: Ví dụ liệu gán nhãn Nhận xét: Việc gán nhãn tay tập liệu đầu vào pha tiền xử lý có hai ưu điểm • Mô hình nhận dạng toàn cụm từ tiềm tham gia vào quan hệ đồng tham chiếu • Mô hình loại bỏ, không nhận dạng cụm từ không mong muốn b Pha sinh vector đặc trưng • Ghép cặp Từ tập câu thành phần nhận dạng từ pha trên, mô hình đề xuất pha tiến hành ghép cặp thành nhận dạng theo chiến lược đề xuất 3.2.2: • Bước 1: Duyệt danh sách câu ngược từ cuối lên • Bước 2: Tại câu tại, xét với câu trước • Bước 3: Tiến hành ghép cặp thành phần nhận dạng câu thành phần nhận dạng câu trước • Bước 4: Dịch vị trí câu lên câu trước Trở lại bước 37 Đối với mô hình sở, bước tương tự khác bước 3, tiến hành ghép cặp toàn tập văn Nhận xét: • Số cặp sinh PModel số cặp sinh BModel, thời gian xử lý nhanh • Khi số tài liệu đầu vào nhiêu, BModel tạo số cặp lớn • Sinh vector đặc trưng Mỗi cặp tương ứng với quan hệ Mỗi quan hệ biểu diễn vector đặc trưng gồm 22 thuộc tính v = {vi} i = 1, 2, …, 22 đề cập mục 3.3.2 Trong đó: • v1, v2 thể đặc trưng kiểu cụm từ cặp Giá trị thuộc tính 1, 2, tương ứng với kiểu thực thể tên, danh từ đại từ • v3, v4, v5 thể đặc trưng khả kiểu thực thể tên, danh từ, đại từ cặp cụm từ Giá trị thuộc tính 0, Trong tương ứng với việc kiểu thực thể ngược lại • v6, v7, v8 thể đặc trưng khả chủ ngữ câu cụm từ cặp khả chủ ngữ câu Giá trị thuộc tính 0, tương ứng với việc có chủ ngữ câu chủ ngữ, ngược lại • v9, v10 thể đặc trưng khả danh từ nghề nghiệp, chức vụ cụm từ cặp Giá trị thuộc tính 0, tương ứng với việc cụm từ danh từ nghề nghiệp, chức vụ; ngược lại • v11 thể khả hai cụm từ đồng vị ngữ Giá trị thuộc tính hai cụm từ đồng vị ngữ Ngược lại, nhận giá trị • v12, v13 thể đặc trưng trùng khớp toàn phần trùng khớp phận hai cụm từ Thuộc tính nhận giá trị trùng khớp hoàn toàn trùng khớp phận tương ứng Ngược lại nhận giá trị • v14, v15, v16 thể đặc trưng giới tính hai cụm từ đặc trưng khả giống giới tính hai cụm từ Thuộc tính v14, v15 nhận giá trị 1, 0, -1 tương ứng với giới tính nam, nữ, 38 không xác định Thuộc tính v16 nhận giá trị 1, 0, -1 tương ứng với giới tính, khác giới tính, không xác định • v17, v18, v19: thể đặc trưng số lượng hai cụm từ đặc trưng khả số lượng hai cụm từ Thuộc tính v17, v18 nhận giá trị 1, 2, -1 tương ứng với số ít, số nhiều ( nhiều 2) không xác định Thuộc tính v19 nhận giá trị 1, 0, -1 tương ứng với số lượng, khác số lượng không xác định • v20: thể đặc trưng khả số lượng giới tính Thuộc tính nhận giá trị 1, 0, -1 tương ứng với việc số lượng giới tính; hai đặc trưng khác; có đặc trưng không xác định • v21, v22 thể đặc trưng khoảng cách câu hai cụm từ khoảng cách từ hai cụm từ v21 nhận giá trị 0, 1, 2, mô hình đề xuất, 0, 1, 2…, n mô hình sở v22 nhận giá trị -1, 0, 1, 2, …, n tương ứng với việc hai cụm từ khác câu khoảng cách từ hai cụm từ câu < NE > Trương Trí Lâm < /NE > , < NE > Ngô Quân Như < /NE > bạn học đại học

Họ < /P > những sinh viên xuất sắc trường Trương Trí Lâm | Họ 1:3 2:1 3:-1 4:0 5:-1 6:1 7:1 8:1 9:0 10:0 11:0 12:0 13:0 14:-1 15: -1 16:-1 17:1 18:1 19:1 20:-1 21:1 22:-1 Hình 8: Một ví dụ sinh vector đặc trưng Nhận xét: • Thực nghiệm cho thấy giá trị thuộc tính v6, v7, v8 ,v11 nhận giá trị đa số trường hợp cặp cụm từ có quan hệ đồng tham chiếu • Tuy nhiên, có số trường hợp nhập nhằng ngữ nghĩa nên vector đặc trưng tốt quan hệ hai cụm từ, gây khó khăn cho việc gán nhãn lớp pha • Với số liệu thực nghiệm mô hình đề xuất sinh 2500 vector đặc trưng Mô hình sở sinh 3000 vector đặc trưng 39 4.3.3 Xây dựng phân lớp Tập vector đặc trưng sinh phần trước, tiến hành kiểm tra gán nhãn tay Trong đó, vector đặc trưng có nhãn tương ứng với cặp cụm từ tương ứng có quan hệ đồng tham chiếu, ngược lại Sau tập vector gán nhãn tiến hành huấn luyện mô hình kiểm thử sử dụng công cụ libSVM 4.4 Đánh giá, so sánh 4.4.1 Đánh giá hệ thống Hệ thống đánh giá chất lượng thông qua ba độ đo: độ xác (precision), độ hồi tưởng (recall) độ đo F (F-measure) Ba độ đo tính toán theo công thức sau: ‫݁ݎ݌‬஼೔ = ܿ‫ܥݐܿ݁ݎݎ݋‬௜ ܿ‫ܥݐܿ݁ݎݎ݋‬௜ + ݅݊ܿ‫ܥݐܿ݁ݎݎ݋‬௜ ‫ܿ݁ݎ‬஼భ = ܿ‫ܥݐܿ݁ݎݎ݋‬ଵ ܿ‫ܥݐܿ݁ݎݎ݋‬ଵ + ݅݊ܿ‫ܥݐܿ݁ݎݎ݋‬଴ ‫ܨ‬஼೔ = ∗ ‫݁ݎ݌‬஼೔ ∗ ‫ܿ݁ݎ‬஼೔ ‫ܿ݁ݎ݌‬஼೔ + ‫ܿ݁ݎ‬஼೔ Trong đó: Giá trị ܿ‫ܥݐܿ݁ݎݎ݋‬଴ ݅݊ܿ‫ܥݐܿ݁ݎݎ݋‬଴ ܿ‫ܥݐܿ݁ݎݎ݋‬ଵ ݅݊ܿ‫ܥݐܿ݁ݎݎ݋‬ଵ Ý nghĩa Số kết phân lớp vào lớp Số kết phân lớp vào lớp sai Số kết phân lớp vào lớp Số kết phân lớp vào lớp sai 4.4.2 Phương pháp đánh giá Tiến hành thực nghiệm phân lớp hai mô hình theo phương pháp đánh giá chéo Theo phương pháp này, liệu học chia thành 10 phần nhau, lấy phần để huấn luyện phần lại để kiểm tra, kết sau 10 lần thực nghiệm ghi lại đánh giá tổng thể Thư viện libSVM sử dụng khóa luận hỗ trợ phương pháp đánh giá này, phần thực nghiệm sử dụng kết sẵn có thư viện 40 Ngoài ra, phần tiến hành thực nghiệm thực tế 10 đoạn văn khác Các đoạn văn gán nhãn thành phần, sau sinh vector đặc trưng gán nhãn lớp tương ứng Kết ghi lại đánh giá tổng thể 4.4.3 Kết thực nghiệm Kết thực nghiệm so sánh hai mô hình: Mô hình đề xuất PModel mô hình sở BModel Bảng 11: Độ xác trung bình hai mô hình theo LibSVM thực nghiệm thực tế 10 văn PModel BModel Độ xác trung bình theo LibSVM 76.51 % 73.79 % Độ xác trung bình theo thực nghiệm thực tế 77, 83 % 71,12 % 100 90 80 70 60 PModel 50 BModel 40 30 20 10 10 Hình 9: Kết độ đo xác hai mô hình thực nghiệm 10 văn 41 80 70 60 50 PModel 40 BModel 30 20 10 10 Hình 10: Kết độ đo hồi tưởng hai mô hình thực nghiệm 10 văn 80 70 60 50 PModel 40 BModel 30 20 10 10 Hình 11: Kết độ đo F1 hai mô hình thực nghiệm 10 văn 4.5 Nhận xét Quá trình thực nghiệm bước đầu mô hình trích chọn quan hệ đồng tham chiếu văn tiếng Việt dựa vào phương pháp máy vector hỗ trợ SVM cho thấy kết tương đối khả quan với độ xác trung bình 76.51%, mô hình sở với đặc trưng tương đương cho độ xác 73.79% Điều thể tính đắn phù hợp mô hình đề xuất với miền liệu tiếng Việt Ngoài ra, kết phần thực nghiệm thực tế với 10 văn khác với độ xác trung bình PModel BModel 77 83%, 71.12% củng cố thêm mô hình đề xuất 42 hoàn toàn khả thi Tuy nhiên, kết độ đo hồi tưởng độ đo F1 phụ thuộc chưa cho kết cao phụ thuộc vào liệu văn kiểm tra có tính nhập nhằng cao; kết độ đo xác với văn chưa đồng miền liệu học chưa bao phủ hết trường hợp Nhưng tác giả tin xây dưng tập liệu huấn luyện đủ lớn, thu thập nguồn liệu chuNn kết hợp thêm đặc trưng, mô hình đạt độ xác cao tương lai 43 Kết luận Từ việc nghiên cứu toán đồng tham chiếu văn bản, khóa luận đề xuất mô hình giải toán đồng tham chiếu văn tiếng Việt, cụ thể mô hình trích chọn quan hệ đồng tham chiếu văn tiếng Việt dựa phương pháp máy vector hỗ trợ (SVM) Qua kết thực nghiệm đạt cho thấy mô hình đề xuất hoàn toàn khả thi áp dụng thực tế Về mặt nội dung, khóa luận đạt kết sau: • Giới thiệu toán đồng tham chiếu văn khái niệm liên quan • Tìm hiểu giới thiệu phương pháp giải toán đồng tham chiếu văn bao gồm hai phương pháp học máy không giám sát hai phương pháp học máy giám sát • Trên sở kế thừa nghiên cứu, khảo sát đặc trưng văn tiếng Việt, khóa luận đề xuất số đặc trưng dựa mô hình học có giám sát SVM sở Từ đó, xây dựng mô hình trích chọn quan hệ đồng tham chiếu văn tiếng Việt đạt kết tương đối khả quan (76.51%) Bên cạnh kết đạt đó, hạn chế mặt thời gian kiến thức nên khóa luận số hạn chế sau: • Chưa đánh giá mô hình giải toán điều kiện liệu đầu vào kết đầu pha nhận dạng thực thể gắn nhãn từ loại • Chưa xây dựng giao diện sử dụng tương tác với người dùng Về định hướng nghiên cứu thời gian tới: • Khảo sát áp dụng số đặc trưng quan hệ ngữ nghĩa tiếng Việt để nâng cao độ xác mô hình • Thử nghiệm, nghiên cứu phương pháp tiếp cận khác toán đồng tham chiếu tiếng Việt • Đóng gói mô đun tích hợp vào hệ thống hỏi đáp thực thể tên người cho tiếng Việt 44 Tài liệu tham khảo Tiếng Việt [1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn CNm Tú Giáo trình khai phá liệu Web Nhà xuất giáo dục Việt Nam, 2009 [2] Lê Trung Hoa : Họ tên người Việt Nam, Nhà xuất Khoa học Xã hội, 2005 [3] Lê Thanh Hương: Một cách tiếp cận việc tự động sinh biểu diễn tương đương đoạn văn bản, Tạp chí Bưu viễn thông Công nghệ thông tin, 10/2007 Tiếng Anh [4] C Cardie, K Wagstaff: Noun Phrase Coreference as Clustering, Empirical Methods in Natural Language Processing Conference (EMNLP 1999) [5] Z Dzunic, S Momcilovic, B Todorovic: Coreference Resolution Using Decision Tree, Neural Network Applications in Electrical Engineering, 2006 [6] Pascal Denis, Jason Baldridge: A ranking approach to pronoun resolution Proceedings of the 20th International Joint Conference on Artifical intelligence (IJCAI 2007) [7] T Finley, T Joachims: Supervised clustering with Support Vector Machines, Proceeding of the 22nd International Conference on Machine Learning, Germany 2005 [8] Iris Hendrickx, Su Nam Kim, Zornitsa Kozareva, Preslav Nakov, Diarmuid O Seaghdha,Sebastian Pado, Marco Pennacchiotti, Lorenza Romano and Stan Szpakowicz: Multi-Way Classification of Semantic Relations Between Pairs of Nominals SEW, 2009 [9] V´ronique Hoste: Manual for the Annotation of Coreferences in Dutch Newspaper Texts, 2005 [10] Corina Roxana Girju: Text mining for semantic relations PhD Thesis The University of Texas at Dallas, 2002 [11] Joseph F Mccarthy: A trainable approach to coreference resolution for information extraction, 1996 [12] Ruslan Mitkov: Robust pronoun resolution with limited knowledge The 17th international conference on Computational linguistics, COLING 1998 45 [13] Thomas S Morton: Coreference for NLP applications Proceedings of the 38th Annual Meeting on Association for Computational Linguistics, 2000 [14] Thomas S Mortan: Using coreference for question answering, In Proceedings of the 8th Text Retrieval Conference, 1999 [15] Vincent Ng : Machine Learning for Coreference Resolution: From Local Classification to Global Ranking Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL-05), 2005 [16] Vincent Ng: Supervised Noun Phrase Coreference Research: The First Fifteen Years Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL-10), 2010 [17] Altaf Rahman and Vincent Ng.:Supervised Models for Coreference Resolution Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing (EMNLP-09), 2009 [18] Josef Steinberger, Massimo Poesio, Mijail A Kabadjov, Karel Jezek: Two Uses of Anaphora Resolution in Summarization, Information Processing and Management: an International Journal , 2007 [19] José Vicedo, Antonio Ferrández: Importance of pronominal anaphora resolution in question answering systems, ACL, 2000 [20] Yannick Versley, Simone Paolo Ponzetto, Massimo Poesio : BART: A Modular Toolkit for Coreference Resolution, LREC 2008 [21] Yang Xiaofeng: A twin-candidate model for learning based coreference resolution, Doctor thesis, NUS, 2005 [22] Jaeyoung Yang, Heekuck Oh, Kyung-Goo Doh and Joongmin Choi A : Knowledge-Based Information Extraction System for Semi-structured Labeled Documents, Proceedings of the Third International Conference on Intelligent Data Engineering and Automated Learning, 2002 46

Ngày đăng: 05/11/2016, 13:38

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan