NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

58 2K 2
NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Cẩm Tú NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Cơng nghệ thơng tin HÀ NỘI - 2005 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Cẩm Tú NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Công nghệ thông tin Cán hướng dẫn: TS Hà Quang Thụy Cán đồng hướng dẫn: ThS Phan Xuân Hiếu HÀ NỘI - 2005 Lời cảm ơn Trước tiên, em muốn gửi lời cảm ơn sâu sắc đến thầy giáo, TS Hà Quang Thụy ThS Phan Xuân Hiếu, người tận tình hướng dẫn em suốt trình nghiên cứu Khoa học làm khóa luận tốt nghiệp Em xin bày tỏ lời cảm ơn sâu sắc đến thầy cô giáo giảng dạy em bốn năm qua, kiến thức mà em nhận giảng đường đại học hành trang giúp em vững bước tương lai Em muốn gửi lời cảm ơn đến anh chị thầy nhóm seminar “Khai phá liệu” ThS.Nguyễn Trí Thành, ThS Tào Thị Thu Phượng, CN Vũ Bội Hằng, CN Nguyễn Thị Hương Giang cho em lời khuyên bổ ích chun mơn q trình nghiên cứu Cuối cùng, em muốn gửi lời cảm ơn sâu sắc đến tất bạn bè, đặc biệt cha mẹ em trai, người kịp thời động viên giúp đỡ em vượt qua khó khăn sống Sinh Viên Nguyễn Cẩm Tú i Tóm tắt Nhận biết loại thực thể bước trích chọn thơng tin từ văn xử lý ngơn ngữ tự nhiên Nó ứng dụng nhiều dịch tự động, tóm tắt văn bản, hiểu ngơn ngữ tự nhiên , nhận biết tên thực thể sinh/y học đặc biệt ứng dụng việc tích hợp tự động đối tượng, thực thể từ môi trường Web vào ontology ngữ nghĩa sở tri thức Trong khóa luận này, em trình bày giải pháp nhận biết loại thực thể cho văn tiếng Việt môi trường Web Sau xem xét hướng tiếp cận khác nhau, em chọn phương pháp tiếp cận học máy cách xây dựng hệ thống nhận biết loại thực thể dựa mơ hình Conditional Random Fields (CRF- Laferty, 2001) Điểm mạnh CRF có khả xử lý liệu có tính chất chuỗi, tích hợp hàng trăm nghìn chí hàng triệu đặc điểm từ liệu đa dạng nhằm hỗ trợ cho trình phân lớp Thực nghiệm văn tiếng Việt cho thấy qui trình phân lớp đạt kết khả quan ii Mục lục Lời cảm ơn i Tóm tắt ii Mục lục iii Bảng từ viết tắt v Mở đầu .1 Chương Bài toán nhận diện loại thực thể 1.1 Trích chọn thông tin 1.2 Bài toán nhận biết loại thực thể 1.3 Mơ hình hóa tốn nhận biết loại thực thể .5 1.4 Ý nghĩa toán nhận biết loại thực thể Chương Các hướng tiếp cận giải toán nhận biết loại thực thể 2.1 Hướng tiếp cận thủ công 2.2 Các mơ hình Markov ẩn (HMM) 2.2.1 Tổng quan mơ hình HMM .9 2.2.2 Giới hạn mơ hình Markov ẩn .10 2.3 Mơ hình Markov cực đại hóa Entropy (MEMM) 11 2.3.1 Tổng quan mơ hình Markov cực đại hóa Entropy (MEMM) .11 2.3.2 Vấn đề “label bias” 13 2.4 Tổng kết chương .14 Chương Conditional Random Field (CRF) 15 3.1 Định nghĩa CRF 15 3.2 Nguyên lý cực đại hóa Entropy 16 3.2.1 Độ đo Entropy điều kiện 17 3.2.2 Các ràng buộc phân phối mơ hình 17 3.2.3 Nguyên lý cực đại hóa Entropy .18 3.3 Hàm tiềm mơ hình CRF 19 3.4 Thuật toán gán nhãn cho liệu dạng chuỗi 20 3.5 CRF giải vấn đề ‘label bias’ 22 3.6 Tổng kết chương .22 Chương Ước lượng tham số cho mơ hình CRF .23 iii 4.1 Các phương pháp lặp 24 4.1.1 Thuật toán GIS 26 4.1.2 Thuật toán IIS 27 4.2 Các phương pháp tối ưu số (numerical optimisation methods) 28 4.2.1 Kĩ thuật tối ưu số bậc .28 4.2.2 Kĩ thuật tối ưu số bậc hai .29 4.3 Tổng kết chương .30 Chương 5.1 Hệ thống nhận biết loại thực thể tiếng Việt 31 Môi trường thực nghiệm 31 5.1.1 Phần cứng 31 5.1.2 Phần mềm 31 5.1.3 Dữ liệu thực nghiệm 31 5.2 Hệ thống nhận biết loại thực thể cho tiếng Việt .31 5.3 Các tham số huấn luyện đánh giá thực nghiệm 32 5.3.1 Các tham số huấn luyện 32 5.3.2 Đánh giá hệ thống nhận biết loại thực thể 33 5.3.3 Phương pháp “10-fold cross validation” 34 5.4 Lựa chọn thuộc tính 34 5.4.1 Mẫu ngữ cảnh từ vựng 35 5.4.2 Mẫu ngữ cảnh thể đặc điểm từ 35 5.4.3 Mẫu ngữ cảnh dạng regular expression 36 5.4.4 Mẫu ngữ cảnh dạng từ điển .36 5.5 Kết thực nghiệm .37 5.5.1 Kết 10 lần thử nghiệm 37 5.5.2 Lần thực nghiệm cho kết tốt .37 5.5.3 Trung bình 10 lần thực nghiệm .42 5.5.4 Nhận xét 42 Kết luận 43 Phụ lục: Output hệ thống nhận diện loại thực thể tiếng Việt 45 Tài liệu tham khảo 48 iv Bảng từ viết tắt Từ cụm từ Conditional Random Field Viết tắt CRF Mơ hình Markov ẩn HMM Mơ hình Markov cực đại hóa entropy MEMM v Mở đầu Tim Benner Lee, cha đẻ World Wide Web nay, đề cập Web ngữ nghĩa tương lai World Wide Web, kết hợp khả hiểu người khả xử lý máy Thành công Web ngữ nghĩa phụ thuộc phần lớn vào ontology trang Web giải theo ontology Trong lợi ích mà Web ngữ nghĩa đem lại lớn việc xây dựng ontology cách thủ cơng lại khó khăn Giải pháp cho vấn đề ta phải dùng kĩ thuật trích chọn thơng tin nói chung nhận biết loại thực thực thể nói riêng để tự động hóa phần trình xây dựng ontology Các ontology hệ thống nhận biết loại thực thể tích hợp vào máy tìm kiếm làm tăng độ xác tìm kiếm cho phép tìm kiếm hướng thực thể, khắc phục số nhược điểm cho máy tìm kiếm dựa từ khóa Ý thức lợi ích mà tốn trích chọn thơng tin nói chung nhận biết loại thực thể nói riêng, em chọn hướng nghiên cứu nhằm giải toán nhận biết loại thực thể cho tiếng Việt làm đề tài luận văn Luận văn tổ chức thành chương sau: • Chương giới thiệu tốn trích chọn thơng tin tốn nhận diện loại thực thể ứng dụng • Chương trình bày số hướng tiếp cận nhằm giải toán nhận biết loại thực thể phương pháp thủ công, phương pháp học máy HMM MEMM Các hướng tiếp cận thủ cơng có nhược điểm tốn mặt thời gian, công sức không khả chuyển Các phương pháp học máy HMM hay MEMM khắc phục nhược điểm hướng tiếp cận thủ công lại gặp phải số vấn đề đặc thù mô hình Với HMM, ta khơng thể tích hợp thuộc tính lồng thuộc tính hữu ích cho q trình gán nhãn liệu dạng chuỗi MEMM ,trong số trường hợp đặc biệt, gặp phải vấn đề “label bias”, xu hướng bỏ qua liệu quan sát trạng thái có đường • Chương giới thiệu định nghĩa CRF, nguyên lý cực đại hóa Entropy – phương pháp đánh giá phân phối xác suất từ liệu sở để chọn “hàm tiềm năng” cho mơ hình CRF, thuật tốn Viterbi để gán nhãn cho liệu dạng chuỗi Bản chất “phân phối điều kiện” “phân phối toàn cục” CRF cho phép mơ hình khắc phục nhược điểm mơ hình học máy khác HMM MEMM việc gán nhãn “phân đoạn” (segmentation) liệu dạng chuỗi • Chương trình bày phương pháp để ước lượng tham số cho mơ hình CRF thuật tốn IIS, GIS, phương pháp dựa vector gradient phương pháp “gradient liên hợp”, quasi-Newton, L-BFGs Trong số phương pháp này, phương pháp L-BFGs đánh giá tốt có tốc độ hội tụ nhanh • Chương trình bày hệ thống nhận diện loại thực thể cho tiếng Việt dựa mơ hình CRF, đề xuất phương pháp chọn thuộc tính cho việc nhận biết loại thực thể văn tiếng Việt đưa số kết thực nghiệm Chương Bài toán nhận diện loại thực thể Chủ đề khóa luận áp dụng mơ hình CRF cho tốn nhận biết loại thực thể cho tiếng Việt Chương giới thiệu tổng quan trích chọn thơng tin [30][31][32], chi tiết toán nhận biết loại thực thể [13][15][30][31] ứng dụng toán nhận biết loại thực thể 1.1 Trích chọn thơng tin Khơng giống việc hiểu tồn văn bản, hệ thống trích chọn thơng tin cố gắng nhận biết số dạng thông tin đáng quan tâm Có nhiều mức độ trích chọn thông tin từ văn xác định thực thể (Element Extraction), xác định quan hệ thực thể (Relation Extraction), xác định theo dõi kiện kịch (Event and Scenario Extraction and Tracking), xác định đồng tham chiếu (Co-reference Resolution) Các kĩ thuật sử dụng trích chọn thơng tin gồm có: phân đoạn, phân lớp, kết hợp phân cụm October 14, 2002, 4:00 a.m PT For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers Gates himself says Microsoft will gladly disclose its crown jewels the coveted code behind the Windows operating system to select customers IE NAME Bill Gates Bill Veghte Richard Stallman TITLE ORGANIZATION CEO Microsoft VP Microsoft founder Free Soft "We can be open source We love the concept of shared source," said Bill Veghte, a Microsoft VP "That's a superimportant shift for us in terms of code access.“ Richard Stallman, founder of the Free Software Foundation, countered saying… Hình 1: Một hệ thống trích chọn thơng tin Kết hệ thống trích chọn thơng tin thường mẫu (template) chứa số lượng xác định trường (slots) điền thông tin Bảng 7: Các mẫu ngữ cảnh dạng từ điển Mẫu ngữ cảnh Ví dụ first_name Nguyễn, Trần, Lê last_name Hoa, Lan, Thắng mid_name Thị, Văn, Đình … Verb Sẽ, đã, phát biểu, nói Time_marker Sáng, trưa, chiều, tối Loc_noun Thị trấn, tính, huyện, thủ đô, đảo, Org_noun Công ty, tổ chức, tổng cơng ty Per_noun Ơng, bà, anh, chị, 5.5 Kết thực nghiệm 5.5.1 Kết 10 lần thử nghiệm 100 80 60 40 20 Precision Recall 10 F-measure Hình 9: Giá trị ba độ đo Precision, Recall, F-measure qua 10 lần thực nghiệm 5.5.2 Lần thực nghiệm cho kết tốt 37 Bảng 8: Đánh giá mức nhãn - Lần thực nghiệm cho kết tốt Label Manual Model Match Pre (%) Rec (%) F-Measure(%) O 2132 2134 2101 98.4536 98.546 98.4998 B_LOC 91 97 83 85.567 91.2088 88.2979 I_LOC 55 59 51 86.4407 92.7273 89.4737 B_ORG 52 53 47 88.6792 90.3846 89.5238 B_TIME 58 67 54 80.597 93.1034 86.4 I_TIME 26 25 22 88 84.6154 86.2745 B_PER 13 13 12 92.3077 92.3077 92.3077 B_NUM 29 28 27 96.4286 93.1034 94.7368 I_NUM 2 100 66.6667 80 B_PCT 5 100 100 100 I_ORG 59 36 33 91.6667 55.9322 69.4737 B_CUR 12 12 11 91.6667 91.6667 91.6667 I_CUR 21 20 19 95 90.4762 92.6829 I_PER 15 18 15 83.3333 100 90.9091 71.4286 50 58.8235 B_MISC 10 I_MISC 3 100 75 85.7143 I_PCT 0 0 90.5981 85.3586 87.9003 96.325 96.325 96.325 AVG1 AVG2 2585 2585 2490 38 Bảng 9: Đánh giá mức cụm từ - Lần thực nghiệm cho kết tốt Chunk Manual Model Match Pre.(%) Rec.(%) F-Mesuare(%) PER 13 13 12 92.31 92.31 92.31 LOC 91 97 82 84.54 90.11 87.23 ORG 52 53 40 75.47 76.92 76.19 PCT 5 100 100 100 MISC 10 71.43 50.00 58.82 NUM 29 28 27 96.43 93.10 94.74 TIME 58 67 54 80.60 93.10 86.40 CUR 12 12 11 91.67 91.67 91.67 86.55 85.90 86.23 83.69 87.41 85.51 ARG1 ARG2 270 282 236 39 100 90 F1-measure score (%) 80 70 60 50 40 30 20 10 13 17 21 25 29 33 37 41 45 49 53 Số vịng lặp huấn luyện (L-BFGS) Hình 10: Q trình tăng F-measure qua bước lặp 40 -5000 -10000 -15000 Log-likelihood -20000 -25000 -30000 -35000 -40000 -45000 -50000 -55000 -60000 -65000 -70000 13 17 21 25 29 33 37 41 45 49 53 Số vòng lặp huấn luyện (L-BFGS) Hình 11: Quá trình tăng log-likelihood qua bước lặp 41 5.5.3 Trung bình 10 lần thực nghiệm Bảng 10: Đánh giá mức nhãn- Trung bình 10 lần thực nghiệm Độ đo Giá trị (%) Precision 82.59756 Recall 79.89403 F-measure 81.18363 Bảng 11: Đánh giá mức “cụm từ” – trung bình 10 lần thực nghiệm Độ đo Giá trị (%) Precision 81.855 Recall 79.351 F-measure 80.537 5.5.4 Nhận xét Bước đầu thực nghiệm hệ thống nhận diện loại thực thể tiếng Việt cho kết tương đối khả quan Tuy nhiều trường hợp nhập nhằng khó khăn đề cập chương em tin xây dựng tập liệu huấn luyện đủ lớn, thu thập nguồn tra cứu dồi lựa chọn nhiều thuộc tính tốt hơn, hệ thống cịn đạt độ xác cao tương lai 42 Kết luận Những vấn đề giải luận văn Khóa luận hệ thống hóa số vấn đề lý thuyết trích chọn thơng tin, tốn nhận biết loại thực thể đồng thời trình bày, phân tích, đánh giá số hướng tiếp cận toán nhận biết loại thực thể Một số vấn đề giải pháp toán nhận biết loại thực thể cho tiếng Việt dựa mơ hình CRF đề xuất, thực nghiệm thu số kết khả quan Sau số nét mà luận văn tập trung giải Chương đưa nhìn khái qt trích chọn thơng tin, tốn nhận biết loại thực thể, mơ hình hóa tốn dạng tóan gán nhãn liệu dạng chuỗi ứng dụng tóan nhận diện loại thực thể từ thấy cần thiết phải có hệ thống nhận diện loại thực thể cho tiếng Việt Chương hai xem xét hướng tiếp cận khác để nhằm giải tốn nhận diện loại thực thể, phương pháp thủ công, phương pháp HMM, phương pháp MEMM Chương sâu vào phân tích đánh giá phương pháp, cho thấy thiếu linh hoạt phương pháp thủ cơng, nghèo nàn thuộc tính chọn mơ hình HMM vấn đề “label bias” mà mơ hình MEMM gặp phải Những đánh giá lý giải em lại lựa chọn phương pháp học máy CRF sở để xây dựng hệ thống nhận diện loại thực thể cho tiếng Việt Chương ba đưa định nghĩa CRF, giới thiệu ngun lý cực đại hóa Entropy, thuật tốn gán nhãn cho liệu dạng chuỗi Chương chứng minh CRF mơ hình thích hợp cho tóan nhận diện loại thực thể, cụ thể cho phép tích hợp thuộc tính phong phú đa dạng chuỗi liệu quan sát, chât phân phối tồn cục giúp cho mơ hình CRF tránh vấn đề “label bias” mà MEMM gặp phải Chương bốn hệ thống phương pháp ước lượng tham số cho mơ hình CRF, phương pháp lặp (IIS, GIS), phương pháp dựa vector gradient gradient liên hợp, quasi-Newton, L-BFGs Trong số phương pháp này, L-BFGs đánh giá tốt nhất, phương pháp mà FlexCRFs – CRF framework - sử dụng để ước lượng tham số cho mơ hình 43 Chương năm trình bày hệ thống nhận diện loại thực thể cho tiếng Việt đề xuất phương pháp lựa chọn thuộc tính cho việc nhận diện loại thực thể văn tiếng Việt Chương đưa kết hệ thống nhận diện loại thực thể tiếng Việt qua số lần thực nghiệm Công việc nghiên cứu tương lai Mặc dù kết phân loại thực thể hệ thống tốt thời gian có hạn nên em dừng lại số trung bình 80%, thời gian tới, em tiếp tục nghiên cứu nhằm cải thiện hệ thống, em tin kết tăng lên xấp xỉ 90% mức cụm từ Trên sở hệ thống nhận diện loại thực thể tiếng Việt nay, em dự định mở rộng cụ thể hóa loại thực thể phân nhỏ loại thực thể địa danh thành loại thực thể đất nước, sơng ngịi, Tìm hiểu xây dựng hệ thống nhận diện mối quan hệ thực thể tìm mối quan hệ nơi sinh người, chức vụ người công ty tổ chức Xây dựng ontology địa danh, tổ chức, cho tiếng Việt Tích hợp ontology hệ thống nhận diện loại thực thể vào máy tìm kiếm tiếng Việt Vinahoo nhằm phục vụ việc tìm kiếm hướng thực thể 44 Phụ lục: Output hệ thống nhận diện loại thực thể tiếng Việt Bảng Chú thích: Màu Loại thực thể Ý nghĩa Nâu LOC Tên địa danh Tía Xanh nước biển ORG Tên tổ chức PER Tên người Đỏ PCT Phần trăm Xanh TIME Ngày tháng, thời gian Tím CUR Tiền tệ Xanh nhạt NUM Số Da cam MISC Những loại thực thể khác Kết sau hệ thống gán nhãn số chuỗi liệu quan sát Thứ năm,16/12/2004,15:11 GMT+7 Cao Xumin , Chủ tịch Phòng Thương mại Xuất Nhập thực phẩm Trung Quốc , cho , cách xem xét DOC đem so sánh giá tôm Trung Quốc với giá tôm Ấn Độ vi phạm luật thương mại Để đảm bảo lợi ích Nhà nước doanh nghiệp, sau thời điểm bàn giao tài sản , VMS tiến hành kiểm kê thuê tổ chức tư vấn xác định giá trị doanh nghiệp EU thúc đẩy quan hệ thương mại với Trung Quốc ( 24/02 ) Hiệp hội chất lượng Thượng Hải vấn 2.714 khách hàng 29 siêu thị quanh thành phố tháng qua Thủ tướng Trung Quốc Ôn Gia Bảo vừa cho biết , năm nước giảm tốc độ tăng trưởng kinh tế xuống 8% so với số 9,4% năm 2004 nhằm đạt phát triển ổn định Hãng mở rộng mạng lưới sang Australia Canada OPEC giữ nguyên sản lượng khai thác dầu Theo kế hoạch , vòng thi lần với đội chơi tổ chức đồng thời Hong Kong , TP HCM Australia 45 ' Đại diện thương mại EU không nên lãnh đạo WTO ' ( 12/03 ) VN miễn thị thực cho công dân nước Bắc Âu ( 20/04 ) Giá dầu giới giảm nhẹ sau tuyên bố OPEC ( 25/02 ) TP HCM tổ chức ngày hội du lịch 30/4 ( 21/04 ) Trước thực trạng , du khách đến lễ hội mà khơng đặt phịng trước cịn cách th khách sạn phía ngồi , cách xa trung tâm thành phố Khi gia nhập WTO , môi trường đầu tư Trung Quốc " môi trường cứng " ( sở hạ tầng ) lẫn " mơi trường mềm " ( chế sách ) cải thiện , Trung Quốc trở thành "điểm nóng " thu hút đầu tư nước giới - Cụ thể làm để đẩy nhanh tiến độ gia nhập WTO? Nhật khuyến cáo công dân họ Trung Quốc ý đến an ninh làm sóng biểu tình bắt đầu cách vài tuần Nỗ lực Trung Quốc gia nhập WTO ( 28/12 ) " Có nhiều niên Nhật hiểu biết Trung Quốc " Trung Quốc mở chiến thép ( 14/01 ) Thêm công ty đấu giá cổ phần qua sàn Hà Nội ( 12/04 ) Khối lượng giao dịch khơng có biến động lớn so với tuần trước khiến thị trường nằm ngang Sự nóng bỏng thị trường vàng đen ngày qua khiến giới phân tích đưa nhận định , thị trường nhiên liệu ngày nhạy cảm với nhân tố vĩ mơ sách Tổ chức nước xuất dầu mỏ ( OPEC ) , nhu cầu sử dụng người khổng lồ Mỹ , Trung Quốc Ấn Độ Dầu thô cịn 50 USD /thùng (14/04) Hồi tháng 12 năm ngối , Tổng thống Mỹ George Bush , người tháo ngòi chiến tranh thép với EU số nước châu Á , phải dỡ bỏ thuế suất cao sau nhiều lần WTO đưa lời cảnh cáo Bước dài từ CEPT đến WTO ( 04/01 ) Lộ trình chuẩn bị gia nhập WTO Việt Nam ( 22/12 ) Trên thực tế , Chính phủ Trung Quốc đổ nhiều tiền cho ngành thép nước , đồng thời không quên cảnh báo cách lấn át đối thủ khác , vịng 10 năm tới Về lâu dài, từ tháng sang năm, doanh thu toàn Thai Airways giảm khoảng 2-3% Phuket thị trường 46 Ngay sau thảm họa xảy , sân bay Phuket đống cửa vài hoật động lại sau Tính đến hơm qua , 60% khách du lịch nươc hủy chỗ khách sạn khu nghỉ dưỡng Phuket 47 Tài liệu tham khảo [1] A.Berger, A.D.Pietra, and J.D.Pietra.A maximum entropy approach to natural langauge processing Computational Linguistics, 22(1):39-71, 1996 [2] Adam Berger The Improved Iterative Scaling Algorithm: A gentle Introdution School of Computer Science, Carnegie Mellon University [3] Andrew Borthwick A maximum entropy approach to Named Entity Recognition New York University, 1999 [4] Andrew McCallum Efficiently Inducing Features of Conditional Random Fields Computer Science Department University of Massachusetts [5] A.McCallum, D.Freitag, and F Pereira Maximum entropy markov models for information extraction and segmentation In Proc Iternational Conference on Mechine Learning, 2000, pages 591-598 [6] Andrew McCallum, Khashayar Rohanimanesh, and Charles Sutton Dynamic Conditional Random Fields for Jointly Labeling Multiple Sequences Department of Computer Science, University of Massachusetts [7] Andrew Moore Hidden Markov Models Tutorial Slides [8] A.Ratnaparkhi.A maximum entropy model for part-of-speech tagging.In Proc Emparical Methods for Natural Language Processing, 1996 [9] Basilis Gidas Stochastic Graphical Models and Applications, 2000 University of Minnesota [10] David Barber An Introduction to Graphical Models [11] Dong C.Liu and Jorge Nocedal On the limited memory BFGS method for large scale optimization.Mathematical Programming 45 (1989),pp.503-528 [12] F.Sha and F.Pereira.Shallow parsing with conditional random fields In Proc Human Language Technology/ the Association for Computational Linguistics North American Chapter, 2003 [13] GuoDong Zhou, Jian Su Named Entity Recognition using an HMM-based Chunk Tagger [14] Hammersley, J., & Clifford, P (1971) Markov fields on finite graphs and lattices Unpublished manuscript 48 [15] Hanna Wallach Efficient Training of Conditional Random Fields University Of Edinburgh, 2002 [16] Hieu Phan, Minh Nguyen, Bao Ho – Japan Advanced Institute of Science and Technology,Japan , and Susumu Horiguchi- Tokosu University, Japan Improving Discriminative Sequential Learning with Rare-but-Important Associations SIGKDD ’05 Chicago, II, USA, 2005 [17] J.Lafferty, A.McCallum, and F.Pereira.Conditional random fields: probabilistic models for segmenting and labeling sequence data In Proc ICML, 2001 [18] John Lafferty, Yan Liu, Xiaojin Zhu, School of Computer Science – Carnegie Mellon University, Pittsburgh, PA 15213 Kernel Conditonal Random Fields: Representation, Clique Selection and Semi-Supervised Learning CMS-CS-04-115, February 5, 2004 [19] Rabiner.A tutorial on hidden markov models and selected applications in speech recognition In Proc the IEEE, 77(2):257-286, 1989 [20] Robert Malouf, Alfa-Informatica Rijksuniversiteit Groningen, Postbus 716 9700AS Groningen The Newtherlands A comparison of Algorithms for maximum entropy parameter estimation [21] Ronald Schoenberg Optimization with the Quasi-Newton Method, September 5, 2001 [22] Sunita Sarawagi, William W Cohen Semi-Markov Conditional Random Fields for Information Extraction [23] Trausti Kristjansson, Aron Cullota, Paul viola, Adrew McCallum Interactive Information Extraction with Constrained Conditionial Random Fields [24] Xuming He, Richard S Zemel, Miguel Á Carreira-Perpinan, Department of Computer Science, University of Toronto Multiscale Conditional Random Fields for Image Labeling [25] Yasemin Altun and Thomas Hofmann, Department of Computer Science, Brown University, Providence, RI Large Margin Methods for Label Sequence Learning 49 [26] Yasemin Altun, Alex J Smola, Thomas Hofmann Exponential Faminlies for Conditional Random Fields [27] Walter F.Mascarenhas The BFGS method with exact line searches fails for non-convex objective functions Published May 7, 2003 [28] Web site: http://web.mit.edu/wwmatch Optimization [29] Web site: http://www.mtm.ufsc.br/ Shannon Entropy [30] Web site: http://www.cs.nyu.edu/cs/faculty/grishman/muc6.html Information about the sixth Message Understanding Conference [31] Web site: http://www.itl.nist.gov/iaui/894.02/related_projects/muc/proceedings/muc_7 _toc.html Information about the seventh Message Understanding Conference [32] William W.Cohen, Adrew McCallum Slides “Information Extraction from the World Wide Web”, KDD 2003 50 O3 O1 [1] Andrew Borthwick A maximum entropy approach to Named Entity Recognition Doctor of Philosophy, New York University, September 1999 [2] A.McCallum, D.Freitag, F Pereira Maximum entropy markov models for information extraction and segmentation In Proc ICML 2000, pages 591-598 [3] Dong C.Liu and Jorge Nocedal On the limited memory BFGS method for large scale optimization Mathematical Programming 45 (1989), pp.503-528 [4] GuoDong Zhou, Jian Su Named Entity Recognition using an HMM-based Chunk Tagger ACL Philadenphia, July 2002, pp 473-480 [5] Hanna Wallach Efficient Training of Conditional Random Fields Doctor of Philosophy, University Of Edinburgh, 2002 [6] Hieu Phan, Minh Nguyen, Bao Ho, and Susumu Horiguchi Improving Discriminative Sequential Learning with Rare-but-Important Associations ACM SIGKDD Chicago, IL, USA, August 21-24, 2005 (to appear) [7] J.Lafferty, A.McCallum, and F.Pereira.Conditional random fields: probabilistic models for segmenting and labeling sequence data In Proc ICML , pages 282-290,2001 [8] Rabiner.A tutorial on hidden markov models and selected applications in speech recognition In Proc the IEEE, 77(2):257-286, 1989 [9] William W.Cohen, Adrew McCallum Slides “Information Extraction from the World Wide Web”, KDD 2003 [10] P.X.Hieu, N.L.Minh http://www.jaist.ac.jp/~hieuxuan/flexcrfs/flexcrfs.html [11] Website: http://www.itl.nist.gov/iaui/894.02/related_projects/muc/index.html 51 ... Cẩm Tú NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Cơng nghệ thơng tin Cán hướng. .. hóa tốn nhận biết loại thực thể .5 1.4 Ý nghĩa toán nhận biết loại thực thể Chương Các hướng tiếp cận giải toán nhận biết loại thực thể 2.1 Hướng tiếp cận thủ công 2.2 Các mơ... việc nhận biết loại thực thể văn tiếng Việt đưa số kết thực nghiệm Chương Bài toán nhận diện loại thực thể Chủ đề khóa luận áp dụng mơ hình CRF cho tốn nhận biết loại thực thể cho tiếng Việt

Ngày đăng: 16/02/2014, 03:00

Hình ảnh liên quan

Bảng từ viết tắt Từ hoặc cụm từ Viết tắt  - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

Bảng t.

ừ viết tắt Từ hoặc cụm từ Viết tắt Xem tại trang 7 của tài liệu.
Chủ đề chính của khóa luận là áp dụng mơ hình CRF cho bài toán nhận biết các loại thực thể cho tiếng Việt - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

h.

ủ đề chính của khóa luận là áp dụng mơ hình CRF cho bài toán nhận biết các loại thực thể cho tiếng Việt Xem tại trang 10 của tài liệu.
1.3. Mơ hình hóa bài tốn nhận biết các loại thực thể - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

1.3..

Mơ hình hóa bài tốn nhận biết các loại thực thể Xem tại trang 12 của tài liệu.
Ta có thể mô hình hóa HMM dưới dạng một đồ thị có hướng như sau: - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

a.

có thể mô hình hóa HMM dưới dạng một đồ thị có hướng như sau: Xem tại trang 17 của tài liệu.
Vấn đề thứ hai mà các mơ hình sinh gặp phải khi áp dụng vào các bài toán phân lớp dữ liệu dạng chuỗi đó là chúng sử dụng xác suất đồng thời để mơ hình hóa  các bài tốn có tính điều kiện.Với các bài toán này sẽ thích hợp hơn nếu ta dùng một  mơ hình điều k - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

n.

đề thứ hai mà các mơ hình sinh gặp phải khi áp dụng vào các bài toán phân lớp dữ liệu dạng chuỗi đó là chúng sử dụng xác suất đồng thời để mơ hình hóa các bài tốn có tính điều kiện.Với các bài toán này sẽ thích hợp hơn nếu ta dùng một mơ hình điều k Xem tại trang 18 của tài liệu.
Trong một số trường hợp đặc biệt, các mơ hình MEMM và các mơ hình định nghĩa một phân phối xác suất cho mỗi trạng thái có thể gặp phải vấn đề “label bias”  [15][17] - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

rong.

một số trường hợp đặc biệt, các mơ hình MEMM và các mơ hình định nghĩa một phân phối xác suất cho mỗi trạng thái có thể gặp phải vấn đề “label bias” [15][17] Xem tại trang 20 của tài liệu.
Kí hiệu X=(X1, X2,…, Xn), Y=(Y1,Y2, ...,Yn). Mơ hình đồ thị cho CRF có dạng:  - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

hi.

ệu X=(X1, X2,…, Xn), Y=(Y1,Y2, ...,Yn). Mơ hình đồ thị cho CRF có dạng: Xem tại trang 23 của tài liệu.
Phương trình (3.6) thể hiện một ràng buộc đối với phân phối mơ hình. Nếu ta chọn n thuộc tính từ tập dữ liệu huấn luyện, ta sẽ có tương đương n ràng buộc đối với  phân phối mơ hình - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

h.

ương trình (3.6) thể hiện một ràng buộc đối với phân phối mơ hình. Nếu ta chọn n thuộc tính từ tập dữ liệu huấn luyện, ta sẽ có tương đương n ràng buộc đối với phân phối mơ hình Xem tại trang 25 của tài liệu.
Hình 7: Một bước trong thuật toán Viterbi cải tiến - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

Hình 7.

Một bước trong thuật toán Viterbi cải tiến Xem tại trang 28 của tài liệu.
Hàm log-likelihood cho mơ hình CRF là một hàm lõm và trơn trong toàn bộ không gian của tham số - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

m.

log-likelihood cho mơ hình CRF là một hàm lõm và trơn trong toàn bộ không gian của tham số Xem tại trang 31 của tài liệu.
mơ hình sao cho hàm log-likelihood nhận giá trị càng gần với giá trị cực đại càng tốt - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

m.

ơ hình sao cho hàm log-likelihood nhận giá trị càng gần với giá trị cực đại càng tốt Xem tại trang 32 của tài liệu.
Bảng 2: Các tham số trong quá trình huấn luyện - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

Bảng 2.

Các tham số trong quá trình huấn luyện Xem tại trang 39 của tài liệu.
Hình 8: Cấu trúc hệ thống nhận biết loại thực thể - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

Hình 8.

Cấu trúc hệ thống nhận biết loại thực thể Xem tại trang 39 của tài liệu.
Bảng 3: Các giá trị đánh gía một hệ thống nhận diện loại thực thể - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

Bảng 3.

Các giá trị đánh gía một hệ thống nhận diện loại thực thể Xem tại trang 40 của tài liệu.
5.3.2. Đánh giá các hệ thống nhận biết loại thực thể - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

5.3.2..

Đánh giá các hệ thống nhận biết loại thực thể Xem tại trang 40 của tài liệu.
Bảng 4: Các mẫu ngữ cảnh về từ vựng Mẫu ngữ cảnh Ý nghĩa  - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

Bảng 4.

Các mẫu ngữ cảnh về từ vựng Mẫu ngữ cảnh Ý nghĩa Xem tại trang 42 của tài liệu.
Bảng 5: Các mẫu ngữ cảnh thể hiện đặc điểm của từ - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

Bảng 5.

Các mẫu ngữ cảnh thể hiện đặc điểm của từ Xem tại trang 42 của tài liệu.
5.4.3. Mẫu ngữ cảnh dạng regular expression - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

5.4.3..

Mẫu ngữ cảnh dạng regular expression Xem tại trang 43 của tài liệu.
Bảng 6: Các mẫu ngữ cảnh dạng Regular Expression - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

Bảng 6.

Các mẫu ngữ cảnh dạng Regular Expression Xem tại trang 43 của tài liệu.
Hình 9: Giá trị ba độ đo Precision, Recall, F-measure qua 10 lần thực nghiệm 5.5.2. Lần thực nghiệm cho kết quả tốt nhất  - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

Hình 9.

Giá trị ba độ đo Precision, Recall, F-measure qua 10 lần thực nghiệm 5.5.2. Lần thực nghiệm cho kết quả tốt nhất Xem tại trang 44 của tài liệu.
Bảng 7: Các mẫu ngữ cảnh dạng từ điển - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

Bảng 7.

Các mẫu ngữ cảnh dạng từ điển Xem tại trang 44 của tài liệu.
Bảng 8: Đánh giá mức nhãn- Lần thực nghiệm cho kết quả tốt nhất - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

Bảng 8.

Đánh giá mức nhãn- Lần thực nghiệm cho kết quả tốt nhất Xem tại trang 45 của tài liệu.
Hình 10: Quá trình tăng F-measure qua các bước lặp - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

Hình 10.

Quá trình tăng F-measure qua các bước lặp Xem tại trang 47 của tài liệu.
Hình 11: Quá trình tăng log-likelihood qua các bước lặp - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

Hình 11.

Quá trình tăng log-likelihood qua các bước lặp Xem tại trang 48 của tài liệu.
Bảng 10: Đánh giá mức nhãn- Trung bình 10 lần thực nghiệm - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

Bảng 10.

Đánh giá mức nhãn- Trung bình 10 lần thực nghiệm Xem tại trang 49 của tài liệu.
Bảng 11: Đánh giá ở mức “cụm từ” – trung bình 10 lần thực nghiệm - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

Bảng 11.

Đánh giá ở mức “cụm từ” – trung bình 10 lần thực nghiệm Xem tại trang 49 của tài liệu.
Bảng Chú thích: - NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

ng.

Chú thích: Xem tại trang 52 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan