LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc

63 502 0
LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Fn H ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ Phạm Thị Ngọc Bích NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ Phạm Thị Ngọc Bích NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán hƣớng dẫn: Th.S Trần Thị Oanh Cán đồng hƣớng dẫn: CN Nguyễn Minh Tuấn HÀ NỘI - 2009 Lời cảm ơn Trƣớc hết, tơi xin gửi lời cảm ơn lịng biết ơn sâu sắc tới Phó Giáo sƣ Tiến sỹ Hà Quang Thụy, Thạc sỹ Trần Thị Oanh Cử nhân Nguyễn Minh Tuấn, ngƣời tận tình quan tâm, bảo hƣớng dẫn tơi suốt q trình thực Khóa luận tốt nghiệp Tơi xin chân thành cảm ơn thầy cô tạo cho điều kiện thuận lợi để học tập nghiên cứu Trƣờng Đại học Công nghệ Tôi xin gửi lời cảm ơn tới anh chị SIS Lab tận tình giúp đỡ, hỗ trợ cho tơi kiến thức chuyên môn Cuối cùng, muốn gửi lời cảm ơn tới gia đình, bạn bè, ngƣời thân yêu bên cạnh động viên, nguồn cổ vũ để tơi hồn thành Khóa luận tốt nghiệp Tơi xin chân thành cảm ơn! Sinh viên Phạm Thị Ngọc Bích Tóm tắt nội dung Collocation cụm từ (gồm hai hay nhiều từ) thƣờng đƣợc sử dụng với Bài toán xác định collocation kho ngữ liệu nhận đƣợc nhiều quan tâm, nghiên cứu nhà khoa học giới Có nhiều phƣơng pháp để giải toán này, song nay, phƣơng pháp thống kê đƣợc sử dụng phổ biến ngƣời làm lĩnh vực Xử lý ngơn ngữ tự nhiên Khóa luận tốt nghiệp với đề tài “Nghiên cứu toán xác định collocation Tiếng Việt” tập trung nghiên cứu số phƣơng pháp thống kê điển hình (Tần suất, Kỳ vọng phƣơng sai, Kiểm thử t, Kiểm thử khi-bình phƣơng, Tỷ lệ likehood, Thơng tin tƣơng hỗ) để trích chọn collocation Khóa luận tiến hành thử nghiệm xác định collocation tiếng Việt cho kết tƣơng ứng với phƣơng pháp kiểm thử thống kê nói Thơng qua kết thử nghiệm, Khóa luận nhận thấy phƣơng pháp Kiểm thử khibình phƣơng phù hợp để xác định collocation tiếng Việt Mục lục Lời mở đầu Chƣơng TỔNG QUAN VỀ BÀI TOÁN XÁC ĐỊNH COLLOCATION 1.1 Khái niệm collocation 1.1.1 Định nghĩa collocation 1.1.2 Đặc trƣng collocation 1.2 Collocation ứng dụng Xử lý ngôn ngữ tự nhiên Chƣơng CÁC PHƢƠNG PHÁP XÁC ĐỊNH COLLOCATION 2.1 Phƣơng pháp Tần suất (Frequency) 2.2 Phƣơng pháp Kỳ vọng Phƣơng sai (Mean & Variance) 11 2.3 Kiểm thử Giả thuyết (Hypothesis testing) 16 2.3.1 Kiểm thử t (t test) 17 2.3.2 Kiểm thử Giả thuyết để đo khác biệt hai tập hợp (Hypothesis testing of differences) 19 2.4 Kiểm thử khi-bình phƣơng (Pearson’s chi-square test) 21 2.5 Các tỉ lệ likelihood (Likelihood ratios) 26 2.5.1 Tỉ lệ likelihood (Likelihood ratio) 26 2.5.2 Các tỉ lệ tần suất tƣơng đối (Relative Frequency Ratios) 29 2.6 Thông tin tƣơng hỗ MI (Mutual information) 30 Chƣơng COLLOCATION TRONG TIẾNG VIỆT 36 3.1 Đặc điểm từ vựng Tiếng Việt 36 3.1.1 Đơn vị cấu tạo từ 36 3.1.2 Phƣơng thức cấu tạo từ 36 3.1.3 Biến thể từ 37 3.1.4 Những trình diễn phát triển từ vựng Tiếng Việt 38 3.2 Khái niệm collocation Tiếng Việt 40 3.3 Bài toán xác định collocation Tiếng Việt 41 Chƣơng THỰC NGHIỆM VÀ ĐÁNH GIÁ 44 4.1 Dữ liệu thực nghiệm 44 4.1.1 Chuẩn bị liệu 44 4.1.2 Tiền xử lý liệu 44 4.2 Thiết kế thực nghiệm 45 4.2.1 Phƣơng pháp thực nghiệm 45 4.3 Kết thực nghiệm đánh giá kết 46 Kết luận 49 Tài liệu tham khảo 50 Tài liệu Tiếng Việt 50 Tài liệu Tiếng Anh 50 Phụ lục 53 Bảng phân phối t 53 Bảng phân phối 54 Danh sách bảng Bảng Tìm kiếm collocation dựa vào tần suất Bảng Các mẫu từ loại dùng cho việc lọc collocation Bảng Tìm kiếm collocation: lọc từ loại Justeson Katz Bảng Các danh từ w xuất thƣờng xuyên mẫu strong w powerful w 10 Bảng Tìm kiếm collocation dựa vào Kỳ vọng phƣơng sai 15 Bảng Xếp hạng 10 bigram xuất với tần suất 20 với Kiểm thử t 19 Bảng Kiểm thử giả thuyết để đo khác biệt hai tập hợp: từ xuất có ý nghĩa với powerful strong 20 Bảng Bảng 2x2 phụ thuộc xuất new companies 22 Bảng Tƣơng ứng vache cow hai kho ngữ liệu xếp tƣơng ứng 25 Bảng 10 Phép thử cho độc lập từ kho ngữ liệu khác nhau, sử dụng 25 Bảng 11 Cách tính tốn giá trị likelihood Dunning 27 Bảng 12 Các bigram có chứa powerful với hạng cao theo phép thử likelihood ratio Dunning 28 Bảng 13 Phép thử tỉ lệ tần suất Damerau 30 Bảng 14 Tìm kiếm collocation dựa vào thông tin tƣơng hỗ 31 Bảng 15 Sự phù hợp chambre house, communes house kho ngữ liệu 32 Bảng 16 Thông tin tƣơng hỗ từ liệu rải rác 33 Bảng 17 Các định nghĩa khác thông tin tƣơng hỗ 35 Bảng 18 Các collocation có giá trị khi-bình phƣơng cao 43 Bảng 19 Cấu hình phần cứng sử dụng thực nghiệm 45 Bảng 20 Giá trị ngƣỡng cho phƣơng pháp xác định collocation 46 Bảng 21 Đánh giá độ xác phƣơng pháp xác định collocation 47 Bảng 22 Một số collocation thu đƣợc từ thực nghiệm 48 Danh sách hình Hình Sử dụng cửa sổ collocation từ để lấy đƣợc bigram khoảng cách 12 Hình Biểu đồ tần suất biểu diễn vị trí tƣơng đối strong với “từ trung tâm”: opposition, support, for 14 Hình Phân loại cụm từ cố định Tiếng Việt 41 Lời mở đầu Collocation có ích nhiều ứng dụng Xử lý ngơn ngữ tự nhiên, ví dụ nhƣ sinh ngơn ngữ tự nhiên, dịch tự động, tóm tắt văn xây dựng từ điển [17] Chính tầm quan trọng collocation, nên ngƣời ta đặt vấn đề làm để xác định collocation kho ngữ liệu Có nhiều phƣơng pháp để giải tốn xác định collocation, có phƣơng pháp xác định dựa vào thống kê Phƣơng pháp thống kê sử dụng kỹ thuật toán học khác kho ngữ liệu lớn để mở rộng xấp xỉ mơ hình suy rộng tƣợng ngơn ngữ, dựa ví dụ thực tế tƣợng ngôn ngữ đƣợc cung cấp kho ngữ liệu mà không bổ sung vào thành phần tri thức khác Khóa luận với đề tài “Nghiên cứu tốn xác định collocation Tiếng Việt” tập trung nghiên cứu collocation, phƣơng pháp xác định collocation từ ngôn ngữ khác lựa chọn phƣơng pháp, thi hành chƣơng trình thực nghiệm để kiểm chứng tính khả thi chúng kho ngữ liệu Tiếng Việt Khóa luận gồm bốn chƣơng, nội dung đƣợc mô tả sơ nhƣ sau: Chƣơng Tổng quan toán xác định collocation giới thiệu khái niệm collocation, đặc trƣng collocation Chƣơng nêu lên tầm quan trọng nhƣ ứng dụng collocation lĩnh vực Xử lý ngôn ngữ tự nhiên Chƣơng Các phương pháp xác định collocation phân tích phƣơng pháp thống kê đƣợc sử dụng phổ biến để xác định collocation, số đánh giá ƣu nhƣợc điểm nhƣ mức độ phù hợp phƣơng pháp loại collocation liệu khác Chƣơng Collocation Tiếng Việt trình bày đặc điểm Tiếng Việt, khái niệm collocation Tiếng Việt phát biểu Bài toán xác định collocation Tiếng Việt Chƣơng Thực nghiệm đánh giá trình bày nội dung thử nghiệm sử dụng phƣơng pháp Tần suất (Frequency), Kiểm thử t (t test), Kiểm thử khibình phương (chi-square test), Tỉ lệ likelihood (Likelihood ratio), Thông tác phẩm văn học sau này, nói chung, từ thƣờng dùng, có tần suất sử dụng cao [1] Trong q trình phát triển từ vựng tiếng Việt, nhiều từ địa phƣơng đƣợc thu hút vào vốn từ toàn dân, làm giàu thêm cho ngơn ngữ văn hố tồn dân Đó từ ngữ sản vật địa phƣơng, từ ngữ nghề nghiệp riêng từ vựng, chẳng hạn: lúa vào sữa, lúa toát địng, lợn kéo xác, mạ ngồi, ngơ xốy uốn, tằm ăn rỗi 3.2 Khái niệm collocation Tiếng Việt Theo nhƣ cách dịch từ điển Anh – Việt, Collocation nghĩa “sự xếp vào chỗ, đặt theo thứ tự” Trong lĩnh vực ngơn ngữ, collocation hiểu nơm na “(cách) dùng từ, (cách) kết hợp từ” Tiếng Việt có khái niệm gần với ý nghĩa từ collocation, cụm từ cố định Cụm từ cố định đơn vị số từ hợp lại, tồn với tƣ cách đơn vị có sẵn nhƣ từ, có thành tố cấu tạo ngữ nghĩa ổn định nhƣ từ [2] Nghĩa cụm từ cố định đƣợc xây dựng tổ chức theo lối tổ chức nghĩa cụm từ, nói chung mang tính hình tƣợng Chính vậy, vào bề mặt, vào nghĩa thành tố cấu tạo nói chung khơng thể hiểu đƣợc đích thực tồn cụm từ Ví dụ: anh hùng rơm, đồng khơng mơng quạnh, tiếng bấc tiếng chì… Thêm nữa, cụm từ cố định có ý nghĩa nhƣ chỉnh thể tƣơng ứng với chỉnh thể cấu trúc vật chất Có nghĩa có tính thành ngữ cao, ví dụ, chỉnh thể ý nghĩa cụm từ cố định: rán sành mỡ, méo miệng địi ăn xơi vị, say điếu đổ… có tính thành ngữ cao đến mức tối đa Cụm từ cố định cần đƣợc phân biệt với đơn vị lân cận, dễ lầm lẫn với chúng, từ ghép cụm từ tự Nếu tạm thời chấp nhận tên gọi mà chƣa xác định nội dung khái niệm chúng, tóm tắt tranh phân loại cụm từ cố định Tiếng Việt nhƣ sau [1]: 40 Hình Phân loại cụm từ cố định Tiếng Việt Việc phân loại cụm từ cố định tiếng Việt vạch ranh giới tuyệt đối loại, đơn vị loại thể thuộc tính khiết loại Có đơn vị trung gian đƣợc cấu tạo theo lối thành ngữ nhƣng tính tự do, ổn định cịn rõ nét Có đơn vị đạt đƣợc tính thành ngữ cao nhƣng tính bền chắc, tính chỉnh thể cấu trúc lại ổn định Nghĩa số thành tố cấu tạo nên chúng tăng hay giảm đƣợc cách tuỳ nghi 3.3 Bài toán xác định collocation Tiếng Việt Khái niệm collocation cụm từ cố định Tiếng Việt gần nhau, nhƣng với Bài toán xác định collocation Tiếng Việt, collocation đƣợc hiểu theo nghĩa rộng cụm từ cố định Bắt nguồn từ đặc trƣng collocation (cụm từ gồm hai hay nhiều từ thƣờng xuyên xuất hiện), Bài toán xác định collocation Tiếng Việt trở thành tốn trích chọn n-gram gồm nhiều từ thƣờng xuyên xuất với Collocation Bài toán xác định collocation Tiếng Việt bao gồm: từ ghép, cụm từ cố định, hay chí cụm từ tự chúng xuất với tần suất lớn kho ngữ liệu Từ 20 năm trƣớc, lĩnh vực Xử lý ngôn ngữ tự nhiên đạt đƣợc nhiều thành tựu (nhƣ gán nhãn từ loại, phát chủ đề, thu hồi thông tin ) Tuy nhiên, hầu hết cơng trình đƣợc thực cho ngơn ngữ phƣơng Tây giá trị chúng bị mát tƣơng đối đƣợc áp dụng vào ngôn ngữ khác [7] Chỉ gần đây, nhà nghiên cứu Việt Nam bắt đầu bị thu hút vào lĩnh vực Xử lý ngơn ngữ tự nhiên Nên có cơng trình nghiên cứu thức ngơn ngữ học với chuẩn từ loại Tiếng Việt, cơng trình phân tích văn Tiếng Việt sở nhƣ gán nhãn từ loại, phân tích cú pháp đƣợc đƣa Những kho ngữ liệu cần 41 thiết đƣợc xây dựng không theo tiêu chuẩn định, hầu nhƣ khơng có tài nguyên đƣợc chia sẻ công khai [7] Đây khó khăn cho ngƣời khơng chun muốn tìm hiểu, nghiên cứu lĩnh vực Trong Luận văn Cao học Thạc sỹ Nguyễn Cẩm Tú [27] (về vấn đề Phát chủ đề ẩn cho việc phân lớp phân cụm tài liệu web tiếng Việt), sinh nhãn dựa vào Ngram testing để trích cụm từ có ý nghĩa (hay collocation) từ n-gram sở phép thử thống kê Luận văn có kể đến tên vài phƣơng pháp thống kê để xác định collocation, nhƣ Đo thông tin tƣơng hỗ (mutual information), kỹ thuật Kiểm thử Giả thuyết (hypothesis testing technologies), Giả thuyết Không (null hypothesis) tính độc lập từ n-gram các cách Kiểm thử để kiểm tra tính hợp lệ Giả thuyết Khơng Trong đó, tác giả sử dụng phƣơng pháp Kiểm thử Giả thuyết với n-gram (n

Ngày đăng: 27/06/2014, 22:20

Từ khóa liên quan

Mục lục

  • Phạm Thị Ngọc Bích

    • HÀ NỘI - 2009

    • Lời cảm ơn

    • Phạm Thị Ngọc Bích

      • HÀ NỘI - 2009

      • Tóm tắt nội dung

      • Mục lục

      • Danh sách các bảng

      • Danh sách các hình

      • Lời mở đầu

      • Chương 1. TỔNG QUAN VỀ BÀI TOÁN XÁC ĐỊNH COLLOCATION

        • Khái niệm collocation

          • Định nghĩa collocation

          • Đặc trưng của collocation

          • Collocation trong các ứng dụng Xử lý ngôn ngữ tự nhiên

          • Chương 2. CÁC PHƯƠNG PHÁP XÁC ĐỊNH COLLOCATION

            • Phương pháp Tần suất (Frequency)

              • Tìm kiếm collocation dựa vào tần suất.

              • Các mẫu từ loại dùng cho việc lọc collocation.

              • Tìm kiếm collocation: bộ lọc từ loại của Justeson và Katz.

              • Các danh từ w xuất hiện thường xuyên nhất trong các mẫu strong w và powerful w.

              • Phương pháp Kỳ vọng và Phương sai (Mean & Variance)

                • Sử dụng cửa sổ collocation 3 từ để lấy được các bigram ở một khoảng cách.

                • Biểu đồ tần suất biểu diễn vị trí tương đối của strong với các “từ trung tâm”: opposition, support, for.

                • Tìm kiếm collocation dựa vào Kỳ vọng và phương sai.

                • Kiểm thử Giả thuyết (Hypothesis testing)

                  • Kiểm thử t (t test)

                    • Xếp hạng 10 bigram xuất hiện với cùng tần suất là 20 với Kiểm thử t.

                    • Kiểm thử Giả thuyết để đo sự khác biệt giữa hai tập hợp (Hypothesis testing of differences)

                      • Kiểm thử giả thuyết để đo sự khác biệt giữa hai tập hợp: các từ xuất hiện có ý nghĩa với powerful và strong.

Tài liệu cùng người dùng

Tài liệu liên quan