các kỹ thuật xác định collocation và ứng dụng cho tiếng việt

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đồng Thị Ngân CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng Nghệ Thơng Tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đồng Thị Ngân CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Cán hướng dẫn: TS Lê Anh Cường HÀ NỘI - 2010 LỜI CẢM ƠN Trước hết, em xin gửi lời cảm ơn chân thành tới TS Lê Anh Cường, người theo sát giúp đỡ em q trình hồn thành luận văn Đồng thời, em xin cảm ơn thầy cô giáo mơn Khoa học máy tính nói riêng thầy cô giáo khoa Công nghệ thông tin nói chung Nếu khơng có thầy, khoa chắn em khơng thể hồn thành tốt khố luận Cuối cùng, tơi xin bày tỏ biết ơn vô hạn tới cha mẹ, anh chị bạn bè ln bên cạnh khuyến khích, động viên, giúp em vượt qua khó khăn trình thực luận văn Hà Nội, ngày 21 tháng năm 2010 Sinh viên thực ĐỒNG THỊ NGÂN TĨM TẮT LUẬN VĂN Collocation đóng vai trị quan trọng ứng dụng xử lý ngôn ngữ tự nhiên biên soạn từ điển Tuy nhiên, Việt Nam nay, nghiên cứu collocation lĩnh vực mẻ Luận văn tập trung vào nghiên cứu số phương pháp trích chọn collocations nhằm tìm mơ hình hiệu cho việc trích chọn collcations tiếng Việt Các phương pháp nêu bao gồm số phương pháp thống kê cổ điển thường sử dụng cho tiếng Anh tiếng Đức đồng thời đề xuất số phương pháp tổng hợp nhằm tăng độ xác q trình trích chọn Không dừng lại phương pháp, tiến hành nghiên cứu ảnh hưởng việc tiền xử lý liệu lên độ xác chương trình trích chọn Dữ liệu thử nghiệm bao gồm liệu thô, chưa qua xử lý, liệu qua gán nhãn từ loại liệu phân tích cú pháp Thơng qua việc chạy chương trình với đầu vào liệu khác nhau, so sánh độ xác phương pháp, chúng tơi đề xuất mơ hình trích chọn hiệu cho tiếng Việt GIỚI THIỆU Trong tiếng Anh, người ta dùng “strong tea”, không dùng “powerful tea”, “strong” “powerful” tương đương với nghĩa, “powerful tea” không sai cấu trúc ngữ pháp nghĩa Nhưng khơng dùng đơn giản người xứ không quen dùng Những kết hợp từ không tuân theo quy tắc ngữ pháp hay ngữ nghĩa giới hạn định nghĩa collocations Như vậy, collocation hiểu kết hợp từ không tuân theo quy tắc ngữ pháp hay ngữ nghĩa Xét số khía cạnh đó, collocations mang tính thành ngữ, cứng nhắc Nghĩa collocation thường không suy từ nghĩa từ thành phần, thay từ thành phần từ đồng nghĩa làm thay đổi hồn tồn nghĩa collocation Có nhiều định nghĩa collocation đưa ra, nhiên, không định nghĩa coi thống, hay chuẩn Định nghĩa phương pháp trích chọn collocation phụ thuộc vào mục đích sử dụng người làm nghiên cứu Trong luận văn này, chấp nhận định nghĩa collocation kết hợp từ thường xuất mức bình thường văn bản, với vị trí quan hệ ngữ pháp tương đối cố định Collocations có ứng dụng rộng rãi lĩnh vực ngôn ngữ học [2, 21, 23], biên soạn từ điển[1] tốn xử lý ngơn ngữ tự nhiên[4, 14, 16, 18, 25, 27, 29] Chính vậy, việc trích chọn collocations ngơn ngữ thực cần thiết, nhằm nâng cao độ xác tính tự nhiên ứng dụng xử lý ngôn ngữ tự nhiên, giúp việc học ngơn ngữ dễ dàng Có nhiều nghiên cứu việc trích chọn collocations cho tiếng Anh tiến hành, nhiên, nghiên cứu collocations cho tiếng Việt lĩnh vực mẻ Chưa có nhiều nghiên cứu tiến hành kết thu mức độ hạn chế Luận văn tập trung vào việc áp dụng số phương pháp thống kê vào trích chọn collocation tiếng Việt, nghiên cứu tác động việc tiền xử lý văn lên trình trích chọn, so sánh độ xác mơ hình thử nghiệm; từ đó, đề xuất số phương pháp kết hợp nhằm cải thiện độ xác chương trình Mục tiêu luận văn:  Khái quát collocations tiếng Việt: trình bày chi tiết định nghĩa, đặc trưng, phân loại, số ứng dụng collocations dịch máy toán xử lý ngơn ngữ tự nhiên  Trình bày số phương pháp trích chọn collocation dựa thống kê Cụ thể hơn, giới hạn luận văn này, sâu vào bốn phương pháp: phương pháp dựa tần số, hai phương pháp kiểm định giả thuyết phương pháp dựa thông tin tương hỗ Với phương pháp, từ việc trình bày sở lý thuyết liên quan, đến cách áp dụng chúng vào tốn trích chọn collocations tiếng Việt, số mơ hình thực nghiệm, kết đánh giá việc áp dụng bốn phương pháp vào trích chọn collocations tiếng Việt  Đề xuất số phương pháp thống kê kết hợp ba bốn phương pháp trình bày trên, xây dựng mơ hình thực nghiệm, đánh giá kết độ xác chương trình  Đề xuất phương pháp kết hợp thống kê thông tin cú pháp áp dụng cho trích chọn collocation có dạng cụm danh từ Từ việc trình bày sở lý thuyết, chúng tơi xây dựng mơ hình thực nghiệm, đánh giá kết thu độ xác chương trình dựa phương pháp MỤC LỤC GIỚI THIỆU Chương KHÁI QUÁT VỀ COLLOCATIONS TRONG TIẾNG VIỆT 1.1 ĐỊNH NGHĨA 1.2 ĐẶC TRƯNG 1.2.1 Được sử dụng lặp lặp lại văn 1.2.2 Có tính cứng nhắc: 1.2.3 Phụ thuộc vào lĩnh vực văn 1.2.4 Có liên kết kết chặt chẽ mặt từ vựng: 1.3 PHÂN LOẠI 1.4 ỨNG DỤNG Chương KÊ MỘT SỐ PHƯƠNG PHÁP CỔ ĐIỂN DỰA TRÊN THỐNG 2.1 PHƯƠNG PHÁP DỰA TRÊN TẦN SỐ 2.2 PHƯƠNG PHÁP KIỂM ĐỊNH GIẢ THUYẾT 2.2.1 Phương pháp kiểm tra t 2.2.2 Phương pháp kiểm tra Pearson Chi bình phương 12 2.3 PHƯƠNG PHÁP SỬ DỤNG THÔNG TIN TƯƠNG HỖ (POINTWISE MUTUAL INFORMATION (PMI)) 13 2.4 KẾT QUẢ THỰC NGHIỆM 15 2.4.1 Khái quát liệu sử dụng 15 2.4.2 Trích chọn bigrams 16 2.4.3 Các mơ hình thử nghiệm 18 2.4.4 Kết thực nghiệm 19 Chương MỘT PHƯƠNG PHÁP KẾT HỢP ÁP DỤNG CHO TRÍCH CHỌN COLLOCATIONS CĨ DẠNG CỤM DANH TỪ 25 3.1 GIAI ĐOẠN 1: TRÍCH CHỌN CÁC COLLCOATIONS CÓ DẠNG BIGRAM 26 3.1.1 Bước 1: Trích chọn bigram 26 3.1.2 Bước 2: Lọc bigram không hợp lệ 27 3.2 GIAI ĐOẠN 2: TRÍCH CHỌN CÁC COLLOCATIONS LÀ CỤM DANH TỪ CÓ DẠNG N-GRAM 28 3.2.1 Bước 1: 29 3.2.2 Bước 2: 29 3.2.3 Bước 3: 29 3.3 KẾT QUẢ THỰC NGHIỆM 30 Chương KẾT LUẬN 33 TÀI LIỆU THAM KHẢO PHỤ LỤC A PHỤ LỤC B DANH SÁCH HÌNH VẼ Hình 2-1: Kết chạy phương pháp chạy liệu tách từ với độ lớn cửa sổ thay đổi từ đến 20 Hình 2-2: Kết thử nghiệm liệu gán nhãn 21 Hình 2-3: Kết chạy thực nghiệm mơ hình liệu phân tích cú pháp 22 Hình 2-4: Kết chạy thực nghiệm tất mơ hình với tập liệu đầu vào 22 DANH SÁCH BẢNG Bảng 1-1: Một số collocation có quan hệ vị ngữ tiếng Việt Bảng 2-1: Mẫu nhãn từ loại cho lọc nhãn từ loại cho tiếng Anh Bảng 2-2: Mẫu nhãn cho lọc nhãn từ loại cho tiếng Việt Bảng 2-3: Một số collocations trích chọn phương pháp kiểm tra t 11 Bảng 2-4: Ví dụ sử dụng phương pháp kiểm tra Chi-square bình phương 12 Bảng 2-5: Kết thu trích chọn collocations sử dụng phương pháp kiểm tra Chi bình phương 13 Bảng 2-6: Một số collocation trích chọn phương pháp dựa thông tin tương hỗ 14 Bảng 2-7: Bộ nhãn sử dụng vnTagger 15 Bảng 2-8: Kết chạy thực nghiệm phương pháp liệu tách từ với độ lớn cửa sổ thay đổi từ đến 19 Bảng 2-9: Kết thu chạy mô hình liệu gán nhãn từ loại 20 Bảng 2-10: Kết chạy thực nghiệm mơ hình liệu phân tích cú pháp 21 Bảng 2-11: Kết chạy thực nghiệm tất mơ hình thực nghiệm 23 Bảng 3-1: Một số bigrams thông tin vị trí tần suất xuất chúng 27 Bảng 3-2: Một số bigram kết giai đoạn 30 Bảng 3-3: Kết chạy chương trình giai đoạn 30 Bảng 3-4: Một số cụm danh từ cố định trích chọn từ giai đoạn 31 Chương MỘT PHƯƠNG PHÁP KẾT HỢP ÁP DỤNG CHO TRÍCH CHỌN COLLOCATIONS CĨ DẠNG CỤM DANH TỪ Các phương pháp trình bày chương trích chọn collocations bigrams Song thực tế, collocations có dạng n-grams xuất thường xuyên văn Do vậy, yêu cầu tự nhiên trích chọn collocations có dạng n-grams Một phương pháp đơn giản đề xuất trích chọn tất n-grams tập liệu để làm đầu vào cho phương pháp thống kê nhằm trích chọn danh sách collcoations Tuy nhiên, cách tiếp cận có độ phức tạp thời gian tính tốn khổng lồ Chính vậy, corpus liệu lớn, n lớn, việc trích chọn collocations n-gram sử dụng phương pháp thực đặc biệt hiệu Trong chương này, đề xuất phương pháp trích chọn collocations có dạng bigram n-gram cụm danh từ văn Phương pháp xuất phát từ ý tưởng sử dụng công cụ Xtract[19] Frank Smadja trình bày vào năm 1993 dựa chủ yếu nghiên cứu Chouka, sử dụng giả định thống kê dựa đặc trưng collocations kết hợp với sử dụng thông tin ngữ nghĩa Cụ thể hơn, chúng tơi trích chọn collocations có quan hệ ngữ pháp từ thành phần, trích chọn collocation có dạng n-gram xuất phát từ tập collocations có dạng bigram Chương trình trích chọn bigram liền ngắt qng, trích chọn collcations bigram hay n-gram Dữ liệu đầu vào chương trình liệu qua phân tích cú pháp Trong phạm vi luận văn này, sử dụng tập liệu khoảng 300,000 câu phân tích cú pháp, tương đương với khoảng 7,142,500 từ Tuy nhiên, giới hạn luận văn này, chúng tơi trích chọn bigram collocations có dạng N+A N+N tiếng Việt n-gram collocations cụm danh từ cố định Do vậy, từ liệu phân tích cú pháp, chúng tơi viết chương trình lọc cụm danh từ Các cụm danh từ sử dụng làm đầu vào cho chương trình trích chọn collocation trình bày bên Có khoảng 719,000 cụm danh từ trích chọn từ tập liệu văn gồm 300,000 câu Q trình trích chọn collocation chia làm giai đoạn Kết giai đoạn thứ đưa vào làm đầu vào giai đoạn thứ hai Giai đoạn thứ có nhiệm vụ chiết xuất collocation có dạng bigram sử dụng số phép lọc phép kiểm tra thống kê Giai đoạn thứ hai có nhiệm vụ trích chọn collocation có dạng n-gram từ cặp bigram kết bước Cụ thể hơn, so với mô hình thơng thường, chúng tơi khơng giới hạn n mà giới hạn câu dùng trình 25 trích chọn Chúng tơi khơng sử dụng tất câu đầu vào bước để trích chọn danh sách n-gram mà sử dụng câu có chứa bigram với vị trí tương đối hai từ thành phần kết giai đoạn Danh sách từ xuất xung quanh hai từ thành phần tạo thành bigram gốc lưu lại với tần suất vị trí tương đối chúng so với bigram Một bước lọc thống kê đưa vào để loại bỏ từ có xác suất xuất nhỏ ngưỡng định Từ kết bước lọc, thu danh sách collocations n-gram Chi tiết bước xử lý thực giai đoạn chúng tơi trình bày chi tiết phần cịn lại chương 3.1 GIAI ĐOẠN 1: TRÍCH CHỌN CÁC COLLCOATIONS CĨ DẠNG BIGRAM Do mục đích chương trình trích chọn collocations cụm danh từ độ phức tạp, thời gian chạy chương trình lớn; giới hạn luận văn này, tập trung trích chọn collocation có dạng N+A N+N Dữ liệu đầu vào đưa qua phân tích cú pháp, sau qua chương trình chúng tơi tự phát triển nhằm lọc cụm danh từ gán nhãn từ theo từ loại Tập nhãn sử dụng gồm nhãn: {N, A, V, U} đó, N: danh từ, A: tính từ, V: động từ U cho từ cịn lại Sau phân tích cú pháp thông qua bước tiền xử lý liệu, file liệu đầu vào cho bước file văn gồm cụm danh từ, cụm danh từ dòng từ gán bốn nhãn tập nhãn đề cập Q trình trích chọn collocation từ tập bigram dựa hai giả định: - Hai từ phải xuất lặp lặp lại, mức bình thường văn - Hai từ phải thuộc cụm danh từ Dựa vào hai giả định này, chương trình thực bước lọc dựa thống kê để trích chọn bigram có khả tạo thành collocations Kết thúc giai đoạn một, nhận danh sách bigram thông tin tần suất, vị trí tương đối hai từ lưu trữ dạng file văn có phần mở rộng “.txt” danh sách unigram thông tin tần suất xuất tập bigram; danh sách lưu trữ dạng file văn có phần mở rộng “.txt” Q trình trích chọn lọc bigram chia làm bước chính: 3.1.1 Bước 1: Trích chọn bigram Chương trình đọc liệu từ file văn đầu vào bao gồm cụm danh từ, với cụm danh từ dịng Các bigram trích chọn bước có dạng wwi phải thỏa mãn hai điều kiện sau: 26 - w danh từ cụm danh từ wi danh từ tính từ sau w với điều kiện động từ xen ngang Các bigram kết chương trình lưu trữ dạng từ điển thông tin tần suất xuất vị trí tương đối hai từ thành phần tập ngữ liệu Trong chương này, ký hiệu freqi tần suất xuất wwi pij tần suất xuất wi xung quanh w cho khoảng cách chúng j từ Bảng 3-1 minh họa số bigram thông tin tần suất, vị trí chúng trích chọn từ tập liệu Bảng 3-1: Một số bigrams thơng tin vị trí tần suất xuất chúng STT w wi freqi j báo_cáo chính_trị 12 báo_cáo Ngành 12 báo_cáo 12 báo_cáo 12 lãnh_đạo tỉnh 114 lãnh_đạo tỉnh 13 lãnh_đạo tỉnh 29 lãnh_đạo tỉnh lãnh_đạo Cty 66 10 lãnh_đạo Cty 11 lãnh_đạo Cty 5 12 lãnh_đạo Cty 13 vai_trò quan_trọng 83 14 vai_trò quan_trọng 28 3.1.2 Bước 2: Lọc bigram không hợp lệ Bước nhận liệu vào cặp từ {w, wi} trích chọn bước thông tin vị trí, tần suất xuất chúng corpus liệu Chương trình tiến hành lọc dựa giá trị thống kê để lọc cụm từ có tính chất: Hai từ xuất lặp lặp lại, mức bình thường văn bản, với khoảng cách tương đối cố định 27 Bước q trình lọc, chúng tơi loại bỏ bigram có tần suất xuất nhỏ 10 Sau đó, chương trình tiến hành phân tích phân phối xác suất từ xuất xung quanh w Chúng ta kí hiệu freqi tần suất xuất wi xung quanh w giá trị tần suất trung bình tần suất tất từ xuất xung quanh w,  độ lệch chuẩn ứng với giá trị trung bình tần suất Giả sử có tất n từ wi1, wi2, … win có khả kết hợp với w để tạo thành bigram Tần suất xuất tương ứng với n từ freqi1, freqi2, …, freqin Khi đó, tần suất trung bình tính theo cơng thức: ⋯ = Độ lệch σ tính theo cơng thức: ⋯ σ= Từ giá trị tần suất, độ lệch tính được, tính số z (kí hiệu là: ki) tương ứng với ki đại diện cho mức độ gắn kết cặp từ, đại diện cho độ lệch tiêu chuẩn so với giá trị trung bình tần suất cặp từ w wi, ki lớn chứng tỏ w wi thường xuất mức bình thường văn bản, nói chúng có quan hệ với ki tính theo cơng thức: = (1a) Sau hai bước lọc, bigram chứa w đầu giai đoạn xác định {wi, ki, j} thỏa mãn: tần suất xuất wi xung quanh w lớn 10 thỏa mãn bất đẳng thức: = − > (C1) Điều kiện C1 giúp loại bỏ cặp từ có tần suất xuất nhỏ xung quanh giá trị tần suất trung bình Trong hầu hết phân phối thống kê, bước tách ngưỡng loại bỏ phần lớn cặp từ không phù hợp Bước lọc dựa giá trị trung bình độ lệch giúp loại bỏ cặp từ có phân phối tần suất xuất theo vị trí dàn trải Bảng 3-2 minh họa số bigram kết giai đoạn 3.2 GIAI ĐOẠN 2: TRÍCH CHỌN CÁC COLLOCATIONS LÀ CỤM DANH TỪ CĨ DẠNG N-GRAM 28 Nhiệm vụ bước sinh collocation có nhiều từ lọc bỏ chuỗi từ không phù hợp Giai đoạn liên quan đến nghiên cứu Choueka[5], số giới hạn đấy, áp dụng tốn nhận dạng ngơn ngữ Với bigram xác định giai đoạn 1, chương trình duyệt tất câu có chứa bigram đó, với khoảng cách hai từ cố định xác định bước một, để lưu lại thơng tin tần suất, vị trí từ xung quanh bigram Từ việc phân tích tần suất, vị trí từ lân cận đó, chương trình trả collocation có dạng ngram Giai đoạn chia làm bước Phần bên trình bày chi tiết cơng việc xử lý thực bước 3.2.1 Bước 1: Giống giai đoạn 1, đầu vào bước cặp {wi, w} tần suất xuất hiện, khoảng cách hai từ Bước trả tất câu chứa hai từ với thơng tin vị trí 3.2.2 Bước 2: Từ câu nhận sau bước 1, chương trình trích chọn thơng tin từ lân cận w, wi, tần suất xuất hiện, vị trí chúng Trong bước này, ta thực việc duyệt lưu trữ giống hệt bước giai đoạn 1, nhiên, từ đưa thêm vào khơng giới hạn từ có nhãn tính từ danh từ, mà bao gồm tất từ xuất xung quanh vị trí w wi 3.2.3 Bước 3: Một từ w0 lân cận w, giữ lại n-gram kết xác suất để w0 xuất vị trí i so với w lớn ngưỡng T định Nói cách khác, w0 phải thỏa mãn đẳng thức sau đây: p(word[i] = w0 ) > T, với p(word[i] = w0) xác suất để w0 xuất vị trí i xung quanh w Vai trò giai đoạn loại bỏ quan hệ từ vựng không phù hợp Giai đoạn sinh cụm từ khn mẫu cụm danh từ cố định, nhiên, phạm vi luận văn này, chúng tơi trích chọn cụm danh từ cố định, tập nhãn sử dụng cịn hạn chế, dựa chủ yếu vào thơng tin từ phân tích cú pháp Như vậy, giai đoạn mở rộng collocation bigram thành n-gram Phương pháp làm đơn giản nhiều độ phức tạp chương trình so với cách tiếp cận đưa Choueka[5] Có thể khái quát phương pháp tiếp cận Choueka sau: với giá trị n, sinh tất chuỗi có độ dài n xếp chúng giảm dần theo tần số Với liệu gồm 12 triệu từ, Chouka nhận 10 collocations có độ dài 29 sáu; 115 collocations có độ dài năm; 1024 collocaitions có độ dài bốn; 4,777 collocations có độ dài ba, 15,973 collocations có độ dài Ngưỡng đưa 14 Phương pháp sử dụng chương trình có hai ưu điểm bật so với cách tiếp cận Chouka: - Nó giúp loại bỏ m-grams chuỗi n-gram cho trước Vì giai đoạn hai sinh chuỗi có độ dài lớn từ bigram cho trước, chuỗi m-gram (m

các kỹ thuật xác định collocation và ứng dụng cho tiếng việt

Thông tin tài liệu

Từ khóa liên quan

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan