Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt xây dựng mô hình từ điển điện tử cho tiếng việt

41 636 0
Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt   xây dựng mô hình từ điển điện tử cho tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Viện công nghệ thông tin Báo cáo tổng kết khoa học công nghệ đề tài nhánh xây dựng mô hình từ điển điện tử cho tiếng việt thuộc đề tài cấp nhà nớc nghiên cứu phát triển côngnghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng việt MÃ số: KC 01.03 Chủ nhiệm đề tài: gs.tskh bạch hng khang 6455-4 07/8/2007 Hà Nội- 2004 ti KC01 - 03: BÁO CÁO KỸ THUẬT VỀ MƠ HÌNH TỪ ĐIỂN ĐIỆN TỬ VMTD Người thực hiện: GS TSKH Hồ Tú Bảo, Japan Advanced Institute of Science and Technology KS Nghiêm Anh Tuấn, Viện Công Nghệ Thông Tin MỤC LỤC Giới thiệu Cấu trúc chung từ điển VMTD 1.1 Từ điển từ 1.2 Từ điển khái niệm 1.3 Từ điển đồng diện 1.4 Từ điển song ngữ 1.5 Corpus 1.6 Mối quan hệ từ điển VMTD Cấu trúc từ điển VMTD 2.1 Từ điển từ 2.2 Từ điển khái niệm 10 2.2.1 Từ điển giải thích khái niệm 10 2.2.2 Từ điển phân loại khái niệm 11 2.2.3 Từ điển mô tả khái niệm 11 2.3 Từ điển song ngữ 12 2.4 Từ điển đồng diện 13 2.5 Corpus 16 Các bước xây dựng từ điển VMTD 18 3.1 Xây dựng từ điển giải thích khái niệm phân loại khái niệm 18 3.2 Xây dựng từ điển từ 18 3.3 Xây dựng corpus 19 3.3.1 Phân tách từ 19 3.3.2 Phân tích cấu trúc ngữ pháp 20 3.3.3 Tìm nghĩa từ 20 3.3.4 Phân tích cấu trúc ngữ nghĩa 20 Kết luận 21 Tài liệu tham khảo 22 Phụ lục A: Bảng mã từ từ điển từ tiếng Anh 23 Phụ lục B: Bảng mã từ từ điển từ tiếng Việt 34 Phụ lục C: Các báo liên quan 39 Giới thiệu Một mục tiêu quan trọng ngành Công nghệ thông tin làm cho máy tính có khả giao tiếp với người ngôn ngữ người ( ngôn ngữ tự nhiên ) Tương tự việc người cần đến từ điển học sử dụng ngơn ngữ, máy tính cần có từ điển riêng để hiểu sử dụng từ ngôn ngữ tự nhiên Từ điển điện tử cung cấp nguồn tri thức giúp máy tính hiểu ngơn ngữ người đóng vai trị tảng cho nghiên cứu ngơn ngữ tự nhiên Khác với từ điển máy tính dành cho người Lạc Việt Từ điển, Click and See hay Kim từ điển… từ điển điện tử thiết kế riêng cho ứng dụng xử lý ngôn ngữ tự nhiên dịch máy, trả lời tự động… Vì hệ thống ngữ nghĩa (cách biểu diễn nghĩa từ) từ điển điện tử không lưu trữ dạng ngôn ngữ tự nhiên từ điển thông thường mà phải số dạng đặc biệt để máy tính xử lý mạng ngữ nghĩa, frame… Để thấy rõ vai trò từ điển điện tử ta xét số ví dụ sau đây: Xây dựng engine tìm kiếm dựa ngữ nghĩa: với engine tìm kiếm thơng dụng Google hay Yahoo, ta tìm văn có chứa từ khóa Tuy nhiên, với từ khóa đa nghĩa table (là “bàn” “bảng biểu”) người dùng muốn tìm văn có chứa từ “table” với nghĩa “bảng biểu” engine tìm kiếm trả nhiều tài liệu không liên quan Trong trường hợp ta thực việc mục văn theo xuất từ khóa mà theo nghĩa từ ta dễ dàng giải vấn đề nêu Xây dựng hệ quản trị sở liệu cho phép truy vấn dựa ngữ nghĩa: Giả sử ta có câu truy vấn sau: “Hãy tìm tất người trí thức sống khu phố X” Với hệ quản trị sở liệu thơng thường điều kiện ta có trường mơ tả nghề nghiệp, ta thực câu truy vấn sở liệu không lưu trữ ghi có giá trị trường nghề nghiệp “trí thức” Tuy nhiên, với hỗ trợ từ điển điện tử, ta biết “bác sỹ”, “kỹ sư”, “nhà văn”, “nhà thơ”… nghề nghiệp giới trí thức Vì ta tìm tất ghi có chứa từ Trên giới, có nhiều dự án lớn kéo dài nhiều năm nghiên cứu từ điển điện tử dự án WORDNET Đại học Princeton, dự án Cyc phát triển công ty CYCORP, dự án EDR Viện nghiên cứu từ điển điện tử Nhật Tại Việt Nam, từ điển điện tử bắt đầu sử dụng số ứng dụng xử lý ngôn ngữ tự nhiên tiếng Việt Mặc dù vậy, từ điển thiết kế chuyên biệt cho ứng dụng cụ thể nên chúng khó áp dụng cách rộng rãi Hơn nữa, việc thiếu nghiên cứu chuyên sâu từ điển điện tử phần ảnh hưởng đến chất lượng từ điển Chính vậy, u cầu đặt cần tiến hành nghiên cứu mơ hình từ điển điện tử giới, từ đề xuất mơ hình phù hợp cho từ điển điện tử tiếng Việt cuối đưa quy trình thực việc xây dựng từ điển Tài liệu giới thiệu mơ hình từ điển điện tử tiếng Việt phát triển khuôn khổ đề tài KC01-03 Tài liệu tập trung giới thiệu cấu trúc từ điển điện tử cho tiếng Việt VMTD, gồm bốn phần sau: Giới thiệu cấu trúc chung VMTD: từ điển mối liên hệ chúng Giới thiệu chi tiết cấu trúc ghi từ điển Xác định bước cần thực vấn đề cần giải để xây dựng VMTD Kết luận Cấu trúc chung từ điển VMTD VMTD bao gồm từ điển sau: - Từ điển từ - Từ điển khái niệm - Từ điển song ngữ - Từ điển đồng diện - Corpus Mỗi từ điển có hai phiên cho tiếng Anh tiếng Việt 1.1 Từ điển từ Chứa thông tin mặt cấu tạo từ đặc tính ngữ pháp từ Bên cạnh đó, từ điển từ cịn chứa trỏ khái niệm liên kết từ với nghĩa (khái niệm) tương ứng từ điển khái niệm 1.2 Từ điển khái niệm Biểu diễn khái niệm người dạng mạng ngữ nghĩa Từ điển khái niệm gồm có hai từ điển con: từ điển phân loại khái niệm từ điển miêu tả khái niệm Từ điển miêu tả khái niệm lưu trữ tất mối liên hệ khái niệm Nó mạng ngữ nghĩa khái niệm liên kết với thông qua 18 loại mối liên hệ khác Các mối liên hệ lựa chọn cho việc sử dụng chúng biểu diễn hầu hết mối liên hệ khái niệm câu Ví dụ câu “Tơi ăn cơm”, khái niệm “tôi”, “ăn” “cơm” ta có hai mối liên hệ sau: (“Tơi” _He_believed_not Allows no passive Ex He lacks motivation * Motivation is lacked by him Occurs only in the passive form Ex John was said to be a good teacher * They said him to be a good teacher * Indicates an ill-formed construction Does not occur in the progressive tense Ex * I am knowing him for a long time Occurs only in the progressive tense Ex The baby is teething Code Combinations Note: The codes on the left must be accompanied by a code indicated on the right [EVIO0]->[EVDO0] [EVOC0]->[EVDO0] [EVDO0]->[EVDO1-9 ] One code from EVDO1-9 [EVSC0]->[EVC10-93] One code from EVC10-93 [EVOC0]->[EVC10-93] One code from EVC10-93 [EVSA0]->[EVSA2-6 ] One code from EVSA2-6 [EVSA2]-> Specific Preposition Code 29 Thuộc tính ngữ pháp danh từ (Nouns: Grammatical Attributes) Attribute Code Countability 47 48 49 Collectivity 50 Gender 51 52 53 54 Verb Agree- 55 ment 56 57 58 Cooccurrence with Articles 59 60 61 62 63 64 65 Word Form Restrictions 66 67 Comment/Explanation Countable Uncountable Uncountable noun that can be instantiated Note: Only one code is assigned Word form and right adjacency attribute are given based on countable usage for ENUC records All other coding for ENUC nouns is based on noun when noun is uncountable Collective noun (Ex people) Note: Code is given only when applicable Referent of noun is male (Ex man) Referent of noun is female (Ex woman) Referent of noun is neutral (Ex book, baby) Referent of noun can be either male or female (Ex student, baby) Note: More than one code can be assigned when applicable Always treated as singular in subject - verb agreement Always treated as plural in subject - verb agreement Treated either singular or plural in subject -verb agreement Note: For non-count nouns, only one code is given Verb agreement coding is given to count nouns only when the noun in the singular form takes either a plural form verb or a singular form word Does not have restrictions on the article Always takes an article Must be preceded by a definite article Must be preceded by an indefinite article Never occurs with a definite article Never occurs with an indefinite article Never occurs with an article Note: One code only is given to each noun A count noun that is not coded is interpreted as ENWAR and a non-count noun that is not coded is interpreted as ENNOINF Nouns occurs in the singular form only Nouns occurs in the plural form only 30 Thuộc tính ngữ pháp tính từ (Adjectives: Grammatical attributes) Code 68 69 70 Explanation Does not occur in the positive degree form Does not occur in the comparative degree form Does not occur in the superlative degree form Thuộc tính ngữ pháp trạng từ (Adverbs: Grammatical attributes) Code 71 72 73 Explanation Does not occur in the positive degree form Does not occur in the comparative degree form Does not occur in the superlative degree form Chức vị trí hạn định từ (Determiner: Function and Position Information) Code Explanation 74 May follow an indefinite article 75 May not follow a definite article Note: Code is given only when applicable 76 May be followed by a countable singular noun 77 May be followed by a countable plural noun 78 May be followed by an uncountable noun Note: Code is given only when applicable 79 May be followed by a noun phrase beginning with an indefinite article 80 May be followed by a noun phrase begining with a definite article 31 Bảng mã từ chức Function Word Codes: Preposition Equivalents Code Preposition Equivalent concerning considering excepting excluding following including involving pending regarding 10 respecting 11 according to 12 along with 13 as for 14 as regards 15 as to 16 based on 17 based upon 18 because of 19 consisting of 20 down to 21 prior to Code Preposition Equivalent 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 due to out of by means of by way of in front of in respect to in terms of in view of on account of on behalf of on top of with regard to for the benefit of for the purpose of for the sake of in the course of in the matter of in the middle of in the way of on the basis of up to Function Word Codes: Be-Verb, Auxiliary Verbs, Auxiliary Verb Equivalents Code Function Word 43 be 44 can 45 cannot 46 could 47 48 dare 49 have 50 may 51 might 52 must 53 need 54 Shall Code Function_Word 55 56 57 58 59 60 61 62 63 64 65 should will would be to had better have to ought to used to be able to be about to be going to Function Word Codes:Coordinate Conjunctions, Corrdinate Conjunction Equivalents, Subordiate Conjunctions, Subordinate Conjunction Equivalents, and Conjunctive Adverbs Code Function Word Code Function_Word 32 66 After 91 only 67 Against 92 once 68 Also 93 otherwise 69 And 94 or 70 As 95 provided 71 Because 96 providing 72 Before 97 since 73 Beside 98 so 74 Besides 99 suppose 75 Both 100 supposing 76 But 101 than 77 Directly 102 that 78 Either 103 then 79 Else 104 though, although 80 Except 105 till, until 81 If 106 unless 82 Immediately 107 while 83 Instantly 108 yet 84 Lest 109 as if 85 Like 110 as though 86 Moreover 111 even if 87 Namely 112 even though 88 Neither 113 in order that 89 Nor 114 so that 90 now Function Words: Relative Pronouns, Interrogative Pronouns, Relative Adverbs, Interrogative Adverbs Code Function Word 115 how 116 that 117 whenever 118 what 119 whatever 120 when 121 where 122 wherever Code Function Word 123 124 125 126 127 128 129 130 whether which whichever who whoever whom whose why Other Function Words Code Function Word 131 never 132 not 133 more 134 most Code Function Word 135 136 137 that to (verb infinitive) not to 33 Phụ lục B: Bảng mã từ loại từ điển từ tiếng Việt Bảng từ loại tiếng Việt Loại Danh từ Từ loại - Danh từ riêng - Danh từ chung +) Danh từ loại thể +) Danh từ đo lường Chính xác Khơng xác Mã Ví dụ Hà Nội, Hồ Chí Minh cái,con,cơn,quyển,sự,cuộc, +) Danh từ chất liệu +) Danh từ người Chỉ quan hệ thân thuộc Chỉ chức vụ, nghề nghiệp thước, trặc, phần, lít cục, miếng, mẩu, đoạn, mảnh, toán, dãy, tốp, mớ, sắt than, chì, mỡ, thịt, muối 10 11 12 13 14 15 16 17 -Động từ trạng thái tiếp thu -Động từ cảm nghĩ, nói 18 19 -Động từ tình thái 20 -Động từ quan hệ Số từ +) Danh từ vật Chỉ đồ vật Chỉ động vật Chỉ thực vật +) Danh từ khái niệm trừu tượng - Danh từ tượng thiên nhiên - Thuật ngữ chuyên môn -Động từ ngoại hướng -Động từ gây khiến -Động từ xuất hiện, tồn lại, tiêu tan Tính từ cha, mẹ,anh,cậu,cơ bác sĩ, cơng nhân, niên giám đốc, giáo sư -Động từ nội hướng Động từ 21 bàn, ghế, chó, mèo,gà, cam, quýt, tre thiên nhiên, xã hội trời,mây,gió,bão tế bào, mạng, làm, ươm, mua, bán,ăn, ra, vào lên, tăng biến, nộp, vay, thức, ngủ, cười, đùa, nhìn, nằm, bị làm, để, bắt cịn, có, hết, mất, xuất nảy, mọc, bị, được, chịu biết, thấy, khen, chê, bảo, nhận định, tin tưởng, muốn, toan, định, nên, dám phải, chịu, là, làm, hố, giống, khác Tính từ đặc điểm bên vật +) Màu sắc +) Hình thể +) Dung lượng +) Kích thước -Tính từ đặc tính bên trạng thái -Tính từ miêu tả mức độ - Số từ số lượng xác - Số từ số lượng chừng - Số từ số thứ tự 22 23 24 25 26 27 28 29 30 xanh, đỏ, tím, to nhỏ, trịn, vng nhẹ, nặng, căng dài, ngắn, cao, thấp, tốt, xấu, hiền, to gan, nhanh đầy, vơi, nhiều,ít,dày, thưa một, hai phần ba, mấy, vài ba, dăm, vài, nhất, nhì, thứ mười, 34 Đại từ Phó từ (trạng từ) Quan hệ từ (kết từ) Trợ từ Thán từ Cụm động từ Cụm danh từ Cụm tính từ - Đại từ nhân xưng - Đại từ định vật - Đại từ định vị trí khơng gian, thời gian - Đại từ trạng thái - Đại từ số lượng - Đại từ để hỏi +) Hỏi vật +) Hỏi vị trí khơng gian +) Hỏi hoạt động, trạng thái +) Hỏi số lượng - Biểu thị số lượng toàn thể hay riêng lẻ - Biểu thị ý nghĩa thời gian - Biểu thị ý nghĩa phủ định - Biểu thị ý nghĩa yêu cầu, sai khiến, khích lệ - Biểu thị ý nghĩa đồng hay liên tục - Biểu thị mức độ - Biểu thị diễn biến - Biểu thị kết thúc hành động - Quan hệ từ phụ 31 32 33 34 35 tơi, chúng tơi, nó, này, nọ, kia, ấy, đây,đấy, kia, nay, thế, vậy, nhiêu, hết thảy, cả, tất cả, 36 37 38 39 40 41 42 43 44 45 46 47 48 ai, chi, gì, đâu nào, bao giờ, nào, sao, mấy, bao nhiêu, những, cái, mọi, mỗi, từng, đang,đương, sẽ, đã, vừa, mới, không, chưa, chẳng, hãy, đi, đừng, cũng, đều, vẫn, còn, lại, rất, khá, hơi, khí, quá, lắm, càng, lại, luôn,mãi,bèn,bỗng, xong, của, bằng, với, về, đến, hỏi, bởi, để, 49 50 51 52 53 54 55 và, cùng, với, rằng, là, thì, mà thì, do, hay, hoặc, thì, là, cả, chính,tự,những,cái,thì,cả, 56 57 58 59 60 61 62 63 64 65 kia, đâu, đấy, chăng, hử, nhỉ, ư, nào, thôi, với, đâu, cơ, kia, hỡi, đi, ê, vâng, dạ, ừ, phải ôi, chao, khiến, trời, đất chạy thục mang Cụm từ với danh từ làm trung tâm 66 xe máy Cụm từ với tính từ làm trung tâm 67 đỏ hon hỏn - Quan hệ từ liên hợp +)Song song +)Phụ thuộc +)Sau động từ cảm nghĩ, nói +)Từ nối, cặp từ nối +) Lựa chọn - Trợ từ cho từ - Trợ từ cho cụm từ - Trợ từ cho câu +) Nhấn mạnh +) Hoài nghi +) Ngạc nhiên +) Cầu mong +) Dứt khoát +) Nũng nịu - Thán từ làm tiếng gọi - Thán từ làm tiếng đáp - Thán từ làm tiếng than Cụm từ với động từ làm trung tâm Thuộc tính ngữ pháp động từ Mã Giải thích 35 -Không cần kết hợp với phụ tố: động từ nội hướng - Phải kết hợp với phụ tố: +) Phụ tố danh từ: động từ ngoại hướng +) Phụ tố cụm CV: động từ gây khiến, cảm nghĩ, nói +) Phụ tố động từ: động từ tình thái - Có khơng kết hợp với phụ tố: động từ xuất hiện, tồn tại, tiêu tan -Làm vị ngữ câu Thuộc tính ngữ pháp danh từ Mã Giải thích 36 10 11 12 13 14 15 16 17 18 19 20 21 22 23 -Kết hợp với danh từ +)Danh từ quan hệ xã hội, gia đình: danh từ riêng +)Danh từ khác: danh từ loại thể, đo lường +)Danh từ chất liệu: danh từ đo lường +)Danh từ đơn vị đo lường: danh từ chất liệu -Không kết hợp với danh từ +)Chỉ loại thể: danh từ chất liệu, khái niệm trừu tượng (ít) -Kết hợp với đại từ định: danh từ loại thể, chất liệu, thời gian, người, phương hướng, vị trí (trừ đơng, tây, nam, bắc), vật, khái niệm trừu tượng - Không kết hợp với đại từ định: danh từ riêng - Kết hợp với số từ: danh từ đơn vị đo lường, thời gian, người, vật, khái niệm trừu tượng - Không kết hợp với số từ: danh từ riêng, đơn vị đo lường khơng xác, phương hướng vị trí (trừ phía, phương, bên, hướng) - Kết hợp với đại từ số lượng: danh từ người (chức vụ nghề nghiệp), vật, loại thể, chất liệu, khái niệm trừu tượng - Không kết hợp vớt đại từ số lượng: danh từ riêng, đo lường, thời gian, người (quan hệ thân thuộc) - Kết hợp với định từ: danh từ loại thể, người, vật - Kết hợp với tính từ: danh từ người, vật, chất liệu, khái niệm trừu tượng - Làm chủ ngữ Thuộc tính ngữ pháp tính từ Mã 24 25 26 27 28 Giải thích -Kết hợp với trạng từ: tất trừ “công", "tư", "riêng", chung" - Kết hợp với danh từ: tính từ đặc điểm bên ngoài, đặc điểm bên trạng thái - Kết hợp với động từ thành cụm động từ: tính từ đặc điểm bên ngồi - Kết hợp với tính từ tính chất: tính từ màu sắc - Làm vị ngữ: trừ “công”, "tư", "riêng", "chung" Thuộc tính ngữ pháp số từ Mã 29 30 31 32 Giải thích - Số từ làm tiền tố phụ cụm danh từ - Số từ làm vị ngữ câu: số thứ tự, số lượng xác+"là" - Số từ số lượng chừng - Số từ số lượng tượng trưng: ba, trăm nghìn Thuộc tính ngữ pháp đại từ Mã Giải thích 37 33 34 35 36 -Đại từ làm chủ ngữ: đại từ nhân xưng, định vật (ấy, này), để hỏi -Đại từ làm định tố: định vật, để hỏi -Đại từ thay cho đơn vị ngữ pháp: định vật trạng thái -Đại từ thay cho số từ số lượng: đại từ số lượng Thông tin từ chức phó từ Mã Giải thính -Đi kèm với danh từ: phó từ biểu thị số lượng toàn thể hay riêng lẻ -Đi kèm với động từ, tính từ: phó từ biểu thị ý nghĩa trung gian, phủ định, diễn biến - Trước động từ: phó từ biểu thị ý nghĩa yêu cầu, sai khiến, đồng hay liên tục - Trước tính từ: phó từ mức độ, đồng hay liên tục - Sau động từ: phó từ biểu thị kết thúc hành động, phó từ biểu thị diễn biến Thơng tin từ chức quan hệ từ Mã 10 Giải thích - Trong cụm danh từ: của, (chính phụ) - Trong cụm động từ: (chính phụ), với, đến, - Trong cụm tính từ: (chính phụ) + động từ: mục đích, đối tượng: đâu, để, cho, đến - Trong câu ghép: quan hệ từ liên hợp Thông tin từ chức trợ từ Mã 11 12 13 Giải thích - Trợ từ cho từ - Trợ từ cho cụm từ - Trợ từ cho câu Thông tin từ chức thán từ Mã 14 Giải thích Thành phần phụ biệt lập câu Cách sử dụng Cách sử dụng Abbreviation Slang Mã Giải thích Hình thức rút gọn từ Khơng phù hợp với nói nơi cơng cộng văn Ví dụ ĐHQG mổ 38 Phụ lục C: Các báo liên quan - Nghiem Anh Tuan, Ho Chi Kien, Ho Tu Bao Issues in Construction of a Vietnamese Machine Tractable Dictionary in Proceeding of APF, Japan, 2002 39 ... thiếu nghiên cứu chuyên sâu từ điển điện tử phần ảnh hưởng đến chất lượng từ điển Chính vậy, u cầu đặt cần tiến hành nghiên cứu mơ hình từ điển điện tử giới, từ đề xuất mơ hình phù hợp cho từ điển. .. để xây dựng VMTD Kết luận Cấu trúc chung từ điển VMTD VMTD bao gồm từ điển sau: - Từ điển từ - Từ điển khái niệm - Từ điển song ngữ - Từ điển đồng diện - Corpus Mỗi từ điển có hai phiên cho tiếng. .. hành dễ dàng Sau có từ điển từ sử dụng để xây dựng corpus, thành phần giúp xây dựng nên từ điển Sau corpus xây dựng sử dụng để xây dựng liệu cho từ điển khác 3.1 Xây dựng từ điển giải thích khái

Ngày đăng: 15/05/2014, 10:33

Từ khóa liên quan

Mục lục

  • Gioi thieu

  • Cau truc chung cua tu dien VMTD

  • Cau truc cua tu dien con trong VMTD

  • Cac buoc xay dung tu dien VMTD

  • Phu luc: Bang ma tu dien tieng Anh

Tài liệu cùng người dùng

Tài liệu liên quan