Nghiên cứu tích hợp thành phần ngữ nghĩa vào văn phạm tag cho tiếng việt

66 379 0
Nghiên cứu tích hợp thành phần ngữ nghĩa vào văn phạm tag cho tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN ------------------- NGUYỄN VĂN HƢNG NGHIÊN CỨU TÍCH HỢP THÀNH PHẦN NGỮ NGHĨA VÀO VĂN PHẠM TAG CHO TIẾNG VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – Năm 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN ------------------- NGUYỄN VĂN HƢNG NGHIÊN CỨU TÍCH HỢP THÀNH PHẦN NGỮ NGHĨA VÀO VĂN PHẠM TAG CHO TIẾNG VIỆT Chuyên ngành: Cơ sơ toán học cho tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN THỊ MINH HUYỀN Hà Nội – Năm 2014 Lời cảm ơn Trong trình thực luận văn suốt trình học lớp cao học Cơ sở toán học cho tin học, em nhận bảo, hướng dẫn tận tâm TS. Nguyễn Thị Minh Huyền. Em xin tới cô lời cảm ơn chân thành sâu sắc nhất. Ngoài ra, em xin gửi lời cảm ơn tới thầy giáo, cô giáo, cán bộ, nhân viên khoa Toán- Cơ- Tin học, trường đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội tận tình dạy dỗ giúp đỡ em suốt trình học tập. Nhân dịp này, em xin gửi lời cảm ơn tới gia đình, bạn bè động viên, khuyến khích tạo điều kiện cho em trình học tập trình thực luận văn này. Do hạn chế kiến thức, kinh nghiệm, thời gian tìm hiểu, thực đặc biệt việc chưa có hiểu biết hệ thống ngữ pháp, ngữ nghĩa nên luận văn chắn nhiều hạn chế, thiếu sót. Em mong nhận nhiều ý kiến đóng góp thầy, cô bạn để em có nhìn sâu sắc vấn đề này. Hà Nội, tháng 12 năm 2014 Học viên Nguyễn Văn Hưng MỤC LỤC MỞ ĐẦU Chƣơng 1- KIẾN THỨC CƠ SỞ . 1.1 Văn phạm kết nối TAG 1.1.1 Giới thiệu TAG . 1.1.2 Định nghĩa hình thức văn phạm TAG . 1.1.3 Các thao tác văn phạm TAG 1.1.4 Cây dẫn xuất văn phạm kết nối 1.1.5 Cấu trúc đặc trưng TAG . 11 1.2 Phân tích cú pháp tiếng Việt . 12 1.2.1 Danh ngữ 12 1.2.2 Động từ . 14 1.2.3 Tính từ 18 1.3 Biểu diễn ngữ nghĩa logic vị từ cấp 27 1.3.1 Biểu diễn ngữ nghĩa . 27 1.3.2 Phân tích cú pháp biểu diễn ngữ nghĩa . 30 1.3.3 Kết hợp tính toán lambda biểu diễn ngữ nghĩa 31 Chƣơng 2- TÍCH HỢP NGỮ NGHĨA CHO VĂN PHẠM TAG 34 2.1 Giới thiệu . 34 2.2. Giao diện cú pháp/ngữ nghĩa dựa phép hợp với TAG 35 2.3. Văn phạm siêu văn phạm: khai thác thành phần thông tin chung 38 2.4. Cây phân tích xây dựng ngữ nghĩa 46 2.5. Rừng dẫn xuất, từ vựng ngữ nghĩa xây dựng ngữ nghĩa . 46 Chƣơng 3- XÂY DỰNG VĂN PHẠM TAG CÓ TÍCH HỢP NGỮ NGHĨA CHO TIẾNG VIỆT 54 3.1 Công cụ TULIPA XMG . 54 3.2 Dữ liệu đầu vào . 54 3.3 Thực nghiệm . 59 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN . 62 DANH MỤC CÁC HÌNH Hình 1.1: Mô tả phụ trợ Hình 1.2: Cây phụ trợ .7 Hình 1.3: Cây khởi tạo Hình 1.4 Mô tả phép nối .8 Hình 1.5: Phép nối Hình 1.6: Mô tả phép Hình 1.7: Phép Hình 1.8: Cây dẫn xuất CFG Hình 1.9: Cây dẫn TAG .10 Hình 1.10: Cây dẫn xuất .11 Hình 1.11: Cấu trúc đặc trưng với phép nối .11 Hình 1.12: Cấu trúc đặc trưng với phép .12 Hình 2.1- Mô tả ngữ nghĩa câu John loves Mary .37 Hình 2.2. Các sở TAG bao gồm ngữ nghĩa .47 Hình 2.3. Cây dẫn xuất TAG bao gồm ngữ nghĩa .48 Hình 2.4. Cây dẫn xuất cho câu Jean court (Jean chạy) 49 Hình 3.1:Kết phân tích cú pháp/ngữ nghĩa câu “An thích Bình” .60 Hình 3.2:Kết phân tích cú pháp/ngữ nghĩa câu “Một gió bất ngờ đến” .61 MỞ ĐẦU Để máy tính hiểu xử lý ngôn ngữ người toán khó ngành khoa học máy tính. Lĩnh vực xử lý ngôn ngữ tự nhiên (natural language processing – NLP) đời nhằm giải vấn đề này. Các toán ứng dụng bật lĩnh vực xử lý ngôn ngữ tự nhiên như: Nhận dạng chữ viết, nhận dạng giọng nói, dịch tự động, tìm kiếm thông tin, … thu nhiều thành tựu định. Các bước để xử lý ngôn ngữ tự nhiên gồm: phân tích hình thái, phân tích cú pháp, phân tích ngữ nghĩa, phân tích ngữ dụng. Trong phân tích ngữ nghĩa bước xử lý khó khăn liên quan đến việc hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo tư giao tiếp. Bài toán biểu diễn ngữ nghĩa ngôn ngữ tự nhiên nhà khoa học giới nghiên cứu từ nhiều thập kỷ trước, phải kể đến công trình Montague (1974) ngữ nghĩa hình thức, quy tắc ngữ pháp kết hợp đồng thời với quy tắc ngữ nghĩa để xây dựng không cú pháp mà hạng thức lambda biểu diễn nghĩa thành phần cú pháp. Cho đến nhà khoa học có nhiều bước tiến quan trọng việc xây dựng mô hình để biểu diễn tính toán ngữ nghĩa phần văn bản, từ cấp độ từ vựng tới cấp độ ngữ, cấp độ câu rộng cấp văn bản. Các công trình nghiên cứu xử lý ngôn ngữ tự nhiên cho tiếng Việt năm gần đạt nhiều thành định. Tuy nhiên phần lớn tập trung vào toán phân tích từ vựng, phân tích cú pháp. Với kết đạt xử lí từ vựng cú pháp, lúc cần đầu tư cho nghiên cứu xử lí ngữ nghĩa tiếng Việt. Luận văntập trung nghiên cứu tích hợp thành phần ngữ nghĩa vào văn phạm TAG cho tiếng Việt. Cấu trúc luận văn trình bày sau:  Chƣơng 1: Kiến thức sở: Trong chương này, luận văn giới thiệu kiến thức sở phục vụ cho công việc tích hợp thành phần ngữ nghĩa văn phạm TAG, phân tích cú pháp tiếng việt, biểu diễn ngữ nghĩa logicvị từ cấp một.  Chƣơng 2: Tích hợp ngữ nghĩa vào văn phạm TAG: Chương nghiên cứu phương pháp xây dựng ngữ nghĩa vào văn phạm TAG.  Chƣơng 3: Xây dựng văn phạm TAG có thành phần ngữ nghĩa cho tiếng Việt: Chương nghiên cứu sử dụng công cụ TULIPA để tích hợp thành phần ngữ nghĩa vào văn phạm TAG, xây dựng văn phạm TAG có thành phần ngữ nghĩa cho tiếng Việt đưa kết thực nghiệm số câu tiếng Việt cụ thể.  Kết luận: Phần tóm tắt lại nội dung luận văn đưa hướng phát triển luận văn. Chƣơng 1- KIẾN THỨC CƠ SỞ Chương diễn giải kiến thức cần thiết cho việc xử lý ngữ nghĩa. Các kiến thức sở bao gồm: văn phạm kết nối TAG, phân tích cú pháp tiếng Việt thảo luận phương pháp biểu diễn ngữ nghĩa logicvị từ cấp một. 1.1 Văn phạm kết nối TAG 1.1.1 Giới thiệu TAG Văn phạm kết nối (Tree Adjoining Grammar-TAG[4]) đưa Joshi, Levy Takahashi (1975), Joshi (1985). TAG thao tác với đối tượng đối tượng có cấu trúc (cây) xâu. Việc sử dụng đối tượng có cấu trúc cho phép xây dựng hệ hình thức có khả sinh mạnh tức cho phép sinh mô tả cấu trúc. Các hệ hình thức thích hợp với mô tả ngôn ngữ học hệ hình thức có khả sinh yếu, tức sinh tập xâu. Cây biểu diễn cấu trúc tương ứng với đơn vị ngôn ngữ học. Có hai loại bản: o Cây khởi tạo: tương ứng với cấu trúc gồm thành phần bắt buộc câu. o Cây phụ trợ: tương ứng với cấu trúc cho phép thêm vào thành phần phụ câu. 1.1.2 Định nghĩa hình thức văn phạm TAG Văn phạm TAG năm (∑, N, I, A, S) đó: - ∑: tập ký hiệu kết thúc (bảng chữ chính). - N: tập ký hiệu không kết thúc (bảng chữ phụ). - I: tập “khởi tạo” (initial trees). - A: tập “phụ trợ” (auxiliary trees). - S: tiên đề, S  N. Cây văn phạm mà nút đánh dấu ký hiệu (kết thúc không kết thúc). Cây phụ trợ: có chứa nút trùng tên (cùng phân loại) với nút gốc, nút ký hiệu với dấu * bên cạnh gọi nút chân phụ trợ (xem Hình 1.1). X Ví dụ phụ trợ (xem Hình 1.2): X* Hình 1.1: Mô tả phụ trợ (β1) ADV (β2) VP VP* VP VP* ADJ sớm Hình 1.2: Cây phụ trợ Ví dụ khởi tạo (xem Hình 1.3): (α1) NP An (α2) (α3) NP cơm S NP↓ VP V Hình 1.3: Cây khởi tạo NP↓ ăn 1.1.3 Các thao tác văn phạm TAG Thao tác văn phạm TAG gồm: phép nối (adjoining) phép (substitution). a. Phép nối Phép nối mô tả hình vẽ sau (xem Hình 1.4): (β2) X X X X* X X Hình 1.4 Mô tả phép nối Ví dụ (xem Hình 1.5): (α3) S VP NP↓ VP V VP* ADJ sớm NP↓ ăn (γ1) S NP↓ VP VP V NP↓ ADJ sớm ăn Hình 1.5: Phép nối Các ràng buộc phép nối: - Với nút thực tối đa phép nối. - Phép nối thao tác bắt buộc. - Các nút chân nút cấm thực phép nối. - Ngoài nút chân, thêm ký hiệu NA cho nút cấm mà phép nối bị cấm. Hình 2.4. Cây dẫn xuất cho câu Jean court (Jean chạy) Và giả sử từ vựng ngữ nghĩa trích xuất từ ngữ nghĩa TAG cho Jean court sau: TreeName n0V TreeName properN Lemma court Lemma Jean SemRepr !e:court(e,X) SemRepr jean(j) ANodes 2.bot = [idx=e] ANodes Snodes1.top = [idx=X] SNodes Root0.bot = [idx=e] Root0.bot = [idx=j] Đó là, thông tin ngữ nghĩa trích xuất từ sở lưu trữ từ vựng ngữ nghĩa bao gồm tên đó, ghi từ neo đó, biểu diễn ngữ nghĩa kết hợp với ghi thông tin ngữ nghĩa kết hợp với nút (các nút thế, nút mà phép nối thực hiện, nút gốc nút chân) đó. Xây dựng ngữ nghĩa sau thực cách qua dẫn xuất, tổng hợp ngữ nghĩa từ vựng kết hợp với dẫn xuất thực phép hợp áp dụng dẫn xuất TAG (xem hình 2). Trong trường hợp này, tổng hợp ngữ nghĩa từ vựng kết hợp với hai xảy dẫn xuất cho kết quả. {!e:court(e,X), jean(j)} Hai bước phép hợp thêm vào có liên quan. Bước thứ sau từ phép properN_ jean nút n0V_courtmà đáp ứng phép hợp cấu trúc đặc trưng nút gốc properN_ jean với nút n0V_court 1.top = 0.top = [idx=X] 1.bot = 0.bot = [idx=j] 49 Bước thứ hai phép hợp sau, từ yêu cầu mà kết thúc dẫn xuất TAG cấu trúc đặc trưng đỉnh đáy tất nút dẫn xuất hợp nhất. Yêu cầu đáp ứng đặc biệt phép hợp sau: 1.top = 1.bot 0.top = 0.bot Kết [idx=X] hợp với [idx=j] ngữ nghĩa tổng thể câu Jean court trở thành: {!e:court(e,j), jean(j)} 2.5.2 Trích xuất nghĩa từ vựng từ ngữ nghĩa TAG Như ví dụ minh họa trên, thông tin cần thiết để thực xây dựng ngữ nghĩa sở rừng dẫn xuất bao gồm: tên cây, bổ đề (lemma), biểu diễn ngữ nghĩa bốn tập phương trình đường dẫn liên quan nút dẫn xuất với thông tin ngữ nghĩa gán cho nút này. Một tập phương trình liên quan đến nút thay thế, tập khác đến nút mà phép nối xảy ra, tập thứ ba đến nút gốc tập thứ tư đến nút chân có. Đó là, sở văn phạm, mục thêm vào từ vựng ngữ nghĩa mà có chứa thông tin trên. Lưu ý thêm TAG sử dụng để phân tích cú pháp không cần phải bao gồm thông tin ngữ nghĩa : tất trình ngữ nghĩa thực sau phân tích cú pháp diễn phụ thuộc vào thông tin chứa (cú pháp túy) rừng dẫn xuất từ vựng ngữ nghĩa. Để tự động trích xuất nghĩa từ vựng cần thiết từ TAG ngữ nghĩa G mô tả phần 2.2, tiến hành sau: 1. Đối với T G, tất nút T đánh số với địa Gorn chúng để nút kết văn phạm GG sau dán nhãn hai với số ngữ nghĩa với địa Gorn 50 2. Đối với T GG (a) tạo ST cách xóa tất nút T thông tin ngữ nghĩa (nếu có) ghi nhãn nút đó. Gọi kết văn phạm cú pháp túy SG (b) tạo mục từ vựng ngữ nghĩa, có: tên cây, biểu diễn ngữ nghĩa liên quan siêu văn phạm với này, địa Gorn thông tin ngữ nghĩa gán nhãn cho nút cây. 2.5.3 Biểu diễn ngữ nghĩa Như [17] đưa ra, biểu diễn tính toán ngữ nghĩa từ tập phân tích cú pháp cách tự nhiên để đối phó với bùng nổ tổ hợp dẫn đến từ liệt kê tất cách đọc câu định: cách thực xây dựng ngữ nghĩa sở tập phân tích cú pháp dẫn xuất, chia sẻ thành phần cú pháp mà có cách đọc đơn giản chia sẻ trình xây dựng ngữ nghĩa. Khi kết hợp với sử dụng việc xác định ngôn ngữ biểu diễn ngữ nghĩa, phương pháp tiếp cận cho phép số lượng lớn cấu trúc chia sẻ làm tăng hiệu quả. Bây trình bày làm để từ vựng ngữ nghĩa mà trình bày phần 2.5.2 tự động trích xuất từ ngữ nghĩa TAG mô tả phần 2.2, sử dụng phép hội với rừng dẫn xuất để xây dựng biểu diễn ngữ nghĩa. Một rừng dẫn xuất biểu diện nhỏ gọn dẫn xuất phát sinh từ phân tích cú pháp câu. Nó biểu diễn hai đồ thị and/or văn phạm phi ngữ cảnh dạng xác thay đổi tùy thuộc vào mức độ chia sẻ cần thiết [18]. Ở giả định định dạng CFG mà quy tắc có dạng: DTNodeId :: ElTreeId ← (DTNode/Op.Node) + ElTreeId :: Lemma.TreeName 51 với DTNodeId, DTNode nút định danh dẫn xuất, ElTreeId định danh sở gán nhãn nút dẫn xuất, Op s cho phép cho phép nối Node xác định nút sở mà Op diễn ra. Để thực xây dựng ngữ nghĩa, đơn giản duyệt qua rừng dẫn xuất từ trên-xuống dưới, lập bảng thành phần tìm thấy kiểm tra trước xây dựng mục mà chưa có bảng xây dựng nay. Đối với dẫn xuất tập phân tích cú pháp, xây dựng ngữ nghĩa thực cách giảm đệ qui sau: Để xây dựng ngữ nghĩa sem dẫn xuất với gốc DTNodeId cho qui tắc tập phân tích cú pháp. DTNodeId :: ElTreeId ← Dtrs Lemma.TreeName ← terminal(DTNodeId) HeadSem ← lexSem(Lemma.TreeName) SemDtrs ← dtrsSem(HeadSem,Dtrs) Sem ← HeadSem + SemDtrs Trong terminal thủ tục ánh xạ mà nút dẫn xuất cho nút kết thúc trực tiếp gián tiếp viết lại tập phân tích; lexSem chức lấy từ vựng ngữ nghĩa mô tả phần trước, ngữ nghĩa từ vựng liên quan đến cặp (lemma, TreeName) định; dtrs-Sem thủ tục (được mô tả đây) xây dựng biểu diễn ngữ nghĩa lớp quy tắc định ngữ nghĩa đầu lhs nó; + biểu thị phép toán tích lũy biểu diễn ngữ nghĩa xây dựng. thủ tục dtrsSem xác định sau. Để xây dựng ngữ biểu diễn ngữ nghĩa Sem lớp DTNodeId /Op.NodeId| Odtrs qui tắc cho ngữ nghĩa đầu HeadSem lhs nó, thực Lemma.TreeName ← terminal(DTNodeId) HeadSemD1 ← lexSem(Lemma.TreeName) 52 tagUnify(HeadSem,HeadSemD1) semODtrs ← dtrsSem(HeadSem,ODtrs) Sem ← HeadSemD1 + semODtrs Trong tagUnify thực phép toán hợp áp dụng dẫn xuất TAG (xem hình 2.2) nhãn nút cung cấp từ vựng ngữ nghĩa mô tả phần trước. Tổng kết Tóm lại, chương này, nghiên cứu xây dựng ngữ nghĩa theo hai phương pháp xây dựng ngữ nghĩa trình dẫn xuất xây dựng ngữ nghĩa sau trình dẫn xuất sử dụng văn phạm TAG tiếng Pháp. Trong chương nghiên cứu xây dựng ngữ nghĩa vào văn phạm TAG ứng dụng cho tiếng Việt. 53 Chƣơng 3-XÂY DỰNG VĂN PHẠM TAG CÓ TÍCH HỢP NGỮ NGHĨA CHO TIẾNG VIỆT Để xây dựng hệ thống phân tích cú pháp tính toán ngữ nghĩa tiếng Việt, nói, sửdụng công cụ XMG TuLiPA. Công cụ XMG cho phép biên dịch văn phạm LTAG có ngữ nghĩa từmô tả siêu văn phạm. Công cụ TuLiPA sử dụng tài nguyên văn phạm LTAG có ngữ nghĩa thu bướctrước thực hai tác vụ phân tích cú pháp tính toán ngữ nghĩa cho câu đầu vào. 3.1 Công cụ TULIPA XMG TuLiPA (Tübingen Linguistic Parsing Architecture) phát triển trường Đại học Tübingen, Đức. TuLiPA môi trường phân tích cú pháp đa hình thức dựa phân tích cú pháp văn phạm ghép nối vùng. Nó hỗ trợ văn phạm kết nối đa thành phần. XMG công cụ biên dịch siêu văn phạm, cho phép thiết kế siêu văn phạm. Để thực tích hợp thành phần ngữ nghĩa vào TAG cần công cụ sau:  XMG-Tuebingen (https://sourcesup.renater.fr/xmg/#Requirements), công cụ cho phép chuyển đổi file mg chứa nội dung mô tả cấu trúc mảnh sang định dạng XML.  Công cụ LEX2ALL, sử dụng để chuyển đổi file từ điển hình thái từ sang chuẩn XML.  TuLiPA, công cụ để thực phân tích cú pháp tích hợp ngữ nghĩa vào văn phạm TAG. 3.2 Tổ chức liệu 3.2.1 Cấu trúc liệu 1. Về tài nguyên: Tài nguyên để thực xây dựng ngữ nghĩa bao gồm: 54  Thứ cần văn phạm (TAG) chứa thông tin ngữ nghĩa. Chính xác hơn, văn phạm xét tạo sơ đồ liên quan đến công thức ngữ nghĩa phẳng. Cụ thể văn phạm biên dịch từ siêu văn phạm sử dụng hình thức XMG  Thứ hai cần từ điển. Chúng ta cần từ điển chứa bổ đề (lemmas) từ điển chứa thông tin hình thái.  Thứ ba, sử dụng kho ngữ liệu, chẳng hạn tập câu chuyển sang văn phạm. 2. Cú pháp từ vựng (lemmas) Đây tệp chứa nhiều thông tin (bao gồm ngữ nghĩa). Nó có trường sau: *ENTRY: dùng để lưu chữ lemma, *CAT: loại cú pháp, *SEM: Thông tin ngữ nghĩa *LAM: biểu diễn thông tin ngữ nghĩa hạng tử lambda (trường tùy chọn) *ACC: động từ chấp nhận (đối với động từ có nhiều nghĩa) không dùng *FAM: họ *EX: danh sách ngoại lệ (trong tagml đặc trưng có giá trị "-") không dùng. *EQUATIONS: phương trình neo có dạng: node -> feat = val *COANCHORS: phương trình đồng neo,có dạng: node -> lemma / category Những phương trình sử dụng để xác định mục từ vựng mà thêm vào cây. Lưu ý: Tất trường xếp theo thứ tự 3. Mục hình thái từ (Morphological entry) : Chứa thông tin hình thái từ, từ loại đặc trưng từ. Toàn hình thái có dạng 55 lexical item associated lemma [ feat1 = val1 ; feat2 = val2 ; etc (optional ";")] Trong lexical item mục từ vựng xếp theo bảng, associate lemma (bổ đề liên quan) [feat 1= val1] cặp thuộc tính giá trị mục từ tương ưng. 3.2.2 Mô tả mảnh cây. Phần mô tả số lớp cụ thể bảnbao gồm phân tích cú pháp tích hợp ngữ nghĩasử dụng cú pháp XMG trình tích hợp ngữ nghĩa vào văn phạm TAG cho tiếng Việt. 1. Lớp phân tích cú pháp - Cây động từ: class verbal export ?VP ?V ?P ?M ?I ?I2 declare ?VP ?V ?P ?M ?I ?I2 VP {{ node ?VP [cat=vp,bot=[idx = ?I,pIdx=?P,idx2 = ?I2]]; node ?V (mark=anchor,name=Anchor) [cat=v,top=[idx = ?I,pIdx=?P,idx2 = ?I2]]; V ?VP ->+ ?V }*=[prop=?P,arg1 = ?I]%Ràng buộc ngữ nghĩa } Trong đó, nút VP có từ loại (cat) vp, cấu trúc đặc trưng đáy (bot) có biến ràng buộc ngữ nghĩa idx, pIdx, idx2 - Cây chủ ngữ tắc class CanSubject S export ?S ?NP ?VP ?M ?I ?Min ?P1 ?P2 ?P declare ?S ?NP ?VP ?M ?I ?Min ?P1 ?P2 ?P { { NP node ?S [cat = s,top=[pIdx=?P1], bot=[%inv=no, pIdx=?P2],dIdx = ?P2]; node ?NP (name=SubjNode, mark = subst, gf=subj)[cat=n, top=[idx=?I, minsIdx=?P2]]; node ?VP [cat = vp,top=[pIdx=?P2],dIdx = ?P]; ?S -> ?NP; ?S -> ?VP; ?NP >> ?VP }*=[subjIdx=?I,mins=?Min ,dIdx = ?P2,dIdx = ?P] } 56 VP - Cây bổ ngữ VP class Object export ?S ?VP ?NP ?V ?C ?I ?Min ?P declare ?S ?VP ?NP ?V ?C ?I ?Min ?P { { NP V node ?VP [cat = vp,dIdx = ?P,idx2 = ?I]; node ?NP (name=ObjNode, mark=subst, gf=obj)[cat=n, top=[idx=?I,minsIdx=?Min,idx2 = ?I],dIdx = ?P]; node ?V [cat=v,idx2 =?I]; ?VP ->+ ?NP; ?VP -> ?V; ?V >>+ ?NP }*=[objIdx=?I,mins=?Min] } - Họ ngoại động từ class transitive declare ?Verb ?N0 ?N1 ?Rel ?U ?V ?Min { ?Verb=verbal[]; ?N0 =CanSubject[]; ?N1=Object[]; ?Rel=BinaryRel[]; ?Verb.?VP = ?N0.?VP; ?N0.?S = ?N1.?S; ?Verb.?VP = ?N1.?VP; ?Verb.?V = ?N1.?V; ?N1.?C=acc *=[arg1=?U,subjIdx=?U,arg2=?V ,objIdx=?V,mins=?Min,prop=?Min] } - Cây nội động từ class intransitive declare ?Verb ?N0 ?Rel ?U ?Min { ?Verb=verbal[]; ?N0 = CanSubject[]; ?Rel=UnaryRel[]; ?Verb.?VP = ?N0.?VP *=[arg1=?U,subjIdx=?U, mins=?Min,prop=?Min] } - Cây danh từ riêng class ProperName declare ?NP ?Sem ?I 57 S N VP V N S N VP V { ?NP=noun[]; ?Sem=SemProperName[]; ?NP.?D=no *=[arg1=?I,i=?I] } 2. Lớp ngữ nghĩa Lớp ngữ nghĩa đối class UnaryRel declare !L ?X ?P { {!L:?P(?X) } *=[rel=?P,arg1=?X,prop=!L] } Lớp ngữ nghĩa hai đối class BinaryRel declare !L ?X ?Y ?P { {!L:?P(?X,?Y) } *=[rel=?P,arg1=?X,arg2=?Y,prop=!L] } Lớp ngữ nghĩa cho danh từ đối: class SemUnaryNoun declare !L ?X ?P { {!L:?P(?X) } *=[rel=?P,arg1=?X,prop=!L] } Lớp ngữ nghĩa cho danh từ riêng đối: class SemProperName declare !L ?P ?X { {!L:?P(?X) } *=[rel=?P,i=?X] } Lớp ngữ nghĩa lượng từ ba đối class SemDetQuant declare !L ?X ?P ?P1 ?P2 ?Restr ?Min { {!L:?P(?X,?P1,?P2); ?Restr [...]... hợp sử dụng văn phạm TAG Chúng ta đã biểu diễn được ngữ nghĩa của một câu trong ngôn ngữ tự nhiên thành một công thức logic với sự hỗ trợ của tính toán lambda Trong chương tiếp theo chúng ta sẽ nghiên cứu tích hợp ngữ nghĩa vào trong văn phạm TAG trong ngôn ngữ tiếng Anh, tiếng Pháp, từ đó chúng ta có cái nhìn tổng thể để có thể xây dựng ngữ nghĩa vào TAG cho tiếng Việt 33 Chƣơng 2- TÍCH HỢP NGỮ NGHĨA... ngữ nghĩa vào trong TAG sử dụng một hình thức văn phạm có ý nghĩa đặc biệt được phát triển gần đây bởi [7] Trong phần thứ hai của chương này trình bày làm thế nào kết quả TAG có thể được sử dụng để hỗ trợ xây dựng ngữ nghĩa đó là, kết hợp các câu được tạo ra bởi văn phạm với một biểu diễn ngữ nghĩa Trái ngược với khung ngôn ngữ khác như văn phạm chức năng từ vựng (Lexical Functional Grammar-LFG), văn. .. nhóm các ký hiệu Các thành phần 2-5 chung cho mọi ngôn ngữ tân từ, thành phần duy nhất để phân biệt các ngôn ngữ với nhau là các ký hiệu phi logic (các ký hiệu trong từ điển) 1.3.2 Phân tích cú pháp và biểu diễn ngữ nghĩa Việc biểu diễn ngữ nghĩa của một câu trong ngôn ngữ tự nhiên thành công thức logic có thể được chia thành một số bước: 1 Phân tách câu trong ngôn ngữ tự nhiên thành các ký hiệu trong... tâm, thể hiện bằng văn phạm hình thức TAG 1.2.1 Danh ngữ Loại ngữ do danh từ làm chính tố gọi là danh ngữ Xét về mặt nghĩa, trong danh ngữ các phụ tố tạo nên nghĩa có tính xác định của chính tố Nhưng các phụ tố có thể được lược bớt và ngữ chỉ còn có chính tố mà vẫn có tính xác định Đó là trường hợp danh ngữ làm phần đề trong nòng cốt N = a+b 12 Cấu trúc đầy đủ của danh ngữ trong Tiếng việt có trật tự... thể [7,8,9] và thông tin từ cây phân tích cũng được đưa vào để xây dựng ngữ nghĩa Trong phần thứ hai của chương này, luận văn sẽ trình bày cách mô tả ngữ nghĩa TAG trong phần thứ nhất có thể được sử dụng để hỗ trợ hai phương pháp xây dựng ngữ nghĩa, cả hai đều dựa trên thông tin chứa trong cây phân tích Phương pháp thứ nhất theo sự hợp nhất dựa trên thực tiễn văn phạm và thực hiện 34 ... hai tác giả P.Blackburn, J Bos[6] 1.3.1 Biểu diễn ngữ nghĩa Đây là phần trình bày về cách thức biểu diễn ngữ nghĩa bằng logic vị từ cấp một Các biểu diễn của chúng ta sẽ là phân tích cú pháp rồi sử dụng phép tính lambda để kết hợp các thành phần cú pháp lại thành công thức logic 1.3.1.1 Các khái niệm ngữ nghĩa Để tiến hành việc biểu diễn ngữ nghĩa thành công thức logic, chúng ta cần thêm một số khái... phép hợp nhất của tX với t và của bX với b - Kết thúc của một dẫn xuất, đặc trưng đỉnh và đáy của tất cả các nút trong cây dẫn xuất được hợp nhất 1.2 Phân tích cú pháptiếng Việt Phân tích cú pháp là phân tích thành phần cấu tạo ngữ pháp của câu Câu chính là đơn vị lớn nhất của mặt cấu trúc trong tổ chức ngữ pháp của một ngôn ngữ Trong phần này luận văn tập trung trên những vấn đề sau đây: Danh ngữ, ... X.z.(X@x.THÍCH(z,x)) Quá trình kết hợp cùng được thực hiện theo phân tích cú pháp: ngoại động từ THÍCH kết hợp với danh từ riêng BÌNH thành cụm vị ngữ, sau đó cụm vị ngữ này kết hợp cùng danh từ riêng (đóng vai trò chủ ngữ) AN thành câu Tổng kết Tóm lại, trong chương này, chúng ta đã mô tả ngắn gọn về văn phạm kết nối cây; phân tích cú pháp tiếng Việt đối với các câu danh ngữ, câu có động từ làm trung tâm,... NGỮ NGHĨA CHO VĂN PHẠM TAG 2.1 Giới thiệu Phát triển một văn phạm kết nối cây (TAG) mà có chứa thông tin cần thiết để xây dựng tính toán ngữ nghĩa cơ bản của các câu là một kỹ thuật phức tạp Để đảm bảo tính thống nhất, dễ viết, bảo trì và gỡ lỗi, bởi vậy nó quan trọng để thông tin này được mô tả theo mức thích hợp của sự trừu tượng Trong phần thứ nhất của chương này (phần 2.2 và 2.3), luận văn trình... ta sẽ xét một ví dụ về việc kết hợp tính toán lambda vào việc xây dựng công thức logic từ câu trong ngôn ngữ tự nhiên Xét ví dụ: An thích Bình Chúng ta có phân tích sau: 32 Với việc phân tích cú pháp, chúng ta sẽ thu được các thành phần: ngoại động từ "THÍCH", danh từ riêng là chủ ngữ "AN", danh từ riêng là tân ngữ "BÌNH" Với các thành phần này chúng ta sẽ có biểu diễn nghĩa tương ứng của chúng bằng . vụ cho công việc tích hợp thành phần ngữ nghĩa như văn phạm TAG, phân tích cú pháp tiếng việt, biểu diễn ngữ nghĩa bằng logicvị từ cấp một. 5  Chƣơng 2: Tích hợp ngữ nghĩa vào văn phạm. TULIPA để tích hợp thành phần ngữ nghĩa vào văn phạm TAG, xây dựng văn phạm TAG có thành phần ngữ nghĩa cho tiếng Việt và đưa ra các kết quả thực nghiệm đối với một số câu tiếng Việt cụ thể văn phạm TAG: Chương này nghiên cứu phương pháp xây dựng ngữ nghĩa vào trong văn phạm TAG.  Chƣơng 3: Xây dựng văn phạm TAG có thành phần ngữ nghĩa cho tiếng Việt: Chương này nghiên cứu sử

Ngày đăng: 25/09/2015, 11:11

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan