Nghiên cứu các giải pháp tạo nguồn tài nguyên dữ liệu lớn phục vụ xử lý ngôn ngữ tự nhiê

26 307 0
Nghiên cứu các giải pháp tạo nguồn tài nguyên dữ liệu lớn phục vụ xử lý ngôn ngữ tự nhiê

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Header Page of 161 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA - NGUYỄN TOÀN ANH NGHIÊN CỨU CÁC GIẢI PHÁP TẠO NGUỒN TÀI NGUYÊN DỮ LIỆU LỚN PHỤC VỤ XỬ NGÔN NGỮ TỰ NHIÊN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 Khoá: K30 TÓM TẮT LUẬN VĂN THẠC SĨ Đà Nẵng, tháng 12 năm 2016 Footer Page of 161 Header Page of 161 Công trình hoàn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: PGS.TS Huỳnh Công Pháp Phản biện 1: TS Nguyễn Văn Hiệu Đại học Bách khoa - Đại học Đà Nẵng Phản biện 2: PGS.TS Lê Văn Sơn Đại học Sư phạm - Đại học Đà Nẵng Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ ngành Khoa học máy tính họp Trường Đại học Bách khoa Đà Nẵng vào ngày tháng năm 2017 Có thể tìm hiểu luận văn tại: - Trung tâm học liệu, Đại học Đà Nẵng trường Đại học Bách Khoa - Thư viện khoa Công nghệ thông tin, trường Đại học Bách Khoa - ĐHĐN Footer Page of 161 Header Page of 161 MỞ ĐẦU chọn đề tài Ngày nay, bên cạnh hội nhập với Quốc tế đất nước chúng ta, Công nghệ thông tin không ngừng phát triển Với đời máy tính điện tử kết nối toàn cầu thông qua Internet tạo lượng thông tin khổng lồ với nhiều ngôn ngữ khác nhau, đặc biệt tiếng Anh Tuy nhiên, rào cản mặt ngôn ngữ khối lượng lớn thông tin chưa xử triệt để, chưa cấu trúc lại, hệ thống lại để tạo thành nguồn tài nguyên liệu ngôn ngữ tự nhiên nhằm phục vụ cho việc đào tạo, dạy học, nghiên cứu xỷ ngôn ngữ Xử ngôn ngữ tự nhiên kĩ thuật quan trọng nhằm giúp máy tính hiểu ngôn ngữ người, qua hướng dẫn máy tính thực giúp đỡ người công việc có liên quan đến ngôn ngữ như: dịch thuật, phân tích liệu văn bản, phân loại văn bản, tóm tắc văn bản, tìm kiếm thông tin,… Xử ngôn ngữ tự nhiên đóng vai trò quan trọng việc đẩy mạnh phát triển Công Nghệ Thông Tin Việt Nam Tuy nhiên, xử ngôn ngữ tự nhiên vấp phải khó khăn, mà khó khăn lớn phải nói đến nguồn tài nguyên liệu ngôn ngữ, đặc biệt nguồn tài nguyên song ngữ Các nguồn tài nguyên thường không đủ lớn mang tính cục bộ, sử dụng lĩnh vực hay nơi Chưa kể đến nguồn tài nguyên tồn dạng website song ngữ, website phục vụ cho mục đích đọc người dùng, chưa sử dụng khai thác để xử ngôn ngữ tự nhiên Ngoài có nhiều nguyên nhân khác như: Hệ thống dịch chất lượng, kích thước từ điển hạn chế Hiện tồn nhiều từ điển Tiếng Việt chưa đặt hiệu việc xử ngôn ngữ, từtừ điển lại có cách hiểu khác Hệ thống dịch có câu dịch được, có câu dịch không cho có hay liệu Chính chất lượng hệ thống nên mục tiêu đề tài xây dựng nguồn tài nguyên liệu lớn, phục vụ cho việc phát triển hệ thống xử ngôn ngữ tự nhiên đạt chất lượng hiệu Đề tài tập trung vào đề xuất giải pháp xây dựng nguồn tài nguyên liệu lớn từ nguồn tài nguyên tồn kho ngữ liệu hay từ liệu thô chưa khai thác website song ngữ Để góp phần giải vấn đề trên, xin chọn đề tài: “Nghiên cứu giải pháp tạo nguồn tài nguyên liệu lớn phục vụ xử ngôn ngữ tự nhiên” Footer Page of 161 Header Page of 161 2 Mục đích ý nghĩa đề tài a Mục đích Đề xuất số giải pháp để xây dựng hệ thống tạo tài nguồn nguyên liệu lớn, nhằm phục vụ, chia sẽ, sử dụng việc nghiên cứu ngôn ngữ tự nhiên, tìm kiếm thông tin đa ngôn ngữ, dịch thuật học tập b Ý nghĩa khoa học - Nắm vững vận dụng tốt kỹ thuật lấy liệu từ văn bản, website… Nắm vững thành phần cú pháp câu tiếng Việt, tiếng Anh Nắm vững giải pháp tạo nguồn tài nguyên liệu Kết phục vụ cho việc xử ngôn ngữ tự nhiên c Ý nghĩa thực tiễn Đề xuất số giải pháp áp dụng thực tiễn để tạo nguồn tài nguyên liệu lớn phục vụ cho việc xử ngôn ngữ tự nhiên Mục tiêu nhiệm vụ a Mục tiêu Mục tiêu mà đề tài hướng đến nghiên cứu xây dựng hệ thống tạo nguồn tài nguyên liệu chứa cặp từ, cặp câu Anh – Việt từ nguồn tài liệu thô chưa khai thác như: trang web song ngữ, sách, báo,… nhiều định dạng khác như: XML, TXT, DOC,… b Nhiệm vụ Để đặt mục tiêu nhiệm vụ đặt đề tài là: - Nghiên cứu thành phần, cú pháp, trật tự từ câu tiếng Việt tiếng Anh Nghiên cứu ánh xạ gióng hàng văn song ngữ Anh-Việt Nghiên cứu kỹ thuật lấy liệu từ văn nhiều định dạng khác Phát biếu, phân tích cài đặt hệ thống đặt Đối tượng phạm vi nghiên cứu Trong khuôn khổ luận văn thuộc loại nghiên cứu ứng dụng, giới hạn nghiên cứu vấn đề sau: - Thành phần, cú pháp câu tiếng Việt tiếng Anh Tạo nguồn tài nguyên liệu lớn giải pháp xây dựng nguồn tài nguyên liệu từ tài liệu thô song song Ánh xạ gióng hàng văn song ngữ Anh-Việt Hợp kho ngữ liệu song ngữ Anh-Việt Footer Page of 161 Header Page of 161 Phương pháp nghiên cứu - Tiến hành thu thập nghiên cứu tài liệu có liên quan đến đề tài Nghiên cứu thuyết ngôn ngữ tự nhiên nói chung song ngữ Anh – Việt nói riêng Nghiên cứu giải pháp tạo nguồn tài nguyên liệu Nhận xét đánh giá kết đạt Phương tiện, công cụ triễn khai - Môi trường Microsoft Visual C# Môi trường Microsoft SQL Server Công cụ Stanford POS tagger Footer Page of 161 Header Page of 161 CHƯƠNG I: NGHIÊN CỨU TỔNG QUAN 1.1 CƠ SỞ THUYẾT 1.1.1 Nguồn tài nguyên liệu Nguồn tài nguyên liệu thành phần sở hạ tầng công nghệ thông tin, đại diện cho tất liệu có sẵn lĩnh vực Để phục vụ cho việc xử ngôn ngữ tự nhiên, cần phải có nguồn tài nguyên liệu mặt ngôn ngữ Nguồn tài nguyên gồm: Kho ngữ liệu, từ điển, treebank 1.1.1.1 Kho ngữ liệu Ngữ liệu (Corpus) liệu tập hợp văn bản, ngôn ngữ số hóa, thường gọi kho ngữ liệu Chúng sử dụng để phân tích, thống kê kiểm tra quy tắc ngôn ngữ ngôn ngữ cụ thể 1.1.1.2 Dữ liệu từ điển Từ điển thiết bị, công cụ cho phép lưu trữ thông tin mà qua đó, dựa vào từ, cụm từ đơn giản, ta tìm nghĩa giải thích, thông tin liên quan nhanh chóng 1.1.1.3 Tree bank Treebank tập hợp câu ngữ liệu phân tích thích cú pháp, thường biểu diễn dạng cấu trúc 1.1.2 Cấu trúc, định dạng, kích thước 1.1.2.1 Kho ngữ liệu Chuẩn CES TEI dựa SGML(Standard Generalized Markup Language) 1.1.2.2 Dữ liệu từ điển Đối với liệu từ điển, có định dạng phổ biến là: dict.tab dict.ord 1.1.2.3 Treebank Treebank thường biễu diễn dạng cấu trúc cây, có thích cú pháp, bổ sung thêm nhãn từ loại 1.1.3 Các vấn đề tồn nguồn tài nguyên liệu 1.1.3.1 Số lượng vốn từ 1.1.3.2 Chưa thuận tiện người dùng 1.1.3.3 Nguồn tài nguyên liệu nằm rải rác Footer Page of 161 Header Page of 161 1.1.4 Ứng dụng tài nguyên liệu 1.1.4.1 Ứng dụng ngôn ngữ học – thống kê 1.1.4.2 Ứng dụng ngôn ngữ học so sánh 1.1.4.3 Ứng dụng giảng dạy ngoại ngữ 1.1.4.4 Ứng dụng việc nghiên cứu dịch thuật 1.2 CÁC PHƯƠNG PHÁP, GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN DỮ LIỆU 1.2.1 Giải pháp thu thập từ nguồn liệu thô Hình 1.4: Các bước thực giải pháp thu thập từ nguồn liệu thô Footer Page of 161 Header Page of 161 1.2.2 Giải pháp trích từ từ điển điện tử Hình 1.5: Các bước thực giải pháp trích từ từ điển điện tử 1.2.3 Giải pháp hợp kho ngữ liệu Hình 1.6: Các bước thực giải pháp hợp kho ngữ liệu Footer Page of 161 Header Page of 161 1.3 CÁC CÔNG TRÌNH NGHIÊN CỨU TƯƠNG TỰ 1.3.1 Các công trình nghiên cứu giới 1.3.2 Các công trình nghiên cứu nước CHƯƠNG II: ĐỀ XUẤT GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN DỮ LIỆU 2.1 ĐẶT VẤN ĐỀ 2.2 MÔ HÌNH TỔNG QUÁT CỦA GIẢI PHÁP Hình 2.1: Mô hình tổng quát giải pháp Footer Page of 161 Header Page 10 of 161 2.3 THU THẬP DỮ LIỆU 2.4 TIỀN XỬ DỮ LIỆU Hình 2.2: Sơ đồ đồng liệu đầu vào 2.5 GIẢI PHÁP THU THẬP CÁC NGUỒN DỮ LIỆU THÔ SONG SONG 2.5.1 Các bước thực Hình 2.3: Các bước thực giải pháp thu thập từ nguồn liệu thô song ngữ Footer Page 10 of 161 Header Page 12 of 161 10 Bảng 2.5: Các luật ràng buộc Penn Treebank cho câu “The race was finished” Từ Tập nhãn Các luật ràng buộc liên quan The|race DT | NN,VB,VBP DT|NN race|was NN,VB,VBP | VBD NN|VBD, VBP|VBD was|finished VBD | VBD,VBN VBD|VBN Kết việc gán nhãn vừa là: The/DT race/NN was/VBD finished/VBN 2.5.4 Phân tách từ có nghĩa câu tiếng Việt Giả sử câu ban đầu dãy gồm n chữ c1,c2,…,cn Bước 1: Duyệt từ tạo thành từ dãy chữ từ c1 đến ck với k chạy từ n Sau kiểm tra từ tạo có tồn tại, có nghĩa kho ngữ liệu tiếng Việt không  Nếu tồn từ tạo, lưu lại giá trị k cao  Nếu không tồn từ nào, lưu giá trị k = Bước 2: Căn vào giá trị k, ta phân tách từ c1…ck có nghĩa ngôn ngữ tiếng Việt Tách từ với phần lại câu quai lại thực Bước với phần lại câu gồm n-k chữ c1,…,cn-k Quá trình phân tách từ kết thúc phần lại câu tiếng Việt không chữ Bảng 2.6: Ví dụ minh hoạ phân tách từ có nghĩa câu tiếng Việt Câu cho Giá trị k Những sách ông nội em Những | sách ông nội em Những | cuốn_sách ông nội em Những | cuốn_sách | ông nội em Những | cuốn_sách | | ông nội em Những | cuốn_sách | | | Lần Footer Page 12 of 161 Kết Header Page 13 of 161 11 ông nội em Những | cuốn_sách | | | | ông_nội em Những | cuốn_sách | | | | ông_nội | em Kết thúc Với cách tiếp cân trên, vấn đề phân tách từ vựng câu tiếng Việt giải 2.5.5 Xây dựng ánh xạ gióng hàng song ngữ Anh-Việt 2.5.5.1 Sự khác biệt ranh giới từ 2.5.5.2 Hình thức từ tiếng Anh tiếng Việt Bảng 2.7: Luật hậu tố biến cách Tiếng Anh Tiếng Việt Ngữ pháp Phụ tố Danh từ số nhiều Động từ số N-s V-s Ví dụ books, Từ hư Ví dụ teachers những, những/các sách những/các giáo viên He sleeps, Ø It runs anh ngủ chạy Sở hữu cách X’s Y teacher’s books sách giáo viên Hiện phân từ V-ing sleeping đang ngủ Quá khứ, khứ phân từ V-ed worked đã, làm việc So sánh Adj-er shorter ngắn Adv-er slower Adj-est shortest So sánh Adv-est slowest Footer Page 13 of 161 chậm ngắn chậm Header Page 14 of 161 12 Bảng 2.8: Luật hậu tố dẫn xuất tiếng Anh Hậu tố Nghĩa tiếng việt Loại từdụ -able Adj …… readable -al Adj (thuộc về) …… national -ate V làm cho …… fascinate -ed Adj,V2,V3 (đã / bị) …… closed door -en Adj làm …… golden -er N người / máy teacher, printer -ing V-Ger (đang) …… running car -ise/-ize V …… hóa normalise -ity N …… activity 10 -less Adj …… careless 11 -like Adj giống …… humanlike 12 -ly Adv (một cách) …… strongly 13 -ness N …… brightness 14 -tion N …… solution Bảng 2.9: Luật tiền tố dẫn xuất tiếng Anh Tiền tố Loại từ Nghĩa tiếng Việt Ví dụ anti N chống…… / kháng…… antivirus co N đồng…… / liên…… coworker dis V khử…… discharge in, il, im, ir Adj không…… / bất…… / vô …… illegal, impartient Footer Page 14 of 161 Header Page 15 of 161 13 re V ……lại recalculate un Adj,V không…… unhappy 2.5.5.3 Sự khác biệt trật tự từ tiếng Anh tiếng Việt a) Cụm danh từ Hình 2.4: Chuyển đổi trật tự từ cụm danh từ (a) Trước đổi (b) Sau đổi Hình 2.5: Chuyển đổi trật tự từ danh từ Hình 2.6: Chuyển đổi trật tự từ tính từ Footer Page 15 of 161 Header Page 16 of 161 14 Hình 2.7: Chuyển đổi trật tự từ danh từ đại từ sở hữu b) Cụm tính từ Hình 2.8: Ví dụ chuyển đổi trật tự từ cụm tính từ c) Cụm động từ Hình 2.9: Một số ví dụ luật cụm động từ Footer Page 16 of 161 Header Page 17 of 161 15 2.5.5.4 Các luật xây dựng ánh xạ gióng hàng - Luật hậu tố biến cách Luật tiền tố hậu tố dẫn xuất Luật chuyển đổi trật tự từ cụm từ Hình 2.10: Ví dụ ánh xạ gióng hàng song ngữ Anh-Việt 2.6 GIẢI PHÁP HỢP NHẤT CÁC KHO NGỮ LIỆU SONG NGỮ Hình 2.11: Hợp kho ngữ liệu song ngữ Footer Page 17 of 161 Header Page 18 of 161 16 2.6.1 Tồn cặp ngữ liệu hai kho ngữ liệu Hình 2.12: Các cặp ngữ liệu tồn hai kho ngữ liệu 2.6.1.1 Giống hoàn toàn Trong trình hợp mà hai kho ngữ liệu có cặp từngữ nghĩa chúng giống hoàn toàn trường hợp việc hợp lấy ngữ liệu từ kho ngữ liệu để bổ sung vào nguồn tài nguyên liệu 2.6.1.2 Khác ngữ nghĩa Hình 2.13: Cặp ngữ liệu khác ngữ nghĩa Giải pháp để hợp trường hợp sau: - Giữ nguyên lại ngữ nghĩa mà hai kho ngữ liệu mô tả Footer Page 18 of 161 Header Page 19 of 161 - 17 Đối với ngữ nghĩa tồn hai kho ngữ liệu, lấy tất ngữ nghĩa để làm ngữ nghĩa mô tả cho ngữ liệu nguồn tài nguôn liệu chung 2.6.2 Cặp ngữ liệu tồn hai kho ngữ liệu Hình 2.14: Cặp ngữ liệu tồn hai kho ngữ liệu Khi thu thập liệu từ nhiều nguồn khác nhau, phân tích ban đầu nguồn liệu có số lượng vốn ngữ liệu định Vì vậy, kho ngữ liệu chắn tồn cặp ngữ liệu mà kho ngữ liệu có mà kho ngữ liệu ngược lại Nhiệm vụ việc hợp trường hợp phải lấy tất ngữ liệu tồn hai kho ngữ liệu để bổ sung vào nguồn tài nguyên liệu chung Qua làm cho số lượng vốn ngữ liệu nguồn tài nguyên liệu chung trở nên nhiều chất lượng Footer Page 19 of 161 Header Page 20 of 161 18 2.6.3 Thuật toán hợp kho ngữ liệu song ngữ Hình 2.15: Lưu đồ thuật toán hợp kho ngữ liệu song ngữ Footer Page 20 of 161 Header Page 21 of 161 19 2.7 KẾT LUẬN Ở trình phân tích giải pháp đưa ra, hoàn toàn mở rộng để xây dựng hệ thống tạo nguồn tài nguyên liệu lớn để phù hợp với ứng dụng thực tiễn Qua trình phân tích, hầu hết liệu thô thực tế kho ngữ liệu phân tích tổ chức lại nhằm tạo nguồn tài nguyên liệu lớn Tuy nhiên, việc nhận định nguồn liệu thô khác làm Qua ta thấy việc xây dựng nguồn tài nguyên liệu lớn trình bán tự động người trung tâm trình Trong chương phân tích qui trình việc xây dựng nguồn tài nguyên liệu Bên cạnh luận văn sâu vào việc phân tích đưa giải pháp cho trường hợp cụ thể trình xây dựng Qua hiểu rõ vấn đề gặp phải vào thực thực tế Chính sở phân tích làm tiền đề để xây dựng hệ thống tạo nguồn tài nguyên liệu lớn hoàn chỉnh CHƯƠNG III: CÀI ĐẶT VÀ THỬ NGHIỆM 3.1 TỔNG QUAN VỀ HỆ THỐNG Hình 3.1: Tổng quan hệ thống thử nghiệm Footer Page 21 of 161 Header Page 22 of 161 20 3.2 MỘT SỐ CÔNG CỤ CẦN THIẾT 3.2.1 Tổng quan SQL Server 3.2.1.1 Một số đặt tính SQL Server 3.2.1.2 Một số khái niệm SQL Server 3.2.2 Tổng quan Microsoft Visual Studio 3.2.2.1 Các ngôn ngữ lập trình Visual Studio 3.2.2.2 Các tính Visual Studio 3.3 PHÂN TÍCH THIẾT KẾ 3.3.1 Biểu đồ Usecase Hình 3.2: Biểu đồ Usecase 3.3.2 Đặc tả Usecase 3.4 XÂY DỰNG HỆ THỐNG 3.4.1 Môi trường cài đặt 3.4.2 Thiết kế sở liệu Footer Page 22 of 161 Header Page 23 of 161 21 Hình 3.3: Mối quan hệ bảng 3.5 RÚT TRÍCH XỬ NỘI DUNG TỪ CÁC NGUỒN DỮ LIỆU THÔ 3.5.1 Rút trích từ website sử dụng HTML Agility Pack 3.5.2 Rút trích từ văn sử dụng Word Application 3.5.3 Tách đoạn, tách câu 3.6 THỰC NGHIỆM 3.6.1 Chuẩn bị liệu Thử nghiệm lần đầu thực với tập liệu thực nghiệm gồm 150 cặp câu song song Nguồn liệu thử nghiệm rút trích từ khoảng 10 trang tin tức trung tâm anh ngữ CEP[14] số văn song ngữ thu thập 3.6.2 Một số hình ảnh thực nghiệm 3.6.3 Kết thực nghiệm Với liệu thử nghiệm trên, áp dụng phương pháp ánh xạ gióng hàng song ngữ Anh-Việt trình bày chương thu kết sau: Bảng 3.6: Kết thực nghiệm gióng hàng mức câu, mức từ Tổng số cặp Số cặp gióng hàng Tỉ lệ Mức câu 150 143 95,3% Mức từ 2000 1824 91.2% Độ xác Footer Page 23 of 161 86,9% Header Page 24 of 161 22 Độ xác đánh giá bằng: [tỉ lệ mức câu] * [tỉ lệ mức từ] Trong đó:  [tỉ lệ mức câu] tính [số cặp câu gióng hàng đúng] / [tổng số cặp câu]  [tỉ lệ mức từ] tính băng [số cặp từ gióng hàng đúng] / [tổng số cặp từ] Ngoài ra, kiểm tra thời gian chạy tập liệu thử nghiệm hệ thống với 150 câu song ngữ Tập liệu thử nghiệm chia làm phần 30 câu, 50 câu 70 câu Bảng 3.7: Kết thực nghiệm thời gian chạy(đơn vị giây/câu) Phần Số câu Thời gian câu 30 28.48 50 29.94 70 31.08 Thời gian trung bình 29.83 3.6.4 Nhận xét Theo học máy thống kê số lượng liệu thực nghiệm nhiều độ xác giải pháp xác Từ bảng 3.6 thấy rằng, độ xác 86.9% cho thấy rằng, độ xác không phụ thuộc vào giải pháp mà phụ thuộc vào nguồn liệu thô thu thập Cụ thể, tỉ lệ gióng hàng mức câu không gióng hoàn toàn cặp câu song ngữ dịch 1-1 Hay tỉ lệ gióng hàng mức từ vậy, cặp câu song ngữ dịch bị thoát ý, dịch tóm lượt dịch diễn dãi Kết thực nghiệm đánh giá theo hướng chủ quan cá nhân Nghĩa là, sau thực gióng hàng cho trang tin tức hay văn trực tiếp xem kết hiển thị xem cặp câu, cặp từ sai Sau thống kê lại đưa kết Mặt khác, kết thực nghiệm sử dụng giải pháp thu thập từ nguồn liệu thô song ngữ Do tính chất chia sẻ kho ngữ liệu gần chưa có nên giải phải hợp kho ngữ liệu song ngữ dừng lại đề xuất Footer Page 24 of 161 Header Page 25 of 161 23 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong luận văn này, trình bày thực trạng nguồn tài nguyên liệu nay, qua thấy vấn đề cần thiết mà nguồn tài nguyên liệu mạng lại cho người sử dụng Từ đó, đề xuất số giải pháp nhằm để nâng cao chất lượng nguồn tài nguyên liệu để tiết kiếm thời gian công sức trình xây dựng nguồn tài nguyên liệu Qua đề xuất, phân tích trình bày giải pháp tạo nguồn tài nguyên liệu lớn từ nguồn liệu thô khác Thông qua giải pháp này, thấy việc xây dựng hệ thống tạo nguồn tài nguyên liệu không nâng cao chất lượng nguồn tài nguyên liệu cặp ngôn ngữ đó, áp dụng để tạo thêm nguồn tài nguyên liệu cho cặp ngôn ngữ hoàn toàn mới, hay nói áp dụng để tích hợp thêm nhiều ngôn ngữ khác vào nguồn tài nguyên liệu lớn Để kiểm chứng cho giải pháp đưa ra, xây dựng hệ thống để kiếm chứng cho tính khả thi Kết rằng, hoàn toàn tạo hệ thống tạo nguồn tài nguyên liệu lớn để phục vụ cho xử ngôn ngữ tự nhiên học tập nghiên cứu Việc thực nghiệm cho kết mong đợi nhiên thực nghiệm dừng việc kiểm nghiệm số giải pháp để nâng cao chất lượng cho nguồn tài nguyên liệu mà chưa trọng đến việc phục vụ cho người sử dụng Bên cạnh đó, việc kiểm nghiệm dừng việc thu thập từ nguồn liệu thô website văn Microsoft Word Hướng phát triển đề tài nghiên cứu thêm nhiều nguồn liệu thô nhiều định dạng khác, hoàn thiện phần website để đáp ứng cho nhu cầu người sử dụng Ngoài nên tạo thêm dịch vụ để chia nguồn liệu xây dựng cho tổ chức, cá nhân cần sử dung để phục vụ cho công việc học tập nghiên cứu Footer Page 25 of 161 Header Page 26 of 161 Footer Page 26 of 161 ... để tạo thành nguồn tài nguyên liệu ngôn ngữ tự nhiên nhằm phục vụ cho việc đào tạo, dạy học, nghiên cứu xỷ lý ngôn ngữ Xử lý ngôn ngữ tự nhiên kĩ thuật quan trọng nhằm giúp máy tính hiểu ngôn ngữ. .. kho ngữ liệu hay từ liệu thô chưa khai thác website song ngữ Để góp phần giải vấn đề trên, xin chọn đề tài: Nghiên cứu giải pháp tạo nguồn tài nguyên liệu lớn phục vụ xử lý ngôn ngữ tự nhiên”... Tuy nhiên, xử lý ngôn ngữ tự nhiên vấp phải khó khăn, mà khó khăn lớn phải nói đến nguồn tài nguyên liệu ngôn ngữ, đặc biệt nguồn tài nguyên song ngữ Các nguồn tài nguyên thường không đủ lớn

Ngày đăng: 28/03/2017, 07:22

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan