Sử dụng mô hình ngôn ngữ bloom filter trong cải tiến dịch máy thống kê (Luận văn thạc sĩ)

79 133 0
Sử dụng mô hình ngôn ngữ bloom filter trong cải tiến dịch máy thống kê (Luận văn thạc sĩ)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Sử dụng mô hình ngôn ngữ bloom filter trong cải tiến dịch máy thống kê (Luận văn thạc sĩ) 14Sử dụng mô hình ngôn ngữ bloom filter trong cải tiến dịch máy thống kê (Luận văn thạc sĩ) 14Sử dụng mô hình ngôn ngữ bloom filter trong cải tiến dịch máy thống kê (Luận văn thạc sĩ) 14Sử dụng mô hình ngôn ngữ bloom filter trong cải tiến dịch máy thống kê (Luận văn thạc sĩ) 14Sử dụng mô hình ngôn ngữ bloom filter trong cải tiến dịch máy thống kê (Luận văn thạc sĩ) 14Sử dụng mô hình ngôn ngữ bloom filter trong cải tiến dịch máy thống kê (Luận văn thạc sĩ) 14Sử dụng mô hình ngôn ngữ bloom filter trong cải tiến dịch máy thống kê (Luận văn thạc sĩ) 14Sử dụng mô hình ngôn ngữ bloom filter trong cải tiến dịch máy thống kê (Luận văn thạc sĩ) 14Sử dụng mô hình ngôn ngữ bloom filter trong cải tiến dịch máy thống kê (Luận văn thạc sĩ) 14

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT & TT SỬ DỤNG HÌNH NGƠN NGỮ BLOOM FILTER TRONG CẢI TIẾN DỊCH MÁY THỐNG TRẦN TIẾN THÀNH THÁI NGUYÊN 2015 LỜI CAM ĐOAN Em - Trần Tiến Thành, học viên lớp Cao học K12E Trường Đại học Công nghệ thông tin Truyền thông Thái Nguyên - cam kết Luận văn thạc sỹ khoa học máy tính: “Sử dụng hình ngơn ngữ Bloom Filter cải tiến dịch máy thống kê” cơng trình nghiên cứu thân em hướng dẫn thầy giáo TS Nguyễn Văn Vinh, Bộ mơn Khoa học máy tính, Khoa Công nghệ thông tin – Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Các kết luận văn tốt nghiệp trung thực, không chép tồn văn cơng trình khác Thái Nguyên, ngày 05 tháng 10 năm 2015 TÁC GIẢ Trần Tiến Thành LỜI CẢM ƠN Em xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo, TS Nguyễn Văn Vinh, Bộ môn Khoa học máy tinh, Khoa Công nghệ thông tin - Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội khuyến khích tận tình hướng dẫn em suốt q trình thực luận văn Em xin cảm ơn anh Trần Hồng Việt, nghiên cứu sinh Trường Đại học Công nghệ, giảng viên Trường Đại học Kinh tế kĩ thuật cơng nghiệp hết lòng giúp đỡ em trình thực đề tài Nhờ quan tâm bảo ý kiến đóng góp quý báu thầy anh em hồn thành luận văn Em xin chân thành cảm ơn tập thể thầy, cô giáo Trường Đại học Công nghệ thông tin Truyền thông Thái Nguyên tận tình giảng dạy truyền đạt cho em kiến thức, kinh nghiệm quý báu suốt năm học vừa qua Em xin cảm ơn Sở Giáo dục Đào tạo Phú Thọ, Trường THPT Minh Đài tạo điều kiện kinh phí thời gian để em học tập hồn thành luận văn Cuối em xin chân thành cảm ơn gia đình, người thân hết lòng giúp đỡ, hỗ trợ vật chất lẫn tinh thần giúp em yên tâm học tập nghiên cứu suốt trình học tập thực luận văn Trong khoảng thời gian có hạn, kiến thức nhiều hạn chế luận văn khơng tránh khỏi sai sót nội dung hình thức Kính mong nhận góp ý quý thầy cô, bạn bè đồng nghiệp Thái Nguyên, ngày 05 tháng 10 năm 2015 TÁC GIẢ Trần Tiến Thành DANH SÁCH CÁC TỪ VIẾT TẮT Đầy đủ Viết tắt BF Bloom Filter BF-LM hình ngơn ngữ dựa Bloom Filter LF-BF-LM hình ngơn ngữ Log-Frequency Bloom Filter LM hình ngơn ngữ MKN Phương pháp làm mịn Kneser-Ney cải tiến MLE Ước lượng cực đại hóa khả MSE Lỗi trung bình bình phương MT Dịch máy NLP Xử lý ngôn ngữ tự nhiên PDS Cấu trúc liệu xác suất RDS Cấu trúc liệu ngẫu nhiên SMT Dịch máy phương pháp thống DANH MỤC CÁC HÌNH VẼ Hình Tên hình Trang Hình Kiến trúc hệ thống SMT 14 Hình Minh họa dịch máy thống dựa vào cụm Ví dụ hàm băm Các xâu ký tự chuyển thành chữ Hình ký đại diện 15 35 Cặp khóa ki giá trị tập S ánh xạ thơng qua Hình hàm băm vào bảng băm Xuất xung đột phần tử k1 k3 36 Hình Huấn luyện Bloom Filter 37 Hình Truy vấn Bloom Filter 38 Hình Lỗi phía Bloom Filter 39 MỤC LỤC MỞ ĐẦU Đặt vấn đề Đối tượng phạm vi nghiên cứu 10 Nhiệm vụ nghiên cứu 10 Những nội dung nghiên cứu 10 NỘI DUNG 11 CHƯƠNG I 11 TỔNG QUAN VỀ DỊCH MÁY THỐNG DỰA VÀO CỤM TỪ 11 VÀ HÌNH NGƠN NGỮ 11 1.1 Dịch máy thống dựa cụm từ 11 1.1.1 Dịch máy dịch máy thống 11 1.1.2 Dịch máy thống dựa cụm 15 1.2.1 N-gram 17 1.2.2 hình ngơn ngữ 19 1.2.3 Huấn luyện hình ngơn ngữ 21 1.2.3.1 Ước lượng cực đại hóa khả (Maximium Likelihood Estimation MLE) 21 1.2.3.2 Các phương pháp làm mịn 22 1.2.3.2.1 Kneser-Ney 24 1.2.3.2.2 Kneser-Ney cải tiến (Modified Kneser-Ney - MKN) 25 1.2.3.2.3 Stupid Backoff 26 1.3 Đánh giá hình ngơn ngữ 27 1.3.1 Entropy – Độ đo thông tin 27 1.3.2 Độ hỗn loạn thông tin (Perplexity) 29 1.3.3 Tỉ lệ lỗi (Error rate) 30 1.4 Đánh giá chất lượng dịch tự động dựa điểm BLEU 31 CHƯƠNG 32 HÌNH NGƠN NGỮ BLOOM FILTER 32 2.1 Các cấu trúc liệu xác suất (PDS) 33 2.2 Hàm băm (Hash function) 35 2.3 Bloom Filter 37 2.4 hình ngơn ngữ Bloom Filter 43 2.4.1 Bloom Filter tần số log (Log-frequency Bloom Filter) 43 2.4.2 Bộ lọc dựa vào chuỗi (sub-sequence filtering) 45 CHƯƠNG 47 ỨNG DỤNG BLOOM FILTER CHO HỆ DỊCH MÁY THỐNG DỰA VÀO CỤM TỪ 47 3.1 Hệ dịch máy thống mã nguồn mở Moses 47 3.2 Tích hợp hình ngơn ngữ Bloom Filter vào hệ thống Moses 48 3.2.1 Xây dựng LM với RandLM SRILM 48 3.2.1.1 Ngữ liệu 49 3.2.1.2 Thuật toán làm mịn 53 3.2.1.3 Xây dựng LM với SRILM RandLM 53 3.3 Thử nghiệm đánh giá 65 KẾT LUẬN 78 TÀI LIỆU THAM KHẢO 79 MỞ ĐẦU Đặt vấn đề hình ngơn ngữ (Language Model - LM) phần thiếu lĩnh vực xử lý ngơn ngữ tự nhiên hình ngơn ngữ sử dụng lĩnh vực xử lý ngôn ngữ tự nhiên như: nhận dạng tiếng nói, kiểm lỗi tả, phân đoạn từ hay dịch máy thống kê… Để ứng dụng tốt hình ngơn ngữ phải lớn, mà việc tìm kiếm khơng gian lưu trữ vơ quan trọng hình ngơn ngữ Chính thế, luận văn tơi lựa chọn thực đề tài: “Sử dụng hình ngơn ngữ Bloom Filter cải tiến dịch máy thống kê” Trong luận văn này, chúng tơi nghiên cứu tìm hiểu hình ngơn ngữ xây dựng dựa cấu trúc liệu Bloom Filter Khơng lưu trữ tồn tập n-gram giống hình truyền thống, loại hình ngơn ngữ sử dụng quy trình mã hóa đặc biệt, cho phép chia sẻ cách hiệu bit lưu trữ thông tin thống n-gram, nhờ tiết kiệm đáng kể nhớ Sau tìm hiểu sơ lược hình ngơn ngữ, nghiên cứu kiểu cấu trúc liệu dựa Bloom Filter Bloom Map Qua thử nghiệm, ưu việt hình ngơn ngữ dựa Bloom Filter phương diện dung lượng tính hiệu ứng dụng thực tế, cụ thể hệ thống dịch máy phương pháp thống với Moses [2] 10 Đối tượng phạm vi nghiên cứu - Luận văn nghiên cứu n-gram cách ước lượng, tính tốn biễu diễn hình ngơn ngữ - Thực thử nghiệm với liệu tiếng Việt Nhiệm vụ nghiên cứu - Thơng qua luận văn, trình bày hiểu biết cần biết hình ngơn ngữ n-gram, thuật tốn làm mịn sử dụng hình ngơn ngữ thước đo để đánh giá hình ngơn ngữ - Luận văn tập trung nghiên cứu trúc liệu dựa Bloom Filter sử dụng cho hình ngơn ngữ cụ thể Log-Frequency Bloom Filter - Thực thử nghiệm xây dựng hình ngơn ngữ ngữ liệu tiếng Việt ngữ liệu tiếng Anh - Ngoài ra, luận văn giới thiệu sơ lược dịch máy thống kê, thử nghiệm dịch máy thống với hệ thống dịch máy mã nguồn mở Moses sử dụng hình ngơn ngữ xây dựng chương Những nội dung nghiên cứu Luận văn trình bày thành phần: MỞ ĐẦU NỘI DUNG Chương - Tổng quan dịch máy thống dựa vào cụm từ hình ngơn ngữ Chương - hình ngơn ngữ Bloom Filter Chương - Ứng dụng Bloom Filter cho hệ dịch máy thống dựa vào cụm từ KẾT LUẬN 11 NỘI DUNG CHƯƠNG I TỔNG QUAN VỀ DỊCH MÁY THỐNG DỰA VÀO CỤM TỪ VÀ HÌNH NGƠN NGỮ 1.1 Dịch máy thống dựa cụm từ 1.1.1 Dịch máy dịch máy thống Dịch máy (Machine Translation - MT) xuất từ thập kỷ 50 kỷ trước đặc biệt phát triển mạnh mẽ từ thập kỷ 80 ngày Trên giới, có nhiều hệ dịch máy thương mại tiếng Systrans, Kant, … hay hệ dịch máy mở tiêu biểu hệ dịch Google, hỗ trợ hàng chục cặp ngôn ngữ phổ biến Anh-Pháp, Anh-Trung, Anh-Nhật, Hoa-Nhật, … Các cách tiếp cận MT chia làm bốn lớp dịch trực tiếp (direct), dịch dựa luật chuyển đổi (transfer), dịch liên ngữ (interlingua) dịch dựa vào thống (statistical MT) Trước đây, phương pháp dịch dựa luật chuyển đổi dịch liên ngữ chủ yếu dựa vào cú pháp có thời gian phát triển dài sử dụng phổ biến nhiều hệ dịch thương mại Những hệ dịch máy loại này đạt kết tốt với cặp ngôn ngữ tương đồng cú pháp AnhPháp, Anh-Tây Ban Nha, … gặp nhiều hạn chế cặp ngơn ngữ có cú pháp khác Anh-Trung, Anh-Nhật, … Dịch Anh-Việt, Việt-Anh nước ta vấp phải khó khăn tương tự khác biệt mặt cấu trúc ngữ pháp tính nhập nhằng ngữ nghĩa Hệ thống dịch Anh-Việt dựa luật chuyển đổi thương mại hóa Việt Nam EVTran Nhiều nghiên cứu với yêu cầu tăng chất lượng dịch thực thích nghi với đặc điểm cặp ngôn ngữ khác ... QUAN VỀ DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ 11 VÀ MƠ HÌNH NGÔN NGỮ 11 1.1 Dịch máy thống kê dựa cụm từ 11 1.1.1 Dịch máy dịch máy thống kê 11 1.1.2 Dịch máy thống kê dựa... Log-Frequency Bloom Filter - Thực thử nghiệm xây dựng mơ hình ngơn ngữ ngữ liệu tiếng Việt ngữ liệu tiếng Anh - Ngoài ra, luận văn giới thiệu sơ lược dịch máy thống kê, thử nghiệm dịch máy thống kê với... từ mơ hình ngơn ngữ Chương - Mơ hình ngơn ngữ Bloom Filter Chương - Ứng dụng Bloom Filter cho hệ dịch máy thống kê dựa vào cụm từ KẾT LUẬN 11 NỘI DUNG CHƯƠNG I TỔNG QUAN VỀ DỊCH MÁY THỐNG KÊ DỰA

Ngày đăng: 01/02/2018, 18:42

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan