XÂY DỰNG mô HÌNH đối THOẠI CHO TIẾNG VIỆT TRÊN MIỀN mở dựa vào PHƯƠNG PHÁP học CHUỖI LIÊN TIẾP

65 698 0
XÂY DỰNG mô HÌNH đối THOẠI CHO TIẾNG VIỆT TRÊN MIỀN mở dựa vào PHƯƠNG PHÁP học CHUỖI LIÊN TIẾP

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  NHỮ BẢO VŨ XÂY DỰNG HÌNH ĐỐI THOẠI CHO TIẾNG VIỆT TRÊN MIỀN MỞ DỰA VÀO PHƯƠNG PHÁP HỌC CHUỖI LIÊN TIẾP LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  NHỮ BẢO VŨ XÂY DỰNG HÌNH ĐỐI THOẠI CHO TIẾNG VIỆT TRÊN MIỀN MỞ DỰA VÀO PHƯƠNG PHÁP HỌC CHUỖI LIÊN TIẾP Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Văn Nam HÀ NỘI – 2016 LỜI CAM ĐOAN Tôi Nhữ Bảo Vũ, học viên khóa K21, ngành Công nghệ thông tin, chuyên ngành Hệ Thống Thông Tin Tôi xin cam đoan luận văn “Xây dựng hình đối thoại cho tiếng Việt miền mở dựa vào phương pháp học chuỗi liên tiếp” nghiên cứu, tìm hiểu phát triển hướng dẫn TS Nguyễn Văn Nam Luận văn chép từ tài liệu, công trình nghiên cứu người khác mà không ghi rõ tài liệu tham khảo Tôi xin chịu trách nhiệm lời cam đoan Hà Nội, ngày tháng năm 2016 LỜI CẢM ƠN Đầu tiên xin gửi lời cảm ơn tới thầy cô Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội tận tình giảng dạy truyền đạt kiến thức suốt khóa học cao học vừa qua Tôi xin gửi lời cảm ơn đến thầy cô Bộ môn Hệ thống thông tin Khoa công nghệ thông tin mang lại cho kiến thức vô quý giá bổ ích trình học tập trường Đặc biệt xin chân thành cảm ơn thầy giáo, TS Nguyễn Văn Nam, người định hướng, giúp đỡ, trực tiếp hướng dẫn tận tình bảo suốt trình nghiên cứu, xây dựng hoàn thiện luận văn Tôi xin cảm ơn tới gia đình, người thân, đồng nghiệp bạn bè thường xuyên quan tâm, động viên, chia sẻ kinh nghiệm, cung cấp tài liệu hữu ích thời gian học tập, nghiên cứu suốt trình thực luận văn tốt nghiệp Hà Nội, ngày tháng năm 2016 MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC .4 DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT .6 DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ .7 TÓM TẮT GIỚI THIỆU CHUNG CHƯƠNG 1: TỔNG QUAN VỀ HỆ THỐNG TRẢ LỜI TỰ ĐỘNG 12 1.1 Hệ thống đối thoại người máy 12 1.2 Tình hình nghiên cứu nước 13 1.3 Phân loại hình trả lời tự động 15 1.3.1 Phân loại theo miền ứng dụng 16 1.3.2 Phân loại theo khả trả lời mẫu hỏi 16 1.3.3 Phân loại theo mức độ dài, ngắn đoạn đối thoại .17 1.3.4 Phân loại theo hướng tiếp cận 18 CHƯƠNG 2: CƠ SỞ MẠNG NƠ RON NHÂN TẠO 20 2.1 Kiến trúc mạng nơ ron nhân tạo .20 2.2 Hoạt động mạng nơ-ron nhân tạo 22 2.3 Mạng nơ-ron tái phát ứng dụng 25 2.3.1 Mạng nơ-ron tái phát 25 2.3.2 Các ứng dụng RNN 26 2.3.3 Huấn luyện mạng 27 2.3.4 Các phiên mở rộng RNN 28 2.4 Mạng Long Short Term Memory 29 2.4.1 Vấn đề phụ thuộc dài 29 2.4.2 Kiến trúc mạng LSTM 31 2.4.3 Phân tích hình LSTM 32 CHƯƠNG 3: HÌNH ĐỐI THOẠI VỚI MẠNG NƠ-RON .36 3.1 hình ngôn ngữ phát sinh văn .36 3.2 hình chuỗi liên tiếp seq2seq 38 3.3 hình đối thoại seq2seq .41 3.4 Những thách thức chung xây dựng hình đối thoại 41 3.4.1 Phụ thuộc bối cảnh 42 3.4.2 Kết hợp tính cách 42 CHƯƠNG 4: XÂY DỰNG HÌNH ĐỐI THOẠI CHO TIẾNG VIỆT 43 4.1 Kiến trúc ứng dụng .43 4.2 Cài đặt hình 45 4.3 Các vấn đề giải pháp khắc phục 46 CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ HÌNH 50 4.1 Dữ liệu công cụ thực nghiệm 50 4.2 Tách từ tập liệu tiếng Việt 52 4.3 Khung làm việc Tensorflow 52 4.4 Kết thực nghiệm 53 KẾT LUẬN 59 TÀI LIỆU THAM KHẢO .60 DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Từ viết tắt AI ML ANN RNN CNN LSTM NLP Từ chuẩn Artificial Intelligence Machine Learning Artificial Nerual Network Recurrent Neural Network Convolutional Neural Networks Long short-term memory NLTK Natural Languague Processing Vietnamese Languague Toolkit Natural Language Toolkit Python Python VNTK SDK CPU GPU Support Development Kit Central Processing Unit Graphics Processing Unit API Application Programming Interface Question Answering Bilingual Evaluation Understudy QA BLEU Diễn giải Trí tuệ nhân tạo Máy học, máy móc có khả học tập Mạng nơ ron nhân tạo Mạng nơ ron tái phát Mạng nơ ron tích chập Mạng cải tiến để giải vấn đề phụ thuộc dài Xử lý ngôn ngữ tự nhiên Bộ công cụ xử lý ngôn ngữ tiếng Việt Bộ công cụ xử lý ngôn ngữ tự nhiên Python Ngôn ngữ lập trình python, tảng lập trình phía máy chủ Bộ công cụ hỗ trợ phát triển Bộ xử lý trung tâm Bộ vi xử lý chuyên dụng nhận nhiệm vụ tăng tốc, xử lý đồ họa cho vi xử lý trung tâm CPU Giao diện lập trình ứng dụng Các cặp câu hỏi đáp Thuật toán để đánh giá chất lượng văn sinh từ hình ngôn ngữ tự nhiên DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ Hình 1.1: hình chuỗi sinh sản 18 Hình 2.1: Kiến trúc mạng nơ-ron nhân tạo 21 Hình 2.2: Quá trình xử lý thông tin mạng nơ-ron nhân tạo 22 Hình 2.3: Ứng dụng RNN máy dịch 26 Hình 2.4: Ứng dụng RNN phát sinh tả cho ảnh 27 Hình 2.5: Mạng RNN hai chiều 28 Hình 2.6: Mạng RNN nhiều tầng 29 Hình 2.7: RNN phụ thuộc short-term 30 Hình 2.8: RNN phụ thuộc long-term 30 Hình 2.9: Các mô-đun lặp mạng RNN chứa layer 31 Hình 2.10: Các mô-đun lặp mạng LSTM chứa bốn layer 32 Hình 2.11: Các kí hiệu sử dụng mạng LSTM 32 Hình 2.12: Tế bào trạng thái LSTM giống băng truyền 33 Hình 2.13: Cổng trạng thái LSTM 33 Hình 2.14: LSTM focus f 34 Hình 2.15: LSTM focus i 34 Hình 2.16: LSTM focus c 35 Hình 2.17: LSTM focus o 35 Hình 3.1: hình phát sinh văn 37 Hình 3.2: Quá trình huấn luyện phát sinh văn 37 Hình 3.3: hình chuỗi liên tiếp (chuỗi sang chuỗi) seq2seq 40 Hình 3.4: hình đối thoại seq2seq 41 Hình 3.6: Vấn đề phụ thuộc bối cảnh tính cách 42 Hình 4.1: Kiến trúc hình đối thoại cho tiếng Việt 44 TÓM TẮT Con người máy móc có mối quan hệ chặt chẽ với Chúng ta tham gia vào thay đổi văn hóa lớn vài năm qua, người vốn sinh vật chịu trách nhiệm hành động, máy móc thiết bị an toàn số tình không mong muốn Tuy nhiên, vai trò đảo ngược, máy móc thường phụ trách công việc người đơn giản giám sát, theo dõi hình hóa đối thoại nhiệm vụ quan trọng toán hiểu ngôn ngữ tự nhiên, máy học thông minh Các phương pháp tiếp cận trước thường giới hạn lĩnh vực cụ thể, ví dụ đặt vé trực tuyến, tư vấn ghi danh trực tuyến, tìm kiếm thông tin y tế, … yêu cầu phải thiết kế luật học tay, nhiều công sức mà hiệu đạt không cao, khó mở rộng hình ứng dụngliên quan Trong đề tài này, nghiên cứu, xây dựng hình đối thoại cho tiếng Việt, dựa phương pháp học chuỗi liên tiếp, sequence-to-sequence, để sinh câu trả lời từ chuỗi đầu vào tương ứng Lợi phương pháp hình huấn luyện end-to-end tập liệu có sẵn, yêu cầu luật tay Kết đạt hình đối thoại sử dụng mạng học sâu để sinh câu trả lời tiếng Việt, tương ứng với câu hỏi chuỗi đầu vào hình ban đầu cho kết tính cực, giải vấn đề ngữ nghĩa, ngữ cảnh tính cách riêng hệ thống đối thoại GIỚI THIỆU CHUNG Máy học (ML) trí tuệ nhân tạo (AI) nhanh chóng đưa vào ứng dụng sản phẩm công nghiệp, thúc đẩy tính dân chủ trí thông minh, điều tri thức bậc thấp Bởi mặt, lượng lớn dịch vụ, công cụ sẵn sàng cho người dùng cuối, mặt khác, quyền lực thực tập trung vào tay ông lớn với liệu lớn sẵn có tài nguyên tính toán thực để khai thác AI/ML đến mức độ cao cấp Động lực nghiên cứu tính cấp thiết toán thực tế Trong bối cảnh mạng xã hội trở nên phổ biến nay, người kết nối với người thông qua mạng xã hội, thời gian nơi đâu Sẽ thật tốt có hệ thống tự động thông minh hỗ trợ người cách trò chuyện, có khả nhắc nhở, làm trợ lý công việc theo dõi tình trạng sức khỏe cá nhân lúc, nơi Khái niệm Trợ lý ảo, Chatbot, hay Hệ thống trả lời tự động chủ đề nóng từ đầu năm 2016, thức công ty lớn Microsoft (Cortana), Google (Google Assistant), Facebook (M), Apple (Siri), Samsung (Viv), WeChat, Slack giới thiệu trợ lý ảo mình, hệ thống trả lời tự động Chính thức đặt cược lớn vào chơi chatbot, với mong muốn tạo trợ lý ảo thực thông minh tồn hệ sinh thái sản phẩm Không ông lớn! Một sóng khởi nghiệp cố gắng tạo dịch vụ nhằm thay đổi cách khách hàng tương tác dịch vụ trợ lý ảo Nhằm trợ giúp người dùng, khách hàng có trải nghiệm tốt sản phẩm cách dịch vụ cung cấp Nổi bật phải kể đến ứng dụng tích hợp trợ lý ảo operator.com, x.ai, reply.ai, tảng dịch vụ Chatfuel Gần Microsoft tạo framework cho phép nhà phát triển tạo chatbot tảng Web, hay Facebook phát hành F8 SDK cho phép nhà phát triển tích hợp vào Messenger Ở nước, số công ty Quản lý Hồ sơ y tế điện tử ERM.,JSC Vietcare phát triển tạo hệ thống trả lời tự động kiến thức y khoa, hỏi đáp sức khỏe thông tin y tế, hay RiveHub, Subiz, … cố gắng tạo cho hệ thống hỗ trợ, chăm sóc khách hàng bán hàng tự động 50 CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ HÌNH Chương tiến hành thực nghiệm hình đối thoại cho tiếng Viết việc áp dụng hình đối thoại Seq2seq miền mở tả liệu thực nghiệm công cụ sử dụng hệ thống 4.1 Dữ liệu công cụ thực nghiệm Chúng thử nghiệm liệu miền mở sử dụng liệu phụ đề phim tiếng Việt lấy từ nguồn mở OpenSubtitles 2016 [1] Đây phiên công bố năm 2016, cải thiện hội thoại, dóng câu, kiểm tra song ngữ, siêu liệu khác, gồm:       60 ngôn ngữ, 1,689 bitexts Tổng số file: 2,815,754 Tổng số tokens: 17.18G Tổng số câu: 2.60G Trang chủ: http://www.opensubtitles.org/vi Download: http://opus.lingfil.uu.se/OpenSubtitles2016.php Sau tiền xử lý liệu, thu thập liệu bao gồm 2,078,696 câu văn tiếng Việt Các công đoạn làm xử lý liệu, thực qua bước sau:  Loại bỏ ký tự đặc biệt chữ chữ số (bắt đầu, kết thúc bên câu tiếng Việt), ex: - Xin chào, bạn!,  Xóa bỏ ký tự phân tách câu dấu chấm, dấu hỏi dấu chấm than, ex: @#$%^&*,  Xóa bỏ bình luận, thích ý nghĩa từ, thuật ngữ câu, ex: Chatbot (chương trình tự động trả lời),  Xóa bỏ ký tự lặp, ký tự phân tách ý nghĩa, ex: -,, ,  Xóa bỏ thẻ html, ex: Khi mặt trời ló dạng,  Biến đổi bảng mã html dạng câu có ý nghĩa, ex: Cho ch#250;ng t#244;i xem c#225;i c#242;n l#7841;i l#224; g#236; n#224;o 51  Biến đổi bảng mã Unicode tổ hợp dạng unicode dựng sẵn, ex:  Loại bỏ cặp câu ý nghĩa, ex: Phụ_đề dịch Unknow Subteam 2pi, Công cụ sử dụng: Trong luận văn để thử nghiệm hình kết hợp sử dụng thư viện mã nguồn mở công cụ tự xây dựng để xử lý liệu, huấn luyện hình dự báo  NLTK: Công cụ xử lý ngôn ngữ tự nhiên mã nguồn mở dành riêng cho NLP tích hợp vào Python Nó ngày hoàn thiện tích hợp công cụ hàng ngàn lập trình viên cộng tác viên khắp giới NLTK bao gồm thư viện hàm, công cụ phân tích, corpus, wordnet, … giúp đơn giản hoá, tiết kiệm thời gian công sức cho lập trình viên  VNTK: Vietnamese languague toolkit, xây dựng phát triển để xử lý vấn đề tiếng Việt, như: Tách câu, tách từ, làm văn bản,  Subsent: Công cụ hỗ trợ bóc tách liệu từ file phụ đề, xây dựng phát triển  Dongdu: Thư viện hỗ trợ tách từ tiếng Việt [11], tác giả Lưu Tuấn Anh  Tensorflow: Một khung làm việc mã nguồn mở, Google phát hành, sử dụng để xây dựng hình học máy, tạo môi trường nghiên cứu, thực thử nghiệm cách nhanh chóng dễ dàng, đặc biệt có khả chuyển đổi thiết kế prototype tới ứng dụng sản xuất  Python: Ngôn ngữ lập trình để xây dựng hình đối thoại tiếng Việt 52 4.2 Tách từ tập liệu tiếng Việt Tách từ trình xử lý nhằm mục đích xác định ranh giới từ câu văn, hiểu đơn giản tách từ trình xác định từ đơn, từ ghép… có câu Đối với xử lý ngôn ngữ, để xác định cấu trúc ngữ pháp câu, xác định từ loại từ câu, yêu cầu thiết đặt phải xác định đâu từ câu Vấn đề tưởng chừng đơn giản với người máy tính, toán khó giải Chính lý tách từ xem bước xử lý quan trọng hệ thống Xử Lý Ngôn Ngữ Tự Nhiên, đặc biệt ngôn ngữ thuộc vùng Đông Á theo loại hình ngôn ngữ đơn lập, ví dụ: tiếng Trung Quốc, tiếng Nhật, tiếng Thái, tiếng Việt Với ngôn ngữ thuộc loại hình này, ranh giới từ không đơn giản khoảng trắng ngôn ngữ thuộc loại hình hòa kết tiếng Anh…, mà có liên hệ chặt chẽ tiếng với nhau, từ cấu tạo nhiều tiếng Vì ngôn ngữ thuộc vùng Đông Á, vấn đề toán tách từ khử nhập nhằng ranh giới từ Bởi lý trên, trước đưa vào hình huấn luyện trả lời câu hỏi thực tách từ tiếng Việt sử dụng công cụ DongDu tác giả Lưu Tuấn Anh [11] với độ xác tới 98% tính theo từ Kết sau làm liệu, tiền xử lý, tách từ, lựa chọn tập liệu học thu liệu, sau:  120,885 words  362,655 tokens  1,824,063 QA 4.3 Khung làm việc Tensorflow TensorFlow ™ thư viện phần mềm nguồn mở cho tính toán số sử dụng biểu đồ luồng liệu TensorFlow ban đầu phát triển nhà nghiên cứu kỹ sư làm việc nhóm Brain Google tổ chức nghiên cứu máy tình báo Google nhằm mục đích tiến hành học máy sâu nghiên cứu mạng nơ-ron thần kinh, hệ thống đủ nói chung áp dụng loạt lĩnh vực khác tốt 53 TensorFlow ™ hệ thống học máy hoạt động quy lớn môi trường phức tạp TensorFlow [46, 47] sử dụng đồ thị luồng liệu Dataflow để đại diện cho tính toán, chia sẻ trạng thái, hoạt động biến đổi trạng thái Nó ánh xạ nút đồ thị dataflow nhiều máy cluster, bên máy nhiều thiết bị tính toán, bao gồm CPU, GPU đa lõi, chíp ASIC tùy biến gọi tenxơ Processing Units (TPUs) Kiến trúc linh hoạt cho phép cho nhà phát triển ứng dụng: trước "tham số máy chủ" thiết kế quản lý chia sẻ trạng thái (shared state) xây dựng sẵn hệ thống, TensorFlow cho phép nhà phát triển để thử nghiệm tối ưu hoá thuật toán huấn luyện TensorFlow hỗ trợ loạt ứng dụng, với hỗ trợ đặc biệt mạnh mẽ cho việc huấn luyện suy luận mạng học sâu Deep Learning [47] Google phát hành TensorFlow dự án mã nguồn mở, trở thành sử dụng rộng rãi cho nghiên cứu học máy Trong luận văn này, sử dụng TensorFlow để huấn luyện tạo hình đối thoại cho tiếng Việt, kết khả quan sử dụng TensorFlow đạt hình có chất lượng tốt 4.4 Kết thực nghiệm Do liệu thu thập lớn, chia làm tập nhỏ tập 500,000 câu đối thoại phụ đề phim tiếng Việt Và thử nghiệm tập liệu với tham số khác nhau, gồm:  Profile 1: o 26,746 words o 74,870 QA o Max length o Thời gian huấn luyện: 25 o RAM: 4GB o CPU: Core x4 @ 2.4GHz  Profile 2: o 37,693 words o 180,700 QA o Max length 54 o Thời gian huấn luyện: 125 o RAM: 4GB o CPU: Core x4 @ 2.4GHz  Profile 3: o 40,348 words o 320,419 QA o 10 Max length o Thời gian huấn luyện: 270 o RAM: 4GB o CPU: Core x4 @ 2.4GHz  Profile 4: o 43,033 words o 381,474 QA o 12 Max length o Thời gian huấn luyện: 1,000 o RAM: 4GB o CPU: Core x4 @ 2.4GHz Trong lần thử nghiệm huấn luyện hình mạng sử dụng hai lớp mạng LSTM (kích thước lớp ẩn 256) kích thước embeding 25 Kết sử dụng huấn luyện với profile 1, tức mẫu hỏi / câu trả lời có độ dài tối đa Và mạng cho kết tốt ! Human: Xin chào Machine: chào Human: Tạm_biệt Machine: tạm_biệt Human: Xin chào ! Machine: xin chào ! Human: Tạm_biệt anh Machine: tạm_biệt Human: Chào Machine: chào Human: Tạm_biệt cô Machine: tạm_biệt em Human: Chào bạn Machine: ward ! Human: Tên Vũ Machine: chào mừng Human: Anh ? Machine: Human: Gặp anh sau Machine: tạm_biệt Human: Ồ Machine: mà Human: Gặp anh sau ! Machine: chúc may_mắn ! Human: Thật không ? Machine: thật Human: Cá có_thể bơi không ? Machine: không 55 Human: Có tin không ? Machine: uh Human: Anh bao_nhiêu tuổi ? Machine: 20 Human: Ai ? Machine: anh st Human: Anh bao_nhiêu tuổi ? Machine: 19 Human: Anh đâu ? Machine: tư_gia Human: Cô bao_nhiêu tuổi ? Machine: 19 Một số trường hợp fail, kết chưa tốt profile Human: Hôm_nay tháng Machine: okay Human: Ai John ? Machine: tao làm_việc giải_thích Human: Anh Machine: em ổn Human: 2000 Machine: miriam ! Human: Anh khỏe ? Machine: chào anh gray Human: Tình_yêu ? Machine: qua nhân_sự thùng Human: Con chó đâu ? Machine: thanh_tra montgomery Human: Cô ghét ? Machine: Human: Tên anh ? Machine: jonesy_._jonesy Human: Chim có_thể bay không ? Machine: quan_tâm buồn_cười Human: Anh sống không ? Machine: kyle , tương_lai Human: Ai có_thể hát ? Machine: họ Các thử nghiệm khác với câu dài so với input huấn luyện Kết sử dụng huấn luyện với profile 2, tức mẫu hỏi / câu trả lời có độ dài tối đa với liệu 37,693 words 180,700 QA Kết có chút tiến khả quan so với profile Human: Xin chào Machine: chào Human: Tạm_biệt Machine: tạm_biệt Human: Xin chào ! Machine: xin chào ! Human: Tạm_biệt anh Machine: tạm_biệt Human: Chào Machine: chào Human: Tạm_biệt cô Machine: tạm_biệt Human: Chào bạn Machine: gracie đâu ? Human: Tên Vũ Machine: um Human: Anh ? Machine: đương_nhiên Human: Gặp anh sau Machine: 56 Human: Ồ Machine: cám_ơn Human: Gặp anh sau ! Machine: oh , hy_vọng Human: Thật không ? Machine: thật Human: Cá có_thể bơi không ? Machine: không diễn_tả Human: Có tin không ? Machine: tốt Human: Anh bao_nhiêu tuổi ? Machine: 20 Human: Ai ? Machine: doug Human: Anh bao_nhiêu tuổi ? Machine: 19 Human: Anh đâu ? Machine: nhà_ga okubo Human: Cô bao_nhiêu tuổi ? Machine: 19 Thử nghiệm với trường hợp fail profile Chúng ta thấy kết khả quan nhiều bám sát ý nghĩa câu hỏi Nhưng số kết chưa thỏa mãn Human: Hôm_nay tháng Machine: bà không chảy_máu loạn Human: Ai John ? Machine: ? Human: Anh Machine: biết Human: 2000 Machine: peter Human: Anh khỏe ? Machine: vẫn_khỏe Human: Tình_yêu ? Machine: năm Human: Con chó đâu ? Machine: chó ! Human: Cô ghét ? Machine: không ? Human: Tên anh ? Machine: tên anh ? Human: Chim có_thể bay không ? Machine: thực_ra cu Human: Anh sống không ? Machine: có Human: Ai có_thể hát ? Machine: Kết sử dụng huấn luyện với profile 3, tức mẫu hỏi / câu trả lời có độ dài tối đa 10 với liệu 40,348 words 320,419 QA Đúng mong đợi, kết cho lần huấn luyện đạt tốt mặt ngữ nghĩa Các câu trả lời sát nghĩa hơn, bám sát với ý câu hỏi, với cặp hội thoại đưa vào kiểm nghiệm với kết sau: Human: Xin chào Machine: chào Human: Tạm_biệt Machine: tạm_biệt 57 Human: Xin chào ! Machine: xin chào ! Human: Tạm_biệt anh Machine: tạm_biệt Human: Chào Machine: chào Human: Tạm_biệt cô Machine: tạm_biệt Human: Chào bạn Machine: chào Human: Tên Vũ Machine: gwen Human: Anh ? Machine: yeah Human: Gặp anh sau Machine: tạm_biệt Human: Ồ Machine: phải Human: Gặp anh sau ! Machine: chúc may_mắn ! Human: Thật không ? Machine: thật Human: Cá có_thể bơi không ? Machine: Human: Có tin không ? Machine: không Human: Anh bao_nhiêu tuổi ? Machine: Human: Ai ? Machine: Human: Anh bao_nhiêu tuổi ? Machine: 19 Human: Anh đâu ? Machine: Human: Cô bao_nhiêu tuổi ? Machine: 19 Một số kết fail profile 1, có chất lượng cải thiện đáng kể bảng đây, thay phớt lờ thông tin trả lời cách thẳng thắn câu „Tôi không biết“ Human: Hôm_nay tháng Machine: Human: Ai John ? Machine: Human: Anh Machine: anh Human: 2000 Machine: khoản Human: Anh khỏe ? Machine: Human: Tình_yêu ? Machine: cháu Human: Con chó đâu ? Machine: mẹ cháu đâu ? Human: Cô ghét ? Machine: Human: Tên anh ? Machine: Human: Chim có_thể bay không ? Machine: Human: Anh sống không ? Machine: không Human: Ai có_thể hát ? Machine: 58 Một số kết khác, tức câu trả lời chưa làm thỏa mãn với câu hỏi người hỏi, test với mạng này: Human: Khi anh qua nhà ? Machine: không Human: Năm ? Machine: Human: Vậy_thì để mai , có được không ? Machine: không Human: Anh bao_nhiêu tuổi ? Machine: Human: Khi trời sáng , gọi Machine: cảm_ơn Human: Tên anh ? Machine: Human: Khi anh Machine: anh Human: Về đến nhà thông_báo cho người biết Machine: Human: Anh có ăn bánh mỳ không ? Machine: Như vậy, nhận thấy mạng trả lời học với chất lượng khả quan, phụ thuộc vào chất lượng liệu hỏi đáp Với câu hỏi khó, chưa học mạng có câu trả lời từ chối „Tôi không biết“ Với hình thử nghiệm Profile 4, thời gian huấn luyện lâu với liệu lớn Nên chưa có kết cập nhật luận văn Nhưng rõ ràng, thấy tín hiệu cải thiện chất lượng đáng kể hình ngày trở nên trung thực hơn, bám sát ngữ nghĩa hơn! 59 KẾT LUẬN Luận văn đưa lý thuyết vấn đề trình thiết lập, huấn luyện xây dựng hệ thống đối thoại cho tiếng Việt miền mở Từ đó, xây dựng hình đối thoại tự động cho tiếng Việt miền liệu mở lấy từ kho phụ đề mã mở OpenSubtitles2016 [1] Kết ban đầu đạt tiền đề để tạo trợ lý ảo, xây dựng ứng dụng thông minh hiểu ngôn ngữ tiếng Việt Có khả áp dụng vào toán thực tế, ví dụ hệ thống hỗ trợ hỏi đáp y khoa, tư vấn mua hàng, hỗ trợ giải đáp kỹ thuật cho khách hàng, dịch vụ khác, … Đặc biệt, tạo trợ lý ảo mà theo dõi sức khỏe tương tác với cá nhân mà hướng tới Từ kết thực nghiệm luận văn này, có số nhận xét: Với chuỗi câu dài mạng huấn luyện nhiều thời gian Sau khoảng 300,000 lần lặp với độ dài 10 từ mạng cung cấp câu trả lời lảng tránh, phớt lờ câu hỏi (bằng việc trả lời câu “Tôi không biết”, hiểu cần tích hợp số ngữ nghĩa Bằng việc thay đổi hình cách điều chỉnh độ dài mạng tối ưu cục cặp câu hỏi-đáp cho kết với chất lượng tốt nhiều, bám sát ngữ nghĩa Qua kết đạt ban đầu, chúng nhận thấy nhiều việc phải làm, cần phải tối ưu Nhưng cách tiếp cận ban đầu cho kết tích cực đắn, giải vấn đề ngữ nghĩa, ngữ cảnh tính cách hệ thống đối thoại Định hướng nghiên cứu tiếp theo, tiếp tục làm mượt liệu, để tạo hình có khả trả lời sát với ngữ cảnh, đạt chất lượng cao hơn, giảm khả lảng tránh đưa tính cá nhân vào đoạn hội thoại 60 TÀI LIỆU THAM KHẢO Pierre Lison and Jörg Tiedemann, 2016, “OpenSubtitles2016: Extracting Large Parallel Corpora from Movie and TV Subtitles” In Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016) Ryan Lowe, Nissan Pow, Iulian Serban, Joelle Pineau, Feb 2016 “The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems” Iulian V Serban, Alessandro Sordoni, Yoshua Bengio, Aaron Courville, Joelle Pineau, Apr 2016 “Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network Models” Wojciech Zaremba, Ilya Sutskever, Oriol Vinyals, 19 Feb 2015 “Recurrent Neural Network Regularization” Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, Yoshua Bengio, Sep 2014 “Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation” Oriol Vinyals, Quoc Le, 22 Jul 2015 “A Neural Conversational Model” Ilya Sutskever, Oriol Vinyals, Quoc V Le, 14 Dec 2014 “Sequence to Sequence Learning with Neural Networks” pp 1–9 Lifeng Shang, Zhengdong Lu, Hang Li, 27 Apr 2015 “Neural Responding Machine for Short-Text Conversation” Alessandro Sordoni, Michel Galley, Michael Auli, Chris Brockett, Yangfeng Ji, Margaret Mitchell, Jian-Yun Nie, Jianfeng Gao, Bill Dolan, 22 Jun 2015 “A Neural Network Approach to Context-Sensitive Generation of Conversational Responses” 10 Jiwei Li, Michel Galley, Chris Brockett, Georgios P Spithourakis, Jianfeng Gao, Bill Dolan, Jun 2016 “A Persona-Based Neural Conversation Model” 11 Lưu Tuấn Anh, Yamamoto Kazuhide, 16 Feb 2013 “Pointwise for Vietnamese Word Segmentation” 12 S Hochreiter and J Schmidhuber, 1997 “Long Short-Term Memory” Neural Computation, vol 9, pp 1735–1780 61 13 S Sukhbaatar, A Szlam, J Weston, and R Fergus, 31 Mar 2015 “EndTo-End Memory Networks” pp 1–11 14 Christopher Olah, 27 Aug 2015 “Understanding LSTM Networks” 15 Kaisheng Yao, Geoffrey Zweig, Baolin Peng, 29 Oct 2015 “Attention with Intention for a Neural Network Conversation Model” 16 Jacob Andreas, Marcus Rohrbach, Trevor Darrell, Dan Klein, Jan 2016 “Learning to Compose Neural Networks for Question Answering” 17 Young, M Gasic, B Thomson, and J D Williams, 2013 “POMDP-based statistical spoken dialog systems: A review Proceedings of the IEEE”, 101(5):1160–1179 18 Williams, A Raux, D Ramachandran, and A Black The dialog state tracking challenge In Special Interest Group on Discourse and Dialogue (SIGDIAL), 2013 19 S Kim, L F DHaro, R E Banchs, J Williams, and M Henderson Dialog state tracking challenge 2015 20 Wen, M Gasic, D Kim, N Mrksic, P Su, D Vandyke, and S Young Stochastic language generation in dialogue using recurrent neural networks with convolutional sentence reranking Special Interest Group on Discourse and Dialogue (SIGDIAL), 2015 21 Russell, S., Dewey, D., Tegmark, M (2015) “Research Priorities for Robust and Beneficial Artificial Intelligence” AI Magazine, 36 (4):105– 114 22 Walter S Lasecki, Ece Kamar, Dan Bohus, January 2013 “Conversations in the Crowd: Collecting Data for Task-Oriented Dialog Learning”, pp110 23 Rami Al-Rfou, Marc Pickett, Javier Snaider, Yun-hsuan Sung, Brian Strope, Ray Kurzweil, Jun 2016 “Conversational Contextual Cues: The Case of Personalization and History for Response Ranking”, p1-10 24 Alan M Turing 1950 “Computing machinery and intelligence” Mind, 59(236):433–460 25 Joseph Weizenbaum 1966 “Elizaa computer program for the study of natural language communication between man and machine” Communications of the ACM, 9(1):36–45 26 Roger C Parkinson, Kenneth Mark Colby, and William S Faught 1977 “Conversational language comprehension using integrated patternmatching and parsing” Artificial Intelligence, 9(2):111–134 62 27 Richard S Wallace 2009 “The anatomy of ALICE” Springer 28 Jurgen Schmidhuber 2015 “Deep learning in neural networks: An overview Neural Networks”, 61:85–117 29 Yann LeCun, Yoshua Bengio, and Geoffrey Hinton 2015 Deep learning Nature, 521(7553):436–444 30 Alan Ritter, Colin Cherry, and Bill Dolan 2010 “Unsupervised modeling of twitter conversations” In Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, HLT ’10, pages 172–180, Stroudsburg, PA, USA Association for Computational Linguistics 31 Rafael E Banchs and Haizhou Li 2012 “Iris: a chat-oriented dialogue system based on the vector space model” In Proceedings of the ACL 2012 System Demonstrations, pages 37–42, Jeju Island, Korea, July Association for Computational Linguistics 32 Karthik Narasimhan, Tejas Kulkarni, and Regina Barzilay 2015 “Language understanding for text-based games using deep reinforcement learning” In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 1–11, Lisbon, Portugal, September Association for Computational Linguistics 33 T.-H Wen, D Vandyke, N Mrksic, M Gasic, L M Rojas-Barahona, P.H Su, S Ultes, and S Young 2016 A Network-based End-to-End Trainable Task-oriented Dialogue System ArXiv eprints, April 34 Heriberto Cuayahuitl 2016 Simpleds: “A simple deep reinforcement learning dialogue system” CoRR, abs/1601.04574 35 Marilyn Walker, Grace Lin, and Jennifer Sawyer 2012 “An annotated corpus of film dialogue for learning and characterizing character style” In Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Mehmet Ugur Do ˘ gan, Bente Maegaard, Joseph ˘ Mariani, Jan Odijk, and Stelios Piperidis, editors, Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC-2012), pages 1373–1378, Istanbul, Turkey, May European Language Resources Association (ELRA) ACL Anthology Identifier: L12-1657 36 Francesca Bonin, Jose San Pedro, and Nuria Oliver 2014 “A contextaware nlp approach for noteworthiness detection in cellphone conversations” In COLING, pages 25–36 63 37 Jiwei Li, Michel Galley, Chris Brockett, Jianfeng Gao, and Bill Dolan 2015 A diversitypromoting objective function for neural conversation models arXiv preprint arXiv:1510.03055 38 Michel Galley, Chris Brockett, Alessandro Sordoni, Yangfeng Ji, Michael Auli, Chris Quirk, Margaret Mitchell, Jianfeng Gao, and Bill Dolan 2015 “deltableu: A discriminative metric for generation tasks with intrinsically diverse targets” In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers), pages 445–450, Beijing, China, July Association for Computational Linguistics 39 Lifeng Shang, Zhengdong Lu, and Hang Li 2015 “Neural responding machine for shorttext conversation” arXiv preprint arXiv:1503.02364 40 T Mikolov, M Karafiát, L Burget, J Cernockỳ, and S Khudanpur, 2010 “Recurrent neural network based language model” In INTERSPEECH, pages 1045–1048 41 M Sundermeyer, R Schluter, and H Ney, 2010 “LSTM neural networks for language modeling” In INTERSPEECH 42 P Werbos, 1990 “Backpropagation through time: what it does and how to it” Proceedings of IEEE 43 D Rumelhart, G E Hinton, and R J Williams, 1986 “Learning representations by back-propagating errors” Nature, 323(6088):533–536 44 Y Bengio, P Simard, and P Frasconi, 1994 “Learning long-term dependencies with gradient descent is difficult” IEEE Transactions on Neural Networks, 5(2):157–166 45 A Graves, Jun 2014 “Generating sequences with recurrent neural networks” In Arxiv preprint arXiv:1308.0850 46 Martín Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, …, 31 May 2016 “TensorFlow: A system for large-scale machine learning” In Arxiv preprint arXiv:1605.08695 47 Martín Abadi, Ashish Agarwal, Paul Barham, Eugene Brevdo, Zhifeng Chen, …, 16 Mar 2016 “TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems” In Arxiv preprint arXiv:1603.04467 48 Andrej Karpathy, Li Fei-Fei, 2015 “Deep Visual-Semantic Alignments for Generating Image Descriptions” 64 49 Lester, J., Branting, K., and Mott, B, 2004 “Conversational agents In Handbook of Internet Computing Chapman & Hall” 50 Will, T, 2007 “Creating a Dynamic Speech Dialogue” VDM Verlag Dr 51 Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, Sep 2013 “Efficient Estimation of Word Representations in Vector Space” In Arxiv preprint arXiv:1301.378 ... phải xây dựng mô hình đối thoại CHƯƠNG 4: Xây dựng mô hình đối thoại cho tiếng Việt; Áp dụng kết nghiên cứu được, đề xuất xây dựng mô hình đối thoại cho tiếng Việt Liệt kê vấn đề giải pháp khắc...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  NHỮ BẢO VŨ XÂY DỰNG MÔ HÌNH ĐỐI THOẠI CHO TIẾNG VIỆT TRÊN MIỀN MỞ DỰA VÀO PHƯƠNG PHÁP HỌC CHUỖI LIÊN TIẾP Ngành: Công nghệ... luật học tay, nhiều công sức mà hiệu đạt không cao, khó mở rộng mô hình ứng dụng có liên quan Trong đề tài này, nghiên cứu, xây dựng mô hình đối thoại cho tiếng Việt, dựa phương pháp học chuỗi liên

Ngày đăng: 06/03/2017, 14:29

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan