giới thiệu tổng quan về xử lý ngôn ngữ tự nhiên

46 1.4K 2
giới thiệu tổng quan về xử lý ngôn ngữ tự nhiên

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Giảng viên: Hoàng Anh Việt hoanganhviet@gmail.com 2011 Nội dung chương 01 17/10/14 2  Tổng quan  Các hướng nghiên cứu trong XLNN  Những khó khăn trong XLNN  Các ứng dụng cụ thể Tổng quan 17/10/14 3 Máy tính trung tâm- Trí tuệ ảo 17/10/14 4 Ngôn ngữ tự nhiên  Ngôn ngữ dùng giao tiếp hằng ngày 17/10/14 5 C++, java, c#? Xử lý ngôn ngữ tự nhiên (NLP)  Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một trong những lĩnh vực khó nhất của trí tuệ nhân tạo, tập trung vào các ứng dụng "dạy" máy tính hiểu được ý nghĩa và tương tác, giao tiếp bằng chính ngôn ngữ con người.  Kết quả trên thế giới >> Việt Nam.  ‘Xử lý tiếng Việt’ phải do người Việt thực hiện. 17/10/14 6 Chúng ta nên quan tâm NLP?  Xu hướng:  Lượng lớn tri thức tồn tại ở dạng ngôn ngữ tự nhiên trên các thiết bị điện tử, máy tính  Các phương tiện giao tiếp giữa con người ngày càng đóng vai trò quan trọng. Trong đó máy tính là trung gian. 17/10/14 7 Tiềm năng  Ngành công nghiệp IT (Số liệu năm 2005):  Yahoo, Google, AltaVista ($100-$1,000) mil./yr.  Information Retrieval  Monster.com, HotJobs.com (Job finders) – a market expected to reach $4,5 billions in 2004  Information Extraction + Information Retrieval  Systran powers Babelfish AltaVista, (€ 24 mil./yr.)  Machine Translation  Ask Jeeves ($60 mil./yr.)  Question Answering  Nghiên cứu  Các tập đoàn, công ty lớn có phòng thí nghiệm NLP:  IBM, Microsoft, AT&T, Xerox, Sun, etc.  Phòng nghiên cứu, nhóm nghiên cứu tại các trường đại học. 17/10/14 8 Thế giới thương mại 17/10/14 9 Slide from: Speech and Language Processing Jurafsky and Martin Google Translate Slide from: Speech and Language Processing Jurafsky and Martin [...]... chính  Syntax (cú pháp): Mối liên hệ giữa các từ và ngữ để tạo nên cấu trúc của câu  Semantics (ngữ nghĩa): Ý nghĩa của một từ hay một cụm từ, câu  Discourse (Diễn ngôn) : Quan hệ giữa các ý hoặc các câu  Pragmatic (Thực chứng): mục đích phát ngôn, cách sử dụng ngôn ngữ trong giao tiếp  World Knowledge (tri thức thế giới) : các tri thức về thế giới, các tri thức ngầm 17/10/14 Language Technology... không bắc buộc (điển hình là các phụ âm) Tiếng Anh: Ngôn ngữ biến hình, đơn âm tiết   Google, Facebook, Apple Tiếng Việt: Không biến hình và đa âm tiết  Việt Nam, Lập trình, => khó xác định đâu là một từ 17/10/14 Tách từ 23     Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các từ trong câu văn Là đầu vào cho các bài toán xử lý khác trong hệ thống XLNNTN Tiếng Trung Quốc, Nhật,... nói  Hiểu ngôn ngữ tự nhiên  Truy vấn, trích rút thông tin  Suy luận  Sinh tiếng nói … 17/10/14 Các chủ đề nghiên cứu 14     Các ứng dụng Các mức phân tích Các bài toán con Các thuật toán và cách tiếp cận 17/10/14 Các chủ đề nghiên cứu 15  Các Ứng dụng:            Phân loại văn bản (Classify text into categories) Đánh chỉ số và tìm kiếm (Index and search large texts) Dịch tự động... 32 Diễn ngôn: Đồng tham chiếu President John F Kennedy was assassinated The president was shot yesterday Relatives said that John was a good father JFK was the youngest president in history His family will bury him tomorrow Friends of the Massachusetts native will hold a candlelight service in Mr Kennedy’s home town 17/10/14 Các vấn đề Ngữ nghĩa Semantics  Liên quan nhiều đến hiểu ngôn ngữ Bản chất... Nam: Bản thân ngôn ngữ: nhiều NHẬP NHẰNG  Thiếu các tập ngữ liệu cần thiết  Nghiên cứu rời rạc  Chưa nhiều ứng dụng thực tế   Baomoi.com, VnDOCR 17/10/14 Hình thái học 22    Âm tiết là một đơn vị cấu tạo nên một sự phối hợp trong tiếng nói Ví dụ, từ Latinh được kết hợp từ hai âm tiết: la và tinh Một âm tiết được cấu tạo từ một nhân âm tiết (thông thường nhất là một nguyên âm) và giới hạn trước... từ là nhập nhằng (ambiguous)  Cần thiết phải xác định nghĩa một từ trong ngữ cảnh   Tầm quan trọng của ngữ nghĩa? Machine Translation: Dịch sai  Information Retrieval: Thông tin sai  Anaphora Resolution: Tham chiếu sai  Trích rút thông tin 34 Information extraction   Giáo sư Christopher D Manning đã có bài trình bầy về bài báo “Part-of-Speech Tagging from 97% to 100%: Is It Time for Some Linguistics?”... understanding):  Hiểu nội dung hội thoại qua điện thoại Khai phá thông tin (Information extraction)  Trích rút các thông tin quan trọng Tóm tắt văn bản (Automatic summarization)  Cô đọng 1 quyển sách trên một trang giấy Hỏi đáp (Question answering) Thu tri thức (Knowledge acquisition) Sinh ngôn ngữ (Text generations / dialogs) Kiểm tra cú pháp văn bản (grammar checking) … 17/10/14 NLP trong Computer Science... Understanding Generation Các chủ đề nghiên cứu 18  Các bài toán con:   Gán nhãn từ loại  Phân cụm từ  Phân tích cú pháp  Phân giải nhập nhằng  Phân tích ngữ nghĩa  Phân tích thực nghĩa   Tách từ … Các thuật toán và phương pháp tiếp cận:  Dựa từ điển, tập ngữ liệu (corpus)  Dựa trên tri thức  Thống kê  Học máy  … 17/10/14 Các chủ đề nghiên cứu 19  Các mức phân tích:  Phonology (âm vị): Âm, chữ cái... = Verb (Động từ) P = Preposition (Giới từ) Adv = Adverb (Trạng từ) Adj = Adjective (Tính từ) Gán nhãn từ loại (Part-Of-Speech tagging) INPUT: Con ngựa đá con ngựa đá Ông già đi nhanh quá OUTPUT: 1.Con ngựa/N đá/V con ngựa/N đá/Adj 2 Ông/ĐaT già/Adj đi/Phó_từ nhanh/Adj quá/Adv 3 Ông già/N đi/V nhanh/Adj quá/Adv N = Noun (Danh từ) V = Verb (Động từ) P = Preposition (Giới từ) Adv = Adverb (Trạng từ) Adj... con ngựa | đá  Con ngựa đá | con ngựa đá|  Con ngựa đá | con ngựa | đá   hập N anh gr ằn nh 17/10/14 iới g Tách từ (tiếp) 24   Có n trường hợp tách cho một câu nhưng chỉ có 1 cách đúng trong từng ngữ cảnhhĩa ng đa  Ông già | đi | nhanh | quá ằng nh  Ông | già | đi | nhanh | quá hập N Cách tiếp cận:  Tiếp cận dựa vào từ điển cố định  Tiếp cận dựa vào thống kê thuần túy  Tiếp cận dựa trên cả . tự nhiên  Ngôn ngữ dùng giao tiếp hằng ngày 17/10/14 5 C++, java, c#? Xử lý ngôn ngữ tự nhiên (NLP)  Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một trong những lĩnh vực. 01 17/10/14 2  Tổng quan  Các hướng nghiên cứu trong XLNN  Những khó khăn trong XLNN  Các ứng dụng cụ thể Tổng quan 17/10/14 3 Máy tính trung tâm- Trí tuệ ảo 17/10/14 4 Ngôn ngữ tự nhiên  Ngôn ngữ. tác, giao tiếp bằng chính ngôn ngữ con người.  Kết quả trên thế giới >> Việt Nam.  Xử lý tiếng Việt’ phải do người Việt thực hiện. 17/10/14 6 Chúng ta nên quan tâm NLP?  Xu hướng:  Lượng

Ngày đăng: 17/10/2014, 07:23

Từ khóa liên quan

Mục lục

  • Slide 1

  • Nội dung chương 01

  • Tổng quan

  • Máy tính trung tâm- Trí tuệ ảo

  • Ngôn ngữ tự nhiên

  • Xử lý ngôn ngữ tự nhiên (NLP)

  • Chúng ta nên quan tâm NLP?

  • Tiềm năng

  • Thế giới thương mại

  • Google Translate

  • Slide 11

  • Web Q/A

  • Xây dựng Máy tính trung tâm – Trí tuệ ảo

  • Các chủ đề nghiên cứu

  • Slide 15

  • NLP trong Computer Science

  • Nhiệm vụ của NLP

  • Slide 18

  • Slide 19

  • Language Technology

Tài liệu cùng người dùng

Tài liệu liên quan