slide bài giảng xử lý ngôn ngữ tự nhiên - đại học bách khoa hà nội chương 2 tách từ tiếng việt

32 3.1K 0
slide bài giảng xử lý ngôn ngữ tự nhiên - đại học bách khoa hà nội chương 2 tách từ tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Giảng viên: Hoàng Anh Việt hoanganhviet@gmail.com 2011 Nội dung chương 02   Tiếng Việt – Đặc điểm tính chất Các phương pháp tách từ Từ điển  Aaaaaa   Demo 17/10/14 Yêu cầu  Sinh viên cần có kiến thức:  Lý thuyết tính tốn / Chương trình dịch  Xác suất thống kê 17/10/14 Tiếng Việt  Các nghiên cứu Tiếng Việt:  Nước ngoài: Thompson (1965)  Shum (1965)  Beatty (1990)   Việt Nam: Nguyễn Tài Cẩn (1975)  Hồ Lê (1992)  Nguyễn Kim Thản (1997)  Diệp Quang Ban (1999)  17/10/14 Thompson (1965) Cấu trúc cụm danh từ tiếng Việt Thompson 17/10/14 Shum (1965) Cấu trúc cụm danh từ tiếng Việt Shum Nom  NP Mod NP  Nu N Dem NP  Pron NP  Npr Nu  PL CL Nu  Q CL Nu  Num CL N  N’ N” Trong đó: Nom : Chủ ngữ Mod :bổ ngữ Nu : Số đếm Dem : Chỉ định từ Pron : Đại từ Npr : Danh từ riêng N: Danh từ N’: Danh từ phân loại 17/10/14 PL : số nhiều Q: Lượng tử Beatty (1990) Cấu trúc cụm danh từ tiếng Việt Beatty 17/10/14 Nguyễn Tài Cẩn (1975) Phần đầu Phần trung   Phần sau tâm Ví dụ: Ba Cả hai Tất người tỉnh chủ trương nhỏ xác Trong thực tế danh ngữ cịn xuất dạng dạng định có hai phần : 17/10/14 Nguyễn Tài Cẩn (1975)  Phần trung tâm: cấu tạo thành phần chính: T1T2 Có đầy đủ : T1T2, ví dụ : mèo (này)  Dạng thiếu T1 : -T2, ví dụ : - mèo (này)  Dạng thiếu T2: T1-, ví dụ : – (này)   Phần đầu danh ngữ có tất loại thành tố phụ (3 loại định tố) : Định tố “cái”, ví dụ : cậu học sinh  Định tố số lượng, ví dụ : cậu học sinh  Định tố ý nghĩa tồn bộ, ví dụ : tất cậu học sinh  17/10/14 Hồ Lê (1992) 10 Số lượng D1 D2 từ Sự kiện từ Đại từ (trừ đại từ định) định Trong đó: D1: gồm danh từ : con, cái, …; ơng, bà…; loại, thứ, hạng, …; phía, bên, nơi, chốn, buổi, hôm, ngày, giờ, khi, lúc… D2: gồm danh từ cịn lại Ví dụ: - Con mèo đen lớn - Cơ y tá - Phía ngồi sân 17/10/14 Ví dụ Automat 18 17/10/14 Ví dụ Automat Tiếng Anh 19 17/10/14 Automat Tiếng Việt 20 Xây dựng ơtơmát âm tiết đốn nhận tất âm tiết tiếng Việt Xây dựng ơtơmát từ vựng đốn nhận tất từ vựng tiếng Việt Dựa ôtômát nêu trên, xây dựng đồ thị tương ứng với câu cần phân tích sử dụng thuật tốn tìm kiếm đồ thị để liệt kê cách phân tích 17/10/14 Ví dụ Automat âm tiết TV 21 Automat âm tiết: phương, pháp, trình 17/10/14 Phương pháp đồ thị 22    Biểu diễn chuỗi âm tiết s1,s2, sn Trường hợp nhập nhằng thường xuyên từ liền s1s2s3 s1s2 s2s3 từ BIểu diễn đoạn đồ thị có hướng tuyến tính G = (V,E), V = {v0, v1, , vn, vn+1}  Nếu âm tiết si+1, si+2, , sj tạo thành từ -> G có cạnh (vi,vj)  Các cách tách từ = đường ngắn từ v0 đến vn+1 17/10/14 Nhập nhằng Đồ thị 23 Giải quyết??? 17/10/14 Xem lại 24   Lý thuyết xác suất Lý thuyết thông tin 17/10/14 Phương pháp thống kê 25  Thông qua Search Engine thu được:  DF - document frequency, tần số tài liệu, số lượng tài liệu lập mục có chứa từ cần xét  MAX- số lượng tài liệu tiếng Việt lập mục (thường lấy khoảng 109) Xấp xỉ xác suất xuất từ internet 17/10/14 Phương pháp thống kê 26 Tần số tài liệu số từ thông dụng tiếng Việt 17/10/14 Phương pháp thống kê 27  Tiếng việt bao gồm nhiều từ đứng cạnh => đo độ liên kết từ (MI- Mutual information) Quan hệ âm tiết P(X) MI(X;Y) P(Y) 17/10/14 Phương pháp thống kê 28  Với từ có n âm tiết đứng cạnh nhau: Quan hệ n âm tiết  Trong đó:  cw chuỗi gồm n tiếng (cw = s1s2…sn)  lw rw hai chuỗi dài (n-1) cw (lw = s1s2…sn-1 rw = s2s3…sn) 17/10/14 Phương pháp thống kê 29  Ví dụ xét chuỗi ‘Đại học khoa học tự nhiên’ 17/10/14 Giải thuật di truyền 30   Thích hợp cho việc xấp xỉ lời giải tối ưu hóa tồn cục khơng gian tìm kiếm lớn thay lời giải tối ưu cục Giải thuật tiến hóa quần thể qua nhiều hệ nhằm tối ưu hóa tồn cục thơng qua trình chọn lọc, lai, biến dị tái sinh 17/10/14 Giải thuật di truyền 31  Mục tiêu:   Xét văn t gồm n tiếng t=s1s2…sn Mục tiêu trình xác định cách tách hợp lý văn t thành m đọan t=w1w2…wm với wk=si…sj (1 ≤ k≤ m, 1≤ i, j≤ n) từ đơn hay từ phức Cách biểu diễn:  Quần thể (pop) tập hợp cá thể (id) biểu diễn xâu nhị phân Mỗi bit tương ứng với tiếng Vậy, từ gồm bit giống liên tiếp 17/10/14 Thảo luận 32 17/10/14 ... -1 1 -3 - vị trí vị trí danh từ - vị trí -1 vị trí từ xuất - vị trí -2 vị trí từ số lượng, ví dụ: một, hai,…; vài, ba, dăm, dăm ba ; mỗi, từng, mọi…; những, các, một…; - vị trí -3 vị trí từ tổng... lúc… D2: gồm danh từ cịn lại Ví dụ: - Con mèo đen lớn - Cô y tá - Phía ngồi sân 17/10/14 Diệp Quang Ban (1999) 11 Phần phụ trước Phần phụ trung Phần phụ sau tâm -3 Ví dụ: -2 tất -1 mèo đen -2 -1 ... sang (*) Học sinh/ học sinh/ học So khớp từ phải sang Học / sinh học /sinh học Kết hợp hai ??? 17/10/14 Automat tách từ Tiếng Việt 17    Một toán automat nhận diện chuỗi w có thuộc ngơn ngữ L

Ngày đăng: 17/10/2014, 07:23

Từ khóa liên quan

Mục lục

  • PowerPoint Presentation

  • Nội dung chương 02

  • Yêu cầu

  • Tiếng Việt

  • Thompson (1965)

  • Shum (1965)

  • Beatty (1990)

  • Nguyễn Tài Cẩn (1975)

  • Slide 9

  • Hồ Lê (1992)

  • Diệp Quang Ban (1999)

  • Các hướng tiếp cận

  • Các phương pháp

  • Từ điển tiếng Việt

  • Mã hóa từ điển

  • Dựa Từ Điển

  • Automat tách từ Tiếng Việt

  • Ví dụ Automat

  • Ví dụ Automat Tiếng Anh

  • Automat Tiếng Việt

  • Ví dụ Automat âm tiết TV

  • Phương pháp đồ thị

  • Nhập nhằng Đồ thị

  • Xem lại

  • Phương pháp thống kê

  • Slide 26

  • Slide 27

  • Slide 28

  • Slide 29

  • Giải thuật di truyền

  • Slide 31

  • Thảo luận

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan