slide thuyết trình đề tài tìm hiểu phương pháp tách từ trong văn bản tiếng việt theo hướng tiếp cận của giải thuật di truy

43 935 0
slide thuyết trình đề tài tìm hiểu phương pháp tách từ trong văn bản tiếng việt theo hướng tiếp cận của giải thuật di truy

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BTL: Xử lý ngôn ngữ tự nhiên Đề tài: Tìm hiểu phương pháp tách từ trong văn bản tiếng việt theo hướng tiếp cận của giải thuật di truyền Tổng quan  Các phương pháp tách từ tiếng Việt  Giải thuật di truyền Phương pháp tách từ dựa trên thống kê Internet theo hướng tiếp cận của giải thuật di truyền (IGATEC) Tìm hiểu opensource Vntokenizer để tách từ trong văn bản tiếng Việt Các phương pháp tách từ tiếng Việt  Vấn đề tách từ tiếng Việt  Các hướng tiếp cận của kĩ thuật tách từ tiếng Việt  Một số phương pháp tách từ tiếng Việt hiện nay  Kết luận Vấn đề tách từ tiếng Việt Bài toán tách từ tiếng Việt là một bài toán khó Vì những đặc tính chung của tiếng Việt- một ngôn ngữ đơn lâp • Từ ở dạng nguyên thể , hình thức và ý nghĩa của từ độc lập với cú pháp • Từ được cấu trúc từ tiếng • Từ bao gồm từ đơn và từ phức (bao gồm từ láy và từ ghép) Vấn đề tách từ tiếng Việt Điểm khác nhau giữa tiếng Anh và tiếng Việt Tiếng Việt Tiếng Anh         - Là ngôn ngữ đơn lập (isolate) hay còn gọi là loại hình phi hình thái, không biến hình, đơn âm tiết - Từ không biến đổi hình thái, ý nghĩa ngữ pháp nằm ngoài từ - Phương thức ngữ pháp chủ yếu : trật tự từ và hư từ - Ranh giới từ không được xác định mặc nhiên bằng khoảng trắng - Tồn tại loại từ đặc biệt “từ chỉ loại” hay còn gọi là phó danh từ chỉ loại kèm theo với danh từ - Có hiện tượng láy và nói lái trong tiếng việt          - Là ngôn ngữ không đơn lập- loại hình biến cách hay còn gọi là loại hình chiết khuất - Từ có biến đổi hình thái, ý nghĩa ngữ pháp nằm ở trong từ - Phương thức ngữ pháp chủ yếu là phụ tố - Kết hợp giữa các hình vị là chặt chẽ, khó xác định, được nhận diện bằng khoảng trắng hoặc dấu câu   - Hiện tượng cấu tạo bằng từ ghép thêm phụ tố (affix) vào từ gốc là rất phổ biến     Các hướng tiếp cận của kĩ thuật tách từ tiếng Việt Một số phương pháp tách từ tiếng Việt  So khớp từ dài nhất (Longest Matching)  Học dựa trên sự cải biến (Transformation-based Learning -TBL)  Chuyển đổi trạng thái trọng số hữu hạn (Weighted- Finite State Transducer- WFST)  Phương pháp tách từ dựa trên thống kê từ trên Internet và giải thuật di truyền So khớp từ dài nhất (Longest Matching) So khớp từ dài nhất (Longest Matching) Ưu điểm: - Tách từ nhanh đơn giản chỉ cần dựa vào từ điển - Độ chính xác tương đối cao Hạn chế: - Độ chính xác phụ thuộc vào hoàn toàn vào tính đầy đủ và chính xác của từ điển - Phương pháp này sẽ không đạt được kết quả nếu chuối từ trước có liên hệ với các từ sau Ví dụ : một ông quan tài giỏi => một ||ông|| quan tài|| giỏi Bước Từ dài nhất có thể 1 2 3 4 5 6 7 Tôi Là Sinh viên Trường Đạ i họ c Bách Khoa Hà Nội Các tiếng còn lại là sinh viên trường đại học Bách Khoa Hà Nội sinh viên trường đại học Bách Khoa Hà Nội trường đại học Bách Khoa Hà Nội đại học Bách Khoa Hà Nội Bách Khoa Hà Nội Hà Nội   Học dựa trên sự cải biến (Transformation-based Learning -TBL) - Huấn luyện cho máy “học” trên dữ liệu hàng vạn câu tiếng Việt đã được đánh dấu ranh giới từ đúng Sau khi học xong, máy sẽ xác định được các tham số (các xác suất) cần thiết cho mô hình nhận diện từ Khảo sát độ dài của “từ” trên từ điển Kết quả khảo sát độ dài của từ trên từ điển Độ dài từ(tiếng) Tần số xuất hiện Tỉ lệ 1 8933 12.2 2 48995 67.1 3 5727 7.9 4 7040 9.7 >=5 2301 3.1 Khởi tạo quần thể Biểu diễn cá thể: • • Giả sử văn bản đầu vào t bao gồm n tiếng như sau : T=s1s2… sn Mục đích của qúa trình thực hiện thuật toán GA là tìm cách tách ra các từ có độ phù hợp cao nhất : t=w1w2…wm với wk =si…sj (1

Ngày đăng: 23/10/2014, 23:30

Từ khóa liên quan

Mục lục

  • Slide 1

  • Slide 2

  • Slide 3

  • Slide 4

  • Slide 5

  • Slide 6

  • Slide 7

  • Slide 8

  • Slide 9

  • Slide 10

  • Slide 11

  • Slide 12

  • Slide 13

  • Slide 14

  • Slide 15

  • Slide 16

  • Slide 17

  • Slide 18

  • Slide 19

  • Slide 20

Tài liệu cùng người dùng

Tài liệu liên quan