3 wordsegmentation

8 47 0
3 wordsegmentation

Đang tải... (xem toàn văn)

Thông tin tài liệu

Tách từ Tách từ tiếng Việt z z Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN g @ Email: huonglt@soict.hust.edu.vn z ¾ Mục đích: xác định ranh giới từ câu Là b bước xử lý quan ttrọng ới hệ thố thống XLNNTN XLNNTN, đặc biệt ngơn ngữ đơn lập, ví dụ: âm tiết Trung Quốc, âm tiết Nhật, âm tiết Thái, tiếng Việt Với ngôn ngữ đơn lập, từ có nhiều âm tiết Vấn đề toán tách từ khử nhập nhằng ranh giới từ Từ vựng z z Từ vựng tiếng Việt ngôn ngữ không biến hình Từ điển từ tiếng Việt (Vietlex): >40.000 từ, đó: z z z z z Độ dài Tổng 81.55% âm tiết từ : từ đơn 15.69% từ từ điển từ đơn 70.72% từ ghép có âm tiết 13.59% từ ghép ≥ âm tiết 1.04% từ ghép ≥ âm tiết # từ 6,303 28,416 2,259 2,784 419 40,181 % 15.69 70.72 5.62 6.93 1.04 100 Bảng Độ dài từ tính theo âm tiết Qui tắc cấu tạo từ tiếng Việt z Từ đơn: dùng âm tiết làm từ z z Qui tắc cấu tạo từ tiếng Việt z Ví dụ: d tôi, bá bác, người, ời cây, â h hoa, đi, chạy, h vì, ì đã, à, nhỉ, hỉ Từ ghép: tổ hợp (ghép) âm tiết lại, âm tiết có quan hệ nghĩa với z z z Từ ghép đẳng lập thành tố cấu tạo có quan hệ bình đẳng với nghĩa z Ví dụ: chợ búa, bếp núc Từ ghép phụ phụ thành tố cấu tạo phụ thuộc vào thành tố cấu tạo Thành tố phụ có vai trò phân loại, chuyên biệt hoá sắc thái hoá cho thành tố z Ví dụ: tàu hoả, đường sắt, xấu bụng, tốt mã, đơ, thằng tắp, sưng vù Từ láy: yếu tố cấu tạo có thành phần ngữ âm lặp lại; vừa lặp vừa biến đổi đổi Một từ lặp lại cho ta từ láy Biến thể từ: coi dạng lâm thời biến động dạng "lời nói" từ z z Rút gọn từ dài thành từ ngắn z ki-lơ-gam → ki lơ/ kí lơ Lâm thời p phá vỡ cấu trúc từ,, phân p bố lại yếu y tố tạo từ với yếu tố khác ngồi từ chen vào Ví dụ: z khổ sở → lo khổ lo sở z ngặt nghẽo → cười ngặt cười nghẽo z danh lợi + ham chuộng → ham danh chuộng lợi Các hướng tiếp cận Qui tắc cấu tạo từ tiếng Việt z z z Các diễn tả gồm nhiều từ (vd, “bởi vì”) coi từ Tên riêng: tên người vị trí coi đơn vị từ vựng Các mẫu thường xuyên: số, thời gian z z z Tiếp cận dựa từ điển Tiếp cận theo phương pháp thống kê Kết hợp hai phương pháp Các phương pháp z z z z z z z Tiếp cận dựa từ điển So khớp từ dài (Longest Matching) H dựa Học d t ê cải ải biế biến (T (Transformation-based f ti b d Learning – TBL) Chuyển đổi trạng thái trọng số hữu hạn (Weighted Finite State Transducer – WFST) Độ hỗn loạn cực đại (Maximum Entropy – ME) Học ọ máy y sử dụng ụ g mô hình Markov ẩn ((Hidden Markov Models- HMM) Học máy sử dụng vectơ hỗ trợ (Support Vector Machines) Kết hợp phương pháp z Xây dựng từ điển z Mỗi mục từ lưu thông tin từ, từ loại, nghĩa loại z Tổ chức cho tốn nhớ thuận tiện việc tìm kiếm z Mã hóa từ điển: Từ loại nghĩa g loại kiểu byte y ợ lưu dạng ký tự z VD: danh từ -112 – p, - 115 – s Tiếp cận dựa từ điển z Tìm từ từ điển Phân trang theo hai chữ đầu từ, tăng Với trang, từ lại theo vần ABC Paragraph bà z z n ba 10 xe Content bao bà ngoại tập n xe cộ xe đạp ¾ 11 Độ dài tối đa từ? 3? 4? 5? Vấn đề: ngắn (vd 3), không xử lý tổ hợp từ cố định, vd "ông chẳng bà chuộc“ Đưa tất từ ghép có từ điển trùng với phần đầu xâu vào 12 Tìm từ từ điển Nếu nhà Vị trí t í từ: từ z Ta có bảng sau: máy Phân giải nhập nhằng nghỉ ta z Lấy tất cách phân tích, phân tích cú pháp cho cách phân tích z z z Ký hiệu: z - LT z - ĐgT - DT - ĐaT 13 Cách tiếp cận lai 14 Biểu thức qui z Kết hợp phân tích automat hữu hạn + biểu thức quy + so khớp từ dài + thống kê (để giải nhập nhằng) z khuôn mẫu so sánh với chuỗi z Các kýý tự đặc biệt: z * - chuỗi ký tự nào, kể khơng có z x – ký tự z + - chuỗi ngoặc xuất lần Ví dụ: z Email: *@x(.*)+ z dir *.txt z ‘*John’ -> ‘John’, ‘Ajohn’, “Decker John” z z 15 Biểu thức quy sử dụng đặc biệt nhiều trong: * Phân tích cú pháp * Xác nhận tính hợp lệ liệu * Xử lý chuỗi * Tách liệu tạo báo cáo 16 e) [ 00 + 11 + (01+ 10) (00+ 11)*(01+ 10)]* a) 0(0 + 1)* z z b) (0+ 1)*0(0 1) 0(0 + 1) (0 + 1) z c) (11+ 0)*(00+ 1) z z z ) ( + + 00)) d)) ((1+ 01+ 001)*(ε z e) [ 00 + 11 + (01+ 10) (00+ 11)*(01+ 10)]* z Lớp ngơn ngữ qui, đốn nhận máy ảo, gọi tên automat hữu hạn hạn z z z 0101010010101101 0101, 1010, 1001, 0110, 01101, 101101 (01)* (00+ ε) (10)* (11+ ε) (01)* 011011 (11+ ε) (00+ ε) Giới thiệu phi hình thức automat hữu hạn Automat hữu hạn z 0011, 000011, 001111, 001100 001101001101 z Automat hữu hạn đơn định (Deterministic Finite Automat a– DFA Automat hữu hạn không đơn định (Nondeterministic Finite Automat a– NFA) Automat hữu hạn không đơn định, chấp nhận phép truyền rỗng (ε-NFA) 19 z z Một toán automat nhận diện chuỗi ỗ w có thuộc ề ngôn ngữ L hay không Chuỗi nhập xử lý ký hiệu từ trái sang phải Trong trình thực thi, automat cần phải nhớ thông tin qua xử lý 20 Automat hữu hạn cho từ tiếng Anh Ví dụ automat hữu hạn L = {w ∈ {0, 1}* | w kết thúc chuỗi 10} 21 Automata hữu hạn cho từ tiếng Việt 22 Cách tách từ đơn giản 23 z Phát mẫu thông thường tên riêng, chữ viết tắt số, tắt, số ngày tháng tháng, địa email, email URL,… URL sử dụng biểu thức qui z Hệ thống chọn chuỗi âm tiết dài từ vị trí có từ điển, chọn cách tách có từ ¾ Hạn chế: đưa cách phân tích khơng ¾ Giải quyết: liệt kê tất, có chiến lược để chọn cách tách tốt 24 Lựa chọn cách tách từ z z z z z Thuật toán Biểu diễn đoạn chuỗi âm tiết s1 s2 … sn Trường g hợp ợp nhập ập nhằng g thường g xuyên y từ liền s1s2s3 s1s2 s2s3 từ BIểu diễn BIể diễ đoạn đ bằ đồ thị hị có óh hướng tuyến ế tính í h G = (V,E), (V E) V = {v { 0, v1, , vn, vn+1} Nếu âm tiết si+1, si+2, , sj tạo thành từ -> G có cạnh (vi,vj) Các cách tách từ = đường ngắn từ v0 đến vn+1 Thuật toán Xây dựng đồ thị cho chuỗi s1s2 sn 1: V ← ‫;׎‬ 2: for i = to n + 3: V ← V ∪ {vi}; 4: end for 5: for i = to n 6: for j = i to n 7: if (accept(AW, si · · · sj)) then {(vi, vj+1)}; 8: E ← E ∪ {( 9: end if 10: end for 11: end for 12: return G = (V,E); accept(A, s): automat A nhận xâu vào s 25 Phân giải nhập nhằng 26 Phân giải nhập nhằng z Xác suất xâu s: z Khi n = 2, tính giá trị P(wi|wi-1) lớn maximum likelihood (ML) z P(wi|w1i-1): xác suất wi có i-1 âm tiết trước n = 2: bigram; n = 3: trigram z c(s): số lần xâu s xuất hiện; N: tổng số từ tập luyện Khi liệu luyện nhỏ kích cỡ tồn tập liệu Æ P~0 Sử dụng kỹ thuật làm trơn z 27 z z 28 Xác định giá trị λ1, λ2 Kỹ thuật làm trơn z với λ1 + λ2 = λ1, λ2 ≥ PML(wi) = c(wi)/N z Với tập thử nghiệm T = {s1,s2,…,sn}, xác suất P(T) tập thử: Từ tập liệu mẫu, định nghĩa C(wi-1,wi) số lần (wi-1, wi) xuất tập mẫu mẫu Ta cần chọn λ1 λ2 để làm cực đại giá trị với λ1 + λ2 = λ1, λ2 ≥ 29 Thuật toán Kết z z z 31 Sử dụng tập liệu gồm 1264 báo Tuổi trẻ, có 507,358 từ Lấy ε = 0.03, 03 giá trị λ hội tụ sau vòng lặp Độ xác = số từ hệ thống xác định đúng/tổng số từ hệ thống xác định = 95% 32 ... Kết z z z 31 Sử dụng tập liệu gồm 1264 báo Tuổi trẻ, có 507 ,35 8 từ Lấy ε = 0. 03, 03 giá trị λ hội tụ sau vòng lặp Độ xác = số từ hệ thống xác định đúng/tổng số từ hệ thống xác định = 95% 32 ... đoạn chuỗi âm tiết s1 s2 … sn Trường g hợp ợp nhập ập nhằng g thường g xuyên y từ liền s1s2s3 s1s2 s2s3 từ BIểu diễn BIể diễ đoạn đ bằ đồ thị hị có óh hướng tuyến ế tính í h G = (V,E), (V E) V... z n ba 10 xe Content bao bà ngoại tập n xe cộ xe đạp ¾ 11 Độ dài tối đa từ? 3? 4? 5? Vấn đề: ngắn (vd 3) , không xử lý tổ hợp từ cố định, vd "ông chẳng bà chuộc“ Đưa tất từ ghép có từ điển

Ngày đăng: 31/12/2018, 14:51

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan