báo cáo đề tài sử dụng từ điển để tách từ trong câu tiếng việt

26 1.2K 6
báo cáo đề tài  sử dụng từ điển để tách từ trong câu tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG ====o0o==== BÀI TẬP LỚN XỬ LÝ NGÔN NGỮ TỰ NHIÊN Đề tài : Sử dụng từ điển để tách từ câu tiếng Việt GV hướng dẫn : TS Lê Thanh Hương SV thực : Nguyễn Đức Long 20071697 Nguyễn Văn Khải 20071562 Lớp : HTTT K52 Hà Nội 2-05-2011 Mục Lục Đề tài : Sử dụng từ điển để tách từ câu tiếng Việt Mục Lục I.Giới thiệu đề tài 1.Đặt vấn đề II.Cách tiếp cận toán 1.Khái niệm từ Tiếng Việt 2.Các hướng tiếp cận 2.1 Phương pháp tiếp cận dựa từ .6 2 Phương pháp tiếp cận dựa ký tự (tiếng) III.Phân tích số phương pháp giải tốn 1.So khớp dài (Longest matching) 2.Phương pháp lai kết hợp Longest Maching ứng dụng 3.Một số phương pháp khác .10 3.1 Transforma Based Learning 10 3.2 Dynamic programming .11 3.3 Weighted Finin State Transducer( WFST) mạng Neural .13 3.4 Sử dụng thống kê Internet vào tách từ 15 IV.Xây dựng hệ thống, thực nghiệm 17 1.Cài đặt thuật toán .17 2.Cài đặt hệ thống .18 3.Chạy thử thực nghiệm 19 4.Sử dụng số tool cung cấp 20 V.Đánh giá mở rộng báo cáo .23 VI.Phân chia công việc 24 VII.Kết luận 24 VIII.Tài liệu tham khảo 25 I Giới thiệu đề tài Đặt vấn đề Tách từ vấn đề xử lý ngôn ngữ tự nhiên (XLNNNT) Nó tiền đề, bước để tiến hành tiếp phép xử phức tạp lý khác xác định từ loại, phân tích cấu trúc ngữ pháp cho câu, xử lý văn … Với yếu tố thế, tách từ coi vấn đề quan trọng XLNNTN, đặc biệt với nước Đơng Á, nơi mà có loại ngơn ngữ với cấu trúc phức tạp Việt Nam, Trung Quốc, Nhật … Đối với người, vấn đề đơn giản làm để máy tính hiểu thực lại vấn đề đầy khó khăn thú vị Hiện có nhiều cơng trình nghiên cứu để giải vấn đề có độ xác cao (>95%) Trong khn khổ tập lớn, nhóm em xin trình bày phương pháp tách từ câu tiếng Việt cài đặt số phương pháp giải Em xin chân thành cám ơn cô Lê Thanh Hương hướng dẫn giảng dạy cho em nhiều kiến thức bổ ích vấn đề II Cách tiếp cận toán Khái niệm từ Tiếng Việt Trong ngôn ngữ phương Tây, từ đơn vị nhỏ câu Nó khái niệm đơn giản, định nghĩa nhóm kí tự có nghĩa, phân cách với kí tự khoảng trắng (space) dấu câu  Tách từ câu ngôn ngữ đơn giản Trong tiếng Việt, khái niệm từ lại khái niệm phức tạp khó xác định nhiều Từ đơn vị nhỏ câu mà tiếng Một từ cấu trúc từ tiếng, từ tiếng (từ đơn) bao gồm nhiều tiếng (từ phức) bao gồm từ láy từ ghép  khó áp dụng kỹ thuật hướng tiếp cận nghiên cứu thử nghiệm thành công ngôn ngữ Ấn Âu cho tiếng Việt Một số thống kê từ vựng tiếng Việt: Theo nghiên cứu khác, thống kê điểm khác biệt tiếng Việt tiếng Anh Chính đặc điểm làm cho việc tách từ tiếng Việt khó khăn nhiều: Các hướng tiếp cận Hiện nay, có nhiều nghiên cứu giải vấn đề tách từ tiếng Việt Dựa sở thống kê phương pháp tách từ tiếng Hoa, bối cảnh phương pháp tách từ tiếng Việt sau: 2.1 Phương pháp tiếp cận dựa từ Phương pháp chia thành nhóm chính: 2.1.1 Dựa vào từ điển Dựa vào thống kê Kết hợp phương pháp để tận dụng ưu điểm phương pháp Phương pháp dựa vào từ điển Đây phương pháp điển hình nay, độ xác cao Ý tưởng phương pháp dựa vào từ điển từ có sẵn dùng biện pháp so khớp để tách từ, cụm từ văn mà có từ điển Các hướng tiếp cận khác sử dụng loại từ điển khác nhau: full-word/pharse sử dụng từ điển hồn chỉnh, component lại sử dụng từ điển thành phần Phương pháp chia làm nhiều loại dựa theo cách so khớp với từ điển, chẳng hạn so khớp dài (longest matching) hay so khớp ngắn (shortest matching) Ngoài phương pháp kết hợp (hybird) kết hợp hai phương pháp Hiện phương pháp so khớp dài xem phương pháp hiệu hướng tiếp cận Hạn chế phương pháp kết phụ thuộc hoàn toàn vào độ xác đầy đủ từ điển Việc xây dựng từ điển hoàn chỉnh vấn đề cốt lõi cuả phương pháp này, với nỗ lực nhiều người, từ điển tương đối đầy đủ đem lại kết khả quan cho phương pháp với độ xác cao (95%) việc tách từ 2.1.2 Phương pháp dựa thống kê Ý tưởng phương pháp dựa vào thông tin tần số xuất tập liệu huấn luyện ban đầu, dựa vào giải thuật học máy đưa tập từ gán trọng số Dựa trọng số này, phân tách câu định cụm tiếng có phải từ hay khơng Phương pháp tỏ linh hoạt so với phương pháp dựa từ điển, nhiên lại phụ thuộc vào liệu học ban đầu cần có thời gian để tích luỹ Hiện có phương pháp dựa vào thống kê Internet, phương pháp sử dụng search engine có google, bing … Dựa vào kết tìm kiếm, thuật tốn đánh giá mức độ liên kết từ (Mutual information - MI) sử dụng để định có phải từ hay khơng Đây phương pháp hứa hẹn nhiều triển vọng 2.1.3 Phương pháp kết hợp Phương pháp kết hợp sử dụng từ điển thống kê để tận dụng ưu điểm hai phương pháp Tuy có ưu điểm độ xác lại gặp phải vấn đề phức tạp khác, đòi hỏi nhiều thời gian nhớ 2 Phương pháp tiếp cận dựa ký tự (tiếng) Phương pháp chia làm nhóm nhỏ: uni-gram n-gram Hướng tiếp cận dựa ký tự (uni-gram) chia văn ký tự đơn lẻ để thực việc tách từ Còn hướng tiếp cận dựa nhiều ký tự (n-gram) chia văn thành nhiều chuỗi, chuỗi gồm hai, ba ký tự trở lên So với hướng tiếp cận dựa ký tự, hướng tiếp cận cho nhiều kết ổn định (trong tiếng Hoa) Khái niệm ký tự tương đương với tiếng tiếng Việt Phương pháp chia câu thành tiếng phân cách dấu cách hay dấu câu, sau dựa vào giải thuật quy hoạch động, giải thuật di truyền hay thống kê để tìm cách phân chia mà có tổng xác suất phân đoạn tối ưu Phương pháp tỏ đơn giản, linh hoạt dựa vào từ điển cố định Cách tiếp cận có tính khả quan, hứa hẹn nhiều triển vọng so với phương pháp dựa từ điển III Phân tích số phương pháp giải tốn Ở em xinh trình bãy kỹ phương pháp: So khớp dài (Longest matching) phương pháp tiếp cận lai (kết hợp Longest matching phân tích automat hữu hạn) Ngồi ra, em trình bày thêm vài phương pháp khác mang tính chất để tham khảo so sánh So khớp dài (Longest matching) - Mô tả phương pháp Phương pháp duyệt câu từ trái qua phải, duyệt chuỗi tiếng kiểm tra xem có phải từ hay không Chuỗi dài xác định từ chọn ra, tiếp tục làm với chuỗi lại câu hết câu Đây dạng đơn giản phương pháp Maximum matching, dạng phức tạp tìm chuỗi phân đoạn dài từ liền Dạng phức tạp khơng trình bày - Cách thực ví dụ o Phân tách câu ban đầu thành chuỗi tiếng, chẳng hạn với câu C ta phân tích chuỗi tiếng là: C1 C2 C3 C4 … o Sử dụng vòng lặp để xác định chuỗi dài xác định từ cách so khớp với từ điển lexicon có sẵn Ví dụ: + Xác định C1 có từ hay khơng + Xác định C1C2 có phải từ khơng + Xác định C1C2C3 +…  Chuỗi dài xác định từ chọn o Xét chuỗi tiếng lại, lặp lại vòng lặp từ bước + Ví dụ với câu: Học sinh học sinh học • • • • Ta xác định tiếng: học, sinh, học, sinh, học Lần lượt xét chuỗi: học, học sinh, học sinh học, học sinh học sinh … So khớp với từ điển, ta xác định “học sinh” từ chuỗi dài thoả mãn  từ xác định là: học sinh Xét chuỗi tiếng lại – “học sinh học” lặp lại bước ta thu kết quả: o Học sinh | học sinh | học - Ưu điểm o Phương pháp giải nhập nhằng đơn o Cách tách từ đơn giản, nhanh chóng dễ thực hiện, cần dựa vào từ điển o Dễ dàng tách câu đơn giản như: thành lập | nước | Việt Nam | dân chủ | cộng hoà hay: cộng hoà | xã hội chủ nghĩa | Việt Nam - Nhược điểm o Phương pháp phụ thuộc hồn tồn vào độ xác đầy đủ từ điển  xây dựng từ điển đầy đủ vấn đề cốt lõi Mục tiêu khó khăn kho từ vựng dân gian vô lớn o Không giải nhập nhằng, chẳng hạn câu học sinh học sinh học phân tích thành:  Học sinh | học sinh | học Kết phải :  Học sinh | học | sinh học Phương pháp lai kết hợp Longest Maching ứng dụng - Mơ tả • Mục đích phương pháp nhằm xử lý nhập nhằng câu đưa tất khả tối ưu tách câu • Tư tưởng phương pháp cách kết hợp với từ điển để xác định từ, ta xây dựng cấu trúc liệu dạng miêu tả mối quan hệ tiếng câu theo thứ tự từ trái qua phải Thông qua cấu trúc này, ta xác định tất đường từ nút gốc đến nút Với trường hợp nhập nhằng, kết trả lại đáp án cách liệt kê tất đường ngắn - Cách thực ví dụ Các bước thực : • Với câu nhận được, ta phân tách chúng thành tổ hợp tiếng Giả sử với câu C ta phân tách tổ hợp tiếng C1 C2 C3 C4 C5 … • Với tiếng ta đưa vào cấu trúc liệu array gồm có id nút,parent_id id nút đứng liền trước value giá trị tiếng • Với nhập nhằng sinh đường riêng để đến nút • Duyệt ngược từ nút đến nút gốc để lấy tất cấu hình Ví dụ : Với câu ‘ơng quan tài giỏi’ ta tách thành từ ông,quan,quan tài,tài giỏi… tương ứng với xây dựng sau : id ông quan tài Quan tài Tài giỏi giỏi Giỏi - - Thứ tự nút đưa vào queue sau : ông-quan-quan tài-tài-tài giỏi-giỏi-giỏi.Sau duyệt ngược từ nút cuối để tìm đường Ưu điểm o Đưa tất phương pháp tách từ hợp lý o Tính trường hợp nhập nhằng Nhược điểm o Phụ thuộc vào đầy đủ xác từ điển o Chưa đưa phương pháp tối ưu, ví dụ cần có phương pháp để đưa phương án xác đáp án số o Với câu dài thời gian xử lý Một số phương pháp khác 3.1 Transforma Based Learning 3.1.1 Giới thiệu giải thuật học cải biến (Transforma based learning) Giải thuật học cải biến (TBL) phương pháp máy học dạng thống kê phát triển năm gần tiến sĩ Eric Brill Phương pháp đạt nhiều thành công ứng dụng lĩnh vực xử lý ngôn ngữ tự nhiên Phương pháp học cải biến TBL sử dụng ngữ liệu lớn xác định thông tin đầy đủ tay tập hợp mẫu luật chuyển đổi trạng thái, từ học sinh luật nhằm giải vấn đề đặt Phương pháp học đạt kết đáng kinh ngạc giải tốn lĩnh vực xử lý ngơn ngữ như: tách từ, đánh nhãn từ loại, xác định vị trí bổ nghĩa ngữ giới từ, bắt lỗi tả,khữ nhập nhằng ngữ nghĩa Hiện nay, ứng dụng TBL phát triển phương pháp học nhận nhiều nghiên cứu cải tiến đáng kể như: Fast TBL, μ TBL, Lazy TBL 10 giải toán cách kết hợp lời giải toán con, toán khơng độc lập với nhau, chúng có chung toán nhỏ Việc giải toán lần ghi nhớ lời giải bảng để truy cập đến cần Phương pháp cách tính ngược đệ quy, thay tính tốn theo mơ hình từ xuống(Top – down) tính theo mơ hình từ lên (Bottom – up) Vì quy hoạch động làm giảm thời gian chạy lời giải toán Phương pháp quy hoạch động giải toán theo phương án tối ưu, tức đưa tốn tìm phương án tối ưu số hữu hạn toán Nguyên lý tối ưu Bellman: dãy tối ưu lựa chọn dãy tối ưu Một giải thuật quy hoạch động xây dựng qua bước: • Xác định cấu trúc lời giải tối ưu: phân tích tốn, biểu diễn tốn • dạng toán nhiều mức Định nghĩa đệ quy cho giá trị lời giải tối ưu: xây dựng giải pháp đệ • quy, lập cơng thức truy hồi Tính giá trị lời giải tối ưu từ lên: lập bảng để tính giá trị theo • kiểu lên Xây dựng lời giải tối ưu từ thơng tin tính: tổng hợp kết Giải toán tách từ, phương pháp quy hoạch động sử dụng tập ngữ liệu để lấy thông tin tần số thống kê từ, làm tăng độ tin cậy tính tốn Việc tính tốn bắt đầu với đơn vị câu phân cách dấu câu, thành phần khơng có tính nhập nhằng phân tách văn Cách tách cuối tìm tổ hợp từ cho xác suất tối đa - - Ưu điểm: • Không cần sử dụng tập ngữ liệu đánh dấu xác • Giải vấn đề trùng lặp phải tính lại xác suất cực đại tổ hợp từ nhỏ Hạn chế: • Tập ngữ liệu đầu vào cần phải lớn để lấy xác suất từ • xác Theo thống kê: xác suất từ 51%, xác suất từ chấp nhận 65%, thấp so với phương pháp khác 12 3.3 Weighted Finin State Transducer( WFST) mạng Neural - Mơ hình mạng chuyển dịch trạng thái hữu hạn có trọng số(WFST) Mơ hình WFST Richard W.Sproat áp dụng tách từ từ năm 1996 Ý tưởng áp dụng WFST với trọng số xác suất xuất từ kho ngữ liệu Dùng WFST để duyệt qua câu cần xét, từ có trọng số lớn từ chọn để tách - Mơ hình tách từ WFST mạng Neural Khi áp dụng WFST đưa kết tách từ với xác suất kèm theo, phương pháp cho nhiều đáp án có xác suất xấp xỉ nhau, việc chọn lời giải tối ưu gặp khó khăn Để khắc phục khuyết điểm cần sử dụng thêm mạng Neural để khử nhập nhằng kết Do hệ thống tách từ tiếng Việt gồm tầng: • Tầng 1: WFST giải việc tách từ số vấn đề tiếng Việt • từ láy, tên riêng, … Tầng 2: mạng Neural dùng để khử nhập nhằng có Mơ hình WFST mạng Neural Tầng WFST Gồm có bước : 13 + Xây dựng từ điển trọng số: Theo mơ hình WFST, việc tách từ xem chuyển dịch trạng thái có xác suất Từ điển D đồ thị biến đổi trạng thái hữu hạn có trọng số Giả sử: - H: tập từ tiếng P: từ loại từ Mỗi cung D : - Từ phần tử H đến phần tử H - Từ (ký hiệu kết thúc từ) đến phần tử P Các nhãn D biểu thị chi phí ước lượng(estimated cost) cơng thức: Cost = -log(f/N) - Với f: tần số từ, N: kích thước tập mẫu Với từ mới, áp dụng xác suất có điều kiện Goog – Turning(Baayen) để tính trọng số + Xây dựng dãy khả tách từ: Vấn đề giảm bùng nổ tổ hợp sinh dãy từ từ dãy tiếng có câu Giả sử câu gồm n âm tiết, mà tiếng Việt nột từ gồm tối đa âm tiết tức có tối đa cách tách từ khác Một câu tiếng Việt có 24 âm tiết luc phải giải 8000000 trường hợp tách từ câu Với việc sử dụng từ điển hạn chế bùng nổ Khi thấy từ khơng có từ điển loại bỏ nhánh tách xuất phát từ + Lựa chọn khả tách từ tối ưu: Sau có danh sách cách tách từ có câu chọn trường hợp tách có tổng trọng số bé Tầng mạng Neural: Sau câu tách từ qua mô hình WFST Để xác định kết tách từ có thực hợp lệ khơng cần định ngưỡng giá trị với ý nghĩa: chênh lệnh trọng số( cách tách từ khác với cách tách có trọng số nhỏ nhất) lớn kết tách từ với trọng số nhỏ chấp nhận cịn 14 ngược lại kết tách với trọng số nhỏ chưa xem cách tách câu Lúc đưa cách tách từ câu qua mơ hình mạng Neural để xử lý tiếp Ví dụ: sau qua phần xử lý WFST ta cách tách có trọng số nhỏ chênh lệch trọng số không lớn : 1.học sinh/N học/V sinh học/N 2.học sinh/N học sinh/N học/V 3.học/V sinh học/N sinh học/N Trong thực tế tiếng Việt có dãy từ loại đứng cạnh theo luật ngữ pháp tiếng Việt dùng mơ hình mạng Neural ước lượng giá dãy từ loại: NNV, NVN, VNN Lúc tác giả tách từ tay đưa vào máy học để giải nhập nhằng Để kiểm tra từ loại dãy từ loại câu có hợp lệ hay khơng dùng hàm truyền sigmoid, hàm thông dụng mạng Neural Câu chọn câu có trọng số lớn nhât - Ưu điểm: • • • • Độ xác phương pháp cao ( 97%) Kết tách từ có độ tin cậy kèm theo Khi WFST có nhiều kết dùng Neural để khử nhập nhằng Kết phương pháp thường dùng cho dịch máy độ xác cao - Hạn chế: • Sự phong phú từ điển điều kiện định kết phương pháp Vì việc xây dựng tập từ điển khó khăn 3.4 Sử dụng thống kê Internet vào tách từ Đây phương pháp dựa vào Internet thơng qua cỗ máy tìm kiếm (search engine) tiêu biểu google, bing, yahoo… Bằng cách trích rút thơng tin thống kê tần số xuất tài liệu (document frequency-df), số lượng tài liệu đánh dấu … 15 Một ví dụ tìm kiếm với google Từ thống kê này, ta xây dựng hệ thống thu thập đánh giá mức độ liên kết từ Do từ tiếng Việt bao gồm nhiều tiếng, có đại lượng đặc trưng cho mức độ liên kết tiếng Mutual information – MI Đây khái niệm quan trọng lý thuyết thông tin, dùng xử lý ngôn ngữ tự nhiên để thể quan hệ giữa tiếng từ Mức độ liên kết thông tin tiếng x,y cho trước tính : MIxy= pxy / (px*py) Trong đó: px ,py tần số tài liệu tiếng x,y pxy tần số tài liệu tiếng x,y Một cách tương tự, với n tiếng liên tiếp: MI(cw) = p(cw) / ( p(lw) + p(rw)-p(cw) ) 16 Thơng thường MI từ thường cao hẳn MI cụm tiếng từ Phương pháp tương tự thống kê dựa vào học máy có điểm vượt trội tận dụng mạnh Internet - - IV Ưu điểm o Linh hoạt, đạt kết khả quan o Không cần dựa vào từ điển o Tận dụng kết search engine để xây dựng MI thay cho trình học máy thống kê tần suất liệu từ nguồn liệu ban đầu o Một ưu điểm bật nhận biết tên riêng, địa danh … từ thường khơng có từ điển o Khả đoán nhận từ cao Nhược điểm o Kết qủa phụ thuộc vào search engine nên khơng xác o Nếu khơng có xử lý thêm trường hợp nhập nhằng chưa giải o Phải thường xuyên request internet nên để tích luỹ tập học đáng kể lưu trữ MI nhiều thời gian Xây dựng hệ thống, thực nghiệm Cài đặt thuật tốn Bao gồm thuật tốn longest matching sử dụng cấu trúc - - Longest matching: o Sử dụng vòng lặp để quét tất trường hợp tổ hợp tiếng tiếng thứ đến kết thúc câu o Để cải thiện tốc độ, theo thống kê từ loại tiếng Việt có 1% từ có tiếng, khơng có từ tiếng nên ta cân nhắc duyệt từ dài tổ hợp tiếng Do vịng lặp thứ từ  o Độ phức tạp Ɵ(n*4) ~ Ɵ(n) o Trong file xlnntn2.php thuật tốn có cải tiến để kết hợp với việc tạo cấu trúc để duyệt câu Sử dụng cấu trúc iệu dạng cây: o Lưu trữ tiếng câu dạng cấu trúc gồm có id nút, parent_id id nút đứng trước value tiếng lưu trữ o Sử dụng thuật toán duyệt foreach ($word_list as $word){ $res= array(); $j=0; $k=0; $hit=1; array_push($res,$word); $cur=1+substr_count($word["value"],' '); while($cur$res[$leng-1-$k]["id"]); array_push($res,$get); $loop++; } } } } if(isset($arr[$cur+$j+1])){ $tempo.=" ".$arr[$cur+$j+1]; } } $cur++; } $length=count($res); for($k=0;$k 95% Nhận biết tên riêng, địa danh 21 Tuy nhiên em nhận thấy thuật toán nhận biết tên riêng, địa danh đơn giản khơng xác cao: Đó xét tiếng liền có chữ đầu tiếng viết hoa Chẳng hạn: - Đưa gợi ý phân giải nhập nhằng khơng thật xác 22 Hay V Đánh giá mở rộng báo cáo - - - Ưu điểm o Hệ thống phân tích tốt phần lớn câu thường gặp (chiếm 70-80%) o Đánh giá mức độ phù hợp kết dựa vào thống kê internet số mutual information o Đưa hết kết nhập nhằng o Xử lý đoạn văn bao gồm nhiều câu phân cách với dấu chấm Nhược điểm o Chưa xử lý dấu câu đặc biệt như: dấu ba chấm, gạch ngang, chấm than, chấm hỏi … Biện pháp thời xoá dấu câu o Chưa xử lý dạng số, tên viết tắt, email … o Thường tên riêng địa danh không đưa vào từ điển dẫn đến việc không nhận biết o Chưa đưa phương pháp tối ưu, gợi ý cho người dung cách tách câu khả quan trường hợp nhập nhằng  hướng cần mở rộng tương lai Mở rộng 23 o Cải tiến thuật toán để phân tách câu khơng bình thường o Kết hợp với mơ hình học máy mạng neural (như trình bày phần trên) ta tận dụng ưu điểm phương pháp VI Phân chia cơng việc Cơng việc thành viên nhóm em phân chia sau: - Em – Nguyễn Đức Long – nhóm trưởng: phụ trách cài đặt thuật toán Longest matching phương pháp sử dụng Nguyễn Văn Khải: nghiên cứu phương pháp khác, so sánh đánh giá kết quả, đưa phương pháp giải lỗi,sử dụng số tool trang web thầy Lê Hồng Phương, nhận xét đánh giá,test chương trình, nhận xét VII Kết luận Báo cáo đưa cách tổng quát cách tiếp cận phương pháp sử dụng để tách từ Mỗi phương pháp có ưu nhược điểm riêng tuỳ theo trường hợp sử dụng mà ta nên sử dụng phương pháp khác Trong báo cáo trình bày hai phương pháp đơn giản mà nhóm em cài đặt để tách từ, kết đạt khả quan cần phát triển thêm Mặc dù có nhiều nghiên cứu vấn đề này, thực chưa có giải pháp tối ưu để tách từ cách xác Vì đề tài thú vị có tính thách thức cao Cuối cùng, em xin gửi lời cảm ơn đến cô Lê Thanh Hương lý thuyết hay bổ ích vấn đề Sinh viên thực Nhóm 31 Nguyễn Đức Long 24 Nguyễn Văn Khải VIII Tài liệu tham khảo Slide giảng môn Xử lý ngôn ngữ tự nhiên cô Lê Thanh Hương Trang web thầy Lê Hồng Phương với tool xử lý tiếng Việt http://www.loria.fr/~lehong/ Các trang web http://www.vietlex.com/xu-li-ngon-ngu ; http://vlsp.vietlp.org:8080/demo/ Báo cáo “TÌM HIỂU CÁC HƯỚNG TIẾP CẬN BÀI TỐN PHÂN LOẠI VĂN BẢN VÀ XÂY DỰNG PHẦN MỀM PHÂN LOẠI TIN TỨC BÁO ĐIỆN TỬ KHÓA LUẬN CỬ NHÂN TIN HỌC” NGUYỄN TRẦN THIÊN THANH & TRẦN KHẢI HOÀNG Báo cáo “Hướng tiếp cận việc tách từ để phân loại văn Tiếng Việt sử dụng giải thuật di truyền thống kê internet” - (A nolvel Approach in Word segmentation to classify Vietnamese Documents Using GA and Internet-Based Statistics) Nguyễn Thanh Hùng, Đại học QG HCM, 2006 SỬ DỤNG BỘ GÁN NHÃN TỪ LOẠI XÁC SUẤT QTAG CHO VĂN BẢN TIẾNG VIỆT - A case study of the probabilistic tagger QTAG for Tagging Vietnamese Texts Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương Và số trang web khác theo google.com.vn 25 ... dấu câu  Tách từ câu ngôn ngữ đơn giản Trong tiếng Việt, khái niệm từ lại khái niệm phức tạp khó xác định nhiều Từ khơng phải đơn vị nhỏ câu mà tiếng Một từ cấu trúc từ tiếng, từ tiếng (từ đơn)...Mục Lục Đề tài : Sử dụng từ điển để tách từ câu tiếng Việt Mục Lục I.Giới thiệu đề tài 1.Đặt vấn đề II.Cách tiếp cận... âm tiết, mà tiếng Việt nột từ gồm tối đa âm tiết tức có tối đa cách tách từ khác Một câu tiếng Việt có 24 âm tiết luc phải giải 8000000 trường hợp tách từ câu Với việc sử dụng từ điển hạn chế

Ngày đăng: 23/10/2014, 23:27

Từ khóa liên quan

Mục lục

  • Đề tài : Sử dụng từ điển để tách từ trong câu tiếng Việt.

  • Mục Lục

  • I. Giới thiệu đề tài

    • 1. Đặt vấn đề

    • II. Cách tiếp cận bài toán

      • 1. Khái niệm từ trong Tiếng Việt

      • 2. Các hướng tiếp cận hiện nay

        • 2.1 Phương pháp tiếp cận dựa trên từ

        • 2. 2 Phương pháp tiếp cận dựa trên ký tự (tiếng)

        • III. Phân tích 1 số phương pháp giải quyết bài toán

          • 1. So khớp dài nhất (Longest matching)

          • 2. Phương pháp lai kết hợp Longest Maching và ứng dụng cây

          • 3. Một số phương pháp khác

            • 3.1 Transforma Based Learning

            • 3.2 Dynamic programming

            • 3.3 Weighted Finin State Transducer( WFST) và mạng Neural

            • 3.4 Sử dụng thống kê Internet vào tách từ

            • IV. Xây dựng hệ thống, thực nghiệm

              • 1. Cài đặt thuật toán

              • 2. Cài đặt hệ thống

              • 3. Chạy thử và thực nghiệm

              • 4. Sử dụng một số tool được cung cấp

              • V. Đánh giá và mở rộng báo cáo

              • VI. Phân chia công việc

              • VII. Kết luận

              • VIII. Tài liệu tham khảo

Tài liệu cùng người dùng

Tài liệu liên quan