Nghiên cứu một số kỹ thuật xử lý ngôn ngữ tiếng Việt và ứng dụng

67 1.2K 8
Nghiên cứu một số kỹ thuật xử lý ngôn ngữ tiếng Việt và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỞ ĐẦU Trong những năm gần đây, Công nghệ thông tin phát triển mạnh mẽ và đã, ứng dụng trên nhiều lĩnh vực trong cuộc sống như y tế, giáo dục,…trong đó việc ứng dụng trong cải cách hành chính đóng vai trò rất quan trọng. Đồng thời, sự phát triển kinh tế xã hội và sự toàn cầu hóa đã dẫn đến sự bùng nổ thông tin. Các thông tin tổ chức theo phương thức sử dụng giấy trong cơ quan nhà nước, trong giao dịch đang dần được số hóa. Có nhiều tính năng vượt trội mà phương thức này mang lại như có thể lưu trữ lâu dài, phân loại, tìm kiếm một cách nhanh chóng. Đó là lý do khiến cho số lượng thông tin số hóa ngày nay đang tăng dần theo cấp số nhân. Nó không chỉ để nâng cao năng lực, hiệu quả hoạt động của các cơ quan quản lý Nhà nước mà là yếu tố góp phần vào sự tăng trưởng, chuyển dịch cơ cấu kinh tế và làm thay đổi cơ bản cách quản lý, học tập, làm việc của con người. Ứng dụng Công nghệ thông tin để giải quyết công việc, phục vụ cải cách hành chính ngày càng trở thành công việc bắt buộc phải thực hiện tại mọi cơ quan tạo điều kiện cho tăng trưởng nhanh nền kinh tế và tạo những yếu tố tiền đề cho sự phát triển kinh tế tri thức, đồng thời tạo ra nhiều sản phẩm dịch vụ tiện ích góp phần đạt hiệu quả trong công tác quản lý điều hành, thúc đẩy hội nhập, nâng cao chất lượng cuộc sống cho xã hội. Xử lý ngôn ngữ là một trong những vấn đề phức tạp của Công nghệ thông tin. Vấn đề là ở chỗ là làm sao giúp máy tính hiểu được ngôn ngữ của con người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ con người trong những công việc có liên quan đến ngôn ngữ như: Dịch thuật, phân tích dữ liệu văn bản, nhận dạng tiếng nói, tìm kiếm thông tin, ... Kỹ thuật xử lý ngôn ngữ tiếng Việt có nhiều hướng tiếp cận khác nhau và đã có nhiều công trình nghiên cứu đạt những kết quả khả quan trong thời gian vừa qua, nó đóng vai trò quan trọng lĩnh vực xử lý dữ liệu văn bản. Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các từ trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định các từ đơn, từ ghép… có trong câu. Đối với xử lý ngôn ngữ, để có thể xác định cấu trúc ngữ pháp của câu, xác định từ loại của một từ trong câu, yêu cầu nhất thiết đặt ra là phải xác định được đâu là từ trong câu. Vấn đề này tưởng chừng đơn giản với con người nhưng đối với máy tính, đây là bài toán rất khó giải quyết. Chính vì lý do đó tách từ được xem là bước xử lý quan trọng đối với các hệ thống xử lý ngôn ngữ tự nhiên, đặc biệt là đối với các ngôn ngữ thuộc vùng Đông Á theo loại hình ngôn ngữ đơn lập, ví dụ: Tiếng Trung Quốc, tiếng Nhật, tiếng Thái, và tiếng Việt. Với các ngôn ngữ thuộc loại hình này, ranh giới từ không chỉ đơn giản là những khoảng trắng như trong các ngôn ngữ thuộc loại hình hòa kết như tiếng Anh…, mà có sự liên hệ chặt chẽ giữa các tiếng với nhau, một từ có thể cấu tạo bởi một hoặc nhiều tiếng. Vì vậy đối với các ngôn ngữ thuộc vùng Đông Á, vấn đề của bài toán tách từ là khử được sự nhập nhằng trong ranh giới từ. Do yêu cầu công việc cơ quan Hội đồng nhân dân (HĐND) tỉnh ngày càng cao nên số lượng văn bản tăng nhanh cả về số lượng và chủ đề. Tuy với khối lượng thông tin đồ sộ như vậy, nhưng nhu cầu đối với những đối tượng cụ thể khác nhau, tốc độ khác nhau. Để tìm được những thông tin cần thiết cho mục đích của mỗi người sẽ mất rất nhiều thời gian và công sức, như vậy cần có giải pháp để phân loại một cách tự động để giúp chúng ta xử lý văn bản được thuận tiện hơn. Có nhiều kỹ thuật xử lý ngôn ngữ tiếng Việt được đề xuất, mỗi phương pháp đều có lợi thế và bất lợi riêng khi sử dụng. Nhiều ứng dụng đã và đang được xây dựng dựa trên kỹ thuật tách từ rất hiệu quả. Vì vậy luận văn tập trung vào việc “Nghiên cứu một số kỹ thuật xử lý ngôn ngữ tiếng Việt và ứng dụng” với mục đích xây dựng hệ hỗ trợ phân loại văn bản tự động ở Văn phòng HĐND tỉnh. Cấu trúc của luận văn được sắp xếp theo bố cục sau đây: Chương 1 giới thiệu tổng quan ngôn ngữ xử lý tự nhiên, ngôn ngữ tiếng Việt, các đặc trưng cơ bản của tiếng Việt và một số kỹ thuật xử lý ngôn ngữ tự nhiên. Chương 2 tìm hiểu khái quát về tách từ Tiếng việt, lịch sử nghiên cứu và hướng tiếp cận bài toán tách từ. Từ đó đề xuất một số phương pháp tách từ tiếng Việt. Chương 3 tìm hiểu thực trạng việc ứng dụng Công nghệ thông tin trong Văn phòng HĐND tỉnh, đặt bài toán tự động hóa công tác lưu trữ trong Văn phòng, cụ thể nhu cầu phân loại văn bản tiếng Việt ở HĐND tỉnh; Tiếp đó ứng dụng hệ hỗ trợ phân loại văn bản theo nội dung, lĩnh vực, nơi ban hành và cuối chương là một vài đánh giá về phương pháp tách từ. Do thời gian thực hiện luận văn có hạn nên việc nghiên cứu và thực hiện có thể mắc phải một số thiếu sót ngoài ý muốn. Chúng tôi mong muốn nhận được các góp ý của quý thầy cô, bạn bè và những người quan tâm đến lĩnh vực này để đề tài được hoàn thiện hơn.

B GIO DC V O TO I HC HU TRNG I HC KHOA HC NGUYN TH CM QUNH Nghiên cứu số kỹ thuật xử lý ngôn ngữ tiếng Việt ứng dụng CHUYấN NGNH: KHOA HC MY TNH M S: 60.48.01.01 LUN VN THC S KHOA HC MY TNH Hu, 2015 MC LC Li cam oan Li cm n Mc lc Danh mc cỏc ch vit tt Danh mc cỏc bng Danh mc cỏc hỡnh v, th M U Chng TNG QUAN V X Lí NGễN NG TING VIT 1.1 X lý ngụn ng t nhiờn 1.1.1 Khỏi nim 1.1.2 Cỏc bc x lý 1.1.3 Cỏc bi toỏn v ng dng 12 1.2 Tỡm hiu v ting Vit v x lý ngụn ng ting Vit 14 1.2.1 S hỡnh thnh ca ting Vit 14 1.2.2 Mt s khỏi nim c bn v x lý ngụn ng ting Vit 17 1.2.3 c im ca ngụn ng ting Vit 19 1.2.4 c trng c bn ca Ting vit 23 1.3 Tng quan v x lý ngụn ng t nhiờn 25 1.3.1 Phng phỏp CRF 25 1.3.2 Phng phỏp hc da trờn s ci bin 26 1.4 Tng kt chng 27 Chng MT S K THUT X Lí NGễN NG 28 2.1 Khỏi quỏt v tỏch t ting Vit 28 2.1.1 Cỏc hng tip cn vi bi toỏn tỏch t 29 2.1.2 Nhp nhng tỏch t ting Vit 31 2.1.3 Loi b T dng 32 2.2 Mt s phng phỏp tỏch t ting Vit 32 2.2.1 Phng phỏp mụ hỡnh Markov n 32 2.2.2 Phng phỏp chuyn dch trng thỏi hu hn cú trng s v mng Neural 34 2.2.3 Phng phỏp so khp cc i 39 2.3 Tng kt chng 42 Chng H H TR PHN LOI V TèM KIM VN BN 43 3.1 Thc trng vic ng dng CNTT Vn phũng HND tnh 43 3.2 Gii thiu v t bi toỏn v t ng húa phõn loi v lu tr 44 3.2.1 Gii thiu 44 3.2.2 t bi toỏn 44 3.3 Thit k c s d liu 50 3.4 Ci t 52 3.5 Gii thiu chng trỡnh h h tr phõn loi v tỡm kim bn 53 3.6 Tng kt chng 58 KT LUN V HNG PHT TRIN 59 Kt lun 59 Hng phỏt trin ti 59 TI LIU THAM KHO 60 DANH MC CC CH VIT TT CSDL C s d liu CNTT Cụng ngh thụng tin HND Hi ng nhõn dõn UBND y ban nhõn dõn VB Vn bn AI Artificial intelligence HMM Hidden Markov Models NLP Natural language processing PHP Hypertext Preprocesso TBL Transformation-based Learning WFST Weighted Finite State Transducer DANH MC CC BNG Tờn bng S hiu bng Trang Bng 3.1 Loi bn 51 Bng 3.2 Ni ban hnh 51 Bng 3.3 Lnh vc 51 Bng 3.4 T khúa lnh vc 52 Bng 3.5 T in t khúa lnh vc 52 Bng 3.6 Bng T ting Vit 52 Bng 3.7 Lu tr bn 52 DANH MC CC HèNH V, TH S hiu hỡnh v Tờn hỡnh v Trang Hỡnh 1.1 Tớn hiu súng õm ca hai õm tit Ting Vit Hỡnh 1.2 Cỏc bc x lý bn Hỡnh 1.3 Cõy cỳ phỏp ca cõu Nam l sinh viờn gii 10 Hỡnh 1.4 Cỏch hot ng ca TBL 25 Hỡnh 2.1 Mụ hỡnh Markov n 33 Hỡnh 2.2 th vụ hng HMM 33 Hỡnh 2.3 S mụ hỡnh WFST 35 Hỡnh 3.1 Mụ hỡnh tng quỏt ca chng trỡnh 45 Hỡnh 3.2 Quy trỡnh tỏch t 46 Hỡnh 3.3 Quy trỡnh phõn loi v lu tr bn 47 Hỡnh 3.4 Quy trỡnh tra cu v tỡm kim bn 49 Hỡnh 3.5 Giao din trang ch chng trỡnh 53 Hỡnh 3.6 Giao din chớnh trang qun tr 54 Hỡnh 3.7 Nhp cỏc thụng tin cn thit cho vic phõn loi v lu tr bn 55 Hỡnh 3.8 Sau nhn nỳt x lý 56 Hỡnh 3.9 Sau nhn nỳt x lý (chn lnh vc cho bn) 56 Hỡnh 3.10 Lu bn thnh cụng 57 Hỡnh 3.11 Giao din chc nng tỡm kim theo t khúa dựng k thut tỏch t 58 M U Trong nhng nm gn õy, Cụng ngh thụng tin phỏt trin mnh m v ó, ng dng trờn nhiu lnh vc cuc sng nh y t, giỏo dc,trong ú vic ng dng ci cỏch hnh chớnh úng vai trũ rt quan trng ng thi, s phỏt trin kinh t xó hi v s ton cu húa ó dn n s bựng n thụng tin Cỏc thụng tin t chc theo phng thc s dng giy c quan nh nc, giao dch ang dn c s húa Cú nhiu tớnh nng vt tri m phng thc ny mang li nh cú th lu tr lõu di, phõn loi, tỡm kim mt cỏch nhanh chúng ú l lý khin cho s lng thụng tin s húa ngy ang tng dn theo cp s nhõn Nú khụng ch nõng cao nng lc, hiu qu hot ng ca cỏc c quan qun lý Nh nc m l yu t gúp phn vo s tng trng, chuyn dch c cu kinh t v lm thay i c bn cỏch qun lý, hc tp, lm vic ca ngi ng dng Cụng ngh thụng tin gii quyt cụng vic, phc v ci cỏch hnh chớnh ngy cng tr thnh cụng vic bt buc phi thc hin ti mi c quan to iu kin cho tng trng nhanh nn kinh t v to nhng yu t tin cho s phỏt trin kinh t tri thc, ng thi to nhiu sn phm dch v tin ớch gúp phn t hiu qu cụng tỏc qun lý iu hnh, thỳc y hi nhp, nõng cao cht lng cuc sng cho xó hi X lý ngụn ng l mt nhng phc ca Cụng ngh thụng tin Vn l ch l lm giỳp mỏy tớnh hiu c ngụn ng ca ngi, qua ú hng dn mỏy tớnh thc hin v giỳp ngi nhng cụng vic cú liờn quan n ngụn ng nh: Dch thut, phõn tớch d liu bn, nhn dng ting núi, tỡm kim thụng tin, K thut x lý ngụn ng ting Vit cú nhiu hng tip cn khỏc v ó cú nhiu cụng trỡnh nghiờn cu t nhng kt qu kh quan thi gian va qua, nú úng vai trũ quan trng lnh vc x lý d liu bn Tỏch t l mt quỏ trỡnh x lý nhm mc ớch xỏc nh ranh gii ca cỏc t cõu vn, cng cú th hiu n gin rng tỏch t l quỏ trỡnh xỏc nh cỏc t n, t ghộp cú cõu i vi x lý ngụn ng, cú th xỏc nh cu trỳc ng phỏp ca cõu, xỏc nh t loi ca mt t cõu, yờu cu nht thit t l phi xỏc nh c õu l t cõu Vn ny tng chng n gin vi ngi nhng i vi mỏy tớnh, õy l bi toỏn rt khú gii quyt Chớnh vỡ lý ú tỏch t c xem l bc x lý quan trng i vi cỏc h thng x lý ngụn ng t nhiờn, c bit l i vi cỏc ngụn ng thuc vựng ụng theo loi hỡnh ngụn ng n lp, vớ d: Ting Trung Quc, ting Nht, ting Thỏi, v ting Vit Vi cỏc ngụn ng thuc loi hỡnh ny, ranh gii t khụng ch n gin l nhng khong trng nh cỏc ngụn ng thuc loi hỡnh hũa kt nh ting Anh, m cú s liờn h cht ch gia cỏc ting vi nhau, mt t cú th cu to bi mt hoc nhiu ting Vỡ vy i vi cỏc ngụn ng thuc vựng ụng , ca bi toỏn tỏch t l kh c s nhp nhng ranh gii t Do yờu cu cụng vic c quan Hi ng nhõn dõn (HND) tnh ngy cng cao nờn s lng bn tng nhanh c v s lng v ch Tuy vi lng thụng tin s nh vy, nhng nhu cu i vi nhng i tng c th khỏc nhau, tc khỏc tỡm c nhng thụng tin cn thit cho mc ớch ca mi ngi s mt rt nhiu thi gian v cụng sc, nh vy cn cú gii phỏp phõn loi mt cỏch t ng giỳp chỳng ta x lý bn c thun tin hn Cú nhiu k thut x lý ngụn ng ting Vit c xut, mi phng phỏp u cú li th v bt li riờng s dng Nhiu ng dng ó v ang c xõy dng da trờn k thut tỏch t rt hiu qu Vỡ vy lun trung vo vic Nghiờn cu mt s k thut x lý ngụn ng ting Vit v ng dng vi mc ớch xõy dng h h tr phõn loi bn t ng Vn phũng HND tnh Cu trỳc ca lun c sp xp theo b cc sau õy: Chng gii thiu tng quan ngụn ng x lý t nhiờn, ngụn ng ting Vit, cỏc c trng c bn ca ting Vit v mt s k thut x lý ngụn ng t nhiờn Chng tỡm hiu khỏi quỏt v tỏch t Ting vit, lch s nghiờn cu v hng tip cn bi toỏn tỏch t T ú xut mt s phng phỏp tỏch t ting Vit Chng tỡm hiu thc trng vic ng dng Cụng ngh thụng tin Vn phũng HND tnh, t bi toỏn t ng húa cụng tỏc lu tr Vn phũng, c th nhu cu phõn loi bn ting Vit HND tnh; Tip ú ng dng h h tr phõn loi bn theo ni dung, lnh vc, ni ban hnh v cui chng l mt vi ỏnh giỏ v phng phỏp tỏch t Do thi gian thc hin lun cú hn nờn vic nghiờn cu v thc hin cú th mc phi mt s thiu sút ngoi ý mun Chỳng tụi mong mun nhn c cỏc gúp ý ca quý thy cụ, bn bố v nhng ngi quan tõm n lnh vc ny ti c hon thin hn Chng TNG QUAN V X Lí NGễN NG TING VIT X lý ngụn ng t nhiờn (Natural language processing) l bi toỏn lý thỳ nht v cng l khú khn nht ca ngnh mỏy tớnh t hn 50 nm qua c m dựng mỏy tớnh x lý ngụn ng ó gp phi tr ngi ln nht t phớa ngụn ng, ú l tớnh nhp nhng cú ca ngụn ng t nhiờn Tuy nhiờn, t thp niờn 50 n nay, cỏc nh ngụn ng hc v cỏc nh tin hc ó tng bc khc phc c ỏng k cỏc tr ngi ny v ó t nhiu kt qu kh quan Ngy nay, cụng ngh thụng tin (CNTT) ó v ang c trin khai, ng dng rng rói vo hot ng ca cỏc s, ngnh, y ban nhõn dõn (UBND) cỏc a phng trờn a bn tnh mi lnh vc, to c chuyn bin cụng tỏc lónh o, ch o ca c quan nh nc, nhm nõng cao nng sut, hiu qu hot ng ni b ca c quan nh nc v gia cỏc c quan nh nc, giao dch ca c quan nh nc vi t chc v cỏ nhõn ngy cng tt hn, gúp phn h tr y mnh ci cỏch hnh chớnh v bo m cụng khai, minh bch Va qua, Chớnh ph ó ban hnh quyt nh s 1605/Q-TTg, phờ duyt Chng trỡnh quc gia v ng dng CNTT hot ng ca c quan nh nc giai on 2011 2015 Theo ú, chng ny s gii thiu tng quan v ngụn ng t nhiờn, tỡm hiu cỏc c im ca ngụn ng ting Vit v x lý ngụn ng ting Vit, cỏc c trng c bn ca ting Vit v mt s k thut x lý ngụn ng ting Vit 1.1 X lý ngụn ng t nhiờn 1.1.1 Khỏi nim X lý ngụn ng t nhiờn (Natural language processing - NLP) l mt nhỏnh ca trớ tu nhõn to trung vo cỏc ng dng trờn ngụn ng ca ngi Trong trớ tu nhõn to thỡ x lý ngụn ng t nhiờn l mt nhng 47 * Vớ d 2: V/v b sung kinh phớ thay th, sa cha nõng cp h thng mỏy tớnh phc v bn c ca Th vin tnh Phỳ Yờn Tỏch t: V/v | b sung | kinh phớ | | thay th| sa cha | nõng cp | h thng | mỏy tớnh | phc v | bn c | ca | Th vin | tnh | Phỳ Yờn 3.2.3.2 Mụ t quy trỡnh phõn loi v lu tr bn S/Ký hiu Nhp bng tay Vn bn Ngy ban hnh Trớch yu Ti lờn Vn bn Trang x lý Tỏch t Loi bn S/Ký hiu Ni ban hnh Trớch yu Ngy ban hnh Ni lu tr Lnh vc Lu Lu C s d liu Trang ngi dựng Tra cu Tỡm kim Hỡnh 3.3 Quy trỡnh phõn loi v lu tr bn * Vớ d 1: Cho bn: Tp bn: QD HDND.doc; S: 15/Q-HND; 48 Ngy ban hnh: Ngy 27 thỏng 11 nm 2014; Trớch yu: Thnh lp on giỏm sỏt tỡnh hỡnh trin khai thc hin Ngh quyt ca HND tnh v phỏt trin du lch tnh Phỳ Yờn; Chng trỡnh ng dng k thut tỏch t s x lý d liu trờn nh sau: Loi bn: Q-> Quyt nh; C quan ban hnh: HND -> Hi ng nhõn dõn; Ngy ban hnh: 27/11/2014; Tỏch t: Thnh lp | on | giỏm sỏt | tỡnh hỡnh | trin khai | thc hin | Ngh quyt | ca | HND| tnh | v | phỏt trin | du lch | tnh | Phỳ Yờn; Gi ý cho ngi qun tr lnh vc ca bn: du lch -> du lch; Sau phõn loi xong, ngi qun tr kim tra li d liu nu ỳng thỡ bn s c lu vo c s d liu, bn s c ti lờn mỏy ch * Vớ d 2: Cho bn: Tp bn: CV HDND.doc; S: 150/HND-KTNS; Ngy ban hnh: Ngy 20 thỏng 01 nm 2015; Trớch yu: B sung kinh phớ thay th, sa cha nõng cp h thng mỏy tớnh phc v bn c ca Th vin tnh Phỳ Yờn Chng trỡnh ng dng k thut tỏch t s x lý d liu trờn nh sau: Loi bn: Cụng (khụng cú ký hiu loi bn); C quan ban hnh: HND -> Hi ng nhõn dõn; Ngy ban hnh: 20/01/2015; Tỏch t: B sung | kinh phớ | | thay th| sa cha | nõng cp | h thng | mỏy tớnh | phc v | bn c | ca | Th vin | tnh | Phỳ Yờn Gi ý cho ngi qun tr lnh vc ca bn: - Mỏy tớnh -> CNTT; - Th vin -> Giỏo dc; 49 Sau phõn loi xong, ngi qun tr kim tra li d liu nu ỳng thỡ bn s c lu vo c s d liu, bn s c ti lờn mỏy ch 3.2.3.3 Mụ t quy trỡnh tra cu v tỡm kim bn Chui t tỡm kim Tỏch t T, cm t tỡm kim Tra vo CSDL Cho Cỏc VB cn tỡm Hỡnh 3.4 Quy trỡnh tra cu v tỡm kim bn Vớ d: Gi s cú bn cú trớch yu nh sau: Vn bn 1: Kt qu giỏm sỏt tỡnh hỡnh trin khai thc hin cỏc Chng trỡnh mc tiờu Quc gia v lnh vc húa - xó hi trờn a bn tnh Phỳ Yờn, giai on 2012-2014 Vn bn 2: Quy nh v xột tng danh hiu Nh giỏo Nhõn dõn, Nh giỏo u tỳ Vn bn 3: Thc hin t kim tra v gi bn quy phm phỏp lut thuc lnh vc qun lý nh nc ca B Y t Vn bn 4: V vic tng cng cụng tỏc m bo trt t, an ton giao thụng nm 2015 50 Vn bn 5: Kt qu giỏm sỏt v tỡnh hỡnh trin khai thc hin Chng trỡnh mc tiờu Quc gia v nc sch v v sinh mụi trng nụng thụn trờn a bn tnh giai on 2012 2014 Vi chui t tỡm kim l: giỏm sỏt thc hin; Chng trỡnh s ng dng k thut tỏch t tỏch chui t trờn thnh cỏc t: giỏm sỏt v thc hin; Sau ú chng trỡnh s tỡm kim v a cỏc bn cú xut hin cỏc t ny trớch yu Chng trỡnh sp xp t ng theo th t u tiờn cho nhng bn gn vi ni dung tỡm kim nht (xut hin cỏc t tỡm kim nhiu ln nht), ng thi s tụ m v tụ cỏc t tỡm kim ú kt qu tỡm kim; Kt qu: Tỡm kim c bn bn trờn tha iu kin tỡm kim v c sp xp nh sau: Kt qu giỏm sỏt tỡnh hỡnh trin khai thc hin cỏc Chng trỡnh mc tiờu Quc gia v lnh vc húa - xó hi trờn a bn tnh Phỳ Yờn, giai on 2012- 2014 Kt qu giỏm sỏt v tỡnh hỡnh trin khai thc hin Chng trỡnh mc tiờu Quc gia v nc sch v v sinh mụi trng nụng thụn trờn a bn tnh giai on 2012 2014 Thc hin t kim tra v gi bn quy phm phỏp lut thuc lnh vc qun lý nh nc ca B Y t 3.3 Thit k c s d liu C s d liu cho bi toỏn bao gm cỏc bng sau: 51 Bng 3.1 Loi bn LOAIVANBAN Tờn trng Gii thớch Kiu d liu Kyhieu varchar(10) Ký hiu loi bn Chitiet varchar(50) Loi bn Thumucluu varchar(20) Tờn th mc lu bn thuc loi bn ny Bng 3.2 Ni ban hnh NOIBANHANH Tờn trng Gii thớch Kiu d liu Kyhieu varchar(15) Ký hiu ni ban hnh Chitiet varchar(255) Ni ban hnh Thumucluu varchar(20) Tờn th mc lu bn thuc ni ban hnh ny Bng 3.3 Lnh vc LINHVUC Tờn trng Linhvuc Kiu d liu varchar(50) Gii thớch Lnh vc 52 Bng 3.4 T khúa lnh vc TUKHOALINHVUC Tờn trng Kiu d liu Gii thớch Ma int(11) Mó Linhvuc varchar(50) Lnh vc Tukhoa varchar(70) T khúa Bng 3.5 T in t khúa lnh vc TUDIENTUKHOALINHVUC Tờn trng Kiu d liu Gii thớch Tu varchar(70) T Bng 3.6 Bng T ting Vit TUTIENGVIET Tờn trng Kiu d liu Gii thớch Tu varchar(70) T Bng 3.7 Lu tr bn Tờn trng Ma Sokyhieu Ngaybh Loaivanban Noibanhanh Linhvuc Trichyeu Noiluutru LUUTRUVANBAN Kiu d liu Gii thớch int(11) Mó varchar(20) S ký hiu int(11) Ngy ban hnh varchar(10) Loi bn varchar(15) Ni ban hnh varchar(50) Lnh vc Text Trớch yu varchar(255) ng dn lu tr bn 3.4 Ci t Hin nay, trờn th gii ó xut hin rt nhiu ngụn ng lp trỡnh, mi ngụn ng u cú nhng th mnh riờng Tựy theo yờu cu ca bi toỏn cn gii quyt cng nh phong cỏch lp trỡnh m cỏc lp trỡnh trỡnh viờn s la chn cho mỡnh mt ngụn ng lp trỡnh c th 53 i vi chng trỡnh h h tr phõn loi v tỡm kim bn ting Vit c quan HND tnh, chỳng tụi la chn ngụn ng PHP kt hp vi h qun tr c s d liu MySQL Vỡ PHP thớch hp vit ng dng Web ngi dựng d dng tra cu, tỡm kim bn bt c ni õu m khụng cn ci t chng trỡnh 3.5 Gii thiu chng trỡnh h h tr phõn loi v tỡm kim bn Giao din chớnh trang ngi dựng Hỡnh 3.5 Giao din trang ch chng trỡnh 54 Giao din chớnh trang qun tr Hỡnh 3.6 Giao din chớnh trang qun tr 3.5.1 Mt s chc nng chớnh ca ng dng * Phn ngi dựng: Hin th bn theo Loi bn; Ni ban hnh; Lnh vc; Hin th chi tit mt bn; Lc bn: cú th lc nhanh bn theo nhiu tiờu kt hp nh: loi bn, ni ban hnh v lnh vc; Tỡm kim theo t khúa: cú th nhp chui t cn tỡm, v kt qu l cỏc bn cú xut hin cỏc t ú, bn no cú ni dung gn nht vi chui t cn tỡm s c hin th lờn trc; Tỡm kim chi tit: cú th kt hp nhiu yu t tỡm kim nh s/ký hiu bn, loi bn, ni ban hnh, khong thi gian ban hnh, 55 * Phn qun tr: Phõn loi v lu tr: Chc nng ny dựng phõn loi v lu tr bn vo c s d liu, bn lờn mỏy ch Chc nng Thờm: Loi bn, ni ban hnh, lnh vc, t ting Vit Chc nng Qun lý: Loi bn, ni ban hnh, lnh vc Kim tra t ting Vit: Kim tra v qun lý cỏc t ting Vit 3.5.2 Chi tit cỏc chc nng ca chng trỡnh ng dng k thut tỏch t * Chc nng phõn loi v lu tr vn: Ngi qun tr chn bn ti lờn, nhp s, ký hiu, ngy ban hnh, trớch yu sau ú chn chc nng x lý Hỡnh 3.7 Nhp cỏc thụng tin cn thit cho vic phõn loi v lu tr bn Sau x lý bn s c phõn loi thnh: Loi bn, ni ban hnh, ngy thỏng ban hnh, trớch yu, t trớch yu chng trỡnh ng dng k thut tỏch t xỏc nh cỏc t khúa v gi ý cho ngi qun tr bn trờn thuc lnh vc no 56 Hỡnh 3.8 Sau nhn nỳt x lý Nhng lnh vc c gi ý s c a lờn trờn, nhng lnh vc khỏc s di du - ngi qun tr d dng chn la Hỡnh 3.9 Sau nhn nỳt x lý (chn lnh vc cho bn) 57 Ngi qun tr kim tra li kt qu phõn loi v chn lu bn thỡ bn s c ti lờn v lu tr trờn mỏy ch, ng dn lu bn s ph thuc vo loi bn v ni ban hnh ca bn, nu trựng tờn vi mt ó cú sn cựng th mc thỡ chng trỡnh t ng thờm cỏc s 1,2,3, vo sau tờn cho n cú c tờn khụng trựng; ng thi bn cng c lu vo c s d liu phc v cho vic tỡm kim v tra cu Hỡnh 3.10 Lu bn thnh cụng * Chc nng tỡm kim theo t khúa Vớ d: Khi ngi dựng nhp t cn tỡm l giỏm sỏt thc hin vo ụ tỡm kim, ri bm nỳt tỡm kim thỡ chng trỡnh ng dng k thut tỏch t tỡm tt c nhng bn no cú t giỏm sỏt, t thc hin phn trớch yu Chng trỡnh sp xp t ng theo th t u tiờn cho nhng bn gn vi ni dung tỡm kim nht (xut hin cỏc t tỡm kim nhiu ln nht), ng thi s tụ m v tụ cỏc t tỡm kim ú kt qu tỡm kim 58 Hỡnh 3.11 Giao din chc nng tỡm kim theo t khúa dựng k thut tỏch t 3.6 Tng kt chng ng dng chng trỡnh h h tr phõn loi v tỡm kim bn CBCC c quan Vn phũng HND tnh cú th d dng phõn loi t ng cỏc bn theo tng loi bn, c quan, n v ban hnh, lnh vc bn Hn th na, chng trỡnh ny s gúp phn thun li vic bo qun, lu tr ti liu, h s mt cỏch khoa hc, nhanh chúng ng thi, giỳp CBCC c quan cú th tỡm kim bn theo mt hoc nhiu tiờu sau: Loi bn, ni ban hnh, thi gian ban hnh, lnh vc c bit cú th tỡm kim theo cỏc t khúa m ngi dựng nh cú xut hin trớch yu bn 59 KT LUN V HNG PHT TRIN Kt lun Qua quỏ trỡnh thc hin ti Nghiờn cu mt s k thut x lý ngụn ng ting Vit v ng dng, lun ó t c cỏc kt qu nh sau: Tỡm hiu cỏc khỏi nim v cỏc bc x lý ngụn ng t nhiờn, cỏc k thut v cỏc bi toỏn liờn quan n x lý ngụn ng t nhiờn Cỏc c trng ngụn ng ting Vit, tỏch t ting Vit vi cỏc hng tip cn da trờn t in, tip cn da trờn thng kờ t v cỏc hin tng nhp nhng ting Vit Ngoi ra, cũn tỡm hiu mt s phng phỏp tỏch t ting Vit nh: So khp cc i, mụ hỡnh Markov n, chuyn dch trng thỏi hu hn cú trng s v mụ hỡnh chui xỏc sut cú iu kin Trờn c s ú, lun ó xõy dng c mt chng trỡnh h h tr phõn loi v tỡm kim bn t ng.Vỡ thi gian cũn hn ch nờn cỏc tớnh nng ca chng trỡnh cha thc s hon thin, nhng chng trỡnh ó ng dng k thut tỏch t bng phng phỏp so khp cc i phõn loi v tỡm kim bn s húa ti HND tnh Phỳ Yờn Hng phỏt trin ti Qua quỏ trỡnh nghiờn cu v thc hin ti, bờn cnh cỏc kt qu t c thỡ cũn tn ti mt s hn ch Do ú, hng nghiờn cu tip theo ca ti ny l: T ng c v nhn dng c ký hiu, thi gian ban hnh v trớch yu ca bn lu di dng Word (.doc, docx) v PDF (.pdf); Hon thin kho d liu t ting Vit kt qu phõn tớch ca chng trỡnh cú chớnh xỏc cao hn; Hon thin v nõng cp cỏc chc nng chng trỡnh x lý tt hn (x lý li ni dung cn ly ca bn, x lý li t ngi dựng,) 60 TI LIU THAM KHO Ting Vit H Tỳ Bo, Lng Chi Mai (2008), V x lý ting Vit cụng ngh thụng tin, Vin Cụng ngh Thụng tin, Vin Khoa hc v Cụng ngh tiờn tin Nht Bn Nguyn Thin Giỏp (2005), Lc s Vit ng hc (tp 1), Nh xut bn Giỏo dc, trang 63-66 Nguyn Hu Qunh (2001), Ng Phỏp Ting Vit, Nh xut bn t in Bỏch khoa ng Th Bớch Thy, H Bo Quc (2001), ng dng x lý ngụn ng t nhiờn h tỡm kim thụng tin bn ting Vit, Khoa Cụng Ngh Thụng Tin - i hc Khoa hc t nhiờn Thnh ph H Chớ Minh Laboratoire CLIP IMAG, Grenoble Ting Anh Chen, K J., & Liu, S H (1992) Word identification for Mandarin Chinese sentences Proceedings of the Fifteenth International Conference on Computational Linguistics, Nantes: COLING-92 Eric Brill (1995), Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging, Computational Linguistics, 21(4), pp 543-565 Phil Blunsom (2004), Hidden Markov Models, pp 1-7 Dinh Dien, Hoang Kiem, Nguyen Van Toan (2001) Vietnamese Word Segmentation The sixth 6th Natural Language Processing Pacific Rim Symposium Tokyo, Japan, pp 749 -756 Le An Ha (2003), A method for word segmentation in Vietnamese In Proceedings of Corpus Linguistics Lancaster, UK 61 10 John Lafferty, Andrew McCallum, Fernando Pereira (2001) Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data 11 Xuan- Hieu, Phan Le- Minh, Nguyen Cam- Tu Nguyen, Trung- Kien Nguyen and Quang- Thuy Ha (2005), Vietnamese word segmentation with crfs and svms: An investigation In Proceeding of the 20th Pacific Asia Conference on Language, Information and Computation (PACLIC20), pages 215-222 Wuhan, China 12 Chih-Hao Tsai (2000) MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm [...]... khác nhau mà tiếng Việt cũng có sự thích nghi cho phù hợp Trải qua một quá trình phát triển lâu dài và bền vững, tiếng Việt đồng thời cũng có nhiều sự thay đổi và ngày càng phúc tạp hơn Đây cũng là một khó khăn lớn dối với người sử dụng tiếng Việt nói chung và xử lý tiếng Việt nói riêng 28 Chương 2 MỘT SỐ KỸ THUẬT XỬ LÝ NGÔN NGỮ 2.1 Khái quát về tách từ tiếng Việt Tiếng Việt là một ngôn ngữ đơn lập,... của ngôn ngữ tiếng Việt Tiếng Việt là một ngôn ngữ đơn lập, đặc điểm này bao quát toàn bộ tiếng Việt về mặt ngữ âm, ngữ nghĩa và ngữ pháp Do đó chúng ta phải tiến hành tìm hiểu đặc điểm này của tiếng Việt để có thể có được những hướng nghiên cứu cụ thể về văn bản tiếng Việt [3] 1.2.3.1 Tiếng và đặc điểm của tiếng Trong tiếng Việt, cũng như trong các văn bản tiếng Việt, ta có thể thấy tiếng là một thành... vị ngôn ngữ chính thức của quốc gia” cho tiếng Việt Từ đó, tiếng Việt đã phát triển nhanh chóng, toàn diện, có ảnh hưởng sâu rộng đến tất cả các ngôn ngữ thiểu số ở Việt Nam 1.2.2 Một số khái niệm cơ bản về xử lý ngôn ngữ tiếng Việt 1.2.2.1 Xử lý ngôn ngữ Là xử lý thông tin khi đầu vào là “dữ liệu ngôn ngữ (dữ liệu cần biến đổi), tức dữ liệu “văn bản” hay tiếng nói” Các dữ liệu liên quan đến ngôn ngữ. .. nghĩa ngôn ngữ, công cụ hoàn hảo nhất của tư duy và giao tiếp Xử lý ngôn ngữ tự nhiên nhằm mục đích: Phân tích, nhận biết, tổng hợp ngôn ngữ tự nhiên Là cơ sở chính để hiểu ngôn ngữ, dịch ngôn ngữ, xử lý tiếng nói, xử lý văn bản, Để xử lý ngôn ngữ tự nhiên bằng máy tính, trên thế giới người ta đã cho ra đời một ngành học mới được kết hợp giữa hai ngành máy tính và ngôn ngữ học, được gọi là ngôn ngữ. .. lai) sử dụng ngôn ngữ tự nhiên để giao tiếp giữa người và máy, máy có khả năng hiểu được ngôn ngữ tự nhiên của con người và trả lời các câu hỏi của con người Thậm chí máy sẽ dịch được các ngôn ngữ tự nhiên từ một ngôn ngữ này sang một một ngôn ngữ khác một cách nhanh chóng và chính xác Với một hệ thống xử lý ngôn ngữ tự nhiên, đầu vào của một hệ thống có thể là một hoặc nhiều câu dưới dạng tiếng nói... các quy luật từ ngôn ngữ và liên tục “sửa sai” cho luật thông qua quá trình lặp là phù hợp với bài toán xử lý ngôn ngữ tự nhiên 1.4 Tổng kết chương Chương này trình bày khái niệm và các bước để xử lý ngôn ngữ tự nhiên, các kỹ thuật và các bài toán liên quan đến xử lý ngôn ngữ tự nhiên Ngoài ra, chương này còn tìm hiểu về sự hình thành, phát triển và một số đặc điểm nổi bật của tiếng Việt Qua đó cho... mỗi tiếng ứng độc lập và ta có thể phát hiện được ngay các tiếng trong cả tiếng nói cũng như văn bản Tiếng và giá trị ngữ âm Ngữ âm chính là mặt âm của ngôn ngữ Tại sao ta lại phải nghiên cứu khía cạnh này của ngôn ngữ tiếng Việt? Đó là vì trên thực tế, các ứng dụng liên quan đến tiếng Việt như dịch thuật, lưu trữ người ta vẫn ghi lại âm thành dạng văn bản, sau đó mới tiến hành các thao tác xử lý Mỗi... toán cụ thể trong xử lý ngôn ngữ tự nhiên 1.2.2.4 Các cấp độ trong ngôn ngữ Âm tiết hay tiếng: Là do một hay nhiều âm phát ra cùng một lúc tạo thành Tiếng là đơn vị cơ bản trong tiếng Việt và có âm đầu, vần và thanh Hình vị: Hình vị được xem là đơn vị tế bào gốc, đơn vị tế bào của ngôn ngữ và còn được gọi là “từ tố” Hình vị tiếng Việt có khi gồm có một tiếng nhưng cũng có khi gồm nhiều tiếng tạo thành... Chính vì lý do đó tách từ được xem là bước xử lý quan trọng đối với các hệ thống xử lý ngôn ngữ tự nhiên, đặc biệt là đối với các ngôn ngữ thuộc vùng Đông Á theo loại hình ngôn ngữ đơn lập, như Tiếng Trung Quốc, tiếng Nhật, tiếng Thái và tiếng Việt Với các ngôn ngữ thuộc loại hình này, ranh giới từ không chỉ đơn giản là những khoảng trắng như trong các ngôn ngữ thuộc loại hình hòa kết như tiếng Anh…,... của tiếng Việt là tiếng Môn-Khơme, bao gồm hàng trăm ngôn ngữ phân bố thành 3 vùng lớn: Bắc Mon-Khmer, Nam MonKhmer và Đông Mon-Khmer Từ tiếng Đông Mon-Khmer tách ra một ngôn ngữ gọi là proto Việt- Katu Sau một thời gian, ngôn ngữ này lại tách ra làm hai là Katu và proto Việt Chứt Tổ tiên trực tiếp của người nói tiếng Việt ngày nay là các bộ tộc người nói tiếng proto Việt Chứt này Các cư dân nói tiếng ... hiểu đặc điểm ngôn ngữ tiếng Việt xử lý ngôn ngữ tiếng Việt, đặc trưng tiếng Việt số kỹ thuật xử lý ngôn ngữ tiếng Việt 1.1 Xử lý ngôn ngữ tự nhiên 1.1.1 Khái niệm Xử lý ngôn ngữ tự nhiên (Natural... thiệu tổng quan ngôn ngữ xử lý tự nhiên, ngôn ngữ tiếng Việt, đặc trưng tiếng Việt số kỹ thuật xử lý ngôn ngữ tự nhiên Chương tìm hiểu khái quát tách từ Tiếng việt, lịch sử nghiên cứu hướng tiếp... khăn lớn dối với người sử dụng tiếng Việt nói chung xử lý tiếng Việt nói riêng 28 Chương MỘT SỐ KỸ THUẬT XỬ LÝ NGÔN NGỮ 2.1 Khái quát tách từ tiếng Việt Tiếng Việt ngôn ngữ đơn lập, không biến

Ngày đăng: 14/12/2015, 21:33

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan