báo cáo sư lỹ ngôn ngữ tự nhiên đề tài xác định biên giới câu

27 649 0
báo cáo sư lỹ ngôn ngữ tự nhiên đề tài xác định biên giới câu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC BÁCH KHOA HÀ NỘI Viện Công Nghệ Thông Tin Và Truyền Thông BÁO CÁO BÀI TẬP LỚN Môn: Xử Lý Ngôn Ngữ Tự Nhiên Đề tài: Xác định biên giới câu Nhóm sinh viên thực hiện: Phạm Khương Duy SHSV: 20080459 Đặng Vũ Hạnh SHSV: 20080899 Chu Gia Khôi SHSV: 20081409 Lê Công Quyền SHSV: 20082136 Trần Bá Tùng SHSV: 20083041 Hà Nội, 5/2012 Mục Lục Mở đầu…………………………………………………………………………………………………………………3 Mở đầu Trong moät vaên baûn baèng tieáng Anh hay baèng baát kyø moät ngoân ngöõ thoâng duïng naøo khaùc, thoâng thöôøng thì ngöôøi ta duøng daáu chaám (.), chaám than (!), chaám hoûi (?) vaø moät soá daáu khaùc nöõa ñeå nhaän bieát keát thuùc caâu (ta goïi nhöõng daáu naøy laø nhöõng daáu baùo hieäu keát thuùc caâu hay daáu chaám caâu) Tuy nhieân do tính nhaäp nhaèng cuûa daáu baùo hieäu keát thuùc caâu (chaúng haïn nhö daáu keát thuùc caâu trong töø vieát taét, …) neân vieäc xaùc ñònh ranh giôùi caâu khoâng ñôn giaûn nhö chuùng ta nghó Ví duï nhö daáu chaám, noù coù theå bieåu thò nhö moät daáu chaám thaäp phaân, moät cuïm töø vieát taét, söï keát thuùc caâu vaên hoaëc ngay caû töø vieát taét naèm ôû cuoái caâu vaên Moät daáu chaám hoûi hay daáu chaám than coù theå xuaát hieän trong daáu ngoaëc ñôn, ngoaëc keùp hay cuõng nhö ôû cuoái caâu Söï maäp môø cuûa caùc daáu chaám caâu naøy ñöôïc minh hoïa qua caùc ví duï sau: • The group included Dr J.M Freeman and T Boone Pickens Jr 2 • • • • “This issue crosses party lines and crosses philosophical lines!” said Rep John Rowland (R., Conn.) It was due Friday 5 p.m Saturday would be too late She has an appointment at 5 p.m Saturday to get her car fixed Trong tröôøng hôïp 1 vaø 2, töø naèm ngay tröôùc hoaëc naèm ngay sau daáu chaám caâu cho ta nhöõng thoâng tin quan troïng veà vai troø cuûa daáu trong caâu Tuy nhieân, boä phaän taùch caâu caàn phaûi coù nhieàu thoâng tin veà ngöõ caûnh hôn trong tröôøng hôïp vieäc chaám caâu xuaát hieän ôû moät caâu con trong daáu ngoaëc ñôn hoaëc daáu ngoaëc keùp, nhö trong tröôøng hôïp 2; hay khi chöõ vieát taét xuaát hieän ôû cuoái caâu nhö trong tröôøng hôïp 3 vaø 4 Ñeå nhaän dieän daáu chaám caâu, ngöôøi ta coù theå duøng caùc heuristics hoaëc caùc moâ hình hoïc phöùc taïp hôn, nhö: maïng neural, TBL, Maximum Entropy 3 1 TAÙCH CAÂU BAÈNG CAÙC HEURISTICS Sau khi nhaän ñöôïc ñoaïn vaên ñaõ ñöôïc loïc caùc kyù töï dö thöøa, caùc kyù töï phuï, boä phaän taùch caâu baét ñaàu phaân tích döïa treân caùch chaám caâu vaø ngöõ nghóa cuûa moät soá töø ñeå taùch caùc caâu ra rieâng bieät 1.1 Xöû lyù daáu chaám Daáu chaám “.” laø daáu coù nhieàu tröôøng hôïp mô hoà nhaát Sau ñaây laø caùc tröôøng hôïp daáu chaám xuaát hieän: 1 Daáu chaám keát thuùc caâu vaên 2 Daáu chaám thaäp phaân trong chöõ soá (1,234.567) 3 Daáu chaám bieåu thò söï vieát taét (Mr., Dr.,…) 4 Daáu chaám trong caùc tröôøng hôïp khaùc nhö soá taøi khoaûn, ñòa chæ Internet, email… (www.abc.com hay nbc@hcm.vnn.vn) 4 Ñeå coù theå phaân bieät caùc tröôøng hôïp treân, ta coù theå döïa vaøo moät soá ñaëc tröng rieâng trong caùch trình baøy cuûa töøng tröôøng hôïp sau: 1 Neáu daáu chaám khoâng thuoäc caùc tröôøng hôïp coøn laïi (tröôøng hôïp 2,3 vaø 4), thì daáu hieäu ñeå nhaän bieát keát thuùc caâu seõ laø: “luoân coù ít nhaát moät khoaûng traéng sau daáu chaám vaø kyù töï tieáp theo neáu laø chöõ caùi seõ ñöôïc vieát hoa.” 2 Ta coù theå nhaän bieát daáu chaám thaäp phaân baèng caùch ñoïc toaøn boä phaàn lieàn tröôùc vaø lieàn sau daáu chaám ñeå phaùt hieän soá coù daáu chaám thaäp phaân 3 Ñeå nhaän bieát daáu chaám trong tröôøng hôïp caùc töø vieát taét, ta xaây döïng moät danh saùch caùc töø vieát taét ñeå tra cöùu khi caàn 4 Tröôøng hôïp naøy laø tröôøng hôïp coù caùc caùch trình baøy ña daïng nhaát, nhöng vaãn coù tính chaát chung laø daáu chaám khoâng bao giôø naèm cuoái töø, luoân ôû giöõa hai kyù töï naøo ñoù (nghóa laø khoâng coù khoaûng traéng lieàn sau) neân coù theå deã daøng phaân bieät Nhöõng quy luaät treân ñaây laø nhöõng quy luaät chung nhaát trong caùch trình baøy vaên baûn tieáng Anh Do döïa chuû yeáu vaøo caùch trình baøy vaên baûn neân coù ñieåm yeáu laø deã nhaàm laãn khi vaên baûn ñöa vaøo coù caùch trình baøy khaùc chuaån; vaø do khoâng hieåu nghóa caâu neân khoâng theå phaân bieät moät soá tröôøng hôïp mô hoà nhö trong ví duï: 1- It was due Friday 5 p.m Saturday would be too late 2- She has an appointment at 5 p.m Saturday to get her car fixed Ñeå xaùc ñònh ñöôïc daáu chaám (in ñaäm) trong 2 tröôøng treân coù phaûi laø daáu chaám heát caâu hay khoâng cuõng laø 1 vieäc khoâng ñôn giaûn ñoái vôùi maùy, thaäm chí ñoái vôùi ngöôøi maø trình ñoä tieáng Anh chöa vöõng Trong caû hai tröôøng hôïp, töø ngay tröôùc hoaëc ngay sau daáu chaám caâu cho ta nhöõng thoâng tin quan troïng veà 5 vai troø cuûa daáu trong caâu Tuy nhieân, boä phaän taùch caâu seõ phaûi caàn nhieàu thoâng tin veà ngöõ caûnh vaø cuù phaùp hôn trong tröôøng hôïp söï chaám caâu xuaát hieän ôû moät caâu con nhö trong tröôøng hôïp 1 1.2 Xöû lyù daáu caâu trong ngoaëc Khi boä taùch caâu gaëp daáu môû ngoaëc ñôn, hoaëc ngoaëc keùp, thì noù seõ queùt trong ñoaïn vaên ñang xeùt ñeå tìm daáu ñoùng töông öùng Neáu tìm thaáy, toaøn boä phaàn trong ngoaëc seõ ñöôïc giöõ nguyeân, vaø tìm daáu keát thuùc caâu tieáp theo ngoaøi daáu ngoaëc Neáu khoâng tìm thaáy daáu ñoùng töông öùng, daáu môû seõ bò boû qua vaø xöû lyù tieáp kyù töï sau daáu môû nhö bình thöôøng 2 TAÙCH CAÂU BAÈNG MAÏNG NEURAL Ñaây laø caùch tieáp caän do D.Palmer ñöa ra vôùi ñoä chính xaùc raát cao (côõ 99,5 %) baèng caùch söû duïng moät maïng neural vôùi thoâng tin ñaàu vaøo laø nhöõng töø xung quanh daáu baùo hieäu keát thuùc caâu (goïi laø ngöõ caûnh cuûa daáu baùo hieäu ñoù) vaø ñaàu ra laø moät giaù trò cho pheùp xaùc ñònh ñoù coù phaûi laø keát thuùc caâu hay khoâng Vôùi caùch tieáp caän naøy, chuùng ta seõ bieãu dieãn ngöõ caûnh xung quanh moät daáu chaám caâu (chaúng haïn töø vaø töø loaïi cuûa 3 töø tröôùc vaø 3 töø sau daáu chaám) baèng moät daõy caùc vector xaùc suaát, moãi vector xaùc suaát ñaïi dieän cho moät töø thuoäc ngöõ caûnh ñoù Xaùc suaát söû duïng cho moãi töø trong ngöõ caûnh laø xaùc suaát lôùn nhaát trong soá caùc xaùc suaát cuûa caùc töø loaïi coù theå coù cuûa töø ñoù, xaùc suaát naøy coù ñöôïc töø moät töï ñieån chöùa döõ lieäu veà taàn suaát cuûa töøng töø loaïi cho moãi töø Vector ngöõ caûnh hay 6 coøn ñöôïc goïi laø maûng moâ taû ñöôïc söû duïng laøm ñaàu vaøo cho moät maïng neural vôùi caùc troïng soá ñaõ ñöôïc huaán luyeän treân ngöõ lieäu ñaõ taùch caâu Ñaàu ra cuûa maïng neural sau ñoù ñöôïc söû duïng ñeå xaùc ñònh vai troø cuûa daáu chaám caâu trong caâu (laø keát thuùc caâu hay khoâng) Goïi f laø giaù trò cuûa haøm sigmoid ñaàu ra cuûa maïng neural Neáu f < t1 thì ta keát luaän daáu chaám naøy khoâng phaûi laø chaám caâu, coøn neáu f > t2 thì ñaây laø daáu chaám caâu (vôùi 0 < t1 ≤ t2 < 1 ) Coøn neáu t1 ≤ f ≤ t2 thì ta khoâng theå keát luaän ñaây coù laø daáu chaám caâu hay khoâng Luùc naøy, ta coù theå nhôø ñeán taàng xöû lyù khaùc ñeå quyeát ñònh, nhö moâ hình döôùi: Caáu truùc toång quaùt cuûa moâ hình taùch caâu söû duïng maïng neural nhö sau: Hình : Taùch caâu baèng maïng neural Nhö vaäy, heä thoáng seõ bao goàm 4 taàng xöû lyù laø: taùch token, xaùc ñònh töø loaïi, xaây döïng maûng moâ taû vaø tính giaù trò keát quaû ñaàu ra baèng maïng neural: 2.1 Boä phaän taùch token 7 Token laø moät daõy tuaàn töï caùc kyù töï trong baûng chöõ caùi, hoaëc daõy tuaàn töï caùc con soá (moät chöõ soá coù chöùa daáu chaám laø daáu chaám thaäp phaân ñöôïc xem nhö laø moät token), hoaëc moät kyù töï khoâng naèm trong baûng chöõ caùi (nhö daáu chaám caâu, daáu ngoaëc keùp, caùc kyù töï môû roäng, …) Nhieäm vuï cuûa boä phaän taùch token laø chia vaên baûn ñaàu vaøo (laø moät daõy caùc kyù töï) ra thaønh caùc token rôøi raïc, caùc token naøy ñöôïc duøng ñeå laøm ñaàu vaøo cho boä phaän tìm kieám töø loaïi ñeå noù tính vector xaùc suaát Nhö vaäy, töø moät vaên baûn ñöa vaøo, ñaàu tieân boä phaän taùch token seõ döïa vaøo caùc khoaûng troáng coù trong vaên baûn ñeå taùch ra thaønh caùc chuoãi con, nhöõng chuoãi con naøy coù theå laø moät token theo ñònh nghóa ôû treân, cuõng coù theå laø hôïp cuûa nhieàu token Chính vì theá cho neân chuùng ta khoâng theå söû duïng noù ngay ñöôïc maø vôùi moãi chuoãi con nhö vaäy, chuùng ta phaûi xaùc ñònh xem noù coù ñuùng laø token hay khoâng, neáu ñuùng thì söû duïng noù ñeå ñöa vaøo cho taàng sau, neáu khoâng thì chuùng ta phaûi chia nhoû noù ra thaønh caùc token tröôùc khi ñöa vaøo cho taàng sau Ví duï chuoãi con “that’s” khoâng phaûi laø moät token maø chuùng ta phaûi chia noù ra thaønh 2 token laø “that” vaø “is” Ñoù laø tröôøng hôïp ngöôøi ta söû duïng löôïc (apostrophe) Neáu trong vaên baûn coù theå ngöôøi ta ñaùnh caâu tröôùc vaø caâu sau lieàn nhau chaúng haïn nhö: “… on the drive.Specify a minus…” thì khi ñoù chuùng ta cuõng phaûi chia chuoãi “drive.Specify” thaønh 3 token laø “drive”, “.” vaø “specify” Nhöng neáu coù moät chuoãi con nhö: “e.g” thì chuùng ta khoâng theå taùch thaønh 3 token laø “e”, “.” vaø “g” ñöôïc maø phaûi giöõ nguyeân ñoù laø moät token Laøm theá naøo ñeå nhaän bieát ra ñöôïc ñieàu naøy? Ñeå ñôn giaûn, boä phaän taùch token coù chöùa moät danh saùch caùc töø vieát taét thoâng duïng, neáu moät chuoãi con naøo ñoù thuoäc moät 8 trong caùc töø vieát taét naøy thì noù ñöôïc xem laø moät token vaø chuùng ta khoûi phaûi taùch nhoû noù ra Hôn nöõa, caùc token sau khi ñöôïc taùch ra phaûi coù yù nghóa, nghóa laø chuùng phaûi coù trong töø ñieån, lôïi duïng ñaëc ñieåm naøy, chuùng ta bieát ñöôïc khi naøo thì phaûi chia nhoû thaønh nhieàu token, khi naøo thì khoâng Ta coù theå moâ taû vaén taét thuaät toaùn taùch vaên baûn thaønh caùc token nhö sau: • Böôùc 1: Taùch moät chuoãi con töø vaên baûn ñaàu vaøo (nhôø vaøo khoaûng traéng) Böôùc 2: Neáu chuoãi con khoâng toàn taïi (heát vaên baûn) thì keát thuùc Böôùc 3: Kieåm tra xem chuoãi con toàn taïi trong töø ñieån hay khoâng Neáu coù • trong töø ñieån thì ta ñöôïc moät token vaø chuyeån ñeán böôùc 5 Böôùc 4: Taùch chuoãi con thaønh n chuoãi con (n >= 1) nhôø vaøo caùc daáu caâu • • trong chuoãi con Neáu toàn taïi moät chuoãi con coù trong töø ñieån thì ta ñöôïc n • token, neáu khoâng thì ta ñöôïc moät token Böôùc 5: Quay laïi böôùc 1 2.2 Boä phaän xaùc ñònh töø loaïi * Bieãu dieãn ngöõ caûnh: Ngöõ caûnh xung quanh moät daáu chaám caâu coù theå ñöôïc bieãu dieãn baèng nhieàu caùch khaùc nhau Moät caùch ñôn giaûn nhaát vaø deã nhaän thaáy nhaát laø söû duïng nhöõng töø ñôn ngay phía tröôùc vaø phía sau daáu caâu, chaúng haïn nhö trong ví duï sau, ta söû duïng ngöõ caûnh goàm ba töø phía tröôùc vaø ba töø phía sau daáu chaám caâu: at the plant He had thought Ñeå xaùc ñònh ñöôïc daáu chaám caâu trong ví duï treân coù thöïc söï laø keát thuùc caâu hay khoâng, ta caàn phaûi xem xeùt caùc töø trong ngöõ caûnh ñoù coù khaû naêng keát thuùc hay baét ñaàu cuûa moät caâu hay khoâng Cuõng vaäy, trong moät ngoân ngöõ naøo ñoù thì khi xem xeùt moät daáu chaám caâu, ta cuõng phaûi xaùc ñònh taát caû caùc töø thuoäc ngöõ 9 caûnh cuûa daáu chaám caâu ñoù vaø ta caàn xaùc ñònh raèng caùc töø ñoù coù khaû naêng laø keát thuùc hay baét ñaàu cuûa moät caâu hay khoâng Tuy nhieân ñeå laøm ñöôïc vieäc naøy trong moãi ngoân ngöõ thì seõ maát raát nhieàu thôøi gian vaø caàn moät löôïng döõ lieäu löu tröõ lôùn ñeå chöùa thoâng tin phuïc vuï cho vieäc xaùc ñònh treân, maëc khaùc nhöõng thoâng tin naøy laïi khoâng höõu ích cho vieäc xöû lyù ôû nhöõng taàng tieáp theo cuûa heä thoáng nhö ñaõ moâ taû ôû treân Ñeå giaûi quyeát khoù khaên treân, chuùng ta ñöa ra moät caùch tieáp caän khaùc laø xaáp xæ ngöõ caûnh xung quanh moät daáu chaám caâu Ngöõ caûnh coù theå ñöôïc xaáp xæ baèng vieäc söû duïng moät töø loaïi duy nhaát cho moãi töø Theo caùch naøy thì ngöõ caûnh trong ví duï treân ñöôïc bieãu dieãn baèng moät daõy tuaàn töï caùc töø loaïi nhö sau: preposition article noun (tröôùc daáu chaám) pronoun verb verb (sau daáu chaám) Vieäc yeâu caàu xaùc ñònh chæ moät töø loaïi duy nhaát cho moãi töø naûy sinh moät quaù trình xöû lyù voøng, nguyeân nhaân laø bôûi vì phaàn lôùn caùc boä phaän xaùc ñònh töø loaïi yeâu caàu phaûi xaùc ñònh tröôùc ranh giôùi cuûa töøng caâu trong vaên baûn, nghóa laø vieäc taùch caâu phaûi ñöôïc laøm xong tröôùc khi xaùc ñònh töø loaïi ! Trong khi ôû ñaây, ta môùi baét ñaàu thöïc hieän vieäc taùc caâu Chính vì vaäy yeâu caàu xaùc ñònh moät töø loaïi cho moãi töø duy nhaát laø voâ lyù Ñeå loaïi boû quaù trình xöû lyù voøng naøy vaø loaïi boû söï caàn thieát phaûi coù moät töø loaïi duy nhaát cho moãi töø, moãi töø trong ngöõ caûnh coù theå ñöôïc xaáp xæ baèng xaùc suaát cao nhaát trong taát caû caùc xaùc suaát cuûa töøng töø loaïi coù theå coù cuûa töø ñoù Chaúng haïn nhö töø moät töø naøo ñoù coù caùc xaùc suaát laø: 10% xuaát hieän nhö töø loaïi A, 20% xuaát hieän nhö töø loaïi B, 30% xuaát hieän nhö töø loaïi C vaø 40% xuaát hieän 10 Nhöõng token chöùa moät con soá (0 9) ñöôïc giaû ñònh laø chöõ soá Baát kyø token naøo baét ñaàu baèng moät daáu chaám (.), chaám than (!), hoaëc chaám hoûi (?) thì ñöôïc gaùn moät nhaõn: “daáu coù khaû naêng keát thuùc caâu” Phöông phaùp naøy giaûi quyeát ñöôïc nhöõng daáu keát thuùc caâu daïng nhö “?!” Töø coù chöùa moät daáu chaám (.) ôû giöõa ñöôïc giaû ñònh laø töø vieát taét (ví duï: e.g., Mr., Mrs., …) Nhöõng töø vieát hoa khoâng phaûi luoân luoân laø danh töø rieâng (proper noun) ngay caû khi noù xuaát hieän ôû moät vò trí khoâng phaûi laø vò trí ñaàu caâu (ví duï töø “American” thöôøng ñöôïc söû duïng nhö moät tính töø) Nhöõng töø nhö vaäy khoâng coù trong töï ñieån ñöôïc gaùn moät xaùc suaát laø 0.9 cho danh töø rieâng Nhöõng töø vieát hoa xuaát hieän trong töï ñieån nhöng khoâng ñöôïc xem nhö danh töø rieâng vaãn coù theå laø danh töø rieâng Do vaäy nhöõng töø naøy ñöôïc gaùn moät xaùc suaát laø 0.5 cho danh töø rieâng Cuoái cuøng, töø seõ ñöôïc gaùn cho moät danh saùch taát caû caùc töø loaïi coù theå coù cuûa heä thoáng vôùi xaùc suaát chia ñeàu cho moãi töø loaïi Nhöõng heuristics naøy coù theå ñöôïc thay ñoåi deã daøng vaø thích hôïp vôùi töøng ngoân ngöõ môùi cuï theå Chaúng haïn xaùc suaát cuûa moät töø vieát hoa laø danh töø rieâng trong tieáng Anh cao hôn trong tieáng Ñöùc 2.3 Xaây döïng maûng moâ taû cho moät töø Vôùi moãi token trong vaên baûn ñaàu vaøo chuùng ta caàn xaây döïng moät vector xaùc suaát ñeå soá hoùa vieäc moâ taû token Vector naøy coøn ñöôïc goïi laø “maûng moâ taû” Töø ñieån coù theå chöùa töø 70 ñeán 80 töø loaïi cho neân vieäc ñaàu tieân chuùng ta caàn laøm 13 laø aùnh xaï nhöõng töø loaïi naøy thaønh nhöõng töø loaïi toång quaùt hôn Chaúng haïn nhöõng töø loaïi nhö present tense verb, past participle vaø modal verb ñeàu ñöôïc aùnh xaï thaønh töø loaïi verb Chính vì vaäy, nhöõng töø loaïi traû veà bôûi boä phaän tìm kieám ñöôïc aùnh xaï thaønh 18 töø loaïi toång quaùt hôn nhö sau: Noun Verb Article Modifier Conjunction Pronoun Preposition Proper noun Number Comma or semicolon Left parentheses Right parentheses Non-punctuation character Possessive Colon or dash Abbreviation Sentence-ending punctuation Others Vaø khi ñoù taàn suaát cho moãi töø loaïi ñöôïc coäng laïi töø caùc taàn suaát cuûa caùc töø loaïi aùnh xaï veà noù (ví duï nhö khi 3 töø loaïi present tense verb, past participle vaø 14 modal verb ñöôïc aùnh xaï thaønh töø loaïi verb thì taàn suaát cuûa töø loaïi verb seõ baèng toång taàn suaát cuûa caùc töø loaïi: present tense verb, past participle vaø modal verb) Taàn suaát cuûa 18 töø loaïi naøy sau ñoù ñöôïc chuyeån thaønh xaùc suaát baèng caùch chia taàn suaát cho toång taát caû caùc taàn suaát Ngoaøi möôøi taùm xaùc xuaát naøy, maûng moâ taû cuûa töø coøn chöùa theâm hai côø cho bieát töø ñoù coù baét ñaàu baèng moät kyù töï hoa hay khoâng vaø töø ñoù coù ñi sau moät daáu chaám caâu hay khoâng Nhö vaäy coù taát caû hai möôi thaønh phaàn trong moãi maûng moâ taû cho moät töø Ta coù theå moâ taû vaén taét thuaät toaùn xaây döïng maûng moâ taû cho moät töø nhö sau: • • • • • Böôùc 1: Tìm kieám töø trong töø ñieån Böôùc 2: Kieåm tra xem töø coù trong töø ñieån hay khoâng Neáu khoâng coù thì chuyeån sang böôùc 4 Böôùc 3: AÙnh xaï caùc töø loaïi cuûa töø tìm ñöôïc thaønh 18 töø loaïi toång quaùt Chuyeån sang böôùc 5 Böôùc 4: Heuristics cho nhöõng töø khoâng tìm thaáy Böôùc 5: Coäng theâm 2 côø nhö ñaõ trình baøy ôû treân vaø ñöôïc maûng moâ taû Tính keát quaû baèng maïng neural 2.4 Kieán truùc cuûa maïng Ñaàu vaøo cuûa maïng laø k * 20 ñôn vò nhaäp (input unit) vôùi k laø soá töø cuûa ngöõ caûnh xung quanh moät daáu keát thuùc caâu (goïi laø “ngöõ caûnh - k”) vaø 20 laø soá löôïng phaàn töû cuûa moãi maûng moâ taû cho moät töø (nhö ñaõ trình baøy ôû treân) Taàng nhaäp (input) cuûa maïng neural ñöôïc keát noái hoaøn toaøn vôùi moät taàng aån bao goàm j nuùt vôùi moät haøm “neùn” laø sigmoid Nhöõng ñôn vò aån naøy laïi ñöôïc keát noái hoaøn 15 toaøn vôùi moät taàng xuaát (output) chæ coù moät ñôn vò xuaát ñöôïc duøng ñeå xaùc ñònh keát quaû Ñaàu ra cuûa maïng laø moät giaù trò ñôn naèm trong khoaûng töø 0 ñeán 1, noù bieåu thò cho khaû naêng keát thuùc caâu cuûa daáu baùo hieäu keát thuùc caâu xuaát hieän trong ngöõ caûnh ñoù Ñeå xaùc ñònh daáu chaám caâu ñoù coù thöïc söï laø keát thuùc caâu hay khoâng, ta ñònh nghóa 2 ngöôõng giaù trò t 0 vaø t1 duøng ñeå xaùc ñònh keát quaû cho vieäc xaùc ñònh keát thuùc caâu vôùi yù nghóa nhö sau: Neáu giaù trò ñaàu ra nhoû hôn t 0, daáu baùo hieäu keát thuùc caâu khoâng ñöôïc xem laø keát thuùc caâu coøn neáu giaù trò ñaàu ra lôùn hôn hay baèng t1, noù ñöôïc xem laø keát thuùc caâu vaø neáu giaù trò ñaàu ra naèm trong khoaûng töø t0 ñeán t1 thì maïng vaãn chöa xaùc ñònh ñöôïc ñoù laø keát thuùc caâu hay khoâng, neân noù seõ ñöôïc xöû lyù theâm ôû nhöõng taàng sau ñoù Roõ raøng laø khi t 0 = t1 thì moïi daáu caâu ñeàu ñöôïc xaùc ñònh hoaëc laø keát thuùc caâu hoaëc laø khoâng keát thuùc caâu 16 Hình: Kieán truùc maïng neural cho vieäc taùch caâu Ñeå thöïc hieän vieäc taùch caâu cho moät vaên baûn vôùi “ngöõ caûnh - k”, ta söû duïng moät cöûa soå coù kích thöôùc k+1 token vaø maûng moâ taû cuûa noù tröôït treân vaên baûn ñaàu vaøo, k/2 token tröôùc vaø k/2 token sau cuûa cöûa soå bieåu thò cho ngöõ caûnh cuûa token ôû giöõa Neáu token ôû giöõa laø moät daáu caâu coù khaû naêng keát thuùc caâu (daáu baùo hieäu keát thuùc caâu) thì maûng moâ taû cho caùc token cuûa ngöõ caûnh ñöôïc ñöa vaøo maïng neural vaø keát quaû ñöa ra cuûa maïng neural chæ ñònh raèng token ôû giöõa coù phaûi laø keát thuùc caâu hay khoâng nhôø vaøo hai ngöôõng t 0 vaø t1 ñaõ noùi ôû treân • Huaán luyeän maïng: 17 Döõ lieäu huaán luyeän bao goàm 2 vaên baûn maø ranh giôùi cuûa taát caû caùc caâu ôû trong ñoù ñaõ ñöôïc ñaùnh daáu Vaên baûn thöù nhaát, ñöôïc goïi laø vaên baûn huaán luyeän, chöùa khoaûng töø 250 ñeán 500 tröôøng hôïp caùc daáu chaám caâu maø ta chöa bieát laø noù coù keát thuùc caâu hay khoâng (töùc laø “daáu chaám caâu nhaäp nhaèng”) Caùc troïng cuûa maïng neural ñöôïc huaán luyeän treân vaên baûn huaán luyeän baèng caùch söû duïng thuaät toaùn lan truyeàn ngöôïc (backpropagation algorithm) Vaên baûn thöù 2 ñöôïc duøng cho vieäc huaán luyeän ñöôïc goïi laø vaên baûn giaùm saùt, noù bao goàm khoaûng töø 125 ñeán 250 tröôøng hôïp daáu chaám caâu nhaäp nhaèng ñöôïc trích ra töø vaên baûn huaán luyeän Vieäc huaán luyeän khoâng thöïc hieän treân vaên baûn naøy maø noù ñöôïc duøng ñeå taêng tính toång quaùt cuûa vieäc huaán luyeän Khi giaù trò cuûa toång loãi tính treân vaên baûn giaùm saùt ñaït ñöôïc moät giaù trò nhoû nhaát thì quaù trình huaán luyeän ñöôïc döøng Sau ñoù vieäc kieåm tra ñöôïc thöïc hieän treân moät vaên baûn ñoäc laäp vôùi vaên baûn huaán luyeän vaø vaên baûn giaùm saùt 2.5 Keát quaû Ñeå ñaùnh giaû keát quaû cuûa boä tieàn xöû lyù, taùc giaû ñaõ caøi ñaët boä phaän noùi treân vaøo trong heä thoáng dòch töï ñoäng Anh-Vieät, vaø ñaõ ñaït ñöôïc keát quaû sau: Ñaàu tieân taùc giaû xaây döïng moät vaên baûn tieáng Anh thoâng thöôøng duøng ñeå huaán luyeän goàm coù 573 tröôøng hôïp coù daáu heát caâu nhaäp nhaèng vaø moät vaên baûn giaùm saùt goàm coù 258 tröôøng hôïp daáu heát caâu nhaäp nhaèng duøng ñeå huaán luyeän Sau ñoù taùc giaû taïo moät vaên baûn vôùi caùc caâu ñaõ ñöôïc ñaùnh daáu heát caâu saün, duøng ñeå kieåm tra keát quaû ñaït ñöôïc cuûa chöông trình Vaên baûn naøy goàm coù 18 27294 tröôøng hôïp daáu heát caâu nhaäp nhaèng maø trong ñoù coù khoaûng 75% tröôøng hôïp thöïc söï laø keát thuùc caâu • Ñoä roäng ngöõ caûnh Ñeå xaùc ñònh kích thöôùc ngöõ caûnh toái öu cho vieäc taùch caâu, taùc giaû ñaõ söû duïng nhieàu kích thöôùc khaùc nhau cuûa ngöõ caûnh vaø coù ñöôïc keát quaû sau: Baûng : Xaùc ñònh kích thöôùc ngöõ caûnh toái öu Loãi treân taäp huaán luyeän laø giaù trò nhoû nhaát cuûa nöûa toång bình phöông cuûa taát caû caùc loãi cuûa caùc maãu trong taäp huaán luyeän Loãi treân taäp giaùm saùt cuõng laø giaù trò coù yù nghóa töông töï nhö loãi treân taäp huaán luyeän nhöng laø loãi cuûa taát caû caùc maãu trong taäp giaùm saùt Hai giaù trò loãi naøy duøng ñeå xaùc ñònh khi naøo thì maïng ngöøng hoïc töø döõ lieäu huaán luyeän, vaø cho ñöôïc keát quaû toát nhaát trong vieäc taùch caâu trong caùc vaên baûn ñoäc laäp Töø döõ lieäu thoáng keâ ñöôïc nhö treân, taùc giaû keát luaän raèng kích thöôùc cuûa ngöõ caûnh laø 6 token (3 token phía tröôùc vaø 3 token phía sau) thì cho ra moät keát quaû toát nhaát • Soá nuùt taàng aån: Ñeå xaùc ñònh soá nuùt toái öu cuûa taàng aån cho vieäc taùch caâu, taùc giaû ñaõ thöû kieåm tra nhieàu giaù trò khaùc nhau cuûa kích thöôùc taàng aån vaø coù ñöôïc keát quaû 19 thoáng keâ cho trong baûng döôùi ñaây (Caùc khaùi nieäm gioáng nhö trong phaàn Ñoä roäng ngöõ caûnh) Baûng: Xaùc ñònh soá nuùt toái öu • Nguyeân nhaân gaây ra loãi: Nhö ñaõ trình baøy trong phaàn Ñoä roäng ngöõ caûnh vaø Soá nuùt taàng aån, ta thaáy raèng keát quaû toát nhaát ñaït ñöôïc khi ñoä roäng ngöõ caûnh laø 6 token vaø soá nuùt taàng aån laø 2 nuùt Vôùi caùc tham soá naøy thì trong soá 27294 tröôøng hôïp, maïng ñöa ra 409 tröôøng hôïp bò loãi, tính ra theo phaàn traêm thì noù ñaït ñöôïc ñoä chính xaùc khoaûng 98.5% Nhöõng loãi naøy rôi vaøo moät trong hai tröôøng hôïp sau: - Loãi thuaän: Laø loãi maø moät daáu chaám caâu khoâng phaûi laø keát thuùc caâu nhöng noù ñöôïc ñaùnh daáu laø keát thuùc caâu - Loãi nghòch: Laø loãi maø moät daáu chaám caâu laø keát thuùc caâu nhöng noù khoâng ñöôïc ñaùnh daáu laø keát thuùc caâu Baûng sau ñaây cho bieát keát quaû thoáng keâ ñöôïc veà soá loãi cuûa hai loaïi treân: 20 Baûng: Soá loãi caùc loaïi Keát quaû kieåm tra treân 27294 tröôøng hôïp, t0=t1=0.5, ngöõ caûnh - 6, 2 nuùt ôû taàng aån Nhöõng loãi naøy coù theå ñöôïc chia nhoû thaønh nhöõng nhoùm sau ñaây: - 37.6% loãi thuaän taïi moät töø vieát taét ôû giöõa moät tieâu ñeà hoaëc moät teân, thöôøng laø vì töø ñi theo sau daáu chaám caâu cuõng coù maët trong töø ñieån vôùi moät töø loaïi khaùc (Mr Gray, Col North, Mr Major, Dr Carpenter, Mr Sharp) - 22.5% loãi nghòch vì moät töø vieát taét naèm taïi vò trí cuoái cuûa caâu nhö: Inc., Co., Corp., hay U.S Khi nhöõng töø naøy naèm taïi giöõa caâu thì maïng khoâng maüc phaûi loãi naøy - 11.0% loãi thuaän hoaëc nghòch khi moät daõy tuaàn töï caùc kyù töï bao goàm daáu chaám vaø daáu trích daãn Ngay caû khi daõy naøy xuaát hieän ôû giöõa hay cuoái cuûa caâu thì maïng cuõng bò loãi - 9.2% loãi nghòch nguyeân nhaân laø moät töø vieát taét ñi theo sau laø daáu trích daãn - 9.8% loãi thuaän hoaëc nghòch nguyeân nhaân laø do daáu “ ” xuaát hieän taïi cuoái hay giöõa caâu - 9.9% loãi chung chung bao goàm nhöõng kyù töï laï (-, *, ), nhöõng caâu khoâng ñuùng ngöõ phaùp, sai chính taû, vaø nhöõng caâu chuù thích 21 Hai daïng loãi ñaàu chæ ra raèng heä thoáng taùch caâu gaëp nhieàu khoù khaên trong vieäc nhaän daïng chöùc naêng cuûa nhöõng töø vieát taét Taùc giaû ñaõ coá gaéng xöû lyù tröôøng hôïp naøy baèng caùch chia töø vieát taét trong töï ñieån ra thaønh 2 nhoùm: Nhoùm “töø vieát taét tieâu ñeà” nhö Mr vaø Dr phaàn lôùn khoâng bao giôø xuaát hieän taïi cuoái caâu vaønhoùm “nhöõng töø vieát taét coøn laïi” Tuy nhieân, vôùi söï saép xeáp môùi naøy, thôøi gian huaán luyeän taêng leân ñaùng keå maø chæ loaïi boû ñöôïc 12 tröôøng hôïp loãi trong toång soá 409 tröôøng hôïp loãi ñaõ neâu ôû treân (2.9%) Hai daïng loãi thöù 3 vaø thöù 4 minh hoïa cho söï khoù khaên trong vieäc phaân bieät moät caâu con ôû beân trong moät caâu Vaán ñeà naøy coù theå ñöôïc xöû lyù baèng caùch taïo moät söï phaân loaïi môùi cho nhöõng daáu chaám caâu Töông töï, caùc daïng loãi coøn laïi cuõng coù theåõ ñöôïc giaûi quyeát baèng caùch taïo ra moät söï phaân loaïi môùi cho nhöõng daáu chaám caâu, vaø sau ñoù coá gaéng xaùc ñònh vai troø cuûa nhöõng daáu chaám caâu khoâng phuï thuoäc vaøo giôùi haïn cuûa caâu • Caùc ngöôõng giaù trò khaùc nhau: Nhö ñaõ moâ taû trong phaàn tröôùc, giaù trò ñaàu ra cuûa maïng neural ñöôïc söû duïng ñeå xaùc ñònh vai troø cuûa daáu chaám caâu (keát thuùc hay khoâng keát thuùc) döïa cô sôû treân giaù trò cuûa noù vaø hai ngöôõng, khi maø giaù trò ñaàu ra rôi trong khoaûng giöõa hai ngöôõng thì noù bieåu thò raèng daáu chaám caâu ñoù vaãn chöa xaùc ñònh ñöôïc laø keát thuùc caâu hay khoâng Tröôøng hôïp naøy ñöôïc bieåu thò baèng coät “Khoâng xaùc ñònh” trong baûng sau ñaây, noù cung caáp keát quaû thí nghieäm cuûa heä thoáng vôùi caùc ngöôõng khaùc nhau Khi 2 ngöôõng t0 vaø t1 ñeàu coù giaù trò laø 0.5 thì khoâng coù tröôøng hôïp naøo rôi vaøo coät “Khoâng xaùc ñònh” 22 Baûng : Keát quaû vôùi caùc möùc ngöôõng khaùc nhau 2.6 Keát hôïp boä phaân tích cuù phaùp Trong tröôøng hôïp khoâng xaùc ñònh, heä seõ keát hôïp theâm boä phaân tích cuù phaùp ñeå xaùc ñònh tính hôïp cuù phaùp cho töøng phaàn ôû hai beân daáu chaám Boä phaân tích cuù phaùp duøng ôû ñaây duøng giaûi thuaät Earley vôùi boä luaät ñôn giaûn, chuû yeáu laø phaân tích caâu ñôn Ví duï: 1- It was due Friday 5 p.m Saturday would be too late 2- She has an appointment at 5 p.m Saturday to get her car fixed Neáu caû hai phaàn ñeàu hôïp cuù phaùp, thì daáu chaám ñoù ñuùng laø daáu chaám caâu (tröôøng hôïp 1) Ngöôïc laïi, khoâng phaûi laø daáu chaám caâu (tröôøng hôïp 2) Do ñoù tæ leä caâu nhaän dieän ñuùng seõ ñöôïc taêng leân Keát quaû ñöôïc thoáng keâ nhö sau: 23 Baûng: Keát hôïp boä phaân tích cuù phaùp 2.7 Nhaän xeùt Moät ñieåm maïnh cuûa phöông phaùp tieáp caän theo maïng neural ñeå taùch caâu nhö ñaõ trình baøy ôû treân laø noù coù theå töông thích ñöôïc vôùi caùc loaïi vaên baûn khoâng coù moät theå thöùc chuaån nhö vaên baûn chæ toaøn laø chöõ hoa hoaëc vaên baûn chæ toaøn laø chöõ thöôøng Ñeå minh hoïa cho vieäc naøy, taùc giaû ñaõ chuyeån vaên baûn huaán luyeän, vaên baûn giaùm saùt vaø vaên baûn kieåm tra thaønh daïng chæ toaøn laø chöõ thöôøng Sau khi huaán luyeän laïi maïng vôùi daïng chöõ thöôøng, heä thoáng taùch caâu ôû treân cho ñöôïc moät keát quaû laø 96.2% Töông töï nhö vaäy, sau khi chuyeån caùc vaên baûn treân thaønh daïng chöõ hoa, heä thoáng cho ra keát quaû laø 97.4% 24 KEÁT LUAÄN Caùch taùch caâu baèng maïng NEURAL do D.Palmer ñöa ra vôùi ñoä chính xaùc raát cao (côõ 99,5 %) vôùi thoâng tin ñaàu vaøo laø nhöõng töø xung quanh daáu baùo hieäu keát thuùc caâu (goïi laø ngöõ caûnh cuûa daáu baùo hieäu ñoù) vaø ñaàu ra laø moät giaù trò cho pheùp xaùc ñònh ñoù coù phaûi laø keát thuùc caâu hay khoâng Ngoaøi ra noù coù theå töông thích ñöôïc vôùi caùc loaïi vaên baûn khoâng coù moät theå thöùc chuaån nhö vaên baûn chæ toaøn laø chöõ hoa hoaëc vaên baûn chæ toaøn laø chöõ thöôøng 25 Tài Liệu Tham Khảo 1 2 3 Xử Lý Ngôn Ngữ Tự Nhiên của tác giả Đinh Điền Foundation of Statistical Natural Language Processing http://vi.wikipedia.org/wiki/X%E1%BB%AD_l%C3%BD_ng 4 %C3%B4n_ng%E1%BB%AF_t%E1%BB%B1_nhi%C3%AAn http://dc145.4shared.com/doc/UQCfXAwQ/preview.html 26 ... cần phải xem xét từ ngữ cảnh có khả kết thúc hay bắt đầu câu hay không Cũng vậy, ngôn ngữ xem xét dấu chấm câu, ta phải xác định tất từ thuộc ngữ cảnh dấu chấm câu ta cần xác định từ có khả kết... cầu xác định từ loại cho từ nảy sinh trình xử lý vòng, nguyên nhân phần lớn phận xác định từ loại yêu cầu phải xác định trước ranh giới câu văn bản, nghóa việc tách câu phải làm xong trước xác định. .. để xác định kết Đầu mạng giá trị đơn nằm khoảng từ đến 1, biểu thị cho khả kết thúc câu dấu báo hiệu kết thúc câu xuất ngữ cảnh Để xác định dấu chấm câu có thực kết thúc câu hay không, ta định

Ngày đăng: 23/10/2014, 23:25

Từ khóa liên quan

Mục lục

  • 1. TÁCH CÂU BẰNG CÁC HEURISTICS

    • 1.1 Xử lý dấu chấm

    • 1.2 Xử lý dấu câu trong ngoặc

    • 2. TÁCH CÂU BẰNG MẠNG NEURAL

      • 2.1 Bộ phận tách token

      • 2.2 Bộ phận xác đònh từ loại

      • 2.3 Xây dựng mảng mô tả cho một từ

      • 2.4 Kiến trúc của mạng

      • 2.5 Kết quả

      • 2.6 Kết hợp bộ phân tích cú pháp

      • 2.7 Nhận xét

Tài liệu cùng người dùng

Tài liệu liên quan