Báo cáo khoa học: "UN OUTIL MULTIDIMENSIONNEL" pdf

5 186 0
Báo cáo khoa học: "UN OUTIL MULTIDIMENSIONNEL" pdf

Đang tải... (xem toàn văn)

Thông tin tài liệu

UN OUTIL MULTIDIMENSIONNEL DE L'ANALYSE DU DISCOURS J. CHAUCHE Laboratoire de Traitement de l'Information I.U.T. LE HAVRE Place Robert Schuman - 76610 LE HAVRE FRANCE & C.E.L.T.A. 23, Boulevard Albert let - 54000 NANCY FRANCE RESUME : Le traitement automatique du discours suppose un traitement algorithmique et informatique. Plu- sieurs m~thodes permettent d'appr~hender cet as- pect. L'utilisation d'un langage de programmation g~n~ral (par exemple PL/I) ou plus orient~ (par exemple LISP) repr~sente la premiere approche. A l'oppos~, l'utilisation d'un logiciel sp~cialis~ permet d'~viter l' ~tude algorithmlque n~cessaire dana le premier cas et de concentrer cette ~tude sur les aspects r~ellement sp~cifiques de ce trai- tement. Lea choix qui ont conduit ~ la d~finition du syst~ne SYGI4ART sont exposes ici. L'aspect mul- tldimensionnel eat analys~ du point de rue concep- tuel et permet de situer cette r~alisation par rapport aux diff~rents syst~mes existants. INTRODUCTION : Un iogiciel sp~cifique de traitement automati- que du discours comporte plusieurs ~l~ments : en premier lieu la description des objets manipul~s permet de d~finir l'univers de travail du r~alisa- teur. En second lieu la mani~re de manipuler ces oh jets rend compte des potentialit~s de r~alisa- tion d'application diverses. 11 eat n~cessaire au pr~alable de d~finir la nature du module sous- jacent par rapport aux theories existantes. Dana le present article on exposera donc successivement une approche du module th~orique, une description des objets manipul~s et enfln, lea outils de mani- pulations. L'exemple du syst~me SYGMART montre une r~alisation concrete des choix pr~c~de,=,ent expo- ses. Le module transformationnel. Du point de rue formel lea outils utilis~s pour le traitement automatique des langues naturelles peuvent se diviser en deux grandes categories : - le module g~n~ratif d~finissant un processus formel engendrant un langage. L'analyse consiste alors ~ retrouver le processus d~ductif condulsant la phrase ou au texte ~tudi~. C'est dana ce cadre que sont effectu~es la plupart des r~alisa- tions actuelles. L'exemple le plus important eat sans doute la d~finitlon des grammaires syntagmatiques et des analyseurs associ~s. Nous pouvons sch~natiser une r~alisation par le graphe suivant : Gr~-,-,ire Algorithme d' analyse syntagnmtique > / associ~ structure g~n~rative texte du texte Beaucoup de points s'opposent h cette d~marche. Lea principales dlfficult~s sont : Existe-t-il une gr,m,mlre compl~te des textes traiter ? Quel algorithme d'analyse mettre en oeuvre si lea restrictions formelles sont trop contrai- gnantes ? Dana le cas du traitement des langues naturel- lea, l'slgorithme utilis~ est-il suffisa-~ent souple pour permettre une adaptabilit~ cons- tante ? - Le module transformationnel qui d~finit une fonction d'un espace (textuel) dana un autre espace (relationnel) ou une fonctiou de l'espa- ce relationnel sur lui-m~me. Le schema eat alors le suivant : D~flnition du module > Algorithme de simula- transformationnel tion du modAle structure imag~ ~~'~'~ te!te Lea princlpales questions sont alors lea suivantes : Analyse : comment d~finir un accepteur d'un langage donn~ ? Preuve que la fonction transformationnelle eat partout d~finie. Existe-t-il un algorithme transformationnel acceptable et co~ment le d~crire ? Des r~alisations out d~j~ ~t~ effectu~es suivant cet aspect formel, nota-,-ent lea syst~nes Q, CETA puis ROBEA. Le but du present article eat d'exposer une ~volution de cette approche et en particulier l'approche multirelationnelle ou multidlmensionnelle. La s~paration relation ~tiquette ou structure at signification. Lorsque l'on utilise ~mod~le pour une appli- cation donn~e, on projette une signification sur un objet rowel. Pour cette raison chaque ~l~ent de la structure eat affect~ d'une ~tiquette ayant un sens particulier. Ex~ple : 11 Cette approche a l'inconv~nient de rassembler deux ~ldments distincts par leurs natures et leurs si- gnifications : la structure et les ~tiquettes. GN ART SUB le livre structure ~tiquettes Sans cette s~paration chaque point posskde une seule identit~ et la structure doit alors r~pon- dre ~ au moins deux objectifs : -les liaisons ou relations syntaxiques • -les liaisons ou relations qualltatives Noun aurons dana le premier can : GN d~finissant le groupe nominal /~ composd d'un article et d'un ART SUB substantlf dens le second can : ART ddfinissant l'article comme / d~fini SINGle singul ier DEF La plupart des modules transformationnels ont dt~ d~finis avec un multi-~tiquetage. GN ART DEF SUB MAS SING MAS 1 ivre Cette approche importante d~termine les objets qui seront manipul~s de fa~on abstraite (th~orique) ou concrete (progr ,e). Ainsi les syst~nes Q par exemple op~rent sur des Q-graphes dont chaque bran- che est ~tiquet~e par une arborescence slmplement ~tiquet~e. Le syst~me CETA op~re sur des arbores- cences multi-~tlquet~es. Dana ces deux can l'ana- lyse du discours consiste & rechercher une struc- ture qui repr~sentera alors la compr~henslou du syst~ne pour ce texte. L'exploitation de cette structure d~finira alors t'application. Une ~tude approfondie conduit h d~flnir comme objet de base un triplet : structure, multi-~tiquette, fonction d' association. 1 A : GN i ÷ A /k k B : ART DEF SING MAS 2 ÷ B 2 4 C : le 3 "," C I ~ D : SUB HAS 4 ÷ D 3 E : livre 5 "* E structure mul ti-~tiquettes fonction d' association La fonction d'associetion n'est pas n~cessairement injective. Cette propri~t~ permet de mieux disso- cier structure et contenu : Exemple : Le grand et le petit arbre. I / ~ A : COORD II : grand 2' 3 B : GN I : DEF A A\ "°" D : DEF K : SUB 4 5 6 7 8 9 E : GA L : le G : le N : arbre i0 II 12 13 14 15 I÷A 8÷J 2÷B 9÷K 3÷C IO÷G 4÷D II÷H 5+E 12÷N 6÷F 13÷L 7÷I 14÷M 15÷N L'ellipse du mot 'arbre" n'existe pan dana la structure et existe par la d~finition de la fonc- tion d'~tiquetage. Ce qui correspond sch~matique- ment au graphe suivant : \. le grand le petit arbre La d~finitlon pr~c~dente permet de d~finir des al- gorithmes de traitements slmples et efficaces alors que pour ce dernler type de graphe lea trai- tements comporteront des algorlthmes complexes. Elements structures. Un ~l~ment structur~ est par d~finition un ob- jet multidimensionnel ou multichamp. La structure pr~c@dente eat issue de l'~tude syntaxique des textes. Elle permet de d~finir une forme @labor~e du texte et d'avoir un acc~s h ses diff~rentes composantes en rapport avec leurs fonctions. Pour le traitement des langues naturelles il est bien sQr ~vident que cette analyse ne suffit pas. Cela ne signifie pan que tousles probl~mes li~s cette analyse soient r~solus mais que la levde des obstacles, de l'analyse syntaxique ou autre, suppose une ~tude plus approfondie. Lorsqu'une r~alisation utilise le m~ne espece d~finitionnel pour representer le seas et la forme les probl~- mes ~voquds pr~cddemment sur les difficultds li~es la confusion strueture-~tiquette se multiplient et se transportent au niveau structurel. Comment representer deux structures d'un texte donn~ sous forme arborescente sices deux arborescences sont contradictoires ? Ce probl~me eat insoluble dens le cadre arborescent classique. On peut bien sQr d~finir plusieurs types d'analyses, obtenir plu- sieurs arborescences du m~me texte. Dans ce cas la liaison entre ces diff~rentes arborescences sera tr~s difficile sinon impossible h formaliser et ~ mettre en oeuvre. El est donc n~cessaire d' avoir un module de representation qui permette de d~finir plusieurs structures sur le m@me ensemble de points, chacun de ces points ~tant associ~ une multi-~tlquette suivant une fonction quelcon- que. Cette d4finition correspond ~ la d~finition des ~l~ments structurds dont l'approche formelle eat la suivante : Un ~l~ment structur~ est d~fini par un quadruplet (P,S,E,F) o~ : P :est un ensemble fini de points S :est un ensemble fini de structures arbores- centes sur les points de Pet tel que chaque point de P appartient ~ au moins une structu- re de S. E :est un ensemble fini de multi-~tiquettes. 12 F : est une application surjective de P sur E. Exemple : ~ ~ 6 34 715 {E 1, E2, E3, E4} { 1~E4, 2-~E1,3~E1,4+E4,5÷E3,6~E2, 7-+E 1,8-~E3 } ) la representation graphique d'un tel objet est plus facile lorsque l'on regarde une seule structure (une seule dimension ou champ). La synth~se gra- phique de cet exemple donne la figure suivante : . .\., ', \\ LI I ",,,:" ', Le problime classique de l'analyse textuelle, (ddfinir une grau.naire syntagmatlque engendrant un langage), est transform~ et devient : d~finir pour chaque ~l~ment du langage un ~l~nent struc- tur~ associ~. Le probl~me qui se pose alors est similaire ~ celui obtenu dans le cadre des gram- maires syntagmatiques : la d~finition de l'image structurelle recouvre-t-elle l'ensemble du langa- ge ? On peut remarquer que le cas des grammaires syntagumtiques est un cas particulier de cette approche. L'association est alors la suivante : on affecte ~ chaque ~l~ment du langage engendr~ par la gr nire la structure syntaxique de cet ~l~ment. Cette approche permet de ddfinir une associa- tion plus complexe par la multlplicitd des struc- tures assocides au m~me ensemble de points. On aura donc associd ~ chaque texte ses structures syntaxiques, sdmantiques, logiques, etc En pratique le nombre de champs ou dimensions est limit~ (par exemple 16 dans le cas du syst~me SYGMART). Rdseau transformationnel : Un objet formel est intdressant dans la mesure o~ il existe un moyen de le manipuler. Cet aspect algorithmique est n~cessaire ~ route r~allsation et limite la complexitd des objets ddfinis. Le module op~ratoire pour les ~l~ments structures d~finis ci-dessus est r~alis~ par un r~seau trans- formatlonnel. Chaque point du r~seau est consti- tu~ d'une grammaire transformationnelle et chaque arc partant d'un point de ce r~seau est ~tiquet~ d'une condition bas~e sur la presence d'un schema. Exemple : ~.,~' G2 /~ Le r~sultat de l'application du r~seau transfor- mationnel est d~fini par l'~l~ment structur~ obte- nu apr~s le parcours de ce r~seau d'un point d'entr~e E ~ un point de 9ortie S. Le r~seau d~finit donc une application de l'ensemble des ~l~ments structures dans lui-mSme. Le parcours de ce r~seau peut @tre simple ou r~cursif sulvant la nature des r~gles appliqu~es dans les gr ,-i- res ~l~mentalres. Une gram,mire transformationnel- le ~l~mentaire a donc pour but de d~finir une transformation de l'~l~ment structure. Cette transformation est r~alis~e par un ensemble de r~gles transformationnelles ordonn~es. Chaque r~gle d~finie un module de remplacement permet- rant une modification d'un ~l~ment structur~ quelconque. Cette r~gle pouvant @tre simple ou r~cursive et dans ce dernier cas falre appel au r~seau pour son execution. Le point central d'une graummire ~l~mentaire est donc constitu~ par une r~gle ~l~mentaire. Une r~gle ~l~mentaire est d~finie par un ensemble de transformations d'arhorescences, chacunede ces transformations devant s'appliquer sur un champ simultan~ment aux autres transformations des autres champs. Des contraintes correspondant ~ des points communs inter-champs peuvent ~tre d~finies. On peut remar- quer que le syst~me CETA constitue dans ce cadre un cas particulier de traitement sur un seul champ. La transformation dans un champ est une extension des d~finitlons de transformations d'arbre d~finies par Gladkij et Melcuk [ 7 3. One gra~maire 41~mentaire poss~de ~galement un mode d'application permettant de limiter l'applicabi- lit4 des rAgles, cecl afin de d~finir un proces- sus transformationnel fini. L'ensemble des r~gles d'une grammaire ~l~mentaire est ordonn~ et d~finl un algorithme de Markov ~ 8 ~ ~tendu aux ~l~ments structures. La d~finition d'un modAle de recon- naissance s'effectue suivant un processus analo- gue k la recherche d'un programme d~finlssant une fonctlon donn~e. Les objets trait~s sont des ob" jets non classiques en progra~Ination et les modi- fications de ces objets ne s'effectuent pas travers un parcours de l'objet traitS, mais par la d~finition de transformations oumodiflcatlons de sous-objets. Solt par exemple la d~finitlon de l'analyse d'une phrase par Wang Huilln [ 9 ~ : phrase : "sur ces donn~es, l'ordinateur dolt effectuer certains calculs sulvant un programme d~termin~." Structure recherch~e : • ULF~A I ~ol ~ ~in . o,a" I 13 Par convention le texte est projetd suivant la fomne d'dldment structurd la plus proche du texte: L'dcriture du r4seau de grammaire va d~finir un processus de transformations pour obtenir la structure souhait~e. Pour des raisons ~videntes nous avons simplifi4 la representation dans eat exemple en d~finissant sur chaque point une par- tie de l'ensemble des valeurs de l'dtiquette as- socide et an ne consld~rant qu'un seul champ. La premiare grammnlre dolt permettre une distinc- tion entre phrase au cas o~ le texte en comporte- rait plusieurs (bien s~r ~galement dans le cas o~ l'analyse a dt~ choisie phrase par phrase). Ceci s'effectue en trois ~tapes : initialisation • > ~ A r~.le n.rique /y~ '~ /~ X . X . PH • oA • y ~ r~gle finale • #A X La structure recherch~e est d~duite de la structu- re syntaxique qui dana ce cas eat la suivante : ^~~ La r~gle suivante (rgnfl dans ~ 9 ] ~st utilis~e pour obtenir les regroupements GN : Cette r~gle appliqu~e sur le texte pr~cddent donne par exemple : "I '" "or dinar eur" "i ' " " " ordlnateur" Cet exemple utilise deux r~seaux de grammaires enchain4es, le premier correspondant ~ la recher- che de la structure syntaxique, le second, ~ la construction de la structure choisie (grammaire FI2 et FI3 dans[ 9 3). La s~paratlon structure-~tlquette induit une pro- pri~t~ importante par rapport ~ la puissance de d~finition d'une r~gle : La g~n~ralit~ des transformations peut se d4finir en deux 4tapes : d~finition structurelle et d~fi- nltion sdmantlque. La d4finition structurelle est tr~s g~n~rale et la d~finition s~mantique tr~s sp~cifique. La r~gle est alors applicable si la d~finition s4mantique adapt4e ~ la d~finition structurelle correspond ~ une rdallsation effec- tive clans l'~l~ment structur4 trait4. Nous avons le ach~na fonctionnel suivant : I base de .connaissance [ d~finition structurelle • r~gle produite Si par example on veut d~finir la transformation : apprendre quelque chose ~ quelqu'un ~ enseigner quelque chose ~ quelqu'un. la base de connaissance pr~cisera : apprendre ÷ enseigner et la r~gle structurelle : l/O~3 i/O~3 dans ce cas prdcis il n'y a pas de modification struc- I ~ I I turelle, la structure est 2 4 2 4 n~ar~moins n~cessaire Avecla mame r~gle nous pouvons avoir dans la base de connaissance la transformation : offrir ~ ÷ donner & permettant la transformation : offrir quelque chose h quelqu'un ÷ donner quelque chose ~ quelqu'un. hbus avons ainsi avec une seule r~gle structurelle d~fini deux r~gles potentiellement applicables. L'avantage d'une telle ddfinltion est 4vident : factorisatlon des r~gles, ind~pendance de la grammaire par rapport aux lexique, possibilitd de d~finir un comportement sp4cifique pour chaque ~1~ment du lexique sans avoir h d~flnir une gram- .mire de transformations structurelles trop im- portante. Le syst~me SYGMART : Le syst~me SYGMART est un syst~me op4ratlonnel simulant un module transformationnel d'~l~ments structur4s. II est compos~ de trois sous-syst~mes OPALE, TELESI et AGATE, chacun de ces sous-syst~- mes correspondant aux diff~rentes fonctions essen- tielles de traitement d'un texte : OPALE effectue le passage texte 414ment struc- ture. TELESI effectue la transformation d'~l~ments structur4s. AGATE effectue le passage d'41~nent structur~ texte. La forme g4n4rale de l'applicatlon d'un sous syst~me est la suivante : l donn~es compil~ donn~es programmes compil4es texte , I simulationl , image 14 Les donn4es programes comportent deux ~l~ments : un dictionnaire d~finissant la base de connaissan- ce et une grammaire d~finissant le processus transformationnel. Le sous-syst~me OPALE : Ce sous-syst~me permet de d~finir un ~14ment structur4 ~ partir d'un texte. Chaque champ com- portera la m~me structure et chaque point de cette structure sera associ4 h une 4tiquette correspondant au r~sultat d'une analyse d'un mot suivant ce sous-syst~me. Cette analyse est bas4e sur un automate d'4tats finis permettant une lecture d'un dictionnaire avec segmentation. Au cours de cette segmentation diff~rents renseignements sont ~valu4s et m~moris~s dans l'~tiquette r~sultante de l'analyse. Le sous-syst~me TELESI : Ce sous-syst~me d~finit le processus central du syst~nne SYCMART. Ii permet de d~finlr un r4seau transformationnel. Ce r~seau est compos~ de grammaires comportant un ensemble (4ventuel- lement vide) de r~gles. Chaque gra~snaire d~finit une transformation d'414ments structures et le r~sultat de cette grannnaire d4finit le parcours du r~seau. Chaque granm~aire poss~de un mode d'ap- plication, le plus complexe ~tant le mode r~cursif qui permet de d4finir un parcours de l'objet transformS. Le r~seau d~finit lui-m~me une trans- formation d'41~ments structures. L'entr4e du sys- t~me est compos~ soit du r~sultat du sous-syst~me OPALE soit du r~sultat de l'application de ce sous-syst~me lui-m~me. Le dictionnaire associ4 au sous-syst~me TELESI d~finit la base de con- naissances h associer auX r~gles de transforma- tions. Cette application du contenu du dictionnai- re par rapport aux r~gles de transformations, s'effectue de mani~re dynamique. Le sous-syst~me AGATE : Ce dernier sous-syst~me d~finit la transfor- mation ~l~ment structur~ texte. Cette transfor- mation est n~cessaire dans beaucoup d'application et s'effectue par le parcours canonique d'une arborescence d'un champ d~termin~. Chaque ~tiquet- te associ~e ~ un point de ce parcours permet de d~finir un mot ~ l'alde d'un automate d'~tats finis de synth~se, mirolr du sous-syst~me OPALE. La forme g~n~rale de l'application du syst~me SYGMART est la suivante : '~TELESI OPALE . ~l&nent AGATE ) texte texte structur~ Du point de rue pratique, le syst~me SYGMART existe en trois versions. Deux versions PL/I et une version C. Les versions PL/I sont d~flnies sous les syst~nes IBM OS/MVS et Honeywell Multics. La version C est d~finie sous le syst~me UNIX et fonctionne sons un syst~me ~ base du microproces- seur MC680OO. Une r~alisatlon sur une traduction automatique Espagnol-Frangals effectu~e au CELTA avec le syst~me SYGMART donne un exemple du temps d'ex~cution n~cessaire : la traduction d'un texte de 800 mots trait~s ensembles (et non phrase par phrase, ce qui implique la manipulation d'arbo- rescences et d'~l~ments structures de plus d'un millier de points) a ~t~ r~alis~e sur un Amdahl 470/V7 en 33 mn 38 s (soit 14 106 op~rations/mots) La version micro-ordinateur n~cessite une m~moire d'au moins 756 Ko et un dlsque dur d'au moins 20 Mo. Les trois exemples sulvants sont extraits de trois r~alisations distlnctes et repr4sentent des parties de gra*mnaires TELESI : 1) extrait de la grammaire d'analyse de l'espa- gnol C. VIGROUX CELTA France. 2) extrait de la grammaire d'analyse du Chinois WANG HUIN LIN Institut de Linguistique Pekin Chine. 3) extrait de la grammaire d'analyse du N~erlandais P. ROLF Universit~ Catholique de Nim~gue Hollande. ~ m = ~= = = = = -~=- REFERENCES : [ 1 ] : BOITET C., GUILLAUME P., QUEZEL-AMBRUNAZ M Manipulation d'arborescences et parall~lis- me : syst~me ROBRA, COLING 1978. [ 2 U : ~UORE 3. Transducteurs et arborescences Th~se, Grenoble 1975. [ 3 ] : c CHE j Le Syst~me SYGMART Document privisoire, Le Havre 1980. [ 4 ] : CHAUCHE J., CHEBOLDAEFF V., JATTEAU M., LESCOEUR R. Specification d'un syst~me de traduction assist~e par ordinateur. [ 5 ] : COU'~E~UER A. Les syst~mes Q, Universit~ de Montreal 1970. [ 6 ] : n.a~ A, BOURQUIN Me, ATTALI A., I~COMTE J. Les probl~mes li~s au passage de la structure de surface vers la structure d'interface. CELTA Nancy, 1981. [ 7 ] : GLADKIJ A.V., MEL'CUK I.A. Tree grammars, Linguistics Mouton 1975. [ 8 ] : MENDELSON Introduction to mathematical logic VAN NOSTRAND 1964 [9] : WANG H. La place de la modalit~ dans un syst~me de traduction automatique trilingue Fran~ais-Anglals-Chinois. Thase, NANCY 1983 15 . UN OUTIL MULTIDIMENSIONNEL DE L'ANALYSE DU DISCOURS J. CHAUCHE Laboratoire. approche du module th~orique, une description des objets manipul~s et enfln, lea outils de mani- pulations. L'exemple du syst~me SYGMART montre une r~alisation

Ngày đăng: 08/03/2014, 18:20

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan