Détection du plagiat en utilisant la technique de l’indexation sémantique latente

Dộpartement de Gộnie logiciel Facultộ des Technologies de linformation et de la communication Universitộ de Cantho Dộtection du plagiat en utilisant la technique de lindexation sộmantique latente Bui Vo Quoc Bao Mộmoire prộsentộ pour lobtention du diplụme dingộnieur en informatique Juillet 2011 â Bui Vo Quoc Bao, 2011 Rộsumộ Cette thốse de fin d'ộtudes suggốre une mộthode de dộterminer si un document est copiộ d'une collection de documents enregistrộs. Malgrộ qu'il existe dộj des solutions informatiques diffộrentes destinộes rộsoudre ce problốme, ces mộthodes fonctionnent seulement bien sur la copie de faỗon exacte (mot par mot). Elles ne sont pas capable de dộtecter effectivement la copie sộmantique, c'est--dire la copie avec un peu de modifications, ex. le remplacement de synonymes, le changement de l'ordre de mots, ou la reconstruction de phrases. Afin de surmonter cette faiblesse, la mộthode proposộe utilise la technique de l'indexation sộmantique latente qui est basộe sur le modốle vectoriel et la dộcomposition en valeurs singuliốres d'une matrice. Grõce cette technique, nous pouvons mesurer la similaritộ sộmantique latente entre les paragraphes et puis entre les documents. Les expộrimentations montrent que l'approche sộmantique latente fonctionne effectivement. Un document qui est copiộ sộmantiquement d'autres peut ờtre identifiộ. Mots clộs: dộtection du plagiat/de la copie textuelle, indexation sộmantique latente, recherche sộmantique, mesure de similaritộ, indexation textuelle. Abstract This graduate thesis suggests a method for determining whether a document is copied from a collection of registered documents. Although there are already some different informatics solutions destined to solve this problem, these methods only work well on the exact (word for word) copying. They aren't able to detect efficiently the semantic copying, that is the fact of copying with a few modifications, i.e. synonym replacement, word order changing, or sentence restructuring. In order to overcome this weakness, the proposed method uses the latent semantic indexing technique which is based on the vector space model and the singular value decomposition of a matrix. Due to this technique, we can measure the latent semantic similarity between the paragraphs and then between the documents. The experimentations show that the latent semantic approach works efficiently. A document that is a semantic copy from others can be identified. Key words: plagiarism/text copying detection, latent semantic indexing, semantic search, similarity measure, text indexing. Table des matiốres Liste des figures Liste des tableaux Remerciements Introduction Chapitre : Problốme de dộtection du plagiat . 1.1 Solutions actuelles 1.1.1 Prộvention du plagiat 1.1.2 Dộtection du plagiat 1.2 Proposition dune mộthode avec lapproche sộmantique latente 11 Chapitre : Recherche dinformation . 13 2.1 Concepts de base de la recherche dinformation 13 2.1.1 Indexation . 14 2.1.2 Modốle vectoriel . 18 2.2 Analyse sộmantique latente 20 2.2.1 Dộcomposition en valeurs singuliốres 21 2.2.2 Computation de quantitộ des comparaisons fondamentales . 22 2.2.3 Illustration de la LSI . 23 Chapitre : Application de lindexation sộmantique latente la dộtection du plagiat . 26 3.1 Prộtraitement de textes . 26 3.1.1 Segmentation en mots dans un document textuel en vietnamien . 27 3.1.2 Indexation de paragraphes 31 3.2 Modốle de documents . 33 3.2.1 Modốle pour les composants de la SVD 33 3.2.2 Modốle pour le vocabulaire 34 3.2.3 Problốme de mise jour du modốle . 35 3.3 Mesures de similaritộ et de degrộ de copie 36 Chapitre : Expộrimentation 39 4.1 Conception des ensembles de test . 39 4.2 Rộsultats de test . 40 4.3 Discussion des rộsultats . 41 Conclusions et suggestions . 43 Rộfộrences . 45 Liste des figures Figure 1.1 : Le document avec filigrane . Figure 1.2: Un serveur de dộtection de la copie textuelle. . 10 Figure 2.1: Les vecteurs des documents et de la requờte. 19 Figure 2.2: Les similaritộs cosinus entre les documents et le requờte 20 Figure 2.3: Les vecteurs reprộsentant les documents et la requờte . 23 Figure 2.4: La SVD de la matrice A. 24 Figure 2.5: Les matrices composantes de la matrice A2 . 24 Figure 2.6: La reprộsentation de la requờte q dans lespace dimensions 25 Figure 3.1: Le processus de prộtraitement de textes . 27 Figure 3.2: La structure de base de donnộes utilisộe. . 31 Figure 3.3: Lexemple de la structure du fichier stockant la SVD . 33 Figure 3.4: Lexemple de la structure du fichier stockant le vocabulaire. . 34 Figure 3.5: La reprộsentation mathộmatique du fait dincorporer p paragraphes. . 36 Figure 3.6: La reprộsentation mathộmatique du fait dincorporer t termes 36 Liste des tableaux Tableau 2.1: Quelques approches connues pour ộvaluer le poids global. 16 Tableau 2.2: Quelques approches populaires pour ộvaluer le poids local 17 Tableau 3.1: Limplộmentation du tableau Documents. 31 Tableau 3.2: Limplộmentation du tableau Paragraphs. . 32 Tableau 3.3: Limplộmentation du tableau PostingList. 32 Tableau 3.4: Les valeurs de similaritộ donnộes 37 Tableau 3.5: La longueur de T et ses paragraphes. 38 Tableau 4.1: Quatre ensembles de test. 40 Tableau 4.2: Les rộsultats de lensemble 100%. 40 Tableau 4.3: Les rộsultats de lensemble 80%. 41 Tableau 4.4: Les rộsultats de lensemble 50%. 41 Tableau 4.5: Les rộsultats de lensemble 00%. 41 Remerciements Je tiens exprimer ma reconnaissance et ma gratitude monsieur Tran Cao De, mon tuteur de thốse. Merci pour sa confiance, son aide et sa patience. Je remercie les professeurs de facultộ des Technologies de l'information et de la communication qui non seulement m'ont guidộ avec l'enthousiasme dans mes ộtudes en informatique, mais aussi m'ont donnộ des conseils prộcieux. Grõce leur aide, je peux accomplir bien mon programme d'ộtudes en complộtant cette thốse. Je les souhaite de la santộ et du succốs dans la vie. Mes remerciements vont ộgalement mes colocataires de citộ universitaire, mes amis de ma classe qui m'ont accompagnộ au cours de mes annộes d'ộtudes l'Universitộ de Cantho. J'ai une pensộe pour vous et les annộes passộes ensembles. Je dộdie cette thốse ma famille, mes parents et mon petit frốre. Introduction Avec le dộveloppement de lInternet, une personne peut facilement trouver des documents dộsirộs, par exemple, via un moteur de recherche et fait des copies au lieu dộcrire elle-mờme. Cela cause le problốme du plagiat lorsque lon recopie un travail fait par quelquun dautre sans en mentionner la source [plagiarism.org]. Malheureusement, ce phộnomốne est de plus en plus rộpandu dans notre sociộtộ et cause des problốmes sộrieux plusieurs domaines diffộrents. Ainsi, la duplication des documents dộgrade lefficacitộ du processus de recherche dinformation. Au point de vue de commerce ộlectronique, celle des matộriaux de copyright cause la perte de revenus aux dộtenteurs de copyright. Pour lộducation et la formation universitaire, le plagiat dộgrade lesprit scientifique chez des ộtudiants et des chercheurs, les habitue violer le droit dauteur, etc. Dộtecter efficacement le contenu en double est important pour le succốs long terme de librairies digitales, lInternet et le mộdia distribuộ numộriquement en gộnộral. Lobjectif de ce mộmoire de fin dộtudes est dộtudier les mộthodes les plus rộpandues pour le problốme de dộtection du plagiat et de proposer une mộthode qui est basộe sur la mesure de la similaritộ entre les documents textuels. La derniốre est mesurộe par la sộmantique latente entre deux documents. Copier un texte partir dun peu de documents dans une librairie digitale est trốs facile. Est-il facile de dộtecter un document copiộ dautres dans une librairie digitale ? Comment dộterminer si un texte est copiộ ou collectộ certains autres documents ou non ? Si lon neffectue pas de copie de faỗon exacte (mot par mot), comment dộterminer le degrộ de copie ? Ce sont les questions que nous essayons rộpondre au cours de notre recherche. Cette thốse est composộe de quatre chapitres. Les deux premiers abordent les aspects thộoriques de base et les deux derniers traitent la mộthode proposộe et les expộrimentations effectuộes. Le premier chapitre introduira des mộthodes et des utiles informatiques pour le problốme de plagiat. Les mộcanismes de dộtecter un document textuel qui est copiộ dune collection de documents sont aussi dộcrits. Cette collection peut ờtre issue dune source fermộe telle quune librairie digitale ou dune source ouverte librement comme les documents sur lInternet. 3.1.2 Indexation de paragraphes Aprốs avoir segmentộ en mots des paragraphes et ộliminộ les mots moins importants, les paragraphes ayant plus de 100 mots sont indexộs. Lobjectif de ce prộtraitement est dộliminer les mots qui ne joue pas son rụle significatif au contenu de document et les paragraphes courts (chapitre, titre, chapeau .). Ce fait peut aider augmenter lexactitude de la mộthode. La figure 3.2 montre la structure de base de donnộes utilisộe pour stocker les informations extraites partir des documents. Figure 3.2: La structure de base de donnộes utilisộe. Il y a tableaux principaux dans notre base de donnộes : 3.1.2.1 Le tableau Documents : Ce tableau a pour but de conserver les informations des documents enregistrộs. Il existe colonnes dans ce tableau: ã Name : nom du fichier de document. ã Location : location sur disque dur du fichier. Champ Type de donnộe Clộ primaire Name Location Text (50) Text (255) X Clộ ộtrangốre Tableau 3.1: Limplộmentation du tableau Documents. 3.1.2.2 Le tableau Paragraphs : Ce tableau a ộtộ crộộ afin de stocker les informations des paragraphes indexộs. Il est constituộ de colonnes: ã ParaNum : nombre ordinal du paragraphe indexộ dun document. 31 ã DocName : nom du document auquel le paragraphe appartient. ã Length : longueur du paragraphe au sens du nombre de mots. Champ ParaNum DocName Length Type de donnộe Integer Text (50) Integer Clộ primaire X X Clộ ộtrangốre Documents(Name) Tableau 3.2: Limplộmentation du tableau Paragraphs. 3.1.2.3 Le tableau PostingList : Ce tableau conserve les termes et leur frộquence extraits des paragraphes. Cest partir de ce tableau, nous pouvons identifier le vocabulaire du corpus et le les paramốtres nộcessaires pour la pondộration de termes. ã Term : terme extrait du paragraphe indexộ. ã ParaNum : nombre ordinal du paragraphe indexộ dun document. ã DocName : nom du fichier de document. ã TermFreq : nombre doccurrences du terme dans le paragraphe. Champ Term ParaNum DocName TermFreq Type de donnộe Clộ primaire Text (25) X Integer X Text (50) X Integer Clộ ộtrangốre Paragraphs(ParaNum) Paragraphs(DocName) Tableau 3.3: Limplộmentation du tableau PostingList. 3.1.2.4 Algorithme dindexation : Lextraction dinformations est effectuộe en utilisant lalgorithme suivant: Lire le contenu textuel du document enregistrộ Segmenter le document en paragraphes par le caractốre CR Pour chaque paragraphe obtenu Segmenter le paragraphe en mots, ộliminer des mots moins importants, et compter la frộquence doccurrence de chaque mot dans ce paragraphe Si le nombre de mots dans le paragraphe >= 100 Si le document nexiste pas dans le tableau Documents, ajoute-le Ajouter le paragraphe au tableau Paragraphs Pour chaque mot du paragraphe Ajouter le mot et sa frộquence au tableau PostingList. 32 3.2 Modốle de documents Lorsquun document est un ensemble de paragraphes, le modốle vectoriel est appliquộ. Chaque paragraphe est modelộ comme un vecteur terme-document. Par consộquent, la collection de documents est comme une matrice A = (aij) dans laquelle la valeur aij correspond la pondộration utilisộe du terme i dans le paragraphe j. Chaque colonne est un vecteur reprộsentant un paragraphe. 3.2.1 Modốle pour les composants de la SVD Dans notre expộrimentation, nous utilisons un corpus contenant 33 documents textuels. Aprốs les avoir traitộs, nous obtenons 786 paragraphes et 15.634 termes uniques. En dautres termes, notre librairie est modelộe comme une matrice A de 15.634 x 786 ộlộments. Avec cette taille, la SVD de A consomme beaucoup de temps. Afin de rộduire le temps mis la computation de la SVD et rendre favorable le fait de calculer les similaritộs, nous stockons la matrice S, la matrice V et le diagonal de la matrice S dans un fichier au format de XML. La figure 3.3 donne un exemple de la structure du fichier. Note que le nud montre quel type de pondộration locale et globale appliquộe; le nud contient des informations servant identifier quun document est reprộsentộ par quelles colonnes de la matrice. Figure 3.3: Lexemple de la structure du fichier stockant la SVD. 33 Dans le figure au-dessus, le document 04.txt est reprộsentộ par les 28 premiốre colonnes (les colonnes avec lindex de 27) de la matrice A. De mờme, le document 07.txt est reprộsentộ par les 31 colonnes suivantes (les colonnes avec lindex de 28 59), etc. Ces informations sont trốs utiles afin dexaminer la similaritộ avec un document individuel dans la librairie. 3.2.2 Modốle pour le vocabulaire Nous avons aussi besoin de stocker le vocabulaire utilisộ pour modeler le document vộrifiộ parce que ce dernier doit ờtre modelộ en utilisant la mờme collection de termes index avec les documents enregistrộs. La figure 3.4 donne un exemple de la structure du ficher du vocabulaire. Lattribut globalfreq montre le nombre total doccurrences dun terme dans les paragraphes. Figure 3.4: Lexemple de la structure du fichier stockant le vocabulaire. Le programme construit utilisera directement ces deux modốles comme des donnộes dentrộe pour la vộrification du plagiat. Un problốme ộmergeant, cest lorsquun nouveau document est enregistrộ, nous avons besoin de mettre jour ou rộgộnộrer les modốles. La rộgộnộration des modốles peut faire intộgrer totalement les nouveaux documents et termes dans ces modốles mais consommer beaucoup de temps cause de la computation de la SVD dune matrice grande. Alors, la mise jour des modốles est un choix plus flexible. Nous aborderons ce problốme en dộtails dans la section suivante. 34 3.2.3 Problốme de mise jour du modốle Suppose quune base de donnộes de LSI gộnộrộe dun corpus de documents existe dộj. Cest--dire, une collection de documents textuels avait ộtộ traitộe, une matrice terme-document avait ộtộ gộnộrộe et la SVD de la matrice terme-document avait ộtộ calculộ. Si quelques nouveaux documents et termes doivent ờtre ajoutộs, deux approches courantes dộdiộes ce problốme: recalculer la SVD dune nouvelle matrice terme-document ou incorporer les nouveaux documents et termes [1, 2]. Recalculer la SVD dune matrice terme-document plus grande requiert plus de temps de computation et parfois peut ờtre impossible cause de la limite de mộmoire. Recalculer la SVD permet les nouveaux t termes et d documents affecte directement la structure sộmantique latente en crộant une nouvelle matrice termedocument, calculant la SVD de la nouvelle matrice terme-document, et gộnộrant une matrice Ak diffộrente. En revanche, incorporer les nouveaux documents et termes est basộ sur la structure sộmantique latente existante, la matrice Ak courante, et alors les nouveaux documents et termes naffectent pas la reprộsentation des documents et termes prộexistants. Cette approche requiert moins de temps et de mộmoire mais peut avoir des effets dộtộriorant la reprộsentation des nouveaux documents et termes. La reprộsentation de nouveaux documents afin de les incorporer un modốle LSI existant est similaire celle de document vộrifiộ. Chaque nouveau document est considộrộ comme un ensemble de vecteurs reprộsentant ses paragraphes. Une fois quun nouveau vecteur de paragraphe est calculộ, il est joint lensemble de vecteurs de paragraphe existants ou aux colonnes de VkT (voir la figure 3.5). Soit p est un vecteur de paragraphe, avant de le joindre aux colonnes de VkT, lon a besoin de le transformer en pk, une projection de p dans lespace k dimensions via la formule: pk = pTUk Sk-1 (3.4) De mờme, une fois quun nouveau vecteur de terme est calculộ, il est joint lensemble de vecteurs de terme existants ou aux lignes de Uk (voir la figure 3.6). Soit t est un vecteur de terme, avant de le joindre aux lignes de Uk, lon a besoin de le transformer en tk, une projection de t dans lespace k dimensions via la formule: t k = tV k S k-1 35 (3.5) Figure 3.5: La reprộsentation mathộmatique du fait dincorporer p paragraphes. Figure 3.6: La reprộsentation mathộmatique du fait dincorporer t termes. 3.3 Mesures de similaritộ et de degrộ de copie La similaritộ entre deux paragraphes, maintenant, est ộvaluộe par la formule (2.2). Suppose que le document vộrifiộ T compose m paragraphes: T= {P1, P2,, Pm}, et Pij ộtant un paragraphe de la collection de documents L est similaire au paragraphe Pi de T avec le seuil , c'est--dire : sim( Pi , Pij ) = cos( pi , pij ) a (3.6) oự est un constant servant identifier deux paragraphes similaires, pi et pij sont respectivement deux vecteurs reprộsentant Pi et Pij. 36 Suppose quil y a k paragraphes de L satisfaisant la formule (3.6). En dautres termes, il existe k paragraphes dans L ộtant similaires Pi avec le seuil . Si sim( Pi , Pij ) = a ij , j = k, nous pouvons dộfinir certaines mesures de similaritộ ou de degrộ de copie comme suit: - La similaritộ ou le degrộ de copie du paragraphe Pi partir de L: sim(Pi, L) = Max{ ij }, j = k (3.7) Cela signifie que nous cherchons la similaritộ maximum entre le paragraphe Pi et un paragraphe dans L. - Le degrộ de copie du document vộrifiộ T partir de L: m sim (T , L ) = b i * sim ( Pi , L ) (3.8) i =1 oự i est la proportion entre la longueur du paragraphe Pi et celle de T, m est le nombre de paragraphes de T. Cela signifie que le degrộ de copie de T est basộ sur celui de tous les paragraphes de T, conditionnộ par leurs longueurs. - Le degrộ de copie de T partir dun document D dans L: lorsque nous appliquons la formule (3.8) pour la librairie L contenant seulement le document D, nous obtiendrons le degrộ de copie de T partir de D. Lexemple suivant illustrera comment utiliser la mesure de degrộ de copie dộfinie au-dessus. Suppose que la librairie L contient deux documents D1 et D2; D1 a trois paragraphes P11, P12, P13; D2 a deux paragraphes P21, P22. Suppose que le document vộrifiộ T comprend deux paragraphes P1 et P2. Suppose que les similaritộs entre paragraphes sont dans le tableau 3.4 et la longueur de T et de ses paragraphes est dans le tableau 3.5. Librairie L D1 D2 Paragraphe P11 P12 P13 P21 P22 Document vộrifiộ T P1 P2 80% 50% 60% 90% 70% Tableau 3.4: Les valeurs de similaritộ donnộes. 37 Document/paragraphe T P1 P2 Longueur (Le nombre de mots) 1000 600 400 Proportion 60% 40% Tableau 3.5: La longueur de T et ses paragraphes. En appliquant (3.6) et (3.7) avec le seuil = 55%, nous obtenons: sim (P1, L) = Max (80%, 70%) = 80% sim (P2, L) = Max (60%, 90%) = 90%. Le degrộ de copie de T partir de L dộterminộ via (3.8): sim (T, L) = 60%*80% + 40%*90% = 84%. En appliquant (3.8) pour un document au lieu de la librairie L, nous obtenons: sim (T, {D1}) = 60%*80% + 40%*60% = 72% sim (T, {D2}) = 60%*70% + 40%*90% = 78%. 38 Chapitre : Expộrimentation 4.1 Conception des ensembles de test Notre expộrimentation utilise 33 documents textuels au format texte en UTF8 et un logiciel construit sur .NET Framework avec la librairie MathNet.Iridium [16] pour la computation de la SVD. Chaque document compose, en fonction de la longueur, un ou plusieurs articles assez similaires au sens de leurs sujets. La plupart de celles-ci sont partir du site www.chungta.com et dautres sites. Nous essayons de les choisir en sorte que les documents diffộrents appartiennent aux sujets diffộrents. Lộtape de traitement de documents commence par la segmentation en paragraphes. Comme nous avons mentionnộ, chaque document est segmentộ en paragraphes en utilisant le caractốre CR comme le dộlimiter. Aprốs avoir enlevộ les mots moins importants, nous obtenons 786 paragraphes dont la longueur est supộrieure 100 mots et 15.634 mots uniques utilisộs pour indexer ces paragraphes. Alors, notre collection de 33 documents textuels donne une librairie contenant 786 paragraphes et 15.634 mots uniques. A partir de cette librairie, nous choisissons par hasard 16 documents pour construire quatre ensembles de test. Lensemble - 100% contient 16 documents mentionnộs au-dessus. Pour chaque document, nous changeons lordre de mots, remplaỗons quelques mots par leurs synonymes, rộộcrire quelques phrases complexes comme des phrases simples et vice versa. En dautres termes, lensemble contient 16 documents conỗus comme la copie sộmantique 100% partir de la librairie. Lensemble 80% contient 16 documents de lensemble 1. Cependant, pour chaque paragraphe, nous gardons sa longueur et changeons par hasard environ 20% de son contenu. En dautres termes, lensemble contient 16 documents copiộ sộmantiquement 80% partir de la librairie. Lensemble 50% contient 16 documents de lensemble 1. Cependant, pour chaque paragraphe, nous gardons sa longueur et changeons par hasard environ 50% de son contenu. En dautres termes, lensemble contient 16 documents copiộ sộmantiquement 50% partir de la librairie. Lensemble 0% contient 16 documents de lensemble 1. Cependant, pour chaque paragraphe, nous gardons sa longueur et changeons 100% de son contenu. En fait, nous utilisons des mots alộatoires afin de former des phrases et des 39 paragraphes. Alors, lensemble contient 16 documents non copiộs partir de la librairie. Ensemble de test Lensemble Lensemble Lensemble Lensemble Nombre de documents 16 16 16 16 Nombre de paragraphes 399 399 399 399 Degrộ de copie conỗu 100% 80% 50% 0% Tableau 4.1: Quatre ensembles de test. Quatre ensembles de test conỗus sont rộsumộs dans le tableau 4.1. Ces ensembles sont utilisộs pour examiner la performance de la mộthode proposộe. Chaque document dans ces ensembles est utilisộ comme un document vộrifiộ. Les rộsultats de test sont prộsentộs dans la section suivante. 4.2 Rộsultats de test Chaque document dans ces ensembles de test est vộrifiộ afin de dộterminer son degrộ de copie avec les documents enregistrộs dans la librairie. Nous utilisons la pondộration TF-IDF pour les documents enregistrộs et TF pour le document vộrifiộ. Le seuil est fixộ 75% pour la comparaison entre les paragraphes de lensemble 1-100% via la formule (3.6), 65% pour celle de lensemble 2-80%, et 55% pour celle de lensemble 3-50% et lensemble 4-0%. Nous voulons examiner ici la prộcision de la mộthode proposộe. Nous comptons le nombre de documents qui sont dộtectộs dờtre copiộ dautres documents avec le seuil de degrộ de copie fixộ autour du degrộ de copie conỗu. Pour lensemble 100%, le degrộ de copie conỗu est 100%. Alors, le seuil de degrộ de copie est fixộ prốs de 100%. Ce sont 95%, 90% et 85%. De mờme, pour lensemble 80%, le seuil de degrộ de copie est fixộ alternativement 90%, 80% et 70%. Pour lensemble 50%, le seuil de degrộ de copie est fixộ alternativement 60%, 50% et 40%. Pour lensemble 0%, le seuil de degrộ de copie est fixộ alternativement 40%, 30%, 20% et 10%. Tableau 4.2: Les rộsultats de lensemble 100%. 40 Tableau 4.3: Les rộsultats de lensemble 80%. Tableau 4.4: Les rộsultats de lensemble 50%. Tableau 4.5: Les rộsultats de lensemble 00%. Les rộsultats de test sont dans les tableaux 4.2, 4.3, 4.4 et 4.5. Il y a des cas oự un document vộrifiộ qui est copiộ dun autre (par la conception) mais le programme ne dộtecte pas la copie. Cest une faute nộgative. En revanche, il y a des cas oự le programme considốre quun document est copiộ dun autre, cependant deux documents ne sont pas conỗus comme une copie (ex. ils sont diffộrents). Cest une faute positive. Si nous trouvons ces deux types de faute dans le mờme document, nous comptons deux fautes: une faute nộgative et une faute positive. 4.3 Discussion des rộsultats Les rộsultats de notre expộrimentation ont montrộ que la technique LSI peut ờtre appliquộe la dộtection du plagiat. Elle nous aide surmonter certaines faiblesses des mộthodes existantes. La copie dans laquelle lon a changộ lordre de mots, remplacộ quelques mots par leurs synonymes, restructurộ des phrases, peut ờtre dộtectộe. La prộcision de la dộtection du plagiat dans notre expộrimentation est trốs grande, presque toujours 100%. Cela est dỷ d'une part l'efficacitộ de la technique LSI, d'autre part la conception des ensembles de test. En rộalitộ, il est difficile 41 concevoir des ensembles de test. Comment pouvons-nous faire une copie 80%, 50% et 0% partir d'un document original ? Dans notre expộrimentation, nous estimons que la sộmantique d'un paragraphe est liộe ộtroitement ses mots. En changeant un nombre de ses mots, nous pouvons obtenir un changement respectif de sa sộmantique. Ces estimes peuvent ne pas ờtre correctes, surtout lorsque la technique LSI dispose de sa propre interprộtation sur la sộmantique d'un mot. Cependant, elles nous aident bien crộer les ensembles souhaitộs de test. Alors, l'objectif principale de notre expộrimentation est de montrer que si un document est une copie sộmantique d'un autre (ou des autres), la copie sera dộtectộe. Par contre, si deux documents sont diffộrents, notre programme doit indiquer qu'ils sont diffộrents. Nous avons constatộ que les documents dont les sujets sont proches, sont une des raisons pour la faute positive. Une caractộristique de notre mộthode est d'utiliser l'ensemble de mots des paragraphes comme une entrộe du processus de la dộtection de la copie. Lorsque deux paragraphes diffộrents appartenant au mờme sujet ou deux sujets proches (autrement dit, deux ensembles de mots de ces deux paragraphes sont assez similaires) sont comparộs, la similaritộ obtenue est particuliốrement grande. Par consộquent, le degrộ de copie entre deux documents correspondants est grand bien qu'ils ne soient pas conỗus comme une copie. Un autre facteur qui affecte les fautes positives et nộgatives est le seuil . Ce dernier est en proportion avec le taux de fautes nộgatives, et en proportion inverse avec celui de fautes positives. En effet, plus grand le seuil , plus fautes nộgatives et moins fautes positives. Au contraire, plus petit le seuil , moins fautes nộgatives et plus fautes positives. Comme la RI utilisant la technique LSI, l'exactitude de notre mộthode est dộpend beaucoup du nombre choisi de dimensions k de l'espace de concepts. Cette thốse ne s'occupe pas de faỗon de dộterminer la valeur k qui peut nous donner les meilleurs rộsultats. C'est encore un problốme ouvert ayant besoin de plus de recherches. La valeur choisie dộpend gộnộralement de chaque corpus de donnộes et la meilleure faỗon courante afin de la dộterminer est d'effectuer beaucoup d'expộrimentations. Dans notre travail, nous voulons trouver une valeur k qui donne un ộquilibre entre le temps consommộ pour la computation et les bons rộsultats. Nous avons constatộ que des valeurs k variantes de 100 200 fonctionnent bien sur notre corpus. Les rộsultats au-dessus sont de l'expộrimentation avec la valeur k ộtant ộgal 100. 42 Conclusions et suggestions Dans le contexte oự le plagiat cause de plus en plus de problốmes, cette thốse a prộsentộ une mộthode pour la dộtection du plagiat travers l'examen de la sộmantique latente des documents. La mộthode est basộe sur le modốle vectoriel et l'indexation sộmantique latente. Un document est segmentộ en paragraphes, ensuite chaque paragraphe est modelộ comme un vecteur dans l'espace de termes. La librairie est considộrộe comme une matrice dont les colonnes sont des vecteurs reprộsentant les paragraphes. La technique LSI est utilisộe pour transformer cette matrice (rang r) en une matrice plus petite (rang k oự k est trốs petit par rapport r). Cette transformation d'une part enlốve des perturbations de donnộes, d'autre part fait ộmerger la structure sộmantique latente engendrộe par lassociation entre les mots en remplaỗant l'espace de termes par l'espace de concepts ộtant plus fiable. La similaritộ entre les paragraphes et ensuite le degrộ de copie entre les documents sont dộterminộs par la comparaison des vecteurs dans cette nouvelle espace. L'expộrimentation a montrộ que la mộthode proposộe fonctionne bien, particuliốrement, sur les documents conỗus comme des copies de la librairie. En d'autres termes, la mộthode est capable de dộtecter un document qui est copiộ avec un degrộ significative. Nous pensons que si un document qui est copiộ sộmantiquement plus de 50% des autres et si la mộthode peut le dộtecter, elle est utilisable. Il n'est pas nộcessaire nous occuper des documents qui ne sont pas copiộs de la librairie afin de dộterminer exactement combien de pourcentages de document sont copiộs. Dans cet esprit, nous croisons que la mộthode proposộe est adộquate pour le problốme de dộtection du plagiat, particuliốrement, pour la dộtection de la copie sộmantique. Cependant, comme les autres mộthodes, nous suggộrons l'utilisateur d'utiliser cette mộthode en tant qu'une indication sur le plagiat. Le jugement final doit ờtre basộ sur nos propres examens, pas sur les rộsultats engendrộs par le programme. Dans cette thốse, nous n'examinons pas encore la dộtection grande ộchelle du plagiat avec la mộthode proposộe. A cause des computations sur matrice qui consomment beaucoup de temps, surtout la dộcomposition en valeurs singuliốres, il est trốs difficile pour mettre en fonction cette mộthode avec une librairie ouverte comme l'Internet. Toutefois, elle est susceptible d'ờtre appliquộe, par exemple, dans un dộpartement d'une facultộ l'aide du systốme de classement de documents. Les 43 documents dans la librairie sont partagộs par un critốre. Lorsque nous faisons des comparaisons entre les documents, seulement une partie de la librairie est utilisộe. Cela peut rộduire le temps de computation mais augmenter le nombre d'examens du plagiat. Au cours de notre recherche, nous avons implộmentộ la mộthode proposộe en vue d'obtenir un programme utilisable. Dans un premier temps, notre programme fonctionne seulement avec le fichier au format texte en UTF-8. Dans le temps venir, nous allons lui ajouter des fonctions qui permettent utiliser des fichiers au format PDF (Portable Document Format), DOC (Microsoft Word), RTF (Rich Text Format) . Nous voudrions aussi appliquer l'algorithme de computation parallốle aux computations matricielles afin de diminuer le temps de traitement du programme. Nous proposons une application de cette mộthode au classement des documents. D'abord, les documents sont organisộs par sujets dans la librairie. Ensuite, lorsque l'on a besoin de classer un document, la mộthode est utilisộe pour examiner les similaritộs entre le document classộ et les ensembles de documents dans la librairie. Enfin, nous allons classer le document lensemble dont la similaritộ avec le document est la plus grande. Comme le problốme de la dộtection du plagiat, nous espộrons que grõce la sộmantique latente, l'exactitude du classement va augmenter. 44 Rộfộrences [1] M.W. Berry, Z. Drmac, E.R. Jessup, Matrices, Vector Spaces and Information Retrieval, Society for Industrial and Applied Mathematics, Vol. 41, No. 2, 1999. pp. 335-362. [2] M.W. Berry, S.T. Dumais, and G.W. O'Brien, Using linear algebra for intelligent information retrieval, SIAM Rev., 37 (1995), pp. 573-595. [3] S. Brin, J. Davis, H. Garcia-Molina, Copy Detection Mechanisms for Digital Documents, Proceedings of the ACM SIGMOD Annual Conference, San Francisco, CA, May 1995. [4] D.M. Campbell, W.R. Chen, R.D. Smith, Copy Detection Systems for Digital Documents, IEEE 2000. [5] Yaởl Champclaux, Un modốle de recherche dinformation basộ sur les graphes et les similaritộs structurelles pour lamộlioration du processus de recherche dinformation, Chapitre 2, pp. 33-59, Thốse en vue de lobtention du doctorat de lUniversitộ de Toulouse III - Paul Sabatier, 12 Jan 2010. [6] Erica Chisholm, Tamara G. Kolda, New Term Weighting Formulas for The Vector Space Method in Information Retrieval, Computer Science and Mathematics Division, Oak Ridge National Laboratory, Oak Ridge, TN 37832-6367, March 1999. [7] S. Deerwester, S. Dumais, G. Furnas, T. Landauer, and R. Harshman, Indexing by latent semantic analysis, J. American Society for Information Science, 41 (1990), pp. 391-407. [8] Susan T. Dumais, Improving the retrieval of information from external sources, Behavior Research Methods, Instruments, & Computers, 23 (1991), pp. 229-236. [9] Dr. Edel Garcia, Latent Semantic Indexing (LSI) A Fast Track Tutorial, September 21, 2006. [10] Preslav Nakov, Antonia Popova, Plamen Mateev, Weight functions impact on LSA performance, Faculty of Mathematics and Informatics, Sofia University St. Kliment Ohridski 5, James Bourchier blvd., Sofia, Bulgaria. 45 [11] N. Shivakumar, H. Garcia-Molina, Building a scalable and accurate copy detection mechanism, Proceedings of 1st ACM International Conference on Digital Libraries, Bethesda, Maryland, March 1995. [12] N. Shivakumar, H. Garcia-Molina, SCAM: A copy detection mechanism for digital documents, Proceedings of the second International Conference in Theory and Practice of Digital Libraries, Austin, Texas, June 1995. [13] N. Shivakumar, H. Garcia-Molina, The SCAM Approach to Copy Detection in Digital Libraries, Department of Computer Science, Stanford University, Stanford, CA 94305, U.S.A. [14] De Cao Tran, Tri Cao Tran, Copy Detection Using Latent Semantic Similarity, College of Information and Communication Technology, Cantho University, Cantho, Vietnam, 2008. [15] Chih-Hao Tsai, MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm, 1996-04-29. [16] http://mathnet.opensourcedotnet.info [17] http://www.miislita.com 46 [...]... prộsenterons la technique de l'indexation sộmantique latente (LSI) qui est un ộlộment important de notre recherche Dans le troisiốme chapitre, nous dộcrirons pas pas l'ộlaboration de l'approche sộmantique latente, en commenỗant par dộcrire la sộrie de traitements que subissent les documents, puis la faỗon d'appliquer le modốle vectoriel et la technique LSI la dộtection du plagiat Enfin, nous prộsenterons la. .. solutions destinộes rộsoudre le problốme de plagiat sont ộtudiộes depuis longtemps Il y a deux philosophies principales pour le traitement du problốme: la prộvention et la dộtection [3] La premiốre rend difficile ou impossible lutilisation non autorisộe de documents tant que la derniốre rend facile la dộcouverte de tel acte 1.1.1 Prộvention du plagiat La prộvention du plagiat inclut lisolation physique des... la copie textuelle La figure 1.2 donne larchitecture gộnộrale dun serveur de dộtection de la copie textuelle avec un entrepụt de documents enregistrộs Des mộthodes diffộrentes varient en fonction dunitộ primitive utilisộe et de faỗon de dộterminer la similaritộ entre les documents via la comparaison des unitộs Deux systốmes connus utilisant le serveur denregistrement sont COPS [3, 4] (Copy Protection... ộventuellement des informations additionnelles comme la frộquence dapparition du terme dans le document Le modốle doit mettre en correspondance les reprộsentations des documents et la reprộsentation du besoin de lutilisateur exprimộ sous la forme dune requờte afin de retourner celui-ci les documents en rapport avec sa requờte Gộnộralement, cela se fait laide dun calcul de similaritộ Lopộration de. .. porteuses de sens les plus souvent utilisộes dans les systốmes actuels pour reprộsenter ces concepts Indexer un document cest ộlire ses termes reprộsentatifs afin de gộnộrer la liste des termes dindexation et ajouter lindex de la collection, pour chacun de ces termes, la liste des rộfộrences de chaque document le contenant Ces rộfộrences donnent un moyen de retrouver de faỗon non ambiguở des documents... Lanalyse sộmantique latente (LSA : Latent semantic analysis), ou lindexation sộmantique latente (LSI : Latent semantic indexing) dans le contexte de la RI, est un procộdộ de traitement des langues naturelles, qui sappuie sur une reprộsentation multidimensionnelle de la signification sous-jacente des termes et des documents dans le corpus Grõce une analyse statistique, le sens de chaque terme est caractộrisộ... terme j ?), celle entre deux documents (Comment sont-ils semblables, le document i et le document j ?), et celle entre un terme et un document (Comment sont-ils associộs, le terme i et le document j ?) Dans lapproche standard de la RI, celles-ci correspondent respectivement la comparaison entre deux lignes, deux colonnes, et lexamen dun ộlộment individuel de la matrice terme-document A Nous faisons... positives oự des fautes positives sont des paires de documents qui sont annoncộes comme des cas possibles de plagiat, mais cela nest pas correct (ex deux documents sont diffộrents) La faiblesse de SCAM est que la mesure de la similaritộ est mal dộfinie Quelquefois, il peut donner un rộsultat incorrect [4] 1.2 Proposition dune mộthode avec lapproche sộmantique latente Le problốme de dộtection de la copie... Lordre descendante de trois documents est: d2 > d3 > d1 25 = 0.9910 Chapitre 3 : Application de lindexation sộmantique latente la dộtection du plagiat Ce chapitre illustrera comment appliquer la LSI au problốme de dộtection du plagiat Dabord, le modốle vectoriel est utilisộ Un document est segmentộ comme un ensemble de paragraphes Chaque paragraphe est reprộsentộ par un vecteur terme-document La similaritộ... 24 Avant de comparer la requờte q trois documents, lon a besoin de calculer des coordonnộes de point reprộsentant q dans lespace des concepts en utilisant la formule (2.7): Figure 2.6: La reprộsentation de la requờte q dans lespace 2 dimensions Enfin, lon classe les documents en ordre descendant en fonction des similaritộs cosinus entre les documents et la requờte: sim(q, d 1 ) = sim(q, d 2 ) = sim(q, . Département de Génie logiciel Faculté des Technologies de l’information et de la communication Université de Cantho Détection du plagiat en utilisant la technique de l’indexation sémantique latente. Illustration de la LSI 23 Chapitre 3 : Application de l’indexation sémantique latente à la détection du plagiat 26 3.1 Prétraitement de textes 26 3.1.1 Segmentation en mots dans un document textuel en. sémantiquement d'autres peut être identifié. Mots clés: détection du plagiat/ de la copie textuelle, indexation sémantique latente, recherche sémantique, mesure de similarité, indexation

Détection du plagiat en utilisant la technique de l’indexation sémantique latente

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan