LUẬN văn kỹ THUẬT PHẦN mềm segmentation des mots et modélisation de textes vietnamiens en modèle de programmation mapreduce dans le nuage informatique

Département de Technologie de logiciel Faculté des Technologies de l’information Université de Cantho Segmentation des mots et modélisation de textes vietnamiens en modèle de programmation MapReduce dans le nuage informatique Tuteur : Auteur : Prof.TRẦN Cao Đệ NGUYỄN Ngọc Thành Mémoire présenté pour l’obtention du diplôme d’ingénieur en informatique Juillet 2013  NGUYEN Ngoc Thanh, 2013 SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique RÉSUMÉ La modélisation des textes est une étape de prétraitement qui est très important dans de nombreux domaines comme l’exploitation de donnée textuelle et le traitement de langue naturelle Actuellement, il y a beaucoup de modèles pour modélisation des textes Il existe de ce jour certains modèles comme le modèle d’espace vectoriel et le modèle de fréquence qui sont bien simples et efficaces Cependant, dans l’ère de données massives, on ne peut pas réaliser la modélisation des textes par le traitement séquentiel Le traitement du grand volume de donnée dépasse la capacité d’un ordinateur et nécessite un groupe des ordinateurs - signifie l’organisation de calcul sur des dizaines, des centaines ou des milliers des ordinateurs C’est pourquoi, des modèles de traitement distribués deviennent très importants Typiquement, c’est le modèle de MapReduce et l’installation réelle est Hadoop En plus, le logiciel de nuage informatique d’Openstack et le projet de Savanna va optimiser des ressources de matériel pour le modèle de programmation de MapReduce et faire élastiquement le groupe des ordinateurs d’Hadoop Donc, cette thèse va étudier la programmation en MapReduce avec Hadoop pour modélisation des textes en modèle d’espace vectoriel et le modèle de fréquence sur la base de nuage informatique d’Openstack et le projet de Savanna Mots – Clés : modélisation des textes, modèle d’espace vectoriel, modèle de fréquence, MapReduce, Hadoop, nuage informatique, Openstack, Savanna Openstack Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique ABSTRACT Text modeling is a preprocessing step which is very important in different domains such as textual data exploitation and natural language processing Currently, there are many models for the text modeling We can see now some models such as vector space model and frequency model that are simple and efficient However, in the era of big data, we can’t realize the modeling of texts with the sequent processing The large data processing exceeds a capacity of a computer and requires a cluster of computers, means organizing a computation on tens, hundreds or thousands of computers Therefore, distributed processing models become very important Typically, that is the MapReduce model and an actual installation is Hadoop In addition, the Openstack and Savanna project open source cloud operating system will optimize hardware resources and elasticize the Hadoop cluster of computers This thesis will study the MapReduce programming model with Hadoop to model texts by the vector space model and the frequency model on the Openstack and Savanna project cloud computing basis Keywords: text modeling, vector space model, frequency model, MapReduce, Hadoop, cloud computing, Openstack, Savanna Openstack Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique TABLE DES MATIÈRES TABLE DES MATIÈRES LISTE DE FIGURES LISTE DES TABLEAUX SYMBOLE ET ABRÉGEMENT DU MOT REMERCIEMENTS CHAPITRE : GÉNÉRALITÉ 1.1 PROBLÉMATIQUE 1.2 RÉTROSPECTIVE DU PROBLÈME DE MODÉLISATION DES TEXTES 1.3 CONTENU DU PROBLÈME 10 1.4 OBJECTIF DU PROBLÈME 10 1.5 ÉCHELLE DU PROBLÈME 10 1.6 MÉTHODOLOGIE D’ÉTUDE ET SOLUTION 10 1.6.1 En théorie 10 1.6.2 En expérimentation 11 CHAPITRE : THÉORIE DE BASE 12 2.1 MODÉLISATION DES TEXTES 12 2.2 MÉTHODES DE MODÉLISATION DES TEXTES EN VIETNAMIEN 12 2.2.1 Modèle logique 12 2.2.2 Modèle d’analyse syntaxique 13 2.2.3 Modèle d’espace vectoriel 14 2.2.4 Modèle Booléen 15 2.2.5 Modèle de fréquence 15 2.3 PROGRAMMATION EN MODÈLE DE MAPREDUCE 16 2.3.1 Idées principales de MapReduce 16 2.3.2 Principe de l’algorithme de MapReduce - Diviser pour mieux régner18 2.3.3 Origine de MapReduce 18 2.3.4 Structure de donnée dans MapReduce 19 2.3.5 Mapper et Reducer - Composants principaux de MapReduce 20 Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique 2.3.6 Partitioner et Combiner 21 2.3.7 Execution framework 22 2.3.8 Système de fichier distribué dans MapReduce 22 2.3.9 Principe de fonctionnement de MapReduce 23 2.4 CADRE D’HADOOP (HADOOP FRAMEWORK) 24 2.4.1 Introduction 24 2.4.2 Groupe des ordinateurs d’Hadoop (Hadoop Cluster) 24 2.4.3 Architecture d’HDFS 25 2.4.4 Modèle réalisé d’application de MapReduce dans Hadoop 26 2.5 NUAGE INFORMATIQUE 27 2.5.1 Concept 27 2.5.2 Point de vue sur le nuage informatique 27 2.5.3 Caractéristiques du nuage informatique 28 2.5.4 Avantage et Inconvénient du nuage informatique 29 2.5.5 Technologie virtuelle du nuage informatique 30 2.5.6 Modèles de service et de déploiement 31 2.6 SYSTÈME D’EXPLOITATION DE NUAGE DE SOURCE OUVERT D’OPENSTACK 34 2.6.1 L’infrastructure de calcul d’OpenStack (Nova) 35 2.6.2 Le service d’image d’OpenStack (Glance) 36 2.6.3 L’infrastructure de stockage d’OpenStack (Swift) 36 2.6.4 Le service d’identité d’OpenStack (Keystone) 37 2.6.5 L’interface administratif d’OpenStack (Horizon) 37 2.7 PROJET DE SAVANNA 37 2.7.1 Concept 37 2.7.2 Communication entre le projet de Savanna et les composants d’Openstack 38 2.7.3 Composants de l’architecture de Savanna 38 CHAPITRE : SEGMENTATION EN MOTS ET DE MODÉLISATION DES TEXTES 40 3.1 INTRODUCTION 40 3.2 DES ÉTAPES POUR RÉALISER LE TRAVAIL DE MAPREDUCE 42 Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique 3.3 TRAVAIL DE MAPREDUCE 42 3.3.1 Problème résoudre 42 3.3.2 Méthode résoudre 42 3.4 TRAVAIL DE MAPREDUCE 46 3.4.1 Problème résoudre 46 3.4.2 Méthode résoudre 46 3.5 TRAVAIL DE MAPREDUCE 49 3.5.1 Problème résoudre 49 3.5.2 Méthode résoudre 49 3.6 INITIALISATION ET CONFIGURATION LE SYSTÈME D’EXPLOITATION DE NUAGE DE SOURCE OUVERT D’OPENSTACK ET LE PROJET DE SAVANNA POUR FONCTIONNER CE LOGICIEL 54 3.7 RÉSULTAT EXPÉRIMENTAL 56 3.7.1 Résultat expérimental de la segmentation des mots, des méthodes de suppression des mots arrêtés et de la modélisation des textes en modèle d’espace vectoriel 56 3.7.2 Résultat expérimental de la modélisation des textes avec un grand volume de donnée en modèle de programmation de MapReduce sur un groupe des ordinateurs d’Hadoop (Hadoop Cluster) 57 CHAPITRE : CONCLUSION ET SUGGESTION DE DEVELOPPEMENT 59 4.1 RÉSULTAT OBTENU 59 4.1.1 En produit de logiciel 59 4.1.2 En connaissance obtenue 59 4.2 SUGGESTION DE DEVELOPPEMENT 60 RÉFÉRENCES 61 Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique LISTE DE FIGURES Figure 2.2.3.1 : Des vecteurs de texte dans l’espace bidimensionnel 14 Figure 2.3.1.1: Scale « out », not « up » 17 Figure 2.3.2.1: Diviser pour mieux régner 18 Figure 2.3.3.1 : Modèle programmation fonctionnelle 19 Figure 2.3.5.1 : Deux composants Mapper et Reducer 20 Figure 2.3.6.1 : Deux composants Partitioner et Combiner 21 Figure 2.3.9.1: Principe de fonctionnement de MapReduce 23 Figure 2.4.2.1: Groupe des ordinateurs d’Hadoop (Hadoop Cluster) 24 Figure 2.4.3.1 : Architecture d’HDFS 25 Figure 2.4.4.1 : Modèle réalisé d’application de MapReduce dans Hadoop 26 Figure 2.5.1.1 : Nuage informatique 27 Figure 2.5.3.3.1 : Utilisation de ressource commune 28 Figure 2.5.5.1 : Technologie virtuelle du nuage informatique 30 Figure 2.5.5.2 : Technologie virtuelle de système d’exploitation 31 Figure 2.5.5.3 : Technologie virtuelle de matériel 31 Figure 2.5.6.1 : Modèles de service et de déploiement 31 Figure 2.5.6.1.1 : Trois modèles de service du nuage informatique 32 Figure 2.6.1 : Architecture d’Openstack 35 Figure 2.7.2.1 : Communication entre le projet de Savanna et les composants d’Openstack 38 Figure 2.7.3.1 : Composants de l’architecture de Savanna 39 Figure 3.1.1: Processus de la segmentation et modélisation des textes 40 Figure 3.1.2 : La modélisation des textes en modèle MapReduce 41 Figure 3.2.1 : Les étapes pour réaliser le travail de MapReduce 42 Figure 3.3.2.1 : Diagramme d’algorithme du travail de MapReduce 43 Figure 3.3.2.2.1 : Diagramme d’algorithme de Mapper 44 Figure 3.3.2.3.1 : Diagramme d’algorithme de Reducer 45 Figure 3.4.2.1 : Diagramme d’algorithme du travail de MapReduce 46 Figure 3.4.2.2.1 : Diagramme d’algorithme de Mapper 47 Figure 3.4.2.3.1 : Diagramme d’algorithme de Reducer 48 Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique Figure 3.5.2.1 : Diagramme d’algorithme du travail de MapReduce 50 Figure 3.5.2.1.1 : Diagramme d’algorithme de Mapper 50 Figure 3.5.2.3.1 : Diagramme d’algorithme de Reducer 3.1 52 Figure 3.5.2.3.1 : Diagramme d’algorithme de Reducer 3.2 53 Figure 3.6.1 : Modèle de nuage informatique pour fonctionner le logiciel 55 Figure 3.7.2.1 : Temps d’exécution de la modélisation des textes avec un grand volume de donnée sur un groupe des ordinateurs d’Hadoop 57 Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique LISTE DES TABLEAUX Tableau 2.2.1.1: Modélisation en modèle logique 12 Tableau 2.2.1.2 : Modélisation en modèle logique 13 Tableau 2.2.2.1 : Modélisation en modèle d’analyse syntaxique 14 Tableau 2.2.3.1 : Modélisation en modèle d’espace vectoriel 14 Tableau 2.2.4.1 : Modélisation en modèle de Boolean 15 Figure 3.7.1.1: Résultat expérimental de la modélisation des textes 56 Figure 3.7.1.2 : Résultat expérimental de la modélisation des textes 56 Figure 3.7.1.3 : Résultat expérimental de la modélisation des textes 57 Figure 3.7.2.2 : Comparaison de temps d’exécution entre 58 Standalone Mode et Pseudo-Distributed Mode 58 Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique Figure 3.4.2.3.1 : Diagramme d’algorithme de Reducer ˗ Là-dedans : + temp_compter : un tableau HashMap contient des « mots » et « « n » le nombre d’occurrences du « mot » + mot_dénombrement : une liste contient deux éléments qui sont « mot » et « n » Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page 48 SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique + total_mot_dans_document : total de nombre de mot dans un texte 3.4.2.4 Conducteur (Driver) de travail ˗ Il faut préciser la voie d’accès des textes nécessaires traités ˗ Il faut préciser le lieu pour sauvegarder le résultat du travail 3.5 TRAVAIL DE MAPREDUCE 3.5.1 Problème résoudre Après le travail de MapReduce 2, il a calculé la fréquence (TF) des mots dans un texte Ensuite, il faut calculer la valeur DF, IDF, TF-IDF, supprimer des mots arrêtés (stopwords) basés sur un seuil TF ou DF ou TF-IDF, faire une modélisation des textes en modèle d’espace vectoriel 3.5.2 Méthode résoudre ˗ Utiliser l’output du travail de MapReduce 2, ce sont des paires (mot@texte, ˗ n/N), là-dedans n : total de nombre d’occurrences du mot dans un texte et N : total des mots dans un texte pour l’input du travail de MapReduce Diagramme d’algorithme principal Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page 49 SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique Figure 3.5.2.1 : Diagramme d’algorithme du travail de MapReduce ˗ Là-dedans, + La valeur IDF est calculée en formule :  N wij  log  df  j     + La valeur TF-IDF est calculée en formule :  N wij  tf ij  log  df  j     ˗ Avec, + tfij : la fréquence du mot Tj dans le texte Di + N : le nombre des textes de l’input + dfj : le nombre des textes dans l’ensemble des textes de l’input N que làdedans, le mot Tj est apparu 3.5.2.1 Algorithme de Mapper ˗ Input : (mot@texte, n/N) ˗ Output : (mot, texte = n/N) ˗ Diagramme d’algorithme de Mapper Figure 3.5.2.1.1 : Diagramme d’algorithme de Mapper Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page 50 SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique ˗ Là-dedans : + mot_doc_et_fréqunce : une liste contient deux éléments qui sont « mot@texte » et « n/N » + mot_et_doc : une liste contient deux éléments qui sont « mot » et « texte » 3.5.2.2 Configuration de Reducer Il faut prendre la méthode et un seuil de cette méthode qui sont demandés pour suppression des mots arrêtés 3.5.2.3 Algorithme de Reducer ˗ Input : (mot, liste des valeurs « texte = n/N » qui a ensemble une clé « mot ˗ ˗ ») Output : (mot, chne de la valeur TF-IDF de chaque clé « mot ») Diagramme d’algorithme de Reducer Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page 51 SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique Figure 3.5.2.3.1 : Diagramme d’algorithme de Reducer 3.1 Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page 52 SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique Figure 3.5.2.3.1 : Diagramme d’algorithme de Reducer 3.2 ˗ Là-dedans : + doc_et_fréquence : une liste contient deux éléments qui sont « texte » et « n/N » Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page 53 SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique + temp_fréquence : un tableau HashMap contient des « textes » et « « + + + + + n/N » la fréquence du « mot » dans « texte » liste_ordre_fichier : un tableau HashMap contient les ordres des textes d’Input qui sont nécessaires pour traiter array : une liste les valeurs TF-IDF d’un mot qui sont correspondantes avec les textes d’Input qui sont nécessaires pour traiter so_stopwords_bi_loai : une variable contient le nombre de mots arrêtés sont supprimés pp_loai_stopword = : suppression des mots arrêtés basés sur la valeur TF-IDF pp_loai_stopword = : suppression des mots arrêtés basés sur la valeur TF 3.5.2.4 Conducteur (Driver) de travail ˗ Il faut préciser la voie d’accès des textes nécessaires traités ˗ Il faut préciser le lieu pour sauvegarder le résultat du travail 3.6 INITIALISATION ET CONFIGURATION LE SYSTÈME D’EXPLOITATION DE NUAGE DE SOURCE OUVERT D’OPENSTACK ET LE PROJET DE SAVANNA POUR FONCTIONNER CE LOGICIEL Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page 54 SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique Namenode + JopTracker: Hadoop cluster virtuel Datanode + TaskTracker: CPU: Intel Core i5 Quantité de serveur: CPU: Intel Core i5 RAM: 1GB Namenode + JopTracker: RAM: 1GB Disque: 5GB Datanode + TaskTracker: Disque: 5GB OS: Ubuntu Server OS: Ubuntu Server Projet de Sanvanna Nuage d’OpenStack Ordinateur virtuel CPU: Intel Core i5 RAM: 6GB Disque: 60GB OS: Ubuntu Server VMWare Player Ordinateur physique CPU: Intel Core i5 RAM: 8GB Disque: 500GB OS: Window Ordinateur physique Figure 3.6.1 : Modèle de nuage informatique pour fonctionner le logiciel D’abord, je vais utiliser le logiciel VMware Player pour créer un ordinateur virtuel avec le système d’exploitation d’Ubuntu Server, RAM : 6GB, Disque : 60GB Après, je vais installer le système d’exploitation de nuage d’OpenStack sur Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page 55 SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique cet ordinateur virtuel Alors, nous avons un nuage d’OpenStack Ensuite, je déploie le projet de Savanna pour créer un groupe (cluster) des ordinateurs d’Hadoop afin de fonctionner le logiciel de segmentation des mots et de modélisation des textes sur ce groupe Ce groupe comporte quatre ordinateurs : un ordinateur pour NameNode et JobTracker (Nœud de Controller), trois ordinateurs pour DataNode et TaskTracker (Nœud de Travailler) 3.7 RÉSULTAT EXPÉRIMENTAL 3.7.1 Résultat expérimental de la segmentation des mots, des méthodes de suppression des mots arrêtés et de la modélisation des textes en modèle d’espace vectoriel ˗ le test de la modélisation des textes est réalisé sur un ensemble des textes comportés quatre textes, chaque texte a une capacité 10KB Et, les résultats expérimentaux suivants sont obtenus : Nombre de mot segmenté Nombre des mots arrêtés sont supprimés Liste des Comparaison Seuil de mots arrêtés avec l’index l’index TF Vietnamien TF Modélisation des textes Matrice de TermeDocument avec le poids de TF-IDF Figure 3.7.1.1: Résultat expérimental de la modélisation des textes 5437 1561 0.000921 ˗ La méthode de suppression des mots arrêtés basée sur la comparaison avec ˗ l’index TF dépend de liste des mots arrêtés Vietnamien, parce que les mots arrêtés Vietnamien ont souvent la grande valeur TF C’est pourquoi, cette méthode peut passer ces mots si la liste des mots arrêtés Vietnamien n’est pas suffisante ou est faux Le nombre de mot dans chaque texte n’est pas semblable, cela aboutit la valeur TF des mots entre les textes n’est pas aussi semblable C’est pourquoi, c’est difficile pour choisir un seuil de TF approprié pour tous les textes Nombre de mot segmenté Nombre des mots arrêtés sont supprimés Liste des Seuil Seuil Comparaison mots arrêtés inférieur supérieur avec l’index Vietnamien DF/N DF/N DF/N Modélisation des textes Matrice de Terme5437 1561 0.002 0.9 Document avec le poids de TF-IDF Figure 3.7.1.2 : Résultat expérimental de la modélisation des textes Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page 56 SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique ˗ La méthode de suppression des mots arrêtés basée sur la comparaison avec ˗ ˗ l’index DF/N a résolu le défaut du problème de choix d’un seuil approprié que la méthode TF est tombée En plus, cette méthode ne dépend pas beaucoup de liste des mots arrêtés Vietnamien, parce que les mots arrêtés Vietnamien ont souvent la grande valeur DF/N, c’est pourquoi, ils sont supprimés par le seuil supérieur DF/N Mais, cette méthode doit avoir un grand ensemble des textes de l’input pour choisir un seuil approprié afin de supprimer plus beaucoup des mots arrêtés Nombre de mot segmenté Nombre des mots arrêtés sont supprimés Liste des Seuil de Comparaison mots arrêtés l’index TFavec l’index Vietnamien IDF TF-IDF Modélisation des textes Matrice de Terme5437 1561 0.0001151 184 Document avec le poids de TF-IDF Figure 3.7.1.3 : Résultat expérimental de la modélisation des textes ˗ La méthode de suppression des mots arrêtés basée sur la comparaison avec ˗ l’index TF-IDF a le plus grand résultat de suppression des mots arrêtés Cette méthode n’est pas tombée sur le défaut du problème de choix d’un seuil approprié que la méthode TF Et, elle ne dépend pas beaucoup de liste des mots arrêtés Vietnamien En plus, elle a résolu le défaut du problème de dépendance au grand degré de l’ensemble des textes de l’input que la méthode DF/N est tombée 3.7.2 Résultat expérimental de la modélisation des textes avec un grand volume de donnée en modèle de programmation de MapReduce sur un groupe des ordinateurs d’Hadoop (Hadoop Cluster) Capacité d’un Nombre fichier (unité de de fichier mesure : MB) 320 64 32 10 16 20 40 80 160 320 Total de capacité des fichiers (unité de mesure : MB) 320 320 320 320 320 320 320 320 Temps d’exécution 16 25 sec 56 sec 30 sec 13 sec 09 sec 07 sec 35 sec 05 sec Figure 3.7.2.1 : Temps d’exécution de la modélisation des textes avec un grand volume de donnée sur un groupe des ordinateurs d’Hadoop Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page 57 SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique À travers le tableau de résultat expérimental 3.7.2.1, avec le total de capacité des fichiers, c’est 320 MB Alors, le temps d’exécution est rapide s’il y a des fichiers en petite quantité Donc, le modèle de programmation de MapReduce est plus optimal pour traiter des fichiers en grande capacité en petite quantité plutôt que des fichiers en petite capacité en grande quantité Temps d’exécution Capacité d’un Nombre fichier (unité de Standalone Pseudo-Distributed de fichier mesure : MB) Mode Mode 1 sec 16 sec sec 12 sec 10 sec 16 sec 10 12 sec 18 sec 20 18 sec 23 sec 40 38 sec 35 sec 60 48 sec 59 sec 80 1 02 sec 55 sec 160 08 sec 02 sec 320 58 sec 05 sec 640 05 sec 01 sec 1280 16 01 sec 15 02 sec 2560 32 40 sec 29 57 sec Figure 3.7.2.2 : Comparaison de temps d’exécution entre Standalone Mode et Pseudo-Distributed Mode À travers le tableau de résultat expérimental 3.7.2.2, le modèle de programmation de MapReduce (Pseudo-Distributed Mode) est optimal sur le temps d’exécution avec des fichiers en grande capacité plutôt que Standalone Mode (sans distribution) Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page 58 SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique CHAPITRE : CONCLUSION ET SUGGESTION DE DEVELOPPEMENT 4.1 RÉSULTAT OBTENU 4.1.1 En produit de logiciel Fondamentalement, ce mémoire a construit un logiciel automatique pour segmentation des mots et modélisation des textes en basant sur les fréquences TF et IDF Le logiciel segmente des mots avec le grand degré exact (>97%) grâce l’intégration utilisée de logiciel vnTokenizer pour segmentation des mots Vietnamien En outre, il utilise deux étapes afin de supprimer des mots arrêtés, ce sont la suppression basée sur une liste des mots arrêtés Vietnamien et la suppression basée sur la comparaison avec l’index de TF-IDF C’est pourquoi, ce logiciel a généré un résultat optimal pour modélisation des textes, c’est une matrice de fréquence TF-IDF Cette matrice est une condition préalable pour la plupart de domaine comme l’exploitation de donnée textuelle et le traitement de langue naturelle Le modèle vectoriel utilise les fréquences TF, IDF est connu comme un bon modèle L’implémentation de ce modèle en MapReduce est un travail significatif pour surmonter les défis posé par les grands volumes de données Le logiciel a résolu le problème de grande donnée en utilisation le modèle de MapReduce afin d’organiser le calcul parallèle sur beaucoup d’ordinateurs concrètement que l’utilisation du groupe des ordinateurs d’Hadoop En outre, il résout aussi les problèmes détraqués fréquents dans le groupe (cluster) des ordinateurs d’Hadoop en l’installation de nuage informatique d’Openstack coordonné avec le projet de Savanna pour créer un groupe (cluster) des ordinateurs virtuels d’Hadoop sur un nuage informatique privé En général, le logiciel a répondu aux demandes posées, toutefois, il n’est pas examiné par un grand volume de donnée parce qu’il n’y a pas suffisant des ressources de matériel Et, le nuage informatique d’Openstack ne fournit pas la fonction élastique automatique la demande dans un groupe (cluster) des ordinateurs (serveurs) virtuels – signifie que le nuage informatique d’Openstack va automatique ajouter des ordinateurs (serveurs) au groupe quand des travails sont surchargés et va automatique quitter des ordinateurs (serveurs) sortir du groupe 4.1.2 En connaissance obtenue ˗ Dans le processus pour faire ce mémoire, j’ai obtenu les connaissances utiles suivantes : + En théorie de base  Les méthodes pour modélisation des textes et suppression des mots arrêtés  Le nuage informatique et le modèle de programmation de MapReduce ainsi que la méthode de programmation parallèle et distribuée + En technique Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page 59 SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique La faỗon d’utilisation du logiciel vnTokemizer pour segmentation des mots  La méthode d’utilisation du cadre d’Hadoop pour programmer en le modèle de MapReduce  La manière d’installation et d’utilisation le système d’exploitation de nuage de source ouvert d’Openstack pour créer un nuage informatique privé et le projet de Savanna pour créer un groupe (cluster) des ordinateurs (serveurs) virtuels élastiques sur un nuage informatique + En compétence  L’augmentation de la capacité de recherche scientifique et l’approche des nouveaux problèmes  L’augmentation de la capacité pour résoudre un problème difficile posé  L’exercice de capacité de langue étrangère 4.2 SUGGESTION DE DEVELOPPEMENT ˗ Il peut perfectionner l’algorithme de modélisation des textes en méthode de ˗ ˗ modèle d’espace vectoriel avec le modèle de programmation de MapReduce pour diminuer le temps exécuté Il peut développer et résoudre le problème de modélisation des textes en autre méthode comme le modèle de graphique Il peut installer des nouvelles versions d’Openstack dans l’avenir pour fournir les fonctions élastiques automatiques la demande dans un groupe (cluster) des ordinateurs (serveurs) virtuels Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page 60 SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique RÉFÉRENCES [1] Dan C Marinescu Cloud Computing: Theory and Practice University of Central Florida, Orlando, FL 32816, USA, 2012 [2] Atul Jha, Johnson D, Kiran Murari, Murthy Raju, Vivek Cherian, Yogesh Girikumar OpenStack Beginner's Guide v3.0, CSS Corp, 2012 [3] Jimmy Lin and Chris Dyer Data-Intensive Text Processing with MapReduce University of Maryland, College Park, 2010 [4] Chuck Lam Hadoop in Action Manning Publications, 2010 [5] Srinath Perera and Thilina Gunarathne Hadoop MapReduce Cookbook Packt Publishing, 2013 [6] Donald Miner and Adam Shook MapReduce Design Patterns O’REILLY, 2012 [7] Tom White Hadoop: The Definitive Guide – Third Edition O’REILLY, 2012 [8] Jason Venner Pro Hadoop APRESS, 2009 [9] BinLi and Yuan Guoyong Improvement of TF-IDF Algorithm Based on Hadoop Framework Jinan University, Guangzhou - China, 2012 [10] Alex Holmes Hadoop in Practice Manning Shelterisland, 2012 [11] Pietro Michiardi Tutorial: MapReduce Theory and Practice of Dataintensive Applications Eurecom, 2011 [12] IBM ISV and Developer Relations Foundations of IBM Cloud Computing Architecture IBM Corporation, 2010 [13] Nguyễn Văn Diệt Xử lý liệu phân tán với mapreduce xây dựng ứng dụng minh họa Trường Đại Học Nha Trang, 2011 [14] Vũ Minh Ngọc Tìm hiểu Hadoop, MapReduce, toán ứng dụng [15] Nguyễn Thị Châm Anh Tìm hiểu ứng dụng cơng nghệ Cloud computing với tảng Google app engine Trường Đại học Công nghệ, 2012 [16] Trần Văn Bách Cơ sở liệu phân tán ứng dụng máy tìm kiếm Trường Đại học Cơng nghệ, 2010 [17] Đặng Vũ Đình Duy Nguyễn Tấn Dương Tìm hiểu tảng phát triển ứng dụng phân tán với hadoop áp dụng cho search engine phân tán Trường Đại Học Khoa Học Tự Nhiên, 2010 [18] Nguyễn Trần Thiên Thanh Trần Khải Hồng Tìm hiểu hướng tiếp cận tốn phân loại văn xây dựng phần mềm phân loại tin tức báo điện tử Trường Đại Học Khoa Học Tự Nhiên, 2005 Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page 61 SUJET: Segmentation des mots et modélisation des textes Vietnamien en modèle de MapReduce avec la technologie de nuage informatique [19] Phan Đình Huy, Trần Ngọc Đức, Lê Phước Phát Đạt Đức, Hoàng Thị Thúy Trà Điện toán đám mây Trường Đại Học Quốc Gia Thành Phố Hồ Chí Minh, 2009 [20] Nguyễn Việt Cường Luận văn tốt nghiệp Trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội, 2006 http://networkstatic.net/installing-openstack-grizzly-with-devstack/ http://www.openstack.org/ https://savanna.readthedocs.org/en/0.1.2/horizon/installation.guide.html http://nanchor.blogspot.com/2012/07/openstack-essex-va-cac-tai-lieu-tham.html http://mcle8.wordpress.com/tag/openstack/ http://www.yoyoclouds.com/p/blog-page_11.html http://marcellodesales.wordpress.com/2009/12/31/tf-idf-in-hadoop-part-1-wordfrequency-in-doc/ http://www.isystem.com.vn/News/Bao-mat-he-thong/Kinh-nghiem-baomat/2125/Gioi-thieu-OpenSSH.aspx https://github.com/mseknibilel/OpenStack-Grizzly-Install-Guide http://hadoop.apache.org/docs/stable/mapred_tutorial.html http://xlcloud.org/bin/view/Blog/Devstack+with+Quantum+in+a+multinode+configuration http://www.havetheknowhow.com/Configure-the-server/Install-VNC.html Tuteur: Prof.TRẦN Cao Đệ - Auteur: NGUYỄN Ngọc Thành Page 62 ... Page 10 SUJET: Segmentation des mots et modélisation des textes Vietnamien en mod le de MapReduce avec la technologie de nuage informatique + + + + Le mod le de programmation de MapReduce Le cadre... Page 15 SUJET: Segmentation des mots et modélisation des textes Vietnamien en mod le de MapReduce avec la technologie de nuage informatique Là-dedans, wij est le poids du mot-clé ti dans le texte...SUJET: Segmentation des mots et modélisation des textes Vietnamien en mod le de MapReduce avec la technologie de nuage informatique RÉSUMÉ La modélisation des textes est une étape de prétraitement

LUẬN văn kỹ THUẬT PHẦN mềm segmentation des mots et modélisation de textes vietnamiens en modèle de programmation mapreduce dans le nuage informatique

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan