Combinaison de méthodes avancées de visualisation et de sélection d’information pour la fouille et l’analyse de données

Institut de la Francophonie pour l’Informatique IFI Hanoi INRIA-LORIA, FRANCE Combinaison de m´ ethodes avanc´ ees de visualisation et de s´ election d’information pour la fouille et l’analyse de donn´ ees M´ emoire de fin d’´ etudes présentée et soutenue publiquement le 06 Décembre 2007 pour l’obtention du Master de l’Institut de la Francophonie pour l’Informatique – IFI-Hanoi (sp´ ecialit´ e informatique) par Anh-Phuong TA Sous la direction de : Jean-Charles LAMIREL Maˆıtre de Conférence, Université Robert Schuman, Strasbourg Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503 Résumé La combinaison de méthodes avancées de visualisation et d’étiquetage des clusters joue un rôle important non seulement pour donner un avis global des résultats du clustering, mais aussi pour l’évaluation précise desdits résultats Mais aujourd’hui encore, aucune solution prộcise sur la faỗon de combiner de telles mộthodes na été proposée Dans ce rapport, nous présentons une première tentative de combinaison de la visualisation hyperbolique ainsi que de nouvelles approches d’étiquetage afin de visualiser précisément les résultats d’analyses de données issues de méthodes de clustering toutes les fois que les clusters sont l’origine représentés dans un espace fortement multidimensionnel Le modèle de visualisation se fonde sur un algorithme hiérarchique qui est employé pour récapituler le contenu de clusters sous forme hiérarchique Cet algorithme préserve la densité de données issue de l’espace de description des clusters originaux Dans ce mémoire sont présentées différentes stratégies d’étiquetage qui peuvent être employées aussi bien pour décrire le contenu de base des clusters que pour propager précisément les étiquettes dans les différents niveaux de l’hyperbolique résultant Ce travail s’attache ensuite améliorer les défauts des méthodes de visualisation hyperbolique en embarquant le modèle de Spring l’hyperbolique afin de mieux montrer les relations entre les clusters Plusieurs expérimentations sont proposées sur différents types de données documentaires Mots-clés : analyse de données multi-vues, fouille de données, clustering numérique, évaluation de qualité du clustering, étiquetage des clusters, visualisation hyperbolique, visualisation hiérarchique Abstract Combining the visualization and the labeling methods plays an important role not only for giving an overall view of the clustering results but also for the precise evaluation of the said results But at this point, no accurate solution on how to combine such methods has been proposed In this report we present a first attempt of combination of hyperbolic visualization and novel labeling approaches for accurately visualizing data analysis results issued for clustering approach whenever the clusters are originally represented in a highly multidimensional space The visualization model relies on a hierarchical algorithm that is used for summarizing the cluster contents in the form on a hypertree in which information on data density issued from the original clusters description space is preserved The core of this work presents different novel labeling strategies that can be used for describing the basic cluster contents as well as for accurately propagating labels into the different levels of the resulting hypertree This work then aims to improve the defects of hypertree visualization by embedding the model of Spring to hyperbolic for better showing the relations between the clusters Several realistic test experiments of our proposals are achieved on different kinds of documentary data Keywords : multiview data analysis, data mining, clustering, cluster labeling, clustering quality evaluation, hyperbolic visualization, hierarchical visualization i Remerciements Mes premiers remerciements vont mon encadrant Jean-Charles Lamirel pour le temps qu’il m’a consacré durant ce stage, son soutien, ses conseils scientifiques, sa disponibilité et son aide précieuse pour améliorer et aller jusqu’au bout de ce travail de stage Il m’a vraiement impressionné de par ses qualités humaines et son esprit ouvert Je tiens remercier tous les membre de l’équipe CORTEX : Randa, Maxime, Jéremy pour leur soutien et leur accueil et les membres de l’équipe KIWI, Geoffray, Ilham Je tiens remercier Pascal Cuxac et Claire Franỗois de lINIST pour leurs évaluations Je tiens remercier Mohammed Attik, un ancien doctorant de l’équipe Cortex pour sa coopération, sa conversation et son soutien Je tiens remercier mes Professeurs de l’IFI, qui m’ont donné des connaissances et m’ont aidé bien suivre la formation de master de l’IFI Mes grands remerciement ma grande famille, en particulier ma femme et mon fils, pour leur encouragement, leurs prières pour réussir ma vie professionnelle iii Table des matières Liste des figures ix Liste des tableaux xi Liste des algorithmes xiii Chapitre Introduction générale 1.1 Motivation 1.2 Contexte et Problématique 1.3 Contribution 1.4 Plan du mémoire Chapitre L’état de l’art 2.1 2.2 2.3 Visualisation d’information 2.1.1 Dimension intrinsèque des données multidimensionnelles 2.1.2 Visualisation par projection cartographique linéaire 10 2.1.3 Visualisation par projection cartographique non linéaire 12 2.1.4 Visualisation par l’analyse de graphe 15 2.1.5 Visualisation hyperbolique 16 Étiquetage des clusters 19 2.2.1 Approches traditionnelles 19 2.2.2 Étiquetage des clusters par la sélection d’information (variable) 19 Traitement de données documentaires multidimensionnels 20 2.3.1 Représentation de données documentaires 20 v Table des matières 2.4 2.3.2 Notion de point de vue 23 2.3.3 Clustering numérique 24 Conclusion 25 Chapitre Combinaison de méthodes avancées de visualisation et de sélection d’information pour la fouille et l’analyse de données 3.1 Introduction 30 3.2 Nouvelles mesures de qualité du clustering basées sur la distribution d’étiquettes 30 3.3 3.4 Nouvelles stratégies d’étiquetage des clusters 32 3.3.1 Stratégie locale d’étiquetage des clusters 33 3.3.2 Stratégie globale d’étiquetage des clusters 3.3.3 Stratégie hybride d’étiquetage des clusters 35 3.3.4 Stratégie d’étiquetage des clusters par les mesures d’entropie 35 3.3.5 Étiquetage des clusters par Gain d’Information 34 36 Combinaison des méthodes d’étiquetage des clusters et de visualisation hyperbolique 36 3.5 Communication multi-vues entre les arbres hyperboliques 37 3.5.1 Modèle de réseau bayésien pour la communication inter-cartes 37 3.5.2 Communication multi-vues entre les arbres hyperboliques 39 3.6 Intégration de graphe l’hyperbolique 39 3.7 Organisation des branches de l’hyperbolique 41 3.8 Conclusion 41 Chapitre Expérimentations et évaluations 4.1 Interprétation des résultats du clustering 43 4.2 Communication multi-vues entre les arbres hyperboliques 45 4.3 Intégration de modèle de Spring l’hyperbolique 4.4 Évaluations 46 Conclusion générale vi 46 Annexe A Description des données pour le Corpus Brevets A.1 Introduction 55 A.2 Analyse des brevets 55 A.2.1 Définition des points de vue 55 A.2.2 Multi-indexation des brevets 56 Annexe B Description des données pour le Corpus PASCAL B.1 Introduction 59 B.2 Extrait de données 59 B.2.1 Définition des points de vue 59 Bibliographie 61 vii Liste des figures 1.1 Paradigme de traitement de l’information orienté par les points de vue (MVDA) 2.1 2.2 2.3 Distribution du « fer cheval » évolution du volume de sphère en fonction de nombre de dimensions Distribution en « fer cheval » : (a) Distribution et plan principal trouvé par l’ACP 2.4 Projection faite par CCA de IR3 IR2 de la distribution du « fer cheval » 2.5 (a) deux points d’un spirale, (b) la distance euclidienne entre ces deux points et (c) la distance curviligne ou géodésique 2.6 Approximation de la distance curviligne l’aide du chemin le plus court par l’intermédiaire des liens entre les centroïdes (ici la distance entre les deux centroïdes noircis) 2.7 CDA : Projection non-linéaire d’un « nœud de tresse »(de dimension 1) 2.8 Isomap : Exemple du « rouleau suisse »(à droite) et de la projection de 20000 échantillons tirés du rouleau par Isomap 2.9 BibTechMon : réseau de mots baséesur les relations entre eux Ce réseau contient 28 nœuds et 131 connexions 2.10 Deux types de géodésique : un diamètre passant par O et P et un arc de cercle AB orthogonal au cercle unité 2.11 La visualisation de l’arbre hyperbolique (Hypertree) 3.1 3.2 3.3 4.1 4.2 4.3 4.4 4.5 10 11 13 14 14 14 15 16 17 18 Cette figure montre le principe d’étiquetage d’arbre hyperbolique par la stratégie F-leaveOneOut 37 La structure de réseau bayésien pour la communication inter-topographies 38 Deux masses de points et leurs connexions par l’élasticité cij est l’élement de matrice des indices de Jaccard 40 Méthode Dominant d’étiquetage d’arbre hyperbolique Méthode ThemostFrequent d’étiquetage d’arbre hyperbolique Méthode χ2 d’étiquetage d’arbre hyperbolique Étiquetage d’arbre hyperbolique par la moyenne de F-mesure (F-moyenne) Étiquetage d’arbre hyperbolique par la F-LeaveOneOut ix 44 45 46 47 48 Liste des figures 4.6 4.7 4.8 Une part vue de l’arbre qui présente le cluster source activé (en blue) pour la propagation 49 Résultat de la propagation du cluster activé dans le figure 4.6, les clusters en blue sont trouvé par la propagation bayesien 49 Cette figure montre le graphe utilisant le modèle de Spring pour visualiser les relations natureles entre les clusters d’enfants d’un père de l’arbre hyperbolique 50 A.1 Exemple de notice de brevet L’indexation qui a été générée pour ce brevet est matérialisé par le contenu du champ «Final indexation» Ces termes d’indexation sont préfixés par le nom du point de vue auquel ils sont associés : «adv.» pour le point de vue Avantages, «titre» pour le point de vue Titres, «use» pour le point de vue Utilisations, «soc.» pour le point de vue Déposants 57 x Liste des tableaux 2.1 2.2 Tableau de contingences pour l’absence ou la présence d’un terme dans les documents d’une classe 20 Notations de DBHC 25 3.1 Ce tableau présente un exemple de clusters (C1 , , C6 ) annotés par étiquettes, e1 , , e7 Le cluster C1 est annoté par les étiquettes e1 , e2 ,e3 ,e4 ,e5 L’étiquette e4 est présente dans les clusters C1 et C4 41 4.1 Ce tableau présente un exemple d’utilisation de la fonction g (cf équation 4.1) 48 Ce tableau présente la comparaison de différentes approches d’étiquetage d’arbre hyperbolique 50 4.2 A.1 Tableau résumé des caractéristiques résultantes de brevets 57 xi Liste des algorithmes Algorithme de classification hiérarchique orienté par la densité (DBHC) 26 Procédure : élimination de classes parents répétées 26 Procédure : éviter les classes recouvrantes 27 xiii Chapitre Expérimentations et évaluations Fig 4.8 – Cette figure montre le graphe utilisant le modèle de Spring pour visualiser les relations natureles entre les clusters d’enfants d’un père de l’arbre hyperbolique nombre de nœuds d’enfant dont la racine est ni Cette mesure (Label Heterogeneity Penalty en anglais, noté par LHP) est utilisée pour évaluer la homogénéité de la propagation entre les enfants et leurs parents dans l’arbre hyperbolique De plus, un autre critère important d’évaluation est employé pour évaluer l’exhaustivité initiale du clustering Il concerne la précision moyenne des étiquette des clusters feuilles (Average Label Precision of the leaf clusters, noté ALP) En appliquant ces mesures d’évaluation nos expérimentations, nous avons obtenus le tableau suivant : Pour combiner les différents critères d’évaluation (LSP, ALP, SSP, LHP) afin de trouver Dominant T hemostF requent FLeaveOneOut Fmoyenne χ2 LSP 1216 245 155 155 121 ALP 0.03 0.24 0.26 0.26 0.21 SSP 568 166 112 101 89 LHP 525 592 760 1310 1485 UR 3.25 2.25 2.25 2.75 WR 10.5 4.75 7.5 δ 1.73 0.82 0.82 1.08 1.78 Tab 4.2 – Ce tableau présente la comparaison de différentes approches d’étiquetage d’arbre hyperbolique la meilleure méthode d’étiquetage, nous avons effectué un classement des différentes méthodes d’étiquetage testées relativement aux résultats obtenus Par exemple, dans la colonne LSP du tableau 4.2, aprés avoir effectué ce classement, on trouve : 5, 4, 2, 50 4.4 Évaluations 2, 1, c’est-à-dire que la méthode χ2 donne le meilleur résultat avec le critère LSP À partir de ce classement, deux stratégies différentes de combinaison ont été employées Dans la première stratégie (Uniform Ranking en anglais, noté UR), tous les critères d’évaluation (LSP, ALP, SSP, LHP) ont été considérés comme étant d’égale importance et nous avons fait la moyenne de tous les classements obtenus pour avoir la colonne UR Dans la seconde stratégie (Weighted Ranking en anglais, notée WR), différents facteurs d’importance ont été attribués aux critères de chaque évaluation en fonction de leur priorité subjective, tels que : ALP=4, LSP=3, LHP=2 SSP=1 Dans ce cas-ci la pénalité moyenne de précision de feuille (ALP) et de similitude de feuille (LSP) ont été considérées en tant que principaux critères de priorité afin d’accentuer l’exhaustivité et la puissance discriminante de base des méthodes de clustering Nous calculons finalement l’écart-type (dernière colonne) pour mesurer la stabilité des méthodes d’étiquetage au travers des différents critères d’évaluation proposés (LSP, ALP, SSP, LHP) Les résultats d’étiquetage montrent quelques points importants La méthode dominante fourni les moins bons résultats Elle est ainsi la moins appropriée parce que c’est celle qui produit les étiquettes les moins distinctives pour les clusters originaux (les valeurs les plus élevées de LSP et de CSP) D’ailleurs, ces résultats de très bas précision (ALP) indique que les étiquettes obtenues dérivent mal le contenu de classe Néanmoins, l’homogénéité de la propagation des étiquettes est correcte avec cette méthode La méthode ThemostFrequent se comporte légèrement mieux que la dominante Néanmoins, son défaut principal est qu’elle produit des étiquettes distinctives plus faibles (valeurs moyennes de LSP et de CSP), par rapport aux meilleures méthodes La méthode χ2 produit les étiquettes les plus distinctives au niveau des clusters feuille, mais au coût d’une exhaustivité inférieure pour la précision des étiquettes obtenues, indiquant que l’exhaustivité de χ2 n’atteint pas le bon résultat en comparant avec la bonne méthode D’ailleurs, la propagation d’étiquette est la plus hétérogène (la valeur de LHP la plus élevée) et le taux de rang de la méthode χ2 est moins stable (le plus haut la valeur δ) Enfin, en se basant sur les trois dernières colonnes du tableau 4.2, on trouve que la méthode FLeaveOneOut est la meilleure De plus, la racine de l’arbre hyperbolique étiqueté par la mesure FLeaveOneOut (cf figure 4.5) est le terme “rock mechanics” qui est le sujet du Corpus Pascal Nous avons montré les évaluations Pascal Cuxac, un chercheur l’INIST qui a travaillé depuis quelques années sur le corpus Pascal Il est d’accord avec nous pour dire que la méthode d’étiquetage FLeaveOneOut est la meilleure 51 Chapitre Expérimentations et évaluations 52 Conclusion générale “ The journey of a thousand miles begins with a single step ” Lao Tsu, Chinese Philosopher, 6th Century B.C (cited in WorldPeace, 1997) Conclusion Le but principal de ce travail était d’analyser et d’interpéter des résultats issus de classification non supervisée (SOM, NG ou GNG) (cf section 2.3.3) Pour mener bien ce travail, nous avons étudié les méthodes de sélection d’information pour étiqueter les clusters et les méthodes de visualisation qui permettent de visualiser des données fortement multidimensionnelles comme l’hyperbolique En effet, les méthodes existantes d’étiquetage (cf section 2.2) des clusters ne sont pas capable d’étiqueter des données fortement multidimensionnelles, et il n’existe pas encore de méthode d’étiquetage des clusters avec des labels multiples De plus, il semblait nécessaire d’introduire de nouvelles techniques de combinaison d’une approche de visualisation efficace avec les stratégies d’étiquetage des clusters pour la fouille et l’analyse de données Cet état de l’art nous a permis de proposer ce sujet de stage Nous avons d’abord proposé les nouvelles mesures de qualité du clustering basés sur la distribution d’étiquettes : rappel et précision du cluster, F-mesure, entropies, (cf section 3.2) Nous avons ensuite proposé, en se basant sur ces dernières mesures, les différentes approches d’étiquetage des clusters, savoir : l’approche locale, l’approche globale, la F-mesure, les entropies et le gain d’information Nous avons également présenté le principe de combinaison de visualisation hyperbolique avec les stratégies d’étiquetage Nous avons appliqué le mécanisme de communication multi-vues entre les différents arbres hyperboliques En outre, nous avons amélioré l’hyperbolique en ajoutant le modèle de Spring pour mieux représenter les relations naturelles entre les clusters euxmêmes Nous avons mené bien nos expérimentations en utilisant deux types de corpus différents dans nos expérimentations, savoir un corpus de notice de brevets, et le corpus Pascal contenant des données de sciences médicales et biologiques Enfin, les utilisations des mesures d’évaluation ad-hoc et avec l’aide d’un expert qui travaille depuis longtemps sur le corpus Pascal nous ont permis de conclure que notre 53 Conclusion générale approche proposée est meilleure que les approches existantes testées En terme de théorie, le premier résultat de notre travail est la proposition de nouvelles stratégies d’étiquetage basées sur les mesures de qualité du clustering Le deuxieme résultat obtenu est la proposition une combinaison de la visualisation hyperbolique avec les méthodes d’étiquetage des clusters Ce travail couvre deux domaines complémentaires, savoir celui de l’analyse de données proprement dite, et celui de la fouille de données Au niveau de la pratique, nous avons mis en place, dans le modèle MVDA, quelques biliotèques, telles que : module de clustering hiérarchique multi-niveau, module de visualisation hyperbolique avec la communication multi-vues, module de visualisation par le modèle de Spring (graph) et module d’étiquetage des clusters ainsi qu’à l’arbre hyperbolique Perspectives Nous comptons l’avenir poursuivre nos études dans deux directions complémentaires, savoir l’étiquetage des clusters, et la visualisation En ce qui concerne létiquetage des clusters, nous comptons l’avenir poursuivre nos études pour estimer plus précisement le nombre d’étiquettes nécessaires de chaque clusters et nous comptons par la suite mettre en place de nouveau mécanismes d’évaluation d’étiquetage des clusters de manière plus objective Ensuite, pour la visualisation, nous comptons optimiser notre méthode hiérarchique DBHC Il s’agit d’une optimisation du nombre de niveaux générés dans l’arbre hyperbolique De plus, nous pouvons appliquer notre algorithme de manière originale sur les résultats des cartes SOM, de manière déterminer le degré de densité de ses classes et d’isoler ainsi les classes qui correspondent aux données marginales Nous comptons l’avenir appliquer l’algorithme de déplacement de l’hyperbolique au graphe, nous pensons que la visualisasion par graphe pourrait surmonter la problème de surcharge cognitive avec un modèle de graphe flexible (le graphe intégré au comportement de l’hyperbolique) Nous pensons en particulier poursuivre nos expérimentations dans le domaine de la bioinformatique, et plus spécifiquement celui de l’interprétation des résultats expérimentaux des puces ADN 54 Annexe A Description des données pour le Corpus Brevets Sommaire A.1 Introduction A.2 Analyse des brevets A.2.1 Définition des points de vue A.2.2 Multi-indexation des brevets A.1 55 55 55 56 Introduction Nos expérimentations et nos évaluations ont été réalisées sur deux type de données Le premier type est un ensemble de 1000 notices de brevets dans le domaine de l’ingénierie des huiles moteur Le deuxième type correspond des données extraites du web dans le cadre du projet européen EICSTES (European Indicators, Cyberspace and the Science - Technology - Economy System)2 A.2 Analyse des brevets Notre premier corpus regroupe un ensemble de 1000 notices de brevets issus du domaine de l’ingénierie des huiles moteur Ces brevets ont été publiés durant l’année 1999 A.2.1 Définition des points de vue L’application d’une méthode de classification sur ces notices de brevets dans le domaine des huiles moteur permet de répondre directement des questions aussi variées http ://www.eicstes.org/ 55 Annexe A Description des données pour le Corpus Brevets que : Quelles sont les relations de coopération/dépendance entre les déposants ?, Quels sont les avantages des différents types d’huile moteur ?, Un déposant donné travaille-t-il sur une technologie précise, pour quels avantages et pour quelle utilisation ?, Quelle technologie est utilisée par tel déposant et n’est pas utilisée par tel autre ?, Quels sont les avantages majeurs de tel composant intervenant dans la fabrication des huiles ? Ces avantages ont-ils été mentionnés dans tous les brevets utilisant ce composant ? Ces questions correspondent différents domaines sémantiques qui peuvent être associés aux différents champs des notices La structure de ces notices nous permet donc de définir différents points de vue qui permettront de répondre aux questions ci-dessus Les différents points de vue qui ont été définis, sont les suivants : Déposants : les déposants, correspondent un champ spécifique, Titres : les titres, décrivent précisément le contenu des brevets, Utilisations : le champ «Utilisations», sous-ensemble du résumé, décrivant les utilisations potentielles du brevet, Avantages : le champ «Avantages», sous champ du résumé décrivant les apports de ce brevet par rapport aux technologies existantes Un cinquième point de vue «le point de vue global», représente la combinaison de tous les points de vue, il est également considéré pour effectuer notre comparaison entre une approche globale et une approche orientée par les points de vue Durant la phase de l’analyse, une des préoccupations principales de l’expert a été celle de pouvoir utiliser chaque point de vue séparément pour répondre des questions monodomaines (telles que les questions 1,2), tout en maintenant la possibilité d’une communication multi points de vue dans le but de répondre des questions multidomaines (telles que les questions 3,4,5) A.2.2 Multi-indexation des brevets Pour chaque point de vue, un index est construit en analysant le contenu des champs des notices correspondant Cette construction peut être découpée en trois phases : Phase : la structure des résumés des brevets est analysée de manière en extraire les sous-champs correspondant aux points de vue Utilisations et Avantages Phase : un index brut est constitué pour chaque point de vue en utilisant un outil d’analyse lexicologique L’outil choisi, développé en interne, nous permet d’extraire des termes simples ou des expressions composées en se basant sur une terminologie normalisée et sur les variations syntaxiques possibles, tout en éliminant les tournures langagières usuelles 56 A.2 Analyse des brevets Nombre de documents indexés Index brut : nombre de termes Index final : nombre de termes Déposants 1000 73 32 Titres 1000 605 589 Utilisations 745 252 234 Avantages 624 231 207 Tab A.1 – Tableau résumé des caractéristiques résultantes de brevets Phase : la normalisation des index associés aux points de vue Titres, Utilisations et Avantages consiste en la sélection d’un meilleur représentant dans chaque groupe de termes/expressions composées décrivant le même concept (par exemple les expressions « fabrication des huiles » et « ingénierie des huiles » peuvent être toutes les deux assimilées la seule expression « ingénierie des huiles ») La normalisation de l’index associé au point de vue Déposants est réalisée de manière similaire en considérant qu’un déposant était susceptible d’appartre sous plusieurs noms différents dans les brevets Après la normalisation des index, les brevets ont été réindexés selon chaque point de vue, en s’appuyant sur ces index La figure A.1 montre un exemple de notice de brevet avec l’indexation obtenue Fig A.1 – Exemple de notice de brevet L’indexation qui a été générée pour ce brevet est matérialisé par le contenu du champ «Final indexation» Ces termes d’indexation sont préfixés par le nom du point de vue auquel ils sont associés : «adv.» pour le point de vue Avantages, «titre» pour le point de vue Titres, «use» pour le point de vue Utilisations, «soc.» pour le point de vue Déposants Le tableau A.1 résume les résultats de l’indexation des brevets Ces résultats appellent quelques remarques : 57 Annexe A Description des données pour le Corpus Brevets La taille de l’index associé au point de vue Titres est significativement plus importante que celle des index associés aux autres points de vue Une analyse des index, réalisée par l’expert du domaine, a mis en évidence le fait que l’information contenue dans les titres des brevets était la fois plus diversifiée, moins dense et plus précise que celle contenue dans les autres champs descriptifs de contenu, savoir les sous-champs Utilisations et Avantages Selon l’expert, le niveau de généralité plus important des sous-champs Utilisations et Avantages, qui conduit par conséquent un index plus pauvre, peut être expliqué comme étant la conséquence d’une stratégie délibérée des déposants visant protéger leur technologie Le nombre final de déposants (32) a été réduit de manière significative par l’expert, en comparaison de celui généré initialement par l’analyseur lexical La majeure partie de cette réduction n’est pas due des variations apparaissant dans les noms de déposants, mais au fait que l’expert a décider de centrer l’étude sur les déposants les plus importants et sur leur interrelations Ainsi les déposants les moins importants ont été regroupés sous le même index : «Divers» Seuls 62% des brevets possèdent un sous-champ Avantages, et 75% un souschamp Utilisations En conséquence, certains brevets ne seront pas indexés selon l’ensemble des points de vue Le mécanisme de pondération par T F ∗ IDF (cf équation 2.10) est ensuite appliqué aux index des différents points de vue afin de réduire l’influence des termes les plus répandus avant l’application des méthodes de classification 58 Annexe B Description des données pour le Corpus PASCAL Sommaire B.1 Introduction B.2 Extrait de données B.2.1 Définition des points de vue B.1 59 59 59 Introduction L’INIST (INstitut de l’Information Scientifique et Technique) est producteur de la base de données PASCAL multilingue et multidisciplinaire qui couvre l’essentiel de la littérature mondiale en Sciences, Technologie et Médecine3 B.2 Extrait de données Pascal est une base de données très grande, avec 450.000 nouvelles citations par an Donc, notre ensemble de données de test en a été extrait en utilisant une requête générale liée au domaine géologique de la “rock mechanics” pendant l’année 2003 Les résultats des requêtes ont consisté en 2041 références bibliographiques Dans notre expérience, les mots-clés anglais associés aux références et l’occurrence plus de fois dans l’ensemble de données entier ont été employés pour former l’ensemble d’étiquettes initiales B.2.1 Définition des points de vue Nous avons extrait deux champs principaux dans le corpus pour définir les deux points de vue : http ://www.inist.fr/ 59 Annexe B Description des données pour le Corpus PASCAL Auteur : les auteurs, correspondent un champ spécifique, Mot-clé : les mot-clé, décrivent précisément le terme important dans le corpus Une présentation détaillée de ce corpus se trouve sur le site web de l’INIST 60 Bibliographie [Al Shehabi and Lamirel, 2004] Shadi Al Shehabi and Jean-Charles Lamirel Inference bayesian network for multi-topographic neural network communication : a case study in documentary data In IEEE International Conference on Information and Communication Technologies : from Theory to Applications - ICTTA 2004, Damascus, Syria, Apr 2004 [Attik et al., 2006a] Mohammed Attik, Shadi Al Shehabi, and Jean-Charles Lamirel Clustering analysis for data samples with multiple labels In IASTED International Conference on Databases and Applications, part of the 24th IASTED International Multi-Conference on Applied Informatics, DBA 2006, Innsbruck, Austria, pages 0–0, february 2006 [Attik et al., 2006b] Mohammed Attik, Shadi Al Shehabi, and Jean-Charles Lamirel Clustering quality measures for data samples with multiple labels In IASTED International Conference on Databases and Applications, part of the 24th IASTED International Multi-Conference on Applied Informatics, DBA 2006, Innsbruck, Austria, pages 0–0, february 2006 [Bergé and Bouthier, 2003] Benjamin Bergé and Christophe Bouthier Mathematics and algorithms for the hyperbolic tree visualization Rapport technique, Sep 2003 [Bouthier, 2004] Christophe Bouthier Mise en contexte de la conscience de groupe : adaptation et visualisation Thèse d’université, INPL, Sep 2004 [Chartron, 1988] G Chartron Analyse des corpus de données textuelles, sondage de flux d’informations PhD thesis, Université de Paris 7, Paris, France, 1988 [Cutting et al., 1993] D.R Cutting, D.R Karger, and J.O Pederson Constant interaction-time scatter/gather browsing of very large document collection In In Proceeding of International ACM Conference on Research and Development in Information Retrieval, 1993 [Demartines and Hérault, 1997] P Demartines and J Hérault Curvilinear component analysis : A self-organizing neural network for nonlinear mapping of data sets 8(1) :148–154, January 1997 [Demartines, 1994] P Demartines Anayse de données par réseaux de neurones autoorganisés PhD thesis, Institut National Polytechnique de Grenoble, Grenoble, France, 1994 61 Bibliographie [Dijkstra, 1959] E W Dijkstra A note on two problems in connexion with graphs Nummer Math., :269–271, 1959 [Ester et al., 1996] Martin Ester, Hans-Peter Kriegel, Jorg Sander, and Xiaowei Xu A density-based algorithm for discovering clusters in large spatial databases with noise In Evangelos Simoudis, Jiawei Han, and Usama Fayyad, editors, Second International Conference on Knowledge Discovery and Data Mining, pages 226–231, Portland, Oregon, 1996 AAAI Press [Fritzke, 1995] B Fritzke A growing neural gas network learns topologies In G Tesauro, D S Touretzky, and T K Leen, editors, Advances in Neural Information Processing Systems 7, pages 625–632 MIT Press, Cambridge MA, 1995 [Fritzke, 1997] Bernd Fritzke Some competitive learning methods Technical report, Ruhr-Universitat Bochum, 1997 [Henle, 2001] M Henle Modern Geometries Prentice Hall, 2001 [Hopfield, 1982] J.J Hopfield Neural Network and physical systems with emergent collective computational abilities volume 79 of Biophysics, pages 2554–2558, 1982 [Imola K Fodor, 2002] Imola K Fodor A survey of dimension reduction techniques, June 2002 [Jolliffe, 1972] I T Jolliffe Discarding variables in principal component analysis i : Artificial data Applied Statistics, 21 :160–173, 1972 [Jolliffe, 1986] I T Jolliffe Principal Component Analysis Springer, 1986 [Kaski, 1998] Samuel Kaski Dimensionality reduction by random mapping : Fast similarity computation for clustering In Proceedings of IJCNN’98, International Joint Conference on Neural Networks, volume 1, pages 413–418 IEEE Service Center, Piscataway, NJ, 1998 [Kohonen et al., 1996] Teuvo Kohonen, Samuel Kaski, Krista Lagus, and Timo Honkela Very large two-level SOM for the browsing of newsgroups In C von der Malsburg, W von Seelen, J C Vorbrüggen, and B Sendhoff, editors, Proceedings of ICANN96, International Conference on Artificial Neural Networks, Bochum, Germany, July 1619, 1996, Lecture Notes in Computer Science, vol 1112, pages 269–274 Springer, Berlin, 1996 [Kohonen, 1984] T Kohonen Self-Organization and Associative Memory Springer Verlag, edition, 1984 [Kohonen, 2001] T Kohonen Self-Organising Maps Springer-Verlag, Berlin, 3rd edition, 2001 [Kopcsa and Schiebel, 1998] Alexander Kopcsa and Edgar Schiebel Science and technology mapping : a new iteration model for representing multidimensional relationships Journal of American Society for Information Sciences (JASIS), 49(1) :7–17, 1998 [Lagus et al., 1999] Krista Lagus, Timo Honkela, Samuel Kaski, and Teuvo Kohonen WEBSOM for textual data mining Artificial Intelligence Review, 13 :345–364, 1999 62 [Lamirel et al., 2004] Jean-Charles Lamirel, Shadi Al Shehabi, Claire Francois, and Xavier Polanco Using a compound approach based on elaborated neural network for webometrics : An example issued from the eicstes project Scientometrics, 61(3) :427– 441, Jan 2004 [Lamirel, 1995] J-C Lamirel Application d’une approche symbolico-connexioniste pour la conception d’un systme ` documentaire hautement interactif PhD thesis, Université de Nancy Henri Poincaré, Nancy, France, 1995 [Lamping and Rao, 1994] J Lamping and R Rao Laying out and visualizing large trees using a hyperbolic space UIST ’94 : Proceedings of the 7th annual ACM symposium on User interface software and technology, 1994 [Lamping and Rao, 1996] J Lamping and R Rao The hyperbolic browser : A focus + context technique for visualizing large hierarchies Journal of Visual Languages & Computing, 7, 1996 [Lamping J and P., 1995] Rao R Lamping J and Pirolli P A focus+context technique based on hyperbolic geometry for visualizing large hierarchies In Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI-95), pages 401–408, Denver, 1995 ACM Press [Lee et al., 2000] John Aldo Lee, Amaury Lendasse, Nicolas Donckers, and Michel Verleysen A robust nonlinear projection method In European Symposium on Artificial Neural Networks, pages 13–20, 2000 [Lee et al., 2002] J.A Lee, A Lendasse, and M Verleysen Curvilinear distance analysis versus isomap In ESANN 2002, European Symposium on Artificial Neural Networks, pages 185–192, Bruges (Belgium)„ 2002 [Lendasse et al., 2001] A Lendasse, J Lee, E De Bodt, V Wertz, and M Verleysen Dimension reduction of technical indicators for the prediction of financial time series - application to the bel 20 market index European Journal of Economic and Social Systems, 15(2) :31–48, 2001 [Lin et al., 1991] X Lin, D.Soergel, and G Marchionini A self organizing semantic map for information retrieval In Proceedings of 4th International SIGFIR Conference on R&D in Information retrieval, pages 262–269, 1991 [Martinetz, Thomas and Schulten, Klaus, 1991] Martinetz, Thomas and Schulten, Klaus A “Neural-Gas” Network Learns Topologies In Kohonen, T., M akisara, K., Simula, O., and Kangas, J., editors, Artificial Neural Networks – Proceedings of the 1991 International Conference on Artificial Neural Networks (ICANN’91), volume 1, pages 397–402 Elsevier Science Publishing Company B V., 1991 [Morrison and Chalmers, 2003] Alistair Morrison and Matthew Chalmers Improving hybrid mds with pivot-based searching In INFOVIS, 2003 [Popescul and Ungar, ] A Popescul and L.H Ungar Automatic labeling of document clusters In Unpublished manuscript, available at http ://citeseer.nj.nec.com/popescul100automatic.html, – 63 Bibliographie [Ratcliffe, 1994] J G Ratcliffe Foundations of hyperbolic manifolds, volume 149 of Graduate texts in mathematics Springer New York/Berlin/Heidelberg, 1994 [Rosenblatt, 1958] F Rosenblatt The perceptron : A probabilistic model for information storage and organization in the brain Psychological Review, 65(6) :386–408, 1958 [Salton, 1971] G Salton The SMART Retrieval System - Experiments in Automatic Document Processing Prentice Hall Inc., Englewood Cliffs, New Jersey, 1971 [Salton, 1989] G Salton Automatic text Processing Addison Wesley, 1989 [Sammon, 1969] J W Sammon A nonlinear mapping for data structure analysis IEEE Transactions on Computers, C-18(5) :401–409, 1969 [Saporta, 1990] G Saporta Probabilités, Analyse des données et Statistiques Éditions Technip„ 1990 [Shehabi, 2006] Shadi Al Shehabi Topographical Neural Models for Multimedia Documentary Data Analysis : Application to the Analysis of the Web PhD thesis, Université de UHP - Nancy 1, Loria-Nancy, France, 2006 [Shepard, 1962] R N Shepard The analysis of proximities : Multidimensional Scaling with an unknown distance function Psychometrika, 27 :125–139, 219–246, 1962 [Tenenbaum et al., 2000] J B Tenenbaum, V de Silva, and J C Langford A global geometric framework for nonlinear dimensionality reduction Science, 290(5500) :2319–2323, December 2000 [Treeratpituk and Callan, 2006] P Treeratpituk and J Callan Automatically labeling hierarchical clusters In Proceedings of the Sixth National Conference on Digital Government Research, pages 167–176, San Diego, 2006 [Tsuda et al., 2001] K Tsuda, G Rätsch, S Mika, and K Müller Learning to predict the leave-one-out error of kernel based classifiers In Proceedings of the International Conference on Artificial Neural Networks, pages –, 2001 [Van Rijsbergen, 1979] C J Van Rijsbergen Information Retrieval Butterworths, London, 1979 [Verleysen, 2003] M Verleysen Limitations and future trends in neural computation, chapter Learning high-dimensional data, pages 141–162 IOS Press, 2003 [Yang and Pedersen, 1997] Y Yang and J O Pedersen A comparative study on feature selection in text categorization In Proceedings of ICML97, 14th International Conference on Machine Learning, pages 412–420, 1997 [Young and Calvert, 1974] T Y Young and T W Calvert Classification, Estimation and Pattern Recognition American Elsevier, New York, 1974 64

Combinaison de méthodes avancées de visualisation et de sélection d’information pour la fouille et l’analyse de données

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan