Vers une approche personnalisée de la recherche dinformations

Laboratoire Lorrain de Recherche en Informatique et ses Applications Institut de la Francophonie pour l'Informatique MÉMOIRE DE FIN D'ÉTUDES Vers une approche personnalisée de la recherche d'informations (Étude des stratégies de combinaison des méthodes de filtrage basé sur le contenu et des méthodes de filtrage collaboratif) Étudiant DO Minh Chau Promotion 11, IFI Responsables Anne BOYER Équipe MAIA, LORIA Jean-Charles LAMIREL Équipe CORTEX, LORIA Nancy, France – 2007 Table des matières Remerciements v Résumé .vi Abstract .vii Liste des figures .viii Liste des tableaux x Chapitre Introduction .1 1.1 Problématique 1.2 Motivation .2 1.3 Objectifs 1.4 Contribution 1.5 Environnement de stage 1.6 Revue de la bibliographie .4 Chapitre Filtrage basé sur le contenu (FBC) 2.1 Vue d'ensemble .6 2.2 Stemming Chapitre Filtrage collaboratif (FC) 10 3.1 Filtrage collaboratif basé sur la mémoire .10 3.2 Filtrage collaboratif basé sur un modèle .12 Chapitre Combinaison du FBC et du FC .15 4.1 FC – FBC séparé 16 4.2 FC – FBC combiné .18 4.3 FBC ressources – FC 19 4.4 FBC utilisateurs – FC 21 4.5 Fusion 23 Chapitre Implémentation .25 5.1 Collection de données 25 5.2 Outils de développement 27 5.3 Structures des tables dans la base de données 28 Chapitre Métriques d'évaluation 44 6.1 MAE (Mean Absolute Error) 44 6.2 Métrique d'exactitude de classification 45 6.2.1 Rappel 46 6.2.2 Précision 47 iii Chapitre Conclusion 48 Bibliographie .49 iv Remerciements Mes remerciements s'adressent naturellement l'ensemble des membres de l'équipe CORTEX et de l'équipe MAIA au LORIA Je tiens remercier sincèrement Anne BOYER et Sylvain CASTAGNOS de l'équipe MAIA pour leur disponibilité et pour m'avoir donné des connaissances de base au début ainsi que leur aide au cours de mon stage Leur avis a été très utile pour ma mission Je tiens remercier chaleureusement Jean-Charles LAMIREL et Randa KASSAB de l'équipe CORTEX qui m'ont beaucoup guidé dans mon travail chaque fois que le besoin s'en faisait sentir Je remercie Jean-Charles LAMIREL d'avoir fait les formalités nécessaires au LORIA Cela m'a permis d'effectuer cette mission dans les meilleures conditions Le octobre 2007 DO Minh Chau Anne et moi Jean-Charles et moi Sylvain et moi Randa et moi v Résumé Nous nous intéressons la recherche d'informations sur Internet, dans un contexte « grand public », avec pour objectif de déterminer quelles ressources sont pertinentes pour un utilisateur Nos travaux s'inscrivent dans le domaine des systèmes de recommandation avec l'objectif de prédire la pertinence d'une ressource web (film, document, page, site w3, blog, vidéo en ligne, …) pour un utilisateur particulier partir de l'observation de son comportement et des éventuelles appréciations (votes numériques, annotations, traces, …) qu'il dépose lors de ses consultations Parmi les techniques possibles, nous avons choisi dans l'équipe CORTEX d'utiliser le filtrage basé sur le contenu et dans l'équipe MAIA d'utiliser le filtrage collaboratif Ces deux paradigmes ont été appliqués dans le contexte des systèmes de prédiction de préférence d'utilisateur et de recommandation Le filtrage basé sur le contenu crée des prédictions complètes et rapides grâce la vitesse des ordinateurs Le filtrage collaboratif combine les avis des utilisateurs pour créer des prédictions personnalisées et précises Ces deux paradigmes de filtrage sont très différents l'un de l'autre et tous les deux ont encore quelques limites Il apparaît que les deux approches sont complémentaires Il est donc intéressant d'essayer de les combiner ensemble afin de surmonter ces limites Mots clés : filtrage collaboratif, filtrage basé sur le contenu, système de recommandation, prédiction de préférence d'utilisateur, personnalisé, combinaison, recherche d'informations, base de données vi Abstract We are interested in information searching on the Internet, in a context "general public", in order to determine which resources are relevant for a user The field of our work is the recommendation system whose objective is to predict the relevance of a resource Web (film, document, page, w3 site, blog, online video, ) for a particular user from the observation of his behaviour and from the possible appreciations (numerical ratings, annotations, traces, ) which he deposits at the time of his consultations Among the possible techniques, we chose in the team CORTEX to use the content-based filtering and in the team MAIA to use the collaborative filtering These two paradigms have been applied in the context of user preference prediction and recommendation systems Content-based filtering uses the speed of computers to make complete, fast predictions Collaborative filtering combines the opinions of humans to make personalized, accurate predictions These two filtering paradigms are very different from each other and both have yet some limits It appears that these two approaches are complementary It is therefore interesting to try combining them together in order to overcome those limits Key words: collaborative filtering, content-based filtering, recommendation system, user preference prediction, personalized, combination, information searching, database vii Liste des figures Figure Matrice des fréquences Figure Matrice des votes 10 Figure Valeurs possibles de la corrélation Pearson 11 Figure Espace de représentation utilisateurs/ressources (K-Means) 12 Figure Organisation hiérarchique des utilisateurs 13 Figure Initialisation de l'algorithme 2-Means .14 Figure Structure générale d'un système de filtrage de film 15 Figure Modèle de la méthode de combinaison FC-FBC séparé 16 Figure Modèle de la méthode de combinaison FC-FBC combiné .18 Figure 10 Modèle de la méthode de combinaison FBC ressources – FC 19 Figure 11 Modèle de la méthode de combinaison FBC utilisateurs – FC .21 Figure 12 Modèle de la méthode de combinaison Fusion .23 Figure 13 Exemple des données de la table Actors 28 Figure 14 Exemple des données de la table Countries 29 Figure 15 Exemple des données de la table Genres 30 Figure 16 Exemple des données de la table KeyWords 30 Figure 17 Exemple des données de la table Languages 31 Figure 18 Exemple des données de la table Movie_Actor 32 Figure 19 Exemple des données de la table Movie_Country 32 Figure 20 Exemple des données de la table Movie_Genre .33 Figure 21 Exemple des données de la table Movie_KeyWord .34 Figure 22 Exemple des données de la table Movie_Language .35 Figure 23 Exemple des données de la table Movie_Movie .36 Figure 24 Exemple des données de la table Movie_StemmerSummary 36 Figure 25 Exemple des données de la table Movie_StemmerTitle 37 Figure 26 Exemple des données de la table Movies 38 Figure 27 Exemple des données de la table StemmerSummaries 38 Figure 28 Exemple des données de la table StemmerTitles 39 Figure 29 Exemple des données de la table StopWords 40 Figure 30 Exemple des données de la table TrainingRatings 41 Figure 31 Exemple des données de la table User_Movie 41 Figure 32 Exemple des données de la table Users 42 Figure 33 Relations des tables dans la base de données 43 Figure 34 Comparaison des trois méthodes de filtrage avec la MAE .44 viii Figure 35 Résultat d'évaluation selon le Rappel 46 Figure 36 Résultat d'évaluation selon la Précision 47 ix Liste des tableaux Tableau Exemple des mots non importants Tableau Exemple des mots en forme de Stemming .9 Tableau Table Actors 28 Tableau Table Countries .28 Tableau Table Genres 29 Tableau Table KeyWords .30 Tableau Table Languages .31 Tableau Table Movie_Actor 31 Tableau Table Movie_Country .32 Tableau 10 Table Movie_Genre 33 Tableau 11 Table Movie_KeyWord 33 Tableau 12 Table Movie_Language 34 Tableau 13 Movie_Movie .35 Tableau 14 Table Movie_StemmerSummary 36 Tableau 15 Table Movie_StemmerTitle 37 Tableau 16 Table Movies 37 Tableau 17 Table StemmerSummaries 38 Tableau 18 Table StemmerTitles .39 Tableau 19 Table StopWords 39 Tableau 20 Table TrainingRatings 40 Tableau 21 Table User_Movie 41 Tableau 22 Table Users 42 x Chapitre Implémentation Vers une approche personnalisée de la recherche d'informations La table Movies contient la liste des films et leurs informations correspondantes Figure 26 Exemple des données de la table Movies Tableau 17 Table StemmerSummaries Field Type Null Key StemmerSummaryID int(11) NO PRI StemmerSummary varchar(100) NO La table StemmerSummaries contient la liste de tous les mots de « root » dans tous les résumés réduits des films Figure 27 Exemple des données de la table StemmerSummaries 38 Chapitre Implémentation Vers une approche personnalisée de la recherche d'informations Tableau 18 Table StemmerTitles Field Type Null Key StemmerTitleID int(11) NO PRI StemmerTitle varchar(100) NO La table StemmerTitles contient la liste de tous les mots de « root » dans tous les titres réduits des films Figure 28 Exemple des données de la table StemmerTitles Tableau 19 Table StopWords Field Type Null Key StopWordID int(11) NO PRI StopWord varchar(100) NO La table StopWords contient la liste des mots insignifiants (non importants) Nous utilisons cette table pour enlever des mots non importants dans le titre ou dans le résumé d'un film 39 Chapitre Implémentation Vers une approche personnalisée de la recherche d'informations Figure 29 Exemple des données de la table StopWords Tableau 20 Table TrainingRatings Field Type Null Key UserID int(11) NO PRI MovieID int(11) NO PRI Rating int(11) NO La table TrainingRatings est créée partir de la table User_Movie en effaçant aléatoirement 20% des lignes (c'est dire 20% des votes) Le champ « Timestamp » de la table User_Movie n'est pas important 40 Chapitre Implémentation Vers une approche personnalisée de la recherche d'informations Figure 30 Exemple des données de la table TrainingRatings Tableau 21 Table User_Movie Field Type Null Key UserID int(11) NO PRI MovieID int(11) NO PRI Rating int(11) NO Timestamp int(11) NO La table User_Movie contient les votes réels des utilisateurs Figure 31 Exemple des données de la table User_Movie 41 Chapitre Implémentation Vers une approche personnalisée de la recherche d'informations Tableau 22 Table Users Field Type Null Key UserID int(11) NO PRI Age int(11) YES PRI Gender int(11) YES Occupation varchar(200) YES ZipCode varchar(20) YES La table Users contient des informations démographiques des utilisateurs Figure 32 Exemple des données de la table Users 42 Chapitre Implémentation Vers une approche personnalisée de la recherche d'informations Relations des tables Figure 33 Relations des tables dans la base de données À partir de cette base de données, j'ai pu développer mon programme pour tester et évaluer les méthodes de combinaison proposées C'est un programme sans interface graphique Le code est très long, mais c'est simple donc je ne l'ajoute pas dans ce rapport 43 Chapitre Métriques d'évaluation Ce sont les votes réels qui nous permettent d'évaluer le résultat de chaque méthode de combinaison Nous n'avons pas d'autres informations supplémentaires 6.1 MAE (Mean Absolute Error) La méthode MAE est la plus simple méthode d'évaluation Cette méthode nous donne une valeur moyenne des erreurs des votes prédits par rapport aux votes réels Le formule de cette méthode est défini comme suit : N ∑∣ pi − r i∣ MAE = i=1 N où les ri et pi sont les votes réels et prédits 0,92000 0,91000 0,90000 0,89000 FC FBC ressourcesFC FBC utilisateurs-FC 0,88000 0,87000 0,86000 0,85000 0,84000 0,83000 0,82000 Figure 34 Comparaison des trois méthodes de filtrage avec la MAE La figure ci-dessus est un exemple de comparaison entre les trois méthodes de filtrage Les erreurs peuvent augmenter ou diminuer lors du changement des paramètres des filtrages Le résultat de la MAE change également quand on utilise une autre base de training Cependant, avec les mêmes paramètres et les mêmes bases de training, l'ordre des valeurs de la MAE restent pareil comme le figure ci-dessus Nous voyons que le filtrage de combinaison FBC ressources – FC peut améliorer le résultat de recommandation par rapport au filtrage FC Étonnamment, la combinaison FBC utilisateurs – FC (démographique) donne clairement le meilleur résultat C'est intéressant car nous pouvons encore améliorer le filtrage par le contenu pour obtenir un 44 Chapitre Métriques d'évaluation Vers une approche personnalisée de la recherche d'informations meilleur résultat En conclusion, selon la méthode MAE, le FBC utilisateurs-FC est meilleur que le FBC ressources-FC ainsi que le FC 6.2 Métrique d'exactitude de classification Une métrique de classification mesure la fréquence avec laquelle un système de recommandation donne des décisions correctes ou incorrectes qu'un item est bon La métrique de classification est appropriée pour trouver de bons items lorsque nous connaissons ses préférences binaires Lors d'une expérimentation hors-ligne (offline experiment), une métrique d'exactitude de classification (Classification Accuracy Metrics) peut être défiée par espacement de données (data sparsity) [J L Herlocker et al., 2004] Le problème se produit quand le système de filtrage collaboratif génère une liste de recommandation top-N Quand la qualité de la liste est évaluée, on peut trouver des recommandations qui n'ont pas de votes réels Comment ces recommandations sont traités dans l'évaluation peut mener certaines directions Une approche pour l'évaluation utilisant les données clairsemées est d'ignorer des recommandations pour les items pour lesquels il n'y a aucun vote La liste de recommandation est d'abord traitée pour enlever tous les items non-votés La procédure de recommandation est exécutée pour « prédire les items recommandés supérieurs qui ont été votés » Dans le cas où l'utilisateur observe peu de recommandations supérieures, ceci pourrait mener aux évaluations imprécises des systèmes de recommandation Le problème est que la qualité des items que l'utilisateur voit réellement ne peut jamais être mesurée La métrique d'exactitude de classification n'essaye pas de mesurer directement la capacité d'un algorithme de prédire exactement des votes Les déviations des votes réelles sont tolérées, pourvu qu'elles ne mènent pas aux erreurs de classification Les métriques particulières que nous abordons sont la Précision (Precision) et le Rappel (Recall) Recommandé Non recommandé Total Pertinent Npr Npn N1 Non pertinent Nnr Nnn N2 Total N3 N4 N La précision et le rappel sont les métriques les plus populaires pour évaluer des systèmes de recherche d'information La précision et le rappel sont calculés partir du tableau 2×2 ci-dessus L'ensemble d'item doit être séparé dans deux classe : pertinent ou non pertinent C'est-à-dire, si l'échelle de vote n'est pas binaire, nous devons la transformer en une échelle binaire Par exemple, dans le cas où les films 45 Chapitre Métriques d'évaluation Vers une approche personnalisée de la recherche d'informations sont votés entre et 5, nous convertissons les votes de et la valeur « pertinent » et tous les votes de sont considérés être « non pertinent » Pour la précision et le rappel, nous devons également séparer l'ensemble de film en deux parties : une qui a été retournée l'utilisateur (recommandé), et une qui n'a pas été retourné (non recommandé) Nous supposons que l'utilisateur considérera tous les films qui sont recommandés La précision est définie comme le rapport des films pertinents et le nombre des films recommandés : N P = pr N3 La précision représente la probabilité qu'un film recommandé est pertinent Le rappel est défini comme le rapport des films pertinents recommandés et le nombre des films pertinents disponibles Le rappel représente la probabilité qu'un film pertinent sera recommandé : N R = pr N1 6.2.1 Rappel 0,50000 0,45000 0,40000 0,35000 FBC Fusion FC-FBC séparé FC-FBC combiné 0,30000 0,25000 0,20000 0,15000 0,10000 0,05000 0,00000 Figure 35 Résultat d'évaluation selon le Rappel Nous avons une remarque que la méthode Fusion donne le meilleur résultat selon le Rappel C'est normal car un demi des films recommandés dans le résultat de la Fusion est au résultat de recommandation du FC, donc il est facilement avoir un bon résultat avec le Rappel Le FBC et le FC-FBC séparé donnent les plus faibles résultats selon le Rappel, car il est difficile d'avoir une liste de recommandation dont les éléments sont pareils une liste de référence Le FC-FBC combiné est considéré être bien par le Rappel Cette figure est juste un résultat d'évaluation du Rappel avec une base de training spécifique Nous savons qu'il y a beaucoup de films dans la liste de recommandation dont la valeur de vote réel 46 Chapitre Métriques d'évaluation Vers une approche personnalisée de la recherche d'informations est indéfinie De plus, la liste de référence est définie comme les top-N des films votés réellement par l'utilisateur, et cela n'est pas très précis En conclusion, selon le Rappel, l'ordre de qualité des méthodes de filtrage sont la Fusion, le FC-FBC combiné, FBC et FC-FBC séparé, où la Fusion est la meilleure 6.2.2 Précision 1,00000 0,90000 0,80000 0,70000 FBC Fusion FC-FBC séparé FC-FBC combiné 0,60000 0,50000 0,40000 0,30000 0,20000 0,10000 0,00000 Figure 36 Résultat d'évaluation selon la Précision Grâce au FC, la Fusion donne également un résultat très élevé selon la Précision Le FBC et le FC-FBC séparé donne des résultats assez bons (presque 0,6), alors que le FC-FBC combiné donne un résultat étonnamment élevé selon la Précision En conclusion, selon la Précision, l'ordre de qualité des méthodes de filtrage sont la Fusion, le FC-FBC combiné, le FBC et le FC-FBC séparé, où la Fusion est la meilleure 47 Chapitre Conclusion Dans le cadre de mon stage, j'ai déjà proposé méthodes de combinaison du filtrage par le contenu et du filtrage collaboratif Toutes les méthodes sont évaluées en appliquant différents critères Les résultats d'évaluation nous donnent une vue sur des résultats des méthodes de combinaisons proposées Comme la base de films contient seulement des votes pour la validation, il est toujours difficile d'avoir un vraiment bon critère d'évaluation Selon les deux méthodes d'évaluation Rappel et Précision, la Fusion et le FC-FBC combiné sont les meilleures méthodes par rapport au FBC et au FC-FBC séparé Selon la méthode d'évaluation MAE, le FBC utilisateurs-FC est meilleur que le FBC ressources-FC ainsi que le FC Les méthodes d'évaluation ont montré que certaines méthodes de combinaison que j'ai proposées sont meilleures que les méthodes de filtrage précédentes En améliorant les deux méthodes FC et FBC (et c'est possible), nous pourrons encore obtenir de meilleurs résultats Par exemple, nous pouvons essayer de trouver un autre formule pour calculer la similarité entre deux films Pour le filtrage démographique, nous avons beaucoup de stratégies pour créer des groups d'utilisateur 48 Bibliographie [Furnas et al., 1983] Furnas, G.W., Landauer, T.K., Gomez, L.M and Dumais, S.T Statistical semantics: Analysis of the potential performance of keyword information systems 1983, 1753-1806 [Resnick et al., 1994] Resnick, P., Iacovou, N., Suchak, M., Bergstrom, P., and Riedl, J (1994) GroupLens: An open architecture for collaborative filtering of netnews In Proceedings of the ACM 1994 Conference on Computer Supported Cooperative Work, pages 175-186, New York ACM [John S Breese et al., 1998] John S Bresse, David Heckerman, Carl Kadie – 1998 Emperical Analysis of Predictive Algorithms for Collaborative Filtering [S Castagnos et al., 2005] Sylvain Castagnos, Anne Boyer and François Charpillet A Distributed Information Filtering: Stakes and Solution for Satellite Broadcasting 1st Conference on Web Information Systems and Technologies (Webist 2005) Miami, USA, May 2005 [S Castagnos and A Boyer, 2006] Sylvain Castagnos and Anne Boyer A Client/Server UserBased Collaborative Filtering Algorithm: Model and Implementation 17th European Conference on Artificial Intelligence (ECAI 2006), in the 4th Prestigious Applications of Intelligent Systems special section (PAIS).Riva del Garda, Italy, August 2006 [S Castagnos and A Boyer, 2006b] Sylvain Castagnos and Anne Boyer FRAC+: A Distributed Collaborative Filtering Model for Client/Server Architectures 2nd Conference on Web Information Systems and Technologies (Webist 2006) Setùbal, Portugal, April 2006 [S Castagnos et al., 2004] Sylvain Castagnos, Randa Kassab, Anne Boyer, François Charpillet and Jean-Charles Lamirel State-of-the-art report on filtering and profiling techniques Technical Report: A.1-D1 Bibliography 2004 [S Castagnos et al., 2005b] Sylvain Castagnos, Randa Kassab, Anne Boyer, François Charpillet and Jean-Charles Lamirel Selection of profiling, filtering and content analysis techniques Technical Report: A.1-D3 Analysis 2005 [S H S Chee et al., 2001] Sonny Han Seng Chee, Jiawei Han, Ke Wang RecTree: An Efficient Collaborative Filtering Method In Proceeding 2001 Int Conf On Data Warehouse and Knowledge Discovery (DaWaK'01) Munich, Germany, September 2001 49 [Philip Chan, 1999] Philip Chan A non-invasive learning approach to building Web user profiles In Workshop on Web usage analysis and user profiling, Fifth International Conference on Knowledge Discovery and Data Mining, August 1999 [J L Herlocker et al., 2004] Jonathan L Herlocker, Joseph A Konstan, Loren G Terveen and John T Riedl Evaluating collaborative filtering recommender systems ACM Transactions on Information Systems (TOIS), Volume 22, Issue (January 2004), Pages: 5-53, ACM Press New York, NY, USA 2004 [Prem Melville et al., 2002] Prem Melville, Raymond J Mooney, Ramadass Nagarajan ContentBoosted Collaborative Filtering for Improved Recommendations July, 2002 [Belkin et al., 1992] Belkin, N J and Croft, W B Information filtering and information retrieval: two sides of the same coin? Communications of the ACM, 35(12) pp.29 38, 1992 [P W Foltz and S T Dumais, 1992] Peter W Foltz and Susan T Dumais Personalized Information Delivery: An Analysis of Information Filtering Methods Communications of the ACM/December 1992/Vol 35, No 12 [R Kassab and J Lamirel, 2006] Randa KASSAB, Jean-Charles LAMIREL A New Approach to Intelligent Text Filtering Based on Novelty Detection 2006 [W W Cohen, 2004] William W Cohen Collaborative Filtering: A Tutorial 2004 [B N Miller et al., 2004] Bradley N Miller, Joseph A Konstan, John Riedl PocketLens: Toward a Personal Recommender System ACM Transactions on Information Systems, Vol 22, No 3, July 2004, Pages 437–476 [D Pavlov et al., 2004] Dmitry Pavlov Eren Manavoglu and C Lee Giles, David M Pennock Collaborative Filtering with Maximum Entropy IEEE 2004 [A Gokhale, 1999] Anuja Gokhale Improvement to Collaborative Filtering Algorithms 1999 [N Good et al., 1999] Nathaniel Good, J Ben Schafer, Joseph A Konstan, Al Borchers, Badrul Sarwar, Jon Herlocker, and John Riedl Combining Collaborative Filtering with Personal Agents for Better Recommendations American Association for Artificial Intelligence 1999 [J Basilico, 2004] Justin Basilico, Thomas Hofmann Unifying collaborative and content-based filtering Proceedings of the twenty-first international conference on Machine learning 2004 [J Basilico and T Hofmann, 2004] Justin Basilico, Thomas Hofmann A Joint Framework for Collaborative and Content Filtering 2004 50 [M Garden and G Dudek, 2006] Matthew Garden, Gregory Dudek Mixed Collaborative and Content-Based Filtering with User-Contributed Semantic Features American Association for Artificial Intelligence (www.aaai.org) 2006 [M J Pazzani, 1998] Michael J Pazzani A Framework for Collaborative, Content-Based and Demographic Filtering 1998 [M Claypool et al., 1999] Mark Claypool, Anuja Gokhale, Tim Miranda Combining ContentBased and Collaborative Filters in an Online Newspaper ACM SIGIR Workshop on Recommender Systems – Implementation and Evaluation, August 19, 1999 in Berkeley CA, USA [R D T Júnior, 2004] Roberto Dias Torres Júnior Combining Collaborative and Content-based Filtering to Recommand Research Papers 2004 [P Baudisch, 2004] Patrick Baudisch Joining Collaborative and Content-based Filtering 2004 [D Pemberton and T Rodden, 2000] Duncan Pemberton and Tom Rodden, Rob Procter GroupMark: A WWW Recommender System Combining Collaborative and Information Filtering CNR-IROE, Florence, Italy 25-26 October 2000 51 Ce document a été créé avec OpenOffice.org [...]... Introduction Vers une approche personnalisée de la recherche d'informations et filtrage collaboratif de manière à permettre un filtrage personnalisé de sites web Une implantation ainsi qu 'une méthode de test devront être mises en place de manière à valider ces propositions Méthode pour la vérification et validation des objectifs Afin de vérifier et valider des objectifs, il faut avoir une méthode d'évaluation... FC Vers une approche personnalisée de la recherche d'informations 4.1 FC – FBC séparé Cette méthode de combinaison est décrite comme suit : Figure 8 Modèle de la méthode de combinaison FC-FBC séparé L'idée de cette méthode est de prendre la sortie du filtrage collaboratif comme l'entrée du filtrage par le contenu Pour chaque film de la liste de recommandation du filtrage collaboratif, nous créons une. .. Définition du but de travail Le but de ce stage est à la fois celui de proposer tester différents types de combinaison mettant en jeu les deux modes de filtrage La première étape consiste à faire un état de l'art des différentes techniques de filtrage par le contenu et de filtrage collaboratif, de manière à appréhender les deux approches La deuxième étape consistera à proposer plusieurs approches mixant... 4.5 Fusion La combinaison la plus simple du filtrage collaboratif et du filtrage par le contenu est de faire la fusion de deux listes de recommandation Comme nous avons très peu de connaissances sur la précision de ces deux filtrages, alors nous pouvons prendre un demi de chaque liste et la liste de combinaison est créée en alternant continuellement les films Figure 12 Modèle de la méthode de combinaison... Liste de recommandation {f1*, f2*, , fN*} 18 Chapitre 4 Combinaison du FBC et du FC Vers une approche personnalisée de la recherche d'informations 4.3 FBC ressources – FC Figure 10 Modèle de la méthode de combinaison FBC ressources – FC L'objectif de cette méthode est de remplir le plus possible et correctement la matrice des votes en utilisant le FBC avant d'appliquer le FC Une fois qu'il y a assez de. .. universités de Nancy et des écoles de doctorat Le transfert de technologie via des associés individuels, l'assistance dans la création des compagnies et un club des associés 1.6 Revue de la bibliographie [Belkin et al., 1992] a montré que l 'approche de filtrage basé sur le contenu a une relation avec la recherche d'information Dans [P W Foltz and S T Dumais, 1992], une analyse des méthodes de filtrage par... étudier des algorithmes et des méthodes qui peuvent être appliqués rapidement et largement dans le réel, surtout dans le développement de logiciel Mon but est d'acquérir des expériences de recherche en informatique ainsi que de nouvelles connaissances sur un domaine spécifique Deuxièmement, le sujet de stage concerne la combinaison des méthodes de filtrage d'informations Cela a pour but d'essayer de trouver... CNRS, Centre National de Recherche Scientifique (UMR 7503) ● ● ● ● l'INPL, Institut National Polytechnique de Lorraine l'INRIA, Institut National de Recherche en Informatique et en Automatique l'Université Henri Poincaré, Nancy 1 l'Université de Nancy 2 3 Chapitre 1 Introduction Vers une approche personnalisée de la recherche d'informations Le LORIA Le LORIA est un laboratoire de plus de 450 individus comprenant... utilisateurs La métrique utilisée pour déterminer des distances est le coefficient de 13 Chapitre 3 Filtrage collaboratif (FC) Vers une approche personnalisée de la recherche d'informations corrélation de Pearson [Resnick et al., 1994] Figure 6 Initialisation de l'algorithme 2-Means Une fois que les groupes des utilisateurs sont formés, la position du centre de chaque clique est recalculée Cette opération... ● plus de 150 chercheurs et enseignant-chercheurs ● ● un tiers des étudiants de doctorat et de post-doctorat des ingénieurs, des techniciens, etc Le LORIA a trois missions : ● ● ● La recherche fondamentale et appliquée dans le domaine des sciences de l'information et de communications et technologie sur une base internationale L'enseignement dans des université de technologie, les universités de Nancy

Vers une approche personnalisée de la recherche dinformations

Thông tin tài liệu

Từ khóa liên quan

Mục lục

Remerciements

Résumé

Abstract

Liste des figures

Liste des tableaux

Chapitre 1. Introduction

1.1. Problématique

1.2. Motivation

1.3. Objectifs

1.4. Contribution

1.5. Environnement de stage

1.6. Revue de la bibliographie

Chapitre 2. Filtrage basé sur le contenu (FBC)

2.1. Vue d'ensemble

2.2. Stemming

Chapitre 3. Filtrage collaboratif (FC)

3.1. Filtrage collaboratif basé sur la mémoire

3.2. Filtrage collaboratif basé sur un modèle

Chapitre 4. Combinaison du FBC et du FC

4.1. FC – FBC séparé

4.2. FC – FBC combiné

4.3. FBC ressources – FC

4.4. FBC utilisateurs – FC

4.5. Fusion

Tài liệu cùng người dùng

Tài liệu liên quan