Approche métagénomique pour le binning taxonomique du microbiome intestinal humain = khai phá cấu trúc phân loài của hệ vi sinh vật ruột người từ dữ liệu di truyền học môi trường

Thông tin tài liệu

UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL DƯƠNG TIẾN HẬU APPROCHE MÉTAGÉNOMIQUE POUR LE BINNING TAXONOMIQUE DU MICROBIOME INTESTIAL HUMAIN KHAI PHÁ CẤU TRÚC PHÂN LOÀI CỦA HỆ VI SINH VẬT RUỘT NGƯỜI TỪ DỮ LIỆU DI TRUYỀN HỌC MÔI TRƯỜNG MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – 2017 UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL DƯƠNG TIẾN HẬU APPROCHE MÉTAGÉNOMIQUE POUR LE BINNING TAXONOMIQUE DU MICROBIOME INTESTIAL HUMAIN KHAI PHÁ CẤU TRÚC PHÂN LOÀI CỦA HỆ VI SINH VẬT RUỘT NGƯỜI TỪ DỮ LIỆU DI TRUYỀN HỌC MÔI TRƯỜNG Spécialité: Systèmes Intelligents & Multimédia Code: Programme pilote MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE Sous la direction de : Dr Jean-Daniel Zucker, Dr Ho Bich Hai HANOI – 2017 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a été bien précisée LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa cơng bố cơng trình khác Các thơng tin trích dẫn Luận văn rõ nguồn gốc Signature de l’étudiant Dương Tiến Hậu Table des mati` eres INTRODUCTION Chapitre : Contexte 1.1 Métagénomique 1.2 Diversité taxonomique 1.3 Diversité fonctionnelle 1.4 Métagénomique comparative 1.5 Données de NGS 1.5.1 Les plateformes de séquen¸cage 1.5.2 Des notions de base 1.5.3 Format de données 3 8 8 Chapitre : Probl´ ematique ´ 2.1 Etat de l’art ´ 2.2 Enonc´ e du problème 11 11 12 Chapitre : M´ ethodes propos´ ees 3.1 Prototype de pipeline 3.1.1 Tableau de données 3.1.2 Configuration 3.1.3 Outils 3.1.4 Générateur de commande 3.2 La distance phylogénétique des séquences 3.2.1 La mesure de distance 3.2.2 Sélection de modèle 3.3 Analyse de données METAHIT 14 14 15 16 16 16 17 18 19 20 21 21 21 22 26 26 29 29 30 32 32 33 d’ADN Chapitre : Exp´ eriment 4.1 Pipelines de binning 4.1.1 Assemblage 4.1.2 Estimation d’abondance des séquences (Counting) 4.1.3 Segmentation 4.1.4 Inter-clustering 4.2 Segmentation 4.2.1 Conception de l’objet de segment 4.2.2 Sélection du modèle 4.3 Analyse de données METAHIT 4.3.1 Données : METAHIT 4.3.2 Assemblage i 4.3.3 4.3.4 4.3.5 Calculation d’abondance (counting) Segmentation Inter-clustering 34 34 35 CONCLUSION 36 ´ ERENCES ´ REF 38 ii Table des figures 10 11 12 13 14 15 16 17 18 19 20 Trois questions principales de la métagénomique [15] Neuf régions hypervariables de 16S rRNA du Escherichia coli [16] Un exemple de méthode d’analyse quantitative [26] Les séquences sont groupés en basant sur le profil d’abondance Explication des notions de base [12] 10 Binning Pipeline de MetaBAT [35] Binning taxonomique basé deux caractéristiques : l’abondance de la séquence et la composition de l’ADN 11 Le schéma global de binning taxonomique Rectangles bleus : developpés par nous Rectangles jaunes : développés par l’équipe de ICAN (dans l’avenir) 13 Prototype de pipeline Le générateur lit les configuration et les métadonnées pour générer et appeler les commandes 15 La distance entre deux segments est mesurée par la distance phylogénétique entre deux ensemble des anotations 18 Distance entre deux annotations est calculée par ses distance sur l’arbre de phylogénétique Distance entre x et y est égale à 3, [45] 19 Pipeline d’assemblage 21 Pipeline de counting 23 Pipeline de segmentation 27 Comment segmenter les séquences Le modèle de segmentation essaie de trouver des points de coupures pour séparer des segments de deux types : partagé et non partagé 27 Le profil d’abondance est estimé par l’abondance respective d’une séquence dans chaque échantillon 27 Faire l’alignement d’une séquence aux séquences de chaque échantillon pour extraire d’abondance a` travers échantillons 28 Pearson correlation [44] 29 Les distances ne suivent pas la loi normale L’histogramme de distribution est “skew” 30 La plupart des séquences sont bonnes (la qualité de 30 a` 39) 33 Nombre de contig par échantillons 34 Nombre de séquence par échantillon 35 Liste des tableaux Des technique de séquen¸cage [31] Résumé des pipelines de binning taxonomiques dans les travaux précédents La performance de deux versions de counting iii 12 26 Résumé deux étapes de prétraitement Résumé sur le résultat de clustering iv 33 35 R´ esum´ e : On a estimé que les microbes dans nos corps sont environ 100 trillions de cellules, dix fois le nombre de cellules humaines et a suggéré qu’ils codent 100 fois plus de gènes uniques que notre propre génome [1] Une des communautés importantes est la communauté des microbes dans l’intestin humain, car ils ont donc une profonde influence sur la physiologie humaine et la nutrition, autrement dit ils sont cruciaux pour la vie humaine Comprendre la composition et fonction de cette communauté est importante pour améliorer la santé humaine Des nouveaux progrès de séquen¸cage de haut débit (NGS) permet d’étudier en profonde les microbes dans l’environnement complexe Métagénomique est un ensemble de méthode pour traiter et analyser ce nouveau type de données Au point de vue d’informatique, la métagénomique entraˆıne des problèmes de computation, car les données de métagénome sont normalement grandes et complexes Un projet (rMGS) du laboratoire (INSERM/ICAN) travaille sur des données de métagnénome qui vise à d’analyser la composition des microbes dans l’intestin humain Pour résoudre cette question, une nouvelle méthode de binning taxonomique a été proposé par notre équipe Dans le cadre du projet, trois travaux sont : (1) proposer un prototype de pipeline pour analyser des problèmes métagénomiques, (2) proposer d’une mesure de similarité des segments d’ADN basé sur l’annotation phylogénétique (distance phylogénétique), (3) analyser la données réelle METAHIT [2] (124 échantillons par MetaHIT consortium, Commission européenne 7th FP) en utilisant nos pipelines Ma contribution est donc représentée en trois aspects : (1) Le prototype est utilisé comme un standard pour tous les pipelines de notre équipe Il est facile a` lancer pour les experts du domaine (métagénomique) et facile à maintenir, a` modifier pour les informaticiens Les résultats sont cohérents, donc il est facile a` suivre et à déboguer (2) La distance phylogénétique est utilisée non seulement dans le projet, mais encore elle est utile dans d’autres problèmes par exemple la sélection du modèle, la validation des clusters taxonomiques (espèce métagénomique – rMGS) Elle contribue une autre fa¸con pour mesurer la similarité a` côté de la méthode classique basé sur les nucléotides.(3) Les résultats de binning taxonomique sur la données réelle METAHIT sert à comparer avec les travaux précédents en termes de performance de pipeline ainsi que les informations biologiques Mots cl´ es : Métagénomique, composition microbienne, binning taxonomique, NGS INTRODUCTION Ce stage, d’une durée de cinq mois, a consisté à mettre en place des pipelines d’analyse des données métagénomique afin d’étudier la communauté de microbes dans l’intestin humain Ce rapport présente le travail que j’ai effectué lors de mon stage au sein de laboratoire UMI UMMISCO, IRD France Nord et UMI UMMISCO-VN Il est déroulé du février 2016 au 30 juin 2016 Pendant le stage, je me suis familiarisé avec la métagénomique et le traitement des données de nouvelle génération de séquen¸cage (NGS) En effet, ce stage est intediscipline, je suis comme un interface entre la biologie et l’informatique, donc, au débout du stage, je faisais des efforts pour comprendre des termes et des concepts biologiques De plus en plus, j’ai conscience des applications protentielles de métagénomique J’ai décider d’orienter ma carrière vers la bio-informatique Le projet réalisé était très intéressant et très enrichissant pour mon expérience professionelle En effet, les microbes joue un rôle primordial pour notre santé, pourtant nous avons insuffisament connaissance sur cette communauté car la plupart de celles ne peuvent pas mettre en culture dans les laboratoires Grâce au développement de technique de séquen¸cage (NGS), nous pouvons maintenant étudier en profond cette communauté Je vous expose dans ce rapport en premier lieu la contexte du projet dans le chapitre Qu’est-ce que la métagénomique ? quelles sont leur application ? quels sont leur défis ? J’explique ensuite trois questions principales a` résoudre de métagénomique Les types de données et les techniques de séquen¸cage sont aussi présenté dans ce chapitre Dans le chapitre 2, je vais expliquer en détail le problème a` résoudre dans mon stage En effet, ce stage est dans le contexe d’un grand projet de ICAN-INCERN, nous essayons de regrouper des séquences dans des clusters intitulé rMGS, chaque cluster représente une espèce métagénomique En fonction de stagiaire, je dois implémenter des pipelines pour analyser automatiquement des données métagénomiques Des travaux précédents et des techniques populaires sont abordés et comparé Pour le chapitre 3, je vais aborder nos méthodes proposées, y compris : un prototype de pipeline comme un standard de tous les pipelines, flux de travail de quatre pipelines dans notre projet, une proposition une nouvelle mesure de distance entre des segments d’ADN, l’analyse une données réelle avec nos pipelines Dans la dernier chapitre (chapitre 4), je fais une résumé sur les résultat obtenu Chapitre : Contexte 1.1 M´ etag´ enomique Les microbes présentent dans presque tous les environnements de la Terre, jouent un rôle crucial dans les cycles biogéochimiques et représentent une grande partie de la diversité de la vie Ces microbes peuvent interagir avec son hôte pour influencer la physiologie et contribuer à la santé, a` la croissance ou à la forme physique On s’intéresse aux communautés des microbes dans l’intestin humain, l’eau et le sol etc Exemple, l’analyse des communautés de microbe a des applications en santé : la nutrition [3, 4, 6] et les maladies [7, 8, 9], en agriculture : la corrélation entre les microbes et les phénotypes du plant [10, 11, 13] L’analyse ces types de l’environnement est compliqué comme les microbes vivent dans un environnement complexe o` u elles interagissent entre eux De plus, des techniques traditionnelles de séquen¸cage sont coˆ uteuses, prennent de temps, sont incapables a` traiter une grande quantité de génome La nouvelle génération de séquen¸cage (NGS) qui a été mise en marché au milieu des années 2000, est des plateformes de haut débit de séquen¸cage Le coˆ ut de séquen¸cage fait tomber 50,000-fois par rapport le coˆ ut de séquen¸cage au début de projet de génome humain [14] Le temps de séquen¸cage est aussi rapide, nous pouvons prendre une jour pour obtenir la génome complète de l’homme au lieu d’une décennie comme avant Grâce a` cette technologie, les chercheurs sont capables d’analyser une massive quantité de génome matériel Cela permet d’explorer des nouvelles génomes et des microbes qui ne sont pas mises en culture Elle est une approche complémentaire pour l’identification des microbes La technique NGS cause des difficultés : — Les données sont grandes : environ 20- 30 millions reads (10 Gb) par échantillon — Complexe : contient des séquences d’ADN de hôte, faible couverture rend des erreurs de l’assemblage — Les séquences sont courtes : 75-300 paires de bases (bp) de Illumina (reads) par rapport plus de 500 bp de Sanger Plus les reads sont courtes, plus la complexité de computation augmente Pourtant, l’intégré de cette technique est grande Donc, on essaie de développer des autres méthodes pour résoudre ces défis La métagénomique, apparu vers 2005, est un ensemble de méthodes pour traiter les données de NGS Les analyses de métagénomique essaie de répondre trois questions biologiques, voyez le figure : — La diversité taxonomique (qui est là ?) : L’identification des espèces dans la communauté, l’abondance des espèces — Diversité fonctionnelle (que font-ils) : Les fonctions de communauté en des échelles différentes : des gènes, protéines, espèces, pathway etc — Comparaison métagénomique : (1) la combinaison entre les communautés selon la diversité taxonomique et fonctionnelle, (2) l’interaction entre les organismes, l’interaction entre les organismes et leur hôte, (3) l’analyse longitudinale, suivre un échantillon Figure 12 – Pipeline de segmentation Figure 13 – Comment segmenter les séquences Le modèle de segmentation essaie de trouver des points de coupures pour séparer des segments de deux types : partagé et non partagé vecteur d’abondance à travers échantillons Neilsen et al [26], Li et al [37] calculent le profil d’abondance par le mélange des séquences dans une piscine (pool) Plus ils font l’alignement entre des reads de chaque échantillon avec les séquences pour estimer l’abondance Le mélange des reads cause la perte d’information de strain des microbes (strain est sous-unité de l’espèce Exemple la bactérie E.coli a plus de 1000 strains) Nous proposons une nouvelle méthode pour calculer le profil d’abondance, voyez la figure Figure 14 – Le profil d’abondance est estimé par l’abondance respective d’une séquence dans chaque échantillon 15 Au lieu de mélanger des séquences, nous calculons indépendamment l’abondance des séquences dans chaque échantillon Cette méthode demande des ressources de computation, 27 car nous devons faire l’alignement (blast) Pourtant, elle permet de conserver l’information de strain des microbes Alignement multiple Pour construire le profil d’abondance d’une, nous devons connaˆıtre l’abondance de cette séquence dans chaque échantillon Considérons une séquence quelconque (scaffold1 de l’échantillon par exemple), nous connaissons que l’abondance du scaffold dans échantillon est X (pipeline 1) Pourtant, nous ne connaissons pas l’abondance du scaffold1 dans d’autres échantillons car nous ne mélangeons pas des séquences dans une piscine (pool) comme Neilsen [26], Li [37] Nous proposons une méthode basée sur blast qui vise à trouver l’abondance du scaffold dans tous les échantillons L’algorithme : — Faire l’alignement (blast) une séquence a` toutes les échantillons Nous choisissons un meilleur alignement de chaque échantion — Ces alignement sont filtré par des critères : (1) la longueur et l’identité d’alignement, (2) la longueur d’alignement par rapport la longueur de la séquence — Extraire l’abondance des séquences satisfaites pour construire le profil d’abondance Figure 15 – Faire l’alignement d’une séquence aux séquences de chaque échantillon pour extraire d’abondance a` travers échantillons Chaque séquence est représenté par une vecteur de n dimension(n est le nombre d’échantillon) abnP rof ile = (abnsample1, abnsample2, , abnsampleN ) Crit` eres de filtrage : — la longueur d’alignment :>= 100 — l’identité : >= 90% — la longueur de l’alignement/longueur de la séquence >= 20% Filtrage de profil d’abondance : Il existe des séquences qui alignent avec très peu de séquences dans d’autres échantillons C ¸ a veut dire que nous ne trouvons pas cette séquence 28 dans d’autres échantillons, l’abondance de cette séquence dans ces échantillons est égale a` zéro Le profil d’abondance des séquences inclut des zéros Des fois, la proportion de zéro est supérieuse à 90 pourcent Ces profils sont des basses qualités Ils influencent la qualité de cluster dans l’étape de binning Nous devons les enlever Dans notre situation, nous enlevons les vecteurs dont le taux de zéro est supérieur à 90 pourcent Clustering Dans le contexte de métagénomiques, nous devons traiter généralement des grandes données Si nous utilisons kmean pour faire clustering, il va prendre des temps et nous devons définir aussi le nombre de cluster Cependant, nous ne connaissons pas le nombre d’espèces dans notre communauté Donc, nous choisissons Canopy clustering implémenté par Neilsen [26] Dans cet outil, les auteurs utilisent la mesure Pearson Correlation pour calculer la distance entre deux vecteurs Figure 16 – Pearson correlation [44] 4.2 Segmentation Nous abordons d’abord la conception de l’objet pour stocker les informations d’un segment dans la section 4.2.1 Au lieu de sauvegrader les segments sous forme FASTA, nous consevons une structure sur R pour faciliter l’oganization, la modification et l’accès des informations du segment Ensuite, dans la section 4.2.2, nous parlons des tests statistiques sur des ensembles de paramètre pour la sélection du modèle 4.2.1 Conception de l’objet de segment Les segments sont utilisés dans plusieurs tâches suivantes (inter-clustering et intra-clustering etc) Les informations du segment doivent être faciles à mettre a` jour et à accéder Nous décidons que les segments sont stockés sous forme d’objet avec des propriétés définies au lieu de forme textuelle La conception est décrite dans le listing 11 Listing 11 – La conception de la classe Segment Proprietes : 29 −sample : l e nom du e c h a n t i l l o n − s c a f f o l d : l ’ i d e n t i f i c a t i o n du s c a f f o l d − l a b e l : l ’ e t i q u e t t e a n n o t e e par l a s e g m e n t a t i o n − s t a r t : l a p r e m i e r e p r o s i t i o n du segment s u r l e s c a f f o l d −end : l a d e r n i e r e p r o s i t i o n du segment s u r l e s c a f f o l d −abn : l ’ abondance moyenne du segment −s e q : l a s e q u e n c e d ’ADN −kmer : l a c o m p o s i t i o n de 4−mers −a l i g n m e n t s : l e s a l i g n e m e n t s dans l ’ e t a p e d ’ a l i g n e m e n t m u l t i p l e Les sept premières propriétés sont initialisées au début La propriété kmer est ajoutée dans l’étape d’intra-clustering, pareillement la propriété alignments est insérée dans l’étape d’inter-clustering Pour faciliter la modification de l’objet Nous créons quelque méthodes pour manipuler la classe origine — add property() : créer une nouvelle classe en ajoutant une propriété dans la classe initiale — get property() : accéder la valeur d’un propriété de l’objet — init object() : initialiser un objet 4.2.2 S´ election du mod` ele Nous avons testé le modèle de segmentation avec 16 ensembles (reg, win ∈ [0.5, 1, 1.5, 2]) de paramètre sur 30 échantillons La distance ne suit pas la loi normale, voyez la figure 17 Donc, le t-test ne fonctionne pas avec ce type de données En effet, nous devons transformer les distances avec la fonction log10 Nous choisissons un ensemble de paramètre qui satifait : — Il y a une différence significative de distance entre lui et d’autres ensembles — La distance moyenne des étiquette est faible Figure 17 – Les distances ne suivent pas la loi normale L’histogramme de distribution est “skew” Anova test 30 Listing 12 – Anova test Le résultat montre que : (1) la différence de distance entre des ensembles de paramètres est significative, (2) il n’a pas d’interaction entre Reg et Win >mix1 p r i n t ( summary ( mix1 ) ) ## E r r o r : Sample ## Df Sum Sq Mean Sq F v a l u e Pr(>F) ## R e s i d u a l s 29 1.482 ## ## E r r o r : Within ## Df Sum Sq Mean Sq F v a l u e Pr(>F) ## Reg 0.940 0.31319 8

Ngày đăng: 13/03/2019, 13:36

Xem thêm: Approche métagénomique pour le binning taxonomique du microbiome intestinal humain = khai phá cấu trúc phân loài của hệ vi sinh vật ruột người từ dữ liệu di truyền học môi trường

Approche métagénomique pour le binning taxonomique du microbiome intestinal humain = khai phá cấu trúc phân loài của hệ vi sinh vật ruột người từ dữ liệu di truyền học môi trường

Thông tin tài liệu

Từ khóa liên quan

Mục lục

DƯƠNG TIẾN HẬU

DƯƠNG TIẾN HẬU (1)

MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE

Tài liệu cùng người dùng

Tài liệu liên quan