Thực hành Tin sinh hoc ứng dụng(1 6)

Thông tin tài liệu

thực hành tinh sinh học ứng dụng. bài 1. khoa công nghệ sinh học, trường học viện nông nghiệp việt Nam, trâu quỳ, gia lâm , hà nội aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa

Bài giảng TIN SINH HỌC ỨNG DỤNG PHẦN GIỚI THIỆU CHUNG CHƯƠNG GIỚI THIỆU VỀ BIOINFORMATICS 1.1 Khái niệm Tin sinh học ngành khoa học ứng dụng toán học (thống kê) khoa học máy tính vào lĩnh vực sinh học (sinh học phân tử y học) Thuật ngữ tin sinh học lần Paulien Hogeweg giới thiệu năm 1979 dùng để mô tả nghiên cứu trình hệ thống sinh học Vào cuối năm 1980, thuật ngữ đưa vào lĩnh vực di truyền học (genetics) nghiên cứu genome (genomics) liên quan đến việc xác định trình tự, quản lý, phân tích khai thác CSDL sinh học Tin sinh học liên quan đến xây dựng phát triển sở liệu, thuật toán, thống kê kỹ thuật máy tính để giải vấn đề liên quan đến lý thuyết thực nghiệm việc quản lý phân tích liệu sinh học Mô dự đoán tương tác phân tử trình sinh học hướng tin sinh học ngày tập trung nghiên cứu ứng dụng rộng rãi Biology Mathematics Computer science Bioinformatics Hình 1: Tin sinh học mối liên hệ lĩnh vực 1.2 Nền tảng sinh học cho đời phát triển bioinformatics Một tảng quan trọng sinh học việc phát bên tế bào chứa vật chất di truyền DNA Phân tử DNA mã hóa cho mRNA loại RNA khác Protein dịch mã từ phân tử mRNA thực chức sinh học kể bao gồm việc điều hòa hoạt động gene protein trình sinh học Lấy người làm ví dụ minh họa, thể tạo nên khoảng 1012 tế bào, đó, tế bào chứa 23 cặp NST Đến có khoảng 23.000 gene ( 1) phát người Kết xác định trình tự cho thấy kích thước genome người khoảng 3,2.109 cặp nucleotide Đến hiểu cách trình tự gene mã hóa cho RNA protein (thông qua trình dịch mã) chúng International Human Genome Sequencing Consortium (2004) "Finishing the euchromatic sequence of the human genome." Nature 431 (7011): 931–45 Bibcode • • • Năm 1930 1951 1953 1954 1955 1970 1972 1973 1974 1975 ta thiếu nhiều thông tin cần thiết để hiểu thấu đáo vai trò DNA bệnh định chức hàng ngàn protein gene tạo Các phương pháp dùng bao gồm thu thập, lưu trữ, cho phép truy cập tìm kiếm, phân tích nghiên cứu mối liên quan liệu sở liệu khổng lồ phức tạp nhóm lại vào lĩnh vực nghiên cứu gọi tin sinh học Như vậy, mục tiêu tin sinh học cung cấp cho nhà khoa học phương tiện công cụ để giải thích: Các trình sinh học phổ biến Các rối loạn chức trình dẫn đến bệnh tật Các hướng tiếp cận để cải thiện tìm thuốc điều trị Việc sử dụng kỹ thuật tăng lên nhanh chóng thể số lượng nguồn CSDL, công cụ phân tích, dịch vụ nhu cầu quy mô sử dụng tin sinh học Quá trình dẫn đến đòi hỏi nhà tin sinh học, khoa học máy tính cần phải phát triển để nâng cao độ xác giảm thời gian cho nhà nghiên cứu sinh học Tin sinh học lĩnh vực nghiên cứu đa ngành, mức độ định, đặt tảng sinh học phân tử (nguồn cung cấp CSDL cần phân tích), khoa học máy tính (cung cấp phần cứng cho việc phân tích mạng lưới máy tính để so sánh, đối chiếu kết phân tích), thuật toán để phân tích liệu Ba yếu tố có vai trò sống tin sinh học Ngay sinh học phân tử, thân lĩnh vực tương đối dựa tảng nhiều môn khoa học mà quan trọng di truyền học, hóa sinh học, vi sinh học, tế bào học… Dưới vài điểm mốc lịch sử quan trọng cho phát triển sinh học phân tử tin sinh học: Phát minh Tiselius đưa kỹ thuật điện di để phân tách protein dung dịch Pauling Corey đề xuất cấu trúc xoắn alpha phiến gấp nếp beta Watson Crick đề xuất mô hình chuỗi xoắn kép DNA dựa liệu thu tử kết phân tích nhiễu xạ tia X Franklin and Wilkins Nhóm nghiên cứu Perutz phát triển phương pháp dùng nguyên tử nặng (heavy atom) để giải khó khăn việc kết tinh protein Trình tự protein phân tích insulin bò F Sanger Thuật toán Needleman-Wunsch cho việc trình tự (alignment) công bố Phân tử DNA tái tổ hợp tạo Paul Berg nhóm nghiên cứu Cơ sở liệu Protein công bố Brookhaven Vint Cerf Robert Kahn phát triển phương thức giao tiếp máy tính TCP làm tảng cho internet Điện di chiều phát triển P H O'Farrell (J Biol Chem., 250: 4007-4021, 1975) Phương pháp Southern blot mô tả công bố E M Southern (J Mol Biol., 98: 503517, 1975) 1977 Cở liệu protein, PDB, thức đời (http://www.pdb.bnl.gov) is published (Bernstein, F.C.; Koetzle, T.F.; Williams, G.J.B.; Meyer, E.F.; Brice, M.D.; Rodgers, J.R.; Kennard, O.; Shimanouchi, T.; Tasumi, M.J.; J Mol Biol., 1977, 112:, 535) 1980 1981 1982 1985 1986 Maxam Walter Gilbert (Harvard) Frederick Sanger (U.K Medical Research Council) công bố phương pháp xác định trình tự DNA Trình tự genome hoàn chỉnh sinh vật (FX174) công bố Genome chứa 5,386 cặp base mã hóa cho protein Phương pháp NMR đa chiều (multi-dimensional NMR) sử dụng để xác định cấu trúc protein Thuật toán Smith-Waterman để trình tự công bố Genetics Computer Group (GCG) tạo nhiều công cụ phân tích sinh học phân tử trung tâm Công nghệ sinh học Wisconsin thuộc trường đại học Wisconsin Thuật toán FASTP công bố Phản ứng PCR mô tả Kary Mullis cộng Thuật ngữ “Genomics" xuất lần để mô tả lĩnh vực khoa học liên quan đến việc 1987 1988 1990 1991 1997 1998 2000 2001 2004 2004 2008 1.3 (i) (ii) (iii) (iv) lập đồ, xác định trình tự phân tích gene Thuật ngữ đưa Thomas Roderick, sau tên tạp chí tiếng: Genomes CSDL SWISS-PROT tạo phòng sinh hóa y học (Department of Medical Biochemistry) trường đại học Geneva ngân hàng CSDL châu Âu EMBL đời (European Molecular Biology Laboratory) NST nhân tạo nấm men (YAC) giới thiệu (David T Burke, et al., Science, 236: 806-812) Bản đồ vật lý E.coli công bố (Y Kohara, et al., Cell 51: 319-337) Ngôn ngữ lập trình Perl (Practical Extraction Report Language) phát triển Larry Wall NCBI (National Center for Biotechnology Information) thành lập viện nghiên cứu ung thư quốc gia (National Cancer Institute) Dự án xác định genome người khởi động (Commission on Life Sciences, National Research Council Mapping and Sequencing the Human Genome, National Academy Press: Washington, D.C.), 1988 Thuật toán FASTA dùng để so sánh trình tự công bố Pearson Lupman Des Higgins Paul Sharpe công bố phát triển chương trình CLUSTAL Chương trình BLAST đời (Altschul, et al.) Molecular Applications Group thành lập California Michael Levitt Chris Lee Sản phẩm công ty Look and SegMod dùng để thiết kế mô hình phân tử protein InforMax thành lập Bethesda, MD Sản phẩm công ty hướng tới phần mềm, chương trình phân tích trình tự, quản lý phân tích CSDL, tìm kiếm, thị liệu bằn đồ họa, thiết kế dòng (clone construction), mapping thiết kế mồi Viện nghiên cứu Geneva (Research institute in Geneva/ CERN) công bố tạo phương thức make-up cho World Wide Web Genome E.coli (4.7 Mbp) công bố Genom Caenorhabditis elegans nấm men bánh mì công bố Swiss Institute of Bioinformatics thành lập dạng hiệp hội nghiên cứu phi lợi nhận Genome Pseudomonas aeruginosa (6.3 Mbp) công bố Genome Arabidopsis thaliana (100 Mb) xác định trình tự Genome Drosophila melanogaster (180Mb) xác định trình tự Genome người có kích thước 3,000 Mbp công bố Bản nháp genome chuột, Rattus norvegicus, công bố Thế hệ xác định trình tự thức đời khởi đầu với kỹ thuật 454 sequencing Các dự án xác định trình tự genome 1000 loài http://www.1000genomes.org/ Vai trò bioinformatics nghiên cứu sinh học (2 tiết) Trong vài thập kỉ gần đây, phát triển nhanh chóng lĩnh vực genomic công nghệ sinh học phân tử tạo khối lượng thông tin lớn Sự đời tin sinh học với phát triển thuật toán kết hợp với khoa học máy tính làm sáng tỏ chất trình sinh học Vai trò tin sinh học tóm tắt cách ngắn gọn sau: Thu thập, tổ chức quản lý liệu sinh học (database); Phát triển công cụ tìm kiếm liệu (search tools, data mining) Phân tích trình tự (sequence analysis), mô tả genome (genome annotation), so sánh genome (genomic comparison); Mô cấu trúc, mô tương tác phân tử (molecular interaction modelling), dự đoán cấu trúc protein (prediction of protein structure); (v) (vi) (vii) (viii) (ix) Phân tích chức protein (protein function analysis), tương tác protein đường chuyển hóa (protein interactions and metabolism pathways), mô hình hóa hệ thống sinh học (modeling biological systems), phân tích mô hình biểu gene (analysis of gene expression profile), Phân tích trình tự genome để phát đột biến, ung thư, xác định vai trò gene hướng tới liệu pháp điều trị (genome analysis and treatment); Phân tính mối quan tiến hóa, di truyền quần thể dựa phần mềm công cụ máy tính; Phân tích hình ảnh quy mô lớn (high-throughput image analysis), Phát triển thuật toán, phần mềm để giải nhu cầu nhà khoa học lĩnh vực sinh học Phân tích trình tự (sequence analysis) Phân tích trình tự trình bao gồm nhiều thao tác liên quan đến việc tìm kiếm liệu trình tự, so sánh trình tự với kết hợp với công cụ khác để tìm thông tin cần thiết nằm chuỗi trình tự cần phân tích Những thông tin bao gồm: tương đồng, vùng hoạt động chức (domain), vùng đặc trưng (motif), định vị gene genome (gene finding), yếu tố điều hòa hoạt động gene (promoter, intron, exon, vùng cấu trúc điều hòa phiên mã) Năm 1977, trình tự genome xác định phage Φ-X174, từ đến genome hàng nghìn sinh vật xác định trình tự lưu giữ ngân hàng gene Các công cụ tin sinh học dùng phổ biến phân tích trình tự chẳng hạn như: BLAST, FASTA biến thể chúng, chương trình so sánh trình tự (sequence alignment), nhiều công cụ hỗ trợ khác (các công cụ Expasy để phân tích trình tự amino acid) Mô tả genome (genome annotation) Về khía cạnh nghiên cứu genome, mô tả genome trình đánh dấu trình tự DNA (gene) gắn đặc điểm sinh học vào trình tự DNA Hệ thống phần mềm cho phép mô tả genome Dr Owen White xây dựng vào năm 1995.Đối tượng vi khuẩn Haemophilus influenzae Ông xây dựng hệ thống với mục tiêu ban đầu để tìm gene, tRNA genome đặc điểm khác sau gắn chức sinh học biết vào yếu tố Đến có nhiều hệ thống mô tả genome, có khác thuật toán chương trình máy tính So sánh genome Trọng tâm so sánh genome thiết lập tương ứng mối liên hệ gene (orthology analysis) đặc điểm genome sinh vật khác Đó đồ tương tác genome cho phép phát trình tiến hóa dẫn đến khác biến đổi hai genome Các kiện tiến hóa phức tạp xảy nhiều mức độ khác dẫn đến tiến hóa mặt genome Ở mức độ thấp nhất, đột biến điểm làm thay đổi genome nucleotide đơn lẻ Ở mức độ cao hơn, lặp đoạn, đảo đoạn, đoạn, thay đổi vị trí trình tự DNA NST (gene nhảy, transposable elements) làm thay đổi mặt tổ chức vật lý genome Cuối toàn genome tham gia vào trình lai, lưỡng bội hóa tương tác cộng sinh nội bào dẫn đến phân loài nhanh chóng Tính phức tạp tiến hóa genome dẫn đến khó khăn việc phát triển thuật toán mô hình toán học để mô xác Vì thuật toán mang tính hợp lý (heuristic) xác (precise) Các thuật toán mô hình dùng phổ biến bao gồm: heuristics, approximation algorithms, parsimony models, Markov Chain Monte Carloalgorithms, Bayesian analysis, probabilistic models Xây dựng mô cấu trúc Dự đoán cấu trúc phân tử protein ứng dụng quan trọng bioinformatics Trình tự amino acid phân tử protein (cấu trúc sơ cấp), suy diễn từ trình tự nucleotide gene mã hóa tương ứng Để mô cấu trúc người ta cần thông tin cụ thể protein, tốt cấu trúc kết tinh phân tử protein Trong trường hợp khó kết tinh có trình tự amino acid người ta so sánh trình tự amino acid protein polypeptide với protein khác biết CSDL sử dụng thuật toán để tìm tương đồng, từ đưa cấu trúc mô tương đối protein chưa biết Tuy nhiên, có nhiều trường hợp cấu trúc giống trình tự amino acid lại khác Vì chưa có thuật toán chương trình máy tính giải vấn đề Sự mô mang tính tương đối có tính chất tham khảo Một ví dụ tương đồng (homology) haemoglobin người họ đậu (leghemoglobin) Cả hai dùng để vận chuyển oxy thể Mặc dù hai protein có trình tự amino acid hoàn toàn khác cấu trúc chúng giống cách đặc biệt, điều phản ánh mối quan hệ cấu trúc hoạt động chức Mô tương tác phân tử Mô tương tác phân tử việc đưa mô hình để mô tả chất tương tác hai hay nhiều phân tử tiếp xúc với bao gồm vị trí, nhóm tương tác chế hình thành tương tác liên quan đến thay đổi nhiệt động học, thay đổi trạng thái phân tử (thay đổi điện tích, trao đổi điện tử, chuyển dịch nhóm liên kết), thay đổi cấu hình trạng thái hình học không gian phân tử Các tương tác phân tử bao gồm: protein-protein/peptide, enzyme-cơ chất, ligand-chất tương tác (thuốc) Thuật ngữ thường sử dụng docking thuật toán tương ứng docking algorithms Các kỹ thuật dùng để hỗ trợ bao gồm: phân tích nhiễu xạ tia X (X-ray crystallography), phân tích cộng hưởng từ hạt nhân protein (protein nuclear magnetic resonance spectroscopy protein NMR) Một câu hỏi quan trọng liệu cần phân tích cấu trúc phân tử (3D) để dự đoán tương tác phân tử hay cần phải làm thực nghiệm cụ thể cho tương protein-protein (protein– protein interaction experiments) protein–protein docking? Dự đoán cấu trúc protein (prediction of protein structure) Dự đoán cấu trúc protein dựa vào thông tin sau: trình tự amino acid, kết khối phổ (MS), kết tinh phân tích nhiễu xạ tia X, đặc điểm sinh học tương đồng (chẳng hạn dựa vào giống sở thực chức sinh học, hoặccác enzyme xúc tác kiểu phản ứng, loại nhóm chất…) Các thuật toán phát triển dựa vào việc tính toán liên kết hóa học, khả hình thành liên kết, tương tác phân tử, phân tích nhiệt động học, lượng tự do, lượng liên kết để xây dựng lên mô hình cấu trúc không gian Tuy nhiên, việc phân tích mối liên hệ so sánh cấu trúc chức biết coi tảng để dự đoán cấu trúc protein Chính vậy, protein Phân tích biểu gene (analysis of gene expression) Các CSDL mRNA, cDNA, EST giúp phát biểu mức độ biểu gene Các sở liệu protein microarray khối phổ (MS) hỗ trợ nhiều cho việc phân tích phát có mặt protein mẫu sinh học Việc so sánh đối chiếu CSDL cho phép rút ngắn thời gian Tuy nhiên trình đòi hỏi thuật toán phức tạp xử lý khối lượng mẫu lớn (high through put analysis), nhiễu số liệu sai số gặp phải thực nghiệm Từ phân tích trình tự genome đến việc điều trị (from genome to therapy) Một nguyên nhân dẫn đến ung thư việc tích lũy đột biến Phân tích lượng lớn trình tự xác định đột biến tiềm ẩn gene khác có liên quan đến ung thư Bioinfomatics phát triển hệ thống phân tích tự động để quản lý, lưu giữ thông tin từ cho phép thao tác tìm kiếm, so sánh đối chiếu gene, genome để phát đa hình (chẳng hạn sở liệu dbVar, dbSNP, CancerChromosome) Kết phân tích giúp cho việc điều trị chẩn đoán dễ dàng Một ví dụ điển hình khác việc đáp ứng phản ứng với thuốc điều trị người Các kỹ thuật áp dụng so sánh oligonuclotide (oligonucleotide analysis), so sánh khác biệt mức độ nucleotide để tìm đột biến điểm (single-nucleotide polymorphism arrays) Phương pháp cho phép phân tích đồng thời hàng trăm nghìn vị trí khác genome Đối với genome lớn việc phân tích hàng tỉ ký tự tạo dự liệu lên tới hàng tỉ byte (tetrabytes), việc phát triển thuật toán để đáp ứng yêu cầu nội dung đặt cho bioinformatics Thuật toán dùng Hidden Markov model, change-point analysis methods Nghiên cứu sinh học tiến hóa (Computational evolutionary biology) Sinh học tiến hóa nghiên cứu nguồn gốc hậu duệ của loài thay đổi theo thời gian Công nghệ thông tin tin sinh học hỗ trợ nhà nghiên cứu sinh học nhiều khía cạnh, bao gồm: - Phát tiến hóa nhiều sinh vật nhờ vào việc so sánh, tìm thay đổi DNA chúng kiểm tra đặc điểm sinh lý phân loại dựa vào mô tả hình thái - So sánh toàn genome cho phép nghiên cứu phức tạp lớn kiện tiến hóa, chẳng hạn như: lặp đoạn, trao đổi vật chất di truyền lấy phần vật chất di truyền loài (nhưng hậu duệ loài horizontal gene transfer lateral gene transfer: biến nạp, cộng sinh, tái tổ hợp genome, chuyển gene) (phân biệt với vertical gene transfer) - Xây dựng mô hình máy tính để dự đoán đầu (hệ quả) quần thể theo thời gian - Theo dõi chia sẻ thông tin số lượng lớn loài cá thể - Xây dựng tranh tổng thể phát sinh chủng loại Phân tích hình ảnh quy mô lớn Công nghệ máy tính với thí nghiệm phân tích tự động quy mô lớn tạo số lượng hình ảnh dung lượng vô lớn Ngoài hình ảnh phân tích chứa đựng nhiều thông tin như: ảnh phân tích mẫu, mô bệnh, ảnh chụp y học, lâm sàng Những hình ảnh cần lưu giữ, đối chiếu so sánh để chắt lọc thông tin phục vụ cho chân đoán điều trị Các thuật toán xây dựng nhằm giải đòi hỏi thời gian ngắn thiếu Một số ví dụ: - Các hình ảnh mang tính định lượng với độ tin cậy cao, vị trí bào quan, mô bệnh… - Phân tích định lượng đặc điểm bên hình ảnh (bào quan, kích thước, hình dạng, vị trí phân bố…) - Hiện thị hình ảnh phân tích lâm sàng - Xác định mô hình, hình mẫu real-time dòng khí vận chuyển phổi động vật, vận chuyển chất qua màng tế bào, mô (drug delivery) - Dự đoán kích thước hạt, vón cục xảy trình phẫu thuật (real-time imaginery) trình hồi phục sau bị thương động mạch - Quan sát tập tính động vật phòng thí nghiệm - Phân tích hình ảnh hồng ngoại để xác định hoạt động trao đổi chất - Phân biệt tượng clone overlapping đoạn DNA so sánh clone với - Phân tích hình ảnh huỳnh quang (các kỹ thuật xác định trình tự hệ mới) Phân tích chức protein Các CSDL MS, trình tự, cấu trúc, tương tác protein-protein, protein docking tảng để phân tích chức protein Việc so sánh trình tự, trình tự hỗ trợ đắc lực để phát motif, domain, (mô hình) pattern để phát phân tích chức protein Các họ protein protein thực chức phát dựa sở so sánh Tương tác protein đường chuyển hóa Tương tác protein (enzyme) liên quan đến nhiều trình sinh học (xúc tác, điều hòa, ức chế) Các đường chuyển hóa đòi hỏi có tương tác chặt chẽ phức tạp protein Hiện nay, nghiên cứu xây dựng mô hình tương tác protein gắn liên với việc phân tích mô hình biểu gene Khi mối quan hệ làm sang tỏ biết vai trò gene, protein chế điều hòa biểu gene tham gia mạng lưới Sự rối loạn thay đổi mối quan hệ tương tác dẫn đến bệnh tật Việc điều trị bệnh dựa sở hiểu biết mối liên hệ nhiều yếu tố có hiệu lớn Hiên nay, hướng nhà sinh học, tin sinh học tập trung nghiên cứu Mô hình hóa hệ thống sinh học (Modeling biological systems) Đòi hỏi kết hợp sinh học hệ thống (system biology) toán sinh học (mathematical biology) Ví dụ hệ thống tế bào (cellular subsystems) bao gồm chất trao đổi enzymes tham gia hình thành đường trao đổi chất, đường dẫn truyền tín hiệu, điều hòa hoạt động gene Tất trình cần phân tích thị phức hợp thành phân bên tế bào (bào quan) Ngoài với hỗ trợ bioinformatics computational biology, sống nhân tạo, ảo liên quan đến trình tiến hóa mô Thuật toán thách thức khoa học máy tính Phát triển thuật toán nhằm: Rút ngắn thời gian phân tích (giảm thiểu sử dụng tài nguyên máy tính) nâng cao độ tin cậy phân tích, mô Phát triển phần mềm công cụ phân tích (Software and tools) Các phần mềm công cụ phân tích tập trung vào nhóm sau đây: - Các công cụ tìm kiếm trình tự tương đồng tương tự (homology and similarity tools) Trình tự tương đồng (homology): trình tự DNA tính trạng phân tích có nguồn gốc, quan hệ tiến hóa từ tổ tiên chung Mức độ giống (similarity) hai (các) trình tự xác định liệu tương đồng thực ngẫu nhiên - Các công cụ thuộc nhóm nhằm xác định giống trình tự đưa vào (novel query sequence) với cấu trúc chức chưa biết với toàn CSDL biết.Nhóm bao gồm công cụ chính: FASTA, BLAST biến thể chúng (xem chương sau) - Phân tích chức protein Phân tích chức bao gồm: Xác định chức lập đồ thành phần chức (phần mã hóa không mã hóa gene tương ứng) genome Nhóm bao gồm chương trình cho phép so sánh trình tự protein (query) với CSDL protein thứ cấp chứa thông tin motif, domain Những kết tìm kiếm có mức độ giống lớn cho phép dự đoán chức hóa sinh học protein chưa biết - Phân tích cấu trúc Các nhóm công cụ cho phép so sánh cấu trúc chưa biết (query) với CSDL cấu trúc biết Chức protein xác định xác so sánh cấu trúc trình tự amino acid Vì cấu trúc tương tự thường gắn liền với tương ứng chức hoạt động (homologs) Việc xác định cấu trúc protein dạng 2D/3D có ý nghĩa vô quan trọng để nghiên cứu chức Công việc kèm với việc tinh kết tinh protein, kết hợp với phương pháp phân tích tinh thể - Phân tích trình tự Các công cụ thuộc nhóm cho phép thực phân tích sâu trình tự chưa biết (query) bao gồm: phân tích tiến hóa, xác định đột biến, vùng ưa nước (hydropathy regions), CpG islands, xu hướng sử dụng thành phần base mã di truyền (compositional biases) Những kết phân tích hỗ trợ cho nghiên cứu làm sáng tỏ chức trình tự chưa biết 1.4 Nhiệm vụ hướng nghiên cứu Bioinformatic Vào giai đoạn đầu cách mạng genomics, tin sinh học tập trung vào việc tập hợp lưu giữ thông tin, sở liệu sinh học để hình thành ngân hàng sở liệu (chủ yếu trình tự amino acid, nucleotide) Quá trình liên quan đến việc thiết kế mạng lưới CSDL liên kết phát triển giao diện webnhờ nhà nghiên cứu vừa truy cập vào sở liệu vừa đăng ký thêm trình tự, liệu liệu chỉnh sửa, bổ sung Xuất phát từ nhu cầu nhà khoa học việc tìm kiếm phân tích liệu (data mining) dẫn đến việc phát triển công cụ tìm kiếm kết hợp với việc so sánh liệu Việc sử dụng chương trình FASTA, BLAST, trình tự (sequence alignment); lắp ráp trình tự (genome assembly);tìm kiếm gene genome (gene finding), phân tích domain phân tử protein xác định cấu trúc chúng trở thành thao tác thông thường hàng ngày nhà nghiên cứu Những ứng dụng mức cao phức tạp như: xác định vị trí vai trò gene nhiễm sắc thể (position cloning);so sánh cấu trúc ba chiều protein,dự đoán cấu trúc protein tương tác protein-protein;nhận dạng mô hình (pattern recognition);dự đoán mô hình biểu gene (gene expression profile prediction)đang trở nên phổ biến phòng nghiên cứu mạnh Từ kết nghiên cứu xác định vai trò gene tương tác gene, nhà khoa học so sánh hoạt động tế bào bình thường tế bào bị bệnh Để làm điều nàycần thiết phải có kết hợp đối chiếu cáccơ sở liệu sinh học để tạo thành tranh tổng thể diễn đạt mối liên hệ hoạt động qua nghiên cứu đường chuyển hóa (metabolomics) Đây thách thức lớn nhà tin sinh học Hình Mối liên hệ transcriptomics, proteomics đường chuyển hóa (metabolomics) (Goodacre (2005) J Exp Bot 56: 245) Hướng phát triển cao xây dựng mô hình tương tác mô hình chuyển hóa sở làm sáng tỏ mô hình biểu gene, tương tác gene nhóm gene Những kết góp phần việc điều khiển hoạt động gene phát triển liệu pháp điều trị hiệu Hình Mạng lưới gene liên quan đến bệnh người (The human disease network PNAS vol 104, no 21, 8685–8690) Nghiên cứu để phát triển thuật toán, phần mềm công cụ phân tích (software and tools) chẳng hạn: hỗ trợ việc xác định có mặt vị trí gene trình tự DNA hay NST, dự đoán cấu trúc protein chức chúng phân tích, xếp nhóm trình tự protein thành họ gồm trình tự có liên quan Các công cụ Bioinformatics (Bioinformatics tools) BLAST BLAST chữ viết tắt (Basic Local Alignment Search Tool) Đây nhóm công cụ cho phép so sánh trình tự DNA protein với trình tự khác có CSDL Hiện có số biến thể BLAST như: PSI-BLAST, PHI-BLAST Ngoài có số công cụ BLAST đặc biệt áp dụng cho genome người, vi sinh vật, ký sinh trùng sốt rét genome khác Các công cụ hỗ trợ để phát trình tự có lẫn với trình tự vector (đặc biệt đăng ký vào ngân hàng gene), trình tự globulin miễn dịch, trình tự concensus (concensus sequence) người FASTA Là công cụ tìm kiếm CSDL sử dụng để so sánh trình tự nucleotide amino acid với CSDL trình tự Chương trình dựa vào thuật toán tìm kiếm trình tự nhanh Lipman Pearson Đây thuật toán dùng để tìm kiếm trình tự giống CSDL EMBOSS EMBOSS viết tắt từ (European Molecular Biology Open Software Suite), tổ hợp phần mềm phân tích nguồn mở miễn phí ứng dụng lĩnh vực sinh học phân tử Có khoảng 100 chương trình ứng dụng để so sánh trình tự, tìm trình tự CSDL, tìm kiếm mô hình (pattern), tìm kiếm domain, motif phân tử protein cách so sánh trình tư amino acid, so sánh trình tự nucleotide để phát pattern, phân tích tần suất sử dụng mã (codon bias analysis)… Một danh sách ứng dụng tìm địa chỉ: http://www.hgmp.mrc.ac.uk/Software/EMBOSS/Apps/ Clustalw ClustalW chương trình dung để so sánh trình tự DNA protein Mục đích để tìm vùng trình tự giống khác Trên sở hỗ trợ cho nhiều ứng dụng khác như: phân tích domain, motif, pattern, xây dựng mối quan hệ tiến hóa RasMol Đây công cụ nghiên cứu hiệu để thị cấu trúc DNA, protein phân tử nhỏ Protein Explorer dạng biến thể dễ sử dụng RasMol Chương trình ứng dụng chuyên ngành bioinformatics - JAVA: Do chất Java chương trình độc lập thành phần quan trọng bioinformatics (BioJava) - Perl: Sử dung để xử lý liệu sinh học ( BioPerl) - BioXML: Là phần dự án BioPerl, nguồn để tập hợp tài liệu dạng XML DTD Xây dựng CSDL tài liệu, tạp chí phục vụ nghiên cứu Các CSDL như: - Bài báo, tạp chí (pubmed); - Hệ thống phân loại, khóa phân loại (taxon); - Sách (book); - Bài báo, tạp chí, tài liệu lien quan đến phản ứng sinh hóa (pubchembioassay); - Các tài liệu liên quan đến hợp chất hóa học (Pubchem compounds); - Các tài liệu chất hóa học (pubchem substances); - Các sở liệu: genomics, proteomics, metabolomics, microarray gene expression phylogenetics Thông tin chứa đựng bên CSDL sinh học bao gồm: tên gene, trình tự gene, vị trí gene NST genome (locus tag), cấu trúc chức gene, hậu đột biến gene đó, gene liên quan (họ gene) cấu trúc chúng (nếu protein, RNA ) Dữ liệu bao gồm: Các trình tự gene, mô tả đặc điểm gene (gene mã hóa cho mRNA, tRNA, rRNA…), thuật ngữ phân loại (nguồn gốc gene, sinh vật chứa gene đó), trích dẫn (bài báo liên quan đến gene, protein…) bảng số liệu (nếu có) Kiểu định dạng CSDL Các dạng định dạng liệu sinh học gồm nhiều loại: chữ, liệu trình tự, cấu trúc protein liên kết (link), ví dụ: - Dạng chữ: PubMed OMIM - Dạng trình tự: GenBank (DNA) UniProt (protein) - Dạng cấu trúc: PDB, SCOP, CATH Những vấn đề liên quan đến CSDL protein Việc phát triển CSDL cấu trúc protein thường khó khăn chậm (so với trình tự DNA) cấu trúc chiều (three dimension/3D) protein khó xác định Để xác định cấu trúc chiều phân tử protein người ta phải tách riêng hay tinh protein đó, tiếp tìm điều kiện phù hợp protein kết tinh sau sử dụng kỹ thuật xác định cấu trúc, chẳng hạn dung tia X (X-ray crystallography), cộng hưởng từ hạt nhân (NMR spectroscopy Mặc dù vậy, liệu truy cập thông qua thành viên wwPDB (PDBe, PDBj RCSB PDB, SCOP (structural classification of Protein)) CATH - Các thông số: genome center tag, tên trình tự (sequence name), số truy cập (accession number), thông tin cung cấp chưa xác - Dữ liệu: liệu bị lỗi Khi trình xử lý đăng ký HTG không thành công, GenBank gửi email tới trung tâm trình tự, thông báo lỗi Điều giúp cho nhân viên trung tâm đăng ký genome sửa chữa vấn đề CSDL họ Đối với đăng ký thành công, file tạo ra, file chứa nội dung trình tự đăng ký vào GenBank dạng flat file (không có trình tự) file thong báo tình trạng File chứa thong tin: trung tâm genome (genome center), tên trình tự (sequence name), số truy cập (accession number), phase (pha đọc trình tự), ngày tạo trình tự thông tin update cho đăng ký Đăng ký thất bại nhận file lỗi với mô tả lỗi kèm Nhân viên GenBank gửi email giải thích lỗi với chi tiết Quy trình kiểm tra Khi đăng ký trình tự thành công, trình tự đưa vào GenBank, chúng phải trải qua trình kiểm tra Nếu nhân viên GenBank tìm thấy lỗi chưa đầy đủ thong tin họ viết thư đến người đăng ký, yêu cầu họ sửa chữa lại lỗi đăng ký update Đăng ký từ kết xác định trình tự toàn genome (Whole Genome Shotgun Sequences/ WGS) Các trung tâm genome sử dụng nhiều hướng tiếp cận để xác định trình tự toàn genome số sinh vật Ngoài hướng tiếp cận xác định genome truyền thống clone mảnh trình tự sau lắp ráp kể trên, trung tâm thường sử dụng hướng tiếp cận WGS để đăng ký vào HTGS Các trình tự đọc từ phương pháp shotgun (read) lắp ráp thành contig, mảnh contig chấp nhận đăng ký vào GenBank (dưới dạng vùi “inclusion”) Các lắp ráp contig từ WGS update pha dự án xác định hoàn tất có lắp ráp Các trình tự WGS mô tả (annotation) tương tự với trình tự đơn đăng ký GenBank Mỗi dự án xác định trình tự giao cho số định (ID), gồm ký tự Số truy cập cho trình tự WGS chứa ID dự án, số thể phiên (version number), số ký hiệu cho tên contig (contig ID) Chẳng hạn, dự án xác định trình tự genome có số truy cập cho trình tự WGS này: AAAX00000000 Phiên lắp ráp AAAX01000000 Sáu kí tự xác định contig riêng rẽ Việc đăng ký trình tự WGS tạo cách sử dụng tbl12asn, chương trình tiện ích kèm với phần mềm Sequin Thông tin chi tiết cho trình đăng ký truy cập theo trang web “Whole Genome Shotgun Submissions” Đăng ký trình tự EST, STS GSS theo lượng lớn (Bulk Submission: EST, STS, and GSS) Các trình tự biểu đánh dấu (Expressed Sequence Tags/ EST), trình tự có vị trí đánh dấu (Sequence Tagged Sites/ STSs), trình tự từ khảo sát genome (Genome Survey Sequences/ GSSs) thường đăng ký vào ngân hang gene theo dạng loạt “batch” thường phần dự án xác định trình tự lớn genome cụ thể Những ghi trình tự (entries) đăng ký liên tục (streamlined submission process) trải qua trình xử lý trước đưa vào GenBank Các trình tự EST thường có kích thước tương đối ngắn (

Ngày đăng: 29/08/2016, 18:25

Xem thêm: Thực hành Tin sinh hoc ứng dụng(1 6), Thực hành Tin sinh hoc ứng dụng(1 6), CHƯƠNG 1. GIỚI THIỆU VỀ BIOINFORMATICS, Lưu trữ thông tin di truyền, TÌM KIẾM VÀ QUẢN LÝ TÀI LIỆU NGHIÊN CỨU, Hình 16. Kết quả tìm kiếm CSDL Pubmed, CHƯƠNG 4. CƠ SỞ DỮ LIỆU SINH HỌC, XÁC ĐỊNH TRÌNH TỰ VÀ ĐĂNG KÝ TRÌNH TỰ VÀO NGÂN HÀNG GENE (3 tiết), KHAI THÁC VÀ XỬ LÝ DỮ LIỆU TRÌNH TỰ SINH HỌC

Thực hành Tin sinh hoc ứng dụng(1 6)

Thông tin tài liệu

Từ khóa liên quan

Mục lục

PHẦN 1. GIỚI THIỆU CHUNG

CHƯƠNG 1. GIỚI THIỆU VỀ BIOINFORMATICS

1.1. Khái niệm

1.2. Nền tảng sinh học cho sự ra đời và phát triển của bioinformatics

1.3. Vai trò của bioinformatics trong nghiên cứu sinh học (2 tiết)

1.4. Nhiệm vụ và các hướng nghiên cứu của Bioinformatic

1.5. Xu hướng phát triển của bioinformatics

Tóm tắt chương 1

Câu hỏi ôn tập chương 1

CHƯƠNG 2

NỀN TẢNG SINH HỌC CỦA TIN SINH HỌC

Lưu trữ thông tin di truyền

2.3. Genome và nghiên cứu genome (genomics)

2.3.1. Genome

2.3.2. Nghiên cứu genome (genomic research)

2.3. Phát hiện gene và xác định chức năng gene trong genome

2.4. Hoạt động chức năng của gene và điều hòa hoạt động của gene

2.5. Proteome và lĩnh vực nghiên cứu protein (proteomics)

2.6. Tiến hóa và bản chất phân tử của quá trình tiến hóa ở các sinh vật

2.6.1. Đột biến và tích lũy đột biến

2.7. Phân tích mối quan hệ tiến hóa của các sinh vật

Tóm tắt chương 2

Câu hỏi ôn tập chương 2

Chương 3

TÌM KIẾM VÀ QUẢN LÝ TÀI LIỆU NGHIÊN CỨU

3.1. Phương pháp tìm kiếm thông tin

Tài liệu cùng người dùng

Tài liệu liên quan