Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Thông tin tài liệu

B GIÁO DO I HC LC HNG * * *  C NGHIÊN CU PHÁT TRIN THUT TOÁN PHÂN CM CÁC TRÌNH T SINH HC DA TRÊN M NG Chuyên ngành : Công nghệ thông tin Luận văn thạc sĩ Công nghệ thông tin NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS. TS. TRẦN VĂN LĂNG Đồng Nai – Năm 2011 -i- LI C Lời đầu tiên tôi xin chân thành cám ơn đến PGS. TS. Trần Văn Lăng đã tận tình giúp đỡ tôi trong suốt thời gian học tập vừa qua, và hướng dẫn tôi hoàn thành đề tài này. Tôi chân thành cám ơn các thầy cô Khoa Công nghệ thông tin, nơi tôi công tác và nghiên cứu đã tạo điều kiện và hỗ trợ tôi trong suốt thời gian qua. Tôi cũng xin chân thành cám ơn người thân, bạn bè đã giúp đỡ và động viên tôi trong suốt thời gian học tập cũng như trong thời gian thực hiện luận văn. Chân thành cám ơn ! Biên Hòa, ngày 16 tháng 10 năm 2011 Trương Thị Đức -ii- TÓM TT So sánh trình tự nhằm tìm kiếm, phân loại trình tự chuỗi, gene vẫn là một bài toán lớn của sinh tin học (Bioinfomation). Phổ biết hiện nay là so sánh đa trình tự (MSA - Multiple Sequence Alignment). MSA đóng vai trò quan trọng trong sinh tin học nói chung và lĩnh vực tìm kiếm gene nói riêng. MSA là một bài toán NP và hoàn toàn chưa có giải pháp trọn vẹn để tìm lời giải tối ưu cho bài toán. Nhiều phương pháp được sử dụng và nhiều phần mềm đã được đưa ra nhằm giải quyết bài toàn khi tập dữ liệu đầu vào lớn. Với nguồn dự liệu sinh tin học phát triển nhanh như hiện nay, việc tìm kiếm các trình tự tương đồng mất nhiều thời gian. Luận văn trình bày phương pháp kết hợp hai thuật toán DBSCAN và thuật toán BLAST, áp dụng thuật toán DBSCAN (Density Based Spatial Clustering of Applications with Noise) trong việc phân cụm (gom nhóm) trình tự trong dữ liệu, tiến hành khai phá dữ liệu, từ đó đưa ra kết quả các nhóm trình tự có sự tương đồng với phạm vi khai phá giới hạn lại, bước tiếp theo dùng thuật toán BLAST tìm kiếm nhằm giúp gia tăng thời gian xử lý thông tin. Cấu trúc luận văn như sau, chương thứ nhất giới thiệu về vấn đề cần giải quyết, chương thứ hai trình bày các khái niệm sinh về sinh học phân tử, chương thứ ba giới thiệu các phương pháp sắp hàng trình tự, chương thứ 4 trình bày thuật toán DBSCAN, chương thứ 5 trình bày thuật toán BLAST, chương thứ 6 kết hợp thuật toán DBSCAN và thuật toán BLAST và chương kết luận. -iii-  LI C .i TÓM TT . ii  . iii DANH MC CÁC KÝ HIU, CH VIT TT vi DANH MC HÌNH . vii  TNG QUAN V SINH TIN HC 1 1.1. Tổng quan 1 1.2. Mục tiêu của luận văn . 12  KHÁI NIM TRONG SINH HC . 13 2.1. Amino acid và tính chất 13 2.2. DNA 15 2.3. RNA 16 2.4. Protein . 17 2.5. Chức năng của protein 19 2.6. Phân lớp cấu trúc protein 20 2.6.1. Cấu trúc bậc 1 . 20 2.6.2. Cấu trúc protein bậc 2 21 2.6.3. Cấu trúc protein bậc 3 27 2.6.4. Cấu trúc bậc 4 . 28  SP HÀNG TRÌNH T . 31 3.1. Định nghĩa . 31 3.2. Phân loại 31 3.2.1. Sắp hàng từng cặp (Pairwise Sequence Alignment-PSA) . 32 3.2.2. Sắp hàng đa trình tự (Multiple Sequence Alignment-MSA) 32 3.3. GAP . 33 3.4. Giá trị GAP . 34 3.5. Ma trận đánh giá 35 3.6. Phương pháp đánh giá . 38 -iv- 3.7. Một số phương pháp xếp hàng trình tự . 39 3.7.1. Phương pháp sắp hàng chính xác (Exact algorithms) 39 3.7.2. Phương pháp sắp hàng lũy tiến toàn cục (Progressive algorithms) . 39 3.7.3. Phương pháp sắp hàng lặp (Iterative algorithms) 40 3.7.4. Phương pháp dựa trên mô hình Makov ẩn (Hidden Markov Model-HMM) 40  THUT TOÁN DBSCAN 42 4.1. Tổng quan về thuật toán phân cụm . 42 4.2. Thuật toán gom nhóm . 43 4.3. Khái niệm dựa trên mật độ của các nhóm . 44 4.3.1. Định nghĩa . 44 4.3.2. Bổ đề 47 4.4. Thuật toán DBSCAN 47 4.5. Xác định thông số Eps and MinPts 49 4.6. Điểm mạnh của thuật toán 51  THUT TOÁN BLAST 52 5.1. Thuật toán Needleman & Wunsch 52 5.2. Thuật toán Smith- Waterman 55 5.3. Thuật toán BLAST 56 5.3.1. Các bước thực thi thuật toán BLAST 57 5.3.2. Các chương trình BLAST mở rộng . 58  THUT TOÁN KT HP . 60 6.1. Ý tưởng thuật toán . 60 6.2. Phương pháp . 60 6.2.1. Khoảng cách giữa hai trình tự 60 6.2.2. Đơn vị đo không đồng dạng giữa hai trình tự x và y 61 6.2.3. Thuật toán gom nhóm dựa theo mật độ 61 6.2.4. Thuật toán kết hợp 62 -v-  KT QU 64 7.1. Bài toán cần giải quyết 64 7.2. Cấu trúc mẫu trình tự 64 7.2.1. FASTA . 64 7.2.2. Dạng Genbank 65 7.3. Kết quả chương trình . 67 7.4. Kết luận . 69 7.5. Hướng phát triển . 69  -vi- DANH MC CÁC KÝ HIU, CH VIT TT A Adenine BLAST Basic Local Alignment Search Tool C Cytosine CSDL Cơ sở dữ liệu DBSCAN Density Based Spatial Clustering of Aplication with Noise DNA Deoxyribonucleic Acid G Guanine HMM Hidden Markov Model IST Information Society Technologies Programme IVDB Influenza Virus Database mRNA messenger RNA MSA Multiple Sequence Alignment MSA Multiple Sequence Alignment MSP Maximal Segment Pair NCBI National Center for Biotechnology Information PSA Pairwise Sequence Alignment RNA Ribonucleic Acid rRNA ribosomal RNA STREP Strategic Targeted Research Project T Thymine, Thymidine tRNA transfer RNA -vii- DANH MC HÌNH Hình 1.1: Dự án HapMap 4 Hình 1.2: Phòng thí nghiệm DIL . 5 Hình 1.3: Public Health Genetics Unit 6 Hình 1.4: Bioinformatics và Computation 7 Hình 1.5: Hệ thống thông tin virus cúm của NCBI . 8 Hình 1.6: Hệ thống thông tin virus cúm IVDB . 9 Hình 2.1: Cơ bản cấu trúc của một acid α-amino . 13 Hình 2.2: 20 amino acid 14 Hình 2.3: Sự khác biệt giữa đường của ADN và RNA . 16 Hình 2.4: Chuỗi xoắn đơn RNA 17 Hình 2.5: Hình thức của protein 18 Hình 2.6: Cấu trúc protein bậc 1 . 21 Hình 2.7: Cấu trúc protein bậc 2 . 22 Hình 2.8: Mô hình xoắn α . 23 Hình 2.9: Cấu trúc gấp nếp β 24 Hình 2.10: Siêu cấu trúc bậc 2 24 Hình 2.11: Domain 25 Hình 2.12: Cấu trúc bậc 3 của protein . 28 Hình 2.13: Cấu trúc bậc 4 của protein . 29 Hình 2.14: -a: Collagen – Một loại protein sợi . 29 Hình 2.14: -b: Haemoglobin – protein hình cầu . 30 Hình 2.14: -c: Bacteriorhodopsin – protein màng . 30 Hình 3.1: Cấu trúc một PSA . 32 Hình 3.2: So sánh đa trình tự . 32 Hình 3.3: Các loại GAP . 34 Hình 3.4: Giá trị của GAP . 35 Hình 3.5: Ma trận Blosum . 35 Hình 3.6: Tính score bằng ma trận đánh giá . 38 Hình 3.7: Phương pháp đánh giá Sum of Pair . 39 Hình 4.1: Đối tượng biên và đối tuợng lõi 44 Hình 4.2: Quan hệ tới được trực tiếp theo mật độ . 45 Hình 4.3: Quan hệ tới được theo mật độ . 46 Hình 4.4: Quan hệ kết nối theo mật độ . 46 Hình 4.5: Đồ thị sorted 4-dsit . 50 Hình 6.1: Lưu đồ kết hợp thuật toán BDSCAN và thuật toán BLAST 63 Hình 7.1: Giao diện công cụ tìm kiếm trình tự sinh học . 67 Hình 7.2: Giao diện chức năng tìm kiếm BLASTN 68 Hình 7.3: Giao diện công cụ hỗ trợ tìm kiếm virus cúm . 68 Hình 7.4: Kết quả tìm kiếm trình tự có độ tương đồng. 69 1  TNG QUAN V SINH TIN HC Chương này giới thiệu tổng quan về đề tài, trình bày một số công trình liên quan đến nội dung của luận văn và mục tiêu của đề tài. 1.1.  Trong vài thập kỷ qua, sinh học phân tử đã có nhiều bước phát triển mạnh mẽ, một loạt các công cụ ứng dụng sinh học ra đời góp phần thúc đẩy quá trình giải mã một số lượng lớn trình tự bộ gen ở nhiều loài sinh vật. Sự phát triển mạnh mẽ của công nghệ sinh học đã giúp chúng ta giải mã bộ gen của virus cúm trong một thời gian ngắn với chi phí vừa phải. Một lượng lớn dữ liệu sinh học phân tử (các trình tự DNA/protein) của virus cúm đã được giải mã và lưu trữ ở các cơ sở dữ liệu dùng chung của thế giới như Trung tâm Thông tin về công nghệ sinh học Hoa Kỳ - NCBI (National Center for Biotechnology Infor- mation). NCBI hiện đang lưu giữ hơn 100.000 trình tự DNA/protein của virus cúm được thu thập và giải mã từ nhiều quốc gia trên thế giới trong suốt thời gian qua. Với một lượng dữ liệu khổng lồ đã được thu thập, việc xây dựng các hệ thống thông tin, xây dựng các công cụ tìm kiếm và phân tích dữ liệu đang được phát triển mạnh mẽ trên thế giới. Qua đó giúp chúng ta hiểu được cơ chế lây nhiêm, tạo ra vắc-xin mới, theo dõi và kiểm soát dịch bệnh. Sinh tin học là một ngành khoa học mà trong đó có sự kết hợp giữa sinh học, khoa học máy tính và công nghệ thông tin. Sinh tin học sử dụng các thuật toán phân tích tối ưu xử lý dữ liệu sinh học thông qua các thiết bị phần cứng và hệ thống mạng. Trên thế giới, đã có nhiều phần mềm để xử lý các trình tự sinh học DNA và protein như: Phần mềm PC-genes, Discovery Studio gene, DNASIS, DNAMAN, VECTOR NTI, AnnHyb, DNA Club, Plasmid Processor, Oligos, v.v… Những phần mềm này có một số chức năng:  Chuyển mã trình tự DNA sang RNA,  Hiển thị cặp trình tự chính và trình tự bắt cặp. 2  Tìm vị trí của một enzyme giới hạn trong một trình tự.  Vẽ bản đồ plasmid, hỗ trợ thiết kế phân tử  Tìm kiếm các đoạn mồi (primer)  So sánh mức độ tương đồng (similarity) giữa các trình tự  Vẽ cây biểu diễn mức độ tương đồng giữa các trình tự (biểu đồ den- dogram)  Tìm kiếm các trình tự, các đoạn lặp (motif), các enzyme trong cơ sở dữ liệu Ở Châu Âu đang triển khai dự án DataMiningGrid từ năm 2004-2006, đó là Strategic Targeted Research Project (STREP) của Information Society Technolo- gies Programme (IST). Trong nước, sự đóng góp của các nhà sinh học cũng khá phong phú như: Viện Công nghệ Sinh học thuộc Viện Khoa học và Công nghệ Việt Nam, Phòng Kỹ thuật di truyền, Phòng Công nghệ ADN ứng dụng, Phòng Hoá sinh protein, Phòng Vi sinh vật học phân tử, Viện Sinh học Nhiệt đới, khoa sinh học phân tử của Trường Đại học Khoa học tự nhiên đã có rất nhiều thành tựu. Tuy nhiên, sự đóng góp của các nhà tin học vào lĩnh vực này còn khá khiêm tốn. Cũng đã có nhiều nhóm nghiên cứu xây dựng trang web, phần mềm để xử lý và hiển thị thông tin sinh học. Chẳng hạn như nhóm nghiên cứu của Trung tâm Phát triển Công nghệ thông tin, Đại Học Quốc Gia do GS. Hoàng Văn Kiếm chủ trì; nhóm của GS. Hồ Tú Bảo (http://www.tinsinhhoc.org); nhóm của Phân Viện Công nghệ thông tin tại TPHCM (Nay là Viện Cơ học và Tin học ứng dụng), do PGS Trần Văn Lăng chủ trì (http://bio.ioit-hcm.ac.vn, http://biogrid.ioit-hcm.ac.vn). Tuy kết quả còn hạn chế nhưng đây là một đóng góp đáng kể cho ngành sinh tin học đang mới hình thành ở Việt Nam. Trong thời gian gần đây có nhóm của PGS. Từ Minh Phương, Học viện Công nghệ Bưu chính Viễn thông; của TS. Lê Sỹ Vinh, TS. Hoàng Xuân Huấn, Trường Đại học Công nghệ, Đại học quốc gia Hà Nội; của TS. Trần Đăng Hưng, Trường Đại học Sư phạm Hà Nội cũng đã có những công trình nghiên cứu

Ngày đăng: 18/12/2013, 14:28

Xem thêm: Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ , Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ