Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

78 791 0
Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

B GIÁO DO I HC LC HNG * * *  C NGHIÊN CU PHÁT TRIN THUT TOÁN PHÂN CM CÁC TRÌNH T SINH HC DA TRÊN M NG Chuyên ngành : Công nghệ thông tin Luận văn thạc Công nghệ thông tin NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS. TS. TRẦN VĂN LĂNG Đồng Nai – Năm 2011 -i- LI C Lời đầu tiên tôi xin chân thành cám ơn đến PGS. TS. Trần Văn Lăng đã tận tình giúp đỡ tôi trong suốt thời gian học tập vừa qua, và hướng dẫn tôi hoàn thành đề tài này. Tôi chân thành cám ơn các thầy cô Khoa Công nghệ thông tin, nơi tôi công tác và nghiên cứu đã tạo điều kiện và hỗ trợ tôi trong suốt thời gian qua. Tôi cũng xin chân thành cám ơn người thân, bạn bè đã giúp đỡđộng viên tôi trong suốt thời gian học tập cũng như trong thời gian thực hiện luận văn. Chân thành cám ơn ! Biên Hòa, ngày 16 tháng 10 năm 2011 Trương Thị Đức -ii- TÓM TT So sánh trình tự nhằm tìm kiếm, phân loại trình tự chuỗi, gene vẫn là một bài toán lớn của sinh tin học (Bioinfomation). Phổ biết hiện nay là so sánh đa trình tự (MSA - Multiple Sequence Alignment). MSA đóng vai trò quan trọng trong sinh tin học nói chung và lĩnh vực tìm kiếm gene nói riêng. MSA là một bài toán NP và hoàn toàn chưa có giải pháp trọn vẹn để tìm lời giải tối ưu cho bài toán. Nhiều phương pháp được sử dụng và nhiều phần mềm đã được đưa ra nhằm giải quyết bài toàn khi tập dữ liệu đầu vào lớn. Với nguồn dự liệu sinh tin học phát triển nhanh như hiện nay, việc tìm kiếm các trình tự tương đồng mất nhiều thời gian. Luận văn trình bày phương pháp kết hợp hai thuật toán DBSCAN và thuật toán BLAST, áp dụng thuật toán DBSCAN (Density Based Spatial Clustering of Applications with Noise) trong việc phân cụm (gom nhóm) trình tự trong dữ liệu, tiến hành khai phá dữ liệu, từ đó đưa ra kết quả các nhóm trình tự có sự tương đồng với phạm vi khai phá giới hạn lại, bước tiếp theo dùng thuật toán BLAST tìm kiếm nhằm giúp gia tăng thời gian xử lý thông tin. Cấu trúc luận văn như sau, chương thứ nhất giới thiệu về vấn đề cần giải quyết, chương thứ hai trình bày các khái niệm sinh về sinh học phân tử, chương thứ ba giới thiệu các phương pháp sắp hàng trình tự, chương thứ 4 trình bày thuật toán DBSCAN, chương thứ 5 trình bày thuật toán BLAST, chương thứ 6 kết hợp thuật toán DBSCAN và thuật toán BLAST và chương kết luận. -iii-  LI C .i TÓM TT . ii  . iii DANH MC CÁC KÝ HIU, CH VIT TT vi DANH MC HÌNH . vii  TNG QUAN V SINH TIN HC 1 1.1. Tổng quan 1 1.2. Mục tiêu của luận văn . 12  KHÁI NIM TRONG SINH HC . 13 2.1. Amino acid và tính chất 13 2.2. DNA 15 2.3. RNA 16 2.4. Protein . 17 2.5. Chức năng của protein 19 2.6. Phân lớp cấu trúc protein 20 2.6.1. Cấu trúc bậc 1 . 20 2.6.2. Cấu trúc protein bậc 2 21 2.6.3. Cấu trúc protein bậc 3 27 2.6.4. Cấu trúc bậc 4 . 28  SP HÀNG TRÌNH T . 31 3.1. Định nghĩa . 31 3.2. Phân loại 31 3.2.1. Sắp hàng từng cặp (Pairwise Sequence Alignment-PSA) . 32 3.2.2. Sắp hàng đa trình tự (Multiple Sequence Alignment-MSA) 32 3.3. GAP . 33 3.4. Giá trị GAP . 34 3.5. Ma trận đánh giá 35 3.6. Phương pháp đánh giá . 38 -iv- 3.7. Một số phương pháp xếp hàng trình tự . 39 3.7.1. Phương pháp sắp hàng chính xác (Exact algorithms) 39 3.7.2. Phương pháp sắp hàng lũy tiến toàn cục (Progressive algorithms) . 39 3.7.3. Phương pháp sắp hàng lặp (Iterative algorithms) 40 3.7.4. Phương pháp dựa trên mô hình Makov ẩn (Hidden Markov Model-HMM) 40  THUT TOÁN DBSCAN 42 4.1. Tổng quan về thuật toán phân cụm . 42 4.2. Thuật toán gom nhóm . 43 4.3. Khái niệm dựa trên mật độ của các nhóm . 44 4.3.1. Định nghĩa . 44 4.3.2. Bổ đề 47 4.4. Thuật toán DBSCAN 47 4.5. Xác định thông số Eps and MinPts 49 4.6. Điểm mạnh của thuật toán 51  THUT TOÁN BLAST 52 5.1. Thuật toán Needleman & Wunsch 52 5.2. Thuật toán Smith- Waterman 55 5.3. Thuật toán BLAST 56 5.3.1. Các bước thực thi thuật toán BLAST 57 5.3.2. Các chương trình BLAST mở rộng . 58  THUT TOÁN KT HP . 60 6.1. Ý tưởng thuật toán . 60 6.2. Phương pháp . 60 6.2.1. Khoảng cách giữa hai trình tự 60 6.2.2. Đơn vị đo không đồng dạng giữa hai trình tự x và y 61 6.2.3. Thuật toán gom nhóm dựa theo mật độ 61 6.2.4. Thuật toán kết hợp 62 -v-  KT QU 64 7.1. Bài toán cần giải quyết 64 7.2. Cấu trúc mẫu trình tự 64 7.2.1. FASTA . 64 7.2.2. Dạng Genbank 65 7.3. Kết quả chương trình . 67 7.4. Kết luận . 69 7.5. Hướng phát triển . 69  -vi- DANH MC CÁC KÝ HIU, CH VIT TT A Adenine BLAST Basic Local Alignment Search Tool C Cytosine CSDL Cơ sở dữ liệu DBSCAN Density Based Spatial Clustering of Aplication with Noise DNA Deoxyribonucleic Acid G Guanine HMM Hidden Markov Model IST Information Society Technologies Programme IVDB Influenza Virus Database mRNA messenger RNA MSA Multiple Sequence Alignment MSA Multiple Sequence Alignment MSP Maximal Segment Pair NCBI National Center for Biotechnology Information PSA Pairwise Sequence Alignment RNA Ribonucleic Acid rRNA ribosomal RNA STREP Strategic Targeted Research Project T Thymine, Thymidine tRNA transfer RNA -vii- DANH MC HÌNH Hình 1.1: Dự án HapMap 4 Hình 1.2: Phòng thí nghiệm DIL . 5 Hình 1.3: Public Health Genetics Unit 6 Hình 1.4: Bioinformatics và Computation 7 Hình 1.5: Hệ thống thông tin virus cúm của NCBI . 8 Hình 1.6: Hệ thống thông tin virus cúm IVDB . 9 Hình 2.1: Cơ bản cấu trúc của một acid α-amino . 13 Hình 2.2: 20 amino acid 14 Hình 2.3: Sự khác biệt giữa đường của ADN và RNA . 16 Hình 2.4: Chuỗi xoắn đơn RNA 17 Hình 2.5: Hình thức của protein 18 Hình 2.6: Cấu trúc protein bậc 1 . 21 Hình 2.7: Cấu trúc protein bậc 2 . 22 Hình 2.8: Mô hình xoắn α . 23 Hình 2.9: Cấu trúc gấp nếp β 24 Hình 2.10: Siêu cấu trúc bậc 2 24 Hình 2.11: Domain 25 Hình 2.12: Cấu trúc bậc 3 của protein . 28 Hình 2.13: Cấu trúc bậc 4 của protein . 29 Hình 2.14: -a: Collagen – Một loại protein sợi . 29 Hình 2.14: -b: Haemoglobin – protein hình cầu . 30 Hình 2.14: -c: Bacteriorhodopsin – protein màng . 30 Hình 3.1: Cấu trúc một PSA . 32 Hình 3.2: So sánh đa trình tự . 32 Hình 3.3: Các loại GAP . 34 Hình 3.4: Giá trị của GAP . 35 Hình 3.5: Ma trận Blosum . 35 Hình 3.6: Tính score bằng ma trận đánh giá . 38 Hình 3.7: Phương pháp đánh giá Sum of Pair . 39 Hình 4.1: Đối tượng biên và đối tuợng lõi 44 Hình 4.2: Quan hệ tới được trực tiếp theo mật độ . 45 Hình 4.3: Quan hệ tới được theo mật độ . 46 Hình 4.4: Quan hệ kết nối theo mật độ . 46 Hình 4.5: Đồ thị sorted 4-dsit . 50 Hình 6.1: Lưu đồ kết hợp thuật toán BDSCAN và thuật toán BLAST 63 Hình 7.1: Giao diện công cụ tìm kiếm trình tự sinh học . 67 Hình 7.2: Giao diện chức năng tìm kiếm BLASTN 68 Hình 7.3: Giao diện công cụ hỗ trợ tìm kiếm virus cúm . 68 Hình 7.4: Kết quả tìm kiếm trình tựđộ tương đồng. 69 1  TNG QUAN V SINH TIN HC Chương này giới thiệu tổng quan về đề tài, trình bày một số công trình liên quan đến nội dung của luận vănmục tiêu của đề tài. 1.1.  Trong vài thập kỷ qua, sinh học phân tử đã có nhiều bước phát triển mạnh mẽ, một loạt các công cụ ứng dụng sinh học ra đời góp phần thúc đẩy quá trình giải mã một số lượng lớn trình tự bộ gen ở nhiều loài sinh vật. Sự phát triển mạnh mẽ của công nghệ sinh học đã giúp chúng ta giải mã bộ gen của virus cúm trong một thời gian ngắn với chi phí vừa phải. Một lượng lớn dữ liệu sinh học phân tử (các trình tự DNA/protein) của virus cúm đã được giải mã và lưu trữ ở các cơ sở dữ liệu dùng chung của thế giới như Trung tâm Thông tin về công nghệ sinh học Hoa Kỳ - NCBI (National Center for Biotechnology Infor- mation). NCBI hiện đang lưu giữ hơn 100.000 trình tự DNA/protein của virus cúm được thu thập và giải mã từ nhiều quốc gia trên thế giới trong suốt thời gian qua. Với một lượng dữ liệu khổng lồ đã được thu thập, việc xây dựng các hệ thống thông tin, xây dựng các công cụ tìm kiếm và phân tích dữ liệu đang được phát triển mạnh mẽ trên thế giới. Qua đó giúp chúng ta hiểu được cơ chế lây nhiêm, tạo ra vắc-xin mới, theo dõi và kiểm soát dịch bệnh. Sinh tin học là một ngành khoa học mà trong đó có sự kết hợp giữa sinh học, khoa học máy tính và công nghệ thông tin. Sinh tin học sử dụng các thuật toán phân tích tối ưu xử lý dữ liệu sinh học thông qua các thiết bị phần cứng và hệ thống mạng. Trên thế giới, đã có nhiều phần mềm để xử lý các trình tự sinh học DNA và protein như: Phần mềm PC-genes, Discovery Studio gene, DNASIS, DNAMAN, VECTOR NTI, AnnHyb, DNA Club, Plasmid Processor, Oligos, v.v… Những phần mềm này có một số chức năng:  Chuyển mã trình tự DNA sang RNA,  Hiển thị cặp trình tự chính và trình tự bắt cặp. 2  Tìm vị trí của một enzyme giới hạn trong một trình tự.  Vẽ bản đồ plasmid, hỗ trợ thiết kế phân tử  Tìm kiếm các đoạn mồi (primer)  So sánh mức độ tương đồng (similarity) giữa các trình tự  Vẽ cây biểu diễn mức độ tương đồng giữa các trình tự (biểu đồ den- dogram)  Tìm kiếm các trình tự, các đoạn lặp (motif), các enzyme trong cơ sở dữ liệu Ở Châu Âu đang triển khai dự án DataMiningGrid từ năm 2004-2006, đó là Strategic Targeted Research Project (STREP) của Information Society Technolo- gies Programme (IST). Trong nước, sự đóng góp của các nhà sinh học cũng khá phong phú như: Viện Công nghệ Sinh học thuộc Viện Khoa học và Công nghệ Việt Nam, Phòng Kỹ thuật di truyền, Phòng Công nghệ ADN ứng dụng, Phòng Hoá sinh protein, Phòng Vi sinh vật học phân tử, Viện Sinh học Nhiệt đới, khoa sinh học phân tử của Trường Đại học Khoa học tự nhiên đã có rất nhiều thành tựu. Tuy nhiên, sự đóng góp của các nhà tin học vào lĩnh vực này còn khá khiêm tốn. Cũng đã có nhiều nhóm nghiên cứu xây dựng trang web, phần mềm để xử lý và hiển thị thông tin sinh học. Chẳng hạn như nhóm nghiên cứu của Trung tâm Phát triển Công nghệ thông tin, Đại Học Quốc Gia do GS. Hoàng Văn Kiếm chủ trì; nhóm của GS. Hồ Bảo (http://www.tinsinhhoc.org); nhóm của Phân Viện Công nghệ thông tin tại TPHCM (Nay là Viện Cơ học và Tin học ứng dụng), do PGS Trần Văn Lăng chủ trì (http://bio.ioit-hcm.ac.vn, http://biogrid.ioit-hcm.ac.vn). Tuy kết quả còn hạn chế nhưng đây là một đóng góp đáng kể cho ngành sinh tin học đang mới hình thành ở Việt Nam. Trong thời gian gần đây có nhóm của PGS. Từ Minh Phương, Học viện Công nghệ Bưu chính Viễn thông; của TS. Lê Sỹ Vinh, TS. Hoàng Xuân Huấn, Trường Đại học Công nghệ, Đại học quốc gia Hà Nội; của TS. Trần Đăng Hưng, Trường Đại học Sư phạm Hà Nội cũng đã có những công trình nghiên cứu

Ngày đăng: 18/12/2013, 14:28

Hình ảnh liên quan

Hình 1.1: Dự án HapMap - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 1.1.

Dự án HapMap Xem tại trang 12 của tài liệu.
Hình 1.2: Phòng thí nghiệm DIL - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 1.2.

Phòng thí nghiệm DIL Xem tại trang 13 của tài liệu.
Hình 1.3: Public Health Genetics Unit - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 1.3.

Public Health Genetics Unit Xem tại trang 14 của tài liệu.
Hình 1.5: Hệ thống thông tin virus cúm của NCBI Ở châu Á, viện nghiên cứu genome Bắc Kinh, Trung Quốc, xây dựng cơ sở  dữ  liệu  virus  cúm  IVDB  (http://influenza.psych.ac.cn/  ) - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 1.5.

Hệ thống thông tin virus cúm của NCBI Ở châu Á, viện nghiên cứu genome Bắc Kinh, Trung Quốc, xây dựng cơ sở dữ liệu virus cúm IVDB (http://influenza.psych.ac.cn/ ) Xem tại trang 16 của tài liệu.
Hình 1.6: Hệ thống thông tin virus cúm IVDB - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 1.6.

Hệ thống thông tin virus cúm IVDB Xem tại trang 17 của tài liệu.
hình 2.1 là một trong các nhóm amino (nhóm R) và chức năng carboxylate được gắn vào cùng một nguyên tử cacbon, được gọi là α-carbon - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

hình 2.1.

là một trong các nhóm amino (nhóm R) và chức năng carboxylate được gắn vào cùng một nguyên tử cacbon, được gọi là α-carbon Xem tại trang 21 của tài liệu.
Hình 2.2: 20 amino acid - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 2.2.

20 amino acid Xem tại trang 22 của tài liệu.
Hình 2.4: Chuỗi xoắn đơn RNA - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 2.4.

Chuỗi xoắn đơn RNA Xem tại trang 25 của tài liệu.
Hình 2.5: Hình thức của protein - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 2.5.

Hình thức của protein Xem tại trang 26 của tài liệu.
Hình 2.6: Cấu trúc protein bậc 1 - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 2.6.

Cấu trúc protein bậc 1 Xem tại trang 29 của tài liệu.
Hình 2.7: Cấu trúc protein bậc 2  Cấu trúc xoắ  α - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 2.7.

Cấu trúc protein bậc 2  Cấu trúc xoắ α Xem tại trang 30 của tài liệu.
Hình 2.8: Mô hình xoắn α - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 2.8.

Mô hình xoắn α Xem tại trang 31 của tài liệu.
Hình 2.9: Cấu trúc gấp nếp β - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 2.9.

Cấu trúc gấp nếp β Xem tại trang 32 của tài liệu.
- Beta-meander: Một sheet đối xong được hình thành bởi một số đường cong đảo ngược, để kết nối các mạch polypeptide thẳng - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

eta.

meander: Một sheet đối xong được hình thành bởi một số đường cong đảo ngược, để kết nối các mạch polypeptide thẳng Xem tại trang 33 của tài liệu.
Hình 2.12: Cấu trúc bậc 3 của protein - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 2.12.

Cấu trúc bậc 3 của protein Xem tại trang 36 của tài liệu.
Hình 2.13: Cấu trúc bậc 4 của protein - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 2.13.

Cấu trúc bậc 4 của protein Xem tại trang 37 của tài liệu.
Hình 3.1: Cấu trúc một PSA - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 3.1.

Cấu trúc một PSA Xem tại trang 40 của tài liệu.
Hình 3.4: Giá trị của GAP - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 3.4.

Giá trị của GAP Xem tại trang 43 của tài liệu.
Hình 3.6: Tính score bằng ma trận đánh giá - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 3.6.

Tính score bằng ma trận đánh giá Xem tại trang 46 của tài liệu.
Hình 3.7: Phương pháp đánh giá Sum of Pair - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 3.7.

Phương pháp đánh giá Sum of Pair Xem tại trang 47 của tài liệu.
Hình 4.1: Đối tượng biên và đối tuợng lõi - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 4.1.

Đối tượng biên và đối tuợng lõi Xem tại trang 51 của tài liệu.
Hình 4.3: Quan hệ tới được theo mật độ - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 4.3.

Quan hệ tới được theo mật độ Xem tại trang 53 của tài liệu.
Hình 4.4: Quan hệ kết nối theo mật độ - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 4.4.

Quan hệ kết nối theo mật độ Xem tại trang 53 của tài liệu.
Hình 4.5: Đồ thị sorted 4-dsit - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 4.5.

Đồ thị sorted 4-dsit Xem tại trang 57 của tài liệu.
Hình 6.1: Lưu đồ kết hợp thuật toán BDSCAN và thuật toán BLAST  - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 6.1.

Lưu đồ kết hợp thuật toán BDSCAN và thuật toán BLAST Xem tại trang 70 của tài liệu.
Hình 7.1: Giao diện công cụ tìm kiếm trình tự sinh học - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 7.1.

Giao diện công cụ tìm kiếm trình tự sinh học Xem tại trang 74 của tài liệu.
121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagac- gcaagac-caa  - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

121.

ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagac- gcaagac-caa Xem tại trang 74 của tài liệu.
Hình 7.2: Giao diện chức năng tìm kiếm BLASTN - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 7.2.

Giao diện chức năng tìm kiếm BLASTN Xem tại trang 75 của tài liệu.
Hình 7.4: Kết quả tìm kiếm trình tự có độ tương đồng. - Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ

Hình 7.4.

Kết quả tìm kiếm trình tự có độ tương đồng Xem tại trang 76 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan