phát hiện các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới

81 593 0
phát hiện các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN VĂN THÀNH PHÁT HIỆN CÁC ĐỘT BIẾN ĐẢO ĐOẠN TRONG HỆ GEN GIẢI MÃ TỪ THIẾT BỊ ĐỌC TRÌNH TỰ THẾ HỆ MỚI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên – 2014 2 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ LỜI CAM ĐOAN Tôi xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của cá nhân, đƣợc thực hiện dƣới sự hƣớng dẫn khoa học của Tiến sĩ Nguyễn Cường. Các số liệu, những kết luận nghiên cứu đƣợc trình bày trong luận văn này trung thực và chƣa từng đƣợc công bố dƣới bất cứ hình thức nào. Tôi xin chịu trách nhiệm về nghiên cứu của mình. Học viên Nguyễn Văn Thành 3 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ LỜI CÁM ƠN Lời đầu tiên, tôi xin chân thành cám ơn Tiến sĩ Nguyễn Cường nguời đã trực tiếp huớng dẫn tôi hoàn thành luận văn. Với những lời chỉ dẫn, những tài liệu, sự tận tình hƣớng dẫn và những lời động viên của Thầy đã giúp tôi vƣợt qua nhiều khó khăn trong quá trình thực hiện luận văn này. Tôi cũng xin cám ơn quý Thầy (Cô) giảng dạy chƣơng trình cao học “Khoa học máy tính” đã truyền dạy những kiến thức quý báu, những kiến thức này rất hữu ích và giúp tôi nhiều khi thực hiện nghiên cứu. Xin cám ơn các quý Thầy (Cô) công tác tại Trƣờng Đại học Công nghệ thông tin và truyền thông – Đại học Thái Nguyên đã tạo điều kiện cho tôi đƣợc tham gia và hoàn thành khóa học. Tôi xin chân thành cám ơn. Học viên Nguyễn Văn Thành 4 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ MỤC LỤC LỜI CAM ĐOAN 1 LỜI CÁM ƠN 3 MỤC LỤC 4 DANH MỤC CÁC HÌNH ẢNH 6 DANH MỤC CÁC BẢNG BIỂU 7 DANH MỤC CÁC TỪ VIẾT TẮT-THUẬT NGỮ 8 PHẦN MỞ ĐẦU 9 Chƣơng 1.TỔNG QUAN VỀ TIN SINH HỌC VÀ BÀI TOÁN PHÁT HIỆN ĐỘT BIẾN ĐẢO ĐOẠN 11 1.1 - Tổng quan về Tin sinh học 11 1.2 – Cơ sở lý thuyết bài toán đột biến đảo đoạn 12 1.2.1 - Gen và đột biến cấu trúc hệ gen 12 1.2.2 - Phƣơng pháp phát hiện sự biến đổi cấu trúc trong bản đồ gen 15 1.2.3 - Định dạng cơ sở dữ liệu 23 1.2.3 - Bài toán đột biến đảo đoạn 27 1.3 - Các công cụ giải quyết bài toán đảo đoạn 33 1.3.1 - Chƣơng trình Wgsim 33 1.3.2 - Chƣơng trình TMAP 33 1.3.3 - Chƣơng trình BWA và Bowtie. 33 Chƣơng 2. MỘT SỐ THUẬT TOÁN PHÁT HIỆN ĐỘT BIẾN 34 2.1 - Thuật toán ma trận điểm 35 2.2 - Thuật toán Blast 37 5 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 2.3 - Thuật toán lai GA-SA 42 2.4 - Thuật toán Needleman – Wunsch 45 2.5 - Thuật toán Smith-Waterman 49 Chƣơng 3. CÀI ĐẶT THUẬT TOÁN VÀ ĐÁNH GIÁ KẾT QUẢ 56 3.1 - Ánh xạ các đoạn trình tự. 57 3.2 - Xử lý SAM và khởi tạo điểm dừng khả dĩ. 58 3.3 - Lọc và hoàn thiện điểm dừng. 61 3.4 - Mô phỏng dữ liệu và thống kê kết quả ánh xạ. 64 3.5 - Đánh giá kết quả phân tích. 68 3.6 - So sánh với các phƣơng pháp hiện tại. 74 3.7 - Những hạn chế và cách khắc phục 76 KẾT LUẬN 78 TÀI LIỆU THAM KHẢO 80 6 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ DANH MỤC CÁC HÌNH ẢNH Hình 1.1: Trong mỗi tế bào có một nhân chính giữa. 13 Hình 1.2: Gen đƣợc cấu tạo từ DNA. Mỗi NST có nhiều gen 13 Hình 1.3: Cấu trúc một phần của gen 13 Hình 1.4: Đột biến đảo đoạn trong hệ gen. 15 Hình 1.5: Các giai đoạn của đọc trình tự thế hệ mới 22 Hình 1.6: Định dạng SAM 25 Hình 1.7: Bản sao - số biến thể ( CNVs) 28 Hình 1.8: Đồ thị gia tăng CNV và InDel đã thêm vào CSDL từ năm 2002 28 Hình 1.9: Đồ thị sự phân phối kích thƣớc CNVs trong cơ sở dữ liệu 29 Hình 1.10: Phần lớn sự đảo đoạn đến nay có cỡ 10 đến 100kb 30 Hình 2.1: Ma trận thay thế BLOSUM 40 Hình 2.2: Ma trận thay thế PAM 40 Hình 3.1: Sự gióng hàng của quá trình ánh xạ r1, r2 trên vùng đảo ngƣợc 57 Hình 3.2: Những vùng đƣợc lựa chọn dựa vào điểm dừng trái và phải 62 Hình 3.4: Số lƣợng đảo đoạn trong các NST khác nhau 65 Hình 3.5: Phân phối kích thƣớc của 90 đảo đoạn 65 Hình 3.6: Tổng số trình tự của ánh xạ bởi Map1 và Map2 đọc lý tƣởng. 67 Hình 3.7: Tổng số trình tự của ánh xạ bởi Map1 và Map2 cho trình tự lỗi. 67 Hình 3.8: Những giá trị dƣơng tính giả trong pha thứ 1 và pha thứ 2 72 Hình 3.9: Tính nhạy cảm ở pha 1 và pha 2. 73 Hình 3.10: Dự đoán giá trị dƣơng tính giả ở pha 1 và pha 2. 73 Hình 3.11: Tính nhạy cảm ở pha 1 và pha 2 cho trình tự có lỗi. 74 Hình 3.12: PPV ở pha 1 và pha 2 cho trình tự có lỗi. 74 7 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Hình 3.13: So sánh Inverse Variant vớiBreakDancer dựa vào điểm dừng. 76 Hình 3.15: So sánh Inverse Variant với BreakDancer dựa vào tính nhạy cảm, PPV và F- Score 76 DANH MỤC CÁC BẢNG BIỂU Bảng 1.1: Các thẻ định danh trong SAM 25 Bảng 1.2: Định nghĩa cờ đảo bit trong SAM 25 Bảng 1.3: Mô tả chuỗi CIGAR 26 Bảng 1.4 Bảng cho thấy CNVs và đảo đoạn 28 Bảng 3.1: Những tham số đƣợc đặt mô phỏng cho các đoạn trình tự có lỗi. 66 Bảng 3.2: Kết quả của Inverse Variant ở trình tự lý tƣởng có độ dài 100bp 69 Bảng 3.3: Kết quả của Inverse Variant ở trình tự lý tƣởng có độ dài 200bp 69 Bảng 3.4: Kết quả của Inverse Variant ở trình tự lý tƣởng có độ dài 400bp 69 Bảng 3.5: Kết quả của Inverse Variant ở trình tự lý tƣởng với độ bao phủ 10X 70 Bảng 3.6: Kết quả của Inverse Variant ở trình tự lỗi với độ bao phủ là 10X 70 Bảng 3.7: Bảng so sánh InverseVariantvới BreakDancer. 75 8 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ DANH MỤC CÁC TỪ VIẾT TẮT-THUẬT NGỮ STT Từ viết tắt/thuật ngữ Nghĩa/Mô tả 1 DNA Deoxyribo Ducleic Acid 2 BP Base Pair 3 GB Giga Base Pair 4 NST Nhiễm sắc thể 5 DNA senquencing Đọc trình tự DNA 6 HGP Dự án hệ giải trình tự hệ gen con ngƣời 7 Nucleotide Là các trình tự A,T,G,C 8 SBS Đọc trình tự bằng sợ tổng hợp 9 SBL Đọc trình tự gắn nối 10 PCR Kỹ thuật khuếch đại gen 11 Nanowell Giếng nano 12 CGIAR Chuỗi thể hiện số base đƣợc ánh xạ/mất/thêm so với tham chiếu 13 SNP Đa hình đơn điểm/đơn nucleotide 14 CNV Bản sao số biến thể 15 InDel Vị trí thể hiện sự chèn hoặc xóa trong gen 16 BWA (hoặc Bowtie) Công cụ ánh xạ trình tự với dữ liệu tham chiếu 17 TMAP Chƣơng trình để xây dựng bản đồ di truyền 18 Wgsim Công cụ mô phỏng các đoạn trình tự ngắn từ dữ liệu hệ gen tham chiếu 19 Single end reads Phƣơng pháp đọc trình tự theo chiều đơn 20 PPV Dự đoán dƣơng tính giả 21 Hg19 Trình tự hệ gen ngƣời phiên bản 19 22 MAQ Phần mềm lập bản đồ cho các trình tự ngẵn từ máy đọc trình tự thế hệ mới 9 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ PHẦN MỞ ĐẦU Trong nghiên cứu về sinh học hiện đại có nhiều công nghệ và giải pháp đƣợc ứng dụng để phân tích, tổng hợp dữ liệu về cấu trúc và trình tự hệ gen của các loài sinh vật. Việc phân tích và tổng hợp bộ dữ liệu này yêu cầu một hệ thống cấu trúc lƣu trữ đáp ứng đủ tính chất về độ phức tạp và độ lớn của bộ dữ liệu kết quả. Các thiết bị đọc trình tự gen đƣợc ra đời để giải quyết các vấn đề nêu trên. Các thiết bị đọc trình tự gen là những công cụ xác định thứ tự các nucleotide gắn kết với nhau dọc theo chiều dài của gen và trình tự gắn kết nhau của các nucleotide đƣợc gọi là trình tự gen. Trong đó, đọc trình tự thế hệ mới là một bƣớc tiến vƣợt bậc về công nghệ đọc trình tự, từ khả năng đọc trình tự đoạn ngắn 1500bp (Sanger) hay 100 bp (pyrosequencing) của các thiết bị đọc trình tự trƣớc đó, đọc trình tự thế hệ mới cho phép đọc đƣợc từ 8gb đến 600gb, có nghĩa là cho phép đọc trình tự nguyên bộ gen của bất kỳ loài sinh vật nào. Với mong muốn hiểu chi tiết về cấu trúc gen các nhà nghiêncứu sinh học luôn muốn đọc trình tự hoàn chỉnh các gen của tất cả các loài sinh vât trong tự nhiên, bao gồm cả hệ gen của con ngƣời và toàn bộ trình tự gen khác của nhiều động, thực vật, vi sinh vật, đồng thời qua việc nghiên cứu đó có thể phát hiện ra những đột biến cấu trúc trong hệ gen đƣợc giải mã. Đặc biệt là dạng đột biến đảo đoạn, loại đột biến này ít gây ảnh hƣởng đến sức sống của cá thể, nhƣng nógóp phần lớn tăng cƣờng sự sai khác giữa các nhiễm sắc thể (NST) tƣơng đồng điều này dẫn đến tăng sự đa dạng giữa các thứ,các nòi trong cùng một nòi, ít ảnh hƣởng tới sức sống của cá thểvà trong đó sự sắp xếp lại hệ gen trên NST do đột biến đảo đoạn góp phần tạo sự đa dạng trong tự nhiên. Đối với con ngƣời việc đọc trình tự hệ gen rất quan trọng, nó góp phần trong việc nghiên cứu sinh học cơ bản và trong nhiều lĩnh vực ứng dụng nhƣ chẩn đoán bệnh tật, công nghệ sinh học, sinh học pháp y, sinh học hệ thống Nhận thấy tính thiết thực của vấn đề và với sự 10 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ định hƣớng của giáo viên hƣớng dẫn, học viên đã chọn đề tài “Phát hiện các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới” để làm rõ các vấn đề đã nêu trên. Đối tƣợng và phạm vi nghiên cứu  Kiến trúc về các thành phần và các đột biến cấu trúc trong hệ gen.  Ứng dụng thiết bị đọc trình tự thế hệ mới trong công nghệ sinh học.  Phƣơng pháp phát hiện các đột biến đảo đoạn khi sử dụng các thiết bị đọc trình tự thế hệ mới để giải mã. Hƣớng nghiên cứu của đề tài  Nghiên cứu, tìm hiểu mô hình, cách làm việc và giải mã hệ gen từ thiết bị đọc trình tự thế hệ mới.  Nghiên cứu cấu trúc dữ liệu, các phƣơng pháp tiền xử lý và lắp ráp hệ gen từ thiết bị đọc trình tự thế hệ mới.  Tìm hiểu, tham khảo các tài liệu liên quan đến các đột biến đảo đoạn trong hệ gen, từ đó xây dựng thuật toán phát hiện ra các đột biến gen đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới. Phƣơng pháp nghiên cứu  Nghiên cứu lý thuyết về các thiết bị đọc trình tự thế hệ mới, đột biến gen đảo đoạn và cách phát hiện đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới.  Thiết kế, đặc tả, xây dựng chƣơng trình, phƣơng pháp đọc trình tự gen và phát hiện đột biến đảo đoạn.  Qua những phát hiện về đột biến đảo đoạn đƣa ra kết luận. Ý nghĩa khoa học của đề tài  Làm cơ sở để phát hiện ra các đột biến đảo đoạn trong hệ gen.  Ứng dụng nhƣ chẩn đoán bệnh, sinh học pháp y, sinh học hệ thống. [...]... cấu trúc (trong đó có đột biến mất đoạn, đột biến thêm đoạn, đột biến đảo đoạn, …), đột biến điểm (đột biến đa hình đơn SNP, đột biến mất nucleotide, đột biến thêm nucleotite, ) Trong luận văn này, tôi sẽ tiến hành nghiên cứu phƣơng pháp phát hiện đột biến đảo đoạn, một dạng của đột biến cấu trúc hệ gen 1.2 – Cơ sở lý thuyết bài toán đột biến đảo đoạn 1.2.1 - Gen và đột biến cấu trúc hệ gen Ngày nay... http://www.lrc-tnu.edu.vn/ 19 (pyrosequencing), đọc trình tự thế hệ mới cho phép đọc đƣợc từ 8 Gb đến 600 Gb, có nghĩa là cho phép đọc trình tự nguyên bộ gen Do vậy đọc trình tự thế hệ mới còn đƣợc gọi là đọc trình tự bộ gen Đọc trình tự thế hệ mới dựa trên 2 nguyên lý chính sau: Thứ nhất, đọc trình tự bằng tổng hợp (sequencing by synthesis, SBS) thƣờng đƣợc các thế hệ máy Roche 454, Ion Torrent và Illumina... kỹ thuật trong đọc trình tự, cho phép đọc trình tự ngay trong quá trình tổng hợp sợi bổ sung đoạn DNA, do vậy pyrosequencing chính là công nghệ khởi đầu cho kỹ thuật đọc trình tự tổng hợp”, nền tảng của kỹ thuật đọc trình tự bộ gen hay còn gọi là kỹ thuật đọc trình tự thế hệ mới sau này Với ƣu thế thời gian đọc trình tự nhanh, độ chính xác cao, nên pyrosequencing có nhiều ứng dụng và có ƣu thế hơn... chúng) Đột biến gen là những biến đổi nhỏ xảy ra trong cấu trúc của gen Những biến đổi này thƣờng liên quan đến 1 cặp nucleotide (đột biến điểm) hoặc 1 số cặp nucleotide Trong những cá thể tự nhiên, các gen đều có thể bị đột biến nhƣng với tần số thấp (từ 10-6 đến 10-4) Các cá thể mang đột biến đã biểu hiện thành kiểu hình là thể đột biến Đột biến gen làm thay đổi cấu trúc của gen từ đó tạo ra alen mới. .. hơn kỹ thuật đọc trình tự Sanger, đặc biệt là trong chẩn đoán và chỉ định điều trị bệnh[16] Vì đây là kỹ thuật mở, và có sẵn các bộ hóa chất thƣơng mại, cho nên pyrosequencing là một kỹ thuật không thể thiếu trong các phòng thí nghiệm sinh học phân tử Phƣơng pháp đọc trình tự thế hệ mới Đọc trình tự thế hệ mới là một bƣớc tiến vƣợt bậc về công nghệ đọc trình tự Từ khả năng đọc trình tự đoạn ngắn 1500... dụng các file dữ liệu của các máy đọc trình tự thế hệ mới (dạng fasta/fastq) rồi gióng hàng chúng với trình tự trong bộ gen tham chiếu, các đoạn read nhỏ đƣợc gióng hàng so với bộ gen tham chiếu tạo ra file dữ liệu SAM là dữ liệu đầu vào cho chƣơng trình xử lý tìm kiếm đảo đoạn của bài toán đặt ra trong luận văn này Chƣơng 2 MỘT SỐ THUẬT TOÁN PHÁT HIỆN ĐỘT BIẾN Hiện nay các phƣơng pháp để phát hiện đột. .. hiện đột biến đảo đoạn thƣờng có các giai đoạn cơ bản đó là: Giai đoạn ánh xạ trình tự xuôi, giai đoạn trích rút và đảo ngƣợc các trình tự không lắp ráp đƣợc ở giai đoạn một và giai đoạn cuối cùng là ánh xạ trình tự ngƣợc (trình tự đƣợc đảo ngƣợc) để xác định vị trí đảo đoạn Nhƣ vậy, ở giai đoạn thứ nhất và giai đoạn thứ ba đều sử dụng chung thuật toán ánh xạ trình tự Ở giai đoạn thứ hai, là quá trình. .. đến 100kb[5] Các trình tự hệ gen của các loài sinh vật có thể đƣợc giải mã một cách hoàn thiện bằng các máy đọc trình tự thế hệ mới, tuy nhiên kết quả dữ liệu đó muốn xử lý để phát hiện ra sự biến đổi cấu trúc trong toàn bộ hệ gen là một vấn đề quan trọng Yêu cầu đó tƣơng tự nhƣ việc gióng hàng và so sánh 2 chuỗi sinh học S1, S2 Gióng hàng và so sánh cặp chuỗi này có thể đƣợc thực hiện bằng cách chèn... pháp đọc trình tự gen, sử dụng hệ gen tham chiếu đã có sẵn trên NCBI và sử dụng một số công cụ nhƣ Bowtie, TMAP, Wgsim để so sánh hệ gen đồng thời xây dựng một chƣơng trình demo bằng ngôn ngữ Perl chạy trên nền Ubuntu mô phỏng thuật toán Smith-Waterman để phát hiện các đột biến đảo đoạn trong hệ gen của các loài sinh vật (cụ thể là hệ gen ngƣời Hg19) 1.3 - Các công cụ giải quyết bài toán đảo đoạn 1.3.1... Xóa từ tham chiếu N Bỏ qua vùng của tham chiếu S Trích đoạn mềm (trích đoạn trình tự có mặt trong trình tự) H Trích đoạn cứng (trích đoạn trình tự không có mặt trong trình tự ) P Đệm (xóa từ bảng tham chiếu đã đƣợc thêm) = Trình tự trùng khớp X Trình tự không trùng khớp Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 27 1.2.3 - Bài toán đột biến đảo đoạn Bằng nhiều nghiên cứu khác nhau, các . đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới. Phƣơng pháp nghiên cứu  Nghiên cứu lý thuyết về các thiết bị đọc trình tự thế hệ mới, đột biến gen đảo đoạn và cách phát hiện. phát hiện đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới.  Thiết kế, đặc tả, xây dựng chƣơng trình, phƣơng pháp đọc trình tự gen và phát hiện đột biến đảo đoạn. . các đột biến cấu trúc trong hệ gen.  Ứng dụng thiết bị đọc trình tự thế hệ mới trong công nghệ sinh học.  Phƣơng pháp phát hiện các đột biến đảo đoạn khi sử dụng các thiết bị đọc trình tự

Ngày đăng: 27/12/2014, 18:25

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan