Ứng dụng thuật toán burrows wheeler transform trong quá trình giải mã hệ gen lúa tại việt nam

80 399 0
Ứng dụng thuật toán burrows wheeler transform trong quá trình giải mã hệ gen lúa tại việt nam

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - Vũ Thị Diệu ỨNG DỤNG THUẬT TOÁN BURROWS-WHEELER TRANSFORM TRONG QUÁ TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – Năm 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - Vũ Thị Diệu ỨNG DỤNG THUẬT TOÁN BURROWS-WHEELER TRANSFORM TRONG QUÁ TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM Chuyên ngành: Cơ sở toán cho tin học Mã số: 60480104 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN CƯỜNG Hà Nội – Năm 2015 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu nêu luận văn trung thực Những kết luận khoa học luận văn chưa công bố công trình khác Tôi xin chịu trách nhiệm nghiên cứu TÁC GIẢ LUẬN VĂN Vũ Thị Diệu LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS Nguyễn Cường, người tận tình giúp đỡ hướng dẫn hoàn thành luận văn này.Thầy định hướng giúp phương pháp nghiên cứu giúp bước tiếp cận với lĩnh vực Tin – Sinh học bổ ích vô mẻ Cho thêm đam mê động lực để hoàn thành luận văn cách tốt Tôi xin gửi lời cám ơn tới tập thể bạn, anh chị làm việc phòng Tin Sinh, thuộc Viện Công nghệ sinh học, Viện Hàn lâm KH&CN Việt Nam Cám ơn bạn, anh chị nhiệt tình giúp đỡ em thời gian qua, giúp em tiếp cận cách gần với môi trường thực tế ngành Tin – Sinh để em đưa kết nghiên cứu cách trực quan đầy đủ luận văn Tôi xin gửi lời cảm ơn chân thành tới thầy cô giáo trường Đại học Khoa học tự nhiên, bạn bè, đồng nghiệp gia đình giúp đỡ, động viên trình nghiên cứu, hoàn thành luận văn Luận văn chắn không tránh khỏi thiếu sót Rất mong góp ý Thầy, Cô đồng nghiệp đồng thời mong nhà nghiên cứu tiếp tục hiệu chỉnh, bổ sung Tôi xin chân thành cảm ơn! TÁC GIẢ LUẬN VĂN Vũ Thị Diệu MỤC LỤC DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG BIỂU MỞ ĐẦU CHƢƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 Đặt vấn đề 1.1.1 Tin – Sinh học 1.1.2 Khai phá liệu Tin – Sinh học 1.1.3 Hướng phát triển ngành Tin – Sinh học Việt Nam 1.2 Mục tiêu luận văn 1.3 Các khái niệm sinh học phân tử 1.3.1 DNA 1.3.2 Gen 1.3.3 Hệ gen tham chiếu 1.3.4 Định dạng liệu toán Tin – Sinh học CHƢƠNG : CƠ SỞ LÝ THUYẾT VÀ THUẬT TOÁN 14 BURROWS WHEELER TRANSFORM 14 2.1 Quy trình giải mã hệ gen toán gióng hàng trình tự 14 2.1.1 Giải mã hệ gen quy trình 14 2.1.2 Nội dung toán gióng hàng trình tự (Sequence Alignment) 16 2.1.3 Ý nghĩa sinh học toán gióng hàng trình tự 17 2.1.4 Phân loại toán gióng hàng trình tự 18 2.2 Một số thuật toán cho toán gióng hàng trình tự 20 2.2.1 Thuật toán ma trận điểm 20 2.2.2 Thuật toán quy hoạch động Smith-Waterman 24 2.3 Thuật toán Burrows – Wheeler Tranform (BWT ) 31 2.3.1 Chuyển đổi Burrows-Wheeler thuâ ̣n 32 2.3.2 Chuyển đổi Burrows-Wheeler nghich 38 ̣ 2.3.3 Tìm kiếm xác (Exact matching) 41 2.3.4 Tìm kiếm có sai khác không nhiều z vị trí (Inexact matching) 49 2.4 Kết luận 53 CHƢƠNG : ỨNG DỤNG THUẬT TOÁN BWT VÀ THỬ NGHIỆM TRÊN DỮ LIỆU SINH HỌC 55 3.1 Quy trình thực nghiệm 55 3.2 Cài đặt ứng dụng 56 3.3 Chuẩn bị liệu 58 3.4 Kết đánh giá 62 3.5 Đánh giá kết luận văn 67 KẾT LUẬN 69 TÀI LIỆU THAM KHẢO 70 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Mô hình cấu trúc phân tử DNA Hình 1.2 Mô hình cấu trúc gen Hình 1.3 Định dạng liệu FASTA 10 Hình 1.4 Định dạng FASTQ 11 Hình 2.1 Quy trình xác định biến dị di truyền 16 Hình 2.2 Ví dụ toán gióng hàng trình tự Sequence – Sequence 16 Hình 2.3 Các đột biến xác định gióng hàng trình tự u – v 18 Hình 2.4 Ví dụ toán Short Read Alignment 19 Hình 2.5 Ma trận chứa tất phép quay đầu vào xâu ATGTAC 33 Hình 2.6 Chuỗi BWT Thu cách xếp ma trận L * L theo thứ tự từ điển … 34 Hình 2.7 Minh họa việc giải mã BWT xâu „CT$ATGA‟ 41 Hình 2.8 Mô tả trình tạo chuỗi BWT 42 Hình 2.9 Vị trí xuất kí tự “a” chuỗi X =”agcagcagact 43 Hình 2.10 Giá trị SA = [9,10] chuỗi W=“gca” 44 Hình 2.11 Công thức tính khoảng cách SA 44 Hình 2.12 Kết trình tìm kiếm W=”gca” 48 Hình 3.1 Mô nhiệm vụ thực nghiệm chương 56 Hình 3.2 Ví dụ mô mục tiêu ứng dụng 57 Hình 3.3 Biểu đổ đánh giá chất lượng base giải trình tự (A file fastq 1, B file fastq 2) … 61 Hình 3.4 Biểu đồ số lượng SNP nhiễm sắc thể với hai phần mềm gióng hàng trình tự BWA BWTAligner 65 DANH MỤC CÁC BẢNG BIỂU Bảng 3.1 Các thẻ định danh định dạng SAM 12 Bảng 3.2 Ví dụ định dạng SAM 12 Bảng 3.3 Mô tả chuỗi CIGAR 13 Bảng 3.1 Thông tin máy chủ sử dụng để cài đặt thử nghiệm 58 Bảng 3.2 Thông tin chi tiết liệu mô thu 59 Bảng 3.3 Kết tìm kiếm SNP với BWA BWTAligner với độ sâu trình tự khác 62 Bảng 3.4 Thống kê : TP - dương tính thật, FP – dương tính giả, FN – âm tính giả 63 Bảng 3.5 So sánh độ BWA BWTAligner gọi SNP 64 Bảng 3.6 Bảng thống kê số lượng SNP với phần mềm 66 MỞ ĐẦU Tin - Sinh học (Bioinformatics) lĩnh vực khoa học sử dụng công nghệ ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính, trí tuệ nhân tạo, hóa học hóa sinh để giải vấn đề sinh học Sự đời Tin - Sinh học hợp tác chặt chẽ nhà Tin học nhà nghiên cứu Sinh học nhằm khai phá liệu hiệu quả, Tin – Sinh học trở thành mục tiêu công nghệ ngành Sinh học kỉ Bắt kịp xu phát triển khoa học giới, năm gần nhà Tin - Sinh học Việt Nam xác định hướng phù hợp đạt thành công bước đầu với số công trình nghiên cứu mang tính ứng dụng cao Trong sinh học, việc giải mã trình tự gen quan trọng, góp phần việc nghiên cứu sinh học nhiều lĩnh vực ứng dụng chẩn đoán bệnh tật, công nghệ sinh học, sinh học pháp y, sinh học hệ thống Do đặc tính khí hậu nhiệt đới, Việt Nam có lợi nguồn liệu Sinh học to lớn, hữu ích, điều trở thành điều kiện thuận lợi thách thức cần đến đóng góp Tin - Sinh học Nhận thấy tính mẻ lĩnh vực nghiên cứu Tin – Sinh học nói chung ưu điểm phát triển nghành Tin - Sinh học nước nhà, học viên lựa chọn đề tài “ứng dụng thuật toán Burrow – Wheeler Tranform trình giải mã hệ gen lúa” Luận văn bao gồm ba chương chính, nội dung tóm lược sau: Chương trình bày tổng quan khái niệm sinh học phân tử, định dạng liệu toán Tin – Sinh học Mục tiêu chương nhằm làm rõ khái niệm giới thiệu vấn đề nội dung trình bày chương luận văn Hình 3.2 Ví dụ mô mục tiêu ứng dụng Cùng với cộng tác thành viên phòng Tin – Sinh học, Viện Công nghệ sinh học, Viện Hàn lâm Khoa học Công nghệ Viêt Nam, xây dựng thành công công cụ gióng hàng trình tự BWTAligner sử dụng thuật toán BWT giới thiệu chi tiết chương Công cụ BWTAligner cài đặt máy chủ (server) phòng Tin - Sinh học, Viện Công nghệ sinh học (IBT), Viện Hàn lâm Khoa học Công nghệ Viêt Nam (VAST) Các trình biên dịch perl, C++, thư viện công cụ cần thiết cài đặt máy chủ Thông tin máy chủ mô tả chi tiết bảng sau : 57 Hệ điều hành Ubuntu 14.10 HDD TB SSD 120 GB CPU X5650 @ 2.67 GHz; 24 processors RAM 198 GB Bảng 3.1 Thông tin máy chủ sử dụng để cài đặt thử nghiệm 3.3 Chuẩn bị liệu a Hệ gen tham chiếu Để tìm kiếm biến dị hệ gen, trình thực nghiệm sử dụng phần mềm nhóm xây dựng BWTAligner phần mềm BWA (Burrows -Wheeler Aligner) để gióng hàng trình tự Hệ tham chiếu – định nghĩa mục 1.3.3 - chọn hệ gen lúa Nipponbare, 7.0 từ Dự án giải hệ gen lúa (kích thước hệ gen tham chiếu 373,245,519 bp) Hệ gẹ Nipponbare lựa chọn hệ gen nghiên cứu nhà khoa học Nhật Bản Có nhiều báo công bố, nhiều nghiên cứu khoa học khác giới lựa chọn sử dụng hệ gen Nipponbare làm hệ gen tham chiếu Hệ gen Nipponbare hệ gen giải hoàn toàn chức hệ gen tính đến đầu năm 2014 Do hệ gen Nipponbare hệ gen tham chiếu phù hợp lựa chọn để tiến hành thực nghiệm 58 b Dữ liệu giả lập Dữ liệu giả lập liệu trích chọn phần từ hệ gen tham chiếu Dữ liệu giả lập thay đổi sai ngẫu nhiên số vị trí Nucleotid đưa vào chạy gióng hàng trình tự hai công cụ BWTAligner BWT Kết thu sau gióng hàng trình tự đem kiểm chứng với giả thiết trước đưa đánh giá hiệu phần mềm Dữ liệu giả lập lựa chọn nhiễm sắc thể số hệ gen tham chiều (kích thước 23,012,720 bp) Dữ liệu thay đổi ngẫu nhiên 0.085% SNP Để đánh giá phần mềm gióng hàng, liệu giả lập độ sâu (depth coverage) khác 5X, 10X 30X với chất lượng trình tự tốt Các thông số giả lập liệu thể qua bảng : Thông số Giá trị Tỷ lệ lỗi base 0.020 Tỷ lệ đột biến 0.085% Kích thước đoạn trình tự 100 bp Định dạng giải trình tự Paired-end (Giải trình tự chiều) Bảng 3.2 Thông tin chi tiết liệu mô thu Nói cách khác, liệu giả lập trích chọn từ liệu tham chiếu sau thay đổi 0.085% vị trí nucleotide hệ gen Dữ liệu giả lập đưa vào làm đầu vào gióng hàng trình tự công cụ : BWTAligner BWA tham số mismatch lựa chọn z = 2% độ dài liệu Kết biến dị/ đa hình thu 59 đưa so sánh với kết thực trước giả lập để đưa đánh giá độ xác công cụ sử dụng c Dữ liệu thực nghiệm Dữ liệu thực nghiệm lựa chọn giống lúa Chiêm nhỡ Bắc Ninh cung cấp Viện Di truyền Nông nghiệp, Viện Khoa học Nông nghiệp Việt Nam Tham số mismatch lựa chọn trình gióng hàng z = 2% độ dài read Với liệu thật hệ gen giống lúa Chiêm nhỡ Bắc Ninh, đoạn trình tự sau giải trình tự cần phải đánh giá chất lượng theo quy trình nêu mục 1.2.1 trước gióng hàng trình tự, tồn đoạn trình tự chất lượng thấp cần loại bỏ Như vậy, kết gióng hàng trình tự không bị ảnh hưởng trình tự có chất lượng không tốt Với tổng số đoạn trình tự 100bp 129,251,948 độ sâu 30X, trình tự có chất lượng tốt với vị trí nucleotit trình tự có điểm Phred ngưỡng cao (vùng màu xanh) thay vùng chất lượng trung bình (màu da cam) chất lượng (vùng màu đỏ) Biểu đồ sau thể đánh giá chất lượng liệu : 60 A B Hình 3.3 Biểu đổ đánh giá chất lượng base giải trình tự (A file fastq 1, B file fastq 2) 61 3.4 Kết đánh giá a Kết gióng hàng trình tự tìm SNP với liệu giả lập Dữ liệu giả lập có số lượng đoạn trình tự ngắn (read) tương ứng với độ sâu 5X 575,318 ; 10X 1,150,636 ; 30X 3,451,908 trình tự đọc chiều (paired-end) Từ bảng kết 3.3, nghiên cứu nhận thấy số lượng trình tự gióng hàng BWA nhiều so với BWT aligner độ sâu, nhiên, điểm chất lượng trình tự BWTAligner cao BWA Khi mô liệu giả lập, nghiên cứu tạo 19,560 SNP Với việc gióng hàng phần mềm khác cho định dạng file SAM, nghiên cứu kết hợp với phần mềm khác SAMtools VarScan để tìm gọi SNP Kết cho thấy, độ sâu trình tự ảnh hưởng đến việc tìm SNP số phần trăm trình tự gióng hàng phần mềm tương đương nhau, cụ thể tăng độ sâu, số SNP dương tính thật (TP : true-positive) gần với số lượng SNP nghiên cứu giả lập So sánh BWA BWTAligner, số lượng SNP dương tính thật gióng hàng BWA cao hơn, thấp BWTAligner số lượng dương tính giả (FP : false-positive) âm tính giả (FN : false-negative) BWA 5X 10X BWTAligner 30X 5X 10X 30X Số lƣợng trình tự 1,145,700 2,291,628 6,875,059 1,143,567 2,287,918 6,862,792 99.57 99.58 99.58 99.38 99.41 99.41 gióng hàng Phần trăm số lƣợng trình tự gióng hàng (%) Bảng 3.3 Kết tìm kiếm SNP với BWA BWTAligner với độ sâu trình tự khác 62 BWA BWTAligner TP 30X 0.02% 0.05% 18,468 93.97% 18,669 95.40% 9,439 47.98% 8,223 41.92% FP 21 0.11% 58 0.30% 10,211 51.91% 11,337 57.79% 19,155 96.56% 18,951 96.10% FP 187 0.94% 161 0.82% FN Số lượng SNP FP TP 10X 4.55% FN Số lượng SNP 891 TP 5X 6.01% FN Số lượng SNP 1,182 495 2.50% 609 3.09% Bảng 3.4 Thống kê : TP - dương tính thật, FP – dương tính giả, FN – âm tính giả Ngoài ra, để đánh giá việc gọi SNP với hai phần mềm gióng hàng BWA BWTAligner, nghiên cứu sử dụng phép đo độ xác (precision), độ bao phủ (hay gọi độ nhạy, recall) F-score Độ xác định nghĩa TP/(TP+FP), độ bao phủ TP/(TP+FN), F-score 2*độ xác*độ bao phủ/(độ xác+độ bao phủ) Độ nhạy hiểu số lượng dương tính thật số lượng trường hợp dương tính liệu ban đầu, độ xác số lượng dương tính thật số lượng dương tính liệu thống kê sau chạy gióng hàng phần mềm gọi SNP Từ bảng 3.4, nghiên cứu cho thấy độ sâu thấp (5X 10X), độ xác BWA cao hơn, nhiên với độ sâu 30X, độ xác BWTAligner cao (99.16% so với 99.03% BWA) Độ nhạy BWA cao BWTAligner độ sâu khác F-score tỷ lệ trung bình điều hòa (harmonic mean) độ xác độ nhạy Với phần mềm BWA 63 BWTAligner, F-score tăng độ sâu tăng, đạt đến 98% với độ sâu 30X Fscore BWA cao BWTAligner với 98.25% so với 98.01% BWA BWTAligner 5X 10X 30X 5X 10X 30X Độ xác 0.9974 0.9978 0.9903 0.9900 0.9930 0.9916 Độ nhạy 0.0601 0.4804 0.9748 0.0456 0.4204 0.9689 F-score 0.1134 0.6485 0.9825 0.0871 0.5907 0.9801 Bảng 3.5 So sánh độ BWA BWTAligner gọi SNP b Kết gióng hàng trình tự tìm SNP với liệu hệ gen lúa Việt Nam Do nghiên cứu với liệu giả lập, độ sâu 30X đủ tốt đủ độ tin cậy cao, nên liệu hệ gen lúa lựa chọn giải trình tự với độ sâu 30X công ty Illumina kết gióng hàng trình tự hệ gen với trình tự tham chiếu BWA 96.33% so với BWTAligner 87,17% Nghiên cứu kết hợp sử dụng công cụ hỗ trợ : SAMtools VarScan để tìm số lượng SNP Kết cho thấy, số lượng SNP chạy với BWA cao 7.65% số lượng SNP chạy với BWTAligner (Hình 3.3, Bảng 3.6) Tuy nhiên để đánh giá thành công xác công cụ cần có thêm nhiều thử nghiệm công cụ xây dựng liệu khác Đòi hỏi nghiên cứu chuyên sâu để củng cố cho kết đạt Dưới số thống kê chi tiết kết thu : 64 Hình 3.4 Biểu đồ số lượng SNP nhiễm sắc thể với hai phần mềm gióng hàng trình tự BWA BWTAligner Nhiễm sắc thể BWTAligner BWA Nhiễm sắc thể 233,111 245,277 Nhiễm sắc thể 204,691 215,775 Nhiễm sắc thể 200,651 206,575 Nhiễm sắc thể 149,505 168,166 Nhiễm sắc thể 147,436 157,540 Nhiễm sắc thể 177,397 191,447 Nhiễm sắc thể 156,409 171,765 Nhiễm sắc thể 151,679 166,634 65 Nhiễm sắc thể 133,830 144,964 Nhiễm sắc thể 10 142,862 156,476 Nhiễm sắc thể 11 167,507 186,928 Nhiễm sắc thể 12 142,749 162,764 2,007,827 2,174,311 Tổng số Bảng 3.6 Bảng thống kê số lượng SNP với phần mềm Tốc độ tỷ lệ gióng hàng thể hình ảnh sau: Hình 3.5 Tỷ lệ gióng hàng thời gian chạy công cụ BWA 66 Hình 3.6 Tỷ lệ gióng hàng thời gian chạy công cụ BWTAligner 3.5 Đánh giá kết luận văn Việt Nam đất nước có nông nghiệp phát triển mạnh hàng đầu Châu Á Đặc biệt, trung tâm phát sinh đa dạng di truyền nguồn gen lúa Với đa dạng khí hậu vùng miền, đất nước ta có nhiều tập đoàn giống lúa địa phương phong phú, đa đạng nhiều nguồn giống lúa có đặc tính nông sinh học quí (như: chịu hạn, chịu mặn, kháng rầy nâu, đạo ôn, khô vằn, bạc lá, v.v) chưa khai thác sử dụng cách có hiệu Để khai thác sử dụng có hiệu nguồn gen lúa địa chương trình chọn lai tạo giống, đòi hỏi cần có hiểu biết đầy đủ công nghệ sinh 67 học mà bên cạnh cần hiểu biết sâu rộng tảng công nghệ nhằm ứng dụng hiệu công nghệ thông tin vào lĩnh vực sinh học nước nhà Trước thách thức ngày lớn cho nghành nông nghiệp Việt Nam thời đại hội nhập phát triển kinh tế thị trường quốc tế, việc nghiên cứu giải mã hệ gen lúa đặc biệt coi trọng Dưới góc độ nghiên cứu lĩnh vực Tin sinh học khuôn khổ đề tài luận văn mình, em hiểu nhu cầu giải mã hệ gen lúa địa Việt Nam cần thiết Song song với đề tài giải mã hệ gen 36 giống lúa Việt Nam phòng Tin Sinh, thuộc Viện Công nghệ sinh học, Viện Hàn lâm KH&CN Việt Nam, thân em nhóm xây dựng công cụ gióng hàng trình tự BWTAigner đưa đánh giá kết thu so với công cụ gióng hàng phổ biến (BWA) Có thể thấy công cụ xây dựng BWTAligner có kết thu đạt hiệu chưa công cụ gióng hàng phổ biến BWA Tuy nhiên với thân tìm hiểu đóng góp hiệu đạt công cụ BWTAlinger gần đạt hiệu mong muốn Cần có thử nghiệm nhiều liệu khác tương lai với góp ý, nghiên cứu tiếp tục nhà Tin – Sinh học giúp công cụ BWTAligner trở nên hoàn thiện 68 KẾT LUẬN Trong luận văn này,tôi nghiên cứu số thuật toán liên quan đến gióng hàng trình tự thuật toán ma trận điểm thuật toán Smith Waterman, tập trung trọng tâm vào thuật toán Burrow – Wheeler Tranform Luận văn nêu bật ưu nhược điểm thuật toán, BWT cho thấy tối ưu ứng dụng với liệu lớn Điều có ý nghĩa quan trọng toán sinh học Bởi với phát triển mạnh mẽ công nghệ giải trình tự cho đời số lượng lớn đoạn trình tự Do đó, so sánh gióng hàng lượn lớn trình tự hệ gen tham chiếu với tốc độ nhanh, xác vấn đề không nhỏ Với ưu điểm thực với liệu lớn nên có nhiều phần mềm dựa thuật toán BWT phát triển để gióng hàng trình tự vào liệu tham chiếu từ tìm biến dị/ đa hình Tôi tham gia xây dựng, cài đặt thử nghiệm thành công công cụ gióng hàng trình tự BWTAligner Thực nghiệm công cụ dự liệu giả lập từ hệ gen lúa với mức độ bao phủ khác 5X, 15X 30X đặc biệt thực nghiệm giống lúa Chiêm Nhỡ (Bắc Ninh) đưa đánh giá kết so với công cụ BWA triển khai thực tế 69 TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Văn Cách (2006), Giáo trình tin sinh học, NXB Khoa học kỹ thuật, Hà Nội Tiếng Anh Burrows, M and Wheeler, D.J (1994), “A block-sorting lossless data compression algorithm”, Technical report, 124 Campagna, D et al (2009), “PASS: a program to align short sequences”, Bioinformatics, 25, pp 967–968 Li, H et al (2008), “Mapping short DNA sequencing reads and calling variants using mapping quality scores”, Genome Res, 18, 1851–1858 Li, H et al (2009), “The sequence alignment/map format and SAMtools”, Bioinformatics, 25(16), PP 2078-2079 Li Heng and Richard Durbin (2009), “Fast and Accurate Short Read Alignment with Burrows-Wheeler Transform”, Bioinformatics, 25, pp 1754–1760 Li, H., et al (2009), "The sequence alignment/map format and SAMtools." Bioinformatics, 25(16), PP 2078-2079 Alkan, C., et al (2011), "Genome structural variation discovery and genotyping", Nature Reviews Genetics, 12(5), pp 363-376 Chen, K., et al (2009), "BreakDancer: an algorithm for high-resolution mapping of genomic structural variation", Nat Meth, 6(9), pp 677-681 70 10 Feuk L., et al (2010), "Inversion variants in the human genome: role in disease and genome architecture.", Genome Med, 2(11), pp 250-276 71

Ngày đăng: 05/07/2016, 14:53

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan