DSpace at VNU: Nghiên cứu thuật toán tìm kiếm chuỗi DNA sử dụng phương pháp tìm kiếm tương tự nhanh

13 138 0
DSpace at VNU: Nghiên cứu thuật toán tìm kiếm chuỗi DNA sử dụng phương pháp tìm kiếm tương tự nhanh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

DSpace at VNU: Nghiên cứu thuật toán tìm kiếm chuỗi DNA sử dụng phương pháp tìm kiếm tương tự nhanh tài liệu, giáo án, b...

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN HỒNG ANH NGHIÊN CỨU THUẬT TỐN TÌM KIẾM CHUỖI DNA SỬ DỤNG PHƢƠNG PHÁP TÌM KIẾM TƢƠNG TỰ NHANH LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN HÀ NỘI – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN HỒNG ANH NGHIÊN CỨU THUẬT TỐN TÌM KIẾM CHUỖI DNA SỬ DỤNG PHƢƠNG PHÁP TÌM KIẾM TƢƠNG TỰ NHANH Ngành: Hệ thống thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 01 04 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: Tiến sĩ Nguyễn Thị Hậu HÀ NỘI – 2016 LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn “Nghiên cứu thuật tốn tìm kiếm chuỗi DNA sử dụng phương pháp tương tự nhanh” sản phẩm thực hướng dẫn TS Nguyễn Thị Hậu Trong toàn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 20 tháng năm 2016 TÁC GIẢ Nguyễn Hoàng Anh LỜI CẢM ƠN Trước tiên xin gửi lời cảm ơn chân thành tới tập thể các thầy cô giáo Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội giúp đỡ tận tình chu tơi có mơi trường tốt học tập nghiên cứu Đặc biệt, xin bày tỏ lòng biết ơn sâu sắc tới TS Nguyễn Thị Hậu, người trực tiếp hướng dẫn, bảo tơi tận tình suốt q trình nghiên cứu hồn thiện luận văn Một lần tơi xin gửi lời cảm ơn đến tất thầy giáo, bạn bè gia đình giúp đỡ tơi thời gian vừa qua Tơi xin kính chúc thầy cô giáo, anh chị bạn mạnh khỏe hạnh phúc Hà Nội, ngày 20 tháng năm 2016 TÁC GIẢ Nguyễn Hoàng Anh MỤC LỤC LỜI CAM ĐOAN .3 LỜI CẢM ƠN DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT .7 GIỚI THIỆU CHƢƠNG TỔNG QUAN VỀ CÁC THUẬT TỐN TÌM KIẾM CHUỖI DNA .Error! Bookmark not defined 1.1 Phƣơng pháp tìm kiếm chuỗi DNA sử dụng mơ hình Markov ẩn Error! Bookmark not defined 1.2 Phƣơng pháp liên kết nhạy cảm đầy đủ Error! Bookmark not defined 1.3 Phƣơng pháp tìm kiếm tƣơng tự nhanh Error! Bookmark not defined 1.4 Phƣơng pháp sử dụng mơ hình phù hợp gần đúngError! Bookmark not defined 1.5 Phƣơng pháp sử dụng mơ hình kết hợp xác gần xác Error! Bookmark not defined CHƢƠNG N-GRAM VÀ PHƢƠNG PHÁP TÌM KIẾM CHUỖI TƢƠNG TỰ NHANH ÁP DỤNG N-GRAM Error! Bookmark not defined 2.1 Mơ hình N-Gram Error! Bookmark not defined 2.1.1 Một số khái niệm .Error! Bookmark not defined 2.1.2 Mơ hình ngơn ngữ N-gram Error! Bookmark not defined 2.1.3 Khó khăn xây dựng mơ hình ngơn ngữ N-gram : Error! Bookmark not defined 2.1.4 Các phương pháp khắc phục cụm N-Gram phân bố không đềuError! Bookmark not defined 2.2 Phƣơng pháp tƣơng tự nhanh áp dụng N-gram tìm kiếm chuỗi DNA.Error! Bookmark not defined 2.2.1 Phân đoạn DNA Error! Bookmark not defined 2.2.2 Các “từ DNA” Error! Bookmark not defined 2.2.3 Quá trình tìm kiếm chuỗi hiển thị kết Error! Bookmark not defined 2.3 Bảng kết lần thử phƣơng pháp tìm kiếm chuỗi tƣơng tự nhanh áp dụng N-Gram Error! Bookmark not defined 2.3.1 Định dạng chuỗi sở liệu Error! Bookmark not defined 2.3.2 Bảng kết lần thử phương pháp tìm kiếm chuỗi tương tự nhanh áp dụng NGram Error! Bookmark not defined 2.4 Đánh giá phƣơng pháp tìm kiếm chuỗi tƣơng tự nhanh áp dụng N-GramError! Bookmark not defined 2.4.1 Cải thiện thời gian tìm kiếm Error! Bookmark not defined 2.4.2 Tiết kiệm nhớ trình tìm kiếm .Error! Bookmark not defined CHƢƠNG THỰC NGHIỆM SO SÁNH PHƢƠNG PHÁP TÌM KIẾM TƢƠNG TỰ NHANH DỰA TRÊN N-GRAM VỚI PHƢƠNG PHÁP BLAST VÀ PHƢƠNG PHÁP SMITH-WATERMAN .Error! Bookmark not defined 3.1 Môi trƣờng thực nghiệm Error! Bookmark not defined 3.2 Thực nghiệm đánh giá phƣơng pháp tìm kiếm tƣơng tự nhanh áp dụng N-Gram với phƣơng pháp BLAST phƣơng pháp Smith-Water ManError! Bookmark not defined 3.3 Phân tích đánh giá kết thực nghiệm Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO .12 DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT Kí hiệu Tiếng Anh Tiếng Việt DNA Deoxy Ribonucleic Acid Phân tử mang cấu trúc gen di truyền NST Chromosome Nhiễm sắc thể A Adenine T Thymine G Guanine C Cytosine SNP Single nucleotide polymorphisms Tính đa hình phân tử nucleotit Mỗi SNP biểu diễn biến đổi khối chuỗi DNA CPU Cental Processing Unit Bộ xử lý trung tâm RAM Random access memory Bộ nhớ truy cập ngẫu nhiên NCBI National Center for Biotechnology Information Trung tâm quốc gia thông tin công nghệ sinh Differential Direct coding Mã hóa trực tiếp phần khác biệt HMM Hidden Markov Modeling Mơ hình Markov ẩn BLAST Basic Local Alignment Search Tool Cơng cụ tìm kiếm cục theo mẫu có sẵn HTS High – Throughput Sequencing Trình tự chuỗi đa lượng GIỚI THIỆU Việc phát DNA bước ngoặt lớn khoa học sinh học nói riêng sống người nói chung Hiện nay, nhà khoa học tìm nhiều cấu trúc DNA giải thích nhiều câu hỏi di truyền loài, bệnh, dị tật di truyền, khoa học hình sự,… ngày phát thêm nhiều cấu trúc DNA mới, điều tạo khối lượng khổng lồ liệu chuỗi gen phục vụ cho y sinh học đại Kích thước liệu ngày tăng đặt vấn đề chi phí cho khơng gian lưu trữ tốc độ truy cập, truyền tải DNA (DeoxyriboNucleic Acid) tên hóa học phân tử mang cấu trúc gen tất thực thể sống DNA gồm chuỗi tạo nên từ loại đơn vị nucleotide, loại gồm: đơn vị đường carbon (2’-deoxyribose), nhóm phốt phát (phosphate) thành phần Adenine, Cystosine, Guanine Thymine gọi bazơ Mỗi phân tử đường gắn với ¼ thành phần Mỗi thành phần base Số lượng base người khoảng tỷ, số vô lớn Dạng đơn giản DNA tế bào cấu trúc dây xoắn đơi, sợi DNA đơn xoắn quanh theo hình xoắn ốc thuận tay phải Bộ gen người gồm khoảng tỉ đặc trưng 23 cặp nhiễm sắc thể (NST) Do đó, sở liệu hệ gen vô lớn phức tạp Để lưu trữ, truy cập xử lý liệu cách hiệu nhiệm vụ khó khăn DNA có chức lưu trữ, bảo quản truyền đạt thông tin di truyền cấu trúc toàn loại protein thể sinh vật, quy định tính trạng thể sinh vật DNA có chức lưu giữ truyền đạt bảo quản thơng tin di truyền hệ Có nhiều ứng dụng từ việc tìm kiếm chuỗi DNA khoa học đời sống người, chẳng hạn như:  Sự di truyền trí thơng minh: Các nhà khoa học tiến hành lấy mẫu (có thể lấy tế bào máu, niêm mạc miệng, tế bào má, tóc có chân, móng tay, móng chân, cuống rốn sau rụng ) nghiên cứu chuỗi gen người có số thơng minh cao, sau tìm đặc điểm chung Tiến hành nghiên cứu tập lớn mẫu để xác định chuỗi gen định trí thơng minh Từ ứng dụng vào sinh học, y học cho người Qua nghiên cứu cụ thể, nhà khoa học nhận thấy rằng, 75% trí thơng minh người gen định [1]  Kiểm tra quan hệ huyết thống: Phương pháp ứng dụng phổ biến đời sống thường gọi xét nghiệm DNA Xét nghiệm DNA lĩnh vực đòi hỏi độ xác cao Mỗi kết xét nghiệm DNA huyết thống có thay đổi sống nhiều người, cần phải đảm bảo việc xét nghiệm thực xác Tất trình thu mẫu, tách chiết DNA, phân tích DNA đọc kết làm kiểm sốt theo quy trình chuẩn, từ kết có độ xác ổn định cao Thơng thường, lấy hai mẫu xét nghiệm hai người (hoặc sinh vật khác) từ tóc, tế bào da, mẫu máu… Sau xét nghiệm chuỗi gen xem có độ tương đồng cao hay không Thông thường mẫu DNA mẹ, bố nghi vấn khớp với gene độ xác có quan hệ huyết thống 99.9999% kết luận hai mẫu gen có huyết thống [2]  Phát loại gen gây bệnh: Bác sỹ lấy mẫu máu từ bệnh nhân bị bệnh, tìm kiếm bắt cặp trình tự có độ tương đồng cao Sau đó, so sánh bắt cặp trình tự cao với mẫu gen người bình thường để xem điểm khác mẫu gen Từ đưa kết luận mẫu gen gây bệnh Tập hợp mẫu gen gây bệnh đưa vào sở liệu để làm mẫu gen thử cho lần nghiên cứu sau  Khoa học hình sự: Các điều tra viên lấy mẫu (tóc, máu, da…), dấu vết trường Sau đó, mang giám định Tiếp theo, tiến hành so sánh với sở liệu chuỗi DNA lưu Từ biết có mặt trường vào thời điểm xảy vụ việc Tiến hành lấy lời khai nhân chứng Căn vào kết luận thủ, thời gian, trình xảy vụ án ADN thường sử dụng để xác định tội phạm theo hai cách Trường hợp nghi ngờ: Một mẫu DNA người so sánh với chứng từ trường vụ án Kết so sánh giúp xác định liệu nghi can phạm tội Trường hợp nghi ngờ chưa xác định, chứng sinh học từ trường vụ án phân tích so sánh với hồ sơ phạm tội sở liệu ADN để giúp xác định thủ phạm chứng trường vụ án liên kết với cảnh tội phạm khác thông qua việc sử dụng sở liệu ADN Hiện nay, với trình khoa học phát triển, lớp đào tạo điều tra viên mở, giúp học viên tiếp cận cơng nghệ cách nhanh chóng Có dự án kêu gọi nhiều nguồn tài lên tới triệu đô la Mỹ [3]  Lý thuyết tiến hóa: Các nhà sinh vật tiến hành lẫy mẫu gen từ sinh vật hóa thạch So sánh với mẫu gen lồi có hình thù, độ lớn, màu sắc, sinh vật nghi ngờ loài… Nếu mẫu gen lồi giống có mức độ tương đồng cao kết luận sinh vật lồi tiến hóa từ mức thấp lên mức cao [4]  ……………………………… Đặc trưng phức tạp chuỗi DNA nằm chỗ chuỗi số độ dài khác biểu diễn phạm vi dự đốn thành phần cấu tạo nên DNA Những đặc trưng phức tạp cho phép tìm kiếm cấu trúc lặp bên nhiễm sắc thể qua nhiều nhiễm sắc thể Và đặc trưng sử dụng để tìm khoảng cách tiến hóa cấu trúc nên phát sinh lồi Nên khó đưa thuật tốn tối ưu để tìm kiếm, giải trình tự đoạn DNA hiệu Nhiều thuật tốn tìm kiếm dành riêng cho chuỗi DNA phát triển từ khoảng 30 năm trước Hiện nay, kỹ thuật tìm kiếm liệu chuỗi DNA sử dụng rộng rãi sinh học Có hàng trăm thuật tốn đề xuất cho tìm kiếm liệu DNA nhìn chung thuật tốn tìm kiếm thường sử dụng là:  Phương pháp áp dụng Mơ hình Markov ẩn[5] phương pháp sử dụng mơ hình thống kê, tính tốn xác suất Thuật tốn dùng phương pháp mơ hình hóa q trình tìm kiếm chuỗisử dụng tham số quan sát tham số khơng biết trước – mơ hình Markov Sau xác định tham số trước từ tham số quan sát Các tham số mô hình rút sau sử dụng để thực phân tích Phương pháp sử dụng rộng rãi tin sinh học nhiên chi phí thời gian lớn hàm tính tốn phức tạp Phương pháp liên kết nhạy cảm đầy đủ: Vd: thuật toán Smith&Waterman[6] Phương pháp sử dụng để tìm giống có độ tương đồng cao hai chuỗi Bằng cách lập ma trận, tính độ đo để tìm giống có độ tương đồng cao tất độ dài phân đoạn hai xâu, hai chuỗi protein nucleotide Với chuỗi tìm kiếm có độ tương đồng cao trước đó, phương pháp mở rộng phạm vi tìm kiếm hai phía (trước sau) Phương pháp có ưu điểm độ xác cao Tuy nhiên chi phí thời gian lớn Phương pháp TÀI LIỆU THAM KHẢO [1] Matt Atherton Human intelligence genes identified in DNA bringing us one step close to cognitive engineering, Internationnal Business Times, 2015 [2] Jes Battis Blood Relation, 2005 [3] Loretta E Lynch Using DNA to solve crimes, 2014 [4] David Michael Buss & David P Schmitt Evolutionary Psychology and Feminism Springer Science + Business Media, LLC, 2011 [5] SR Eddy Profile hidden Markov models Bioinformatics, 1998 [6] Temple F Smith and Michael S.Waterman Identification of common molecular subsequences, 1981 [7] S.F Altschul, T L Madden, A A Schaffer, J Zhang, Z Zhang, W Miller, and D J Lipman Gapped blast and psi-blast: a new generation of protein database search programs Nucleic Acids Res, 25:3389–3402, 1997 [8] Ben Langmead Aligning short sequencing reads with Bowtie Curr Protoc Bioinformatics, 2010 [9] Eric Rivals, Leena Salmela, Petteri Kiiskinen, Petri Kalsi, and Jorma Fast Localisation of Multiple Reads in Genomes, 2015 [10] Daniel Jurafsky and James H.Martin Speech and Language Processing: An Introduce to Natural Language processing, Computational linguistics and Speech recognition, 2000 [11] Peter F Brown, Peter V deSouza, Robert L Mercer, Vincent J Della Pietra, Jenifer C Lai Class-Based n-gram Models of Natural Language, IBM T J Watson Research Center [12] Songfang Huang, Steve Renals Power Law Discouting for N-gram Language Models The Centre for Speech Technology Research, University of Edinburgh, United Kingdom [13] Ben Langmead, Cole Trapnell, Mihai Pop and Steven L Salzberg Ultrafast and memory-efficient alignment of short DNA sequences to the human genome Genome Biology, 2009 [14] Burrows M, Wheeler DJ Digital Equipment Corporation Technical Report 124, 1994 [15] https://sourceforge.net/projects/bowtie-bio [16] P.Ferragina, G.Manzini Opportunistic data structures with applications Foundations of Computer Science, 2000 [17] Tao Tao Single Letter Codes for Nucleotides National Center for Biotechnology Information, 2011 [18] W.Pearson Searching protein sequence libraries: comparison of the sensitivity and selectivity of the Smith-Waterman and FASTA algorithms Genomics, 1991 ... trăm thuật tốn đề xuất cho tìm kiếm liệu DNA nhìn chung thuật tốn tìm kiếm thường sử dụng là:  Phương pháp áp dụng Mơ hình Markov ẩn[5] phương pháp sử dụng mơ hình thống kê, tính tốn xác suất Thuật. .. tốn tối ưu để tìm kiếm, giải trình tự đoạn DNA hiệu Nhiều thuật tốn tìm kiếm dành riêng cho chuỗi DNA phát triển từ khoảng 30 năm trước Hiện nay, kỹ thuật tìm kiếm liệu chuỗi DNA sử dụng rộng rãi... QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN HỒNG ANH NGHIÊN CỨU THUẬT TỐN TÌM KIẾM CHUỖI DNA SỬ DỤNG PHƢƠNG PHÁP TÌM KIẾM TƢƠNG TỰ NHANH Ngành: Hệ thống thông tin Chuyên ngành: Hệ thống thông

Ngày đăng: 17/12/2017, 19:58

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan