Bài toán cấu trúc chuỗi nguồn = founder sequences reconstruction problem

12 271 0
Bài toán cấu trúc chuỗi nguồn = founder sequences reconstruction problem

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THỊ HÀO BÀI TOÁN CẤU TRÚC CHUỖI NGUỒN (Founder Sequences Reconstruction Problem) LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI, 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THỊ HÀO BÀI TOÁN CẤU TRÚC CHUỖI NGUỒN (Founder Sequences Reconstruction Problem) Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS Đỗ Đức Đông PGS.TS Hoàng Xuân Huấn HÀ NỘI, 2015 LỜI CẢM ƠN Trước hết, xin gửi lời biết ơn sâu sắc đến hai người thầy TS Đỗ Đức Đông thầy PGS.TS Hoàng Xuân Huấn, hai thầy dành nhiều thời gian tâm huyết hướng dẫn nghiên cứu giúp hoàn thành tốt luận văn tốt nghiệp Thầy mở cho vấn đề khoa học lý thú, định hướng nghiên cứu lĩnh vực thiết thực vô bổ ích, đồng thời tạo điều kiện thuận lợi tốt cho học tập nghiên cứu Tôi xin bày tỏ lòng biết ơn tới thầy cô trường Đại học Công nghệ tham gia giảng dạy chia sẻ kinh nghiệm quý báu cho tập thể cá nhân nói riêng Tôi xin cảm ơn tới thầy anh chị thường xuyên giúp đỡ, trao đổi, góp ý vấn đề khoa học liên quan tới luận văn Cuối bày tỏ lòng biết ơn giúp đỡ anh, chị đồng nghiệp Bộ môn Tin học trường Đại học Công Đoàn, quan nơi công tác tạo điệu kiện tốt cho thời gian động viên hoàn thành luận văn Một lần nữa, xin chân thành cảm ơn! Hà Nội, tháng năm 2015 Học viên Lê Thị Hào LỜI CAM ĐOAN Những kiến thức trình bày luận văn tìm hiểu, nghiên cứu trình bày lại theo cách hiểu Trong trình làm luận văn có tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu tham khảo Tôi xin cam đoan công trình nghiên cứu không chép Hà Nội, tháng năm 2015 Học viên Lê Thị Hào MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC BẢNG BIỂU DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU CHƢƠNG I BÀI TOÁN CẤU TRÚC CHUỖI NGUỒN 10 1.1 Một số khái niệm sinh học 10 1.1.1 Một số khái niệm di truyền 10 1.1.2 Quá trình đột biến DNA 11 1.1.3 Khái quát Haplotype tạo từ tái tổ hợp 13 1.2 Phát biểu toán cấu trúc chuỗi nguồn 15 1.3 Mô hình toán 15 1.3.1 Bài toán 1: tìm số điểm ngắt nhỏ 15 1.3.2 Bài toán 2: tìm chuỗi nguồn 16 1.4 Các phƣơng pháp tiếp cận để giải toán cấu trúc chuỗi nguồn 17 1.4.1 Phương pháp giải toán tìm số điểm ngắt nhỏ 18 1.4.2 Phương pháp giải toán tìm số chuỗi nguồn 18 CHƢƠNG II GIỚI THIỆU VỀ THUẬT TOÁN ANT COLONY OPTIMIZATION (ACO) 21 2.1 Giới thiệu thuật toán ACO 21 2.2 Mô hình mô thuật toán 21 2.2.1 Kiến tự nhiên 21 2.2.2 Kiến nhân tạo 23 2.3 Trình bày giải thuật 23 2.3.1 Đồ thị cấu trúc 24 2.3.2 Trình bày thuật toán ACO 25 2.3.3 Thông tin Heuristic 27 2.3.4 Quy tắc cập nhật vết mùi 27 2.3.4.1 Thuật toán AS 27 2.3.4.2 Thuật toán ACS 27 2.3.4.3 Thuật toán Max-Min 28 2.3.4.4 Thuật toán Max- Min trơn 28 2.4 Ứng dụng thuật toán ACO việc giải toán Ngƣời chào hàng Sale Man 29 2.4.1 Bài toán người chào hàng thực tế 29 2.4.2 Phát biểu toán người đưa hàng mô hình hóa đồ thị 29 2.4.3 Áp dụng thuật toán ACO giải toán người chào hàng 29 CHƢƠNG III THUẬT TOÁN MỚI 32 3.1 Thuật toán tối ƣu đàn kiến ACO 32 3.2 Xây dựng đồ thị cấu trúc 32 3.3 Xây dựng lời giải 33 3.4 Thông tin heuristic 34 3.5 Cập nhật mùi 34 3.5.1 Thuật toán Max – Min 35 3.5.2 Thuật toán Max – Min trơn 36 3.5.3 So sánh hai cách cập nhật mùi 36 3.6 Mô tả thuật toán tối ƣu đàn kiến ACO tổng quát giải toán cấu trúc chuỗi nguồn 37 3.7 Số lƣợng kiến 41 3.8 Tham số bay 41 CHƢƠNG IV KẾT QUẢ THỰC NGHIỆM 42 4.1 Mô tả thực nghiệm 42 4.1.1 Các thông số cài đặt 42 4.1.2 Kết thực nghiệm 42 4.2 So sánh kết thực nghiệm 43 4.2.1 So sánh kết với RecBlock 43 4.2.2 So sánh kết với hai thuật toán cập nhật mùi khác 48 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 51 TÀI LIỆU THAM KHẢO 52 DANH MỤC CÁC KÍ HIỆU, TỪ VIẾT TẮT STT Từ viết tắt Từ cụm từ Ant Colony Optimization ACO AS ACS DNA Axit Deoxyribo Nucleic NST Nhiễm sắc thể MMAS SMMAS 3-LAS TSP 10 TƯTH (Tối ưu hóa đàn kiến) Ant System (Hệ kiến AS) Ant Colony System (Hệ kiến ACS) Max-Min Ant System (Hệ kiến MMAS) Smooth-Max Min Ant System (Hệ kiến MMAS trơn) Three level ant system (Hệ kiến đa mức 3-LAS) Travelling Salesman Problem (Bài toán người chào hàng) Tối ưu tổ hợp DANH MỤC CÁC BẢNG BIỂU Bảng 1.1 Tập HAP tương đương với haplotype C 14 Bảng 2.1 Một số thuật toán ACO 30 Bảng 4.1 So sánh thực nghiệm với RecBlock liệu Random 44 Bảng 4.2 So sánh thực nghiệm với RecBlock liệu evo 45 Bảng 4.3 So sánh thực nghiệm với RecBlock liệu ms 47 Bảng 4.4 Kết thực nghiệm so sánh hai phương pháp MMAS SMMAS với liệu rnd_30_60 49 Bảng 4.5 Kết thực nghiệm so sánh ba phương pháp ACS, MMAS SMMAS với liệu evo_50_250 49 Bảng 4.6 Kết thực nghiệm so sánh ba phương pháp ACS, MMAS SMMAS với liệu ms_50_250 50 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Cấu trúc nhiễm sắc thể 10 Hình 1.2 Minh họa gen nhiễn sắc thể 10 Hình 1.3 Một đột biến điểm xảy phân tử DNA thay cặp nucleotide A-T cặp nucleotide G-C 11 Hình 1.4 Minh họa trình tiến hóa loài từ tổ tiên chung 12 Hình 1.5 Quá trình đột biến hai trình tự DNA 12 Hình 1.6 Ví dụ gen tái tổ hợp tạo từ chuỗi nguồn 16 Hình 1.7 Minh họa đầu vào toán 17 Hình 1.8 Minh họa đầu toán 17 Hình 1.9 Đặc tả thuật toán Recblock 19 Hình 2.1 Một ví dụ hoạt động bầy kiến thực tế 22 Hình 2.2 Một ví dụ đàn kiến nhân tạo 23 Hình 2.3 Đồ thị cấu trúc tổng quát cho toán cực trị hàm 25 Hình 2.4 Đặc tả thuật toán ACO 26 Hình 2.5 Minh họa hình ảnh toán người đưa hàng 29 Hình 2.6 Đặc tả thuật toán ACO cho toán TSP 31 Hình 3.1 Đồ thị xây dựng thuật toán ACO toán cấu trúc chuỗi nguồn 33 Hình 3.2 Lựa chọn đỉnh 34 Hình 3.3 Đặc tả thuật toán ACO 38 Hình 3.4 Đồ thị cấu trúc cho liệu với n= 5, m= 39 Hình 3.5 Mô tả hành trình kiến 40 Hình 3.6 Lời giải kiến 40 Hình 3.7 Phân tích điểm ngắt cho lời giải kiến 41 Hình 4.1 Mô tả INPFILE với liệu rnd_30_90 42 Hình 4.2 Mô tả OUTFILE tìm k =5 liệu rnd_30_90 43 Hình 4.3 Mô tả OUTFILE tìm điểm ngắt liệu rnd_30_90 43 MỞ ĐẦU Tin sinh học lĩnh vực khoa học liên ngành, sinh học phân tử tin học đóng vai trò chủ đạo Sinh học làm môi trường liệu sở, xây dựng hoàn thiện chương trình xử lý liệu ứng dụng làm công cụ hỗ trợ hiệu cho việc nghiên cứu, thu nhận sản xuất sản phẩm sinh học mong muốn khác phục vụ đời sống người…Về bản, tin sinh học tập trung vào nghiên cứu áp dụng phương pháp kĩ thuật tin học để giải toán sinh học phân tử Tin sinh học có tính ứng dụng cao sống, đặc biệt lĩnh vực y-dược lĩnh lực di truyền Di truyền tượng chuyển tính trạng cha mẹ cho thông qua gen bố mẹ Trong sinh học, di truyền chuyển đặc trưng sinh học từ sinh vật cha mẹ đến đồng nghĩa với di chuyển, gen thừa nhận mang thông tin sinh học Chính mà ngày xã hội ngày phát triển, người có nhu cầu tìm hiểu nguồn gốc tổ tiên xa xưa Bài toán cấu trúc chuỗi nguồn toán cho thông tin dạng chuỗi nhiễm sắc thể tại, tìm thông tin nhiễm sắc thể tổ tiên Đó toán lớn sinh học, nhiều người quan tâm nghiên cứu Đã có nhiều thuật toán nghiên cứu công bố giải toán cấu trúc chuỗi nguồn để tìm thông tin di truyền Trong luận văn này, trình bày khảo cứu lại phương pháp giải toán cấu trúc chuỗi nguồn Tôi khảo cứu cài đặt lại thuật toán RecBlock Andrea Roli and Christian Blum đề xuất năm 2009 thuật toán coi hoàn chỉnh đến thời điểm để giải toán cấu trúc chuỗi nguồn Sử dụng ý tưởng xây dựng lời giải RecBlock, luận văn đề xuất thuật toán thuật toán tối ưu đàn kiến Ant colony optimization (ACO) để giải toán cấu trúc chuỗi nguồn mục đích để tìm chuỗi nhiễm sắc thể tổ tiên dựa số lần lai ghép Đây thuật toán lần đưa vào để giải toán cấu trúc chuỗi nguồn Và thực nghiệm thuật toán ACO tối ưu nhiều so với thuật toán RecBlock Luận văn cài đặt với thuật toán cập nhật mùi khác thuật toán ACO kết trả tối ưu thuật toán trước Ngoài phần kết luận, cấu trúc nội dung luận văn bao gồm: 52 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Đức Đông Hoàng Xuân Huấn (2011), “Về biến thiên vết mùi phương pháp ACO thuật toán mới”, Tạp chí Tin học điều khiển học, T.27, tr 263-275 Đỗ Đức Đông (2012), Phương pháp tối ưu đàn kiến ứng dụng, Đại học Công nghệ - Đại học Quốc gia Hà Nội, luận án Tiến sĩ [3] Hoàng Trọng Phán, Trương Thị Bích Phượng, Trần Quốc Dung (2005), Giáo trình di truyền học, Dự án Giáo dục Đại học- Đại học Huế [4] Lê Sỹ Vinh (2013), Giáo trinh Nhập môn Tin sinh tr.12-tr.23 – trường Đại học Công nghệ - Đại học Quốc gia Hà Nội [2] Tiếng Anh [5] V Bafna and V Bansal The number of recombination events in a sample history: Conict graph and lower bounds IEEE/ACM Transactions on Computational Biology and Bioinformatics, 1:78- 90, 2004 [6] Andrea Roli and Christian Blum.Tabu Search for the Founder Sequence Reconstruction Problem: A Preliminary Study (2009) [7] Andrea Roli, Christian Blum Large Neighbourhood Search Algorithms for the Founder Sequences Reconstruction Problem (2012) [8] C Blum and A Roli Metaheuristics in combinatorial optimization: Overview and conceptual comparison ACM Computing Surveys, 35(3):268 - 308, 2003 [9] E Ukkonen Finding founder sequences from a set of recombinants In R Guig o and D Gus-eld, editors, Proceedings of the 2nd Workshop on Algorithms in Bioinformatics { WABI2002, volume 2452 of Lecture Notes in Computer Science, pages 277- 286 Springer, Heidelberg, Germany, 2002 [10] G W Thyson, J Chapman, P Hugenholtz E Allen, R Ram, P Richardson, V Solovyev, E Rubin, D Rokhsar, and J Baneld Community structure and metabolism through reconstruction of microbial genomes from the environment Nature, 428:37- 43, 2004 [11] Jingliwu, Huawang A Parthenogenetic Algorithm for the Founder Sequence Reconstruction Problem (2013) [12] M Dorigo, L.M Gambardella (1997) “Ant colony system: A cooperative learning approach to the traveling salesman problem”, IEEE Transon evolutionary computation, vol.1, no.1, 1997, pp 53-66 [13] M Dorigo, T.Stützle (2004) Ant Colony Optimization, The MIT Press, Cambridge [14] M Dorigo, V Maniezzo, A Colorni (1991) “The Ant System: An autocatalytic optimizing process”, Technical Report 91-016 Revised, Dipartimento di Elettronica, Politecnico di Milano, Milano, Italy 53 [15] N El-Mabrouk and D Labuda Haplotypes histories as pathways of recombinations Bioinformatics, 20(12):1836-1841, 2004 [16] Nadia El-Mabrouk, and Damian Labuda Haplotypes histories as pathways of recombinations [17] P Rastas and E Ukkonen Haplotype inference via hierarchical genotype parsing In R Giancarlo and S Hannenhalli, editors, Proceedings of the 7th Workshop on Algorithms in Bioinformatics { WABI2007, volume 4645 of Lecture Notes in Computer Science, pages 85- 97 Springer, Heidelberg, Germany, 2007 [18] R.R Hudson and N.L Kaplan Statistical properties of the number of recombination events in the history of a sample of dna sequences Genetics, 111:147- 164, 1985 [19] R.R Hudson and N.L Kaplan Statistical properties of the number of recombination events in the history of a sample of dna sequences Genetics, 111:147- 164, 1985 [20] S Benedettini, C Blum, and A Roli A randomized iterated greedy algorithm for the founder sequence reconstruction problem In C Blum and R Battiti, editors, Proceedings of the Fourth Learning and Intelligent OptimizatioN Conference { LION 4, volume 6073 of Lecture Notes in Computer Science, pages 37{51 Springer, Heidelberg, Germany, 2010 [21] S.R Myers and R.C Griths Bounds on the minimum number of recombination events in a sample history Genetics, 163(1):375 - 394, 2003 [22] T Stützle, H H Hoos (2000) An analytical upper bound on the minimum number of recombinations in the historyof SNP sequences in populations Information Processing Letters, 109(9):427- 431, 2009 [23] Y Wu An analytical upper bound on the minimum number of recombinations in the historyof SNP sequences in populations Information Processing Letters, 109(9):427- 431, 2009 [...]... Search for the Founder Sequence Reconstruction Problem: A Preliminary Study (2009) [7] Andrea Roli, Christian Blum Large Neighbourhood Search Algorithms for the Founder Sequences Reconstruction Problem (2012) [8] C Blum and A Roli Metaheuristics in combinatorial optimization: Overview and conceptual comparison ACM Computing Surveys, 35(3):268 - 308, 2003 [9] E Ukkonen Finding founder sequences from... Baneld Community structure and metabolism through reconstruction of microbial genomes from the environment Nature, 428:37- 43, 2004 [11] Jingliwu, Huawang A Parthenogenetic Algorithm for the Founder Sequence Reconstruction Problem (2013) [12] M Dorigo, L.M Gambardella (1997) “Ant colony system: A cooperative learning approach to the traveling salesman problem , IEEE Transon evolutionary computation,... events in the history of a sample of dna sequences Genetics, 111:147- 164, 1985 [19] R.R Hudson and N.L Kaplan Statistical properties of the number of recombination events in the history of a sample of dna sequences Genetics, 111:147- 164, 1985 [20] S Benedettini, C Blum, and A Roli A randomized iterated greedy algorithm for the founder sequence reconstruction problem In C Blum and R Battiti, editors,... Stützle, H H Hoos (2000) An analytical upper bound on the minimum number of recombinations in the historyof SNP sequences in populations Information Processing Letters, 109(9):427- 431, 2009 [23] Y Wu An analytical upper bound on the minimum number of recombinations in the historyof SNP sequences in populations Information Processing Letters, 109(9):427- 431, 2009 ...52 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Đức Đông và Hoàng Xuân Huấn (2011), “Về biến thiên của vết mùi trong phương pháp ACO và các thuật toán mới”, Tạp chí Tin học và điều khiển học, T.27, tr 263-275 Đỗ Đức Đông (2012), Phương pháp tối ưu đàn kiến và ứng dụng, Đại học Công nghệ - Đại học Quốc gia Hà Nội, luận án Tiến sĩ [3] Hoàng Trọng

Ngày đăng: 26/08/2016, 16:57

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan