Sắp hàng hoàn chỉnh hai hệ genome

42 356 0
Sắp hàng hoàn chỉnh hai hệ genome

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tài liệu tham khảo công nghệ thông tin Sắp hàng hoàn chỉnh hai hệ genome

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hà Tuấn Cường SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin HÀ NỘI – 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hà Tuấn Cường SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: GV hướng dẫn: HÀ NỘI – 2010 Công Nghệ Thông Tin TS Lê Sỹ Vinh Lời cảm ơn Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc đến thầy giáo TS Lê Sỹ Vinh người không quản vất vả tận tình hướng dẫn em suốt thời gian làm khóa luận tốt nghiệp vừa qua Em xin bày tỏ lòng biết ơn tới thầy, cô giáo trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Các thầy cô dạy bảo, dẫn chúng em tạo điều kiện tốt cho chúng em học tập suốt trình học đại học Em xin gửi lời cảm ơn tới thầy giáo PGS.TS Từ Minh Phương, người cho em lời khun bổ ích q trình làm khóa luận Tơi xin cảm ơn người bạn mình, bạn ln bên tơi, giúp đỡ cho tơi ý kiến đóng góp quý báu học tập sống Cuối xin gửi tới bố mẹ toàn thể gia đình lịng biết ơn tình cảm u thương Con xin dành tặng bố mẹ kết mà đạt suốt bốn năm học đại học Con cám ơn bố mẹ chị nhiều Khóa luận tài trợ phần đề tài nghiên cứu QC.09.09 thuộc Đại học Quốc Gia Hà Nội Hà Nội, tháng năm 2010 Hà Tuấn Cường Page | Tóm tắt Sự phát triển cơng nghệ giải mã trình tự giúp giải mã ngày nhiều hệ gen, đặc biệt hệ gen có kích thước vừa nhỏ vi rút hay vi khuẩn (hơn 7000 gen vi rút vi khuẩn giải mã) Bên cạnh hệ gen sinh vật bậc cao giải mã hồn chỉnh người, chó, chuột Điều dẫn đến nhu cầu cấp thiết phải nghiên cứu phương pháp xây dựng chương trình so sánh bắt cặp trình tự cho hai hệ gen Trong khóa luận này, em xin trình bày phương pháp xây dựng chương trình so sánh bắt cặp trình tự hồn chỉnh cho hai hệ gen Chương trình cho phép bắt cặp tồn ADN hai hệ gen, xác định biến đổi tửng nucleotide biến đổi mức độ gen Chương trình xây dựng dựa cở sở kết hợp cải tiến phương pháp có “Pairwise Alignment with Rearrangement” [23], BLASTZ [18] “Optimal Alignment with Linear space” [9] Qua khắc phục hạn chế lựa chọn ưu điểm chúng để tạo thành chương trình hàng hệ gen hồn chỉnh Chương trình thực nghiệm kết liệu mô liệu thật lấy từ Gen Bank NCBI http://www.ncbi.nlm.nih.gov thu kết khả quan Đối với mô phỏng, kết hàng chương trinh cho thấy xác định đoạn gen có độ tương đồng cao, tỷ lể hàng nucleotide giống đạt mức 97% Khi thực nghiệm với liệu thật so sánh độ tương đồng với giá trị bắt cặp thu chạy phương thức Hungarian[8] với hệ gen chia sẵn cách sử dụng đoạn gen cung cấp Gen Bank cho kết tương đương chí tốt hầu hết trường hợp Page | Mục lục Hà Tuấn Cường .1 HÀ NỘI - 20< hai số cuối năm bảo vệ KLTN> Hà Tuấn Cường .2 HÀ NỘI - 20< hai số cuối năm bảo vệ KLTN> Lời cảm ơn .1 Tóm tắt Mục lục Danh sách hình vẽ Danh sách bảng Lời mở đầu Chương Giới thiệu .8 1.1.1 Hệ thống ký tự .9 1.1.2 Các phép biến đổi 1.1.3 Khoảng cách 10 Chương Bài toán hàng hoàn chỉnh hai hệ gen 15 2.1 Tổng quan 16 2.2 Pairwise Alignment with Rearrangement 16 2.2.1 Cơ sở lý thuyết 16 2.2.3 Độ phức tạp thuật toán 21 2.3 Bắt cặp với trình tự lớn 22 Chương Full Genome Alignment .24 3.1 Xây dựng hệ thống 24 24 3.2 Giới thiệu BLASTZ 25 Page | 3.2.1 Tính BLASTZ 26 3.2.2 Chương trình BLASTZ 27 3.3 Optimal Alignment with Linear space 28 Chương Kết 31 4.1 Chương trình 31 4.2 Kiểm thử 33 4.2.1 Dữ liệu mô 33 4.2.2 Dữ liệu thật 36 Chương Kết luận .38 Tài liệu tham khảo .39 Danh sách hình vẽ Page | Hình Ví dụ trình tự Hình cùng: đoạn 18S rDNA sâu bọ khác cánh Hình trên: Tổng quát thể động vật chân dốt Hình dưới: Orthopteran stridulation Hình cùng: Đoạn gen mtDNA [13] .8 Hình 2: Các biến đổi mức độ gen Người Khỉ 13 Hình 3:Hình trái: ví dụ phép biến đổi S1(k1, t1) S2(k2, t2) độc lập với Hình phải:Đổi chỗ đồng thời phép biến đổi độc lập .20 Hình 4: Single Swap (trái) Couple Swap (phải) 22 Hình 5:Sắp hàng trình tự với Ukkonen Barrier [13] 30 Hình 6: Giao diên chương trình 32 Hình 7: Kết chương trình 33 Page | Danh sách bảng Bảng 1: Ma trận trọng số BLASTZ 26 Bảng 2: Kết Test với số Inversion – Move .34 Bảng 3: Kết Test với số Inversion – Move .35 Bảng 4: Kết Test với số Inversion – Move .35 Bảng 5: Kết Test với số Inversion – Move .35 Bảng 6: Kết chạy liệu thật 37 Page | Lời mở đầu Năm 1854, Charles Darwin cho xuất sách “Nguồn gốc lồi sinh vật”, cơng trình nghiên cứu sinh học tiếng đặt tảng cho thuyết tiến hóa ơng Trong có viết “tất động vật tương tự phải tiến hóa từ tổ tiên chung tất sinh vật phải tiến hóa từ vài tổ tiên chung sống cách nhiều triệu năm.” [7] Bộ gen sinh vật trình tự ADN, theo thuyết tiến hóa chúng biến đổi phát triển từ tổ tiên chung Trải qua hàng triệu năm tiến hóa phát triển, số đoạn gen bị di chuyển vị trí so với ban đầu, hình thành lên hệ gen khác đại diện cho hàng tỷ sinh vật trái đất Một nhiệm vụ cần thiết phải tìm mối quan hệ mặt cấu trúc hệ gen sinh vật, qua xây dựng lên tranh tồn cảnh tương tự tiến hóa sinh vật hành tinh Với phát triển công nghệ giải mã trình tự, ngày nhiều hệ gen giải mã hoàn chỉnh lưu trữ ngân hàng sở liệu gen Việc so sánh tìm tương đồng hệ gen cách thủ công thực Do dẫn đến nhu cầu cấp thiết phải nghiên cứu phương pháp xây dựng chương trình để so sánh bắt cặp trình tự cho hai hệ gen Mặc dù số phương pháp nghiên cứu phát triển, chúng tập trung vào xác định bắt cặp cho vùng ADN có độ tương đồng cao hai hệ gen Tức là, phần lớn hệ gen không bắt cặp so sánh ta tiến hành với lồi sinh vật có hệ gen khác nhiều Vì cần phải xây dưng hệ thống có khả bắt cặp tồn ADN hai hệ gen Page | Chương Giới thiệu Chương giới thiệu kiến thức tin sinh học, toán bắt cặp trình tự bắt cặp trình tự theo hệ gen Nội dung giới thiệu dựa phần giảng Viện Đại học Ohio State, Hoa Kỳ [13] 1.1 Trình tự Một hệ gen sinh vật thể trình tự ADN Trình tự dãy tuyến tính phần tử sặp xếp theo thứ tự Như trình tự chứa hai loại thơng tin: thơng tin phần tử thông tin định vị thông tin vị trí tương đối phần tử so với phần tử khác Các thơng tin định vị xác định theo nhiều cách theo trục, theo thời gian, vị trí nhiễm sắc thể vịng protein Hình Ví dụ trình tự Hình cùng: đoạn 18S rDNA sâu bọ khác cánh Hình trên: Tổng quát thể động vật chân dốt Hình dưới: Orthopteran stridulation Hình cùng: Đoạn gen mtDNA [13] Page | BLASTZ phương pháp tìm kiếm đoạn ADN tương đồng phát triển nhóm Miller thuộc trường Đại học Pennsylvania Hoa Kỳ Nó áp dụng thành cơng việc bắt cặp hai hệ Gen Người Chuột [18] 3.2.1 Tính BLASTZ BLASTZ sử dụng chiến lược sử dụng Gapped BLAST [3] là: • Tìm kiếm cặp đoạn ngắn ADN giống hai hệ gen gọi hạt giống (seed) • Mở rộng hạt giống hai phía cho q trình mở rộng chi phí khơng vượt qua ngưỡng cho trước Q trình mở rộng khơng cho phép chèn gap • Tiến hành tiếp tục mở rộng cặp ADN bước lại với để tạo cặp ADN lớn cách cho phép chèn thêm gap Việc mở rộng đảm bảo chi phí khơng vượt ngưỡng định Tuy nhiên so với Gapped BLAST chương trình hàng hệ gen khác, BLASTZ có ba cải tiến quan trọng Trước tiên, BLASTZ sử dụng cách tính điểm bắt cặp đánh giá Chiromonte [6] Theo thay chi phí hàng gồm chi phí thay chi phí hàng xác giá trị chung với tất nucleotide BLASTZ chi phí hàng nucleotide cho ma trận sau : A C G T A 91 -114 -31 -123 C -114 100 -125 -31 G -31 -125 100 -114 T -123 -31 -114 91 Bảng 1: Ma trận trọng số BLASTZ Chi phí chèn – xóa ký tự gap cho hàm tuyến tính Việc chèn – xóa k ký tự gap liên tiếp phải chụi điểm phạt 400 + 30k Page | 26 Hai thay đổi giúp cải tiến đáng kể tốc độ thực độ nhay BLASTZ việc bắt cặp toàn bộ gen Thứ việc loại bỏ đoạn trùng lặp Ví dụ chương trình nhận nhiều khu vực gen chuột hàng với phân khúc gen người, chương trình tự động đánh dấu để bỏ qua bước sau trình bắt cặp Cải tiến giúp BLASTZ khơng bắt cặp đoạn ADN trùng – đoạn ADN nhân lên q trình biến đổi tiến hóa Thứ hai BLASTZ áp dụng ý tưởng thông minh Ma [15] việc xác định đoạn ngắn gần giống ban đầu (seed) Ma đề xuất việc tìm kiếm 19 nucleotide liên tiếp, 12 nucleotide định chuỗi 1110100110010101111 giống hệt Để tăng độ nhạy, BLASTZ cịn cho phép vị trí 12 vị trí phép có thay cặp nucleotide tương đồng (A – G, G – A, C – T, T – C) 3.2.2 Chương trình BLASTZ Chương trình BLASTZ cài đặt theo năm bước Bước thực tìm kiếm đánh dấu đoạn giống bị lặp lại hai trình tự (Repeat Finding) Bước tiến hành tìm kiếm cặp hạt giống (seed) có độ tương đồng cao hai hệ gen, bước BLAST sử dụng độ tương đồng 12of19 đề xuất Ma[15] Ngồi cho phép có thay cặp nucleotide vị trí 12 vị trí Bước BLASTZ tiến hành mở rộng cặp seed tìm Quá trình mở rộng thực sau: • Lần lượt mở rộng cặp seed hai phía, khơng cho phép chèn gap Q trình mở rộng dừng lại chi phí phạt vượt ngưỡng cho phép (X) • Nếu điểm số hàng cặp ADN thu đạt mức K cho trước Tiếp tục tiến hành mở rộng cặp ADN phía với việc cho phép chèn gap Q trình mở rộng tiến hành chi phí phạt chưa vượt ngưỡng cho phép (Y) Page | 27 • Giữ lại đoạn ADN có điểm số hàng đạt mức cho trước (L) Bước thực ghi nhận lại vị trí đoạn tương đơng tìm cho phù hợp với hệ gen ban đầu Bước tiến hành điều chỉnh lại kết cho phù hợp với tùy chọn Cuồi cùng, BLASTZ có tùy chọn cho phép việc đảo ngược hệ gen tiến hành hành lại với hệ gen lại Việc cho phép tìm kiếm đoạn tương đồng trường hợp đoạn gen bị đảo ngược BLASTZ xây dưng hệ thống tùy chọn, cho phép người dùng thay đổi tham số chương trình phù hợp với mục đích người sử dụng 3.3 Optimal Alignment with Linear space “Pairwise Alignment with Rearrangement” sử dụng thuật toán quy hoạch động Needleman – Wunsch [16] (Xem phần 1.2) để tính tốn trọng số khoảng cách đoạn gen đồng thời xác định biến đổi điểm Thuật tốn “Pairwise Alignment” Needleman – Wunsch có hạn chế định làm việc mà chi phí chèn – xóa gap trọng số cố định Trên thực tế trình tiến hóa xóa bỏ đoạn ADN liên tiếp, việc xóa nucleotide khó khăn nhiều so với nucleotide Do hàm chi phí cho việc xóa – chèn đoạn gap liên tiếp hàm tuyết tính w(k) = a + bk cho việc xóa k nucleotide liên tiếp w(k) < kw(1) Vì vậy, chương trình mới, tiến hành thay thuật toán “Pairwise Alignment” đơn giản Needleman – Wunsch thuật toán “Optimal Alignment with Linear space” Gotoh[9] Trong thuật toán Gotod đưa định nghĩa sau: • dAB( Ai , Bj ) chi phí bắt cặp hai đoạn Ai Bj Ai hàng với Bj Page | 28 • dA- ( Ai , Bj ) chi phí bắt cặp hai đoạn Ai Bj Ai hàng với kí tự gap • d-B ( Ai , Bj ) chi phí bắt cặp hai đoạn Ai Bj Bj hàng với kí tự gap Với w(Ai, Bj) chi phí hàng ký tự Ai ký tự Bj w(k) = a +bk chi phi chèn – xóa k ký tự ta có cơng thức quy hoạch động: dAB( Ai, Bj ) = (dAB( Ai-1, Bj-1 ), dA-( Ai-1, Bj-1 ), d-B( Ai-1, Bj-1 ) ) + + w( Ai, Bj ) dA- ( Ai, Bj ) = min(dAB( Ai-1, Bj ) + a, dA-(Ai-1, Bj ), d-B( Ai-1, Bj) + a)+ b d-B ( Ai,Bj ) = min(dAB( Ai, Bj-1 ) + a, dA-(Ai, Bj-1) + a, d-B( Ai, Bj-1 ) )+ b Chi phí tối ưu để bắt cặp hai trình tự A B giá trị nhỏ ba giá trí dAB(A, B), dA-(A, B) d-B(A, B) Thuật tốn Gotoh có độ phức tạp thời gian O(n2) yêu cầu không gian nhớ O(n2) Do có tồn số khó khăn làm việc với chuỗi có độ dài lớn Trong chương trình mình, em đưa thêm số cải tiến để giải vấn đề Thứ nhất, áp dụng nhận xét Ukkonen cho việc bắt cặp trình tự gần giống nhau, Ukkonen bắt cặp trình tự gần giống nhau, có khu vực quanh đường chéo sử dụng [22] Do sử dụng thêm barrier trình quy hoạch động để giảm thời gian thực chương trình Áp dụng nhận xét cho thuật toán Gotoh, độ phức tạp giời gian giảm xuống O(dm) với d khoảng cách độ dài hai trình tự, m độ dài trình tự ngắn Page | 29 Hình 5:Sắp hàng trình tự với Ukkonen Barrier [13] Thứ hai, trình quy hoạch động theo thuật toán Gotod, giá trị hàng tính dựa vào hàng trước nó, ta sử dụng mảng chiều để thay cho hàng hai chiều Như giảm khơng gian nhớ xuống cịn O(n) Chương trình cụ thể sau : Optimal Alignment with Linear space 10 11 12 13 14 15 barrier = |X| - |Y| + pairwiseBarrier for i=1 to |Y| d2n[0] = maxInt d1n[0] = a + bi d0n[0] = maxInt u = max(1, i - barrier) v = min( |X|, i + barrier) if u > then d0n[u - 1] = maxInt d1n[u - 1] = maxInt d2n[u - 1] = maxInt end if if v

Ngày đăng: 23/11/2012, 15:04

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan