xây dựng mô hình biến đổi amino axit cho nấm

40 425 0
xây dựng mô hình biến đổi amino axit cho nấm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Tạ Thị Thúy Xây dựng mô hình biến đổi amino axit cho nấm KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Khoa học máy tính HÀ NỘI – 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Tạ Thị Thúy Xây dựng mô hình biến đổi amino axit cho nấm KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Khoa học máy tính Cán bộ hướng dẫn: TS.Lê Sỹ Vinh Cán bộ đồng hướng dẫn: ThS.Đặng Cao Cường HÀ NỘI - 2010 Lời cảm ơn Đầu tiên, em xin bày tỏ lòng kính trọng và cảm ơn sâu sắc tới Tiến sỹ Lê Sĩ Vinh và Thạc sĩ Đặng Cao Cường đã trực tiếp giao đề tài và tận tình hướng dẫn em trong suốt quá trình thực hiện khóa luận này. Em cũng xin bày tỏ lòng biết ơn đến các thầy cô trong trường Đại học Công nghệ đã giảng dạy và cho em những kiến thức quý báu, làm nền tảng để hoàn thành khóa luận cũng như thành công trong nghiên cứu, làm việc trong tương lai. Cuối cùng, cho em gửi lời cảm ơn sâu sắc tới gia đình đã luôn động viên và tạo điều kiện để em học tập tốt và hoàn thành được khóa luận. Hà Nội, tháng 05, năm 2010 Sinh viên Tạ Thị Thúy Mục lục Mở đầu Protein là các hợp chất hữu cơ làm nên sự sống với các chức năng thiết yếu như: là thành phần cấu tạo cơ sở của các tế bào, là enzyme đóng vai trò xúc tác cho tất cả các phản ứng hóa học trong cơ thể, là nguồn dinh dưỡng cung cấp năng lượng cho tế bào và cơ thể duy trì và lớn lên, Với vai trò to lớn như vậy, phân tích các chuỗi protein trở thành một trong các bài toán phổ biến trong phân tích sinh học. Một trong những thành phần quan trọng trong các bài toán này đó là mô hình biến đổi amino axit. Hiện nay, các mô hình chung đã được ước lượng, tuy nhiên cho kết quả chưa tốt với dữ liệu của các loài sinh vật riêng biệt như nấm, Khóa luận tốt nghiệp này sẽ trình bày tổng quan thế nào là mô hình biến đổi amino axit và áp dụng phương pháp maximum likelihood để ước lượng mô hình biến đổi amino axit mới cho nấm. 5 Ch ng 1.ươ Tổng quan về mô hình biến đổi amino axit Chương 1 giới thiệu tóm tắt các khái niệm, các quá trình trong phân tích sinh học; nêu tổng qua thế nào là mô hình biến đổi amino axit và vì sao sử dụng nó. 1.1. Giới thiệu 1.1.1 ADN, ARN Với hầu hết các loài sinh vật, thông tin di truyền được lưu trữ trong các chuỗi ADN (hoặc trong ARN với một số loài vi rút) . ADN là đại phân tử gồm các đơn phân tử là các nucleotid. Có bốn loại nucleotid là Adenine (A), Thymine (T), Guanine (G), Cytosine (C) (với ARN T được thay thế bằng Uracil (U)). ADN gồm 2 chuỗi polynucleotid xoắn kép liên kết với nhau theo nguyên tắc bổ sung A = T, G = C (tức là tại 1 vị trí, nếu nucleotid A ở chuỗi này thì tương ứng ở chuỗi kia là nucleotid T, tương tự với G và C). ARN là chuỗi đơn polyribonucleotid. Ví dụ: - Chuỗi ADN : A T G T A G C G G T A C | | | | | | | | | | | | T A C A T C G C C A T G - Chuỗi ARN : AAUGACUUCUAGCCGA Thông tin di truyền được truyền từ thế hệ này sang thế hệ khác nhờ quá trình sao chép ADN (chuỗi con sinh ra giống hệt chuỗi mẹ). 1.1.2 Amino axit và quá trình tổng hợp protein Amino axit là đơn phân tử cấu tạo nên protein. Giống như ADN, tính đặc thù và đa dạng của protein thể hiện bởi số lượng , thành phần và trật tự sắp xếp các amino axit trong chuỗi. Có tất cả 20 loại amino axit cấu tạo nên các protein. Chuỗi amino axit được tổng hợp từ một đoạn của chuỗi ADN (gen) thông qua quá trình sau: ADN ARN protein Trong quá trình sao mã (transcription), trình tự các nucleotid trong một chuỗi đơn của chuỗi ADN, gọi là mạch gốc, sẽ quy định trình tự các ribonucleotid trong 6 Dịch mã Sao mã ARN theo nguyên tắc bổ sung (A = U, G = C). Trong quá trình dịch mã (translation), cứ bộ ba ribonucleotid trong ARN sẽ quy định 1 amino axit trong protein. Hay nói cách khác, mỗi bộ ba nucleotid trong chuỗi ADN (được gọi là một codon hay mã di truyền) sẽ mã hóa cho 1 amino axit trong chuỗi protein được tổng hợp. Ví dụ về quá trình sinh tổng hợp protein: - Mạch gốc ADN: T A C G C C A A G A T T Sao mã - Mạch ARN A U G C G G U U C U A A Dịch mã - Chuỗi amino axit: aa mđ aa 1 aa 2 aa 3 Mã di truyền hay codon có một vài đặc điểm sau: - Mã di truyền là liên tục và không gối lên nhau, 1 chuỗi ADN chỉ xác định một bộ mã duy nhất. - Mỗi codon chỉ xác định cho một amino axit duy nhất hoặc xác định sự kết thúc quá trình - Mã di truyền có tính thoái hóa: có tất cả 64 (4 3 ) codon, trong đó, trừ 3 codon để báo hiệu dừng quá trình, 61 codon còn lại dùng để mã hóa 20 loại amino axit. Vì vậy mỗi amino axit có thể được xác định bởi nhiều hơn một codon. - Mã di truyền có tính phổ biến (universal), nghĩa là thống nhất cho toàn bộ các loài sinh vật. Mã universal của 20 loại amino axit được cho ở bảng 1. 7 Amino axit Mã 3 chữ cái Mã 1 chữ cái Codon mã hóa 8 Alanine Ala A GCU, GCC, GCA, GCG Cysteine Cys C UGU, UGC Aspartic axit Asp D GAU, GAC Glutamic axit Glu E GAA, GAG Phenylalanine Phe F UUU, UUC Glycine Gly G GGU, GGC, GGA, GGG Histidine His H CAU, CAC Isoleucine Ile I AUU, AUC, AUA Lysine Lys K AAA, AAG Leucine Leu L UUA, UUG, CUU, CUC, CUA, CUG Methionine Met M AUG (START) Asparagine Asn N AAU, AAC Proline Pro P CCU, CCC, CCA, CCG Glutamine Gln Q CAA, CAG Arginine Arg R CGU, CGC, CGA, CGG, AGA, AGG Serine Ser S UCU, UCC, UCA, UCG, AGU, AGC Threonine Thr T ACU, ACC, ACA, ACG Valine Val V GUU, GUC, GUA, GUG Trytophan Trp W UGG Tyrosine Tyr Y UAU, UAC STOP UAA, UGA, UAG Bảng 1. Mã univesal của 20 loại amino axit 1.1.3 Đột biến và tương đồng Trong quá trình phát triển và tiến hóa, dưới tác động của môi trường và các tác nhân hóa học, các quá trình đột biến xảy ra, trải qua chọn lọc tự nhiên và được tích lũy dần dần dẫn đến sự biến đổi thông tin di truyền giữa các thế hệ, hình thành nên sự đa dạng sinh học. Từ chuỗi ADN ban đầu sau các quá trình đột biến sẽ tạo ra các chuỗi ADN con không còn giống hệt chuỗi ADN mẹ nữa, nếu được chọn lọc tự nhiên chấp nhận nó sẽ tồn tại và truyền cho đời sau như một chuỗi mới độc lập. Sự kiện đó gọi là sự phân kỳ chuỗi. Các đột biến được xét ở đây là các đột biến điểm bao gồm: - mất 1 nucleotid. - thêm 1 nucleotid. - thay thế nucleotid này thành nucleotid khác. Việc biến đổi chuỗi ADN (tức là biến đổi bộ mã hóa cho chuỗi protein) có thể dẫn đến làm biến đổi chuỗi amino axit tương ứng: 9 - thay thế amino axit này thành amino axit khác - thêm 1 amino axit - mất 1 amino axit - hoặc nếu xảy ra đột biến thêm hoặc mất 1 hoặc 2 nucleotid, dẫn đến dịch chuyển toàn bộ bộ mã, sẽ làm biến đổi hoàn toàn chuỗi protein được tổng hợp. Ví dụ về đột biến thay thế: Chuỗi tổ tiên : T A C G C C A A G A T A M R L Y Chuỗi con sau đột biến: T A C G A C A A G A T G M L L Y Nhìn chung, các chuỗi có họ hàng càng xa, đột biến xảy ra càng nhiều thì sự phân kỳ chuỗi càng xa và sự khác nhau giữa các chuỗi càng lớn. Từ đây dẫn đến một khái niệm mới đó là “tính tương đồng”. Hai đặc tính được xem là tương đồng nếu chúng được coi như là phân kỳ từ một tổ tiên chung. Các đặc tính tương đồng có thể là các đặc tính hình thái (hình dạng, màu sắc, ) hay trật tự cấu tạo các chuỗi nucleotid hay amino axit. 1.1.4 Sắp hàng trình tự Kết quả của sự tiến hóa phân kỳ là các chuỗi nucleotid (amino axit) tương đồng sẽ khác nhau về số lượng cũng như thành phần các nucleotid (amino axit). Các bài toán phân tích sinh học đều dựa trên mối quan hệ giữa các đặc tính tương đồng, do đó bước đầu tiên là các chuỗi cần được sắp xếp lại sao cho các vị trí được coi là tương đồng sẽ tương ứng với nhau. Sắp hàng trình tự là bài toán giải quyết vấn đề trên. Các chuỗi được sắp thành một ma trận D, trong đó mỗi hàng là một chuỗi đang xét, các vị trí được coi là tương đồng sẽ được sắp thẳng trên một cột. Các chuỗi sau khi sắp hàng được gọi là một alignment, nếu chỉ có 2 chuỗi gọi là pair-alignment, nếu có nhiều chuỗi gọi là multi-alignment. Do độ dài của hai chuỗi có thể không bằng nhau nên khoảng trống hoặc dấu cách được thêm vào thể hiện đột biến thêm/mất nucleotid (amino axit) tại vị trí đó. 10 [...]... trận biến đổi và các mô hình xác suất khác f Lặp lại quá trình Các bước (c)(d)(e) được lặp lại với mô hình tiến hóa sử dụng được thay bằng mô hình Q1, kết quả được mô hình mới gọi la Q2 Mô hình Q2 được chọn làm mô hình biến đổi amino axit cho nấm 4.3 Kết quả và đánh giá 4.3.1 Kết quả Với các bước trên, mô hình mới cho dữ liệu nấm được ước lượng, gọi là mô hình FUG Mô hình gồm ma trận trao đổi amino axit. .. tham số tốc độ ở bước (c) e Gọi Q’ là mô hình ước lượng được từ quá trình trên Thay Q’ là mô hình khởi tạo, lặp lại các bước trên: (c) xây dựng cây (d) ước lượng mô hình mới Q Quá trình lặp tiếp tục cho tới khi mô hình Q gần như không đổi so với mô hình Q’ 26 Chương 4 nấm Xây dựng mô hình biến đổi amino axit cho 4.1 Dữ liệu Để ước lượng mô hình biến đổi amino axit, dữ liệu được download từ cơ sở dữ... nucleotid hay amino axit trong một chuỗi luôn luôn được xem như là một sự kiện ngẫu nhiên Do đó cần một mô hình cung cấp các mô tả về quá trình này, gọi là mô hình biến đổi hay mô hình tiến hóa [10] Trước khi nói đến mô hình biến đổi amino axit, hãy cùng xem xét mô hình biến đổi nucleotid 1.2.1 Mô hình biến đổi nucleotid Thông tin tham khảo trong [10],[16] Mô hình biến đổi nucleotid mô hình hóa quá trình... trận trao đổi amino axit và tần suất amino axit giữa mô hình FUG với 15 mô hình Hình 2 Hệ số tốc độ trao đổi giữa các amino axit của mô hình FUG và LG 30 Hình 3 Sự khác biệt tương đối giữa hệ số tốc độ trao đổi amino axit của mô hình FUG và LG Mỗi giá trị (thể hiện bằng một hình tròn) được tính bằng công thức (FUG ij – LGij)/ (FUGij – LGij) trong đó Mij là hệ số tốc độ trao đổi giữa amino axit i và... amino axit R và vec tơ tần suất amino axit π Trước hết, mô hình FUG được so sánh với các mô hình khác về tốc độ trao đổi và tần suất amino axit Bảng 1 cho thấy mô hình FUG ước lượng khá là gần với mô hình LG cả về hệ số trao đổi tốc độ và tần suất amino axit, trong khi với các mô hình khác thì sự khác biệt là khá lớn Ở hình 1, tần suất amino axit của FUG được so sánh với 3 mô hình được coi là tốt nhất gồm... như trên Mô hình biến đổi amino axit thể hiện tính chất sinh học, vật lý, hóa học của các amino axit Ví dụ các amino axit có cấu trúc hóa học gần giống nhau và codon mã hóa cho chúng chỉ khác nhau bởi 1 nucleotid sẽ có tốc độ biến đổi nhanh hơn các biến đổi mà cần thay thế nhiều hơn 1 nucleotid trong codon 14 Tuy nhiên với 20 loại amino axit so với 4 loại nucleotid, mô hình biến đổi amino axit chứa... (Yang, 1994) Tham số α thường được ước lượng từ dữ liệu Có thể kết hợp mô hình 2 trạng thái với mô hình sử dụng phân phối Γ Khi đó, mô hình lai sẽ giả định tỉ lệ θ các vị trí là không đổi, các vị trí khác là biến đổi với tốc độ biến đổi tuân theo phân phối Γ 1.2.5 Tại sao sử dụng mô hình biến đổi amino axit Mô hình biến đổi amino axit là một trong những thành phần quan trọng trong các bài toán phân... lượng mô hình LG của Le và Gascuel [14] 3.2.1 Mô hình Quá trình tiến hóa của các chuỗi protein có thể được thể hiện bằng cây tiến hóa trong đó sự biến đổi các amino axit xảy ra dọc theo nhánh của cây Quá trình biến đổi giữa các amino axit được mô hình hóa bằng ma trận tốc độ biến đổi tức thời Q 20x20 = {qxy} được giữ không đổi trong suốt quá trình tiến hóa Trong đó q xy (x#y) là số biến đổi từ amino axit. .. được chuẩn hóa sao cho tổng số đột biến thay thế trong 1 đơn vị thời gian (gọi là tốc độ biến đổi) là 1, hay: Thì khi đó Pij(t) sẽ là xác suất biến đổi từ nucleotid i thành nucleotid j sau t đột biến xảy ra 1.2.2 Mô hình biến đổi amino acid Tương tự nucleotid, quá trình biến đổi giữa các cặp amino acid được mô hình hóa dưới dạng một ma trận 20x20 gọi là ma trận biến đổi tốc độ tức thời amino acid Q20x20... cách tiến hóa giữa các chuỗi - Xây dựng cây phát sinh loài (cây tiến hóa) - Các ứng dụng khác như dự đoán chức năng của protein mới, Đối với bài toán xây dựng cây phát sinh loài, tùy dữ liệu cần phân tích là các chuỗi nucleotid hay amino axit, mô hình tiến hóa được sử dụng là mô hình biến đổi nucleotid hay mô hình biến đổi amino axit Việc suy ra cây tiến hóa từ chuỗi amino axit có một vài ưu điểm so với . khi nói đến mô hình biến đổi amino axit, hãy cùng xem xét mô hình biến đổi nucleotid. 1.2.1 Mô hình biến đổi nucleotid Thông tin tham khảo trong [10],[16] Mô hình biến đổi nucleotid mô hình hóa. θ các vị trí là không đổi, các vị trí khác là biến đổi với tốc độ biến đổi tuân theo phân phối Γ. 1.2.5 Tại sao sử dụng mô hình biến đổi amino axit Mô hình biến đổi amino axit là một trong những. các chuỗi nucleotid hay amino axit, mô hình tiến hóa được sử dụng là mô hình biến đổi nucleotid hay mô hình biến đổi amino axit. Việc suy ra cây tiến hóa từ chuỗi amino axit có một vài ưu điểm

Ngày đăng: 13/07/2014, 17:21

Mục lục

  • Tạ Thị Thúy

    • HÀ NỘI – 2010

    • Tạ Thị Thúy

      • HÀ NỘI - 2010

      • Mở đầu

      • Chương 1. Tổng quan về mô hình biến đổi amino axit

        • 1.1. Giới thiệu

          • 1.1.1 ADN, ARN

          • 1.1.2 Amino axit và quá trình tổng hợp protein

          • 1.1.3 Đột biến và tương đồng

          • 1.1.4 Sắp hàng trình tự

          • 1.1.5 Khoảng cách tiến hóa

          • 1.1.6 Cây phát sinh loài

          • 1.2. Mô hình biến đổi amino axit

            • 1.2.1 Mô hình biến đổi nucleotid

            • 1.2.2 Mô hình biến đổi amino acid

            • 1.2.3 Ước lượng khoảng cách tiến hóa

            • 1.2.4 Mô hình với tốc độ biến đổi theo vị trí

            • 1.2.5 Tại sao sử dụng mô hình biến đổi amino axit

            • Chương 2. Các mô hình biến đổi amino axit hiện tại

              • 2.1. Các mô hình hiện tại

              • 2.2. Mô hình Dayhoff, JTT

              • 2.3. Mô hình VT

              • 2.4. Mô hình mtREV

              • 2.5. Mô hình WAG

              • 2.6. Mô hình LG

Tài liệu cùng người dùng

Tài liệu liên quan