ỨNG DỤNG THUẬT TOÁN BURROWSWHEELER TRANSFORM TRONG QUÁ TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM

80 275 0
ỨNG DỤNG THUẬT TOÁN BURROWSWHEELER TRANSFORM TRONG QUÁ TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tin Sinh học (Bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của các ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính, trí tuệ nhân tạo, hóa học và hóa sinh để giải quyết các vấn đề sinh học. Sự ra đời của Tin Sinh học là sự hợp tác chặt chẽ giữa các nhà Tin học và các nhà nghiên cứu Sinh học nhằm khai phá dữ liệu hiệu quả, Tin – Sinh học đã trở thành mục tiêu công nghệ của ngành Sinh học trong thế kỉ mới. Bắt kịp xu thế phát triển của khoa học thế giới, những năm gần đây các nhà Tin Sinh học Việt Nam đã xác định được những hướng đi phù hợp và đạt được thành công bước đầu với một số công trình nghiên cứu mang tính ứng dụng cao. Trong sinh học, việc giải mã trình tự gen rất quan trọng, nó góp phần trong việc nghiên cứu sinh học cơ bản và trong nhiều lĩnh vực ứng dụng như chẩn đoán bệnh tật, công nghệ sinh học, sinh học pháp y, sinh học hệ thống... Do đặc tính khí hậu nhiệt đới, Việt Nam có những lợi thế về những nguồn dữ liệu Sinh học to lớn, hữu ích, điều đó trở thành một điều kiện thuận lợi và cũng là thách thức cần đến sự đóng góp của Tin Sinh học. Nhận thấy tính mới mẻ trong lĩnh vực nghiên cứu Tin – Sinh học nói chung cũng như những ưu điểm phát triển của nghành Tin Sinh học nước nhà, học viên đã lựa chọn đề tài “ứng dụng thuật toán Burrow – Wheeler Tranform trong quá trình giải mã hệ gen lúa”. Luận văn bao gồm ba chương chính, nội dung tóm lược như sau: Chương 1 trình bày tổng quan và các khái niệm cơ bản trong sinh học phân tử, các định dạng dữ liệu trong bài toán Tin – Sinh học. Mục tiêu chính của chương này nhằm làm rõ các khái niệm giới thiệu vấn đề và nội dung sẽ trình bày trong chương tiếp theo của luận văn. Chương 2 trình bày quá trình giải mã hệ gen, bài toán gióng hàng trình tự trong việc giải mã hệ gen. Chương 2 sẽ nêu một số thuật toán cơ bản giải bài toán gióng hàng trình tự. Trọng tâm của chương 2 giới thiệu ý tưởng và quá trình xây dựng thuật toán Burrows–Wheeler Transform trong quá trình giải mã hệ gen. Chương 3 Trình bày về quá trình thực nghiệm và ứng dụng thuật toán trên dữ liệu sinh học. Tác giả tham gia cùng nhóm nghiên cứu thuộc phòng Tin – Sinh học, viện Công nghệ Sinh học, Viện Hàn lâm Khoa học và Công nghệ Việt Nam xây dựng công cụ dóng hàng trình tự BWTAligner dựa trên thuật toán BWT đã tìm hiểu. Đối chứng kết quả khi dóng hàng trình tự trên công cụ dóng hàng phổ biến BWA. Trong chương này thực hiện từng bước chuẩn bị dữ liệu, cài đặt môi trường, sử dụng công cụ, đưa ra kết quả thực nghiệm và đánh giá kết quả của luận văn.

... (Cytosine) Máy giải trình tự hệ (Next-generation sequencing) giải trình tự tồn hệ gen Máy giải trình tự khơng tạo chuỗi trình tự tồn hệ gen, mà tạo hàng triệu đoạn trình tự nhỏ cắt từ hệ gen, gọi trình. .. thiệu thuật toán Burrows – Wheeler Tranform (BWT) nhằm giải hiệu toán gióng hàng trình tự cách nhanh chóng, xác hiệu 2.1 Quy trình giải mã hệ gen tốn gióng hàng trình tự 2.1.1 Giải mã hệ gen quy trình. .. TỰ NHIÊN - Vũ Thị Diệu ỨNG DỤNG THUẬT TỐN BURROWS-WHEELER TRANSFORM TRONG Q TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM Chuyên ngành: Cơ sở toán cho tin học Mã số: 60480104 LUẬN VĂN THẠC SĨ

Ngày đăng: 09/07/2018, 15:09

Từ khóa liên quan

Mục lục

  • DANH MỤC CÁC HÌNH VẼ

  • DANH MỤC CÁC BẢNG BIỂU

  • MỞ ĐẦU

  • CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

    • 1.1 Đặt vấn đề

      • 1.1.1 Tin – Sinh học

      • 1.1.2 Khai phá dữ liệu trong Tin – Sinh học

      • 1.1.3 Hướng phát triển của ngành Tin – Sinh học tại Việt Nam

    • 1.2 Mục tiêu của luận văn

    • 1.3 Các khái niệm cơ bản trong sinh học phân tử

      • 1.3.1 DNA

        • Hình 1.1 Mô hình cấu trúc phân tử DNA

      • 1.3.2 Gen

        • Hình 1.2 Mô hình cấu trúc gen

      • 1.3.3 Hệ gen tham chiếu

      • 1.3.4 Định dạng dữ liệu trong bài toán Tin – Sinh học

        • a. Định dạng FASTA

          • Hình 1.3 Định dạng dữ liệu FASTA

        • b. Định dạng FASTQ

          • Hình 1.4 Định dạng FASTQ

        • c. Định dạng SAM

          • Bảng 3.1 Các thẻ định danh trong định dạng SAM

          • Bảng 3.2 Ví dụ về định dạng SAM

          • Bảng 3.3 Mô tả chuỗi CIGAR

  • CHƯƠNG 2 : CƠ SỞ LÝ THUYẾT VÀ THUẬT TOÁN

  • BURROWS WHEELER TRANSFORM

    • 2.1 Quy trình giải mã hệ gen và bài toán gióng hàng trình tự

      • 2.1.1 Giải mã hệ gen và quy trình

        • a. Quy trình

          • Hình 2.1 Quy trình xác định các biến dị di truyền.

      • 2.1.2 Nội dung bài toán gióng hàng trình tự (Sequence Alignment)

        • Hình 2.2 Ví dụ bài toán gióng hàng 2 trình tự Sequence 1 – Sequence 2

      • 2.1.3 Ý nghĩa sinh học của bài toán gióng hàng trình tự

        • Hình 2.3 Các đột biến xác định khi gióng hàng 2 trình tự u – v

      • 2.1.4 Phân loại bài toán gióng hàng trình tự

        • Hình 2.4 Ví dụ bài toán Short Read Alignment

    • 2.2 Một số thuật toán cơ bản cho bài toán gióng hàng trình tự

      • 2.2.1 Thuật toán ma trận điểm

      • 2.2.2 Thuật toán quy hoạch động Smith-Waterman

    • 2.3 Thuật toán Burrows – Wheeler Tranform (BWT )

      • 2.3.1 Chuyển đổi Burrows-Wheeler thuận

        • Hình 2.5 Ma trận chứa tất cả các phép quay đầu vào của xâu ATGTAC

        • Hình 2.6 Chuỗi BWT Thu được bằng cách sắp xếp ma trận L * L theo thứ tự từ điển

        • Hình 2.7 Xoay vòng cải tiến xâu X ban đầu

        • Hình 2.8 Tính toán giá trị mảng SA[]

        • Hình 2.9 Tính chuỗi chuyển đổi BWT

      • 2.3.2 Chuyển đổi Burrows-Wheeler nghịch

        • Hình 2.10 Minh họa việc giải mã BWT xâu ‘CT$ATGA’

      • 2.3.3 Tìm kiếm chính xác (Exact matching)

        • Hình 2.11 Mô tả quá trình tạo chuỗi BWT

        • Hình 2.12 Vị trí xuất hiện của kí tự “a” trong chuỗi X =”agcagcagact

        • Hình 2.13 Giá trị SA = [9,10] của chuỗi W=“gca”

        • Hình 2.14 Công thức tính khoảng cách SA

          • Bảng 2.1 Bảng C(α): số lần xuất hiện của những kí tự nhỏ hơn kí tự α trong X

        • Hình 2.15 Kết quả của quá trình tìm kiếm W=”gca”

      • 2.3.4 Tìm kiếm có sai khác không nhiều hơn z vị trí (Inexact matching)

    • 2.4 Kết luận

  • CHƯƠNG 3 : ỨNG DỤNG THUẬT TOÁN BWT VÀ THỬ NGHIỆM TRÊN DỮ LIỆU SINH HỌC

    • 3.1 Quy trình thực nghiệm

      • Hình 3.1 Mô phỏng nhiệm vụ thực nghiệm trong chương 3

    • 3.2 Cài đặt ứng dụng

      • Hình 3.2 Ví dụ mô phỏng mục tiêu của ứng dụng

        • Bảng 3.1 Thông tin về máy chủ được sử dụng để cài đặt thử nghiệm

    • 3.3 Chuẩn bị dữ liệu

      • a. Hệ gen tham chiếu

      • b. Dữ liệu giả lập

        • Bảng 3.2 Thông tin chi tiết về dữ liệu mô phỏng thu được.

      • c. Dữ liệu thực nghiệm

        • Hình 3.3 Biểu đổ đánh giá chất lượng base giải trình tự (A. file fastq 1, B. file fastq 2)

    • 3.4 Kết quả và đánh giá

      • a. Kết quả gióng hàng trình tự và tìm SNP với dữ liệu giả lập

        • Bảng 3.3 Kết quả tìm kiếm SNP với BWA và BWTAligner với các độ sâu trình tự khác nhau.

        • Bảng 3.4 Thống kê : TP - dương tính thật, FP – dương tính giả, FN – âm tính giả

        • Bảng 3.5 So sánh độ đúng giữa BWA và BWTAligner gọi SNP

      • b. Kết quả gióng hàng trình tự và tìm SNP với dữ liệu hệ gen lúa Việt Nam

        • Hình 3.4 Biểu đồ số lượng SNP trên từng nhiễm sắc thể với hai phần mềm gióng hàng trình tự BWA và BWTAligner

          • Bảng 3.6 Bảng thống kê số lượng trên từng SNP với 2 phần mềm

        • Hình 3.5 Tỷ lệ gióng hàng và thời gian chạy bởi công cụ BWA

        • Hình 3.6 Tỷ lệ gióng hàng và thời gian chạy bởi công cụ BWTAligner

    • 3.5 Đánh giá kết quả của luận văn

  • KẾT LUẬN

  • TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan