Thu thập và tổ chức dữ liệu Gene phục vụ nghiên cứu cây trồng biến đổi di truyền

215 405 2
Thu thập và tổ chức dữ liệu  Gene phục vụ nghiên cứu cây trồng biến đổi di truyền

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Thu thập và tổ chức dữ liệu Gene phục vụ nghiên cứu cây trồng biến đổi di truyền

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC NÔNG LÂM TP HỒ CHÍ MINH BỘ MƠN CƠNG NGHỆ SINH HỌC  KHÓA LUẬN TỐT NGHIỆP THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN NGÀNH HỌC: CÔNG NGHỆ SINH HỌC NIÊN KHÓA: 2001-2005 SINH VIÊN THỰC HIỆN: NGUYỄN KỲ TRUNG 01125137 LÊ THÀNH TRUNG 01126165 Thành phố Hồ Chí Minh Tháng 9/2005 ii BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC NƠNG LÂM TP HỒ CHÍ MINH BỘ MƠN CƠNG NGHỆ SINH HỌC  THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN Giảng viên hƣớng dẫn: Sinh viên thực hiện: PGS.TS BÙI THỌ THANH NGUYỄN KỲ TRUNG TS BÙI MINH TRÍ LÊ THÀNH TRUNG TS NGUYỄN CÔNG VŨ Thành phố Hồ Chí Minh Tháng 9/2005 iii LỜI CẢM ƠN Chúng em chân thành cảm ơn: - Ban Giám hiệu trƣờng Đại học Nơng Lâm thành phố Hồ Chí Minh - Ban Giám đốc Trung tâm Phân tích Thí nghiệm Trƣờng Đại học Nơng Lâm thành phố Hồ Chí Minh - Ban chủ nhiệm Bộ Mơn Cơng nghệ Sinh học tồn thể Quý Thầy Cô truyền đạt kiến thức cho chúng em suốt trình học tập trƣờng Chúng em xin gửi lòng biết ơn sâu sắc đến: - TS Bùi Minh Trí - PGS.TS Bùi Thọ Thanh - TS Nguyễn Cơng Vũ Đã tận tình hƣớng dẫn tạo điều kiện tốt cho chúng em suốt q trình thực đề tài hồn thành luận văn tốt nghiệp Chúng em đồng chân thành cảm ơn đến: - Thầy Lƣu Phúc Lợi - TS Đinh Duy Kháng - Các bạn sinh viên Khoa Công nghệ Thơng tin làm việc nhóm Bioinformatics Đại học Nơng Lâm thành phố Hồ Chí Minh - Các anh chị làm việc Trung tâm Phân tích Hóa sinh - Các bạn lớp CNSH27 Đã hết giúp đỡ, hỗ trợ, động viên, chia buồn vui suốt thời gian thực tập thực đề tài Tp Hồ Chí Minh tháng 09 năm 2005 Sinh viên thực Nguyễn Kỳ Trung Lê Thành Trung iv TÓM TẮT Tên đề tài: THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN, hai sinh viên: NGUYỄN KỲ TRUNG LÊ THÀNH TRUNG thực tháng 9/2005 Giảng viên hƣớng dẫn: PGS.TS BÙI THỌ THANH TS BÙI MINH TRÍ TS NGUYỄN CƠNG VŨ Đề tài thực nhằm mục đích tập hợp, tổ chức liệu gene phục vụ cho nghiên cứu trồng biến đổi di truyền Công việc đƣợc tiến hành Trung Tâm Phân Tích Hóa Sinh (Đại học Nơng Lâm TP.HCM), Phịng thực hành mạng (Khoa Công Nghệ Thông Tin, Đại học Nông Lâm TP.HCM) Công việc đƣợc tiến hành chia nhiều giai đoạn:  Khai thác thông tin ấn phẩm báo trồng biến đổi di truyền kho liệu khổng lồ internet hai công cụ tìm kiếm trang web Google Scirus  Khai thác thơng tin trình tự GenBank NCBI hai công cụ Entrez BLAST  Tổ chức thông tin liệu với ngôn ngữ Perl  Xử lý liệu, tạo giao diện sử dụng khai thác liệu cho ngƣời dùng với Biojava, công nghệ Java servlet công cụ thiết kế web Frontpage, Dreamweaver Kết tạo qui trình tìm trình tự gene mong muốn sở liệu trình tự chung GenBank tạo đƣợc sở liệu riêng gene liên quan đến trồng biến đổi di truyền phục vụ khai thác dễ dàng thuận lợi cho nhà nghiên cứu lĩnh vực v SUMMARY “COLECTING AND ORGANIZING GENE DATA SERVES GENETIC MODIFIED PLANT RESEARCHES” by TRUNG NGUYEN KY and TRUNG LE THANH in 9/2005 Supervisors: Assoc prof PhD THANH BUI THO PhD TRI BUI MINH PhD VU NGUYEN CONG The purpose of this research is to collect, orgarnize gene data to surve research in genetic modified plant The research was carried out at the Chemical and Biological Analysis and Experiment Center and the practical network department (in the Information Facuty at Nong Lam University) The process was devided in various phases as following: Accessing articles about GM plants on the internet with two web search engines Google and Scirus Accessing comparing and selecting sequences of interest from the GenBank at NCBI with Entrez and BLAST tools Organizing data with Perl language Processing data, designing user interfaces with Biojava, Java Servlet technology in combination with Frontpage and Dreamweaver The establishing database allows researchers in the related fields easily to access and satisfied with basic requirement in genetic research vi MỤC LỤC Nội dung Trang Trang tựa ii Lời cảm ơn iii Tóm tắt iv Sumary v Mục lục vi Danh sách chữ viết tắt x Danh sách sơ đồ bảng xi Danh sách hình xii PHẦN A: GIỚI THIỆU I Đặt vấn đề II Mục đích đề tài III Yêu cầu đề tài IV Các giai đoạn tiến hành V Giới hạn PHẦN B: TỔNG QUAN TÀI LIỆU I GIỚI THIỆU VỀ SINH HỌC I.1 Cơ sở sinh học gene I.1.1 Thuật ngữ quan niệm gene I.1.2 DNA sinh vật khác I.1.2.1 Sự khác phân tử DNA I.1.2.2 Cấu trúc acid nucleic I.1.3 Mã di truyền I.1.3.1 Thuật ngữ I.1.3.2 Từ điển mã di truyền I.1.3.3 Ba đặc tính quan trọng mã di truyền 10 I.1.4 Cấu trúc gene eukaryote 12 I.2 Cơ sở sinh học chuyển gene 13 vii I.2.1 Các vấn đề chủ yếu việc cải biến di truyền 14 I.2.2 Các phƣơng pháp chuyển gene 14 I.2.3 Những khó khăn chuyển gene 17 I.2.4 Sản phẩm kỹ thuật di truyền 18 I.2.5 Tiềm chuyển gene 19 I.2.5.1 Các chức cải biến di truyền thực vật 19 I.2.5.2 Các tính trạng (News traits) 20 I.2.5.3 Sự biểu gene 21 I.2.6 Locus chuyển gene 22 I.3 Hiện trạng sản xuất trồng chuyển gene giới 24 II GIỚI THIỆU VỀ BIOINFORMATICS 28 II.1 Khái niệm Bioinformatics 28 II.2 Vài nét sở liệu Sinh học 29 II.2.1 NCBI 29 II.2.2 EMBL 29 II.2.3 DDBJ 30 II.3 Vài công cụ Bioinformatics 31 II.3.1 Readseq 31 II.3.2 BLAST 31 II.3.3 BLAT 32 II.3.4 ClustalW 32 II.3.5 HMMER 32 II.3.6 MEME/MAST 33 II.3.7 EMBOSS 33 II.4 Ngôn ngữ dùng Bioinformatics 34 III CƠ SỞ TIN HỌC CHO VIỆC XÂY DỰNG CƠ SỞ DỮ LIỆU TRÌNH TỰ 35 III.1 Khái niệm lập trình 35 III.2 Ngôn ngữ Perl dùnh Bioinformatics 39 III.2.1 Giới thiệu Perl 39 III.2.2 Thành phần Perl 39 III.3 Công nghệ Java ứng dụng công việc xử lý liệu Bioinformatics 50 III.3.1 Biojava 50 viii III.3.2 Biojava CSDL 50 III.3.3 Tổng quan công nghệ servlet cho ứng dụng Web 51 III.3.4 Chức servlet 52 III.3.5 Thuận lợi servlet so với công nghệ thiết kế web khác 53 III.3.6 Sự xây dựng ứng dụng servlet 55 PHẦN C: PHƢƠNG TIỆN VÀ PHƢƠNG PHÁP TIẾN HÀNH 57 I PHƢƠNG TIỆN 57 I.1 Thiết bị 57 I.2 Thời gian địa điểm xây dựng CSDL 57 II TÌM KIẾM DỮ LIỆU BÀI BÁO 58 II.1 Tìm kiếm tổng hợp tính trạng 58 II.2 Tổng hợp liệu Primer dùng phát GMO 64 III TÌM KIẾM DỮ LIỆU TRÌNH TỰ 66 III.1 Tìm kiếm trình tự Keyword 66 III.2 Tìm kiếm trình tự Primer 70 PHẦN D: KẾT QUẢ VÀ THẢO LUẬN 82 I Kết thu đƣợc từ trình tìm kiếm ấn phẩm khoa học 82 II Kết thu đƣợc từ trình tìm kiếm trình tự NCBI 82 II.1 Kết tìm kiếm trình tự keyword 83 II.2 Kết tìm kiếm trình tự Primer 84 II.3 Dùng Perl xử lý kết thu đƣợc 85 II.3.1 Loại bỏ trùng lắp liệu, tổng hợp danh sách tổng hợp 85 II.3.2 Tải trình tự 90 III Các kết thu đƣợc từ trình tải trình tự từ Genbank 92 IV Tổ chức liệu 93 IV.1 Cách thức tổ chức liệu 93 IV.2 Tiến hành tổ chức, phân loại liệu 94 V Java xử lý liệu 98 V.1 Các yêu cầu đặt 98 V.2 Xử lý yêu cầu Java Biojava 99 V.3 Thiết kế giao diện 101 V.4 Lập trình hiển thị giao diện sử dụng 104 ix VI Kết giao diện tìm kiếm với liệu tập hợp đƣợc 108 PHẦN E: KẾT LUẬN VÀ ĐỀ NGHỊ 118 I Kết luận 118 II Đề nghị 119 TÀI LIỆU THAM KHẢO 121 Phụ lục A 126 Phụ lục B 139 Phụ lục C 152 Phụ lục D 173 Phụ lục E 197 x DANH SÁCH CÁC CHỮ VIẾT TẮT A adenine API application programing interface BLAST Basic Local Alignment Search Tools BLAT BLAST-Like Alignment Tool C cytosine CDS coding sequence CGI common gateway interface CIB the Center for Information Biology CSDL Cơ sở liệu DDBJ DNA Data Bank of Japan DNA deoxyribonucleic acid EBI the European Bioinformatics Institute EMBL the European Molecular Biology Laborary EPSP 5-enolpyruvyl-shikimate-3-phosphate synthase E-value expected value G guanine gi GenInfo Indentifier Gln Glutamine GM plant Genetic modified plant GMO Genetic modified organism HTML hypertext markup language HTTP hypertext transfer protocol ID identify J2EE Java Enterprise Edition JDBC Java Database Connectivity JSP JavaServer page Met methionine mRNA messenger ribonucleic acid NCBI the National Center for Biotechnology Information NIG the National Institute of Genetics NIH the National Institutes of Health NLM the Nation Library of Medicine NOS noplaine synthase Phe phenylalanine RNA ribonucleic acid SQL Structure Query Language STDIN standard input T thymine T-DNA transfer DNA tRNA tranfer ribonucleic acid Trp tryptophan U uracil Phần phụ lục NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 187 Phần phụ lục Lớp Servlet Controller: Nhận tham số ngƣời dùng gởi tới nhấn nút submit NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 188 Phần phụ lục 189 Lớp Check: kiểm tra điều kiện ngƣời dùng đặt Lớp CheckFieldOfVerAcc: tìm kiếm trƣờng LOCUS, VERSION, ACCESSION NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG Phần phụ lục 190 Lớp CheckOtherRequest: cho phép tìm kiếm trƣờng lại, nhƣ DEFINITION, TITLE… Lớp CheckFieldInSmallFieldOfFeature: cho phép tìm kiếm trƣờng CDS nhƣ gene, product… NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG Phần phụ lục Lớp CheckOriginRequest: cho phép tìm kiếm trình tự ORIGIN NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 191 Phần phụ lục 192 10 Lớp Servlet Result: Nhận file thỏa kết tìm kiếm, thực việc lấy nội dung file kết thực xuất kết theo yêu cầu ngƣời dùng NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG Phần phụ lục NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 193 Phần phụ lục 194 11 Lớp Servlet printSummaryHtml: xuất kết với thông tin tóm tắt trình tự NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG Phần phụ lục 12 Lớp Servlet PrintGenbankHtml: xuất kết theo định dạng GenBank NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 195 Phần phụ lục 13 Lớp printCdsNucleotideSeqHtml: xuất kết trình tự CDS dƣới dạng FASTA NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 196 Phần phụ lục 197 14 Lớp ReadGB: cho phép xuất trình tự tồn Nucleotide hay trình tự từ điểm khởi đầu đến điểm kết thúc cho trƣớc NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG Phần phụ lục 198 15 Lớp Servlet PrintNucleotideSeqFastaHtml: xuất kết trình tự nucleotide dƣới dạng FASTA NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG Phần phụ lục 199 16 Lớp Servlet PrintCdsAAcidSeqFastaHtml: xuất kết trình tự amino acid dƣới dạng FASTA NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 200 Phần phụ lục PHỤ LỤC E * Nguyên tắc hoạt động hai cơng cụ tìm kiếm Google Scirus  Google Trong bảng cho thấy Google dung lƣợng mục rộng Đây cơng cụ tìm kiếm mang tính chất mẽ dựa mục tác phẩm khoa học đƣợc trích dẫn (Butler, 2000) Các cơng cụ tìm kiếm truyền thống sử dụng thuật toán qui luật đơn giản tạo thứ tự trang dựa tần số xuất keywords đƣợc query Google dựa vào việc kết nối trang web để xếp loại kết tìm kiếm Vì trang web đƣợc trích dẫn cao giới với nhiều liên kết dẫn đến chúng đƣợc xếp cao kết tìm kiếm Đây chế tìm kiếm hiệu mà bắt hiệu xác trang web tốt hay đƣợc dùng Internet  Scirus Sự giới hạn lớn cho cơng cụ tìm web không đƣợc mục tới đƣợc sở liệu Vấn đề xảy nhiều sở liệu tạo internet sinh học, nhƣ sở liệu trình tự vài nguồn dựa cho phép nhƣ tạp chí full-text, sở liệu thƣơng mại Mặc dù nội dung bị giới hạn địa này, nhiên tài liệu nội dung tóm tắt đƣợc liệt kê cơng cụ tìm kiếm, nhƣng liệu nằm bên dƣới khơng có sẵn tƣờng lửa (firewalls) sở liệu khóa mục nội Trong nỗ lực để giải vấn đề này, nhà xuất Elsevier phát triển Scirus (http://www.scirus.com/) Đây dự án đƣợc kết hợp với FAST, cơng ty cơng cụ tìm kiếm NaUy tạo cơng cụ tìm kiếm chun biệt khoa học Scirus tăng cƣờng phạm vi tính chuyên biệt chỉ mục tới nguồn với thông tin khoa học Các trang web bao gồm, tạp chí full-text tóm tắt Medline Điều khiến cho Scirus công cụ hiệu cho hai cơng cụ tìm tác phẩm web Cả hai full-text tạp chí định dạng PDF đƣợc mục thực MetaSearch nhà cung cấp full-text chủ yếu – Elsevier‟s ScienceDirect Academic Press‟s IDEAL Scirus tìm kiếm web dựa vào key words, phạm vi bao NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG Phần phụ lục 201 gồm Medline, quyền từ sở liệu phòng quyền Mỹ (the US Patent Office), hội nghị tóm tắt liên quan khoa học Cơ sở liệu Medline đƣợc cung cấp hệ thống BioMedNet, đòi hỏi đăng nhập BioMedNet miễn phí mật mã để lấy Scirus cung cấp nhiều tùy chọn qui định cách tìm kiếm để tìm kiếm địa miễn phí, địa thành viên hay địa đặc biệt Tháng năm 2002 Scirus mục tới 69 triệu trang liên quan tới khoa học, bao gồm file PDF mẫu tin phản biện, bao phủ đa số internet liên quan sinh học NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG ...ii BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC NÔNG LÂM TP HỒ CHÍ MINH BỘ MƠN CƠNG NGHỆ SINH HỌC  THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN Giảng viên hƣớng... thực Nguyễn Kỳ Trung Lê Thành Trung iv TÓM TẮT Tên đề tài: THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN, hai sinh viên: NGUYỄN KỲ TRUNG LÊ THÀNH TRUNG thực... Vũ thực đề tài ? ?THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN”, bƣớc đầu đặt sở cho việc ứng dụng Bioinformatics vào xây dựng Cơ sở liệu Sinh học trƣờng Đại

Ngày đăng: 05/11/2012, 09:12

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan