Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

71 399 1
Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

i BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC NƠNG LÂM TP HỒ CHÍ MINH BỘ MƠN CƠNG NGHỆ SINH HỌC ************ KHÓA LUẬN TỐT NGHIỆP KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) Ở CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE REPEATS) Ngành học: CƠNG NGHỆ SINH HỌC Niên khóa: 2003-2007 Sinh viên thực hiện: LƢU TRẦN CÔNG HUY Thành phố Hồ Chí Minh Tháng 9/2007 ii LỜI CẢM ƠN Xin gửi lòng biết ơn sâu sắc đến ba mẹ gia đình hết lịng hỗ trợ, động viên mặt để tơi hồn thành đề tài Xin chân thành cảm tạ Ban Giám hiệu Trƣờng Đại học Nông Lâm Thành Phố Hồ Chí Minh Ban chủ nhiệm Bộ Môn Công nghệ Sinh Học tất quý thầy cô truyền đạt kiến thức cho suốt trình học trƣờng Chân thành cảm ơn TS Trần Thị Dung tận tình hƣớng dẫn, giúp đỡ suốt thời gian thực đề tài tốt nghiệp Xin cảm ơn CN Lƣu Phúc Lợi giúp đỡ, hỗ trợ kiến thức tài liệu chuyên môn Xin cảm ơn bạn bè thân yêu lớp DH03SH chia sẻ vui buồn thời gian học nhƣ hết lòng hỗ trợ, giúp đỡ thời gian thực đề tài Tp Hồ Chí Minh tháng 08 năm 2007 Sinh viên thực Lƣu Trần Cơng Huy iii TĨM TẮT KHỐ LUẬN LƢU TRẦN CƠNG HUY, Đại Học Nơng Lâm TP Hồ Chí Minh, tháng 07/2007 “KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) Ở CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE REPEATS)” Hội đồng hƣớng dẫn TS Trần Thị Dung Cử Nhân Lƣu Phúc Lợi Khóa luận đƣợc thực mơn Cơng Nghệ Sinh Học, trƣờng đại học Nơng Lâm TP Hồ Chí Minh, khoảng thời gian từ tháng 3/2007 đến 8/2007 Trong năm qua, sinh học không ngừng phát triển tạo kho liệu miễn phí trực tuyến lớn trình tự gene, protein, gene thực vật lẫn động vật nhƣ sở liệu sinh học lớn nhƣ NCBI, EMBL, DDBj… Một CSDL lớn ESTs (Expressed Sequence Tags), có ESTs chi cam chanh (citrus) Những trình tự ESTs đƣợc sử dụng để khai thác SSRs (Simple Sequence Repeats) Những SSRs hữu ích chúng có nhiều ứng dụng nhƣ genome mapping, phenotype mapping chọn giống thực vật nhờ marker phân tử Hơn nữa, việc phát triển marker SSR từ EST có chi phí thấp so với phƣơng pháp phân lập SSR truyền thống Để đạt đƣợc mục tiêu trên, khóa luận cần đảm bảo thực nội dung nhƣ sau: 1) Dùng Perl script để thu nhận trình tự nucleotide ESTs Citrus vừa tìm từ trang sở liệu GenBank NCBI 2) Tìm tách đoạn microsatellite có đoạn gen 3) Tìm SSR nằm vùng gen kháng virus Tristeza iv 4) Tìm hiểu mơ hình liệu quan hệ, sử dụng mơ hình vào việc lƣu trữ liệu trình tự nucleotide trình tự SSRs chi cam chanh (Citrus), tạo sở liệu chứa trình tự Sau đƣa liệu vào sở liệu 5) Trang web đƣợc thiết kế để chia sẻ thông tin trực tuyến với ngƣời dùng Kết Thu nhận đƣợc 191.110 trình tự ESTs loài Citrus đƣợc thu thập từ CSDL dbEST CoreNucleotide GenBank Những trình tự ESTs đƣợc tìm vùng lặp lại, từ xác định đƣợc 28.241 SSRs 190412 ESTs 19755 primers đƣợc thiết kế vùng flanking SSRs Các primers đƣợc kiểm tra lặp lại bắt cặp đặc hiệu BLAST Cơ sở liệu có 28241 trình tự SSRs đƣợc chuyển vào CSDL quan hệ tích hợp vào website BUILDING SSRs DATABASE of Citrus Sau đƣợc loại bỏ trình tự tạp, nhiễu dấu trình tự bào quan, trình tự lặp lại trình tự vector, trình tự ESTs đƣợc phân nhóm thành nhóm Contigs Singletons Việc nhóm trình tự giúp ích cho việc giảm bớt trình tự dƣ thừa, kéo dài EST-SSR xác định trình tự bảo tồn Kết thêm 1071 primers đƣợc thiết kế cho EST-SSR đƣợc kéo dài Ngồi ra, chúng tơi xác định đƣợc 33 EST-SSRs tƣơng đồng gene kháng virus Tristeza công cụ BLAST với ngƣỡng e-value = 10-10 v ABSTRACT LUU TRAN CONG HUY, NONG LAM UNIVERSITY, DATA MINING FOR DEVELOPING SIMPLE SEQUENCE REPEATS (SSR) MARKER IN EXPRESSED SEQUENCE TAGS (ESTs) FROM CITRUS Supervisor: Dr Trần Thị Dung Bsc Lƣu Phúc Lợi The research was carried out at the department of biotechnology at Nong Lam University Recent advances in genomic technologies have generated a vast amount of publicly available expressed sequence tags (ESTs) in Citrus These data can be mined to identify Simple sequence repeats (SSRs) or microsatellites These SSRs are useful because of a broad range of application, such as genome mapping and characterization, phenotype mapping, marker assisted selection of plant breeding, additional map-based cloning of important genes Moreover, this method of developing SSR marker from ESTs is inexpensive comparing to the traditional methods Methodology 1) We used perl script to receive EST sequences from database NCBI 2) Finded and separated SSRs include in ESTs database 3) We were learning about relationship database model to used to saved nucleotide, SSRs citrus sequences data and created database contain them 4) Finding SSR which are homologous with tristeza virus resistance gene 5) Designed web that contain database control software to share information with users Results: 28,241 SSR-containing ESTs (EST-SSRs) were identified by analyzing 191,110 ESTs sequences belonging to Citrus in dbEST division of GenBank 19,755 primers, which were filtered with repetition checking and BLAST checking, vi were designed in flanking regions of SSRs These data were put into relational database and integrated SSR finder tool into the BUILDING SSRs DATABASE of Citrus Website After cleaning, masking repeat, vector and organelle sequences, the EST-SSR sequences and the related EST sequences without SSRs were assembled into contigs and singletons, to reduce redundancy, to enlarge EST-SSRs for primer designed and to develop consensus sequences As a result, more 1071 primers were design for these enlarged EST-SSRs Using a stringent BLAST search with a threshold e-value = 10-10 against typical pathogen resistance gene database in Citrus, we identified 33 EST-SSRs which are homologous with tristeza virus resistance gene vii Mục Lục LỜI CẢM ƠN iii TĨM TẮT KHỐ LUẬN iv ABSTRACT vi DANH SÁCH CÁC TỪ VIẾT TẮT xi Chƣơng MỞ ĐẦU 1.1 Đặt vấn đề 1.2.Mục tiêu khóa luận Chƣơng TỔNG QUAN TÀI LIỆU 2.1 Giớ thiệu chi cam chanh 2.1.1 Vị trí phân lọai 2.1.2 Đặc điểm 2.1.3 Sâu hại bệnh tật 2.2 EST 2.3.1 Sơ lƣợc EST 2.3.2 Nguồn gốc EST 2.3.Sơ lƣợc phƣơng pháp Microsatellite (SSR) 2.3.1Những khái niệm kỹ thuật microsatellite 2.3.2 Giới thiệu chung 2.3.2.1 Tính chất 2.3.2.2 Khuếch đại microsatellites 10 2.3.2.3 Những giới hạn microsatellite 11 2.3.3 Các loại microsatellite 12 2.3.4 Cơ chế hình thành microsatellite 12 viii 2.3.5 Vai trò microsatellite 13 2.4 Phƣơng pháp xác định microsatellite truyền thống 15 2.5 Phƣơng pháp phát microsatellite sử dụng 16 2.6 Ứng dụng 18 2.7 Cơ sở liệu sinh học 18 2.7.1 NCBI 19 2.7.1.1 Vài nét NCBI 19 3.1.1.2 Một số sở liệu NCBI 19 Chƣơng 20 VẬT LIỆU VÀ PHƢƠNG PHÁP 20 3.1 Các chƣơng trình ngơn ngữ lập trình đƣợc sử dụng 20 3.1.1 Hệ điều hành 20 3.1.2 Các chƣơng trình phân tích trình tự 20 3.1.2.1 Chương trình Perl ssrfinder_1 20 3.1.2.2 Chƣơng trình tìm kiếm trình tự tƣơng đồng – BLAST 22 3.1.2.3 Hệ trị CSDL quan hệ Microsoft ACEESS 23 3.1.2.4 Egassembler 23 3.1.3 Apache web Server 24 3.4 CÁC BƢỚC TIẾN HÀNH 25 Chƣơng 37 KẾT QUẢ VÀ THẢO LUẬN 37 4.1 Thu thập trình tự ESTs Citrus từ CSDL dbEST 37 4.2 Loại liệu nhiễu dƣ công cụ EGassembler bao gồm bƣớc sau: 38 4.2.1 Làm trình tự 38 4.2.2 Dấu vùng trình tự nhiễu vector adaptors 39 4.2.3 Dấu vùng trình tự nhiễu bào quan 39 ix 4.3 Assembling 41 4.4 Tìm SSR: SSRFinder v1.0 Steven Schroeder 42 4.4.1 BLASTn: 43 4.5.Thiết kế kiểm tra primer 45 4.6 tBLASTx 48 4.7 Đƣa tất liệu vào CSDL quan hệ Microsoft ACCESS để dễ dàng truy xuất thông tin 49 4.8 Tích hợp CSDL vừa xây dựng vào web thơng qua Apache Server để chia thông tin qua mạng 49 4.8.1 Trang chủ (HOME PAGE) 49 4.8.2 Trang sở liệu SSRs (SSRs PAGE) 50 Chƣơng5 52 KẾT LUẬN VÀ ĐỀ NGHỊ 52 5.1 Kết luận 52 5.2 Đề nghị 53 TÀI LIỆU THAM KHẢO 54 Phụ Lục 57 x DANH SÁCH CÁC TỪ VIẾT TẮT BLAST Basic Local Alignment Search Tool CGI Common Gateway Interface CSDL Cơ sở liệu DBD Database Driver DBI Database Interface DNA deoxyribonucleic acid EST Expressed Sequence Tag HTML Hypertext Markup Language HTTP Hypertext Transfer Protocol NCBI the National Center for Biotechnology Information NIG the National Institute of Genetics NIH the National Institutes of Health NLM the Nation Library of Medicine Perl Practical Extraction and Report Language PHP Hypertext Preprocessior RDBMS Relational Database Management System SNP Single Nucleotide Polymorphism SSCP Single- Strand Conformation Polymorphism SSR Simple Sequence Repeats STS Sequence Tagged Site ... Học Nơng Lâm TP Hồ Chí Minh, tháng 07/2007 ? ?KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) Ở CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE REPEATS)” Hội đồng... THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) Ở CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE REPEATS)” đƣợc thực với mục tiêu lần lƣợt nhƣ sau: Thu nhận trình tự EST. .. dụng mơ hình vào việc lƣu trữ liệu trình tự nucleotide trình tự SSRs chi cam chanh (Citrus), tạo sở liệu chứa trình tự Sau đƣa liệu vào sở liệu 5) Trang web đƣợc thiết kế để chia sẻ thông tin

Ngày đăng: 06/11/2012, 09:45

Hình ảnh liên quan

Hình 2.1. CTV dƣới KHV điện tử - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Hình 2.1..

CTV dƣới KHV điện tử Xem tại trang 18 của tài liệu.
Hình 2.2: Nguồn gốc của EST 2.3.Sơ lƣợc về phƣơng pháp Microsatellite (SSR)  2.3.1Những khái niệm về kỹ thuật microsatellite  - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Hình 2.2.

Nguồn gốc của EST 2.3.Sơ lƣợc về phƣơng pháp Microsatellite (SSR) 2.3.1Những khái niệm về kỹ thuật microsatellite Xem tại trang 20 của tài liệu.
2.3.4 Cơ chế hình thành microsatellite - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

2.3.4.

Cơ chế hình thành microsatellite Xem tại trang 24 của tài liệu.
Hình 2.4 Cơ chế trƣợt lỗi trong quá trình sao mã 2.3.5 Vai trò của microsatellite  - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Hình 2.4.

Cơ chế trƣợt lỗi trong quá trình sao mã 2.3.5 Vai trò của microsatellite Xem tại trang 25 của tài liệu.
Hình 2.5: Phƣơng pháp phân lập microsatellite truyền thống 2.5 Phƣơng pháp phân lập microsatellite sử dụng  - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Hình 2.5.

Phƣơng pháp phân lập microsatellite truyền thống 2.5 Phƣơng pháp phân lập microsatellite sử dụng Xem tại trang 28 của tài liệu.
Bảng 3. 2: Từ khóa sử dụng để thu nhận trình tự trên NCBI - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Bảng 3..

2: Từ khóa sử dụng để thu nhận trình tự trên NCBI Xem tại trang 38 của tài liệu.
Bảng 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Bảng 3.1.

Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI Xem tại trang 38 của tài liệu.
Hình 3. 1: Danh sách các trình tự EST Citrus trên NCBI (www.NCBI.nlm.nih.gov/genomes/plant/plantlist.html#est)  - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Hình 3..

1: Danh sách các trình tự EST Citrus trên NCBI (www.NCBI.nlm.nih.gov/genomes/plant/plantlist.html#est) Xem tại trang 39 của tài liệu.
Hình 3. 2: Các bƣớc thực hiện của EGassembler - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Hình 3..

2: Các bƣớc thực hiện của EGassembler Xem tại trang 41 của tài liệu.
Mỗi đối tƣợng trong mô hình đối tƣợng là một quan hệ trong mô hình quan hệ.  - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

i.

đối tƣợng trong mô hình đối tƣợng là một quan hệ trong mô hình quan hệ. Xem tại trang 46 của tài liệu.
Nhập dữ liệu vào bảng - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

h.

ập dữ liệu vào bảng Xem tại trang 47 của tài liệu.
Bảng 4.1 số lƣợng ESTs của từng loài thu nhận đƣợc từ NCBI - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Bảng 4.1.

số lƣợng ESTs của từng loài thu nhận đƣợc từ NCBI Xem tại trang 49 của tài liệu.
Hình 4.1: Sơ đồ so sánh lƣợng ESTs của từng loài - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Hình 4.1.

Sơ đồ so sánh lƣợng ESTs của từng loài Xem tại trang 49 của tài liệu.
Bảng 4.4 số trình tự bị lọai bỏ ở bƣớc 2.4 - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Bảng 4.4.

số trình tự bị lọai bỏ ở bƣớc 2.4 Xem tại trang 51 của tài liệu.
Hình 4.2: Bảng so sánh dữ liệu ESTs trƣớc và sau khi lọai nhiễu - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Hình 4.2.

Bảng so sánh dữ liệu ESTs trƣớc và sau khi lọai nhiễu Xem tại trang 52 của tài liệu.
Hình 4.3: Bảng so sánh lƣợng Contigs và ESTs - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Hình 4.3.

Bảng so sánh lƣợng Contigs và ESTs Xem tại trang 53 của tài liệu.
Bảng 4.5 số lƣợng Contigs thu đƣợc ở mỗi lòai sau khi assembling - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Bảng 4.5.

số lƣợng Contigs thu đƣợc ở mỗi lòai sau khi assembling Xem tại trang 53 của tài liệu.
Hình 4.4: Biểu đồ so sánh lƣợng SSRs phân lập và lƣợng ESTs ban đầu - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Hình 4.4.

Biểu đồ so sánh lƣợng SSRs phân lập và lƣợng ESTs ban đầu Xem tại trang 55 của tài liệu.
Bảng 4.7 Lƣợng trình tự ESTs và số primer mới đƣợc tạo thành - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Bảng 4.7.

Lƣợng trình tự ESTs và số primer mới đƣợc tạo thành Xem tại trang 55 của tài liệu.
Hình 4.5: Biểu đồ so sánh lƣợng noneprimers và ESTs, Primers mới - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Hình 4.5.

Biểu đồ so sánh lƣợng noneprimers và ESTs, Primers mới Xem tại trang 56 của tài liệu.
Bảng 4.8 Tổng số primer thiết kế đƣợc - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Bảng 4.8.

Tổng số primer thiết kế đƣợc Xem tại trang 57 của tài liệu.
Bảng 4.9 Tổng số Primer còn lại sau khi kiểm tra - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Bảng 4.9.

Tổng số Primer còn lại sau khi kiểm tra Xem tại trang 57 của tài liệu.
Hình 4.6: Bảng so sánh lƣợng Primers trƣớc và sau khi kiểm tra - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Hình 4.6.

Bảng so sánh lƣợng Primers trƣớc và sau khi kiểm tra Xem tại trang 58 của tài liệu.
Hình 4.7: Bảng so sánh tổng trình tự SSRs và Primers thiết kế đƣợc - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Hình 4.7.

Bảng so sánh tổng trình tự SSRs và Primers thiết kế đƣợc Xem tại trang 59 của tài liệu.
Bảng 4.10 Các trình tự tƣơng đồng với gene kháng virus tristeza - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Bảng 4.10.

Các trình tự tƣơng đồng với gene kháng virus tristeza Xem tại trang 60 của tài liệu.
Hình 4.9: Tổng quan về Website - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Hình 4.9.

Tổng quan về Website Xem tại trang 61 của tài liệu.
Hình 4. 8: Mối quan hệ giữa các bảng 4.8 Tích hợp CSDL vừa xây dựng vào web   - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Hình 4..

8: Mối quan hệ giữa các bảng 4.8 Tích hợp CSDL vừa xây dựng vào web Xem tại trang 61 của tài liệu.
Bảng 4.11: Các nhóm Strain id có trong cơ sở dữ liệu - Khai thác dữ liệu Est ở chi cam chanh cho việc phát triển marker phân tử

Bảng 4.11.

Các nhóm Strain id có trong cơ sở dữ liệu Xem tại trang 62 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan