Báo cáo Khai phá dữ liệu: Nghiên cứu và tìm hiểu Tin sinh học

12 881 0
Báo cáo Khai phá dữ liệu: Nghiên cứu và tìm hiểu Tin sinh học

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính và toán sinh học (biomathematics) để giải quyết các vấn đề sinh học

1. Giới thiệu tin sinh học. 1.1. Tin sinh học gì? Tin sinh học (bioinformatics) lĩnh vực khoa học sử dụng công nghệ ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính toán sinh học (biomathematics) để giải vấn đề sinh học 1.2. Các lĩnh vực nghiên cứu 1.2.1. Genomics - Hệ gene học * Phân tích trình tự axit nucleic axit amin protein: - Năm 1977, lần Sanger cộng xác định trình tự ADN virut jx-174 từ đến nay, trình tự ADN nhiều loài sinh vật phân tích lưu giữ ngân hàng sở liệu gene. -> Tìm gen cấu trúc, gen mã hoá cho phân tử protein đó, tìm quy luật trình tự tương đồng protein. - Sau đó, tăng trưởng khổng lồ liệu này, việc phân tích trình tự ADN cách thủ công thực nổi. Các chương trình máy tính đời sử dụng để giúp tìm trình tự tương đồng đồ gen (genome) hàng loạt sinh vật dù số lượng nucleotide trình tự có đến hàng tỷ. - Kỹ thuật xác định trình tự tiến hành phân tử ADN lớn, nên xác định trình tự nhỏ có kích thước khoảng 600-800 nucleotide. Sau đó, đoạn trình tự nhỏ xếp thứ tự nối lại qua việc bắt cặp trình tự đầu gối lên (overlap) tạo nên trình tự genome hoàn chỉnh. Nhờ kỹ thuật xác định chuỗi trình tự nhỏ tạo chuỗi liệu cách nhanh chóng việc xếp chuỗi trình tự ADN nhỏ phức tạp, phân tích đồ gen người (Human genome) nhà tin sinh học với siêu máy tính (máy DEC Alpha đời năm 2000) phải làm việc hàng tháng xếp trình tự đoạn ADN ngắn lại với nhau. - Hiện nay, kỹ thuật xác định trình tự nhỏ ưu tiên để giải mã genome giải thuật lắp ráp genome * Bản đồ gen đánh dấu gen: - Bản đồ trình tự gen (sequence map) loại đồ có độ xác cao sử dụng rộng rãi xác định xác vị trí nucleotid gen, góp phần xác định nguồn gốc phân loại, tiến hoá quần thể loài sinh vật, đồng thời giúp người xác định gen liên quan đến tính trạng quý vật nuôi trồng, gen đột biến, gen bị sai lệch rối loạn di truyền người. - Mục đích: nghiên cứu tiến hóa loài người, xác định nguyên nhân số bệnh di truyền, bệnh truyền nhiễm, từ có sở để phát triển loại thuốc mới, liệu pháp chữa trị hiệu quả. - Hiện nay, có nhiều loại đồ gen: đồ di truyền liên kết (genetic linkage), đồ di truyền tế bào (cytogenetic map), đồ lai phóng xạ (radianation hybrides map), đồ di truyền giới hạn (restriction map), đồ trình tự gen (sequence map) . - Có nhiều phương pháp sử dụng nghiên cứu gen, đồ di truyền loài sinh vật đồ lai phóng xạ, đồ lai chỗ huỳnh quang, đồ tạo dòng định vị. * Dò tìm đột biến SNP: - Kỹ thuật PCR (Polymerase Chain Reaction) kỹ thuật sử dụng để phát nhanh gen đặc hiệu, gen kháng nguyên nhiều loại virus gây ung thư. - Ở đây, tập liệu sơ khởi tạo đòi hỏi hệ thống tự động đọc từ so sánh trình tự biết hệ gen người, bao gồm điểm đa hình tế bào dòng tính (germline) biết, sử dụng hệ thống để phát điểm đa hình đơn nucleotide (single nucleotide microarray) khảo sát tính dị biệt so sánh genome cho phép nghiên cứu hàng trăm ngàn vị trí đồ gen dược sử dụng để xác định đột biến nhiễm sắc thể liên quan tới ung thư. - Nhờ dò tìm đột biến, phát gen mà các công ty công nghệ sinh học hàng đầu giới Millenium Pharmaceutical, tập đoàn Roche, Eli Lilly, Bayer AG cấp độc quyền sử dụng hàng trăm gen liên quan đến bệnh lý để phát triển loại dược phẩm phân tử sinh học phòng ngừa bệnh tật. - Một số thành tựu: + Saito cộng (1989) ung thư vòm họng phần lớn virus Eptein-Barr (EBV) gây nên chẩn đoán xác 90%. + Năm 2001, nhà nghiên cứu đại học California (Beckley) phát họ protein H60 Rael có đặc tính kích thích thụ thể NKG 2D1 tế bào diệt u NK (natural killer) sản xuất g-interferon vốn đảm đương nhiệm vụ hoạt hoá tế bào hệ miễn dịch. + GS Allison Đại học California Viện Y khoa Howard Hughes (Mỹ, 2001) tìm gen SPAS-1 có tác dụng kích thích tế bào T đặc hiệu adenocarcinom, từ nghiên cứu dùng gen sản xuất vacxin phòng ung thư tuyến tiền liệt. 1.2.2. Sinh học tiến hoá * Phân loại học phân tử - Phân tích liệu gen, gen xây dựng phân loại không cho thấy chiều hướng tiến hoá loài sinh giới mà rõ mức độ quan hệ loài tiến hoá nội loài. Vì vậy, việc xây dựng phân loại phân tử có vị trí quan trọng. - Cây phân loại (phylogeny, dendregram) nghiên cứu có hệ thống khoa học từ năm đầu kỷ 20. Năm 1909, từ số liệu phân tích tần số allen locus hemoglobin, Reichert Brown xây dựng phân loại số loài cá. - Hiện phát triển lĩnh vực xác định trình tự gen, trình tự axit amin phổ biến máy tính tốc độ cao cho phép nhà nghiên cứu theo dõi tiến hoá loài dựa thay đổi trình tự ADN. - Mặt khác phân loại góp phần giúp nhà khoa học thực phép lai có hiệu kinh tế cao, chẩn đoán ưu lai sớm tìm kiếm nguồn gốc phát sinh loài sinh vật. * Bảo tồn đa dạng sinh học: - Xác định trình tự ADN loài động vật, thực vật, vi sinh vật . để từ xác định hệ số di truyền loài. Thông tin quan trọng thu thập tên, đặc điểm hình thái, sinh lý, sinh hoá, di truyền, phân bố, tập tính . truy xuất chương trình phần mềm để tìm kiếm, hiển thị, phân tích thông tin cách tự động. Ngoài ra, sở lý thuyết ma trận (matrix), tính toán xây dựng phân loại, tìm quan hệ loài, hệ loài. - Vì lí suốt trình dài tiến hóa phát triển mà người tác động đến trồng, vật nuôi nhằm tăng suất làm thay đổi tính di truyền chúng khả thích nghi chúng. Ví dụ: Ở Hy Lạp, năm 1983 bỏ 95% giống lúa mì địa phương, Ở Tây Ban Nha, từ năm 1970 đến năm 1973 70% giống dưa địa phương. Ở Pháp, nước có 2000 giống táo năm 1970 chục giống. Ở Mỹ nước xuất ngô vào loại nhiều giới năm 1970 nửa diện tích ngô bị bệnh tiêm lửa (Helminthos porium maydis) nòi Texas tàn phá thiệt hại hàng tỷ đô la. - Cho nên bảo vệ đa dạng sinh vật bảo vệ cho ý thức, trách nhiệm người không riêng nhà chuyên môn nông-lâm-ngư nghiệp. Mặt khác, bảo vệ đa dạng sinh học tốt có hiệu không bảo vệ đa dạng di truyền (genetic diversitry) vật nuôi trồng mà phải ý đến bảo vệ đa dạng loài, đa dạng riêng biệt (specific diversity) sinh vật hoang dại. 1.2.3. Phân tích chức gene * Phân tích biểu gen: - Những nghiên cứu sinh học phân tử (molecular biology) đánh giá mức độ biểu gen (gene expression) thông qua việc xác định ARN thông tin (mARN) thông qua kĩ thuật microarray, EST (expressed sequence tag), SAGE (serial analisis of gene expression), MPSS (massively parallel signature sequencing) hay khối phổ (massspectrometry), kĩ thuật khiến việc tính toán, phân tích trở nên phức tạp. Từ sinh công cụ thống kê để lọc tín hiệu xác đáng khỏi thông tin nhiễu nghiên cứu biểu gen đa lượng. - Người ta so sánh liệu microarray từ tế bào bị ung thư với tế bào bình thường để xác định protein tăng cường hay giảm thiểu ung thư. - Dữ liệu biểu gen dùng để nghiên cứu điều hoà gen. - Nhận diện trình tự axit amin chuỗi polypeptide giải pháp quan trọng để từ suy cấu trúc gen tương ứng. * Nhận diện protein - Protein microarray hệ thống khối phổ cao (high throughput mass spectrometry) cung cấp hình ảnh (snapshot) tổng thể protein có mẫu sinh học (biological sample). Các ứng dụng tin sinh học có liên quan nhiều đến việc lý giải liệu thu từ hệ thống này. Đối với protein microarray, nhà tin sinh học cần chuyển kiểm tra liệu mRNA gắn array. Trong đó, vấn đề tin sinh học liên quan đến việc so trùng (matching) liệu khối phổ với sở liệu trình tự axit amin polypeptid, hay protein. Chẳng hạn virus lở mồm long móng (Foot Mouth Disease VirusFMDV) nhờ nhận diện trình tự axit amin “điểm định kháng nguyên” protein vỏ VP1. Trên sở công nghệ sinh học đại tạo vacxin phân tử để sử dụng. * Dự đoán cấu trúc protein - Dự đoán cấu trúc ứng dụng quan trọng tin sinh học. Có thể dễ dàng xác định trình tự axit amin hay gọi cấu trúc bậc protein từ trình tự gene mã hóa cho nó. Nhưng, protein có chức vốn có cuộn gấp thành hình dạng xác (nếu điều xảy ta có cấu trúc bậc hai, cấu trúc bậc ba cấu trúc bậc bốn). Tuy nhiên, vô khó khăn dự đoán cấu trúc gấp nếp từ trình tự axit amin. Một số phương pháp dự đoán cấu trúc máy tính phát triển. - Trong tin sinh học người ta ý đến tính tương đồng dự đoán cấu trúc gen. Chẳng hạn biết trình tự chức gen X trình tự tương đồng với gen Y biết chức gen Y. Và, với kỹ thuật mô tính tương đồng (homology modelling) thông tin dùng để dự đoán cấu trúc protein biết cấu trúc protein khác tương đồng với nó. Hiện nay, cách dự đoán cấu trúc đáng tin cậy. Các kỹ thuật dự đoán cấu trúc protein khác protein threading de novo (from scratch) physics-based modeling. 1.2.4. Phân tích hình ảnh mức độ cao Các kĩ thuật tính toán dùng để tăng tốc độ giúp tự động hoàn toàn trình xử lí, định lượng phân tích lượng lớn hình ảnh sinh học có chứa-thông-tin-cao. Các hệ thống xử lí ảnh đại tăng cường khả quan sát để giúp cho việc tính toán từ tập lớn phức tạp hình ảnh, cách cải tiến độ xác, tính khách quan, hay tốc độ. Những hệ thống dần trở thành quan trọng chẩn đoán nghiên cứu. Một vài ví dụ là: • Định lượng với tốc độ cao, độ tin cậy cao xác định vị trí tế-bào-con (hiển thị hình ảnh giàu nội dung (high-content screening), cytohistopathology) Động học hình thái (Morphometrics) dùng để phân tích hình ảnh trình phát triển phôi nhằm theo dõi dự đoán số phận cụm tế bào (cell cluster) suốt trình phát sinh hình thái (morphogenesis). • Phân tích hiển thị hình ảnh hình ảnh lâm sàng • Xác định mẫu dòng khí phổi sinh vật sống thời gian thực • Định lượng mức độ lưu giữ hình ảnh thời gian thực từ phát triển hồi phục suốt thời gian tổn thương động mạch (arterial injury) • Đưa quan sát xử từ đoạn phim thu lại động vật thí nghiệm • Đo đạc tia hồng ngoại để xác định hoạt động trao đổi chất • 1.2.5. Các hệ thống sinh học kiểu mẫu - Sinh học hệ thống bao gồm việc sử dụng khả mô máy tính (computer simulation) hệ quan tế bào cellular (như mạng metabolites enzyme, chúng bao gồm metabolism, signal transduction pathways gene regulatory networks) để phân tích hiển thị hoá (visualize) việc kết nối phức tạp trình tế bào này. Sự sống nhân tạo (Artificial life) hay tiến hoá ảo nỗ lực nhằm tìm hiểu trình tiến hoá thông qua việc mô máy tính dạng sống (nhân tạo) đơn giản. 1.2.6. Mạng điều khiển sinh học - Mạng điều khiển sinh học (biological regulatory network) mạng tương tác gene, protein để điều khiển trình sinh học tế bào, ví dụ trình trao đổi chất (metabolism), trình chu kỳ tế bào (cell cycle), nhịp sinh học (circadian rhytm), … - Các toán đặc trưng thường xây dựng mạng tương tác điều khiển trình sinh học cụ thể với gene protein có vai trò trọng trình sinh học đó, lập mô hình toán học (có thể nhị phân, hệ vi phân, hệ ngẫu nhiên, …) để phân tích tính chất, quy luật trình sinh học. Từ đưa dự đoán liên quan đến điểm bất thường bệnh, tật, đặc biệt ung thư. 1.3. Các lĩnh vực liên quan 1. Lý sinh 2. Biocybernetics 3. Y sinh học tin học 4. Sinh học tính toán 5. Tin y tế 6. Gen 7. Sinh học tính toán toán học sinh học mô hình 8. proteomics 9. Pharmacogenomics 10. Dược 11. Chemoinformatics 12. Phân tử chuyển hóa mô hình mạng 13. trí tuệ nhân tạo 14. Neuroinformatics 15. Thống kê 16. Khai thác liệu phân tích thông tin 1.4. Một số khái niệm quan trọng. - Một chuỗi DNA định nghĩa chuỗi nucleotit, nucleotit gồm thành phần cấu trúc hoa sinh mà Walson Crick khám phá năm 1956: adenine, guanine, cytosine, thynine. - Chuỗi Palindrome trình tự nucleotide mà đọc theo cách giống hai chiều đóng vai trò sinh học quan trọng. - Phân tử RNA cấu trúc xoắn tạo từ DNA hạt nhân mà thành tế bào làm cồn việc đó, ví dụ, tạo thành protein cấu trúc quy định đường hóa học khác cấu trúc nhỏ hơn. - Hệ gen sinh học nghiên cứu gen có tổ chức lớn, làm việc với tất gen thời điểm, ví dụ, xem xét toàn thiết kế. - Pubmed danh sách tài liệu xuất sinh học di truyền học (từ năm 1965 trước) mà cho phép nhà nghiên cứu lĩnh vực tìm họ cần nhanh họ thấy nghiên cứu định chiều hướng nghiên cứu có giá trị gì. Xem www…. - Blast chương trình khai thác sơ sở liệu, sử dụng rộng rãi tin sinh học, để khai thác sở liệu thông tin xây dựng từ phát lập danh mục cấu trúc DNA, RNA protein. Blast mang trình tự so sánh với CSDL trình tự phân tích để xem liệu có phù hợp không giúp nhận protein trình tự. Xem www… - ClustalW2 chương trình phân tích liệu mà tìm kiếm cho bắt cặp đa trình tự để xem trình tự mà nhà nghiên cứu khám phá phù hợp với biết nào. - Fasta bắt cặp khác chương trình quét CSDL sáng tạo năm 1988 ClustalW2, liệt kê trước đây, hầu hết sử dụng rộng rãi. - Ngân hàng gen kho chứa cho việc dự trữ chuỗi nucleoticles .và chuỗi protein nhà nghiên cứu kiểm tra chuỗi phát dựa vào biết. Xem http…. - Entrez/Gên ngân hàng gen mà nhiều “gen trung khu thần kinh”; ví dụ, cho phép câu hỏi, thắc mắc môt loại gen đặc biệt; số loại tìm thấy http…. - Dự án tập hợp tập trung vào di truyền người bên cạnh động vật khác. 2. Phương pháp phân tích liệu tin sinh học BLAST, viết tắt cho Basic Local Alignment & Search Tool, công cụ khai thác liệu phổ biến cho trình tự DNA/Protein. Trước phát triển công cụ này, nhà sinh học phải tìm kiếm sở liệu trình tự xuất bản, in chúng ra, treo chúng/tường, nhìn chúng hàng để cố gắng phân biệt mẫu hiểu chúng. Cũng vậy, họ phải xác định xem liệu trình tự phát thực hay tồn tài liệu. BLAST làm điều tự động. Chương trình máy tính khác tìm kiếm CSDL giống BLAST BLAST phổ biến nhất. Một số lựa chọn khác thay cho BLAST là: - Smith-Waterman: Cái xem xác BLAST hoạt động chậm hơn. - FASTA: Cái xác cho so sánh DNA chậm BLAST. BLAST: Cái xác định vị trí cDNA nhanh chóng tìm protein gần gũi (vd, chuột với người hai động vật có vú). 2.1. ClusteralW2: Sự bắt cặp trình tự Sau trình tự tìm thấy, trình tự phải bắt cặp, nỗ lực để thấy toàn hình ảnh, để thấy quan trọng xác định có lẽ trình tự xa lạ dư thừa (có nhiều, thật có xem xét dư thừa DNA). Một vài công cụ làm điều tương tự ClustalW2 Tcoffee, MUSCLE ClustalW2 hay dùng nhất. ClustalW2 giải thuật tiến sử dụng mẹo nhỏ để xây dựng bắt cặp trình tự: so sánh hai trình tự cuối nhóm chúng thành trông phát sinh loài, mà nhà thống kê gọi phân tích nhóm truyền thống, dendogram. ClustalW2 số tham khảo trích dẫn nhiều toàn lịch sử sinh học. W ClustalW2 viết tắt cho từ cân nặng (weight); trình tự nhận tỷ lệ cân nặng cho số lượng thông tin đóng góp cho bắt cặp toàn di truyền. ClustalW2 tìm địa sau: www…. Một trình tự nhận protein được nhận ra, điều mà nhiều nhà nghiên cứu tin sinh học muốn làm quan sát trình tự mẫu 3D. Điều làm việc đến địa web khác phủ NIH: www…. Chúng không vào chi tiết sách cung cấp địa web cho phác thảo chung tin sinh học gì. Sau quan sát cấu trúc 3D, nhà nghiên cứu có lẽ muốn tìm protein với hình dạng giống nhau; điều làm địa web NIH khác, biết dịch vụ VAST 2.2. Tìm kiếm CSDL cho phân tử RNA Sau trình tự tìm thấy, trình tự phải bắt cặp, nỗ lực để thấy toàn hình ảnh, để thấy quan trọng xác định có lẽ trình tự xa lạ dư thừa (có nhiều, thật có xem xét dư thừa DNA). Một vài công cụ làm điều tương tự ClustalW2 Tcoffee, MUSCLE ClustalW2 hay dùng nhất. ClustalW2 giải thuật tiến sử dụng mẹo nhỏ để xây dựng bắt cặp trình tự: so sánh hai trình tự cuối nhóm chúng thành nhìn phát sinh loài, mà nhà thống kê gọi phân tích nhóm truyền thống, dendogram. ClustalW2 số tham khảo trích dẫn nhiều toàn lịch sử sinh học. W ClustalW2 viết tắt cho từ cân nặng (weight); trình tự nhận tỷ lệ cân nặng cho số lượng thông tin đóng góp cho bắt cặp toàn di truyền. ClustalW2 tìm địa sau: www…. Một trình tự nhận protein được nhận ra, điều mà nhiều nhà nghiên cứu tin sinh học muốn làm quan sát trình tự mẫu 3D. Điều làm việc đến địa web khác phủ NIH: www…. Chúng không vào chi tiết sách cung cấp địa web cho phác thảo chung tin sinh học gì. Sau quan sát cấu trúc 3D, nhà nghiên cứu có lẽ muốn tìm protein với hình dạng giống nhau; điều làm địa web NIH khác, biết dịch vụ VAST 3. Dịch vụ Web tin sinh học Giao diện sở SOAP REST phát triển cho hàng loạt ứng dụng tin sinh học, cho phép ứng dụng chạy máy tính phần giới sử dụng giải thuật, liệu nguồn tính toán máy chủ nơi khác giới. Thuận lợi nằm người dùng cuối giải gìn giữ phần mềm CSDL đầu. Dịch vụ tin sinh học phân loại viện nghiên cứu tin sinh học châu Âu (EBI-http) thành loại: Dịch vụ tìm kiếm trình tự (SSS), bắt cặp đa trình tự (MSA) phân tích trình tự sinh học (BSA). Sự sẵn có nguồn tin sinh học định hướng dịch vụ chứng minh ứng dụng giải pháp tin sinh học dựa web xếp loại từ sưu tập công cụ độc lập với mẫu DL chung giao diện đơn , độc lập sở web,cho hệ thống quản lý quy trình tin sinh hoc trở thành hệ thống thống nhất, phân bổ mở rộng. Lĩnh vực tin sinh học, với phát triển caurnos với nhiều loại phần mềm, hỗn loạn, lời giái thích cho vấn đề tin sinh học lĩnh vực lớn gồm nhiều kiến thức, hiểu biết khác domains, với hiểu biết người thực hành làm việc môi trường cách ly với nhau. Chỉ gần khu vực đa dạng mang lại ô tin sinh học nhau. Sau đó, đề xuất giai đoạn “chọn lọc ra” thực cần năm tương lai mang lại nhiều hay phương pháp luận phân tích liệu chuẩn mực, liên quan đến khai thác liệu khai thác văn bản. Nhưng bây giờ, bảng 15.5 cung cấp danh sách chương trình phần mềm mà sử dụng lĩnh vực tin sinh học. BLAST công cụ tìm kiếm CSDL chính, ClustalW2 công cụ bắt cặp đa trình tự chính, thảo luận trước không bao gồm bảng này. 4. Làm để áp dụng phương pháp khai phá liệu vào tin sinh học Có vô số nguồn mở nguồn phần mềm máy tính phần mềm miễn phí/web, cung cấp chương trình viết nhiều nhà nghiên cứu tin sinh học. Thêm vào đó,, số sách viết giải thích người dùng viết chương trình họ nào. Một điều với sử dụng Perl, sẵn có sở liệu mà nguồn mở. Tisdall (2001) viết Beginning Perl For Bioinformatics, ví dụ trình tự nhấn mạnh đó. Perl ngôn ngữ máy tính tương đối dễ để học, đề cập đến chương khai thác văn bản. Tisdall (2001) để xây dựng giao diện cho CSDL ngân hàng gen NIH nào, mà đề cập đầu chương này. Nó cho phép người dùng phát triển kỹ việc sử dụng Perl để phân tích thích ngân hàng kết BLAST. * Một số giải thuật - Gollery (2008) nhiều nguồn khác miêu tả Hidden Markov Models (HMM) phương pháp liên quan HMMER, phương pháp phân tích trình tự (SAM) giải thuật PSI-BLAST. Khu vực có CSDL HMM với tên Pfam, PANTHER, COG metaSHARK - Shui Qing Ye (2008) miêu tả số DNA công thêm công cụ phân tích gen, số phân tích hệ thống sinh, phân tích SNP, phân tích haplotype,và quy định biểu gen. SAGE công cụ miêu tả. SNP, phát âm “snip”, viết tắt cho Simple Nucleoticle Polymorphism - Parida (2007): + Giải thuật Prim + Giải thuật Fitch + Sự khám phá giải thuật + Giải thuật mẫu thống kê, chẳng hạn: • Cây – đếm nhị phân 10 • Cây – đếm bật rễ ( trình tự Prufer) • Định lý Bayes với nhiều biến cố. • Khả khoảng cách • Sự phân phối có khả rời rạc • Khoảng cách có khả liên tục + Giải thuật dựa đồ Parikh + Giải thuật ngây thơ + Giải thuật Uno-Yagiura - Mitra (2008): + Kết luận thống kê thường xuyên + Kết luận Bayesian + Phương pháp nghiên cứu không giám sát, như: • Sự phân tích thành phần • Sự chia tỷ lệ đa chiều • Sự phân tích nhóm + Tập hợp mơ hồ (FS) + Sự tính toán tiến triển (EC) + Tập hợp gần + Kết luận mạch mạng + Bi-Clustering, gồm: • Multi-object bi-clustering • Fuzzy possibilistic bi-clustering + Sự phân tích hình ảnh protein 3D, sử dụng: • ARP/WARP • RESOLVE • TEXTAL 11 • ACMI MỞ RỘNG - Tổng quan Tin sinh học http://www.tinsinhhoc.org/72-tong-quan-ve-tin-sinh-hoc - Tin sinh học Việt Nam http://www.tinsinhhoc.org/79-viet-nam-va-su-phat-trien-tin-sinh-hoc 12 [...]... possibilistic bi-clustering + Sự phân tích hình ảnh protein 3D, sử dụng: • ARP/WARP • RESOLVE • TEXTAL 11 • ACMI MỞ RỘNG - Tổng quan Tin sinh học http://www.tinsinhhoc.org/72-tong-quan-ve -tin- sinh- hoc - Tin sinh học ở Việt Nam http://www.tinsinhhoc.org/79-viet-nam-va-su-phat-trien -tin- sinh- hoc 12 ... Khoảng cách có khả năng liên tục + Giải thuật dựa trên bản đồ Parikh + Giải thuật ngây thơ + Giải thuật Uno-Yagiura - Mitra (2008): + Kết luận thống kê thường xuyên nhất + Kết luận Bayesian + Phương pháp nghiên cứu không được giám sát, như: • Sự phân tích thành phần chính • Sự chia tỷ lệ đa chiều • Sự phân tích nhóm + Tập hợp mơ hồ (FS) + Sự tính toán tiến triển (EC) + Tập hợp gần đúng + Kết luận mạch mạng . Giới thiệu tin sinh học. 1.1. Tin sinh học là gì? Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính. ACMI MỞ RỘNG - Tổng quan Tin sinh học http://www.tinsinhhoc.org/72-tong-quan-ve -tin- sinh- hoc - Tin sinh học ở Việt Nam http://www.tinsinhhoc.org/79-viet-nam-va-su-phat-trien -tin- sinh- hoc 12 . Các lĩnh vực liên quan 1. Lý sinh 2. Biocybernetics 3. Y sinh học tin học 4. Sinh học tính toán 5. Tin y tế 6. Gen 7. Sinh học tính toán và toán học và sinh học mô hình 8. proteomics 9.

Ngày đăng: 12/09/2015, 15:42

Từ khóa liên quan

Mục lục

  • * Bản đồ gen và đánh dấu gen:

  • - Bản đồ trình tự gen (sequence map) là loại bản đồ có độ chính xác cao được sử dụng rộng rãi hiện nay và có thể xác định chính xác vị trí từng nucleotid trong bộ gen, góp phần xác định nguồn gốc phân loại, sự tiến hoá của các quần thể hoặc các loài sinh vật, đồng thời giúp con người xác định được những gen liên quan đến các tính trạng quý hiếm ở vật nuôi cây trồng, hoặc các gen đột biến, gen bị sai lệch do rối loạn di truyền ở người.

  • - Mục đích: nghiên cứu sự tiến hóa của loài người, xác định nguyên nhân một số bệnh di truyền, bệnh truyền nhiễm, từ đó có cơ sở để phát triển các loại thuốc mới, các liệu pháp chữa trị hiệu quả.

  • - Hiện nay, có nhiều loại bản đồ gen: bản đồ di truyền liên kết (genetic linkage), bản đồ di truyền tế bào (cytogenetic map), bản đồ lai phóng xạ (radianation hybrides map), bản đồ di truyền giới hạn (restriction map), bản đồ trình tự gen (sequence map)...

  • - Có nhiều phương pháp được sử dụng trong nghiên cứu bộ gen, bản đồ di truyền của các loài sinh vật như bản đồ lai phóng xạ, bản đồ lai tại chỗ huỳnh quang, bản đồ tạo dòng định vị.

  • * Dò tìm đột biến và SNP:

  • - Kỹ thuật PCR (Polymerase Chain Reaction) là một trong những kỹ thuật được sử dụng để phát hiện nhanh các gen đặc hiệu, gen kháng nguyên của nhiều loại virus gây ung thư.

  • - Ở đây, tập dữ liệu sơ khởi được tạo ra đòi hỏi các hệ thống tự động đọc từ đó so sánh các trình tự đã biết trên hệ gen người, bao gồm cả những điểm đa hình trên tế bào dòng tính (germline) đã biết, hoặc sử dụng hệ thống để phát hiện điểm đa hình đơn nucleotide (single nucleotide microarray) hoặc khảo sát tính dị biệt so sánh genome cho phép nghiên cứu hàng trăm ngàn vị trí trên bản đồ gen đang dược sử dụng để xác định những đột biến nhiễm sắc thể liên quan tới ung thư.

  • - Nhờ dò tìm các đột biến, phát hiện các gen mà các các công ty công nghệ sinh học hàng đầu thế giới như Millenium Pharmaceutical, tập đoàn Roche, Eli Lilly, Bayer AG đã được cấp bằng độc quyền sử dụng hàng trăm gen liên quan đến bệnh lý để phát triển các loại dược phẩm phân tử và sinh học phòng ngừa bệnh tật.

  • - Một số thành tựu:

  • + Saito và cộng sự (1989) ung thư vòm họng phần lớn do virus Eptein-Barr (EBV) gây nên có thể chẩn đoán chính xác trên 90%.

  • + Năm 2001, các nhà nghiên cứu của đại học California (Beckley) đã phát hiện ra 2 họ protein H60 và Rael có đặc tính kích thích thụ thể NKG 2D1 của tế bào diệt u NK (natural killer) và sản xuất ra g-interferon vốn đảm đương nhiệm vụ hoạt hoá các tế bào của hệ miễn dịch.

  • + GS Allison tại Đại học California và Viện Y khoa Howard Hughes (Mỹ, 2001) đã tìm ra gen SPAS-1 có tác dụng kích thích tế bào T đặc hiệu của adenocarcinom, từ đó nghiên cứu dùng gen này trong sản xuất vacxin phòng ung thư tuyến tiền liệt.

  • * Phân loại học phân tử

  • - Phân tích dữ liệu gen, bộ gen và xây dựng cây phân loại không chỉ cho thấy chiều hướng tiến hoá của các loài trong sinh giới mà còn chỉ rõ mức độ quan hệ trong loài và sự tiến hoá trong nội bộ loài. Vì vậy, việc xây dựng cây phân loại phân tử có vị trí hết sức quan trọng.

  • - Cây phân loại (phylogeny, dendregram) được nghiên cứu có hệ thống và khoa học từ những năm đầu thế kỷ 20. Năm 1909, từ các số liệu phân tích tần số các allen trong locus hemoglobin, Reichert và Brown đã xây dựng cây phân loại đầu tiên của một số loài cá.

  • - Hiện nay sự phát triển trong lĩnh vực xác định trình tự gen, trình tự axit amin và sự phổ biến các máy tính tốc độ cao cho phép các nhà nghiên cứu theo dõi sự tiến hoá của các loài dựa trên sự thay đổi trong trình tự ADN.

  • - Mặt khác cây phân loại còn góp phần giúp các nhà khoa học thực hiện các phép lai có hiệu quả kinh tế cao, chẩn đoán ưu thế lai sớm hoặc tìm kiếm nguồn gốc phát sinh của các loài sinh vật.

  • * Bảo tồn đa dạng sinh học:

  • - Xác định các trình tự ADN ở các loài động vật, thực vật, vi sinh vật... là căn cứ để từ đó xác định hệ số di truyền của các loài. Thông tin quan trọng nhất được thu thập chính là tên, các đặc điểm hình thái, sinh lý, sinh hoá, di truyền, sự phân bố, tập tính... được truy xuất bởi các chương trình phần mềm để tìm kiếm, hiển thị, phân tích các thông tin một cách tự động. Ngoài ra, trên cơ sở lý thuyết ma trận (matrix), tính toán xây dựng cây phân loại, tìm ra quan hệ giữa các loài, giữa các thế hệ trong loài.

Tài liệu cùng người dùng

Tài liệu liên quan