Đề tài giải pháp xây dựng cơ sở dữ liệu để có thể bổ sung dữ liệu virus cúm ở việt nam

23 576 0
Đề tài giải pháp xây dựng cơ sở dữ liệu để có thể bổ sung dữ liệu virus cúm ở việt nam

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

  MỤC LỤC  MỤC LỤC DANH MỤC HÌNH DANH MỤC BẢNG TÓM TẮT CHƯƠNG 1: TỔNG QUAN 1.1 GIỚI THIỆU VỀ VIRUS CÚM 1.2 TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGỒI NƯỚC 1.3 MỤC TIÊU ĐỀ TÀI: CHƯƠNG 2: NỘI DUNG THỰC HIỆN 2.1 PHƯƠNG PHÁP NGHIÊN CỨU 2.2 THIẾT KẾ MỘT CƠ SỞ DỮ LIỆU VIRUSBANK CHỨA THƠNG TIN VỀ VIRUS CÚM CHI TIẾT HĨA ĐẾN MỨC ĐỘ TỈNH THÀNH Ở VIỆT NAM 2.2.1 Mơ hình quan niệm liệu 2.2.2 Diễn giải 10 2.2.3 Mơ hình logic liệu 14 2.3 MODULE TỰ ĐỘNG DOWNLOAD DỮ LIỆU TỪ NGÂN HÀNG DỮ LIỆU NCBI 14 2.4 MODULE TỰ ĐỘNG CẬP NHẬT DỮ LIỆU VÀO CƠ SỞ DỮ LIỆU VIRUSBANK 16 2.5 CÔNG CỤ CUNG CẤP THÔNG TIN VIRUS CÚM 17 CHƯƠNG 3: KẾT LUẬN 18 3.1 KẾT QUẢ ĐẠT ĐƯỢC 18 3.2 HƯỚNG PHÁT TRIỂN 18 TÀI LIỆU THAM KHẢO 19 DANH MỤC HÌNH  Hình Hình Hình Hình Hình Hình Hình 1: Cấu trúc hệ gen loại cúm: cúm A, cúm B, cúm C 2: Các đại dịch cúm xảy giới 3: Mơ hình quan niệm liệu VirusBank 10 4: Mơ hình logic liệu VirusBank 14 5: Giao diện form kết nối liệu 15 6: Giao diện form tạo file đường dẫn 16 7: Giao diện form Download tự động, update tự động 17   DANH MỤC BẢNG  Bảng 1: Tổng kế đặc điểm virus Bảng 2: Thống kê số người nhiễm cúm H5N1 năm 2009 Bảng 3: Ví dụ nội dung file influenza_na.dat Bảng 4: Ví dụ nội dung file influenza.dat TÓM TẮT  Virus cúm (influenza) loại RNA virus, nguyên nhân gây bệnh cúm người động vật Với khả biến đổi lan truyền nhanh từ động vật sang động vật, từ động vật sang người, đặc biệt từ người sang người; virus cúm loài virus nguy hiểm cho kinh tế sức khỏe người toàn giới từ trước đến Chính vậy, hiểu biết cấu trúc phân tử nhu cầu lớn nghiên cứu dịch bệnh Hiện nay, tổ chức y tế, ngân hàng liệu giới lưu trữ nhiều trình tự sinh học liên quan đến virus cúm Tuy nhiên, ngân hàng liệu sinh học không chứa thông tin chi tiết đến tỉnh thành quốc gia Vì vậy, khơng có đầy đủ thơng tin để biểu diễn trình lây nhiễm, phân tích virus cúm Việt Nam cách đầy đủ, đặc biệt có đủ thơng tin để phục vụ cộng đồng Đề tài trình bày giải pháp xây dựng sở liệu để bổ sung liệu virus cúm Việt Nam mức độ tỉnh thành; đồng thời xây dựng công cụ giúp cho việc khai thác thơng tin theo tiêu chí người dùng virus cúm nhanh chóng hiệu Bên cạnh đó, đề tài trình bày giải pháp cho phép cập nhật liệu cách tự động từ ngân hàng liệu virus cúm giới, đặc biệt ngân hàng liệu NCBI (National Center for Biotechnology Information)   CHƯƠNG 1: TỔNG QUAN  1.1 GIỚI THIỆU VỀ VIRUS CÚM Virus cúm (influenza) - loại RNA virus - nguyên nhân gây bệnh cúm người động vật Virus cúm chia thành ba loại cúm A, cúm B, cúm C Cúm A bao gồm nhiều chủng (subtype) khác (ví dụ H1N1, H2N2, H5N1,…) virus cúm phổ biến nguy hiểm Hình 1Error! Reference source not found mô tả cấu trúc hệ gen ba loại virus cúm: cúm A, cúm B, cúm C Cúm A cúm B có loại gen giống nhau, cúm C có loại gen Tổng kết virus cúm - loại virus, kích thước hệ gen, loại gen, loại protein chính, động vật chủ phổ biến - nêu Bảng Bảng 1: Tổng kế đặc điểm virus Loại virus Kích thước gen Các loại gen Các loại protein Các động vật chủ phổ biến Cúm A ~12 Kb PB1, PB2, NP, HA, NA, PA, NS, M PB1, PB1-F2, PB2,PA, HA, NA, NP, M1, M2, NS1, NS2 Người, chim, gia cầm, động vật có vú Cúm B ~12 Kb PB1, PB2, NP, HA, NA, PA, NS, M PB1, PB2, PA, HA, NA, NP, M1, BM2, NS1, NS2 Người, hải cẩu Cúm C ~10 Kb PB1, PB2, NP, PA, NS, M, HEF PB1, PB2, P3, HE, NP, M1, CM2, NS1, NS2 Người, lợn Hình 1: Cấu trúc hệ gen loại cúm: cúm A, cúm B, cúm C Với khả biến đổi lan truyền nhanh từ động vật sang động vật, từ động vật sang người, đặc biệt từ người sang người, virus cúm loài virus nguy hiểm cho kinh tế sức khỏe người tồn giới từ trước đến Hình mốc thời gian diễn đại dịch cúm giới tổ chức y tế giới thống kê Đầu tiên đại dịch cúm Tây Ban Nha H1N1 diễn năm 1918 giết khoảng 20-50 triệu người toàn giới Tiếp sau đó, loạt đại dịch cúm khác gây thiệt hại lớn đến kinh tế sức khỏe người cúm châu Á H2N2 năm 1957, cúm Hồng Kông H3N2 năm 1968, v.v… Từ năm 2003 đến nay, giới đặc biệt châu Á Việt Nam bị dịch cúm gia cầm H5N1 Cúm gia cầm H1N1 có khả lây nhanh gia cầm gia cầm, dẫn đến làm chết phải thiêu hủy hàng loạt gia cầm Đặc biệt nguy hiểm hơn, chúng có khả lây từ gia cầm sang người 3 Hình 2: Các đại dịch cúm xảy giới Cho đến ngày 24/9/2009, giới có 262 người chết cúm gia cầm, Việt Nam có 56 trường hợp (xem Bảng tổ chức y tế giới thống kê) Trung tâm kiểm sốt phịng chống bệnh Mỹ dự đốn dịch cúm gia cầm H5N1 ảnh hưởng đến 15-35% dân số Mỹ với thiệt hại kinh tế khoảng 70-167 tỉ USD Hiện nay, giới, đặc biệt Việt Nam, đối mặt với dịch cúm lợn H1N1 Điều đặc biệt nguy hiểm cúm lợn H1N1 chúng có khả lây từ người sang người gây tử vong thời gian ngắn Tổ chức y tế giới (WHO) thơng báo ngày 11/10/2009 có 399.232 trường hợp bị nhiễm cúm H1N1, 4.735 trường hợp bị tử vong (xem http://www.who.int/csr/don/2009_10_16/en/index.html) Việt Nam ghi nhận 10 nghìn trường hợp bị nhiễm cúm H1N1, có hai mươi ca tử vong Sự phát triển mạnh mẽ công nghệ sinh học giúp giải mã gen virus cúm thời gian ngắn với chi phí vừa phải Dự án giải mã toàn hệ gen virus cúm triển khai nhiều nơi Viện nghiên cứu quốc gia bệnh truyền nhiễm, Hoa Kỳ (NIAID) từ năm 2004 [1] Một lượng lớn liệu sinh học phân tử (các trình tự DNA/protein) virus cúm giải mã lưu trữ sở liệu dùng chung giới Trung tâm Thông tin công nghệ sinh học Hoa Kỳ - NCBI (National Center for Biotechnology Information) NCBI lưu giữ 100.000 trình tự DNA/protein virus cúm thu thập giải mã từ nhiều quốc gia giới suốt thời gian qua 4 Bảng 2: Thống kê số người nhiễm cúm H5N1 năm 2009 Với lượng liệu khổng lồ thu thập, việc xây dựng hệ thống thơng tin, xây dựng cơng cụ tìm kiếm phân tích liệu phát triển mạnh mẽ giới Qua giúp hiểu chế lây nhiêm, tạo vắc-xin mới, theo dõi kiểm soát dịch bệnh Nổi bật hệ thống hệ thống thơng tin virus cúm NCBI (http://www.ncbi.nlm.nih.gov/genomes/FLU/) phát triển Bao đồng nghiệp năm 2008 [2] Hệ thống lưu giữ 100.000 trình tự DNA/protein lồi virus cúm khác Một số chức hệ thống là: − Cung cấp thông tin virus cúm theo nhiều tiêu chí khác như: loại virus cúm (cúm A, cúm B, cúm C), động vật chủ (người, gia cầm, ), quốc gia, loại protein Cung cấp số cơng cụ tìm kiếm phân tích liệu như: tìm kiếm BLAST [1], hàng đa trình tự [5], xây dựng phát sinh loài [8], v.v… Tuy nhiên, thông tin hệ thống NCBI cung cấp chi tiết đến mức độ quốc gia Tức không chi tiết đến mức độ tỉnh thành quốc gia Hệ thống không cung cấp công cụ cho phép thị theo dõi trình lây nhiểm virus cúm 1.2 TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGỒI NƯỚC Ngồi nước: Trung tâm Thơng tin công nghệ sinh học Hoa Kỳ - NCBI (National Center for Biotechnology Information) http://www.ncbi.nlm.nih.gov/genomes/FLU/ − Viện nghiên cứu genome Bắc Kinh, Trung Quốc, xây dựng sở liệu virus cúm IVDB (http://influenza.psych.ac.cn/) − Phịng thí nghiệm Quốc gia Los Alamos (http://flu.lanl.gov/) − Trường đại học Hàn Quốc Viện Sức khỏe quốc gia xây dựng “Cơ sở liệu genome cúm định kháng nguyên” ISED http://influenza.korea.ac.kr Trong nước: − Viện Công nghệ sinh học (Institute of Biotechnology - IBT) tiến hành nghiên cứu giải mã nhiều trình tự virus cúm H5N1 − Cục thú y trung ương tiến hành giải mã toàn hệ gen 33 virus cúm nhiều tỉnh thành khác từ 10/2005 đến 5/2007: Đồng tháp, Sóc Trăng, An Giang, Hà Tây, Vĩnh Long, Hà Nội,v.v… − Nhóm nghiên cứu TS Lê Sỹ Vinh Trường Đại học Công nghệ, thuộc Đại học Quốc gia Hà Nội tiến hành phát triển phương pháp công cụ tin sinh học để phân tích liệu virus cúm thu − Nhóm nghiên cứu PGS Trần Văn Lăng Phân viện Công nghệ thông tin TPHCM trước đây, Viện Cơ học Tin học ứng dụng (Institute of Mechanics and Informatics – IAMI) thuộc Viện Khoa học Công nghệ Việt Nam nhiều năm nghiên cứu, xây dựng công cụ tin sinh phục vụ cho việc nghiên cứu trình tự DNA/protein làm tảng cho việc nghiên cứu vi khuẩn virus − 1.3 MỤC TIÊU ĐỀ TÀI: Việc áp dụng Công nghệ thông tin (CNTT) vào giải tốn Cơng nghệ sinh học lĩnh vực giới Việt Nam Nhờ phát triển Công nghệ sinh học, có khả trích chọn liệu sinh học phân tử (trình tự DNA, hay trình tự amino acid) từ virus qua giúp phân tích phát triển lan rộng virus cúm Mặc dù nhiều nghiên cứu virus cúm tiến hành Việt Nam, nghiên cứu chủ yếu tập trung vào việc giải mã trình tự DNA protein, qua tiến hành số phân tích để tim hiểu mối quan hệ chúng 6 Tuy nhiên, thiếu hệ thống tin giúp nhà quản lý (bộ, ngành y tế); nhà chun mơn; người dân có thơng tin, liệu, cơng cụ phân tích (thống kê, mơ hình) virus cúm giới, đặc biệt chi tiết hóa cho virus cúm Việt Nam Đề tài tập trung xây dựng công cụ cung cấp thông tin virus cúm bao gồm chức năng: Thiết kế sở liệu chứa thông tin virus cúm giới chi tiết hóa liệu virus cúm Việt Nam mức độ tỉnh thành Tự động cập nhật liệu từ ngân hàng liệu NCBI Xây dựng công cụ cung cấp thông tin virus cúm CHƯƠNG 2: NỘI DUNG THỰC HIỆN  2.1 PHƯƠNG PHÁP NGHIÊN CỨU − Tìm hiểu virus cúm − Tìm hiểu thu thập đầy đủ thơng tin vấn đề cần giải quyết, bao gồm phương pháp phần mềm mã nguồn mở − Tận dụng tối đa liệu có sẵn Tìm kiếm bổ sung liệu thiếu đặc trưng Việt Nam − Lựa chọn kế thừa phương pháp phù hợp với nội dung cần giải Đồng thời, phát triển cải tiến phương pháp, phần mềm mã nguồn mở có − Các công cụ xây dựng hướng tới người dùng Việt Nam − Khảo sát tìm kiếm thơng tin công bố để bổ sung cho sở liệu thông tin đặc thù Việt Nam − Tận dụng tối đa cập nhật thường xuyên liệu virus cúm từ sở liệu quốc tế NCBI 2.2 THIẾT KẾ MỘT CƠ SỞ DỮ LIỆU VIRUSBANK CHỨA THÔNG TIN VỀ VIRUS CÚM CHI TIẾT HÓA ĐẾN MỨC ĐỘ TỈNH THÀNH Ở VIỆT NAM 2.2.1 Mơ hình quan niệm liệu Bắt đầu từ nguồn liệu ftp://ftp.ncbi.nih.gov/genomes/INFLUENZA/ mà NCBI lưu trữ Gồm file - genomeset.dat – có bảng chứa liệu tổng quan gen influenza_na.dat – Bảng chứa liệu tổng quan nucleotic - influenza_aa.dat – Bảng chứa liệu tổng quan protein - influenza.dat – Bảng chứa nucleotide, protein định danh vùng mã (coding regions IDs) Ví dụ nội dung file influenza_na.dat Bảng 3: Ví dụ nội dung file influenza_na.dat Accessio n Host Seg me nt Subty pe Country Year Lengt h S77429 Equine H3N8 Sweden 1979 1061 AJ31075 S73497 Equine H3N8 India 1987 1450 Seal H7N7 USA 1980 90 Ag e Equine influenza virus H3N8 Equine influenza virus H3N8 Influenza A virus (A/seal/Mass/1/1980(H Ge nde r Full Len gth yes V01087 Avian X00897 Human EU52189 Human H3N8 Ukraine 1963 1765 1979 1878 H3 Singapo re Peru 2006 1037 7N7)) Influenza A virus (A/duck/Ukraine/1/196 3(H3N8)) Influenza B virus yes yes Influenza A Virus (A/Arequipa/FLU3833/ 2006(H3)) Ví dụ nội dung file influenza.dat Bảng 4: Ví dụ nội dung file influenza.dat Accession Nucleotide AB000604 AB000605 AB000606 AB000607 AB000608 Accession Protein BAA7582 BAA7582 BAA7583 BAA7583 BAA7583 Protein_ID gb|AB000604: 4-1128 gb|AB000605: 4-1128 gb|AB000606: 4-1128 gb|AB000607: 4-1128 gb|AB000608: 4-1128 Accession Protein BAA75825 BAA75828 BAA75831 BAA75834 BAA75837 Protein_ID (gb|AB000604 :4-731, 960) (gb|AB000605 :4-731, 960) (gb|AB000606 :4-731, 960) (gb|AB000607 :4-731, 960) (gb|AB000608 :4-731, 960) Accession Protein BAA75826 BAA75829 BAA75832 BAA75835 BAA75838 Protein_ID gb|AB000604:70 9-1128 gb|AB000605:70 9-1128 gb|AB000606:70 9-1128 gb|AB000607:70 9-1128 gb|AB000608:70 9-1128 Và thông tin file liệu Nucleotic, Protein, Gene Các file chứa đầy đủ thông tin gene, protein nucleotic Yêu cầu cần thiết phải thiết kế sở liệu lưu trữ thơng tin phải thêm phần chi tiết đến tỉnh thành Việt Nam, đồng thời phải dễ dàng cho việc cập nhật tự động, truy xuất hiển thị thơng tin Xem hình file thơng tin nucleotic Influenza A virus (A/chicken/Egypt/1052S‐NLQP/2010(H5N1)) segment 4  hemagglutinin (HA) gene, partial cds  LOCUS DEFINITION GU811748 1584 bp cRNA linear VRL 21-APR-2010 Influenza A virus (A/chicken/Egypt/1052S-NLQP/2010(H5N1)) segment hemagglutinin (HA) gene, partial cds ACCESSION GU811748 VERSION GU811748.1 GI:289900038 KEYWORDS SOURCE Influenza A virus (A/chicken/Egypt/1052S-NLQP/2010(H5N1)) ORGANISM Influenza A virus (A/chicken/Egypt/1052S-NLQP/2010(H5N1)) Viruses; ssRNA negative-strand viruses; Orthomyxoviridae; Influenzavirus A REFERENCE (bases to 1584) AUTHORS Arafa,A.A., Hagag,N.M., Abdullah,M.H., Yehia,N.M., Abdel-Halim,A.M., Kilany,W.H., Ahmed,M.S., Zanaty,A.M., Abdel-Aziz,O.M., Hassan,M.K and Aly,M.M TITLE Genetic analysis of recent Egyptian H5N1 viruses JOURNAL Unpublished REFERENCE (bases to 1584) AUTHORS Arafa,A.A., Hagag,N.M., Abdullah,M.H., Yehia,N.M., Abdel-Halim,A.M., Kilany,W.H., Ahmed,M.S., Zanaty,A.M., Abdel-Aziz,O.M., Hassan,M.K and Aly,M.M TITLE Direct Submission JOURNAL Submitted (18-FEB-2010) National Laboratory for Veterinary Quality Control on Poultry Production, Nadi-Elsaid Street, Dokki, Giza 12618, Egypt FEATURES Location/Qualifiers source 1584 /organism="Influenza A virus (A/chicken/Egypt/1052S-NLQP/2010(H5N1))" /mol_type="viral cRNA" /strain="A/chicken/Egypt/1052S-NLQP/2010" /serotype="H5N1" /isolation_source="farm" /host="chicken" /db_xref="taxon:720653" /segment="4" /country="Egypt: Qaliobia" /collection_date="Feb-2010" gene 1584 /gene="HA" CDS 1584 /gene="HA" /codon_start=3 /product="hemagglutinin" /protein_id="ADD21384.1" /db_xref="GI:289900039" /translation="ANNSTEQVDTIMEKNVTVTHAQDILEKTHNGKLCDLDGVKPLIL RDCSVAGWLLGNPMCDEFPNVSEWSYIVEKTNPANDLCYPGNFNNYEELKHLLSRINR FEKIKIIPKSSWPDHEASLGVSSACPYQGGPSFYRNVVWLIKKNNTYPTIKESYHNTN QEDLLVLWGIHHPNDEEEQTRIYKNPTTYISVGTSTLNQRLVPKIATRSKVNGQSGRV EFFWTILKSNDTINFESNGNFIAPENAYKIVKKGDSTIMKSELEYGNCSTKCQTPVGA INSSMPFHNIHPLTIGECPKYVKSNRLVLATGLRNSPQGEGRRKKRGLFGAIAGFIEG GWQGMVDGWYGYHHSNEQGSGYAADRESTQKAIDGVTNKVNSIIDKMNTQFEAVGREF NNLEKRIENLNKKMEDGFLDVWTYNAELLVLMENERTLDFHDSNVKNLYDKVRLQLRD NAKELGNGCFEFYHRCDNECMESVRNGTYDYPQYSEEARLKREEISGVKLESIGTYQI LSIYSTVASSLALAIIVAG" ORIGIN atgcaaacaa ctcaacagag caggttgaca caataatgga aaagaacgtc actgttacac 61 acgctcaaga catactggaa aagacacaca acgggaaact ctgcgatcta gatggagtga 121 agcctctaat tttaagagat tgtagtgtag ctggatggct cctcgggaac ccaatgtgtg 10 Từ thơng tin trên, mơ hình quan niệm liệu thiết kế sau: LoaiGen MaLoaiGen VA(4) MoTaLoaiGen LVA(100) 0,n Asso GenVirus (1,1) STTPhanDoan BT 0,n Asso LoaiVirusCum MaLoaiVirusCum A(1) MoTaLoaiVirus LVA(100) 1,n 0,n Chung_H H BT Pro_Virus NucCore_Virus 0,n LoaiProtein 0,n STT_Virus BT Associa MaLoaiProtein BT TenLoaiProtein VA(6) 1,1 (1,1) Nucleotide ChungHN Nuc_Subtype 0,n 1,1 (1,1) Associ Chung_N (1,1) 0,n Nuc_Host N BT 1,1 DongVatChu 0,n I MaDongVatChu TenDongVatChu LVA(30) MoTaDongVatChu LVA(100) 1,1 Nuc_MaSo Nuc_MaDK Nuc_GI Nuc_PhienBan Nuc_MoTa Nuc_Ngay Nuc_Giong Nuc_Tuoi Nuc_KichThuoc Nuc_NoiDung KTDayDu 0,n LI VA(10) VA(10) BT LVA(200) D BL BT I VA(5000) BL ThuocLoaiProtein 1,1 Protein 0,n CDS_NucCore 1,1 Nuc_QH CDS QuanHuyen CDS_MaSo CDS_Vung CDS_KichThuoc CDS_NoiDung MaQuanHuyen LI TenQuanHuyen LVA(50) 0,n 1,1 LoaiDongVat BT MaLoaiDongVat TenLoaiDongVat LVA(50) MoTaLoaiDongVat LVA(100) LI VA(10) BT VA(10) LVA(200) I VA(5000) 1,1 0,n Thuoc Pro_MaSo Pro_MaDK Pro_PhienBan Pro_GI Pro_MoTa Pro_KichThuoc Pro_NoiDung 0,n 0,1 1,1 CDS_Protein ChauLuc QG_CL QuocGia QH_QG LI VA(50) I LVA(5000) MaQuocGia VA(5) TenQuocGia LVA(50) 1,1 0,n MaChauLuc BT TenChauLuc LVA(30) Hình 3: Mơ hình quan niệm liệu VirusBank 2.2.2 Diễn giải 1- LOAIVIRUS(MaLoaiVirus, MoTaLoaiVirus) Vi rút cúm chia thành ba loại cúm A, cúm B, cúm C Khóa truy xuất Nucleotide : /organism="Influenza (A/Egypt/N04434/2010(H5N1))" /strain="A/Egypt/N04434/2010" A virus 2- Chung_H(H) Chủng H có giá trị từ đến 16 3- Chung_N(N) Chủng N có giá trị từ đến 4- ChungHN(H, N) Mỗi loại Virus có nhiều chủng (Subtype) khác Ví dụ cúm A có chủng H1N1, H2N2, H5N1,… vi rút cúm phổ biến nguy hiểm 11 Khóa truy xuất Nucleotide : Source/serotype="H5N1" 5- LoaiGen(MaLoaiGen, MoTaLoaiGen) Các loại gien có loại virus: HA; MP; NA; NP; NS; P3; PA; PB1; PB2 Khóa truy xuất Nucleotide : gene /gene= "HA" CDS/gene="HA" Trong Nucleotide, số thứ tự phân đoạn (segment) gene phụ thuộc vào loại virus : Loại vi rút Các loại gen Cúm A 1-PB2, 2-PB1, 3-PA, 4-HA, 5-NP, 6-NA, 7-MP, 8-NS Cúm B 1-PB1, 2-PB2, 3-PA, 4-HA, 5-NP, 6-NA, 7-MP, 8-NS 1-PB2, 2-PB1, 3-P3, 4-HE, 5-NP, 6-MP, 7-NS Cúm C Truy xuất cột thứ file genomeset.dat, influenza_na.dat, influenza_aa.dat Khóa truy xuất Nucleotide Record: Source/segment = 6- LOAIDONGVAT(MaLoaiDongVat, TenLoaiDongVat) : Danh mục loại động vật (Organism) Truy xuất cột thứ file genomeset.dat, influenza_na.dat, influenza_aa.dat 7- DONGVATCHU(MaDongVatChu, TenDongVatChu): Danh mục động vật mang virus Khóa truy xuất Nucleotide : source/host="chicken" source/host="human; gender F; age 18" 8- CHAULUC(MaChauLuc, TenChauLuc) Danh mục châu lục (Region) : Africa; Asia; Europe; North American; Oceania; South American 9- QUOCGIA(MaQuocGia, TenQuocGia) Danh mục quốc gia (Country), quốc gia thuộc vùng Khóa truy xuất Nucleotide : source/country="Egypt: Qaliobia" source/country="Egypt: Fayoum" 10- QUANHUYEN(MaQuanHuyen, TenQuanHuyen) 12 Danh mục quận/huyện (District), quận huyện có mã số phân biệt, có tên thuộc quốc gia Khóa truy xuất Nucleotide : source/country="Egypt: Qaliobia" source/country="Egypt: Fayoum" 11- NUCLEOTIDE(Nuc_MaSo, Nuc_MaDK, Nuc_PhienBan, Nuc_GI, Nuc_MoTa, Nuc_Ngay, Nuc_Giong, Nuc_Tuoi, Nuc_KichThuoc, KTDayDu, Nuc_NoiDung) • Nuc_MaDK (Accession): Số đăng ký GenBank Truy xuất cột số file influenza_na.dat Sử dụng mã để truy cập thông tin chi tiết record Nucleotide NCIB, ví dụ: http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?val=GU811748 • Nuc_PhienBan (Version): Phiên Nucleotide Record, Thông tin Nucleotide lưu lần GenBank có Version = Truy xuất dịng VERSION Nucleotide Record • Nuc_GI: Mã số truy cập thông tin Nucleotide website CBI Giá trị GI dùng để tạo GenBank Link theo cơng thức sau: http://www.ncbi.nlm.nih.gov/nuccore/ Ví dụ: http://www.ncbi.nlm.nih.gov/nuccore/289900038 • Nuc_MoTa (Definition): Truy xuất dịng DEFINITION Nucleotide Record • Nuc_Ngay (Date): Truy xuất dịng LOCUS • Nuc_KichThuoc (Length): Truy xuất cột thứ file influenza_na.dat dòng LOCUS • KTDayDu (Full-Length): Yes/No; Truy xuất cột thứ 11 file influenza_na.dat • Nuc_Giong (Gender): Truy xuất cột thứ 10 file influenza_na.da • Nuc_Tuoi (Age): Truy xuất cột thứ file influenza_na.da • Nuc_NoiDung (Sequence): Truy xuất vùng ORIGIN cuối Nucleotide Record 13 12- CDS(CDS_MaSo, CDS_KichThuoc, CDS_Vung, CDS_NoiDung) Vùng trình tự mã hóa cho Protein Mỗi CDS mã số phân biệt, vùng CDS chuỗi nucleotide, chiều dài vùng CDS nôi dung chuỗi • CDS_Vung (Range): dùng biểu thị vùng CDS nằm chuỗi xét Truy xuất giá trị Range dòng CDS Nucleotide record CDS//coded_by="GU811748.1:1584" Protein Record Từ liệu Range ta tính thước chuỗi CDS • CDS_KichThuoc (Length): Từ Range ta tính CDS Length • CDS_NoiDung (Sequence): Tùy thuộc loại Segment mà Nucleotide có hay nhiều CDS, Đối với segment PB1, M NS có CSD 13- LOAIPROTEIN(MaLoaiProtein, TenLoaiProtein) Danh mục loại Protein Mỗi loại Protein có mã số phân biệt tên phân biệt Có 16 loại Protein sau: PB2; PB1; PB1-F2; PA; P3; HA; HE; NP; NA; NB; M1; M2; BM2; CM2; NS1; NS2 Mỗi loại virus có số loại Protein liệt kê bảng sau: Loại vi rút Các loại protein Cúm A PB2, PB1, PB1-F2, PA, HA, NP, NA, M1, M2, NS1, NS2 Cúm B PB1, PB2, PA, HA, NP, NA, NB, M1, BM2, NS1, NS2 Cúm C PB2, PB1, P3, HE, NP, M1, CM2, NS1, NS2 14- Protein(Pro_MaSo, Pro_MaDK, Pro_PhienBan, Pro_GI, Pro_MoTa, Pro_KichThuoc, Pro_NoiDung) Mỗi Protein Record tương ứng với CDS Nucleotide • Pro_MaDH (Accession): Số đăng ký GenBank Truy xuất cột số file influenza_na.dat Sử dụng mã để truy cập thông tin chi tiết record Nucleotide NCIB theo cú pháp http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?val= ví dụ: http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?val=ADD21384 • Pro_PhienBan (Version): Phiên Protein Record, Thông tin Protein lưu lần GenBank có Version = Truy xuất dịng VERSION Protein Record • Pro_GI: dùng truy cập tài liệu liên quan đến Protein với cú pháp: http://www.ncbi.nlm.nih.gov/protein/ Ví dụ: http://www.ncbi.nlm.nih.gov/protein/289900039 • Pro_MoTa (Definition): Truy xuất dịng DEFINITION Protein Record 14 • Pro_KichThuoc (Length): Truy xuất cột thứ file influenza_aa.dat dịng LOCUS • Pro_NoiDung (Sequence): Truy xuất vùng ORIGIN cuối Protein Record hay khóa CDS/Translation 2.2.3 Mơ hình logic liệu LoaiGen GenVirus varchar(4) MaLoaiGen MoTaLoaiGen nvarchar(100) LoaiVirusCum MaLoaiVirusCum char(1) MaLoaiGen varchar(4) STTPhanDoan tinyint MaLoaiVirusCum char(1) MoTaLoaiVirus nvarchar(100) Chung_H Pro_Virus H tinyint LoaiProtein tinyint MaLoaiProtein MaLoaiVirusCum char(1) STT_Virus tinyint ChungHN MaLoaiProtein tinyint TenLoaiProtein varchar(6) Nucleotide H tinyint N tinyint Chung_N N tinyint DongVatChu MaDongVatChu MaLoaiDongVat TenDongVatChu MoTaDongVatChu int tinyint nvarchar(30) nvarchar(100) Nuc_MaSo MaQuanHuyen MaDongVatChu H N MaLoaiVirusCum MaLoaiGen Nuc_MaDK Nuc_GI Nuc_PhienBan Nuc_MoTa Nuc_Ngay Nuc_Giong Nuc_Tuoi Nuc_KichThuoc Nuc_NoiDung KTDayDu bigint bigint int tinyint tinyint char(1) varchar(4) varchar(10) varchar(10) tinyint nvarchar(200) datetime bit tinyint int varchar(5000) bit Protein Pro_MaSo MaLoaiProtein CDS_MaSo Pro_MaDK Pro_PhienBan Pro_GI Pro_MoTa Pro_KichThuoc Pro_NoiDung bigint tinyint bigint varchar(10) tinyint varchar(10) nvarchar(200) int varchar(5000) CDS QuanHuyen LoaiDongVat tinyint MaLoaiDongVat TenLoaiDongVat nvarchar50) MoTaLoaiDongVat nvarchar(100) MaQuanHuyen bigint MaQuocGia varchar(5) TenQuanHuyen nvarchar(50) CDS_MaSo Pro_MaSo Nuc_MaSo CDS_Vung CDS_KichThuoc CDS_NoiDung QuocGia ChauLuc MaQuocGia varchar(5) MaChauLuc tinyint TenQuocGia nvarchar(30) MaChauLuc tinyint TenChauLuc nvarchar(30) Hình 4: Mơ hình logic liệu VirusBank 2.3 MODULE TỰ ĐỘNG DOWNLOAD DỮ LIỆU TỪ NGÂN HÀNG DỮ LIỆU NCBI Ngân hàng liệu NCBI cho phép download liệu phải sử dụng thủ công Số lượng file virus cúm lớn, 100.000, việc download file không thực Module tự động download liệu tự động lấy liệu bigint bigint bigint varchar(50) int varchar(5000) 15 lưu trữ vào thư mục định Yêu cầu module phải kết nối với Internet Tốc độ thực tùy thuộc vào tốc độ đường truyền Internet Hình 5: Giao diện form kết nối liệu 16 Hình 6: Giao diện form tạo file đường dẫn 2.4 MODULE TỰ ĐỘNG CẬP NHẬT DỮ LIỆU VÀO CƠ SỞ DỮ LIỆU VIRUSBANK Các file virus download file riêng lẻ Thông tin virus cần phải trích lưu vào sở liệu để truy xuất sau Việc trích lọc thơng tin từ file phải thực tự động yêu cầu xác, nhanh chóng Module cập nhật tự động có đầy đủ khả 17 Hình 7: Giao diện form Download tự động, update tự động 2.5 CÔNG CỤ CUNG CẤP THƠNG TIN VIRUS CÚM Cơng cụ cung cấp thơng tin virus cúm thực chất website cho phép người dùng tìm kiếm, thống kê thơng tin virus cúm Hệ thống website có giao diện thân thiện, dễ sử dụng cho truy xuất, hiển thị thông tin Việc cung cấp công cụ thống kê liệu lây lan virus cúm cần thiết Công cụ gồm chức năng: − Cho phép người dùng lựa chọn thống kê virus cúm theo nhiều tiêu chí khác − Thống kê biểu diễn kết virus cúm theo vị trí địa lý (quốc gia, tỉnh thành Việt Nam) − Thống kê biểu diễn kết virus cúm theo thời gian − Thống kê biểu diễn kết phát triển virus cúm theo loại chủng virus 18 CHƯƠNG 3: KẾT LUẬN  3.1 KẾT QUẢ ĐẠT ĐƯỢC Các nghiên cứu Việt Nam thường thực riêng rẽ, chưa có gắn kết Hệ thống giúp lưu trữ liệu cách tập trung qua giúp cho việc tìm kiếm, hiển thị nghiên cứu virus cúm Việt Nam cách đầy đủ tổng thể, làm phong phú thêm ngân hàng liệu virus cúm Hệ thống website đưa lên mạng Internet giúp cho người dân có hiểu biết định phân bổ virus cúm tồn lãnh thổ, đồng thời cung cấp liệu có tổ chức y tế có nhu cầu Đề tài đạt kết sau: Cơ sở liệu Virus cúm chi tiết đến tỉnh thành Module tự động download liệu từ NCBI Module tự động cập nhật liệu virus cúm, chi tiết hóa đến tỉnh thành Hệ thống website cung cấp thông tin virus cúm, cho phép tìm kiếm hiển thị thơng tin cách khoa học 3.2 HƯỚNG PHÁT TRIỂN Hệ thống dừng mức cung cấp thông tin, chưa sâu vào phân tích thơng tin giải mã thông tin virus Hướng phát triển tới bổ sung thêm số module thực công việc Việc vận chuyển, buôn bán động vật tỉnh thành dẫn đến việc lây nhiễm dịch bệnh cách nhanh chóng phức tạp Việc tìm nguồn gốc ổ bệnh quan qua giúp nhà quản lý phát lập xác ổ bệnh nhằm tránh việc lây lan hay thiêu hủy gia cầm không cần thiết Dựa vào sở liệu chi tiết đến mức tỉnh thành Việt Nam, tiến hành giải mã virus ổ bệnh bùng phát, qua tìm nguồn gốc (tỉnh thành) ổ bệnh để có phương pháp đối phó 19 TÀI LIỆU THAM KHẢO  [1] Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990) Basic local alignment search tool J Mol Biol 215 (3): 403–410 [2] Bao Y., P Bolotov, D Dernovoy, B Kiryutin, L Zaslavsky, T Tatusova, J Ostell, D Lipman (2008) The Influenza Virus Resource at the National Center for Biotechnology Information J Virol 2008 Jan; 82(2):596-601 [3] Chang, S., Zhang, J., Liao, X., Zhu, X., Wang, D., Zhu, J., Feng, T., Zhu, B., Gao, G.F., Wang, J et al (2007) Influenza Virus Database (IVDB): an integrated information resource DNA analysis platform for influenza virus research Nucleic Acids Res, 35, D376-380 [4] Dang Cao Cuong, Le Si Quang, Le Sy Vinh (2009) Influenza-specific amino acid substitution model, The first international conference on knowledge DNA systems engineering, Hanoi [5] Edgar RC (2004) MUSCLE: multiple sequence alignment with high accuracy DNA high throughput Nucl Acids Res 2004, 32:1792–1797 [6] Fauci A: Race against time Nature 2009, 435:423–42 [7] Nguyen TD, et al (2008) Multiple Sublineages of Influenza A Virus (H5N1), Vietnam, 2005-2007 Emerging Infectious Diseases 2008, 14:632–636 [8] Saitou N, Nei M (1987) The Neighbor-Joining method: a new method for reconstructing phylogenetic trees Mol Biol Evol (4): 406-425 [9] Trần Văn Lăng cộng Nghiên cứu để xây dựng công cụ tin học xử lý thông tin Gene Protein Đề tài cấp bộ, Viện Khoa học Công nghệ Việt Nam quản lý, 2003-2004 [10]Trần Văn Lăng cộng Tính tốn hiệu cao tính tốn lưới số tốn sinh học Đề tài thuộc chương trình Nghiên cứu bản, 2006-2007 [11] Trần Văn Lăng Ứng dụng Tin học việc giải số toán thuộc Sinh học phân tử, Nxb Giáo dục, 2008 ... virus cúm Việt Nam cách đầy đủ, đặc biệt có đủ thơng tin để phục vụ cộng đồng Đề tài trình bày giải pháp xây dựng sở liệu để bổ sung liệu virus cúm Việt Nam mức độ tỉnh thành; đồng thời xây dựng. .. bố để bổ sung cho sở liệu thông tin đặc thù Việt Nam − Tận dụng tối đa cập nhật thường xuyên liệu virus cúm từ sở liệu quốc tế NCBI 2.2 THIẾT KẾ MỘT CƠ SỞ DỮ LIỆU VIRUSBANK CHỨA THÔNG TIN VỀ VIRUS. .. Thiết kế sở liệu chứa thông tin virus cúm giới chi tiết hóa liệu virus cúm Việt Nam mức độ tỉnh thành Tự động cập nhật liệu từ ngân hàng liệu NCBI Xây dựng công cụ cung cấp thông tin virus cúm CHƯƠNG 2: NỘI DUNG THỰC HIỆN 

Ngày đăng: 10/12/2013, 18:06

Hình ảnh liên quan

Bảng 1: Tổng kế các đặc điểm chính của virus - Đề tài giải pháp xây dựng cơ sở dữ liệu để có thể bổ sung dữ liệu virus cúm ở việt nam

Bảng 1.

Tổng kế các đặc điểm chính của virus Xem tại trang 5 của tài liệu.
Hình 1: Cấu trúc hệ gen của 3 loại cúm: cúm A, cúm B, cúm C - Đề tài giải pháp xây dựng cơ sở dữ liệu để có thể bổ sung dữ liệu virus cúm ở việt nam

Hình 1.

Cấu trúc hệ gen của 3 loại cúm: cúm A, cúm B, cúm C Xem tại trang 6 của tài liệu.
Hình 2: Các đại dịch cúm xảy ra trên thế giới cho đến nay - Đề tài giải pháp xây dựng cơ sở dữ liệu để có thể bổ sung dữ liệu virus cúm ở việt nam

Hình 2.

Các đại dịch cúm xảy ra trên thế giới cho đến nay Xem tại trang 7 của tài liệu.
Bảng 2: Thống kê số người nhiễm cúm H5N1 cho đến năm 2009 - Đề tài giải pháp xây dựng cơ sở dữ liệu để có thể bổ sung dữ liệu virus cúm ở việt nam

Bảng 2.

Thống kê số người nhiễm cúm H5N1 cho đến năm 2009 Xem tại trang 8 của tài liệu.
Bảng 4: Ví dụ về nội dung file influenza.dat Accession  - Đề tài giải pháp xây dựng cơ sở dữ liệu để có thể bổ sung dữ liệu virus cúm ở việt nam

Bảng 4.

Ví dụ về nội dung file influenza.dat Accession Xem tại trang 12 của tài liệu.
Xem hình về file thông tin của 1 nucleotic - Đề tài giải pháp xây dựng cơ sở dữ liệu để có thể bổ sung dữ liệu virus cúm ở việt nam

em.

hình về file thông tin của 1 nucleotic Xem tại trang 12 của tài liệu.
2.2.3 Mô hình logic dữ liệu - Đề tài giải pháp xây dựng cơ sở dữ liệu để có thể bổ sung dữ liệu virus cúm ở việt nam

2.2.3.

Mô hình logic dữ liệu Xem tại trang 18 của tài liệu.
Hình 5: Giao diện form kết nối dữ liệu - Đề tài giải pháp xây dựng cơ sở dữ liệu để có thể bổ sung dữ liệu virus cúm ở việt nam

Hình 5.

Giao diện form kết nối dữ liệu Xem tại trang 19 của tài liệu.
Hình 6: Giao diện form tạo file đường dẫn - Đề tài giải pháp xây dựng cơ sở dữ liệu để có thể bổ sung dữ liệu virus cúm ở việt nam

Hình 6.

Giao diện form tạo file đường dẫn Xem tại trang 20 của tài liệu.
Hình 7: Giao diện form Download tự động, update tự động - Đề tài giải pháp xây dựng cơ sở dữ liệu để có thể bổ sung dữ liệu virus cúm ở việt nam

Hình 7.

Giao diện form Download tự động, update tự động Xem tại trang 21 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan