Báo cáo khoa học lập chỉ mục theo nhóm để nâng cao hiệu quả khai thác cơ sở dữ liệu virus cúm

10 174 0
Báo cáo khoa học  lập chỉ mục theo nhóm để nâng cao hiệu quả khai thác cơ sở dữ liệu virus cúm

Đang tải... (xem toàn văn)

Thông tin tài liệu

LẬP CHỈ MỤC THEO NHÓM ĐỂ NÂNG CAO HIỆU QUẢ KHAI THÁC CƠ SỞ DỮ LIỆU VIRUS CÚM Trương Thị Đức, Trương Thị Quỳnh Hương, Nguyễn Thụy Mai Trâm Võ Hồng Bảo Châu, Tạ Thúc Nhu Khoa Công nghệ thông tin, Trường Đại học Lạc Hồng 10 Huỳnh Văn Nghệ, Biên Hòa, Đồng Nai {duc,huong,maitram,chau,nhu}@lhu.edu.vn TÓM TẮT Virus cúm (influenza) loại RNA virus, nguyên nhân gây bệnh cúm người động vật Với khả biến đổi lan truyền nhanh từ động vật sang động vật, từ động vật sang người, đặc biệt từ người sang người; virus cúm loài virus nguy hiểm cho kinh tế sức khỏe người toàn giới từ trước đến Chính vậy, hiểu biết cấu trúc phân tử nhu cầu lớn nghiên cứu dịch bệnh Hiện nay, tổ chức y tế, ngân hàng liệu giới lưu trữ nhiều trình tự sinh học liên quan đến virus cúm Tuy nhiên, ngân hàng liệu sinh học không chứa thông tin chi tiết đến tỉnh thành quốc gia Vì vậy, đầy đủ thông tin để biểu diễn trình lây nhiễm, phân tích virus cúm Việt Nam cách đầy đủ, đặc biệt có đủ thông tin để phục vụ cộng đồng Bài viết trình bày giải pháp xây dựng sở liệu để bổ sung liệu virus cúm Việt Nam mức độ tỉnh thành; đồng thời đưa thuật toán lập mục theo nhóm qua giúp cho việc khai thác thông tin theo tiêu chí người dùng virus cúm nhanh chóng hiệu Thuật toán cho phép chọn lựa trình tự sinh học với mức độ tương đồng khác để truy vấn; sau nhóm kết dựa quan hệ họ hàng chúng với Bên cạnh đó, viết trình bày giải pháp cho phép cập nhật liệu cách tự động từ ngân hàng liệu virus cúm giới, đặc biệt ngân hàng liệu NCBI (National Center for Biotechnology Information) Đặt vấn đề Sự phát triển mạnh mẽ công nghệ sinh học giúp giải mã gen virus cúm thời gian ngắn với chi phí vừa phải Dự án giải mã toàn hệ gen virus cúm triển khai nhiều nơi Viện nghiên cứu quốc gia bệnh truyền nhiễm, Hoa Kỳ (NIAID) từ năm 2004 [1] Một lượng lớn liệu sinh học phân tử (các trình tự DNA/protein) virus cúm giải mã lưu trữ sở liệu dùng chung giới Trung tâm Thông tin công nghệ sinh học Hoa Kỳ - NCBI (National Center for Biotechnology Information) NCBI lưu giữ 100.000 trình tự DNA/protein virus cúm thu thập giải mã từ nhiều quốc gia giới suốt thời gian qua Với lượng liệu khổng lồ thu thập, việc xây dựng hệ thống thông tin, xây dựng công cụ tìm kiếm phân tích liệu phát Trang 1/9 triển mạnh mẽ giới Qua giúp hiểu chế lây nhiêm, tạo vắc-xin mới, theo dõi kiểm soát dịch bệnh Nổi bật hệ thống hệ thống thông tin virus cúm NCBI (http://www.ncbi.nlm.nih.gov/genomes/FLU/) phát triển Bao đồng nghiệp năm 2008 [2]Error! Reference source not found Hệ thống lưu giữ 100.000 trình tự DNA/protein loài virus cúm khác Một số chức hệ thống là:  Cung cấp thông tin virus cúm theo nhiều tiêu chí khác như: loại virus cúm (cúm A, cúm B, cúm C), động vật chủ (người, gia cầm, ), quốc gia, loại protein Cung cấp số công cụ tìm kiếm phân tích liệu như: tìm kiếm BLAST [1]Error! Reference source not found., hàng đa trình tự Error! Reference source not found., xây dựng phát sinh loài [8], v.v… Tuy nhiên, thông tin hệ thống NCBI cung cấp chi tiết đến mức độ quốc gia Tức không chi tiết đến mức độ tỉnh thành quốc gia Hệ thống không cung cấp công cụ cho phép thị theo dõi trình lây nhiểm virus cúm Một số nghiên cứu virus cúm tiêu biểu:  Ngoài nước:  Trung tâm Thông tin công nghệ sinh học Hoa Kỳ - NCBI (National Center for Biotechnology Information) http://www.ncbi.nlm.nih.gov/genomes/FLU/  Viện nghiên cứu genome Bắc Kinh, Trung Quốc, xây dựng sở liệu virus cúm IVDB (http://influenza.psych.ac.cn/)  Phòng thí nghiệm Quốc gia Los Alamos (http://flu.lanl.gov/)  Trường đại học Hàn Quốc Viện Sức khỏe quốc gia xây dựng “Cơ sở liệu genome cúm định kháng nguyên” ISED (http://influenza.korea.ac.kr)  Trong nước:  Viện Công nghệ sinh học (Institute of Biotechnology - IBT) tiến hành nghiên cứu giải mã nhiều trình tự virus cúm H5N1  Cục thú y trung ương tiến hành giải mã toàn hệ gen 33 virus cúm nhiều tỉnh thành khác từ 10/2005 đến 5/2007: Đồng tháp, Sóc Trăng, An Giang, Hà Tây, Vĩnh Long, Hà Nội,v.v…  Nhóm nghiên cứu TS Lê Sỹ Vinh Trường Đại học Công nghệ, thuộc Đại học Quốc gia Hà Nội tiến hành phát Trang 2/9 triển phương pháp công cụ tin sinh học để phân tích liệu virus cúm thu  Nhóm nghiên cứu PGS Trần Văn Lăng Phân viện Công nghệ thông tin TPHCM trước đây, Viện Cơ học Tin học ứng dụng (Institute of Mechanics and Informatics – IAMI) thuộc Viện Khoa học Công nghệ Việt Nam nhiều năm nghiên cứu, xây dựng công cụ tin sinh phục vụ cho việc nghiên cứu trình tự DNA/protein làm tảng cho việc nghiên cứu vi khuẩn virus Mặc dù nhiều nghiên cứu virus cúm tiến hành Việt Nam, nghiên cứu chủ yếu tập trung vào việc giải mã trình tự DNA protein, qua tiến hành số phân tích để tim hiểu mối quan hệ chúng Tuy nhiên, thiếu hệ thống tin giúp nhà quản lý (bộ, ngành y tế); nhà chuyên môn; người dân có thông tin, liệu, công cụ phân tích (thống kê, mô hình) virus cúm giới, đặc biệt chi tiết hóa cho virus cúm Việt Nam Nghiên cứu tập trung xây dựng công cụ cung cấp thông tin virus cúm bao gồm chức năng:  Thiết kế sở liệu chứa thông tin virus cúm giới chi tiết hóa liệu virus cúm Việt Nam mức độ tỉnh thành  Tự động cập nhật liệu từ ngân hàng liệu NCBI  Lập mục theo nhóm  Xây dựng công cụ cung cấp thông tin virus cúm Phương pháp nghiên cứu Thiết kế sở liệu chứa thông tin virus cúm giới chi tiết hóa liệu virus cúm Việt Nam mức độ tỉnh thành Bắt đầu từ nguồn liệu mà ftp://ftp.ncbi.nih.gov/genomes/INFLUENZA/ NCBI lưu trữ Và thông tin file liệu Nucleotic, Protein, Gene Các file chứa đầy đủ thông tin gene, protein nucleotic Yêu cầu cần thiết phải thiết kế sở liệu lưu trữ thông tin phải thêm phần chi tiết đến tỉnh thành Việt Nam, đồng thời phải dễ dàng cho việc cập nhật tự động, truy xuất hiển thị thông tin Xem hình file thông tin nucleotic Trang 3/9 Trang 4/9 Influenza A virus (A/chicken/Egypt/1052S-NLQP/2010(H5N1)) segment hemagglutinin (HA) gene, partial cds LOCUS DEFINITION GU811748 1584 bp cRNA linear VRL 21-APR-2010 Influenza A virus (A/chicken/Egypt/1052S-NLQP/2010(H5N1)) segment hemagglutinin (HA) gene, partial cds ACCESSION GU811748 VERSION GU811748.1 GI:289900038 KEYWORDS SOURCE Influenza A virus (A/chicken/Egypt/1052S-NLQP/2010(H5N1)) ORGANISM Influenza A virus (A/chicken/Egypt/1052S-NLQP/2010(H5N1)) Viruses; ssRNA negative-strand viruses; Orthomyxoviridae; Influenzavirus A REFERENCE (bases to 1584) AUTHORS Arafa,A.A., Hagag,N.M., Abdullah,M.H., Yehia,N.M., Abdel-Halim,A.M., Kilany,W.H., Ahmed,M.S., Zanaty,A.M., Abdel-Aziz,O.M., Hassan,M.K and Aly,M.M TITLE Genetic analysis of recent Egyptian H5N1 viruses JOURNAL Unpublished REFERENCE (bases to 1584) AUTHORS Arafa,A.A., Hagag,N.M., Abdullah,M.H., Yehia,N.M., Abdel-Halim,A.M., Kilany,W.H., Ahmed,M.S., Zanaty,A.M., Abdel-Aziz,O.M., Hassan,M.K and Aly,M.M TITLE Direct Submission JOURNAL Submitted (18-FEB-2010) National Laboratory for Veterinary Quality Control on Poultry Production, Nadi-Elsaid Street, Dokki, Giza 12618, Egypt FEATURES Location/Qualifiers source 1584 /organism="Influenza A virus (A/chicken/Egypt/1052S-NLQP/2010(H5N1))" /mol_type="viral cRNA" /strain="A/chicken/Egypt/1052S-NLQP/2010" /serotype="H5N1" /isolation_source="farm" /host="chicken" /db_xref="taxon:720653" /segment="4" /country="Egypt: Qaliobia" /collection_date="Feb-2010" gene 1584 /gene="HA" CDS 1584 /gene="HA" /codon_start=3 /product="hemagglutinin" /protein_id="ADD21384.1" /db_xref="GI:289900039" /translation="ANNSTEQVDTIMEKNVTVTHAQDILEKTHNGKLCDLDGVKPLIL RDCSVAGWLLGNPMCDEFPNVSEWSYIVEKTNPANDLCYPGNFNNYEELKHLLSRINR FEKIKIIPKSSWPDHEASLGVSSACPYQGGPSFYRNVVWLIKKNNTYPTIKESYHNTN QEDLLVLWGIHHPNDEEEQTRIYKNPTTYISVGTSTLNQRLVPKIATRSKVNGQSGRV EFFWTILKSNDTINFESNGNFIAPENAYKIVKKGDSTIMKSELEYGNCSTKCQTPVGA INSSMPFHNIHPLTIGECPKYVKSNRLVLATGLRNSPQGEGRRKKRGLFGAIAGFIEG GWQGMVDGWYGYHHSNEQGSGYAADRESTQKAIDGVTNKVNSIIDKMNTQFEAVGREF NNLEKRIENLNKKMEDGFLDVWTYNAELLVLMENERTLDFHDSNVKNLYDKVRLQLRD NAKELGNGCFEFYHRCDNECMESVRNGTYDYPQYSEEARLKREEISGVKLESIGTYQI LSIYSTVASSLALAIIVAG" ORIGIN Hình 1: Thông tin đầy đủ nucleotic Trang 5/9 Từ thông tin trên, mô hình quan niệm liệu thiết kế Tự động download liệu từ ngân hàng liệu NCBI Ngân hàng liệu NCBI cho phép download liệu phải sử dụng thủ công Số lượng file virus cúm lớn, 100.000, việc download file không thực Module tự động download liệu tự động lấy liệu lưu trữ vào thư mục định Yêu cầu module phải kết nối với Internet Tốc độ thực tùy thuộc vào tốc độ đường truyền Internet Tự động cập nhật liệu vào sở liệu Các file virus download file riêng lẻ Thông tin virus cần phải trích lưu vào sở liệu để truy xuất sau Việc trích lọc thông tin từ file phải thực tự động yêu cầu xác, nhanh chóng Module cập nhật tự động có đầy đủ khả Lập mục theo nhóm Dữ liệu virus cúm sau thu thập lập mục theo nhóm ưu tiên cho việc tìm kiếm khai thác thông tin virus cúm Việc lập mục dựa công cụ cung cấp sẵn Blast dựa vào tính tương đồng chuỗi trình tự Sau chuỗi trình tự lập mục giúp cho việc tìm kiếm, thống kê biểu diễn trở nên hiệu Công cụ cung cấp thông tin virus cúm Công cụ cung cấp thông tin virus cúm thực chất website cho phép người dùng tìm kiếm, thống kê thông tin virus cúm Hệ thống website có giao diện thân thiện, dễ sử dụng cho truy xuất, hiển thị thông tin Việc cung cấp công cụ thống kê liệu lây lan virus cúm cần thiết Công cụ gồm chức năng:  Cho phép người dùng lựa chọn thống kê virus cúm theo nhiều tiêu chí khác  Thống kê biểu diễn kết virus cúm theo vị trí địa lý (quốc gia, tỉnh thành Việt Nam)  Thống kê biểu diễn kết virus cúm theo thời gian  Thống kê biểu diễn kết phát triển virus cúm theo loại chủng virus Kết thực Nghiên cứu đạt kết sau:  Cơ sở liệu Virus cúm chi tiết đến tỉnh thành Trang 6/9 LoaiGen GenVirus (1,1) Association_13 STTPhanDoan BT 0,n MaLoaiGen VA(4) MoTaLoaiGen LVA(100) 1,n 0,n Chung_H H BT LoaiVirusCum 0,n Association_12 MaLoaiVirusCum A(1) MoTaLoaiVirus LVA(100) (1,1) Pro_Virus NucCore_Virus 0,n LoaiProtein 0,n MaLoaiProtein BT TenLoaiProtein VA(6) STT_Virus BT Association_13 1,1 (1,1) Nucleotide ChungHN Nuc_Subtype 0,n 1,1 (1,1) Association_14 Chung_N 0,n Nuc_Host N BT 1,1 DongVatChu 0,n MaDongVatChu I TenDongVatChu LVA(30) MoTaDongVatChu LVA(100) 1,1 Nuc_MaSo Nuc_MaDK Nuc_GI Nuc_PhienBan Nuc_MoTa Nuc_Ngay Nuc_Giong Nuc_Tuoi Nuc_KichThuoc Nuc_NoiDung KTDayDu LI VA(10) VA(10) BT LVA(200) D BL BT I VA(5000) BL 0,n ThuocLoaiProtein 1,1 Protein 0,n CDS_NucCore 1,1 Nuc_QH CDS QuanHuyen CDS_MaSo CDS_Vung CDS_KichThuoc CDS_NoiDung MaQuanHuyen LI TenQuanHuyen LVA(50) 0,n LI VA(10) BT VA(10) LVA(200) I VA(5000) 1,1 0,n ThuocDVC Pro_MaSo Pro_MaDK Pro_PhienBan Pro_GI Pro_MoTa Pro_KichThuoc Pro_NoiDung 1,1 CDS_Protein LI VA(50) I LVA(5000) 0,1 1,1 LoaiDongVat MaLoaiDongVat BT TenLoaiDongVat LVA(50) MoTaLoaiDongVat LVA(100) 0,n MaQuocGia VA(5) TenQuocGia LVA(50) ChauLuc QG_CL QuocGia QH_QG 1,1 0,n MaChauLuc BT TenChauLuc LVA(30) Hình 2: Mô hình thực thể kết hợp CSDL virus cúm  Module tự động download liệu từ NCBI  Module tự động cập nhật liệu virus cúm, chi tiết hóa đến tỉnh thành Trang 7/9 Hình 3: Giao diện module tự động download cập nhật liệu virus cúm  Cơ sở liệu virus cúm lập mục  Hệ thống website cung cấp thông tin virus cúm Trang 8/9 Hình 4: Giao diện website cung cấp thông tin virus cúm Kết luận Các nghiên cứu Việt Nam thường thực riêng rẽ, chưa có gắn kết Hệ thống giúp lưu trữ liệu cách tập trung qua giúp cho việc tìm kiếm, hiển thị nghiên cứu virus cúm Việt Nam cách đầy đủ tổng thể, làm phong phú thêm ngân hàng liệu virus cúm Nhờ liệu lập mục, việc khai thác thông tin virus cúm trở nên nhanh dễ dàng Hệ thống website đưa lên mạng Internet giúp cho người dân có hiểu biết định phân bổ virus cúm toàn lãnh thổ, đồng thời cung cấp liệu có tổ chức y tế có nhu cầu Trang 9/9 Tài liệu tham khảo [1] Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990) Basic local alignment search tool J Mol Biol 215 (3): 403–410 [2] Bao Y., P Bolotov, D Dernovoy, B Kiryutin, L Zaslavsky, T Tatusova, J Ostell, D Lipman (2008) The Influenza Virus Resource at the National Center for Biotechnology Information J Virol 2008 Jan; 82(2):596-601 [3] Chang, S., Zhang, J., Liao, X., Zhu, X., Wang, D., Zhu, J., Feng, T., Zhu, B., Gao, G.F., Wang, J et al (2007) Influenza Virus Database (IVDB): an integrated information resource DNA analysis platform for influenza virus research Nucleic Acids Res, 35, D376-380 [4] Dang Cao Cuong, Le Si Quang, Le Sy Vinh (2009) Influenza-specific amino acid substitution model, The first international conference on knowledge DNA systems engineering, Hanoi [5] Edgar RC (2004) MUSCLE: multiple sequence alignment with high accuracy DNA high throughput Nucl Acids Res 2004, 32:1792–1797 [6] Fauci A: Race against time Nature 2009, 435:423–42 [7] Nguyen TD, et al (2008) Multiple Sublineages of Influenza A Virus (H5N1), Vietnam, 2005-2007 Emerging Infectious Diseases 2008, 14:632–636 [8] Saitou N, Nei M (1987) The Neighbor-Joining method: a new method for reconstructing phylogenetic trees Mol Biol Evol (4): 406-425 [9] Trần Văn Lăng cộng Nghiên cứu để xây dựng công cụ tin học xử lý thông tin Gene Protein Đề tài cấp bộ, Viện Khoa học Công nghệ Việt Nam quản lý, 2003-2004 [10]Trần Văn Lăng cộng Tính toán hiệu cao tính toán lưới số toán sinh học Đề tài thuộc chương trình Nghiên cứu bản, 2006-2007 [11] Trần Văn Lăng Ứng dụng Tin học việc giải số toán thuộc Sinh học phân tử, Nxb Giáo dục, 2008 Trang 10/10 ... virus cúm bao gồm chức năng:  Thiết kế sở liệu chứa thông tin virus cúm giới chi tiết hóa liệu virus cúm Việt Nam mức độ tỉnh thành  Tự động cập nhật liệu từ ngân hàng liệu NCBI  Lập mục theo. .. động có đầy đủ khả Lập mục theo nhóm Dữ liệu virus cúm sau thu thập lập mục theo nhóm ưu tiên cho việc tìm kiếm khai thác thông tin virus cúm Việc lập mục dựa công cụ cung cấp sẵn Blast dựa vào... download cập nhật liệu virus cúm  Cơ sở liệu virus cúm lập mục  Hệ thống website cung cấp thông tin virus cúm Trang 8/9 Hình 4: Giao diện website cung cấp thông tin virus cúm Kết luận Các nghiên

Ngày đăng: 19/12/2015, 21:39

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan