Phát triển các phương pháp tối ưu giải quyết các bài toán liên quan đến chuỗi protein

Thông tin tài liệu

MẲU 14/KHCN (Ban hành kèm theo Quyết định sổ 3839 /QĐ-ĐHQGHN ngày 24 thángio năm 2014 Giảm đốc Đại học Quốc gia Hà Nội) ĐẠI HỌC QUỐC GIA HÀ NỘI BÁO CÁO TỒNG KỂT KÉT QUẢ T H ự C HIỆN ĐÈ TÀI KH&CN CẤP ĐẠI HỌC QUỐC GIA Tên đề tài: Phát triển phương pháp tối ưu giải toán liên quan đến chuỗi protein M ã số đê tài: QG.15.21 Chủ nhiệm đề tài: Đặng Thanh Hải Hà N ội, 26/12/2017 PHÀN I T H Ô N G TIN CHUNG 1.1 Tên đề tài: Phát triển phương pháp tối ưu giải toán liên quan đến chuỗi protein 1.2 M ã số: QG 15.21 1.3 Danh sách chủ trì, thành viên tham gia thực đề tài TT Chức danh, học vị, họ tên Đơn vị công tác V trò thực đề tài TS Đặng Thanh Hải Bộ mơn Khoa học Kỹ thuật Tính tốn, Khoa Công Nghệ Thông Tin, ĐH Công Nghệ, ĐHQGHN Chủ nhiệm đề tài, Nghiên cứu nội dung Đề tài TS Đỗ Đức Đông Viện Công Nghệ Thông Tin, ĐHQGHN Nghiên cứu nội dung Đe tài TS Đặng Cao Cường Bộ môn Khoa học Kỹ thuật Tính tốn, Khoa Cơng Nghệ Thơng Tin, ĐH Cơng Nghệ, ĐHQGHN Nghiên cứu nội dung Đe tài ThS Hồng Thị Điệp Bộ mơn Khoa Học Kỹ Thuật Tính Tốn, Khoa CNTT, ĐH Cơng Nghệ Nghiên cứu nội dung Đe tài TS Nguyễn Thị Hậu Bộ môn Hệ Thống Thông Tin, Khoa CNTT, ĐH Công Nghệ Nghiên cứu nội dung cùa Đề tài 1.4 Đơn vị chủ trì: Khoa Cơng Nghệ Thơng Tin, ĐH Cơng Nghệ, ĐHQGHN 1.5 Thời gian thực hiện: 1.5.1 Theo hợp đồng: 1.5.2 Gia hạn (nếu có): 1.5.3 Thực thực tế: từ tháng 02 nàm 2015 dến tháng 02 năm 2017 đến tháng 12 năm 2017 từ tháng 02 năm 2015 đến tháng 12 năm 2017 1.6 Những thay đổi so với thuyết minh ban đầu (nếu có): (Ve mục tiêu, nội dung, phương pháp, kết quà nghiên cứu tổ chức thực hiện; Nguyên nhân; Ý kiến Cơ quan quản lý) 1.7 Tổng kinh phí phê duyệt đề tài: 250 triệu đồng PHÀN II TỎNG QUAN KẾT QUẢ NGHIÊN c ứ u Viết theo cấu trúc báo khoa học tổng quan từ 6-15 trang (báo cáo đăng tạp chí khoa học ĐHQGHN sau đề tài nghiệm thu), nội dung gồm phần: Đặt vấn đề Protein phân tử hữu phức tạp, mặt cấu trúc lẫn chức năng, cấu thành từ kết nối liên tiếp axit amin thuộc 20 loại khác Được biết đến máy chức tế báo, protein thực phần lớn chức sinh lý mã hoá hệ gen tế bào, ví dụ vận chuyển oxy khắp thể đa té bào, truyền tín hiệu từ tế bào với nhau, kích hoạt hàng trăm phản ứng hoá học cần thiết cho sống tế bào (Alberts, 2007) Việc dự đốn xác chức sinh lý protein chìa khố để hiểu sống mức độ phân tử có ảnh hường vơ to lớn vào lĩnh vực y-sinh dược học Tu) nhiên việc xác định chức protein thí nghiệm thường khó đăt dẫn đên việc khôig thể phù họp cho khối lượng khổng lồ liệu chuỗi tạo từ công nghệ giải trình tự hệ (Liolios et al., 2009) Nghiên cứu phương pháp tính tốn để dự đoán chúc protein trở thành hướng nghiên cứu có tính then chơt quan trọng sirứ học phân tử tính tốn Điều thể qua việc (1) có tới 98% thích sở iệu GO (Gene Ontology) kết dự đốn mơ hình tính tốn có 0.6% đưcc kiểm định thí nghiệm (du Plessis et al., 2011); (2) số lượng thích chức pro.ein dự đốn mơ hình tính tốn sở liệu uniprotKB/Swiss-Prot luôn tăng luỹ thừa theo đơn vị 10 triệu thích số lượng thích kiểm nghiệm troig sở đữ liệu uniprotKB/TrEmble tăng tuyến tính khơng đáng kể Dự đốn xác chức protein tốn khó đầy thách thức chức prctein định chuỗi axit amin mà tương tác với prctein định khác 200 loại biến đổi protein sau tổng họp xẩy thường xuyên trcng tế bào Các biến đồi sau tổng họp xẩy thường xuyên tế bào (Khoury et al., 2011): nhà khDa học hố sinh ước lượng có khoảng 1/3 protein người bị photphoryl hoá (một loại biến đổ sau tổng hợp quan trọng nghiên cứu nhiều nhất) (Alberts, 2007) Những vị trí axit amin bị biến đổi sau tổng họp xác định thí nghiệm hố sinh Theo thời gian, đến thời đièm có số lượng định vị trí bị BST xác định (Sugiyama et al., 2C08; Boersema et a l, 2010) Tuy nhiên thí nghiệm thường tốn thời gian, khó đắt đỏ nên số lượng BST phát hạn chế Nhiều biến đổi sau tổng họp đcợc biết đến nguyên nhân gây số lượng lớn loại bệnh (Manning et al., 2(02), có ung thư (Seeler et al., 2007), bệnh tâm thần trị (Alzheimer) (Hưen and Chen, 2(08) bệnh Huntington (Steffan et al., 2004) Những thực khó khăn tầm quan trọng biến đổi protein sau tổng hợp tạo hội thách thức để cộng động nghiên cứu tin sinh học (sinh học tính tốn) phát triển mơ hình tính tốn có khả dự đốn xác vị trí axit amin bị biến đổi sau tổng hợp (Suo et al., 2014) Mặc dù có nhiều phương pháp tính tcán tiên tiến phát triển nhằm dự đoán photphoryl hoá protein (là loại BST nhà hoá sinh nghiên cứu nhiều nhất) chúng tạo nhiều bước tiến việc dự đoán mững phương pháp nhiều hạn chế cần khắc phục giải (Suo et al., 2014) Co phương pháp dự đoán tiên tiến cần phải nghiên cứu phát triển để di đốn xác vị trí photphoryl hố protein Nhu cầu lại cấp thiết cho loại biến đổi protein sau tổng hợp khác Một số đặc tính mạng tương tác protein, ví dụ nhu tương tác điểm làm thay đổi cấu trúc (illosteric) hotspot tương tác, ứng dụng vào chiến lược thiết kế/chế tạo thuốc (Arkin Wells, 2004; Chen vcs., 2013) Sự liên quan mạng tương tác protein cối tượng điều trị ban đầu phục vụ việc phát triển liệu pháp điều trị rõ ràng bệnh ung thư, với số thí nghiệm y học lâm sàng lĩnh vực Sự thống cối tượng tiềm thể việc có nhiều thuốc thị trường để trị số lượng lớn loại bệnh Ví dụ như: Titrobifan, chất ức chế gluco-protein Ilb/IIIa, cược sử dụng loại thuốc tim mạch, Maraviroc, chất ức chế tương tác CCR5-gpl20, dược sử dụng dạng thuốc chống HIV (Ivanov vcs., 2013) Các protein hay mạng tương tác protein có tương tác với họp chất hố học/thuốc (Ivanov vcs., 2013; Arkin Wells, 2004) Các hợp chất hố học/thuốc orotein có tương tác (gây ức chết) loại bệnh cách vô phức tạp Đen nay, /ốn hiểu biết cùa người trình tương tác chi hạn ché, xa so với thực tế iiễn (Duran-Frigola et al., 2015) Chức cùa protein hiểu rõ ;húng ta nắm bắt tuong tác hợp chất hoá học/thuốc bệnh Các tương tác thường mô tả khối lượng khổng lồ báo khoa học sinh - y - dược học, íược cơng bố, lưu trữ, đánh mục quản lý bời hệ thong PubMed (MEDLINE) Tính đến ngà/ tháng năm 2015, PubMed quản lý 24.6 triệu báo khoa học kể từ 1966; khoảng 50(,000 báo thêm vào năm Trong số 13.1 triệu báo có phần tóm tắt 14.2 triệu có đường link đến tồn văn báo (trong 3.8 triệu báo cung cấp miễn phí chc người đọc nào) Năm 2011 Plake Schroeder, thông qua nghiên cứu cùa mình, đếr kết luận khai phá văn sinh-y-dược công cụ thiết yếu vơ quan trọng để có -hể hỗ trợ, đẩy nhanh trình nắm bắt tương tác hợp chất hoá học/thuốc bệrh (Plake Schroeder, 2011) Mặc dù có nhiều phương pháp/mơ hình tính tốn dự đốn chức protein phát trién nhiên chúng cần phương pháp tối ưu để chọn giá trị tham số, thuộc tính đặ; trưng hay chí tập liệu học phù hợp để dự đốn xác (Radivojac et al., 2013) Quá việc khảo cứu đánh giá, so sánh phương pháp dự đoán chức protein có Rtdivojac cộng năm 2013 chi toán dự đoán chức protein nhiều khả vẫi lĩnh vực nghiên cứu chủ đạo hấp dẫn phát triển mạnh; mơ hình tính tốn tối ưu hen cần phải nghiên cứu phát triển M ụ c tiêu Đi tài tập trung nghiên cứu phương pháp tối ưu, kỹ thuật khai phá liệu hcc máy tiên tiến nhằm giải tốn liên quan đến phân tích chuỗi protein 3.Phưig pháp nghiên cứu Ciúng tiến hành khảo sát, nghiên cứu chi tiết phương pháp/giải pháp tốt có liên quan đến nội dung đề tài, qua đánh giá so sánh điểm mạnh yếu cùa giải pháp Các giả thuyết xây dựng kiểm nghiệm chứng minh lý thuyết thực nghiệm Cuối lựa chọn, cải tiến giải pháp có phát triển giải pháp để tiến hành triển khai nhằm hoàn thành nội dung đặt Các phương pháp liên quan phát triển thành viên tham gia đề tài kế thừa, kết họp với việc nghiên cứu chi tiết so sánh phương pháp liên quan tốt có để từ cj thể phát triển giải pháp cho mục tiêu đề Chúng tiến hành tập trung nghiên cứu kỹ phương pháp khai phá liệu, kỹ thuật học máy tiên tiến nhất, ví dụ kỹ thuật tối ưu hjá đàn kiển (Ant Colony Optimization - ACO), mơ hình xác suất, kỹ thuật học sâu (deep learning) để giải vấn đề liên quan đến chuỗi protein Ngồi ra, thuộc tính hố lý cùa axit amin, phương pháp biểu diễn thuộc tính -vào tốn liên quan đến chuỗi protein nghiên cứu Các thơng tin (phần lớn dự đốn mơ hình tính tốn, khơng chắn chưa xác định thực rghiệm) cấu trúc protein tầm quan trọng tốn liên quan đến protein nghiên cứu đê qua tích hợp thơng tin vào phương pháp giải quyêt toán liên quan Cuối cùng, nghiên cứu khảo sát nguồn liệu, tri thức liên quan đến orotein (bao gồm họp chất hoá học/thuốc bệnh); qua áp dụng kỹ thuật khai ohá liệu tiên tiến (ví phuơng pháp Tập phổ biến/Luật kết hợp) để tích hợp chúng vào ohương pháp tối ưu giải toán liên quan đến chuỗi protein Tổng kết kết nghiên cứu Chúng nghiên cứu phát triển mô hình dựa phương pháp tối ưu, kỹ thuật khai phá liệu học máy tiên tiến nhằm giải vấn đề quan trọng có ảnh hường (trực tiếp gián tiếp) đến trình phân tích chuỗi protein, bao gồm vấn đề tương tác cạc protein, biến đổi protein sau tổng họp, tìm chuỗi nguồn tiến hố tương tác hợp chất hố học/thuốc bệnh 4.1 Mơ hình liên quan đến tương tác protein Chúng tơi xây dựng Webserver có khả dự đoán tương tác cặp enzim xúc tác (protein kinase) chất (substrate), ngồi đưa vị trí cụ thể tương tác Webserver cung cấp miễn phí địa chỉ: http://fit.uet.vnu.edu vn:8286/subin/web, cho phép người dùng (những nhà nghiên cứu hố sinh học) sừ dụng cách dễ dàng để dự đoán cặp enzim xúc tác-cơ chất (kinase-substrate) có tương tác với hay khơng cách nhanh chóng? (nếu có vị trí nào?) Webserver xây dựng dựa mơ hình đồ thị xác suất trường ngẫu nhiên có điều kiện (Conditional Random Fields) kết họp với thuật toán khai phá luật kết hợp nén (Vreeken vcs., 2011) Trong tất loại tương tác dựa biến đổi sau tổng họp protein biết tương tác enzim xúc tác-cơ chất (kinasesubstrate) thuộc tốp loại xẩy thường xuyên tế bào nghiên cứu nhiều (Suo vcs., 2014) Nhiều tương tác thuộc loại biết đến nguyên nhân gây số lượng lớn loại bệnh (Manning et al., 2002), có ung thư (Seeler et al.,2007), bệnh tâm thần trị (Alzheimer) (Huen and Chen, 2008) bệnh Huntington (Steffan et al., 2004) Trước đây, chức protein xác định dựa mối quan hệ tiến hóa, với tiêu chí thường sử dụng độ tương tự chuỗi protein (Remm vcs., 2001) Tuy nhiên, cách tiếp cận thường không đủ tốt để nhận dạng chức cùa protein (Park vcs 2011) Sự phát triển kỹ thuật công nghệ sinh học thập kỷ qua cho phép xây dựng mạng tương tác protein cho nhiều loài sinh vật Các mạng tương tác bổ sung (hay chí tạo ra) từ nhiều mơ hình tính tốn tiên tiến (ví dụ mơ hình triển khai dạng Webserver đề cập trên) Việc phân tích, so sánh liệu mạng tương tác cung cấp nhiều thơng tin hữu ích cho dự đoán chức chưa biết kiểm định chức biết chuỗi protein (Dutkowski Tiuryn, 2007; Memisevic Przulj, 2012) Bài toán chứng minh NP-khó (Aladag Erten, 2013) Chúng tơi đề xuất thuật tốn có tên FASTan để dóng hàng tồn cục mạng PPI (Đỗ Đức Đơng vcs 2015) Thuật tốn gồm hai pha: pha thứ xây dựng dóng hàng ban đầu thuật toán heuristic dựa tương quan cấu trúc tơ pơ tương đồng trình tự nút, sau pha FASTan thu dóng hàng tồn cục ban đầu; pha thứ hai đề xuất thủ tục Rebuild (là điêm mạnh thuật tốn) nhằm giữ lại phần dóng hàng tổt pha thứ nhât (loại bỏ dóng hàng khơng tốt) dựa vào để dựng lại tồn dóng hàng FASTan sau tiếp tục cải tiến việc sử dụng phương pháp tối ưu đàn kiến (ACO), kết họp với thủ tục rebuild FASTan thủ tục tìm kiếm cục (Đỗ Xuân Quyền vcs., 2016) 4.2 Mơ hình liên quan đến biến đổi protein sau tổng hợp Chúng phát triển SKIPHOS, mơ hình dự đốn vị trí photphoryl hố (một loại biến đổi sau tổng hợp quan trọng vào loại bậc hoạt động tế bào) dựa rừng ngẫu nhiên (random forests) sử dụng thuộc tính tính tốn từ đặc trưng hoá lý chuỗi protein biễu diễn liên tục axít amin dựa kỹ thuật học sâu SKIPHOS, với giao diện đơn giản, cung cấp trực tuyến miễn phí http://fit.uet.vnu.edu.vn/SKIPHOS Việc xây dựng thành cơng mơ hình tính tốn có khả dự đốn xác hiệu q vị trí bị photphoryl hố trở thành vấn đề có tính cấp thiết đầy thách thức (theo Trost Kusalik, 2011) 4.3 Mơ hình tìm chuỗi nguồn tiến hố Bài toán xây dựng lại chuỗi nguồn/gốc (gene protein) (tổ tiên) cho quần thể định vấn đề quan trọng sinh học Nó liên quan đến việc tìm tập chuỗi nguồn để từ kết hợp với để tạo thành chuỗi trình tự cho trước cùa cá thể quần thể định Việc xây dựng lại chuỗi nguồn mơ hình hố thành vấn đề tối ưu hóa tổ hợp, phải tìm tập chuỗi trình tự (tổ tiên) để cá thể cho trước quần thể định tạo số lượng nhỏ biến đổi tái tổ hợp nh j~.g trình tự tổ tiên Bài toán đề xuất Ukkonen NP-khó vói 'êu cầu số chuỗi nguồn >2 (Ukkonen, 2002) Chúng đề xuất ACOFSRP, phương pháp xây dựng chuỗi nguồn dựa thuật tốn tối ƯU hóa kiến (ACO) với số cải tiến quan trọng (Anh Thị Vũ Ngọc vcs 2018) Các cải tién bao gồm: chiến thuật để kiến tìm kiếm lời giải đồng thời nhau, tìm kiếm lân cận tm kiếm theo hai chiều ngược xi 4.4 Mơ hình liên quan đến hố chất/thuốc bệnh Trcng mối quan hệ thực thể y-sinh mối quan hệ hợp chất hoá học/thuốc bệrh bệnh gen/protein nhận ngày nhiều quan tâm từ cộrg đồng nhà nghiên cứu khai phá liệu văn y-sinh học Một khảo sát hành vi tìm kiến PubMed cùa người dùng cho thấy tên bệnh, hợp chất hoá học, thuốc tên ger/protein gây bệnh ba số từ khố tìm nhiều giới (Dogan et al., 2009) Ba thực thể đối tượng trung tâm cùa nhiều nội dung nghiên cửu quan trọng, ví dụ ché tạo thuốc, phát phản ứng phụ cùa thuốc v.v Việc phát tương tác thuốc bệnh cần thiết cho việc hiểu rõ chất cùa bệnh, cho trình phát chxc quan trọng họp chất hoá học/thuốc gene/protein (Yu et al 2015) Trong sống hàng ngày người tiếp xúc với số lượng lớn hoá chất, bao gồm loã thuốc nguồn độc tố môi trường xung quanh Các tác dụng chữa bệnh tác ding phụ hoá chất hệ q q trình tuơng tác vơ phức tạp mức phân tử vói thể người Đen nay, vốn hiểu biết người trình tương tác chi hạn chế, xa so với thực tế diễn (Duran-Frigola et al., 2015) Bài tốn trích xuất mối quan hệ hoá chấưthuốc bệnh từ văn y-sinh khó, đầy thách thức (Leaman et al., 2015), chù để nghiên cứu nóng giới (Choi et al., 2016) Nó bao gồm hai bước: (i) bước thứ nhằm nhận dạng chuẩn hoá thực thể hoá chất-thuốc bệnh; (ii) bước thứ hai nhằm phát trích xuất mối quan hệ tác dụng pkụ thuốc thực thể nhuận dạng chuẩn hoá từ bước thứ Chúng xây dựng thành công hệ thống ƯET-CAM có khả trích xuất tự động mối qaan hậ hỡá chất - bệnh từ văn bàn y-sinh (Lê Hoàng Quỳnh vcs 2015, 2016) UET-CAM sử dụng kỹ thuật diễn giải đồng tham chiếu đa sàng multi-pass sieve coreference resolution (kết hợp với mơ hnh dự dựa SVM đốn mối quan hệ xuất câu) Thông thường, pha nhận dạng (NER) pha chuẩn hoá (NEN) thực thể thuốc/hoá chất, bệnh (NER) xây dựng thành hai công đoạn độc lập chu trình Điều dẫn đến hạn chế lớn, cụ thể li: lỗi pha NER lan truyền đến pha NEN khơng có phản hồi từ pha NEN tới NER (Liu et al., 2011) Hiện UET-CAM khắc phục hạn chế mơ hình giải mã gộp (joint-decoding) cùa NEN NER giải pháp tốt hơn, khơng muốn nói tốt nhất, nên giải mơ hình suy luật/học gộp (joint reference/learning) Đánh giá kết đạt kết luận Các mơ hình, phương pháp đạt được kiểm chửng thực nghiệm òhuẩn mực cơng phu Chúng tơi tiến hành so sánh phương pháp, mô hình đề xuất với phương pháp, mơ hình loại tiên tiến giới đến thời điểm Các kết :hực nghiệm so sánh tính hiệu mơ hình, phương pháp mà xây lựng Hiệu cùa Webserver dự đoán tương tác enzim xúc tác-cơ chất so sánh với phương pháp tốt có, cùa nhóm Song vcs (2017) Hệ thống chúng tơi cung cấp dự đốn cho 56 protein/nhóm protein kinase, nhóm Song vcs 12 Hệ thống chúng tơi có khả dự đốn tốt Song vcs cho cặp tương tác nhóm protein kinase PKA (AUC 96%, cùa Song vcs 93%) Với protein kinase lại hệ thống cùa hoạt động Tuy nhiên, điều giải thích hệ thống cùa hoạt động dựa vào thông tin chuỗi protein cùa Song vcs lại tích hợp thên vào hệ thống cùa họ nhiều thông tin bổ sung quan trọng, bao gồm thông tin câu trúc proein, Gene Ontology, Từ điển bách khoa tồn thư Tokyo chu trình gene hệ gene (K£GG), tương tác protein-protein loại khác, thông tin vùng chức protein Khi dùng thông tin chuỗi protein hệ thống cùa chúng tơi, hệ thống Song vcs chi dự iốn tốt chúng tơi cho kinase (trong số 12 kinase mà họ cung cấp), GSK-3 nhem kinase MAPK, với kinase lại hệ thống chúng tơi dự đốn tốt Trong tương lai gần nâng cấp hệ thống cách tích hợp thêm thơng tin nhem Song vcs (2017) thực Mơ hình dóng hàng tồn cục mạng tương tác protein FASTan chúng tơi so sánh vớ mơ hình SPINAL, mơ hình tương tự tốt đến thời điểm tiến hành nghiên cứu thục nghiệm (Aladag Erten, 2013) Việc so sánh tiến hành tập liệu chuẩn sử dụng nhóm tác giả cùa SPINAL Chúng liệu mạng tương tác protein oài: Saccharomyces cerevisiae, Drosophila melanogaster, Caenorhabditis elegans, and Homo sapiens Ket CỊuà thực nghiệm FASTan hoạt động tốt SPINAL theo hai tiêu chí đáih giá chuẩn, sử dụng rộng rãi (Chindelevitch vcs 2013), độ đo số dóng hàng tn cục (GNAS) độ đo tính xác cạnh dóng (EC) Hơn nữa, FASTan có dóng hàng nhanh SPINAL Phiên nâng cấp cùa FASTan việc sử dụng phxơng pháp tối ưu đàn kiến (ACO), kết họp với thủ tục rebuild FASTan thủ tục tìm kiém cục bộ, thực nghiệm tập liệu chuẩn này, cho thấy tính ưu việt bải nâng cấp so với phiên FASTan cũ Mơ hình SKIPHOS (Đặng Thanh Hải vcs 2018, Bioinformatics, submitted) dự đốn vị trí bị photphoryl hố chuỗi protein cùa chúng tơi so sánh công phu với phương pháp loai tốt gần tập liệu chuẩn, tập liệu mà mơ hình sử dụng thêm Các phương pháp so sánh bao gồm RFPhos (Ismail et al., 2016), PhosphoSVM (Eou et al., 2014), PHOSFER (Trost and Kusalik, 2013, Bioinformatics) iPhos-PseEn (Qiu et al., 2(16, Oncotarget) Két thực nghiệm SKIPHOS có khà dự đốn vị trí bị photphoryl hố chuỗi protein tốt phương pháp Mơ hình ACOFSRP xây dựng chuỗi nguồn dựa thuật tốn tối ưu hóa kiến (ACO) với m3t số cải tiến quan trọng tiến hành thực nghiệm so sánh với phương pháp tương tự tốt đến thời điểm ACOSRP nghiên cứu, LN S-lc (Roli Blum, 2012) Quá trình thực nghiệm tién hành 108 tập test kiểm tra lấy từ tập liệu chuẩn sử dụng bơi tác giả LN S-lc Ket thực nghiệm tính hiệu ACOSRP xảy dựng lại chuỗi nguồn tốt 45 tập test, tương đương 44 tập chi 1° tập so với LN S-lc Hệ thống UET-CAM tham gia thi BioCreative V hội đồng BioCreative V xếp hạng thứ khả trích xuất tự động mối quan hệ hố chất/thuốc - bệnh tổng số n nhóm nghiên cứu tham gia từ Australia, Châu Âu, Châu Á Bắc Mỹ (Wei et al., 2015) Với kết qià hệ thống UET-CAM chọn đăng kỷ yếu hội thảo EioCreative V Sevilla, Tây Ban Nha (Lê Hoàng Quỳnh vcs., 2015) hội đồng EioCreative V khuyến nghị tiếp tục nâng cấp hoàn thiện giới thiệu để đăng cú Database (2015 Impact Factor: 3.35; xếp hạng 5/57 tạp chí ISI lĩnh vực Tốn Sinh học Tính tốn) (Lê Hồng Quỳnh vcs., 2016) Các mơ hình, phương pháp đạt nhằm giải vấn đề quan trọng c5 liên quan trực tiếp đến vấn đề phân tích chuỗi protein Tính hiệu quà cùa mơ hình, phương pháp đạt so sánh với phương pháp liên quan tốt có, chúng cung cấp dạng giao diện hệ thống phần mềm dễ dùng, nhiều khả có tie đóng vai trò định việc giúp nhà nghiên cứu hoá-sinh học đẩy nhanh trình rghiên cứu liên quan họ, thu hiểu biết chức protein 6 Tóm tắt kết (tiếng Việt tiếng Anh) Protein thực tất chức (được mã hoá hệ gen) tế bào Việc dự đốn xác chức protein chìa khố để hiểu sống mức độ phân tử có ảnh hường vơ to lớn vào lĩnh vực y-sinh dược học Chức protein định chuỗi axit amin mà cấu trúc 2D, 3D, 4D nó, tương tác với protein họp chất hoá học định khác bời hon 200 loại biến đổi protein sau tồng hợp xẩy thường xuyên tế bào Chúng nghiên cứu phát triển thành cơng mơ hình dựa phương pháp tối ưu, kỹ thuật khai phá liệu học máy tiên tiến nhằm giải vấn đề quan trọng có ảnh hường trực tiếp đến q trình phân tích chuỗi protein, bao gồm: 01 hệ thống W ebserver dự đoán tương tác enzim xúc tác (protein kinase) chat (substrate); hai phiên mơ hình dóng hàng tồn cục hai mạng tương tác protein; 01 hệ thống dự đoán photphoryl hoá (là loại biến đổi protein sau tổng hợp quan trọng, thiết yếu nhận nhiều quan tâm nghiên cứu nhât); 01 mơ hình xây dựng lại chuỗi ngn tiên hố; 01 mơ hình trích xt tương tác họp chất hố học/thuốc bệnh từ văn y sinh Các mơ hình, phương pháp đạt được kiểm chứng thực nghiệm chuẩn mực công phu Chúng tiến hành so sánh phương pháp, mơ hình đề xuất với phương pháp, mơ hình loại tiên tiến giới đến thời điểm Các kết thực nghiệm so sánh tính hiệu mơ hình, phương pháp mà xây dựng so sánh với mơ hình liên quan tốt có Bên cạnh đó, mơ hình, phương pháp chúng tơi đạt có khả mở rộng nâng cấp tương lai Chúng hy vọng rằng, qua việc cung mơ hình, phương pháp đạt dạng giao diện hệ thống phần mềm dễ dùng, nhiều khả đóng vai trò định việc giúp nhà nghiên cứu hố-sinh học đẩy nhanh q trình nghiên cứu liên quan cùa họ, thu hiểu biết chức cùa protein In English Proteins perform all biological functions (encoded in the genome) in living cells Accurately predicting proteins’ functions is the key to understanding the life at the molecular level and thus having a tremendous impact on biomedicine and pharmacy Proteins’ funcitons are not only determined by its primary amino acid sequence but also by its 2D, 3D, 4D structure, interaction with certain proteins and chemical compounds, and by more than 200 types o f post-translation protein medificaitons (PTMs), which occurs very often in living cells We have successfully studied and developed novel models based on optimal methods, data mining techniques and advanced machine learning to address important issues that directly affect the process of analyzing protein sequences They include: 01 Webserver that predicts positionspecific kinase-substrate interactions; 02 versions o f a global alignment model for two protein interaction networks; 01 phosphorylation prediction system (which is one o f the most important, essential and most well-studied PTMs); 01 model for reconstruction o f founder sequences; and 01 model for extraction o f interactions between chemical compounds/drugs and diseases from the biomedical literature The proposed models and methods have been verified by standard and sophisticated experiments We have also compared the proposed them with the same state-of-the-art methods and models up to the present time Comparative experimental results have shown the effectiveness o f the proposed models and methods when compared to state-of-the-art models by far In addition, the models and methods we have proposed are more likely to be expanded and further upgraded in the follow-up We anticipate that the proposed models and methods delivered in the form of easy-to-use software system interfaces will be possible to play an important role in helping chemists, biologists accelerate their related researchs, acquiring better understanding of proteins’ functions Tài liệu tham khảo • C.-H Wei, Y Peng, R Leaman, A p Davis, c J Mattingly, J Li, T c Wiegers, z Lu, Overview of the biocreative V chemical disease relation (cdr) task, in: Proceedings of the fifth BioCreative challenge evaluation workshop, Sevilla Spain, 2015, pp 154-166 • B Alberts, A Johnson, J Lewis, M Ra, K Roberts, p Walter, The shape and structure of proteins • K Liolios, I.-M A Chen, K Mavromatis, N Tavemarakis, p Hugenholtz, V M Markowitz, N c Kyrpides, The genomes on line database (gold) in 2009: status of genomic and metagenomic projects and their associated metadata, Nucleic acids research 38 (suppl_l) (2009) D346-D354 • c Plake, M Schroeder, Computational polypharmacology with text mining and ontologies, Cuưent pharmaceutical biotechnology 12 (3) (2011) 449-457 • G A Khoury, R c Baliban, c A Floudas, Proteome-wide post-translational modification statistics: frequency analysis and curation of the swiss-prot database, Scientific reports (2011) 90 • L du Plessis, N ẫkunca, c Dessimoz, The what, where, how and why of gene ontology—a primer for bioinformaticians, Briefings in bioinformatics 12 (6) (2011) 723-735 • A Roll, S Benedettini, T Stutzle, c Blum, Large neighbourhood search algorithms for the founder sequence reconstruction problem, Computers & operations research 39 (2) (2012) 213-224 • N Sugiyama, H Nakagami, K Mochida, A Daudi, M Tomita, K Shirasu, Y Ishihama, Large-scale phosphorylation mapping reveals the extent of tyrosine phosphorylation in arabidopsis, Molecular systems biology (1) (2008) 193 • P J Boersema, L Y Foong, V M Ding, s Lemeer, B van Breukelen, R Philp, J Boekhorst, B Snel, J den Hertog, A B Choo, et al., In-depth qualitative and quantitative profiling of tyrosine phosphorylation using a combination of phosphopeptide immunoa_nity purification and stable isotope dimethyl labeling, Molecular & Cellular Proteomics (1) (2010)84-99 • Y Dou, B Yao, c Zhang, Phosphosvm: prediction of phosphorylation sites by integrating various protein sequence attributes with a support vector machine, Amino acids 46 (6) (2014) 1459-1469 • H D Ismail, A Jones, J H Kim, R H Newman, D B Kc, Rf-phos: a novel general phosphorylation site prediction tool based on random forest, BioMed research international 2016 • B Trost, A Kusalik, Computational phosphorylation site prediction in plants using random forests and organism-specific instance weights, Bioinformatics 29 (6) (2013) 686-694 • W.-R Qiu, X Xiao, Z.-C Xu, K.-C Chou, iphos-pseen: identifying phosphorylation sites in proteins by fusing di erent pseudo components into an ensemble classifier, Oncotarget (32) (2016) 51270 • G Manning, D B Whyte, R Martinez, T Hunter, s Sudarsanam, The protein kinase complement of the human genome, Science 298 (5600) (2002) 1912-1934 • J.-S Seeler, o Bischof, K Nacerddine, A Dejean, Sumo, the three rs and cancer, in: Acute Promyelocytic Leukemia, Springer, 2007, pp 49-71 • S.-B Suo, J.-D Qiu, S.-P Shi, X Chen, R.-P Liang, Psea: Kinase-specific prediction and analysis of human phosphorylation substrates, Scientific reports (2014) 4524 • M S Huen, J Chen, The dna damage response pathways: at the crossroad of protein modifications, Cell research 18 (1) (2008) • • • • • • • • • L Chindelevitch, C.-Y Ma, C.-S Liao, B Berger, Optimizing a global alignment of protein interaction networks, Bioinformatics 29 (21) (2013) 2765-2773 J S Ste an, N Agrawal, J Pallos, E Rockabrand, L c Trotman, N Slepko, K Illes, T Lukacsovich, Y.-Z Zhu, E Cattaneo, et al., Sumo modification of huntingtin and huntington’s disease pathology, Science 304 (5667) (2004) 100-104 A E Alada'g, c Erten, Spinal: scalable protein interaction network alignment, Bioinformatics 29 (7) (2013) 917-924 B P Kelley, B Yuan, F Lewitter, R Sharan, B R Stockwell, T Ideker, Pathblast: a tool for alignment of protein interaction networks, Nucleic acids research 32 (suppl_2) (2004) W83-W88 M Remm, c E Storm, E L Sonnhammer, Automatic clustering of orthologs and in-paralogs from pairwise species comparisons, Journal of molecular biology 314 (5) (2001) 1041-1052 D Park, R Singh, M Baym, C.-S Liao, B Berger, Isobase: a database of functionally related proteins across ppi networks, Nucleic acids research 39 (suppl_l) (2010) D295-D300 J Dutkowski, J Tiuryn, Identification of functional modules from conserved ancestral protein-protein interactions, Bioinformatics 23 (13) (2007) i 149—i158 V MemiSevi’c, N Priulj, C-graal: Common-neighbors-based global graph alignment of biological networks, Integrative Biology (7) (2012) 734-743 B Trost, A Kusalik, Computational prediction of eukaryotic phosphorylation sites, Bioinformatics 27 (21) (2011) 2927- ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG CỘNG HỒ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phuc Thái Nguyên, ngày /0 ƠS % '3 c < ca X b W ) c cq D ã -C > H >c5 c ) i < d> W KO J c > % E» c b B 5) Ồ0 b z 2: Q 00 VO o p o CM pN CN o CN ON ON r- Ọ CN o C N On ON On Cn) ON tN (N r~-~ t~~' Tf ON EH p X y Ạ Q O' CN f~ H p2 a ■? Ọ Q É — t— f- p ■y H H p 2 o y y X Ỉ Q I Q Q O' O' 2o o (N o O' O' l/~ > f— ~ fH H p u ạ? © p z o Ọ > bO J c cd eC d < a > 5’ f '5j »03 > -a ‘ >03- B- -C JC a c o cd'Ì3

CL !§ ■o 15' 00 § * Q >> 3o- X p c < H Ễ VO r- oo On o ts r^> T- o VO ,> e D o a H c l p KO ỊẼcd- ệ o X o '3 Q £ op CxO c •? Q o >< _c c c3- Q s >> OX) H > c i«u b GO bo Ọ0 H Ọ0 H sD hS QŨ H c H ùtì ' (/J H 00 H c/) on aCL, c/) H a, £ cd H H s H > —1 H ỉ ỌO H a 0- bo H on Ọ cu vp > o 5Í3 0Í) c o 3* CQ c «L>- Ờ0 -C op c p 5b z '03 -C t3 -C X H Q a I op c 'Cd op c s H & S ’ 5x i op c T3 6p a c cx '* :a ’5b 'S W) ạp op c c » •o c _5- J=: bp Gp c "'Cd o bp -C ữp § Ỉ3 a '5b 'Cd cd rS c ■T3 c 16cp c o E V o a . - ẤcU ị o ũ t .Ằ õ / Ả ^ Ã a ầ í Ấ Ể a n - đ n — Ầ J Ấ ú o c Ị Jịa ( ả ,l ị c u i q z ) Ài.Lĩbi Ễ v c n c lũ m Gơclv lữ -ĩ /IẰ õ'ncỊ í* i Ắ â í ầùí/ Ầãx ^ẨíẰn ẨaMi ẨỂao- ,■■■’'.'1:?^ ■ - '! • :i K ; Tì^ĩ^te^iĩlS^íG^^XO' !TM0>- ■ 0c£ *9 < z to H Q «k— « -3 *(N — - s H H H H > H t— f- > H H _IÍ I CO “ ? * -O CuQ f £ f Is f i fl lI sf I f f *«■ l —CcO ‘0 _c ‘Ỗ -C u CỌ z § - < o- *< u- X 05 _c _c r~ OỊ ofl c s o ^ ^0 op op E trac c c rí- JC c c £• = a op oor 0J) - QDODao -C a c c ' - c -5 Ệ c c « o b Đ Đ C JC Ê -C -C _ c _ c U h o - S >> a H ' n O c > S )'° 5Ì) c “ O op > ã op J Q ^ z OJ] CO 00 ?n'3 cô 00 rp £- h ih h c/i c/3 c/j ọõ Õ ọ ỊÁ ụi o o oa vi o f- a IX h h d d oO ch/ i ọCL pQ ch/i - Ể 5z M X y

Ngày đăng: 20/11/2019, 23:21

Xem thêm: Phát triển các phương pháp tối ưu giải quyết các bài toán liên quan đến chuỗi protein

Phát triển các phương pháp tối ưu giải quyết các bài toán liên quan đến chuỗi protein

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan