Dự đoán tương tác giữa các protein dựa trên thuật toán deep learning (tt)

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẶNG QUỐC HÙNG DỰ ĐOÁN SỰ TƯƠNG TÁC GIỮA CÁC PROTEIN DỰA TRÊN KỸ THUẬT HỌC SÂU LUẬN VĂN THẠC SĨ Ngành Công nghệ thông tin HÀ NỘI - 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ ĐẶNG QUỐC HÙNG DỰ ĐỐN SỰ TƯƠNG TÁC GIỮA CÁC PROTEIN DỰA TRÊN KỸ THUẬT HỌC SÂU Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 TÓM TẮT LUẬN VĂN THẠC SĨ Ngành Công nghệ thông tin HÀ NỘI - 2017 LỜI CẢM ƠN Đầu tiên, em xin gửi lời cảm ơn chân thành sâu sắc đến thầy Đặng Thanh Hải, người trực tiếp hướng dẫn, bảo tận tình, giúp đỡ em suốt trình học tập, nghiên cứu thực đề tài Em xin bày tỏ lòng biết ơn sâu sắc đến Thầy Cô giảng viên cán Khoa Công nghệ thơng tin nói riêng trường Đại học Cơng nghệ - Đại học Quốc Gia Hà Nội nói chung, dành hết tâm huyết, tận tình hướng dẫn học viên chúng em suốt quãng thời gian qua Em xin cảm ơn Khoa Công nghệ thông tin tạo điều kiện cho chúng em học tập môi trường nghiên cứu lành mạnh thuận lợi để chúng em phát triển niềm đam mê Mình xin gửi lời cảm ơn tới bạn Trác Quang Thịnh hỗ trợ bạn suốt thời gian nghiên cứu Cuối cùng, xin gửi lời cảm ơn tới bạn trường ủng hộ giúp đỡ tơi suốt q trình học tập thực đề tài Hà Nội, ngày 12 tháng 10 năm 2017 Học viên Đặng Quốc Hùng LỜI CAM ĐOAN Em xin cam đoan phương pháp kỹ thuật sử dụng nghiên cứu tương tác protein dựa kĩ thuật học sâu trình bày luận văn em thực hướng dẫn Thầy Đặng Thanh Hải Tất tham khảo từ nghiên cứu liên quan trích dẫn nguồn gốc rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn này, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà khơng ghi rõ tài liệu tham khảo Nếu phát có gian lận nào, em xin hồn tồn chịu trách nhiệm trước hội đồng kết luận văn Hà Nội, ngày 12 tháng 10 năm 2017 Học viên Đặng Quốc Hùng MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ DỰ ĐOÁN TƯƠNG TÁC PROTEINS 1.1 Giới thiệu tương tác proteins 1.2 Một số phương pháp dự đốn tương tác Proteins điển hình 1.2.1 Dự đốn dựa thơng tin chuỗi 1.2.1.1 Mô hình dựa thuật tốn SVM 1.2.1.2 riêng Mơ hình dựa học máy cực đoan phân tích thành phần 1.2.2 Dự đốn dựa thơng tin cấu trúc protein 1.2.2.1 Mô hình PrISE 1.2.2.2 Mơ hình Zhang .8 1.2.2.3 Mơ hình iLoops CHƯƠNG KỸ THUẬT HỌC SÂU (DEEP LEARNING) 11 2.1 Giới thiệu học sâu (Deep Learning) 11 2.2 Phân loại mạng học sâu (Deep Learning) 11 2.3 Mạng nơ ron tích chập (Convolutional neural network - CNN) 11 CHƯƠNG MƠ HÌNH DỰ ĐỐN TƯƠNG TÁC PROTEINS DỰA TRÊN KỸ THUẬT HỌC SÂU (DEEP LEARNING) 16 3.1 Giới thiệu mơ hình 16 3.2 Xây dựng mơ hình .18 3.3 Nguồn liệu tương tác protein 20 3.4 Đánh giá mơ hình 20 KẾT LUẬN 21 TÀI LIỆU THAM KHẢO 23 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT STT 10 11 12 13 14 15 16 17 18 Tiếng Anh Activation function Area under the curve (AUC) Convolutional layer Convolutional Neural Networks (CNNs) Distribution Feature map Filter Fully connected Kernel K-fold cross validation Layer Linear Overfitting Quasi Sequence Order (QSO) Stride Support vector machine (SVM) Threshold Protein - Protein interactions(PPIs) Tiếng Việt Hàm kích hoạt Diện tích đường cong Lớp tích chập Mạng nơ ron tích chập Phân phối Lớp ánh xạ đặc trưng Bộ lọc Kết nối đầy đủ Hàm nhân Kiểm định chéo k-fold Lớp/tầng Tuyến tính Q vừa liệu Trình tự Quasi Bước trượt Máy véc tơ hỗ trợ Ngưỡng Sự tương tác protein DANH MỤC CÁC HÌNH VẼ Hình 1.1 Phương pháp SVM Hình 2.1 Các thành phần cấu trúc nơron Hình 2.10 Cấu trúc mạng nơ ron tích chập Hình 2.11 Ma trận đầu vào mạng CNN Hình 2.12 Tích chập lọc vùng liệu vào Hình 2.13 Đồ thị hàm ReLU Hình 2.14 Phương pháp MaxPooling với cửa sổ 2x2 bước trượt Hình 2.15 Lớp liên kết đầy đủ Hình 3.1 Q trình dự đốn tương tác proteins Hình 3.2 Ví dụ cặp protein tương tác Hình 3.3 Mơ hình dự đốn tương tác Protein Hình 3.4 Mơ hình dự đốn với thơng số cụ thể Hình 3.5 Đồ thị thể độ đo AUC DANH MỤC CÁC BẢNG Bảng 3.1 Cách tính véc tơ amino axit Bảng 3.2 Ma trận nhầm lẫn Bảng 3.3 Thống kê độ đo mơ hình tập huấn luyện Bảng 3.4 Thống kê độ đo mơ hình dự đốn tập đánh giá MỞ ĐẦU Protein hay gọi chất đạm đại phân tử cấu tạo theo nguyên tắc đa phân mà đơn phân amino axit Amino axit cấu tạo ba thành phần: nhóm amin (-NH2), hai nhóm cacboxyl (-COOH) cuối nguyên tử cacbon trung tâm đính với ngun tử hyđro nhóm biến đổi R định tính chất amino axit [55] Protein amino axit đóng vai trò vơ quan trọng thể sống, bao gồm: tảng tạo nên sức sống thể, tham gia trình trao đổi chất dinh dưỡng, điều hồ nước, chất bảo vệ thể, cung cấp lượng cho hoạt động sống Tương tác protein trình tác động qua lại protein với protein với phân tử khác tế bào Sự tương tác tác động tới hoạt động tế bào ảnh hưởng đến trình sống thể sống Protein tương tác protein trung tâm hầu hết q trình sinh học Thơng thường, protein hoạt động cách độc lập mà thực chức chúng thông qua tương tác với đơn vị phân tử sinh học khác Do đó, việc kiểm tra tương tác protein-protein (PPI) cần thiết để hiểu chế phân tử trình sinh học, dự đoán tương tác protein toán quan trọng ưu tiên ngành khoa học sinh học Tương tác protein thường xác định phương pháp lý hóa sinh, phương pháp nghiên cứu thực nghiệm phòng thí nghiệm Tuy nhiên, phương pháp thực nghiệm đắt tiền, thời gian có tỉ lệ thành cơng thấp Do đó, việc phát triển mơ hình tính tốn đáng tin cậy tạo thuận lợi cho việc xác định tương tác protein có ý nghĩa thực tiễn to lớn giúp phát tương tác protein có khả xảy cao làm tiền đề cung cấp tập lựa chọn ưu tiên cho thực nghiệm nhằm đem lại khả thành công cao tiết kiệm chi phí thực nghiệm Những lý thúc đẩy phát triển mạnh hướng nghiên cứu tin sinh học Một số lượng lớn phương pháp tính tốn đề xuất để dự đốn tương tác Proteins Nội dung luận văn chia thành chương sau: Chương giới thiệu cách sơ lược toán dự đoán tương tác proteins mơ hình dự đốn tương ứng điển hình, gần Chương trình bày kiến thức mạng nơ ron, kỹ thuật học sâu sâu vào mạng nơ ron tích chập Chương trình bày xây dựng mơ hình để dự đốn, kết đạt mơ hình đồng thời so sánh kết phương pháp khác, qua có nhìn tổng quan chất lượng phương pháp CHƯƠNG TỔNG QUAN VỀ DỰ ĐOÁN TƯƠNG TÁC PROTEINS 1.1 Giới thiệu tương tác proteins Protein đại phân tử cấu tạo theo nguyên tắc đa phân mà đơn phân axít amin Chúng kết hợp với thành mạch dài nhờ liên kết peptide (gọi chuỗi polypeptide) Các chuỗi xoắn cuộn gấp theo nhiều cách để tạo thành bậc cấu trúc không gian khác protein Trong tế bào động vật, protein có vai trò quan trọng Chúng tham gia cấu trúc tế bào, enzym xúc tác cho q trình sinh lý sinh hóa xảy tế bào Protein tham gia vào trình vận chuyển, bảo vệ, điều khiển, nơi dự trữ chất dinh dưỡng, nhận biết loại phân tử khác nhau, chịu trách nhiệm vận động thể sống mức tế bào thể Các chức nhiều phân tử protein đặc hiệu đảm nhiệm Tương tác protein trình tác động qua lại protein với protein với phân tử khác tế bào Sự tương tác tác động tới hoạt động tế bào ảnh hưởng đến trình sống thể sống Dựa vào đặc điểm chức cấu trúc PPIs phân loại theo nhiều cách khác theo bề mặt tương tác PPIs Homo heterooligomeric, theo ổn định phân loại thành: bắt buộc không bắt buộc, theo mức độ bền vững phân loại thành: PPIs yếu PPIs bền Một tương tác phân loại khác điều kiện khác Ví dụ, PPI tương tác yếu thể (in Vivo) trở thành tương tác bền điều kiện định tế bào Theo quan sát, protein thực chức chúng mà thường kết hợp với protein khác cách hình thành mạng tương tác protein protein khổng lồ Tập hợp tương tác protein gọi mạng tương tác protein – protein (protein – protein interactions - PPIs) Việc tạo đồ tương tác PPIs không cung cấp nhìn sâu sắc chức protein mà giúp làm rõ chế phân tử tế bào Nghiên cứu PPIs bước để tìm hiểu chức protein tế bào Theo Phizicky Fields, PPIs làm thay đổi tính chất enzymes, tạo vị trí liên kết mới, ngừng hoạt động phá hủy protein dẫn đến thay đổi đặc tính protein Mạng PPIs định nghĩa hệ thống phức tạp proteins liên kết tương tác chúng Mạng PPIs thường biểu diễn đồ thị bao gồm đỉnh cạnh, proteins biểu diễn đỉnh đồ thị, cạnh biểu diễn tương tác proteins Căn vào đồ thị này, phương pháp tính tốn khác khai phá liệu, học máy, phương pháp thống kê thiết kế để tổ chức mạng PPI cấp độ khác Việc kiểm tra mơ hình đồ thị mạng mang lại nhiều hiểu biết, ví dụ proteins láng giềng CHƯƠNG KỸ THUẬT HỌC SÂU (DEEP LEARNING) 2.1 Giới thiệu học sâu (Deep Learning) Từ năm 2006, học kiến trúc sâu hay thường gọi học sâu lên lĩnh vực nghiên cứu học máy [29,30] Trong năm qua, kỹ thuật phát triển từ nghiên cứu học sâu ảnh hưởng tới loạt lĩnh vực quan trọng học máy trí tuệ nhân tạo Trước tiên, ta tìm hiểu vài định nghĩa học sâu: - Học sâu lớp kỹ thuật học máy mà khai thác nhiều lớp xử lý thơng tin phi tuyến tính cho biến đổi trích đặc trưng giám sát khơng giám sát cho việc phân tích phân loại mẫu (Li Deng et al., 2014, page 10) - Học sâu lớp thuật toán học máy mà sử dụng nhiều lớp đơn vị xử lý phi tuyến tính cho biến đổi trích đặc trưng Mỗi lớp sử dụng đầu lớp trước giá trị đầu vào Các thuật tốn học giám sát không giám sát Các ứng dụng bao gồm phân tích mẫu (khơng giám sát) phân loại mẫu (có giám sát) Học sâu dựa việc học đa lớp đặc trưng biểu diễn liệu Trong đó, đặc trưng cấp cao thu từ đặc trưng cấp thấp để tạo thành biểu diễn theo thứ bậc (Wikipedia on Deep learning) 2.2 Phân loại mạng học sâu (Deep Learning) Học sâu ám lớp rộng kiến trúc kỹ thuật học máy sử dụng nhiều lớp xử lý thông tin phi tuyến có tính phân cấp Tùy thuộc vào cách kiến trúc kỹ thuật sử dụng người ta phân loại cơng việc lĩnh vực thành ba nhóm chính: - Các mạng sâu cho học không giám sát: nhằm đạt mối quan hệ bậc cao liệu quan sát cho mục đích phân tích tổng hợp mẫu thơng tin nhãn lớp khơng có sẵn - Các mạng sâu cho học có giám sát: cung cấp khả phân loại cho mục đích phân loại mẫu Dữ liệu nhãn đích ln ln có sẵn hình thức trực tiếp gián tiếp cho học có giám sát - Các mạng sâu lai: mục đích phân loại hỗ trợ cách đáng kể mạng sâu không giám sát, thực cách chuẩn hóa tối ưu mạng sâu loại Mục tiêu thực điều kiện phân loại cho học có giám sát sử dụng để đánh giá tham số mạng sâu khơng giám sát 2.3 Mạng nơ ron tích chập (Convolutional neural network - CNN) Mạng nơ ron tích chập [28] hai nhà khoa học Yann LeCun Yoshua Bengio đề xuất vào năm 1998 Cấu trúc mạng nơ ron tích chập gồm bốn lớp: đầu vào, lớp tích chập, lớp pooling đầu 11 Hình 2.10 Cấu trúc mạng nơ ron tích chập Trong đó, đầu vào liệu nhiều chiều Trong luận văn đầu vào chuỗi peptit biểu diễn dạng ma trận sau: Hình 2.11 Ma trận đầu vào mạng CNN Lớp tích chập lớp mạng CNN Thay kết nối tới tất điểm liệu đầu vào Lớp tích chập sử dụng lọc có kích thước nhỏ (thường 3x3 5x5) chiếu vào vùng liệu đầu vào tiến hành tính tích chập giá trị lọc giá trị vùng liệu đầu vào chiếu hình 12 Hình 2.12 Tích chập lọc vùng liệu vào Một lọc gọi nơ ron kernel Các giá trị lọc trọng số tham số Vùng liệu liệu đầu vào mà lọc chiếu qua gọi vùng tiếp nhận (receptive field) Bộ lọc dịch chuyển quét toàn liệu đầu vào theo giá trị gọi bước trượt (stride) Với lần trượt tính tính chập thu giá trị, giá trị thu sau lọc quét tính tích chập gọi ánh xạ đặc trưng (feature map) Một lớp ánh xạ đặc trưng đầu lọc áp dụng tới lớp trước Hàm kích hoạt ReLU Hàm Rectified linear unit (ReLU) có cơng thức sau: y = max(0,x) Hàm ReLU thường sử dụng phía sau lớp tích chập để chuyển kết âm từ lớp tích chập thành giá trị Đồ thị hàm ReLU: Hình 2.13 Đồ thị hàm ReLU 13 Lớp pooling thường theo sau nhiều lớp tích chập Lớp sử dụng lọc dịch chuyển quét toàn liệu vào, lần dịch chuyển theo bước trượt cho trước giống lớp tích chập lớp pooling khơng tính tích chập mà tiến hành lấy mẫu Trong trình trượt, giá trị đại diện cho liệu vào vùng trượt (vùng lấy mẫu) giữ lại Một số phương pháp lấy mẫu phổ biến MaxPooling (lấy giá trị lớn nhất), MinPooling (lấy giá trị nhỏ nhất) AveragePooling (lấy giá trị trung bình) Hình 2.14 Phương pháp MaxPooling với cửa sổ 2x2 bước trượt Lớp Pooling có vai trò làm giảm kích thước liệu lớp trước Với liệu có kích thước lớn qua lớp Pooling giảm xuống giữ đặc trưng liệu Việc giảm kích thước liệu giúp giảm tham số, tăng hiệu tính tốn kiểm sốt tượng overfitting q trình huấn luyện Lớp kết nối đầy đủ Lớp sử dụng cuối mạng sau trình xử lý trích chọn đặc trưng thực lớp tích chập pooling Lớp kết nối đầy đủ có cấu trúc giống lớp mạng nơ ron truyền thẳng truyền thống Trong đó, nơ ron lớp liên kết đầy đủ tới nơ ron lớp hình sau: Hình 2.15 Lớp liên kết đầy đủ 14 Lớp sử dụng hàm kích hoạt Softmax để phân lớp giá trị ánh xạ đặc trưng vào lớp đầu cụ thể Hàm Softmax có cơng thức sau: ∑ Hàm softmax chuyển vector x có giá trị vector y chứa giá trị dạng xác suất, x = {x1, x2, …, xn}, y = {y1, y2, …, yn) n số phân lớp Giá trị thứ i véc tơ y kí hiệu yi đại diện cho xác suất để liệu thuộc vào lớp thứ i 15 CHƯƠNG MƠ HÌNH DỰ ĐOÁN TƯƠNG TÁC PROTEINS DỰA TRÊN KỸ THUẬT HỌC SÂU (DEEP LEARNING) 3.1 Giới thiệu mơ hình Phần luận văn trình bày q trình xây dựng mơ hình dự đốn tương tác protein dựa kỹ thuật học sâu Ban đầu liệu đầu vào tiến hành tiền xử lý, q trình ghép cặp ma trận hóa liệu Sau đó, liệu chia thành hai tập riêng biệt, bao gồm tập huấn luyện tập đánh giá Tập huấn luyện dùng để xây dựng mơ hình Mơ hình sau xây dựng xong, tập đánh giá đưa vào mơ hình để đánh giá chất lượng mơ hình Q trình dự đốn tương tác Proteins luận văn thực theo bước sau: Hình 3.1 Q trình dự đốn tương tác proteins Trong đó, liệu đầu vào chuỗi amino axit cặp protein tương tác không tương tác hình sau: 16 Hình 3.2 Ví dụ cặp protein tương tác Các chuỗi amino axit biểu diễn dựa thuộc tính lý hóa sinh Các amino axit có thuộc tính hóa học tính axit, bazơ,….hay thuộc tính vật lý như: độ tan, độ sơi,… thuộc tính lý-hố-sinh biểu diễn dạng vector Ví dụ mơ tả theo bảng sau: Bảng 3.1 1Cách tính véc tơ amino axit Thuộc tính Amino Véc tơ axit … 544 X1 X1-1 X1-2 X1-544 [X1-1, X1-2, …, X1-544] X2 X2-1 X2-2 X2-544 [X2-1, X2-2, …, X2-544] … … … … … … X20 X20-1 X20-2 X20-544 [X20-1, X20-2, …, X20-544] Tập thuộc tính lấy từ sở liệu AAIndex AAIndex [30] sở liệu thuộc tính lý – hố - sinh, bao gồm ba tập liệu: AAIndex1, AAIndex2 AAIndex3 Luận văn sử dụng liệu từ tập AAIndex1 với 544 thuộc tính Một protein có tối đa 20 loại amino axit Như amino axit véc tơ 544 chiều Quá trình tiền xử lý liệu vào tiến hành cách ghép cặp protein Protein P1 protein P2 ghép thành cặp P1P2 Chuỗi protein P1 có dạng: P1= A11A12 A1n đó, A1i (i=1 n) amino axit 20 loại amino axit Chuỗi protein P2 có dạng: P2= A21A22 A2m đó, A2j (j=1 m) amino axit 20 loại amino axit Trác Quang Thịnh (2017), Nghiên cứu so sánh phương pháp biểu diễn chuỗi peptit tốn dự đốn vị trí protein bị phốt hóa, ĐHQGHN 17 Như vậy, với cặp protein (P1, P2) tạo thành chuỗi có dạng : (P1, P2) = A11A12 A1n A21A22 A2m Với amino axit A1i (i=1 n) A2j (j=1 m) có vector 544 chiều Như vậy, cặp (P1, P2) tạo ma trận có kích thước (n+m)*544 Dữ liệu sau tiền xử lý đưa vào mơ hình để huấn luyện 3.2 Xây dựng mơ hình Luận văn sử dụng mơ hình Yoon Kim [29] tốn phân loại câu Mơ hình có dạng sau: Hình 3.3 Mơ hình dự đốn tương tác Protein Cụ thể mơ hình xây dựng sau: 18 Hình 3.4 Mơ hình dự đốn với thơng số cụ thể Mơ hình gồm lớp sau: Lớp đầu vào ma trận có kích thước ((m+n) x 544) tương ứng với chiều dài hai chuỗi amino axit hai protein ghép cặp 544 số thuộc tính lý hóa sinh amino axit Một lớp tích chập sử dụng ba lọc có kích thước (3 x 544), (4 x 544), (5 x 544), với bước trượt sử dụng hàm kích hoạt ReLU Sau lớp maxpooling với lọc có kích thước ((m+n -4) x 1), ((m+n -5) x 1), ((m+n -6) x 1), sử dụng dropout 0.5 (dropout kỹ thuật giảm overfitting) 19 Mạng sử dụng lớp kết nối đầy đủ với 128 nơ ron sử dụng hàm softmax để phân lớp đầu Trong đó, đầu gồm giá trị (10 không tương tác, 01 tương tác) 3.3 Nguồn liệu tương tác protein Luận văn sử dụng sở liệu DIP [32] sở liệu chứa cặp protein tương tác sở liệu Negatome [33] chứa cặp protein không tương tác Mỗi sở liệu chứa 6445 cặp Protein Đây sở liệu sử dụng phổ biến nghiên cứu Protein thường xuyên cập nhật 3.4 Đánh giá mơ hình Luận văn sử dụng phương pháp đánh giá chéo (k-fold cross validation) với k = để đánh giá mơ hình Dữ liệu đầu vào chia thành phần có tỉ lệ liệu dương / liệu âm tất phần Sau đó, phương pháp thực vòng gồm k = lần lặp, lần lặp, phần tổng số phần liệu làm đầu vào để xây dựng mơ hình, phần liệu lại dùng để đánh giá chất lượng mơ hình Để đảm bảo việc đánh giá mang tính xác phần liệu dùng để xây dựng mơ hình khơng chứa phần tử phần liệu dùng để đánh giá Trong luận văn, ma trận nhầm lẫn sử dụng để đánh giá chất lượng mơ hình: Bảng 3.2 Ma trận nhầm lẫn Dự đoán Lớp c Kết thực Thuộc TP FP Thuộc Không thuộc Không thuộc FN TN TP số trường hợp thuộc lớp c dự đoán đúng, FP số trường hợp không thuộc lớp c bị dự đoán nhầm vào lớp c, FN số trường hợp thuộc lớp c bị dự đốn nhầm khơng thuộc lớp c TN số trường hợp không lớp c dự đoán Luận văn sử dụng AUC (diện tích đường cong) [31] làm độ đo để đánh giá chất lượng mơ hình Cụ thể với số lượng cặp Protein huấn luyện (Pos/Neg) 1000/1000, kết đạt cụ thể sau: Bảng 3.3 thống kê độ đo mơ hình tập huấn luyện Độ đo Recall Độ đo Precision Độ đo F1 0.852 0.845 0.845 20 Độ xác Accuracy AUC 0.846 0.917 Sau xây dựng mơ hình, Số lượng cặp Protein (Pos/Neg) dùng để đánh giá 5445/5445, kết đạt sau: Bảng 3.4 thống kê độ đo mơ hình dự đốn tập đánh giá Độ đo Recall Độ đo Precision Độ đo F1 Độ xác Accuracy AUC 0.788 0.888 0.835 0.844 0.925 Độ đo AUC thể qua đường cong ROC sau: Hình 3.5 Đồ thị thể độ đo AUC KẾT LUẬN Kết đạt 21 Luận văn nghiên cứu tổng quan tương tác protein toán dự đoán tương tác protein khái quát kiến thức kỹ thuật học sâu, sâu vào nghiên cứu mạng nơ ron tích chập Đồng thời xây dựng thành cơng mơ hình dự đốn tương tác protein sử dụng mạng nơ ron tích chập Mơ hình xây dựng từ 3000 cặp protein tương tác 3000 cặp protein không tương tác Mô hình đánh giá thơng qua phép kiểm định chéo với k = 10 sử dụng ma trận nhầm lẫn, độ đo AUC để đánh giá chất lượng mô hình Mơ hình dự đốn đạt kết tương đối tốt với độ xác 0.89 Hướng phát triển Với kết đạt được, luận văn tiếp tục nghiên cứu để tăng độ xác chất lượng mơ hình dự đốn thơng qua việc tăng số lượng cặp protein đưa vào huấn luyện, tìm cách tối ưu tham số mơ hình, đồng thời luận văn tiếp tục nghiên cứu phương pháp tiên tiến khác đề xuất gần để so sánh đánh giá toán dự đoán tương tác protein giúp có nhìn sâu sắc phương pháp học sâu 22 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Văn Vinh (2015), Slides giảng trí tuệ nhân tạo nâng cao, ĐH Quốc gia Hà Nội, Hà Nội [2] Phan Xuân Hiếu (2016), Slides giảng Khai phá liệu, Đại học Quốc gia Hà Nội, Hà Nội [3] Nguyễn Văn Cách (2005), Tin sinh học, Nhà xuất Khoa học kỹ thuật, Hà Nội Tiếng Anh [4] Juwen Shen, Jian Zhang, Xiaomin Luo, Weiliang Zhu, Kunqian Yu, Kaixian Chen, Yixue Li, Hualiang Jiang (2006), “Predicting protein – protein interactions based only on sequences information”, PNAS, 104 (11): 4337 – 4341 [5] Wojcik, J and Schachter (2001), “Protein–protein interaction map inference using interact ing domain proﬁle pairs”, Bioinformatics, 17:S296–S305 [6] Zhu-Hong You, Ying-Ke Lei, Lin Zhu, Junfeng Xia, Bing Wang (2013), “Prediction of protein-protein interactions from amino acid sequences with ensemble extreme learning machines and principal component analysis”, BMC Bioinformatics, 14(Suppl 8): S10 [7] Yanay Ofrana, Burkhard Rosta (2003), “Predicted protein-protein interaction sites from local sequence information”, FEBS Letters, 544 236-239 FEBS 27273 [8] Sylvain Pitre (2006), “PIPE: a protein-protein interaction prediction engine based on the re-occurring short polypeptide sequences between known interacting protein pairs”, BMC Bioinformatics, 7:365 doi:10.1186/1471-2105-7-365 [9] Qiangfeng Cliff Zhang (2012) , ”Structure-based prediction of protein-protein interactions on a genome-wide scale”, Nature, 490(7421): 556–560 doi:10.1038/nature11503 [10] Joan Planas-Iglesias (2013), “iLoops: a protein-protein interaction prediction server based on structural features”, Bioinformatic, 29(18):2360-2 [11] Rafael A Jordan, Yasser EL-Manzalawy, Drena Dobbs, Vasant Honavar (2012), “Predicting protein-protein interface residues using local surface structural similarity”, BMC Bioinformatics, 10.1186/1471-2105-13-41 23 [12] Tristan T Aumentado-Armstrong, Bogdan Istrate, Robert A Murgita (2015), “Algorithmic approaches to protein-protein interaction site prediction Algorithms for Molecular Biology”, BioMed Central, 10:7 [13] Joao P G L M Rodrigues and Alexandre M J J Bonvin (2014), “Integrative computational modeling of protein interactions”, FEBS, 1988–2003 [14] Aidong Zhang (2009), Protein interaction networks, Cambridge University Press [15] Rob Brazas (2011), In vitro and in vivo methods to study protein:protein interactions, Promega [16] Sprinzak, E and Margalit (2001), “Correlated sequence-signatures as markers of protein - protein interaction”, Molecular Biology, 311:681–692 [17] Li Deng and Dong Yu (2014), Deep Learning: Methods and Applications, Foundation and trends in signal processing, Volume Issue 3-4, ISSN: 1932-8346 [18] Russ Salakutdinov (2009), Deep Learning, University of Toronto, Canada [19] http://deeplearning.net/ [20] http://www.deeplearningbook.org/ [21] Eric Roberts (2000), Neural Networks https://cs.stanford.edu/people/eroberts/courses/soco/projects/neuralnetworks/index.html / [22] Dr G.P.Rameshkumar, S Samundeswari (2014), Neural Network, Artificial Neural Network (ANN) and Biological Neural Network (BNN) in Soft Computing, Volume 30; 3(3): 1159–1163, ISSN: 2277-9655 [23] O.S Eluyode and Dipo Theophilus Akomolafe (2013), “Comparative study of biological and artificial neural networks”, European Journal of Applied Engineering and Scientific Research, (1):36-46 [24] Warren S Mcculloch and Walter Pitts (1943), “A logical calculus of the ideas immanent in nervous activity”, Ulletin of mathematical biophysics, Volume [25] Martin T Hagan, Howard B Demuth, Mark Hudson Beale and Orlando De Jesús (2014), Neural Network Design 2nd Edition [26] Jeff Heaton (2008), Introduction to Neural Networks, Heaton Research [27] Kenvil L, Priddy and Paul E Keller (2005), Artifical neural networks an introduction, The international Society for Optical Engineering 24 [28] LeCun, Yann (1998), “Gradient-based learning applied to document recognition”, IEEE, 86.11: 2278-2324 [29] Yoon Kim (2014), “Convolution neural networks for sentence classification”, arXiv 1408.5882 [30] Kawashima, S., Pokarowski, P., Pokarowska, M., Kolinski, A., Katayama, T., and Kanehisa (2008), “AAindex: amino acid index database”, Nucleic Acids Res, 28(1): 374 [31] DeLong ER, DeLong DM, Clarke-Pearson DL (1988), “Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach”, Biometrics, 44(3):837–845 [32] Salwinski L, Miller C S, Smith A J (2004), “The database of interacting proteins”, Nucleic acids research, 32(suppl 1): D449-D451 [33] Smialowski P, Pagel P, Wong P (2010), “The Negatome database: a reference set of non-interacting protein pairs”, Nucleic acids research, 38(suppl 1): D540-D544 [34] Tanlin Sun, Bo Zhou, Luhua Lai (2017), “Sequence-based prediction of protein protein interaction using a deep-learning algorithm”, BMC Bioinformatics, 10.1186/s12859-017-1700-2 25 ... CHƯƠNG MÔ HÌNH DỰ ĐỐN TƯƠNG TÁC PROTEINS DỰA TRÊN KỸ THUẬT HỌC SÂU (DEEP LEARNING) 3.1 Giới thiệu mơ hình Phần luận văn trình bày trình xây dựng mơ hình dự đốn tương tác protein dựa kỹ thuật học sâu... xuất để dự đoán tương tác Proteins 1.2.1 Dự đoán dựa thơng tin chuỗi Các dự đốn PPIs thực cách kết hợp thông tin tương tác biết với thông tin liên quan đến tương đồng trình tự Phương pháp dựa khái... phương pháp tính toán đề xuất để dự đoán tương tác Proteins Nội dung luận văn chia thành chương sau: Chương giới thiệu cách sơ lược toán dự đoán tương tác proteins mơ hình dự đốn tương ứng điển

Dự đoán tương tác giữa các protein dựa trên thuật toán deep learning (tt)

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan