Các thuật toán phân cụm dữ liệu và ứng dụng trong phân loại Protein

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHẠM THỊ THU CÁC THUẬT TOÁN PHÂN CỤM DỮ DIỆU VÀ ỨNG DỤNG TRONG PHÂN LOẠI PROTEIN LUẬN VĂN THAC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên – 2015 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHẠM THỊ THU CÁC THUẬT TOÁN PHÂN CỤM DỮ DIỆU VÀ ỨNG DỤNG TRONG PHÂN LOẠI PROTEIN Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 Ngƣời hƣớng dẫn khoa học PGS.TS Đoàn Văn Ban Thái Nguyên - 2015 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ i LỜI CẢM ƠN Để hoàn thành chƣơng trình cao học viết luận văn này, nhận đƣợc hƣớng dẫn, giúp đỡ góp ý nhiệt tình quý thầy cô trƣờng Đại học Công nghệ thông tin Truyền thông Đặc biệt thầy cô Viện công nghệ thông tin Hà Nội tận tình dạy bảo cho suốt thời gian học tập trƣờng Tôi xin gửi lời cảm ơn sâu sắc đến PGS.TS Đoàn Văn Ban dành nhiều thời gian tâm huyết hƣớng dẫn hoàn thành luận văn Mặc dù có nhiều cố gắng hoàn thiện luận văn tất lực mình, nhiên tránh khỏi thiếu sót, mong nhận đƣợc đóng góp quí báu quí thầy cô bạn Tôi xin chân thành cảm ơn! Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ ii LỜI CAM ĐOAN Tôi xin cam đoan tất nội dung luận văn hoàn toàn đƣợc hình thành phát triển từ quan điểm cá nhân tôi, dƣới hƣớng dẫn bảo PGS.TS Đoàn Văn Ban Các số liệu kết có đƣợc luận văn tốt nghiệp hoàn toàn trung thực Học viên Phạm Thị Thu Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ iii BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT Chữ viết tắt KDD CSDL Nghĩa tiếng anh Nghĩa tiếng việt Kownledge Discovery in Khám phá tri thức sở Database liệu Data base Cơ sở liệu Khai phá liệu KPDL Clustering Using Representatives Phân cụm liệu sử dụng điểm đại diện Clustering Large Application Thuật toán phân cụm ứng dụng lớn Self-organizing Trees Cây tự tổ chức DesoxyriboNucleic Acid Phân tử nucleic acid mang thông tin di truyền mã hóa cho hoạt động sinh trƣởng phát triển dạng sống RNA RiboNucleic Acid Là hai loại axít nucleic, sở di truyền cấp độ phân tử rRNA ribosome RNA Là ARN mã hóa mang thông tin từ AND tRNA transfer RNA Là RNA vận chuyển mRNA messenger RNA RNA thông tin SCOP Structural Classification of Phân loại cấu trúc protein Proteins CATH Class Architecture Topology Homologous superfamily Phân loại cấu trúc protein với CATH DDD Dali Domain Dictionary Từ điển miền Dali PDB Protein Data Bank Ngân hàng liệu protein FSSP Families of Structurally Similar Proteins Dòng họ protein với cấu trúc tƣơng tự CURE CLARA SoT DNA Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ iv Trang Hình 1.1 Ví dụ phân cụm tập liệu vay nợ thành cụm Hình 1.2 Các chiến lƣợc phân cụm phân cấp 15 Hình 1.3 Một số hình dạng khám phá phân cụm mật độ 16 độ Hình 1.4 Mô hình cấu trúc liệu lƣới 18 Hình 2.1 Các thiết lập để xác định danh giới cụm ban đầu 25 Hình 2.2 Tính toán trọng tâm cụm 26 Hình 2.3 Minh họa trực quan trình phân cụm 28 Hình 2.4 Phân cụm Chameleon 31 34 35 35 Hình 2.8 Nguyên lý chung AntTree 37 Hình 2.9 Kiến trúc khác SOM SoT 40 Hình 2.10 Phân việc từ treec cho treec 44 Hình 2.11 Tách subtreex khỏi treec đƣa vào list 44 Hình 2.12 Tái liên kết subtreex vào treec 45 Hình 3.1 Thuyết trung tâm sinh học phân tử 47 Hình 3.2 Cấu trúc DNA 48 Hình 3.3 Sự phát triển cấu trúc liệu protein 51 Hình 3.4 Dữ liệu đầu vào thuật toán 57 Hình 3.5 Giao diện chọn liệu 65 old old Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ v Hình 3.6 Thông tin liệu 66 Hình 3.7 Kết phân cụm với số tâm cụm 10 67 Hình 3.8 Kết phân cụm SoT với số tâm cụm 10 67 Hình 3.9 Giao diện hiển thị 10 phân cụm thuật toán SoT 68 Hình 3.10 Chi tiết phân cụm thứ tám thuật toán SoT 68 Hình 3.11 Tập tin kết phân cụm clara 69 DANH MỤC BẢNG Bảng 3.1 Nguồn tài nguyên cho phân loại cấu trúc protein 52 Bảng Các cấp độ CATH 53 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ vi MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT iii iv MỞ ĐẦU CHƢƠNG KHAI PHÁ DỮ LIỆU 1.1 Khái niệm chung 1.2 Phân lớp liệu 1.3 Phân cụm liệu 1.3.1 Tổng quan phân cụm liệu 1.3.2 Các yêu cầu kỹ thuật phân cụm liệu 1.3.3 Các kiểu liệu phân cụm liệu 1.3.4 Độ đo phân cụm liệu 11 1.3.5 Các kỹ thuật tiếp cận với toán phân cụm 13 1.4 Luật kết hợp 20 1.4.1 Một số khái niệm sở 20 21 21 1.5 Một số ứng dụng phân cụm liệu 22 1.5.1 Ứng dụng tin sinh học 22 1.5.2 Ứng dụng phân loại đối tƣợng văn 23 1.5.3 Ứng dụng phân đoạn ảnh, nhận dạng 23 1.6 Kết luận chƣơng 24 CHƢƠNG CÁC THUẬT TOÁN PHÂN CỤM 25 2.1 Thuật toán K-means 25 2.2 Thuật toán CHAMELEON 29 2.3 Thuật toán CLARA 32 2.4 Thuật toán CURE 33 2.5 Thuật toán AntTree 37 2.6 Thuật toán tự tổ chức SoT 39 2.7 Kết luận chƣơng 46 CHƢƠNG CHƢƠNG TRÌNH THỬ NGHIỆM 47 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ vii 3.1 Protein kỹ thuật phân loại Protein 47 3.1.1 Thuyết trung tâm sinh học phân tử 47 3.1.2 Các kỹ thuật phân loại Protein 50 3.2 Cài đặt thử nghiệm thuật toán phân cụm liệu phân loại Protein 55 3.2.1 Phát biểu toán 55 3.2.2 Mô tả liệu 56 3.2.3 Chuẩn bị liệu 57 3.2.4 Môi trƣờng cài đặt thử nghiệm 61 3.3 Nhận xét, đánh giá chƣơng trình thử nghiệm 70 3.4 Kết luận chƣơng 70 KẾT LUẬN VÀ HƢỚNG NGHIÊN CỨU 71 TÀI LIỆU THAM KHẢO 72 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ MỞ ĐẦU Trong năm gần đây, với phát triển vƣợt bậc công nghệ thông tin, khả thu thập lƣu trữ thông tin hệ thống thông tin không ngừng đƣợc nâng cao Theo đó, lƣợng thông tin đƣợc lƣu trữ thiết bị nhớ không ngừng tăng lên Khai phá liệu trình khám phá tri thức có ích dạng tiềm nguồn liệu có Quá trình khám phá tri thức chuỗi lặp gồm bƣớc: làm liệu, tích hợp liệu, chọn lựa liệu, đánh giá mẫu, biểu diễn tri thức Khai phá liệu liên quan đến nhiều lĩnh vực khác nhƣ: công nghệ sở liệu, lý thuyết thống kê, học máy, khoa học thông tin, trực quan hóa, Vấn đề ứng dụng kỹ thuật khai phá liệu, phân cụm liệu Tin sinh học, lĩnh vực mới, đời, sử dụng công nghệ ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính, trí tuệ nhân tạo, hóa học, sinh học để giải vấn đề sinh học Việc tìm hiểu nghiên cứu phân loại protein lên nhƣ hƣớng với trải nghiệm hƣớng vào việc khám phá cấu trúc phân tử sinh học Nghiên cứu ứng dụng cách hiệu phƣơng pháp khai phá liệu vấn đề hấp dẫn, thu hút quan tâm nhà nghiên cứu, ứng dụng mà tổ chức, doanh nghiệp Do đó, chọn đề tài nghiên cứu “ Các thuật toán phân cụm liệu ứng dụng phân loại Protein” Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 59 3.2.3.3 Sử dụng tương quan thuộc tính Tƣơng quan thuộc tính mối liên hệ thuộc tính, đơn giản mối liên hệ tuyến tính Ở kỹ thuật này, ta tìm cặp thuộc tính mà tƣơng quan với nhất, tức chúng tăng giảm (hoặc ngƣợc lại tăng, giảm) “lƣợng” định Khi giá trị thuộc tính thiếu tính đƣợc thông qua giá trị thuộc tính Ví dụ: với hai thuộc tính attr1 attr2 ta tìm đƣợc chúng có mối tƣơng quan cao, trƣờng hợp lý tƣởng tƣơng quan 1:1, ta xây dựng hàm truyến tính nhƣ sau: Attr2 = Attr1* a + b Trong đó: a b hệ số tuyến tính tìm đƣợc dựa mối tƣơng quan hai thuộc tính Do đó, biết giá trị thuộc tính tìm đƣợc giá trị thuộc tính Nhƣợc điểm kỹ thuật cần phân tích tƣơng quan tất cặp thuộc tính dẫn đến không hiệu với liệu có số lƣợng thuộc tính lớn Mặt khác với thuộc tính mà có giá trị số, thống kê gọi kiểu phân loại (nominal), kỹ thuật không áp dụng đƣợc 3.2.3.4 Sử dụng tương tự mẫu Thay khám phá tƣơng quan thuộc tính, kỹ thuật sử dụng tƣơng tự mẫu (dòng) để điền giá trị thiếu Sự tƣơng tự cần đƣợc định nghĩa thông qua độ đo cụ thể Một độ đo d hàm d : X × X → R, R tập số thực, cho x,y,z thuộc X d phải thỏa mãn bốn tính chất bản: d(x, y) ≥ d(x, y) = x = y d(x, y) = d(y, x) 60 d(x, z) ≤ d(x, y) + d(y, z) Một độ đo thƣờng đƣợc sử dụng khoảng cách Euclid đƣợc định p nghĩa nhƣ sau: d ( x, y) ( xi yi ) i Trong p số thuộc tính, xi,yi giá trị đối tƣợng x,y thuộc tính thứ i Sự tƣơng tự mẫu “gần nhau” mẫu tính độ đo chúng Phƣơng pháp tính khoảng cách Euclid tìm 10 mẫu gần (hàng xóm) với mẫu có giá trị thiếu, sau tính giá trị thiếu hai phƣơng pháp: + Phƣơng pháp a: sử dụng số trung vị 10 hàng xóm + Phƣơng pháp b: tính trung bình trọng số 10 hàng xóm Trọng số giảm khoảng cách mẫu hàng xóm lớn Để tính trọng số, ta sử dụng hàm Gaussian Khi trọng số đƣợc tính theo khoảng cách d nhờ công thức sau: w(d) = e-d Để tính đƣợc khoảng cách Euclid với giá trị số (liên tục) giá trị phân loại (nominal), sử dụng hàm sau: p d ( x, y) i ( xi , yi ) i Trong i () xác định khoảng cách hai mẫu thuộc tính i đƣợc cho bởi: i (v1 , v ) i thuộc tính phân loại v1 v2 i thuộc tính phân loại v1 v2 (v1 v2 )2 i thuộc tính kiểu số 61 Luận văn sử dụng kỹ thuật tìm tƣơng tự mẫu phƣơng pháp b để điền giá trị thiếu cho liệu Việc thực hóa kỹ thuật đƣợc trình bày phần cài đặt thử nghiệm sau 3.2.4 Môi trƣờng cài đặt thử nghiệm 3.2.4.1 Môi trường cài đặt Chƣơng trình sử dụng ngôn ngữ R kết hợp với ngôn ngữ C# để thử nghiệm chƣơng trình Yêu cầu phần mềm cần thiết bao gồm: Net Framework 4.0 trở nên, cài đặt ngôn ngữ R số gói cài đặt mở rộng R đƣợc đóng gói đĩa CD Giao diện tƣơng tác với ngƣời dùng đƣợc phát triển công cụ Visual Studio 2010 ngôn ngữ C# Phần thuật toán xử lý ngôn ngữ R Để kết nối phần giao diện phần xử lý thuật toán, chƣơng trình sử dụng thƣ viện R.net đƣợc phân phối địa rdotnet.codeplex.com Phần dƣới mô tả cách sơ lƣợc ngôn ngữ R gói mở rộng đƣợc sử dụng chƣơng trình 3.2.4.2 Ngôn ngữ R R ngôn ngữ lâp trình thống kê sáng lập nhóm tác giả "R Development Core Team" đại học đại học Auckland, Ross Ihaka Robert Gentleman khởi xƣớng phát triển từ ngôn ngữ lập trình thống kê S Do đặc trƣng phần mềm mã nguồn mở, R nhận đƣợc đóng góp xây dựng từ khắp nơi cộng đồng khoa học Thêm vào R kế thừa ƣu điểm ngôn ngữ lập trình bậc cao nên nhanh chóng trở thành ngôn ngữ phổ biến thống kê, xử lý số liệu nói chung đặc biệt tin sinh học nói riêng R hoàn toàn miễn phí đƣợc cộng đồng nhà phát triển khai phá liệu học máy quan tâm Rất nhiều thuật toán, công cụ xử lý đƣợc phát triển phân phối kho CRAN thông qua gói 62 (package) địa cran.r-project.org Trong luận văn, tác giả sử dụng ba gói DMwR, Cluster clValid đƣợc mô tả chi tiết phần sau 3.2.4.3 Các gói mở rộng Các gói mở rộng sử dụng chƣơng trình: Gói DMwR: Gói bao gồm hàm sử dụng khai phá liệu Luận văn sử dụng hàm knnImputation để xử lý giá trị thiếu liệu Mô tả chi tiết hàm nhƣ sau: Sử dụng: knnImputation(data, k= 10, scale = T, meth = "weighAvg", distData = NULL) Các tham số hàm:  data: liệu đầu vào cần xử lý  k: số hàng xóm gần nhất, mặc định 10  scale: định xem liệu có đƣợc chia tỷ lệ trƣớc tìm hàm xóm gần hay không Mặc định true  meth: phƣơng pháp để điền giá trị thiếu Bao gồm hai phƣơng pháp “median” (phƣơng pháp a) “weighAvg” (phƣơng pháp b) nhƣ mô tả mục 3.2.3.4 Mặc định sử dụng weighAvg  distData: tham số đƣợc sử dụng tìm kiếm hàng xóm liệu khác Mặc định NULL, thuật toán tìm hàng xóm liệu đầu vào Gói Cluster: Gói đƣợc phát triển Peter Rousseeuw, Anja Struyf Mia Hubert đƣợc công bố kho CRAN vào ngày 30/1/2015 Phiên chƣơng trình sử dụng 2.0.1 63 Hàm clara thuộc thƣ viện cluster cho phép tính toán phân cụm liệu theo thuật toán Clara Mô tả chi tiết hàm tham số nhƣ sau: Sử dụng: clara(x, k, metric = "euclidean", stand = FALSE, samples = 5,sampsize = min(n, 40 + * k), trace = 0, medoids.x = TRUE,keep.data = medoids.x, rngR = FALSE, pamLike = FALSE) Các tham số hàm:  x: liệu đầu vào hàm, liệu có cấu trúc dạng bảng nhƣ mô tả mục 3.2.2  k: số nguyên số Giá trị phải nằm khoảng (0, n) n số lƣợng ghi  metric: hàm khoảng cách, mặc định dùng khoảng cách euclid  stand: biến logic xác định xem cần chuẩn hóa giá trị bị thiếu liệu Các giá trị thiếu đƣợc thay giá trị trung bình theo thuộc tính (cột) Mặc định giá trị False  samples: số nguyên giá trị mẫu đƣợc xử lý liệu Giá trị mặc định  sampsize: số nguyên số lƣợng quan sát sample Giá trị lớn số cụm thƣờng số ghi  trace: số nguyên biểu thị vết theo dõi trình gỡ lỗi  medoids.x: biến logic định có trả giá trị tâm cụm hay không Mặc định True  keep.data: biến logic xác định xem kết có đƣợc lƣu lại trng nhớ hay không Biến có giá trị tƣơng ứng với biến medoids.x 64  rngR: biến logic xác định xem hàm có tạo số ngẫu nhiên đƣợc sử dụng trình tính toán hàm Mặc định False  pamLike: biến logic xác định hàm thực theo thuật toán PAM hay không Mặc định False Gói clValid: Gói clValid đƣợc phát triển Guy Brock, Vasyl Pihur, Susmita Datta, Somnath Datta đƣợc công bố vào ngày 25/3/2014 Gói chứa hàm xử lý thuật toán phân cụm liệu đƣợc sử dụng thống kê tin sinh Để sử dụng đƣợc gói này, cần phải cài gói Cluster trƣớc Hàm SoT thuộc thƣ việc clValid cho phép tính toán phân cụm liệu theo thuật toán SoT Mô tả chi tiết hàm tham số nhƣ sau: sota(data, maxCycles, maxEpochs = 1000, distance = "euclidean", wcell = 0.01,pcell = 0.005, scell = 0.001, delta = 1e-04, neighb.level = 0, maxDiversity = 0.9, unrest.growth = TRUE, ) Các tham số hàm:  data: liệu đầu vào hàm tƣơng tự hàm clara  maxCycles: số nguyên số vòng lặp tối đa Khi kết số phân cụm trả maxCycles +  maxEpochs: số nguyên số lƣợng tối đa đối tƣợng đƣợc xử lý vòng lặp Giá trị mặc định 1000  distance: hàm khoảng cách để tính toán độ đo khác đối tƣợng Hàm hỗ trợ hai hàm khoảng cách euclid correlation  wcell: giá trị trọng số đối tƣợng Mặc định 0,01 65  pcell: giá trị trọng số đối tƣợng cha Mặc định 0.005  scell: giá trị trọng số đối tƣợng anh em Mặc định 0,001  delta: giá trị lỗi tối thiểu Ngƣỡng sử dụng để dừng vòng lặp  neighb.level: số nguyên xác định ứng viên di chuyển phân cụm  maxDiversity: giá trị sai lệch cực đại đối tƣợng cụm  unrest.growth: giá trị logic Nếu True số cụm tƣơng ứng với maxCycles + Nếu False thuật toán dừng trƣớc đạt đến maxCycles Giá trị mặc định True 3.2.4.4 Thử nghiệm chương trình Giao diện chƣơng trình đƣợc chia thành bốn nhóm: Nhóm “Nhập liệu”: cho phép ngƣời dùng nhập liệu từ tập tin văn có cấu trúc nhƣ phần 3.2.2.1 Để nhập liệu, ngƣời dùng nhấn vào nút “Chọn ” duyệt đến tập tin liệu Hình 3.5 Giao diện chọn liệu 66 Nhóm “Thông tin liệu Chi tiết liệu”: hiển thị thông tin tên liệu, số dòng, số cột chi tiết nội dung liệu Trong chi tiết liệu, dòng tƣơng ứng với giá trị gen, cột “Name” tên gen, cột từ a1 đến a80 giá trị số tƣơng ứng gen Hình 3.6 Thông tin liệu Nhóm “Tham số phân cụm”: cho phép ngƣời dùng nhập tham số điều khiển cho hai thuật toán Clara SoT số tâm cụm Với thuật toán SoT, hiển thị đƣợc biểu đồ phân cụm Sau lựa chọn đầy đủ tham số, ngƣời dùng nhấn nút “Thực phân cụm” để chƣơng trình xử lý tính toán Nhóm “Kết phân cụm”: hiển thị kết thực phân cụm liệu Kết phân cụm gồm ba phần: Số phần tử thuộc cụm: phần đếm xem cụm chứa gen thuộc cụm Tâm cụm: hiển thị tâm cụm 67 Sự phân bố cụm: hiển thị chi tiết cụm chứa tên gen tƣơng ứng Hình 3.7 Kết phân cụm băng Clara với số tâm cụm 10 Hình 3.8 Kết phân cụm SoT với số tâm cụm 10 68 Với thuật toán SoT, chƣơng trình hiển thị chi tiết phân cụm Với tùy chọn xem tất biểu đồ xem biểu đồ phân cụm Hình 3.9 Giao diện hiển thị 10 phân cụm thuật toán SoT Hình 3.10 Chi tiết phân cụm thứ tám thuật toán SoT 69 Để lƣu lại kết phân cụm, ngƣời dùng nhấn nút “Lƣu kết quả” nhập tên tệp cần lƣu, chƣơng trình lƣu lại kết dƣới dạng tệp text nhƣ sau: Hình 3.11 Tập tin kết phân cụm clara 70 3.3 Nhận xét, đánh giá chƣơng trình thử nghiệm Chƣơng trình cài đặt dựa thuật toán Clara thuật toán SoT sử dụng gói mở rộng ngôn ngữ R Phần xử lý giá trị thiếu đƣợc thực trƣớc áp dụng thuật toán Clara SoT dẫn đến thao tác xử lý giá trị thiếu đƣợc thực nhiều lần, điều dẫn đến thời gian thực chƣơng trình chƣa tối ƣu 3.4 Kết luận chƣơng Ở chƣơng tác giả trình bày phƣơng pháp phân loại protein đƣợc sử dụng Đồng thời nêu rõ cấu trúc liệu protein đƣợc biểu diễn thành input thuật toán sử dụng thuật toán phân cụm liệu Clara SoT để tiến hành phân loại Protein 71 KẾT LUẬN VÀ HƢỚNG NGHIÊN CỨU KẾT LUẬN Trong luận văn tìm hiểu, nghiên cứu số vấn đề sau: - Luận văn trình bày lý thuyết phân cụm liệu, số thuật toán phân cụm liệu dựa vào cụm trung tâm để ứng dụng vào phân loại cấu trúc Protein - Giới thiệu Protein, cấu trúc, chức protein, số phƣơng pháp phân loại cấu trúc protein - Luận văn cài đặt thuật toán phân cụm Clara SoT để minh họa cho việc phân loại Protein Tuy nhiên chƣơng trình có nhiều hạn chế nhƣ kết hiển thị chƣa trực quan định dạng tệp hỗ trợ đầu tệp text HƢỚNG NGHIÊN CỨU Trong tƣơng lai đề tài phát triển theo hƣớng nghiên cứu phân loại Protein với phân loại trình tự, phân loại cấu trúc protein Tìm hiểu ngân hàng liệu protein sử dụng nguồn liệu chƣơng trình Đồng thời cài đặt thêm thuật toán phân cụm khác đƣa đánh giá hiệu thuật toán nhiều liệu 72 TÀI LIỆU THAM KHẢO Tiếng việt: [1] Nguyễn Hoàng Tú Anh, Giáo trình “Khai thác liệu ứng dụng” 2009 (Đại học KHTN Tp Hồ Chí Minh) [2] Vũ Lan Phƣơng, Luận văn “Nghiên cứu cài đặt số giải thuật phân cụm phân lớp”, 2006 (Đại học Bách khoa Hà Nội) Tiếng Anh [3] Andrew Moore: “K-means and Hierarchical Clustering - Tutorial Slides”, http://www-2.cs.cmu.edu/~awm/tutorials/kmeans.html [4] Charu C Aggarwal, Chandan K Reddy (2013), Data Clustering: Algorithms and Applications, Chapman and Hall/CRC [5] Doan Nhat Quang: “New models for hierarchical and topological clustering”, Ph D Thesis PARIS 13 UNIVERSITY SORBONNE PARIS CITÉ, 2013 [6] Ho Tu Bao, Introduction to knowledge discovery and data mining [7] Han J and Kamber M, Data Mining: Concepts and Techniques 3rd Edition, Morgan Kaufman, Academic Press 2011 [8] Patrice Koehl (2006), Protein Structure Classification, Department of Computer Science and Genome Center, University of California, Davis, California [9] Osmar R.Zaiane, “Principles of knowledge discovery in databases” Fall 2001 (University of Alberta) 73 [10] Sudipto Guha, Rajeev Rastogi, Kyuseok Shim, “CURE: an efficient clustering algorithm for large databases”, Information Systems Vol 26, No.1, pp.35-58, Elsevier Science, 2001 [11] Teuvo Kohonen: “Self-Organizing Maps”, Third Edition, Springer, Heidelberg, 2001 Trang Web [12] http://www-users.cs.umn.edu/~han/dmclass/chameleon.pdf [13] http://www.tinsinhhoc.org/index.php/genomics/3-biodatabase.html [...]... 1 Khai phá dữ liệu: Chƣơng này trình bày tổng quan về khai phá dữ liệu và đi sâu tìm hiểu về phân cụm dữ liệu, các kỹ thuật phân cụm và một số ứng dụng của phân cụm dữ liệu Chƣơng 2 Các thuật toán phân cụm dữ liệu: Trình bày về các thuật toán điển hình trong phân cụm dữ liệu là: K-Means, Chameleon, Clara, Cure, AntTree và SoT Chƣơng 3 Chƣơng trình thử nghiệm: Để khẳng định cho khả năng và hiệu quả... đồng dữ liệu thích hợp, chính xác, đảm bảo khách quan là rất quan trọng, góp phần xây dựng thuật toán phân cụm dữ liệu có hiệu quả cao trong việc đảm bảo chất lƣợng cũng nhƣ chi phí tính toán 1.3.5 Các kỹ thuật tiếp cận với bài toán phân cụm Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực tế Các kỹ thuật phân cụm đều hƣớng tới hai mục tiêu chung: chất lƣợng của các cụm khám... với các kiểu thuộc tính khác nhau - Khám phá các cụm với hình dạng bất kỳ - Tối thiểu lƣợng tri thức cần cho xác định các tham số đầu vào - Khả năng thích nghi với dữ liệu nhiễu - Ít nhạy cảm với thứ tự của các dữ liệu vào - Số chiều lớn - Phân cụm ràng buộc - Dễ hiểu và dễ sử dụng 1.3.3 Các kiểu dữ liệu trong phân cụm dữ liệu Trong phân cụm, các đối tƣợng dữ liệu thƣờng đƣợc biểu diễn dƣới dạng các. .. trung bình cộng của các thành phần tƣơng ứng của các đối tƣợng vector dữ liệu trong cụm đang xét Tham số đầu vào của thuật toán là số cụm k, và tham số đầu ra của thuật toán là các trọng tâm của các cụm dữ liệu Độ đo khoảng cách giữa các đối tƣợng dữ liệu thƣờng đƣợc sử dụng là khoảng cách Euclide Hàm tiêu chuẩn và độ đo khoảng cách có thể đƣợc xác định cụ thể hơn tùy ý vào ứng dụng hoặc quan điểm... thuật phân cụm đƣợc phát triển áp dụng cho dữ liệu hạng mục, chúng phân cụm các đối tƣợng theo các khái niệm mà chúng xử lý - Phân cụm mờ: Thông thƣờng mỗi phƣơng pháp PCDL phân một tập dữ liệu ban đầu thành các cụm dữ liệu có tính tự nhiên và mỗi đối tƣợng dữ liệu chỉ thuộc về một cụm dữ liệu, phƣơng pháp này chỉ phù hợp với việc khám phá ra các cụm có mật độ cao và rời nhau Tuy nhiên, trong thực tế, các. .. cụm dữ liệu 1.3.1 Tổng quan về phân cụm dữ liệu Mục đích chính của phân cụm dữ liệu (PCDL) nhằm khám phá cấu trúc của mỗi dữ liệu để thành lập các nhóm dữ liệu từ tập dữ liệu lớn, theo đó nó cho phép ngƣời ta đi sâu vào phân tích và nghiên cứu cho từng cụm dữ liệu này nhằm khám phá và tìm kiếm các thông tin tiềm ẩn, hữu ích phục vụ cho việc ra quyết định Ví dụ “Nhóm các khách hàng trong cơ sở dữ liệu. .. của khai phá dữ liệu Chƣơng này đã trình bày một số kiến thức tổng quan về khám phá tri thức, những khái niệm và kiến thức cơ bản nhất về khai phá dữ liệu, vấn đề phân lớp dữ liệu, phân cụm dữ liệu, luật kết hợp Một số ứng dụng của phân cụm dữ liệu cũng đƣợc đề cập đến trong chƣơng Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 25 CHƢƠNG 2 CÁC THUẬT TOÁN PHÂN CỤM 2.1 Thuật toán K-means... cụm khám phá đƣợc và tốc độ thực hiện của thuật toán Tuy nhiên có thể phân loại thành từng loại cơ bản dựa trên phân loại các phƣơng pháp Hiện nay, các kỹ thuật phân cụm có thể phân loại theo các cách tiếp cận chính sau: Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 14 1.3.5.1 Phương pháp phân cụm phân hoạch Ý tƣởng chính của kỹ thuật này là phân hoạch một tập hợp dữ liệu có n phần tử... hình cho cấu trúc cụm dữ liệu - Xây dựng thuật toán phân cụm và xác lập các điều kiện khởi tạo - Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm Theo các nghiên cứu thì đến nay chƣa có một phƣơng pháp phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cụm dữ liệu Hơn nữa, các phƣơng pháp phân cụm cần có cách thức biểu Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/... chính trong quá trình KDD 1.2 Phân lớp dữ liệu Phân lớp dữ liệu là kỹ thuật dựa trên tập huấn luyện và những giá trị hay là nhãn của lớp trong một thuộc tính phân lớp và sử dụng nó trong việc phân lớp dữ liệu mới Bên cạnh kỹ thuật phân lớp có một hình thức tƣơng tự là kỹ thuật tiên đoán, kỹ thuật tiên đoán khác với phân lớp ở chỗ phân lớp chỉ liên quan đến tiên đoán loại lớp của nhãn còn kĩ thuật tiên

Các thuật toán phân cụm dữ liệu và ứng dụng trong phân loại Protein

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan