Phân cụm dữ liệu sử dụng giải thuật di truyền và mạng nơron

65 698 3
Phân cụm dữ liệu sử dụng giải thuật di truyền và mạng nơron

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG  TRƯƠNG ĐỨC CƯỜNG PHÂN CỤM DỮ LIỆU SỬ DỤNG GIẢI THUẬT DI TRUYỀN VÀ MẠNG NƠ RON LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2012 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG  TRƯƠNG ĐỨC CƯỜNG PHÂN CỤM DỮ LIỆU SỬ DỤNG GIẢI THUẬT DI TRUYỀN VÀ MẠNG NƠ RON Chuyên ngành : Khoa học máy tính Mã số : 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC TS. Vũ Mạnh Xuân Thái Nguyên - 2012 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i LỜI CẢM ƠN Em xin bày tỏ lòng biết ơn sâu sắc tới TS. Vũ Mạnh Xuân, thầy đã hướng dẫn, chỉ dạy tận tình để em hoàn thành luận văn này. Em xin chân thành cảm ơn các thầy, cô giáo Trường Đại học Công nghệ Thông tin & Truyền thông - Đại học Thái Nguyên, cùng các thầy, cô giáo Viện Công nghệ Thông tin - Viện Khoa học và Công nghệ Việt Nam đã truyền thụ kiến thức cho em trong suốt quá trình học tập vừa qua. Tôi cũng xin cảm ơn cơ quan, bạn bè đồng nghiệp, gia đình và những người thân đã cùng chia sẻ, giúp đỡ, động viên, tạo mọi điều kiện thuận lợi để tôi có thể học tập và hoàn thành bản luận văn này. Tuy đã có những cố gắng nhất định nhưng do thời gian và trình độ có hạn nên chắc chắn luận văn còn nhiều thiếu sót và hạn chế nhất định. Rất mong nhận được sự góp ý của thầy cô và các bạn. Thái Nguyên, ngày 27 tháng 06 năm 2012 Học viên Trƣơng Đức Cƣờng Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii LỜI CAM ĐOAN Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm nghiên cứu, tìm hiểu của riêng cá nhân tôi. Trong toàn bộ nội dung của luận văn, những điều được trình bày hoặc là của cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp. Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình. Thái Nguyên, ngày 27 tháng 06 năm 2012 Học viên Trƣơng Đức Cƣờng Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii MỤC LỤC MỤC LỤC iii DANH SÁCH HÌNH VẼ v DANH SÁCH BẢNG BIỂU vi DANH SÁCH TỪ VIẾT TẮT vii MỞ ĐẦU 1 CHƢƠNG I: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 3 1.1. Khái niệm và mục đích của phân cụm dữ liệu 3 1.2. Ứng dụng của phân cụm dữ liệu 4 1.3. Một số phương pháp phân cụm dữ liệu 5 1.3.1. Phân cụm phân hoạch 5 1.3.2. Phân cụm phân cấp 7 1.3.3. Phân cụm dựa trên mật độ 9 1.3.4. Phân cụm dựa trên lưới 11 1.3.5. Phân cụm dữ liệu dựa trên mô hình 13 1.3.6. Phân cụm dữ liệu mờ 14 CHƢƠNG II: PHÂN CỤM DỮ LIỆU SỬ DỤNG GIẢI THUẬT DI TRUYỀN VÀ MẠNG NƠ RON 16 2.1. Giải thuật di truyền 16 2.1.1. Sơ đồ thực hiện giải thuật di truyền 17 2.1.2. Các quá trình chính trong giải thuật di truyền 19 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv 2.1.2.1. Biểu diễn các cá thể 19 2.1.2.2. Hàm mục tiêu (Fitness) 21 2.1.2.3. Toán tử tái tạo (Reproduction) 21 2.1.2.4. Toán tử lai ghép (Crossover) 24 2.1.2.5. Toán tử đột biến (Mutation) 26 2.1.2.6. Các thông số cơ bản của giải thuật di truyền 27 2.1.3. Ưu và nhược điểm của giải thuật di truyền 28 2.2. Mạng nơ ron 30 2.2.1. Định nghĩa 30 2.2.2. Nơ ron sinh học và mạng nơ ron sinh học 31 2.2.3. Cấu trúc mạng nơ ron 32 2.2.4. Phân loại mạng nơ ron 33 2.3. Mối quan hệ giữa giải thuật di truyền và mạng nơ ron trong phân cụm dữ liệu 35 2.3.1. Một số phương thức kết hợp giữa GA và mạng nơ ron 36 2.3.2. Một số ví dụ về việc kết hợp giữa GA và mạng nơ ron 38 CHƢƠNG III: BÀI TOÁN ỨNG DỤNG 42 3.1. Phát biểu bài toán 42 3.2. Thuật toán 42 3.3. Kết quả thử nghiệm 48 3.4. Nhận xét 49 KẾT LUẬN 54 TÀI LIỆU THAM KHẢO 55 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v DANH SÁCH HÌNH VẼ Hình 1.1. Quy trình phân cụm 3 Hình 1.2. Mô phỏng sự phân cụm dữ liệu 4 Hình 1.3. Các chiến lược phân cụm phân cấp 8 Hình 1.4. Một số hình dạng khám phá bởi phân cụm dựa trên mật độ 10 Hình 1.5. Mô hình cấu trúc dữ liệu lưới 12 Hình 2.1. Lưu đồ giải thuật di truyền 18 Hình 2.2. Bánh xe trọng số 23 Hình 2.3. Lai ghép một điểm 25 Hình 2.4. Lai ghép trong biểu diễn bằng giá trị 26 Hình 2.5. Cấu tạo của nơ ron 31 Hình 2.6. Thu nhận tín hiệu trong nơ ron 31 Hình 2.7. Mạng nơ ron truyền thẳng nhiều lớp 34 Hình 2.8. Mạng hồi quy (Recurrent Neural Network) 34 Hình 2.9. Mô đun ghép cặp Di truyền – Nơ ron trong một hệ thống ứng dụng 38 Hình 2.10. Sơ đồ của hệ thống XROUTE (Kadaba, Nygard và Juell 1991) 38 Hình 3.1. Dữ liệu đầu ra 42 Hình 3.2. Dữ liệu đầu vào sau khi mã hóa 43 Hình 3.3. Quá trình lai ghép 43 Hình 3.4. Tập điểm dữ liệu vào 48 Hình 3.5. Giao diện chương trình 49 Hình 3.6. Kết quả phân cụm với string count = 100 50 Hình 3.7. Kết quả phân cụm với string count = 1 50 Hình 3.8. Kết quả phân cụm bộ dữ liệu giao nhau với stringcount = 1 51 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi DANH SÁCH BẢNG BIỂU Bảng 2.1. Bảng thể hiện tổng giá trị hàm mục tiêu 22 Bảng 2.2. Chuỗi nhiễm sắc thể 23 Bảng 2.3. Lai ghép mặt nạ 25 Bảng 2.4. So sánh K-mean và Giải thuật di truyền 29 Bảng 2.5. Một số phương thức liên GA với mạng nơ ron 37 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vii DANH SÁCH TỪ VIẾT TẮT Từ viết tắt Ý nghĩa KPDL Khai phá dữ liệu PCDL Phân cụm dữ liệu CSDL Cơ sở dữ liệu GA Giải thuật di truyền NST Nhiễm sắc thể Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 MỞ ĐẦU Trong những năm gần đây, sự phát triển mạnh mẽ của công nghệ thông tin và ngành công nghiệp phần cứng đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăng nhanh một cách chóng mặt. Bên cạnh đó việc tin học hóa một cách ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo cho chúng ta một hệ thống cơ sở dữ liệu khổng lồ. Hệ thống này đã đem lại những lợi ích vô cùng to lớn cho con người trong việc lưu trữ, tìm kiếm và thống kê. Tuy vậy, sự bùng nổ này đã dẫn tới một nhu cầu mới là phát hiện tri thức từ kho dữ liệu khổng lồ đó. Đây là một vấn đề rất phức tạp, cần phải có những công cụ và kỹ thuật xử lý linh hoạt như suy nghĩ của con người. Trong ngành khoa học máy tính, tìm kiếm lời giải tối ưu cho các bài toán là vấn đề được các nhà khoa học máy tính đặc biệt rất quan tâm. Mục đích chính của các thuật toán là tìm kiếm thuật giải chất lượng cao và sử dụng kỹ thuật trí tuệ nhân tạo đặc biệt rất cần thiết khi giải quyết các bài toán có không gian tìm kiếm lớn. Giải thuật di truyền (Genetic Algorithm - GA) là một trong những kỹ thuật tìm kiếm lời giải tối ưu đã đáp ứng được yêu cầu của nhiều bài toán và ứng dụng. Hiện nay, thuật toán di truyền cùng với mạng nơ ron được ứng dụng rất rộng rãi trong các lĩnh vực phức tạp. Thuật toán di truyền kết hợp với mạng nơ ron chứng tỏ được hiệu quả của nó trong các vấn đề khó có thể giải quyết bằng các phương pháp thông thường hay các phương pháp cổ điển, nhất là trong các bài toán cần có sự lượng giá, đánh giá sự tối ưu của kết quả thu được. Chính vì vậy, trong phạm vi đề tài này, tôi chọn hướng kết hợp giữa mạng nơ ron và giải thuật di truyền áp dụng vào bài toán phân cụm dữ liệu, Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn [...]... tập dữ liệu đầu vào lớn mà nếu áp dụng phương pháp truyền thống sẽ gặp nhiều khó khăn Bố cục của đề tài gồm 3 phần chính: Chƣơng 1: Tổng quan về phân cụm dữ liệu 1.1 Khái niệm và mục đích của phân cụm dữ liệu 1.2 Ứng dụng của phân cụm dữ liệu 1.3 Nhận xét 1.4 Một số phương pháp phân cụm dữ liệu Chƣơng 2: Phân cụm dữ liệu sử dụng giải thuật di truyền và mạng nơ ron 2.1 Giải thuật di truyền 2.2 Mạng. .. chương trình máy tính Giải thuật di truyền đã được ứng dụng một cách thành công cho những tác vụ học khác nhau và cho các vấn đề tối ưu hóa khác Việc kết hợp mạng nơ ron và giải thuật di truyền sẽ giúp quá trình phân cụm tối ưu hơn Trong chương 2 sẽ trình bày về giải thuật di truyền, mạng nơ ron và cách kết hợp chúng vào bài toán phân cụm dữ liệu 2.1 Giải thuật di truyền Giải thuật di truyền (Genetic Algorithm... pháp dùng để phân cụm dữ liệu như đã trình bày ở trên, trong đó mỗi phương pháp có những đặc điểm riêng phù hợp với một lớp các bài toán với các dạng dữ liệu và miền dữ liệu nhất định: Phân cụm phân hoạch sử dụng chiến lược ăn tham để tìm kiếm nghiệm, phân cụm phân cấp thì dùng kỹ thuật đệ quy, Trong chương 2 sẽ giới thiệu chi tiết về giải thuật di truyền và mạng nơ ron trong phân cụm dữ liệu Số hóa... và Việt Nam nói riêng Khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu với mục đích chính là khám phá cấu trúc của mẫu dữ liệu để thành lập các nhóm dữ liệu từ tập dữ liệu lớn, cho phép con người đi sâu vào phân tích và nghiên cứu cho từng cụm dữ liệu nhằm khám phá và tìm kiếm các thông tin tiềm... Ứng dụng của phân cụm dữ liệu Phân cụm dữ liệu là một trong những công cụ chính của khai phá dữ liệu được ứng dụng trong nhiều lĩnh vực như thương mại và khoa học Các kỹ thuật phân cụm dữ liệu đã được áp dụng cho một số ứng dụng điển hình trong các lĩnh vực sau: - Thương mại: phân cụm dữ liệu có thể giúp các thương nhân tìm ra các nhóm khách hàng quan trọng có các đặc trưng tương đồng nhau và đặc tả họ... niệm, ứng dụng, đưa ra nhận xét và một số phương pháp để phân cụm dữ liệu 1.1 Khái niệm và mục đích của phân cụm dữ liệu Phân cụm dữ liệu là quá trình nhóm một tập các đối tượng thực thể hay trừu tượng thành lớp các đối tượng tương tự Một cụm là một tập hợp các đối tượng dữ liệu mà các phần tử của nó tương tự nhau và phi tương tự với các đối tượng trong các cụm khác Một cụm các đối tượng dữ liệu có thể... đề phân cụm có thể minh hoạ như hình sau: Hình 1.2 Mô phỏng sự phân cụm dữ liệu Mục tiêu của phân cụm là xác định được bản chất nhóm trong tập dữ liệu chưa có nhãn Theo các nghiên cứu thì hiện nay chưa có một phương pháp phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cụm dữ liệu Hơn nữa, các phương pháp phân cụm cần có cách thức biểu di n cấu trúc của các cụm dữ liệu, ... phương pháp phân cụm phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu được của phương pháp phân cấp có thể cải tiến thông qua bước phân cụm phân hoạch Phân cụm phân hoạch và phân cụm phân cấp là hai phương pháp PCDL cổ điển, hiện nay đã có nhiều thuật toán cải tiến dựa trên hai Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 9 phương pháp này đã được áp dụng phổ biến... biểu di n khác nhau sẽ có tương ứng một thuật toán phân cụm phù hợp Vì vậy phân cụm dữ liệu vẫn đang là một vấn đề khó và mở, vì phải giải quyết nhiều vấn đề cơ bản một cách trọn vẹn và phù hợp với nhiều dạng dữ liệu khác nhau, đặc biệt là đối với dữ liệu hỗn hợp đang ngày càng tăng trong các hệ quản trị dữ liệu và đây cũng là một trong những thách thức lớn trong lĩnh vực khai phá dữ liệu 1.2 Ứng dụng. .. của thuật toán phân cụm phân hoạch tối ưu cục bộ là sử dụng chiến lược ăn tham để tìm kiếm nghiệm Lớp các thuật toán phân cụm phân hoạch bao gồm các thuật toán đề xuất đầu tiên trong lĩnh vực khai phá dữ liệu (KPDL) cũng là các thuật toán được áp dụng nhiều trong thực tế như K-mean, PAM, CLARA, CLARANS Sau đây là một thuật toán kinh điển được kế thừa sử dụng rộng rãi: * Thuật toán K-mean Thuật toán phân . của phân cụm dữ liệu 1.2. Ứng dụng của phân cụm dữ liệu 1.3. Nhận xét 1.4. Một số phương pháp phân cụm dữ liệu Chƣơng 2: Phân cụm dữ liệu sử dụng giải thuật di truyền và mạng nơ ron 2.1. Giải. PHÂN CỤM DỮ LIỆU 3 1.1. Khái niệm và mục đích của phân cụm dữ liệu 3 1.2. Ứng dụng của phân cụm dữ liệu 4 1.3. Một số phương pháp phân cụm dữ liệu 5 1.3.1. Phân cụm phân hoạch 5 1.3.2. Phân. DỮ LIỆU SỬ DỤNG GIẢI THUẬT DI TRUYỀN VÀ MẠNG NƠ RON 16 2.1. Giải thuật di truyền 16 2.1.1. Sơ đồ thực hiện giải thuật di truyền 17 2.1.2. Các quá trình chính trong giải thuật di truyền 19

Ngày đăng: 15/11/2014, 22:37

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan