Sử dụng mạng Noron cho phân cụm dữ liệu và ứng dụng

77 11 0
  • Loading ...
1/77 trang

Thông tin tài liệu

Ngày đăng: 23/11/2016, 21:05

1 LỜI CẢM ƠN Trước tiên em gửi lời cảm ơn chân thành sâu sắc tới thầy cô giáo Viện Công nghệ thông tin Việt Nam, thầy cô trường Đại học sư phạm Hà Nội tận tình truyền đạt, giảng dạy cho em kiến thức, kinh nghiện quý báu suốt thời gian qua Đặc biệt em xin gửi lời cảm ơn đến PGS.TS Lê Bá Dũng tận tình giúp đỡ, trực tiếp bảo em suốt thời gian làm luận văn Trong thời gian làm việc với Thầy, em tiếp thu thên nhiều kiến thức bổ ích mà học tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc, hiệu Đây điều cần thiết cho em trình học tập công tác Sau xin gửi lời cảm ơn chân thành tới gia đình, bạn bè động viên, đóng góp ý kiến giúp đỡ trình học tập, nghiên cứu hoàn thành đề tài Hà Nội, tháng 11 năm 2013 Học viên Nguyễn Thị Hồng Thu LỜI CAM ĐOAN Tôi xin cam đoan số liệu kết nghiên cứu luận văn trung thực không trùng lặp với đề tài khác Tôi xin cam đoan giúp đỡ cho việc thực luận văn cảm ơn thông tin trích dẫn luận văn rõ nguồn gốc Học viên Nguyễn Thị Hồng Thu MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT DANH MỤC CÁC HÌNH MINH HỌA MỞ ĐẦU CHƯƠNG I: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 10 1.1 Khái niệm mục tiêu phân cụm liệu 10 1.1.1 Khái niệm phân cụm liệu 10 1.1.2 Mục tiêu phân cụm liệu 10 1.1.3 Các yêu cầu kỹ thuật phân cụm liệu 11 1.1.4 Các kiểu liệu thuộc tính phân cụm 13 1.2 Một số thuật toán phân cụm liệu 15 1.2.1 Các thuật toán phân cụm phân hoạch 15 1.2.2 Các thuật toán phân cụm phân cấp 22 1.2.3.Các thuật toán phân cụm dựa mật độ 23 1.2.4 Phân cụm dựa lưới 25 1.2.5.Phân cụm dựa mô hình 26 1.2.6 Phân cụm có liệu ràng buộc 26 1.3 Phân cụm cụm mờ 28 1.3.1 Tổng quan phân cụm mờ 28 1.3.2 Các thuật toán phân cụm mờ 29 CHƯƠNG II: MẠNG NƠRON KOHONEN VÀ ỨNG DỤNG CHO PHÂN CỤM DỮ LIỆU 33 2.1 Giới thiệu chung mạng nơron 33 2.1.1 Mô hình Nơron sinh học 33 2.1.2 Mô hình Nơron nhân tạo 35 2.1.3 Mô hình Mạng Nơron nhân tạo 37 2.1.4 Đặc trưng Mạng Nơron 41 2.1.5 Phân loại mạng 42 2.1.6 Ứng dụng mạng nơron nhân tạo 46 2.1.7 Kết luận 47 2.2 Mạng Nơron nhân tạo Kohonen (SOM- Self Organized Maps) 47 2.2.1 Tổng quan SOM 48 2.2.2 Mô hình SOM 49 2.2.3 Thuật toán mạng SOM 50 2.2.4 Một vài biến thể giải thuật SOM 57 2.2.5 Một số ứng dụng SOM 59 CHƯƠNG III: GIẢI BÀI TOÁN PHÂN CỤM ẢNH ỨNG DỤNG MẠNG KOHONEN 60 3.1 Bài toán phân cụm ảnh 60 3.1.1 Giới thiệu 60 3.1.2 SOM cho phân cụm ảnh 61 Thiết kế mạng 61 Thuật toán học mạng 62 3.2 Giới thiệu môi trường cài đặt 64 3.3 Cài đặt sử dụng 64 3.3.1 Cài đặt 64 3.3.2 Sử dụng 69 3.4 So sánh SOM với phương pháp phân cụm khác 76 3.4.1 Thuật toán K-means 73 3.4.2 Phân cụm mờ 73 3.4.3 Mạng nơ ron Kohonen (SOM) 73 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 75 TÀI LIỆU THAM KHẢO 77 DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT Cơ sở liệu Phân cụm liệu Khai phá liệu Phần tử nơron chiến thắng MultiLayer Perception Bidirectional Associative Memory Self Organizing Map Vector Quantization Learning Vector Quantization Minimal Spanning Tree CSDL PCDL KPDL BNU MLP BAM SOM VQ LVQ MST DANH MỤC CÁC HÌNH MINH HỌA Hình Hình 1.1 Hình 1.2 Hình 1.3 Hình 1.4 Hình 1.5 Hình 1.6 Hình 1.7 Hình 1.8 Hình 2.1 Hình 2.2 Hình 2.3 Hình 2.4 Hình 2.5 Hình 2.6 Hình 2.7 Hình 2.8 Hình 2.9 Hình 2.10 Nội dung Biểu đồ dạng liệu Biểu đồ quy mô liệu Thiết lập để xác định danh giới cụm ban đầu Tính toán trọng tâm cụm Khái quát thuật toán Cure Các cụm liệu khám phá thuật toán Cure Hình dạng cụm tạo thuật toán DBSCAN Các cách mà cụm đưa Mô hình nơron sinh học Mô hình nơron nhân tạo Mô hình mạng nơron lớp Mô hình học giám sát Mô hình học không giám sát Mô hình mạng perceptron lớp Mô hình Mạng perceptron nhiều lớp Mô hình mạng hồi quy lớp Cấu trúc mạng Hopfield Cấu trúc mạng BAM Hình 2.11 Hình 2.12 Hình 2.13 Hình 2.14 Hình 2.15 Hình 3.1 Hình 3.2 Hình 3.3 Hình 3.4 Hình 3.5 Hình 3.6 Hình 3.7 Hình 3.8 Hình 3.9 Hình 3.10 Mô hình Mạng Nơron Kohonen Mô hình Mạng Nơron Kohonen thông thường Phần tử nơron chiến thắng BMU Các vùng lân cận U- matrix biểu diễn cho SOM Giải nén file ‘PHANCUMANH.rar’ mở file ‘setup_PHANCUMANH’ Sau vào Debug cài đặt file ‘setup.exe’ Bắt đầu trình cài đặt Close để hòa tất trình cài đặt Chương trình cài đặt xong file chạy chương trình nằm hình destop ‘WindowsFormsApplication1.exe’ Giao diện chương trình Nhấn nút chọn ảnh để phân cụm ảnh chọn Kết phân cụm ảnh vừa chọn Phân cụm ảnh ngẫu nhiên với Ngang 20, dọc 30 ngưỡng 500 Ngẫu nhiên với ngang 70, dọc 30, ngưỡng 50 MỞ ĐẦU Lý chọn đề tài Trong bối cảnh ứng dụng công nghệ thông tin ngày tăng, liệu phát sinh từ hoạt động quản lý, kinh doanh, tổ chức ngày nhiều Các công ty, tổ chức cần phải nhanh chóng đưa định cách xử lý nhiều yếu tố với quy mô tính phức tạp ngày tăng Để có định xác Ngoài việc dựa yếu tố liên quan trực tiếp đến vấn đề, người định dựa kinh nghiệm thân thông tin có từ hoạt động trước Dẫn đến nhu cầu thực tế cần có phương pháp phân cụm, xử lí liệu thu thập để làm định Phân cụm liệu (PCDL) trình nhóm tập đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc cụm tương đồng đối tượng thuộc cụm khác không tương đồng Phân cụm liệu ví dụ phương pháp học thầy Không giống phân lớp liệu, phân cụm liệu không đòi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học quan sát, phân lớp liệu học ví dụ… Hiện nay, phương pháp phân cụm phát triển [7] áp dụng nhiều lĩnh vực khác có số nhánh nghiên cứu phát triển sở phương pháp như: Phân cụm thống kê: Dựa khái niệm phân tích hệ thống, nhánh nghiên cứu sử dụng độ đo tương tự để phân hoạch đối tượng, chúng áp dụng cho liệu có thuộc tính số Phân cụm khái niệm: Kỹ thuật phát triển áp dụng cho liệu hạng mục, chúng phân cụm đối tượng theo khái niệm mà chúng xử lí Phân cụm mờ: Sử đụng kỹ thuật mờ để PCDL Các thuật toán thuộc loại lược đồ phân cụm thích hợp với tất hoạt động đời sống hàng ngày, chúng xử liệu không chắn [1], [3] Mạng noron cho phân cụm [1], [4] Một số trở ngại gặp phải ứng dụng mạng nơ-ron cho phân cụm cần phải có hỗ trợ đầy đủ kiến thức lý thuyết phương pháp ứng dụng Trong nghiên cứu mạng nơ-ron nhân tạo thường ứng dụng vào toán cụ thể, kết nghiên cứu khó có khả kế thừa, phát triển để ứng dụng rộng rãi cho toán tương tự Vì việc nghiên cứu chuyên sâu, đầy đủ mang tính ứng dụng thực tiễn cao cần thiết Với lí em chọn đề tài “Sử dụng mạng noron cho phân cụm liệu ứng dụng” Mục đích nghiên cứu Tìm hiểu đặc trưng mạng nơ-ron nhân tạo, khả nguyên tắc để ứng dụng thành công mạng nơ-ron nhân tạo thực tế Tìm hiểu phân cụm liệu Nghiên cứu ứng dụng mạng nơ-ron nhân tạo vào lớp toán phân cụm liệu Nhiệm vụ nghiên cứu Tìm hiểu nghiên cứu mạng noron nhân tạo phân cụm liệu Xây dựng phần mềm cho phép người sử dụng mô ứng dụng nhanh chóng mạng noron nhân tạo để giải toán thuộc lớp toán phân cụm liệu Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu lớp toán phân cụm liệu, sử dụng mạng nơron nhân tạo Phạm vi nghiên cứu lý thuyết ứng dụng mạng nơ-ron nhân tạo cho toán phân cụm liệu Ứng dụng mạng noron kohonen phân cụm liệu Phương pháp nghiên cứu Phương pháp nghiên cứu tài liệu: nghiên cứu lý thuyết ứng dụng mạng nơron nhân tạo phân cụm liệu Phương pháp thực nghiệm: sâu nghiên cứu ứng dụng mạng nơ-ron nhân tạo bước chuẩn bị liệu, bao gồm kỹ thuật cho việc trích chọn đặc trưng, làm liệu, tiền xử lý, kiến trúc mạng, cách huấn luyện kiểm tra mạng Thực phân tích ứng dụng mạng nơ-ron vào số toán lớp toán Từ phân tích toán, tác giả xây dựng thành quy trình, dẫn mang tính ứng dụng thực tiễn cao ứng dụng nhanh chóng cho toán tương tự lớp toán Xây dựng phần mềm mô mạng nơ-ron: phân tích, thiết kế phần mềm hướng đối tượng với tính cho phép người sử dụng thực giải toán thực tế mạng nơ-ron nhân tạo Lập trình phần mềm, phần mềm có giao diện trực quan chạy hệ điều hành Windows Giả thuyết khoa học Đề tài làm rõ khả ứng dụng mạng nơ-ron phân cụm liệu Cách để xác định toán thích hợp để giải mạng nơ-ron Xây dựng thành quy trình với bước thực cụ thể cho việc giải toán phân cụm liệu mạng nơ-ron 10 CHƯƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Khái niệm mục tiêu phân cụm liệu 1.1.1 Khái niệm phân cụm liệu Phân cụm liệu trình nhóm tập đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc cụm tương đồng, đối tượng thuộc cụm khác không tương đồng Phân cụm liệu kỹ thuật Khai phá liệu nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn quan trọng tập liệu lớn từ cung cấp thông tin tri thức hữu ích cho việc định Không giống phân lớp liệu, phân cụm liệu không đòi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học quan sát phân lớp liệu học ví dụ … Ngoài ra, phân cụm liệu sử dụng bước tiền xử lý cho thuật toán khai phá liệu khác phân loại mô tả đặc điểm, có tác dụng việc phát cụm Phân cụm liệu vấn đề mở khó người ta cần phải giải nhiều vấn đề liệu để phù hợp với nhiều dạng liệu khác liệu chứa nhiễu trình thu thập thiếu xác, không tường minh đối tượng liệu khuyết thiếu thông tin môt số thuộc tính… liệu hỗn hợp ngày tăng hệ quản trị liệu [7] 1.1.2 Mục tiêu phân cụm liệu Mục tiêu phân cụm liệu xác định chất nhóm tập liệu chưa có nhãn Nó tiêu chuẩn tuyệt đối “tốt” mà 63 Duyệt tất nút tính khoảng cách Euclide (Dist) vector trọng số (w) nút vector nhập hành (v) Nút có vector trọng số gần với giá trị vector nhập chọn BMU Dist = n å (v - w ) i =0 i i (4.1) c) Xác định bán kính lân cận cập nhật trọng số nơron lân cận BMU: Trọng số phần tử lân cận xác định bước bao gồm BMU điều chỉnh để chúng có giá trị gần giống với giá trị vector nhập Phần tử gần BMU trọng số dễ bị thay đổi nhiều Các vector trọng số tính theo công thức: W (t +1) = W (t) + Θ(t)L(t)(V (t) −W (t)) (4.2) Θ(t): Hàm nội suy theo thời gian học, thể tác động khoảng cách trình học tính theo công thức sau: (4.3) dist: Khoảng cách từ nơron đến nơron chiến thắng t: Bước lặp L: Tốc độ học (sẽ giảm dần theo số lần lặp) - Biểu thức cho thấy trọng số nút sau hiệu chỉnh giá trị trọng số cũ W cộng thêm phần giá trị khác biệt trọng số W vector nhập V theo hệ số tốc độ học - Hàm nội suy tốc độ học L (t) cho bước lặp tính theo công thức sau: (4.4) 64 L0: giá trị khởi tạo ban đầu tốc độ học - Càng tiến gần điểm tốc độ học giống với hàm mũ nội suy phép co Tốc độ học nội suy dần theo tốc độ học giá trị hàm tiến dần không số lần lặp đạt tới bước cuối d) Điều kiện dừng: Có thể dựa số lần lặp hay số mẫu học hay độ cân mạng (các trọng số thay đổi ngưỡng định) [1], [3], [4] 3.2 Giới thiệu môi trường cài đặt Phần cứng: Một máy tính Pentium V trở lên Card đồ họa 512MB Ổ cứng 1GB Phần mềm: Chương trình cài đặt ngôn ngữ lập trình C# Microsoft 3.3 Cài đặt sử dụng 3.3.1 Cài đặt Hình 3.1 Giải nén file ‘PHANCUMANH.rar’ mở file ‘setup_PHANCUMANH’ 65 66 Hình 3.2 Sau vào Debug cài đặt file ‘setup.exe’ 67 Hình 3.3 Bắt đầu trình cài đặt Hình 3.4.Close để hòa tất trình cài đặt 68 Hình 3.5.Chương trình cài đặt xong file chạy chương trình nằm hình destop ‘WindowsFormsApplication1.exe’ 69 3.3.2 Sử dụng Hình 3.6 Giao diện chương trình 70 Hình 3.7.Nhấn nút chọn ảnh để phân cụm ảnh chọn Hình 3.8 Kết phân cụm ảnh vừa chọn 71 Hình 3.9 Phân cụm ảnh ngẫu nhiên với Ngang 20, dọc 30 ngưỡng 500 72 Hình 3.10 Ngẫu nhiên với ngang 70, dọc 30, ngưỡng 50 73 3.4 So sánh SOM với phương pháp phân cụm khác 3.4.1 Thuật toán K-means Ưu điểm: Độ phức tạp nhỏ: O(nkd.t), với d số chiều, t số vòng lặp K-means phân tích phân cụm đơn giản nên áp dụng tập liệu lớn Nhược điểm: K-means khả tìm cụm không lồi cụm có hình dạng phức tạp, áp dụng với liệu số Nó không khắc phục nhiễu phần tử ngoại lai Chất lượng phân cụm phụ thuộc vào nhiều tham số đầu vào như: số cụm k k trọng tâm khởi tạo ban đầu Số lượng tham số người dùng nhập, nên đầu vào khác kết cụm khác 3.4.2 Phân cụm mờ Ưu điểm: Áp dụng thành công giải số lớn toán Phân cụm liệu nhận dạng mẫu, xử lý ảnh, y học,… Nhược điểm: Lớn thuật toán FCM nhạy cảm với nhiễu phần tử ngoại lai liệu, nghĩa trung tâm cụm nằm xa so với trung tâm thực cụm Do cụm liệu khám phá lệch so với cụm thực tế.Việc khử nhiễu phần tử ngoại lai vấn đề cần phải giải 3.4.3 Mạng noron Kohonen (SOM) Ưu điểm: Tự tổ chức mạng nơron chủ đề hút mạng nơron Một mạng nơron luyện để tìm quy 74 luật tương quan, giá trị nhập vào dự đoán kết Các nơron mạng thông qua trình luyện cạnh tranh để nhận nhóm đối tượng đầu vào tương đương Mục đích việc luyện mạng nơron Kohonen gom cụm vector đầu vào loại Các thuộc tính nhằm phân biệt SOM với mạng nơron khác sử dụng ký số thay cho ký tự không tham số, học không giám sát Phương pháp dùng số tự nhiên cho phép SOM xem xét, xử lý liệu số tự nhiên thống kê nhằm để biểu diễn mối quan hệ chọn lọc Bởi SOM không yêu cầu học có giám sát dạng không tham số tìm cấu trúc không mong muốn từ liệu cho Nhược điểm: Khó khăn thứ việc phát số lượng biên cụm theo nội dung ảnh: áp dụng thuật toán tích tụ cần biết trước số cụm cần hình thành; áp dụng thuật toán loang thường thất bại khó xác định ranh giới xác cụm điểm màu ảnh có biến thiên nhỏ Khó khăn thứ hai tốc độ hội tụ giải thuật chậm khối lượng tính toán lớn Xét mạng SOM với kích thước 20x30=600 nơron, độ phân giải ảnh đầu vào tính đơn vị megapixel tức có tới hàng triệu điểm ảnh Như riêng trình huấn luyện, việc tìm BMU phải duyệt qua khoảng 600 triệu lần nơron Ngoài ra, thuật toán để hình thành cụm đòi hỏi số lần lặp tương đối lớn Để khắc phục hai hạn chế cần giải pháp hình thành cụm phù hợp tăng tốc độ giải thuật 75 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Mạng nơron lĩnh vực nghiên cứu tương đối rộng đòi hỏi nhiều công sức nỗ lực trình nghiên cứu Bên cạnh việc cài đặt ứng dụng mạng nơron gặp nhiều khó khăn độ phức tạp tương đối cao giải thuật Vì lí khuôn khổ đồ án hướng tới mạng nơron dùng để phân cụm liệu ảnh mạng SOM để nghiên cứu phát triển Thực tế chứng minh mạng SOM có nhiều ứng dụng việc nghiên cứu khai thác mạng đem lại nhiều kết thực tiễn Luận văn thực kết sau: - Giới thiệu tổng quan phương pháp phân cụm liệu - Trình bày cách tổng quát mô hình mạng nơron ứng dụng mạng nơron khai phá liệu Trình bày cách hệ thống giải pháp học mạng nơron không giám sát có giám sát - Nghiên cứu, phân tích việc sử dụng thuật toán SOM giải toán phân cụm màu ảnh theo mô hình mạng nơron - Xây dựng chương trình phân cụm ảnh với ảnh đầu vào có kích thước 40x40=1600 nơron Mỗi nơron có chứa vector trọng số tương ứng với giá trị RGB Trọng số nơron khởi tạo ngẫu nhiên Sau thực phân cụm sử dụng thuật toán SOM Hạn chế Phân cụm liệu ứng dụng mạng nơron vào phân cụm liệu hướng nghiên cứu cần thiết quan trọng Tuy nhiên mảng rộng, bao hàm nhiều phương pháp, kỹ thuật hình thành nhiều nhóm khác Trong trình nghiên cứu, thực luận văn cố gắng tập trung nghiên cứu tham khảo nhiều tài liệu, báo, tạp chí khoa học 76 nước, trình độ có nhiều giới hạn tránh khỏi thiếu sót hạn chế Em mong bảo đóng góp nhiều thầy, cô giáo, đồng nghiệp, nhà khoa học… Hướng phát triển - Tiếp tục nghiên cứu thêm lý thuyết phân cụm liệu, mạng nơron - Xây dựng, phát triển thêm kỹ thuật, ứng dụng Phân cụm liệu, ứng dụng mạng nơron phân cụm liệu nói riêng lĩnh vực khác 77 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Lê Bá Dũng, Bài giảng cao học Mạng nơ–ron ứng dụng, ĐHCNTT TT, Đại Học Thái Nguyên [2] Đỗ Phúc, Giáo trình khai thác liệu, NXB Đại học quốc gia TP HCM, 2005 [3] Bùi Công Cường Nguyễn Doãn Phước, (2006), Hệ mờ, mạng nơron ứng dụng, NXB Khoa học Kỹ thuật [4] Nguyễn Đình Thúc, (2000), Trí tuệ nhân tạo – Mạng nơron – Phương pháp ứng dụng, NXB Giáo dục Tiếng Anh [5] A.K Jain, R.C Dubes, (1988), Algorithms for clustering data, Ptentice Hall, Englewood Cliffs, NJ [6] W.Pedrycz, (1990) Algorithms of fuzzy clustering with partial supervision, Pattern Recognition, vol 23, pp.121-146 [7] J Han, M Kamber, (2001), Data Mining Concepts and Techniques, Morgan Kaufmann Publishers
- Xem thêm -

Xem thêm: Sử dụng mạng Noron cho phân cụm dữ liệu và ứng dụng, Sử dụng mạng Noron cho phân cụm dữ liệu và ứng dụng, Sử dụng mạng Noron cho phân cụm dữ liệu và ứng dụng

Gợi ý tài liệu liên quan cho bạn

Nạp tiền Tải lên
Đăng ký
Đăng nhập