(Đồ án tốt nghiệp) Tìm hiểu phương pháp phân cụm cứng và ứng dụng trong phân đoạn ảnh

63 1.3K 0
(Đồ án tốt nghiệp) Tìm hiểu phương pháp phân cụm cứng và ứng dụng trong phân đoạn ảnh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng LỜI CẢM ƠN Trong suốt thời gian học tập, hoàn thành đồ án tốt nghiệp em may mắn thầy cô bảo, dìu dắt gia đình, bạn bè quan tâm, động viên Trước tiên em xin bày tỏ lòng biết ơn chân thành tới PGS TS Ngô Quốc Tạo, người định hướng nhiệt tình bảo, hướng dẫn em suốt trình thực đồ án tốt nghiệp Em xin gửi lời cảm ơn tới thầy cô ngành hệ thống thông tin nói riêng trường đại học Dân Lập Hải Phòng nói chung dạy bảo, cung cấp kiến thức quý báu cho em suốt trình nghiên cứu học tập trường Em xin gửi lời cảm ơn tới gia đình, bạn bè người cổ vũ, quan tâm giúp đỡ em suốt thời gian học tập thời gian làm đồ án tốt nghiệp Do thời gian kiến thức có hạn nên không tránh khỏi thiếu sót định Em mong nhận đóng góp quý báu thầy cô bạn! Em xin chân thành cảm ơn! Hải Phòng, tháng 11 năm 2013 Sinh viên Bùi Trung Thành Bùi Trung Thành - CT1301 Page Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng MỤC LỤC LỜI CẢM ƠN LỜI NÓI ĐẦU CHƢƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khám phá tri thức 1.2 Khai phá liệu khái niệm liên quan 1.2.1 Khái niệm khai phá liệu 1.2.2 Các bước trình khai phá liệu 10 1.2.3 Các thành phần khai phá liệu 11 1.2.4 Các hướng tiếp cận kỹ thuật áp dụng khai phá liệu 12 1.2.5 Ứng dụng khai phá liệu 13 CHƢƠNG IIPHÂN CỤM DỮ LIỆU VÀ CÁCTHUẬT TOÁN PHÂN CỤM DỮ LIỆU 14 2.1 Phân cụm liệu 14 2.1.1 Định nghĩa phân cụm liệu 14 2.1.2 Một số ví dụ phân cụm liệu 15 2.2 Một số kiểu liệu phân cụm 17 2.2.1 Kiểu liệu dựa kích thước miền 18 2.2.2 Kiểu liệu dựa hệ đo 18 2.3 Phép đo độ tương tự khoảng cách kiểu liệu 20 2.3.1 Khái niệm tương tự phi tương tự 20 2.3.2 Độ đo khoảng cách 21 2.4 Các hướng tiếp cận toán phân cụm liệu 24 2.4.1 Phương pháp phân cụm phân hoạch 24 2.4.2 Phương pháp phân cụm phân cấp 24 2.4.3 Phương pháp phân cụm dựa mật độ 26 2.4.4 Phương pháp phân cụm dựa lưới 29 2.4.5 Phương pháp phân cụm dựa mô hình 30 2.4.6 Phương pháp phân cụm dựa liệu ràng buộc 30 2.5 Một số thuật toán phân cụm liệu 30 2.5.1 Các thuật toán phân cụm phân hoạch 30 2.5.2 Thuật toán phân cụm phân cấp 32 2.5.3 Thuật toán COP – Kmeans 33 Bùi Trung Thành - CT1301 Page Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng CHƢƠNG III: ỨNG DỤNG THUẬT TOÁN K - MEANS TRONG PHÂN ĐOẠN ẢNH 35 3.1 Tổng quan phân vùng ảnh 35 3.2 Các hướng tiếp cận phân đoạn ảnh 36 3.2.1 Các phương pháp dựa không gian đặc trưng 36 3.2.2 Các phương pháp dựa không gian ảnh 37 3.2.3 Các phương pháp dựa mô hình vật lý 38 3.3 Một số phương pháp phân đoạn cụ thể 41 3.3.1 Phương pháp phân đoạn yếu B.G Prasad 41 3.3.2 Phương pháp phân đoạn dựa ngưỡng cục thích nghi 46 3.3.3 Phân đoạn sơ khởi Watershed 47 3.3.4 Trộn vùng 50 3.4 Thuật toán k-means cho phân đoạn ảnh 53 3.4.1 Mô tả toán 54 3.4.2 Các bước thực thuật toán 54 3.4.3 Kết thực nghiệm 58 3.4.4 Ưu, nhược điểm thuật toán k – means 59 KẾT LUẬN 61 TÀI LIỆU THAM KHẢO 62 Bùi Trung Thành - CT1301 Page Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng DANH MỤC HÌNH Hình 1: Quy trình phát tri thức Hình 2: Các bước khai phá liệu 10 Hình 3: Hai phương pháp tiếp cận phân cấp 25 Hình 4: p điểm hạt nhân với bán kính Eps 1cm ngưỡng trù mật Pts Khoảng cách dùng khoảng cách Euclide không gian hình học hai chiều, q điểm liên thông mật độ trực tiếp từ p 27 Hình 5: q điểm liên thông mật độ từ p 27 Hình 6: p q hai điểm có kết nối mật độ 28 Hình 7: Những cụm liệu khám phá CURE 32 Hình 8: ví dụ phân đoạn ảnh phương pháp phân đoạn yếu 42 Hình 9:(a) Ảnh gốc (b) Kết phân đoạn ngưỡng toàn cục 100 52 Hình 10: (a) Ảnh gốc (b) Sau áp dụng giải thuật watershed 53 Hình 11: Vùng sáng elip hiển thị khác khác 53 Hình 12: Thuật toán k - means 56 Hình 13: Tìm kiếm top x color 57 Hình 14: Giao diện chương trình 59 Hình 15: Chọn ảnh đầu vào 59 Hình 16:Kết trình phân cụm ảnh 59 Bùi Trung Thành - CT1301 Page Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng LỜI NÓI ĐẦU Trong năm gần phát triển mạnh mẽ CNTT làm cho khả thuthập lưu trữ thông tin hệ thống thông tin tăng lên nhanh chóng Bên cạnh đó, việc tin học hóa cách ạt làm cho hoạt động sản xuất kinh doanh nhiều lĩnh vực khác tạo lượng liệu khổng lồ Hàng triệu sở liệu (CSDL) sử dụng cho hoạt động sản xuất, kinh doanh….Trong đó, có nhiều CSDL lên tới hàng nghìn Gigabyte, chí lên mức Terabyte Sự bùng nổ dẫn tới yêu cầu cấp thiết, cần có công cụ mới, chuyển đổi lượng liệu khổng lồ thành tri thức có ích Từ đó, khái niệm “khai phá liệu” đời, trở thành lĩnh vực thời CNTT giới nói chung Viêt Nam nói riêng Khai phá liệu ứng dụng rộng rãi nhiều lĩnh vực đời sống: Marketing, ngân hàng, bảo hiểm, y tế, khoa học, internet… Các kỹ thuật khai phá liệu chia thành nhóm chính: kỹ thuật khai phá liệu mô tả kỹ thuật khai phá liệu dự đoán Bài báo cáo đồ án tốt nghiệp em xin trình bày vấn đề “Phân cụm cứng”, vấn đề khai phá liệu Bài báo cáo trình bày chương: - Chương 1: Trình bày tổng quan Khai phá liệu; Phân cụm liệu;Ứng dụng đời sống - Chương 2: Phương pháp phân cụm cứng phân đoạn ảnh - Chương 3: Xây dựng chương trình demo Kết luận: Tóm tắt vấn đề tìm hiểu bài, vấn đề liên quan đưa hướng phát triển tương lai Bùi Trung Thành - CT1301 Page Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng TÓM TẮT ĐỀ TÀI Bài báo cáo đồ án tốt nghiệp em, nghiên cứu “ phương pháp phân cụm cứng phân đoạn ảnh” Nội dung nghiên cứu gồm chương sau: CHƢƠNG I: Tổng quan khai phá liệu Chương nghiên cứu tổng quan khai phá liệu khám phá tri thức Quy trình khám phá tri thức; khai phá liệu, nhiệm vụ khai phá liệu, cách hướng tiếp cận kĩ thuật áp dụng khai phá liệu, ứng dụng khai phá liệu thực tế CHƢƠNG II: Phân cụm liệu thuật tóan phân cụm liệu Chương nghiên cứu phân cụm liệu; số kiểu liệu; độ đo khoảng cách; hướng tiếp cận phân cụm liệu số thuật tóan phân cụm liệu CHƢƠNG III: Ứng dụng thuật tóan k-means phân đoạn ảnh Chương nghiên cứu tổng quan phân đoạn ảnh; phương pháp phân đoạn ảnh; số thuật tóan phân đoạn ảnh; nghiên cứu thuật tóan k-means phân đoạn ảnh giao diện chương trình cài đặt mô thuật toán kmeans phân đoạn ảnh Bùi Trung Thành - CT1301 Page Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng CHƢƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khám phá tri thức Nếu cho điện từ sóng điện từ chất công nghệ điện từ truyền thống liệu, thông tin tri thức tiêu điểm lĩnh vực nghiên cứu ứng dụng phát tri thức khai phá liệu Thông thường coi liệu dãy bit, số kí hiệu, “đối tượng” với ý nghĩa gửi cho chương trình dạng định Chúng ta sử dụng bit để đo lường thông tin xem liệu lọc bỏ dưa thừa, rút gọn tới mức tối thiểu để đặc trưng cách cho liệu Chúng ta xem tri thức thông tin tích hợp bao gồm thông tin mối quan hệ Các mối quan hệ hiểu ra, phát học.Nói cách khác, tri thức coi liệu có độ trừu tượng tổ chức cao Phát tri thức sở liệu quy trình nhận biết mẫu mô hình liệu với tính năng: hợp thức, mới, khả ích, hiểu Còn khai phá liệu bước quy trình khám phá tri thức, gồm thuật toán khai phá liệu chuyên dùng số quy định hiệu tính toán chấp nhận để tìm mẫu mô hình liệu.Nói cách khác, mục đích phát tri thức khai phá liệu tìm mẫu mô hình tồn sở liệu bị che khuất hàng núi liệu Bùi Trung Thành - CT1301 Page Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng Quy trình khám phá tri thức sau: Hình thành định nghĩa toán Thu thập tiền xử lý liệu Khai thác liệu rút tri thức phân tích kiểm định kết Sử dụng tri thức phát Hình 1: Quy trình phát tri thức - Bƣớc 1: Tìm hiểu lĩnh vực ứng dụng hình thành toán, bước định cho việc rút tri thức hữu ích cho phép chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu - Bƣớc 2: Thu thập xử lý thô, gọi tiền xử lý liệu để loại bỏ nhiễu, xử lý việc thiếu liệu, biến đổi liệu rút gọn liệu cần thiết, bước thường chiếm thời gian toàn quy trình khám phá tri thức - Bƣớc 3: Là khai phá liệu hay nói cách khác trích mẫu mô hình ẩn liệu - Bƣớc 4: Hiểu tri thức tìm đặc biệt làm sáng tỏ mô tả dự đoán Các bước lặp lặp lại số lần, kết thu lấy trung bình tất lần thực Bùi Trung Thành - CT1301 Page Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng 1.2 Khai phá liệu khái niệm liên quan Khai phá liệu quy trình phân tích thiết kế để thăm dò lượng cực lớn liệu nhằm phát mẫu thích hợp mối quan hệ mang tính hệ thống biến sau hợp thức hóa kết tìm cách áp dụng mẫu phát cho tập liệu Quy trình gồm giai đoạn bản: thăm dò, xây dựng mô hình định nghĩa mẫu, hợp thức, kiểm chứng 1.2.1 Khái niệm khai phá liệu Khoảng thập kỷ trở lại đây, lượng thông tin lưu trữ thiết bị điện tử không nhừng tăng lên Sự tích lũy liệu xảy với tốc độ bùng nổ.Câu hỏi đặt khai thác từ “núi” liệu khổng lồ ấy? Và từ khái niệm “khai phá liệu ” đời Khai phá liệu dùng để mô tả trình phát tri thức CSDL Quá trình kết xuất tri thức tiềm ẩn từ liệu giúp cho việc dự báo kinh doanh, hoạt động sản xuất, …Khai phá liệu làm giảm chi phí thời gian so với phương pháp truyền thống trước kia.Vậy “khai phá liệu gì”? Khai phá liệu trình trợ giúp định, khám phá mẫu thông tin có ích, chưa biết bất ngờ CSDL lớn Khai phá liệu bước quan trọng mang tính định trình KDD Bùi Trung Thành - CT1301 Page Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng 1.2.2 Các bƣớc trình khai phá liệu Quá trình khai phá liệu gồm bước sau: Xác định nhiệm vụ Xác định liệu liên quan Thu thập tiền xử lý liệu Thống kê tóm tắt Dữ liệu trực tiếp Giải thuật KPD L Mẫu Hình 2: Các bước khai phá liệu - Xác định nhiệm vụ: Xác định xác vấn đề cần giải - Xác định liệu liên quan dùng để xây dựng giải pháp giải nhiệm vụ toán - Thu thập liệu có liên quan xử lý chúng thành dạng cho giải thuật khai phá liệu hiểu - Chọn thuật toán khai phá liệu thích hợp thực việc khai phá nhằm tìm mẫu có ý nghĩa dạng biểu diễn tương ứng với ý nghĩa Đặc điểm mẫu phải (ít hệ thống đó) Độ đuợc đo tương ứng với độ thay đổi liệu (bằng cách so sánh giá trị với giá trị trước giá trị mong muốn), tri thức (mối liên hệ phương pháp tìm phương pháp cũ nào) Thường độ mẫu đánh giá hàm logic hàm đo độ mới, độ bất ngờ mẫu Ngoài ra, mẫu phải có khả sử dụng tiềm tàng Các mẫu sau xử lý diển giải phải dẫn đến hành động có ích đánh giá hàm lợi ích Ví dụ liệu khoản vay, hàm lợi ích đánh giá khả tăng lợi nhuận từ khoản Bùi Trung Thành - CT1301 Page 10 Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng nét Đồng thời, áp dụng giải thuật watershed ảnh xám ta hình 2d, chứa vô số vùng Như áp dụng giải thuật watershed vào ảnh IG, ta nhận ảnh kết gồm n vùng không trùng lắp Do vùng trộn giai m đoạn trộn nên đặt đánh dấu chúng kí hiệu Ri , I = i m 1,…,n, mi = 1,…,Mi, với n số lượng vùng Mi số lần trộn Ri i trình trộn Ri , i=1,…,n tập vùng khởi tạo, hay nói cách khác chúng kết giải thuật watershed trước trình trộn lặp giai đoạn hai bắt đầu (a) Ảnh gốc ban đầu (b) Ảnh xám (c) Ảnh xám gradient sau áp dụng giải thuật tìm cạnh Canny (d) Ảnh phân đoạn nhận từ việc áp dụng giải thuật watershed Bùi Trung Thành - CT1301 Page 49 Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng 3.3.4 Trộn vùng - Đánh giá khác biệt vùng Để xác định trình tự trộn vùng, ta xác định hàm thể khác biệt m m Rm Rm hai vùng lân cận Ri j , kí hiệu f( Ri , j ) Hàm thể khác j i i j biệt dựa vào hai thành phần: màu sắc cạnh Đối với thành phần màu, giải thuật sử dụng giá trị Huetrong không gian màu HSV trị bị ảnh hưởng thay đổi nguồn chiếu sáng, ví dụ hình dạng bóng Cụ thể, lấy trị trung bình thành m phần Hue vùng Ri , kí hiệu i h ( Rimi ) Thành phần thể khác biệt lại cạnh biểu diễn cường độ gradient Cường độ gradient trị pixel IG Chúng qui định G ( Rimi , Rmjj ) m Rm trị gradient trung bình hai vùng Ri j j i , xác định dựa trị gradient pixel chung hai vùng m Rm Gọi Bij tập pixel thuộc ranh giới hai vùng Ri j , j i G ( Rimi , Rmjj ) định nghĩa sau: G mi i mj j (R , R ) ( x , y ) BIJ IG ( x, y ) | Bij | (1) Với | Bij| số pixel tập Bij Ta có hàm thể khác biệt dựa vào trị Hue độ gradient tính sau: f ( Rimi , R mjj ) w1 * d ( h( Rimi ), h( R mjj )) w2 * G ( Rimi , R mjj ) Trong đó, R mjj d ( h( Rimi ), h ( R mjj )) (2) m chênh lệch trị trung bình Ri i : Bùi Trung Thành - CT1301 Page 50 Đồ án tốt nghiệp d ( h( Rimi ), h( R mjj )) min{| h( Rimi ) Trường đại học dân lập Hải Phòng h ( R mjj ) |, (360 | h ( Rimi ) h ( R mjj ) |} (3) với w1 w2 hệ số định trước Nếu hàm thể khác biệt f ( Rimi , R mjj ) phụ thuộc chủ yếu vào trị Hue màu sắc cường độ gradient w1>> w2 Dựa vào kinh nghiệm thực tiễn loại ảnh khác nhau, trị w1 w2 tương ứng 0.8 0.2 - Tìm ngưỡng cục thích nghi Mặc dù phần mô tả trình trộn hoàn chỉnh ta chưa xác định giải thuật dừng Hay nói cách khác, ta chưa biết cách xác định vùng không trộn thời điểm không trộn Như vậy, cần có chế tự động rút trích thông tin ngưỡng cục thông qua việc theo dõi thay đổi vùng trình trộn Các ngưỡng cho biết trộn vùng hay không Như thế, ngưỡng giúp hình thành phân vùng hoàn chỉnh cuối Như biết trình phân đoạn thao tác cục bộ, nên bước trộn cục dừng đồng thời Do việc sử dụng ngưỡng toàn cục không đủ vùng thường tách biệt với xung quanh ngưỡng khác vào lần xử lý khác Tuy nhiên vài trường hợp ngưỡng toàn cục lại phù hợp Ví dụ hình mô tả trường hợp ngoại lệ, dùng ngưỡng toàn cục mà cho kết phân đoạn xác Lý ảnh ví dụ chứa đối tượng đồng màu sắc, đồng thời phần có màu đồng Trong trường hợp cần ngưỡng cho trình trộn đủ Quá trình trộn dừng trọng số cạnh khảo sát lớn ngưỡng chọn trước, cụ thể ví dụ 100 Bạn xem kết phân đoạn ngưỡng hình 9b Trong thực tế, ảnh phân tích thường chứa nhiều hai vùng nên khó phân đoạn dùng ngưỡng toàn cục Bùi Trung Thành - CT1301 Page 51 Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng Hình 9:(a) Ảnh gốc (b) Kết phân đoạn ngưỡng toàn cục 100 Bạn cảm nhận nhu cầu dùng ngưỡng cục thay cho ngưỡng toàn cục xem hình Ta có hình gốc 7a, hình 7b kết giải thuật watershed Với ngưỡng toàn cục t = 20 ta kết phân đoạn hình 7c, hình 7d kết tương ứng với ngưỡng toàn cục t = 30 Trong hình 7.c, vùng đồng lớn Tuy nhiên, ngưỡng tăng lên 30 hình 7d, vùng nhìn mắt thường đồng mặt ghế lại bị phân nhỏ Trong đó, vùng mũi tên vàng chưa đồng Để phân thành nhiều vùng đồng ngưỡng phải nhỏ 30, việc trộn hai vùng không đồng áo khoát người đàn ông ghế không thực Chúng ta nhận biết nhu cầu cần thiết tính ngưỡng cục bộ, tính ngưỡng dựa vào yếu tố cần xem xét tiếp Việc tính ngưỡng cục phải dựa vào thông tin cục bộ, liên quan đến vùng xét vùng lân cận xung quanh Thế phải xét vùng lân cận? Ta phải xét vùng lân cận vùng thường bị ảnh hưởng vùng xung quanh Bạn xem ví dụ hình để thấy mối quan hệ khắng khít vùng vùng lân cận nó, vùng đặt vào vùng lân cận khác cảm nhận thị giác khác Trong hình 8a, đối tượng hình ellipse màu vàng bật màu đen, khác hẳn với hình 8b, đối tượng ellipse màu vàng gần hòa vào màu trắng xung quanh nó, khó nhận biết Bùi Trung Thành - CT1301 Page 52 Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng Hình 10: (a) Ảnh gốc (b) Sau áp dụng giải thuật watershed (c) Sau hoàn thành trình trộn dùng ngưỡng toàn cục t=20 (d) Sau trộn dùng ngưỡng toàn cục t=30 Hình 11: Vùng sáng elip hiển thị khác khác 3.4 Thuật toán k-means cho phân đoạn ảnh Tầm quan trọng khó khăn việc gom cụm đối tượng mang tính tri giác người từ lâu nghiên cứu nhiều lĩnh vực thị giác máy tính đặc biệt lĩnh vực xử lý ảnh Và phân đoạn ảnh ứng dụng mạnh mẽ toán phân tích hiểu ảnh tự động, Bùi Trung Thành - CT1301 Page 53 Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng toán khó mà tới nhà khoa học chưa tìm cách giải hoàn toàn thấu đáo Làm để phân chia ảnh thành tập Những cách khả thi để làm điều Đó câu hỏi mà người ta đặt từ lâu mong muốn có câu trả lời Trong khoảng 30 trở lại có nhiều thuật toán đề xuất để giải vấn đề phân đoạn ảnh Các thuật toán hầu hết dựa vào hai thuộc tính quan trọng điểm ảnh so với điểm lân cận nó; “khác” “giống nhau” Các phương pháp dựa giống điểm ảnh gọi phương pháp miền , phương pháp dựa khác điểm ảnh gọi phương pháp biên Trong đề tài này, em xin trình bày thuật toán k – means để giải toán phân đoạn ảnh 3.4.1 Mô tả toán Input:+ Ảnh có kích thước m x n + Số cụm k muốn phân đoạn Output : Ảnh phân thành k đoạn có màu sắc tương đồng 3.4.2 Các bƣớc thực thuật toán Thuật toán dựa vào số lượng cụm mong muốn, trọng tâm cụm mà tính toán khoảng cách điểm với trọng tâm cụm Sau gán điểm tới cụm mà có khoảng cách từ điểm tới trọng tâm cụm nhỏ nhất, cập nhật lại trọng tâm cụm Kết thu sau tâm cụm không đổi - Các bước thuật toán:Thuật toán k -means gồm bước: Chọn ngẫu nhiên k đối tượng làm trọng tâm ban đầu k cụm Gán (hoặc gán lại) đối tượng lại vào cụm có trọng tâm gần Bùi Trung Thành - CT1301 Page 54 Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng Nếu phép gán lại dừng Vì phép gán lại có nghĩa cụm ổn định thuật toán cải thiện làm giảm độ phân biệt Tính lại trọng tâm cho cụm Quay lại bước Lưu đồ tổng quát thuật toán: Bùi Trung Thành - CT1301 Page 55 Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng Begin Tìm Top X Color gán làm trọng tâm - Tính khoảng cách d(x,y) từ điểm đến trọng tâm, khoảng cách Eulide - Đưa điểm cụm - Cập nhật lại trọng tâm Tâm = Tâm cũ No Yes End Hình 12: Thuật toán k - means Bùi Trung Thành - CT1301 Page 56 Đồ án tốt nghiệp - Trường đại học dân lập Hải Phòng Tìm kiếm Top X Color Đầu tiên ta so sánh số màu thực tế ảnh số cụm màu, số màu thực tế nhỏ số cụm màu ta nhận số cụm màu số màu thực tế Tạo danh sách chứa loại màu sau xếp chúng theo thứ tự giảm dần Lấy X phần tử danh sách Hình 13: Tìm kiếm top x color - Tính khoảng cách phân cụm: Dựa vào khoảng cách Euclide tính khoảng cách màu điểm với tâm cụm Dựa vào khoảng cách đưa điểm vào cụm mà khoảng cách tới tâm cụm nhỏ Bùi Trung Thành - CT1301 Page 57 Đồ án tốt nghiệp d (i, j ) - xi1 x j1 Trường đại học dân lập Hải Phòng xi x j2 xip x jp Tính lại trọng tâm Đối với cụm tính toán lại điểm trung tâm dựa tất điểm thuộc vào cụm - Kiểm tra điều kiện hội tụ Quá trình phân cụm kết thúc nếu: + Không có (hoặc có không đáng kể) việc gán lại điểm vào cụm khác + Không có (hoặc có không đáng kể) việc thay đổi trọng tâm cụm 3.4.3 Kết thực nghiệm - Môi trƣờng cài đặt Chương trình lập trình với ngôn ngữ C#, cài đặt chạy thử hệ điều hành Window - Một số giao diện Bùi Trung Thành - CT1301 Page 58 Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng Hình 14: Giao diện chương trình Hình 15: Chọn ảnh đầu vào Hình 16:Kết trình phân cụm ảnh 3.4.4 Ƣu, nhƣợc điểm thuật toán k – means a)Ƣu điểm Bùi Trung Thành - CT1301 Page 59 Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng - Tương đối nhanh Độ phức tạp thuật toán O (tkn), đó: + n: Số điểm không gian liệu + k: Số cụm cần phân hoạch + t: Số lần lặp (t nhỏ so với r) - K-means phù hợp với cụm có dạng hình cầu b) Khuyết điểm + Không đảm bảo đạt tối ưu toàn cục kết đầu phụ thuộc nhiều vào việc chọn k điểm khởi đầu Do phải chạy lại thuật toán với nhiều khởi đầu khác để có kết đủ tốt Trong thực tế, áp dụng thuật giải di truyền để phát sinh khởi đầu + Cần phải xác định trước số cụm + Khó xác định số cụm thực mà không gian liệu có Do phải thử với giá trị k khác + Khó phát loại cụm có hình dạng phức tạp dạng cụm không lồi + Không thể xử lý nhiễu mẫu cá biệt + Chỉ áp dụng tính trọng tâm Bùi Trung Thành - CT1301 Page 60 Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng KẾT LUẬN A Kết đạt đƣợc Trong trình nghiên cứu hoàn thành báo cáo đồ án tốt nghiệp “Phân cụm cứng phân đoạn ảnh”, em thu nhận thêm nhiều kiến thức nhận thấy phân cụm liệu khai phá liệu lĩnh vực rộng lớn ứng dụng mạnh mẽ Hơn nhiều vấn đề mà cần khám phá Trong đề tài em cố gắng tìm hiểu nghiên cứu tổng quan khai phá liệu, phân cụm liệu số thuật toán nó, tổng quan phân đoạn ảnh Cài đặt thử nghiệm thuật toán k – means ứng dụng phân đoạn ảnh Do thời gian thực hạn chế kiến thức hạn chế nên em nghiên cứu số kỹ thuật phân cụm liệu, cài đặt thử nghiệm với thuật toán k – means Còn số kỹ thuật em chưa tìm hiểu, khai thác ứng dụng vào toán thực tế Mặc dù cố gắng, song lực trình độ có hạn nên trình thực thực tập em không tránh khỏi thiếu sót Kính mong thầy cô bạn quan tâm giúp đỡ bảo để chương trình em hoàn thiện B Hƣớng phát triển tƣơng lai Trong thời gian tới em cố gắng tiếp tục nghiên cứu, tìm hiểu thêm số kĩ thuật phân cụm tìm hiểu phát triển kỹ thuật phân đoạn ảnh để xử lý với ảnh động Bùi Trung Thành - CT1301 Page 61 Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng TÀI LIỆU THAM KHẢO [1] - Nguyễn Thị Ngọc, Phân cụm liệu dựa mật độ, Đồ án tốt nghiệp đại học Ngành công nghệ Thông tin – ĐHDL Hải Phòng, 2008 [2] - Trần Thị Quỳnh, Thuật toán phân cụm liệu nửa giám sát giải thuật di truyền, Đồ án tốt nghiệp đại học Ngành công nghệ Thông tin – ĐHDLHải Phòng, 2008 [3] - Nguyễn Lâm, Thuật toán phân cụm liệu nửa giám sát,- Đồ án tốt nghiệp đại học Ngành công nghệ Thông tin – ĐHDL Hải Phòng, 2007 [4] - Charles Elkan, Department of Comput er Science and Engineering, University of California, San Diego La jolla, CA 92093 [5] - Andre w W Moore Associate Professoor School of Computer Science, Carnegil Mellon University [6] - J.Han, M Kamber and A.K.H Tung, Spatial Clustering Methods in Data Mining, Sciences and Engineering Research Council of Canadia Bùi Trung Thành - CT1301 Page 62 Đồ án tốt nghiệp Bùi Trung Thành - CT1301 Trường đại học dân lập Hải Phòng Page 63 [...]... toán của thuật toán Bùi Trung Thành - CT1301 Page 23 Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng 2.4 Các hƣớng tiếp cận của bài toán phân cụm dữ liệu Các phương pháp phân cụm được chia thành các nhóm: phương pháp phân hoạch, phương pháp phân cấp, phương pháp dựa trên mật độ, phương pháp dựa trên lưới, phân cụm dựa trên mô hình, phân cụm dựa trên ràng buộc 2.4.1 Phƣơng pháp phân cụm phân hoạch Phương. .. trong hoạt động phân đoạn ảnh: Phân đoạn ảnh là việc phân tích mức xám hay mầu của ảnh thành lát đồng nhất Trong phân đoạn ảnh phân cụm dữ liệu thường được dùng để phát hiện biên của đối tượng trong ảnh Vấn đề phân cụm dữ liệu được quan tâm một cách rộng rãi, mặc dù chưa có định nghĩa đồng bộ về phân cụm dữ liệu Nói một cách đại khái, phân cụm dữ liệu nghĩa là ta cho một tập dữ liệu và một phương pháp. .. Phòng Các bước chính trong quá trình phân cụm dữ liệu: - Xây dụng hàm tính độ tương tự - Xây dựng các tiêu chuẩn phân cụm - Xây dụng mô hình cho cấu trúc cụm dữ liệu - Xây dựng thuật toán phân cụm và các xác lập các điều kiện khởi tạo - Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm Phân cụm dữ liệu là bài toán thuộc vào lĩnh vực học máy không giám sát và đang được ứng dụng rộng rãi để khai... CHƢƠNG II PHÂN CỤM DỮ LIỆU VÀ CÁCTHUẬT TOÁN PHÂN CỤM DỮ LIỆU 2.1 Phân cụm dữ liệu Phân cụm dữ liệu là một trong những hướng nghiên cứu trọng tâm củalĩnh vực khai phá dữ liệu (Data Mining) và lĩnh vực khám phá tri thức 2.1.1 Định nghĩa về phân cụm dữ liệu Chúng ta thấy rằng, mục đích của phân cụm là nhóm các đối tượng vào các cụm sao cho các đối tượng trong cùng một cụm có tính tương đồng cao và độ bất... thuật toán phân cụm phân hoạch điển hình như: K - MEANS, PAM, CLARA, CLARANS 2.4.2 Phƣơng pháp phân cụm phân cấp Phân cụm dữ liệu phân cấp sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy Cây phân cấp có thể được xây dựng theo 2 phương pháp tổng quát: Phương pháp trên xuống (Topdown) và phương pháp dưới lên (Bottom up) Đây là các phương. .. các đối tượng nằm trong cụm của tâm đó o t t+1 Bùi Trung Thành - CT1301 Page 34 Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng CHƢƠNG III: ỨNG DỤNG THUẬT TOÁN K - MEANS TRONG PHÂN ĐOẠN ẢNH 3.1 Tổng quan về phân vùng ảnh Phân đoạn ảnh là một thao tác ở mức thấp, là bước then chốt trong toàn bộ quá trình xử lý ảnh Quá trình này thực hiện việc phân vùng ảnh thành các vùng rời rạc và đồng nhất với nhau... phức tạp tính toán cao hơn Cả hai thuật toán đều có nhược điểm chung là số lượng k cụm cần được người dùng cung cấp ngay từ đầu Ngoài ra còn có các thuật toán phân cụm phân hoạch khác: PAM, CLARA Bùi Trung Thành - CT1301 Page 31 Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng 2.5.2 Thuật toán phân cụm phân cấp Thuật toán phân cụm phân cấp khắc phục được nhược điểm của các thuật toán phân cụm khác là... thuật toán phân cụm phân cấp khác như: Thuật toán BIRCH, thuật toán AGNES, thuật toán DIANA, thuật toán ROCK 2.5.3 Thuật toán COP – Kmeans Là một thuật toán phân cụm dữ liệu nửa giám sát (phân cụm dựa trên lưới), với phương pháp tiếp cận dựa trên tìm kiếm Trong thuật toán COP – Kmeans (được Wagstaff đề xuất năm 2001) các thông tin bổ trợ được cung cấp dưới dạng một tập các ràng buộc must – link và cannot... xét nghiệm… - Tài chính và thị trường chứng khoán: Áp dụng vào phân tích các thẻ tín dụng tiêu biểu của khách hàng, phân đoạn tài khoản nhận được, phân tích đầu tư tài chính cũng như chứng khoán, giấy chứng nhận và các quỹ tình thương, đánh giá tài chính, phát hiện kẻ gian… Dự báo giá của các loại cổ phiếu trong thị trường chứng khoán… - Bảo hiểm: Áp dụng vào việc phân tích mức độ rủi ro xảy ra đối với... phân giải Những ô lưới có mật độ cao sẽ tạo thành những cụm Phương pháp này rất phù hợp với các phân tích trong gom cụm ứng dụng trong không gian (phân loại sao, thiên hà…) Bùi Trung Thành - CT1301 Page 29 Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng Một số thuật toán PCDL dựa trên cấu trúc lưới điển hình như sau: STING, WAVECLUSTER, CLIQUE… 2.4.5 Phƣơng pháp phân cụm dựa trên mô hình Phương pháp

Ngày đăng: 13/05/2016, 11:00

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan