Tìm hiểu một số phuơng pháp phân cụm dữ liệu và ứng dụng

42 116 0
Tìm hiểu một số phuơng pháp phân cụm dữ liệu và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Một số phương pháp phân cụm liệu ĐHDL Hải Phòng MỤC LỤC MỤC LỤC DANH MỤC HÌNH MINH HỌA LỜI CẢM ƠN CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khám phá tri thức 1.2 Khai phá liệu khái niệm liên quan 1.2.1 Khái niệm khai phá liệu 1.2.2 Các phƣơng pháp khai phá liệu 1.2.3 Các lĩnh vực ứng dụng thực tiễn 1.2.4 Các hƣớng tiếp cận kỹ thuật áp dụng khai phá liệu CHƢƠNG 2: PHÂN CỤM DỮ LIỆU CÁC TIẾP CẬN 10 2.1 Khái niệm chung 10 2.2 Các kiểu liệu độ đo tƣơng tự 10 2.2.1 Các kiểu liệu 10 2.2.2 Độ đo tƣơng tự phi tƣơng tự 12 2.3 Các kỹ thuật tiếp cận phân cụm liệu 15 2.3.1 Phƣơng pháp phân cụm phân hoạch 15 2.3.2 Phƣơng pháp phân cụm phân cấp 15 2.3.3 Phƣơng pháp phân cụm dựa mật độ 16 2.3.4 Phƣơng pháp phân cụm dựa lƣới 17 2.3.5 Phƣơng pháp phân cụm dựa mơ hình 18 2.3.6 Phƣơng pháp phân cụmliệu ràng buộc 19 2.4 Các ứng dụng phân cụm liệu 20 CHƢƠNG 3: MỘT SỐ THUẬT TOÁN CƠ BẢN TRONG PHÂN CỤMDỮLIỆU 21 3.1 Các thuật toán phân cụm phân hoạch 21 3.1.1 Thuật toán K-means 21 3.1.2 Thuật toán K-Medoids 23 3.2 Thuật toán phân cụm phân cấp 24 3.3 Thuật toán COP-Kmeans 26 Vũ Minh Đông – CT1002 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng CHƢƠNG 4: ỨNG DỤNG THUẬT TOÁN K-MEANS CHO PHÂN ĐOẠN ẢNH 28 4.1 Tổng quan phân vùng ảnh 28 4.1.1 Phân vùng ảnh theo ngƣỡng biên độ 28 4.1.2 Phân vùng ảnh theo miền đồng 29 4.1.3 Phân vùng dựa theo đƣờng biên 31 4.1.4 Phân đoạn dựa theo kết cấu bề mặt 31 4.2 Thuật toán K-means cho phân đoạn ảnh 32 4.2.1 Mơ tả tốn 32 4.2.2 Các bƣớc thực thuật tốn 33 4.2.2.1 Tìm kiếm Top X color 34 4.2.2.2 Tính khoảng cách phân cụm 36 4.2.2.3 Tính lại trọng tâm cụm 37 4.2.2.4 Kiểm tra hội tụ 38 4.2.3 Kết thực nghiệm 39 4.2.3.1 Môi trƣờng cài đặt 39 4.2.3.2 Một số giao diện 39 KẾT LUẬN 41 TÀI LIỆU THAM KHẢO 42 Vũ Minh Đông – CT1002 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng DANH MỤC HÌNH MINH HỌA Hình 1: Quy trình phát tri thức Hình 1: Mơ hình cấu trúc liệu lƣới 18 Hình 1: Các cụm liệu đƣợc khám phá CURE 24 Hình 1: Thuật tốn K-means 34 Hình 2: Tìm kiếm Top X color 35 Hình 3: Phân cụm 36 Hình 4: Tính trọng tâm 37 Hình 5: Kiểm tra hội tụ 38 Vũ Minh Đông – CT1002 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng LỜI CẢM ƠN Trƣớc hết em xin chân thành cảm ơn thầy Ngô Trƣờng Giang giáo viên hƣớng dẫn em tình làm đồ án Thầy giúp em nhiều cung cấp cho em nhiều tài liệu quan trọng phục vụ cho trình tìm hiểu đề tài “Tìm hiểu số phƣơng pháp phân cụm liệu ứng dụng” Thứ hai, em xin chân thành cảm ơn thầy cô môn công nghệ thông tin bảo em trình học rèn luyện năm học vừa qua Đồng thời em cảm ơn bạn sinh viên lớp CT1002 gắn bó với em trình rèn luyện trƣờng Cuối em xin chân thành cảm ơn ban giám hiệu trƣờng Đại Học Dân Lập Hải Phòng tạo điều kiện cho em có kiến thức, thƣ viện trƣờng nơi mà sinh viên trƣờng thu thập tài liệu trợ giúp cho giảng lớp Đồng thời thầy cô trƣờng giảng dạy cho sinh viên kinh nghiệm sống Với kiến thức kinh nghiệm giúp cho em công việc sống sau Em xin chân thành cảm ơn! Hải Phòng, ngày tháng năm 2010 Sinh viên VŨ MINH ĐÔNG Vũ Minh Đông – CT1002 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khám phá tri thức Nếu cho điện tử sóng điện tử chất cơng nghệ điện tử truyền thống liệu, thơng tin tri thức tiêu điểm lĩnh vực nghiên cứu ứng dụng phát tri thức (Knowledge Discovery) khai phá liệu (Data Mining) Thông thƣờng coi liệu nhƣ dãy bit, số ký hiệu, “đối tƣợng” với ý nghĩa đƣợc gửi cho chƣơng trình dƣới dạng định Chúng ta sử dụng bit để đo lƣờng thơng tin xem nhƣ liệu đƣợc lọc bỏ dƣ thừa, đƣợc rút gọn tới mức tối thiểu để đặc trƣng cách cho liệu Chúng ta xem tri thức nhƣ thơng tin tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ đƣợc hiểu ra, đƣợc phát hiện, đƣợc học Nói cách khác, tri thức đƣợc coi liệu có độ trừu tƣợng tổ chức cao Phát tri thức sở liệu qui trình nhận biết mẫu mơ hình liệu với tính năng: hợp thức, mới, khả ích, hiểu đƣợc Còn khai thác liệu bƣớc qui trình phát tri thức gồm có thuật toán khai thác liệu chuyên dùng dƣới số qui định hiệu tính tốn chấp nhận đƣợc để tìm mẫu mơ hình liệu Nói cách khác, mục đích phát tri thức khai phá liệu tìm mẫu mơ hình tồn sở liệu nhƣng bị che khuất hàng núi liệu Vũ Minh Đông – CT1002 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng Quy trình phát tri thức: Hình 1: Quy trình phát tri thức Bước thứ nhất: tìm hiểu lĩnh vực ứng dụng hình thành tốn, bƣớc định cho việc rút đƣợc tri thức hữu ích cho phép chọn phƣơng pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu Bước thứ hai: thu thập xử lý thơ, đƣợc gọi tiền xử lý liệu nhằm loại bỏ nhiễu, xử lý việc thiếu liệu, biến đổi liệu rút gọn liệu cần thiết, bƣớc thƣờng chiếm nhiều thời gian tồn qui trình phát tri thức Bước thứ ba: khai phá liệu, hay nói cách khác trích mẫu mơ hình ẩn dƣới liệu Bước thứ tư: hiểu tri thức tìm đƣợc, đặc biệt làm sáng tỏ mô tả dự đốn Các bƣớc lặp lặp lại số lần, kết thu đƣợc đƣợc lấy trung bình tất lần thực Vũ Minh Đông – CT1002 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng 1.2 Khai phá liệu khái niệm liên quan Khai phá liệu nhƣ qui trình phân tích đƣợc thiết kế để thăm dò lƣợng cực lớn liệu nhằm phát mẫu thích hợp mối quan hệ mang tính hệ thống biến sau hợp thức hố kết tìm đƣợc cách áp dụng mẫu phát đƣợc cho tập liệu Qui trình bao gồm ba giai đoạn bản: thăm dò, xây dựng mơ hình định nghĩa mẫu, hợp thức, kiểm chứng 1.2.1 Khái niệm khai phá liệu Do phát triển mạnh mẽ khai phá liệu (Data mining) phạm vi lĩnh vực ứng dụng thực tế phƣơng pháp tìm kiếm, lên có nhiều khái niệm khác khai phá liệu Trong em xin nêu định nghĩa ngắn gọn nhƣ sau: Khai phá liệu trình khám phá tri thức tri thức có ích dạng tiềm nguồn liệu có 1.2.2 Các phƣơng pháp khai phá liệu Với hai đích khai phá liệu là: dự đốn (Prediction) mơ tả (Description), ngƣời ta thƣờng sử dụng phƣơng pháp sau cho khai phá liệu: Phân lớp (Classfication) Hồi qui (Regression) Trực quan hóa (Visualiztion) Phân cụm (Clustering) Tổng hợp (Summarization) Mơ hình ràng buộc (Dependency modeling) Biểu diễn mơ hình (Model Evaluation) Phân tích phát triển độ lệch (Evolution and deviation analyst) Luận kết hợp (Associantion rules ) Phƣơng pháp tìm kiếm (Search Method) Vũ Minh Đông – CT1002 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng 1.2.3 Các lĩnh vực ứng dụng thực tiễn Phân tích liệu hỗ trợ định Phân lớp văn bản, tóm tắt văn bản, phân lớp trang Web phân cụm ảnh màu Chuẩn đoán triệu chứng, phƣơng pháp điều trị y học Tìm kiếm, đối sánh hệ Gene thông tin di truyền sinh học Phân tích tình hình tài chính, thị trƣờng, dự báo giá cổ phiếu tài chính, thị trƣờng chứng khoán Bảo hiểm … 1.2.4 Các hƣớng tiếp cận kỹ thuật áp dụng khai phá liệu Các kỹ thuật khai phá liệu thƣờng đƣợc chia thành nhóm chính: Kỹ thuật khai phá liệu mơ tả: có nhiệm vụ mơ tả tính chất đặc tính chung liệu CSDL có Các kỹ thuật gồm có: phân cụm (Clustering), tổng hợp (Summerization), trực quan hóa (Visualiztion), phân tích phát triển độ lệch (Evolution and deviation analyst), luận kết hợp (Associantion rules) Kỹ thuật khai phá liệu dự đốn: có nhiệm vụ đƣa dự đoán vào suy diễn liệu thời Các kỹ thuật gồm có: phân lớp (Classification), hồi quy (Regression) Sau em xin đƣợc giới thiệu phƣơng pháp thông dụng là: phân cụm liệu, phân lớp liệu khai phá luận kết hợp Phân lớp liệu: Mục tiêu phƣơng pháp phân lớp liệu dự đoán nhãn lớp cho mẫu liệu Quá trình phân lớp liệu thƣờng gồm bƣớc: xây dựng mơ hình sử dụng mơ hình để phân lớp liệu Vũ Minh Đông – CT1002 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng Bước 1: mơ hình đƣợc xây dựng dựa việc phân tích mẫu liệu sẵn có Mỗi mẫu tƣơng ứng với lớp, đƣợc định thuộc tính gọi thuộc tính lớp Các mẫu liệu đƣợc gọi tập liệu huấn luyện (Training dataset) Các nhãn lớp tập liệu huấn luyện phải đƣợc xác định trƣớc xây dựng mơ hình phƣơng pháp đƣợc gọi học có thầy (Supervised learning) khác với phân cụm liệu học khơng có thầy (Unsupervised learning) Bước 2: sử dụng mơ hình để phân lớp liệu Trƣớc hết phải tính độ xác mơ hình Nếu độ xác chấp nhận đƣợc, mơ hình đƣợc sử dụng để dự đoán nhãn lớp cho mẫu liệu khác tƣơng lai Phân cụm liệu: Mục tiêu phân cụm liệu nhóm đối tƣợng tƣơng tự tập liệu vào cụm cho đối tƣợng thuộc lớp tƣơng đồng đối tƣợng thuộc cụm khác không tƣơng đồng Trong phƣơng pháp bạn biết kết cụm thu đƣợc nhƣ bắt đầu trình Vì vậy, thơng thƣờng cần có chun gia lĩnh vực để đánh giá cụm thu đƣợc Phân cụm liệu bƣớc tiền xử lý cho thuật toán khai phá liệu khác Khai phá luận kết hợp: Mục tiêu phƣơng pháp phát đƣa mối liên hệ giá trị liệu CSDL Mẫu đầu giải thuật khai phá liệu tập luận kết hợp tìm đƣợc Vũ Minh Đơng – CT1002 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng CHƢƠNG 2: PHÂN CỤM DỮ LIỆU CÁC TIẾP CẬN 2.1 Khái niệm chung Khai phá liệu (Datamining) q trình trích xuất thơng tin có giá trị tiềm ẩn bên tập liệu lớn đƣợc lƣu trữ sở liệu, kho liệu Ngƣời ta định nghĩa [1]: “Phân cụm liệu kỹ thuật Data Mining, nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn, quan trọng tập liệu lớn, từ cung cấp thơng tin, tri thức hữu ích cho việc định ” Nhƣ phân cụm liệu trình chia tập liệu ban đầu thành cụm liệu cho phần tử cụm “tƣơng tự” (Similar) với phần tử cụm khác “phi tƣơng tự” (Dissimilar) với Số cụm liệu đƣợc phân đƣợc xác định trƣớc theo kinh nghiệm đƣợc tự động xác định 2.2 Các kiểu liệu độ đo tƣơng tự 2.2.1 Các kiểu liệu Cho một sở liệu D chứa n đối tƣợng không gian k chiều x, y, z đối tƣợng thuộc D: x = (x 1, x2, …, xk); y = (y1, y2, …, yk); z = (z1, z2, …, zk), xi, yi, zi với i = 1, k đặc trƣng thuộc tính tƣơng ứng đối tƣợng x, y, z a) Phân loại theo kích thƣớc miền Thuộc tính liên tục (Continnuous Attribute): miền giá trị vơ hạn khơng đếm đƣợc Thuộc tính rời rạc (DiscretteAttribute): miền giá trị tập hữu hạn, đếm đƣợc Vũ Minh Đông – CT1002 10 Một số phương pháp phân cụm liệu CHƢƠNG 4: ĐHDL Hải Phòng ỨNG DỤNG THUẬT TOÁN K-MEANS CHO PHÂN ĐOẠN ẢNH 4.1 Tổng quan phân vùng ảnh Phân vùng ảnh bƣớc then chốt xử lý ảnh Giai đoạn nhằm phân tích ảnh thành thành phần có tính chất dựa theo biên hay vùng liên thông Tiêu chuẩn để xác định vùng liên thông mức xám, mầu hay độ nhám, v v Nếu phân vùng dựa miền liên thông, ta gọi kỹ thuật phân vùng dựa theo miền đồng Nếu ta phân vùng dựa vào biên gọi kỹ thuật phân vùng biên Ngoài ra, có kỹ thuật khác nhƣ phân vùng dựa vào biên độ, phân vùng theo kết cấu (Texture Segmentation) Mục đích phân tích ảnh để có miêu tả tổng hợp nhiều phần tử khác cấu tạo nên ảnh thơ (brut image) Vì lƣợng thông tin chứa ảnh lớn, đa số ứng dụng cần số thơng tin đặc trƣng đó, cần có q trình giảm lƣợng thơng tin khổng lồ Q trình bao gồm phân vùng ảnh trích chọn đặc tính chủ yếu Các kỹ thuật dùng cho trình đƣợc đề cập tới phần sau 4.1.1 Phân vùng ảnh theo ngƣỡng biên độ Đặc tính đơn giản có hữu ích ảnh biên độ tính chất vật lý ảnh nhƣ: độ phản xạ, độ truyền sáng, màu sắc đáp ứng đa phổ Thí dụ, ảnh X-quang, biên độ mức xám biểu diễn đặc tính bão hòa phần hấp thụ thể làm cho ta có khả phân biệt xƣơng với phần mềm, tế bào lành với tế bào bị nhiễm bệnh, v v Kỹ thuật phân ngƣỡng theo biên độ có ích ảnh nhị phân nhƣ văn in, đồ họa, ảnh màu hay ảnh X-quang Việc chọn ngƣỡng kỹ Vũ Minh Đông – CT1002 28 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng thuật bƣớc quan trọng Ngƣời ta thƣờng tiến hành theo bƣớc chung sau: Xem xét lƣợc đồ xám ảnh để xác định đỉnh khe Nếu ảnh có dạng rắn lƣợn (nhiều đỉnh nhiều khe), khe sử dụng để chọn ngƣỡng Chọn ngƣỡng t cho phần xác định trƣớc toàn số mẫu thấp t Điều chỉnh ngƣỡng dựa xem xét lƣợc đồ xám điểm lân cận Chọn ngƣỡng nhƣ xem xét lƣợc đồ xám điểm thỏa tiêu chuẩn chọn Thí dụ với ảnh có độ tƣơng phản thấp, lƣợc đồ điểm có biên độ Laplace g(m, n) lớn giá trị t định trƣớc (sao cho từ 5% đến 10% số điểm ảnh với gradient lớn coi nhƣ biên) cho phép xác định đặc tính ảnh lƣỡng cực tốt ảnh gốc Khi có mơ hình phân lớp xác suất, việc xác định ngƣỡng dựa vào tiêu chuẩn nhằm cực tiểu xác suất sai số số tính chất khác theo luật Bayes 4.1.2 Phân vùng ảnh theo miền đồng Kỹ thuật phân vùng ảnh thành miền đồng dựa vào tính chất quan trọng miền Việc lựa chọn tính chất miền xác định tiêu chuẩn phân vùng Ở cần phải xác định rõ tính đồng miền ảnh điểm chủ yếu xác định tính hiệu việc phân vùng Các tiêu chuẩn hay đƣợc dùng mức xám, màu sắc ảnh màu, kết cấu sợi chuyển động Thí dụ, ứng dụng ảnh hàng không, việc phân vùng theo màu cho phép phân biệt thảm thực vật: cánh đồng màu xanh hay vàng, rừng xanh thẫm, đƣờng màu xám, mái nhà đỏ, v v Vũ Minh Đông – CT1002 29 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng Đối với ảnh chuyển động, ngƣời ta tiến hành trừ hai ảnh quan sát đƣợc hai thời điểm khác Trong trƣờng hợp phần ảnh không thay đổi nhận giá trị không, phần thay đổi nhận giá trị dƣơng hay âm tƣơng ứng với thay đổi hay dịch chuyển Các phƣơng pháp thực là: Phƣơng pháp tách tứ phân Phƣơng pháp kiểm tra tính hợp thức tiêu chuẩn cách tổng thể miền lớn ảnh Nếu thỏa mãn tiêu chuẩn việc phân đoạn coi nhƣ kết thúc Trong trƣờng hợp ngƣợc lại, ta chia miền xét thành bốn miền nhỏ Với miền nhỏ, ta lại áp dụng cách đệ quy phƣơng pháp tất miền thỏa mãn Phƣơng pháp cục hay phân vùng hợp Ý tƣởng phƣơng pháp xem xét ảnh từ miền nhỏ hợp chúng lại thỏa mãn tiêu chuẩn đƣợc miền đồng lớn Ta lại tiếp tục với miền thu đƣợc khơng thể hợp đƣợc Số miền lại cho ta kết phân đoạn Nhƣ vậy, miền nhỏ bƣớc xuất phát điểm ảnh Điều quan trọng phƣơng pháp nguyên lý hợp hai vùng Việc hợp hai vùng thực theo nguyên tắc sau: Hai vùng phải đáp ứng tiêu chuẩn, thí dụ nhƣ màu mức xám Chúng phải kế cận Phƣơng pháp tổng hợp Hai phƣơng pháp vừa xét có số nhƣợc điểm Phƣơng pháp tách tạo nên cấu trúc phân cấp thiết lập mối quan hệ vùng Tuy nhiên thực việc chia chi tiết Vũ Minh Đông – CT1002 30 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng Phƣơng pháp hợp cho phép làm giảm số miền liên thông xuống tối thiểu, nhƣng cấu trúc hàng ngang dàn trải, không cho ta thấy mối quan hệ miền Chính ngƣời ta nghĩ đến việc phối hợp hai phƣơng pháp Trƣớc tiên, dùng phƣơng pháp tách để tạo nên tứ phân, phân đoạn theo hƣớng từ gốc tới Tiếp theo, tiến hành duyệt theo chiều ngƣợc lại hợp vùng có tiêu chuẩn Với phƣơng pháp ta thu đƣợc miêu tả cấu trúc ảnh với miền liên thơng có kích thƣớc tối đa Các bƣớc bao gồm: Kiểm tra tiêu chuẩn đông Hợp vùng 4.1.3 Phân vùng dựa theo đƣờng biên Biên đặc trƣng quan trọng ảnh Cũng mà nhiều ứng dụng, ngƣời ta sử dụng phân đoạn dựa theo biên Việc phân đoạn ảnh dựa vào biên đƣợc tiến hành qua số bƣớc nhƣ sau: Phát làm biên Làm mảnh biên Nhị phân hóa đƣờng biên Mô tả biên 4.1.4 Phân đoạn dựa theo kết cấu bề mặt Kết cấu thuật ngữ phản ánh lặp lại phần tử sợi (texel) Sự lặp lại ngẫu nhiên hay có tính chu kì gần nhƣ có chu kì Một texel chứa nhiều điểm ảnh Trong phân tích ảnh, kết cấu đƣợc phân làm hai loại chính: Thống kê Cấu trúc Vũ Minh Đông – CT1002 31 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng Khi đối tƣợng xuất có tính kết cấu cao, việc phân đoạn dựa vào tính kết cấu trở nên quan trọng Nguyên nhân kết cấu sợi thƣờng chứa mật độ cao gờ (edge) làm cho phân đoạn dựa vào biên trở nên hiệu quả, ta loại tính kết cấu Việc phân đoạn dựa vào miền đồng áp dụng cho đặc trƣng kết cấu dùng để phân đoạn miền có tính kết cấu 4.2 Thuật tốn K-means cho phân đoạn ảnh Tầm quan trọng khó khăn việc gom nhóm đối tƣợng mang tính tri giác ngƣời từ lâu đƣợc nghiên cứu nhiều lĩnh vực thị giác máy tinh đặc biệt lĩnh vực xử lí ảnh phân đoạn ảnh có ứng dụng mạnh mẽ rộng rãi tốn phân tích hiểu ảnh tự động, nhƣng tốn khó mà đến nhà khoa học chƣa giải đƣợc cách hoàn toàn thấu đáo Làm để phân chia ảnh thành tập Những cách khả thi để làm đƣợc điều Đó câu hỏi mà ngƣời ta đặt từ lâu mong muốn tìm đƣợc câu trả lời Trong khoảng 30 năm trở lại có nhiều thuật tốn đƣợc đề xuất để giải toán phân đoạn ảnh Các thuật tốn hầu hết dựa vào hai thuộc tính quan trọng điểm ảnh so với điểm lân cận nó, là: khác (dissimilarity) giống (similarity) C ác phƣơng pháp dựa giống điểm ảnh đƣợc gọi phƣơng pháp miền (region-based methods), phƣơng pháp dựa khác điểm ảnh đƣợc gọi phƣơng pháp biên (boundary-based methods) Trong báo cáo em xin phép đƣợc trình bày thuật tốn K-means để giải tốn phân đoạn ảnh 4.2.1 Mơ tả tốn Input: Ảnh có kích thƣớc m*n Vũ Minh Đông – CT1002 32 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng Số cụm (k) muốn phân đoạn Output: Ảnh đƣợc phân thành k đoạn có màu sắc tƣơng đồng 4.2.2 Các bƣớc thực thuật toán Thuận toán dựa vào số lƣợng cụm mong muốn, trọng tâm cụm mà tính tốn khoảng cách điểm với trọng tâm cụm Sau gán điểm tới cụm mà có khoảng cách tới trọng tâm cụm nhỏ nhất, cập nhật lại trọng tâm cụm Kết thu đƣợc sau tâm cụm không đổi Lƣu đồ tổng qt thuật tốn: Vũ Minh Đơng – CT1002 33 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng Begin Tìm Top X color gán làm trọng tâm Tính d(x, y)= n xi yi i Đƣa điểm cụm Cập nhật lại tâm cụm No Tâm = Tâm cũ Yes End Hình 1: Thuật tốn K-means 4.2.2.1 Tìm kiếm Top X color Đầu tiên ta so sánh số màu thực tế có ảnh số cụm màu, số màu thực tế nhỏ số cụm màu ta nhận số cụm màu số màu thực tế Tạo danh sách chứa loại màu, sau xếp chúng theo thứ tự giảm dần Lấy X phần tử danh sách Vũ Minh Đông – CT1002 34 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng Đọc ảnh int i = 0; int numColours; colours.Count; No colours.Count < numColours Yes numColours = colours.Count; _topColours = new Color[numColours]; List summaryList = new List; summaryList.AddRange(colours); summaryList.Sort; i < _topColours.Length No Yes _topColours[i] = Color.FromArgb (summaryList[i].Value.Colour.R, summaryList[i].Value.Colour.G, summaryList[i].Value.Colour.B); i ++; Trọng tâm khởi tạo cụm Hình 2: Tìm kiếm Top X color Vũ Minh Đơng – CT1002 35 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng 4.2.2.2 Tính khoảng cách phân cụm Sử dụng thuật tốn Euclide tính khoảng cách màu điểm với tâm cụm Dựa vào khoảng cách đƣa điểm vào cụm mà khoảng cách tới tâm cụm nhỏ Trọng tâm Dictionary distances = new Dictionary; KeyValuePair c; Yes c < _currentCluster No float d= (float)Math.Sqrt((double)Math.Pow ((c.Value.CentroidR -pd.Ch1), 2)+ double) Math.Pow((c.Value.CentroidG-pd.Ch2),2)+ (double)Math.Pow((c.Value CentroidBpd.Ch3),2)); distances Add(c Key, new Distance(d)); c ++ ; List list = new List; list AddRange(distances) ; list Sort ; _pixelDataCluster Allocation.Contai nsKey(list[0].Key) Yes ((List)_pixelDataClust erAllocation[list[0].Key]).Add(pd); No List clrList = new List; clrList add(pd); _pixelDataClusterAllocation Add(list[0] Key, clrList); X cụm màu Hình 3: Phân cụm Vũ Minh Đơng – CT1002 36 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng 4.2.2.3 Tính lại trọng tâm cụm Cụm màu KeyValuePair cluster; PixelData clr; No cluster Trọng tâm < _currentCluster List clrList=(List) _pixelDataClusterAllocation[cluster.Key]; Yes float cR=0, cG=0, cB=0; No clr < clrList Yes cR += clr.Ch1; cG += clr.Ch2; cB += clr.Ch3; No clr ++; float count = clrList.Count + 1; cluster.Value.CentroidR = (cluster.Value.CentroidR + cR)/ count ; cluster.Value.CentroidG = (cluster.Value.CentroidG + cG)/ count ; cluster.Value.CentroidB = (cluster.Value.CentroidB + cB)/ count ; cluster ++ ; !_clusterColours ContainsKey(clr Name) Yes _clusterColours.Add(clr.Name, Color.FromArgb((int)cluster.Value CentroidR,(int)cluster.Value.CentroidG, (int)cluster.Value.CentroidB)); Hình 4: Tính trọng tâm Vũ Minh Đông – CT1002 37 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng 4.2.2.4 Kiểm tra hội tụ Để kiểm tra tính hội tụ liệu kiểm tra trọng tâm vừa tính đƣợc với trọng tâm trƣớc cụm Trọng tâm bool match = true ; cluster ++; yes cluster < _currentCluster No yes Centroid != _previousClus ter Centroid No match = false No cluster ! match yes < _currentCluster yes _previousCluster Centroid = Centroid ; cluster ++ ; No _converged = match; No _converged Hình 5: Kiểm tra hội tụ Vũ Minh Đông – CT1002 38 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng 4.2.3 Kết thực nghiệm 4.2.3.1 Mơi trƣờng cài đặt Chƣơng trình đƣợc lập trình với ngơn ngữ C#, cài đặt chạy thử nghiệm môi trƣờng hệ điều hành Windows XP 4.2.3.2 Một số giao diện Giao diện khởi động Đƣa liệu vào Vũ Minh Đông – CT1002 39 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng Q trình xử lý liệu Kết phân cụm Vũ Minh Đông – CT1002 40 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng KẾT LUẬN Trong q trình nghiên cứu, tìm hiểu hồn thành đề tài đồ án tốt nghiệp “Tìm hiểu số phuơng pháp phân cụm liệu ứng dụng”, em thu nhận đƣợc thêm kiến thức em nhận thấy phân cụm liệu khai phá liệu lĩnh vực nghiên cứu rộng lớn, nhiều điều mà cần khám phá Trong đề tài em cố gắng tập trung tìm hiểu nghiên cứu tổng quan khai phá liệu, phân cụm liệu số thuật tốn nó, tổng quan phân vùng ảnh Cài đặt thử nghiệm thuật toán k-means với ứng dụng phân đoạn ảnh Do thời gian thực hạn chế nên em tìm hiểu đựơc số kỹ thuật phân cụm liệu, cài đặt thử nghiệm với thuật tốn Kmeans Nhƣng số kỹ thuật em chƣa tìm hiểu, khai thác ứng dụng cho toán … Trong thời gian tới em cố gắng tiếp tục nghiên cứu, tìm hiểu thêm kỹ thuật phân cụm tìm hiểu phát triển kỹ thuật phân đoạn ảnh để xử lý với ảnh động Sinh viên VŨ MINH ĐÔNG Vũ Minh Đông – CT1002 41 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng TÀI LIỆU THAM KHẢO Tài liệu tham khảo tiếng Việt [1.] Nhập môn xử lý ảnh, Lƣơng Mạnh Bá Nguyễn Thanh Thủy, nhà xuất Khoa học Kỹ thuật, 1999 [2.] Giáo trình xử lý ảnh, Ngơ Quốc Tạo, lớp CHCLC – ĐH Công Nghệ ĐHQG Hà Nội năm 2001- 2002 [3.] Bài giảng môn Data Mining, Ngô Quốc Tạo, lớp CHK5 – ĐH Thái Nguyên 2006 – 2008 [4.] Thuật toán phân cụm liệu nửa giám sát, Lƣu Tuấn Lâm – Đồ án tốt nghiệp ĐHDL Hải Phòng Tài liệu tham khảo tiếng Anh [5.] Discovering Knowledge in Data: An Introduction to Data Mining, Daniel T Larose, ISBN 0-471-66657-2 CopyrightC 2005 John Wiley & Sons, Inc [6.] In Proc 1996 Int Conf Data Mining and Knowledge Discovery (KDD-96), A Arning, R Agrawal and P Raghavan Alinear method for deviation detection in larger databases, Portland, Oregon, August 1996 [7.] http://www.wikipedia.org Vũ Minh Đông – CT1002 42 ... khai phá liệu từ liệu Vũ Minh Đông – CT1002 20 Một số phương pháp phân cụm liệu CHƢƠNG 3: ĐHDL Hải Phòng MỘT SỐ THUẬT TOÁN CƠ BẢN TRONG PHÂN CỤM DỮ LIỆU 3.1 Các thuật toán phân cụm phân hoạch... Phƣơng pháp phân cụm phân hoạch Phƣơng pháp phân cụm phân hoạch nhằm phân tập liệu có n phần tử cho trƣớc thành k nhóm liệu cho: phần tử liệu thuộc nhóm liệu nhóm liệu có tối thiểu phần tử liệu. .. đƣợc phân hoạch sau tiến hành phân cụm phân hoạch, nhƣ phân hoạch Vũ Minh Đông – CT1002 24 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng phần đƣợc phân cụm, cụm thu đƣợc lại đƣợc phân cụm lần

Ngày đăng: 16/03/2019, 19:45

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan