Khoá luận tốt nghiệp ngành công nghệ thông tin KANTS hệ kiến nhân tạo cho phân lớp

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Văn Dương KANTS: HỆ KIẾN NHÂN TẠO CHO PHÂN LỚP KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Văn Dương KANTS: Hệ kiến nhân tạo cho phân lớp KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán hướng dẫn: PGS.TS Hoàng Xuân Huấn Đồng hướng dẫn: ThS Đỗ Đức Đông HÀ NỘI - 2010 LỜI CẢM ƠN Tôi muốn bày tỏ cảm ơn sâu sắc tới thầy Hoàng Xuân Huấn, thuộc môn Khoa học máy tính, khoa Công nghệ thông tin, trường Đại học Công nghệ, ĐHQGHN Trong thời gian thực khóa luận, thầy nhiệt tình hướng dẫn giúp đỡ nhiều Ngoài thời gian tìm hiểu cung cấp tài liệu, thầy vướng mắc qua trình làm, giúp đỡ khắc phục để đạt hiệu cao Ngoài muốn gửi lời cảm ơn tới thầy đồng hướng dẫn Đỗ Đức Đông, thầy nhiệt tình giúp đỡ việc tìm hiểu giải khúc mắc sai lầm làm khóa luận Tôi muốn bày tỏ cảm ơn tới các thầy, cô môn, thầy, cô khoa, trường tạo điều kiện tốt giúp đỡ cho hoàn thành khóa luận TÓM TẮT NỘI DUNG Mặc dù nghiên cứu từ lâu, đến phân lớp mẫu có công cụ toán học để giải hiệu chưa cao Mạng Neural nhân tạo phương pháp hay để giải toán phân lớp mẫu Năm 1987, Kohonen giới thiệu phương pháp đồ tự tổ chức loại mạng neural đơn giản hiệu để giải toán phân cụm phân lớp Năm 1991, Dorigo giới thiệu phương pháp hệ kiến để giải toán tối ưu tổ hợp hiệu Từ đó, mô hình giải toán phức tạp mà tư tưởng dựa mô hành loài kiến đạt nhiều bước tiến đáng kể Điển hình hệ kiến Chialvo Millonas Nội dung khóa luận trình bày khảo cứu thuật toán KANT (một kết hợp) để giải toán phân lớp sau ứng dụng sở lý thuyết để xây dựng chương trình kiểm tra độ xác thuật toán so với k láng giềng gần cải tiến phần thuật toán học tập hợp (Ensembler learning) để thu kết tốt Danh mục hình Hình 1: Minh họa Neuron thần kinh sinh học Hình 2: Đồ thị hàm ngưỡng Hình 3: Đồ thị hàm tuyến tính Hình 4: Đồ thị hàm sigmoid Hình 5: Đồ thị hàm Hình 6: Đồ thị hàm Gauss Hình 7: Kiến trúc mạng neural truyền tới Hình 8: Mẫu liệu ví dụ cho KNN 12 Hình 9: Trực quan hóa mẫu mặt phẳng 13 Hình 10: Bỏ phiếu mẫu liệu KNN 14 Hình 11: Mô hình mạng SOM 18 Hình 12: Các mạng SOM thể phân bố liệu tập IRIS 19 Hình 13: Dạng ngẫu nhiên ban đầu SOM 21 Hình 14: Tráng thái lưới SOM sau số bước huấn luyện 22 Hình 15: Thí nghiệm cho thấy phân cụm ấu trùng kiến 26 Hình 16: Mã giả thuật toán KA NTS 29 Hình 17: Mã giả hàm định bước 30 Hình 18: Công thức xác suất di chuyển 30 Hình 19: Lân cận 31 Hình 20: Sự phân cụm kiến theo tham sô 38 Hình 21: Mô hình trực quan giải thích học tập hợp 42 Hình 22: Mô hình nguyên lý học tập hợp 43 Hình 23: Ensembler learning với hỗ trợ mô hình chuyên gia 44 BẢNG TỪ VIẾT TẮT SOM ( Self-organizing map) Bản đồ tự tổ chức KNN (K nearest neibours) K láng giềng gần AS (Ant System) Phương pháp hệ kiến ANN (Artificail Neural Network) Mạng neural nhân tạo BMU (Best matching unit) Phần tử gần MỤC LỤC MỞ ĐẦU CHƯƠNG 1: BÀI TOÁN PHÂN LỚP VÀ MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN 1.1 PHÁT BIỂU BÀI TOÁN PHÂN LỚP 1.1.1 Mẫu (pattern/sample) 1.1.2 Nhận dạng mẫu gì? 1.1.3 Các toán nhận dạng mẫu thường gặp 1.2 MẠNG NEURAL NHÂN TẠO 1.2.1 Mạng Neural sinh học 1.2.2 Mạng Neural nhân tạo 1.3 PPHƯƠNG PHÁP K LÁNG GIỀNG GẦN NHẤT 10 1.3.1 Thuật toán k láng giềng gần gì? 10 1.3.2 Thuật toán KNN 11 CHƯƠNG 2: BẢN ĐỒ TỰ TỔ CHỨC 15 2.1 Giới thiệu 15 2.2 Thuật toán 16 2.3 Phân tích 22 CHƯƠNG 3: KANTS – HỆ KIẾN NHÂN TẠO CHO PHÂN LỚP 24 3.1 Giới thiệu 24 3.2 Các khái niệm mở đầu 25 3.2.1 Mô hình nhận thức bầy đàn hệ kiến nhân tạo 25 3.2.2 Nhắc lại SOM – đồ tự tổ chức 27 3.2.3 Ant System 27 3.3 Mô hình kiến tự tổ chức 29 CHƯƠNG 4: KẾT QUẢ VÀ THỰC NGHIỆM 34 4.1 Xây dựng chương trình kiểm thử 34 4.2 Chuẩn bị liệu kiểm tra 35 4.3 Sự phụ thuộc chất lượng thuật toán vào tham số 36 4.3.1 β-δ – Độ ngẫu nhiên theo mùi 37 4.3.2 Tham số k thuật toán k láng giềng gần 39 4.3.3 Kích thước lưới 39 4.3.4 Bán kính lân cận 40 4.3.5 Tham số q0 40 4.3.6 Tham số bán kính trọng tâm cr 40 4.3.7 Tham số bay 41 4.3.8 Số lần lặp tối thiểu cách xác định điều kiện dừng thuật toán 41 4.4 Mở rộng KANTS 41 4.4.1 Giới thiệu Ensembler learning 41 4.4.2 Áp dụng ensembler learning vào toán phân lớp với KANTS 44 CHƯƠNG 5: KẾT LUẬN 46 MỞ ĐẦU Sự phát mạnh mẽ công nghệ cao nói chung khoa học máy tính nói riêng ngày thu hút nhiều nhà khoa học công nghệ quan tâm nghiên cứu toán nhận dạng mẫu Thoạt tiên, toán nhận dạng mẫu xuất phát từ nhu cầu tạo nên thành phần máy có khả quan sát môi trường Cùng với phát triển ứng dụng công nghệ thông tin, đặc biệt lĩnh vực học máy, người ta phải sâu phát triển hệ nhận dạng mẫu có khả tìm mẫu sở liệu lớn hay gọi khám phá tri thức từ liệu Phân lớp mẫu toán thường gặp nhận dạng mẫu phân thành hai loại có giám sát giám sát Trong toán phân lớp có giám sát, dựa tập liệu gán nhãn, người ta xây dựng phân lớp để gán nhãn cho liệu chưa biết Còn toán không giám sát, người ta phân tập liệu chưa gán nhãn thành các tập cho đối tượng liệu tập có đặc tính giống so với đối tượng tập khác Trong toán nhận dạng mẫu, toán phân lớp có giám sát toán ứng dụng rộng rãi Việc xây dựng phân lớp toán thực thuật toán học máy (học có giám sát) Với học có giám sát truyền thống, người thường phải bỏ nhiều công sức để gán nhãn cho tập liệu đào tạo muốn có học tốt Phương pháp đơn giản thông dụng để giải toán phân lớp k láng giềng gần Gần đây, phương pháp KANTS mô hành vi loài kiến kết hợp với đồ tự tổ chức (SOM) Kohonen Nội dung khóa luận trình bày khái quát phương pháp phân lớp KANTS, sở xây dựng chương trình thử nghiệm thuật toán C++ đánh giá hiệu với k khác Ngoài ra, xây dựng phân lớp nhờ phương pháp học tập hợp học với k khác có Kết thực nghiệm cho thấy, chất lượng học cải tiến đáng kể so với học thành phần Trong phương pháp kinh điển để giải toán phân lớp có giám sát, mô hình mạng neural nhân tạo phương pháp k-láng giềng gần chứng tỏ tính hiệu Xong, hiệu suất độ xác phương pháp/mô hình chưa cao kì vọng Khóa luận xin trình bày thuật toán KANTS: kết hợp đồ tự tổ chức (một loại mạng neural nhân tạo) Kohonen phương pháp hệ kiến Chialvo Milonas Bố cục khóa luận gồm phần sau: Chương 1: Giới thiệu toán phân lớp hai phương pháp kinh điển để giải toán là: mạng neural nhân tạo phương pháp k-láng giềng gần Chương 2: Giới thiệu đồ tự tổ chức Kohonen bao gồm kiến trúc luật học Chương 3: Phương pháp hệ kiến thuật toán KANTS Chương 4: Kết thực nghiệm mở rộng KANTS Chương 5: Kết luận với vector kiến Dựa vào nhãn ô tìm được, tìm nhãn xuất nhiều so sánh nhãn với nhãn thực kiến Nếu hai nhãn giống tức ta phân lớp 33 Chương 4: KẾT QUẢ VÀ THỰC NGHIỆM Chương trình bày xây dựng phần mềm kiểm tra kết KANTS, so sánh với KNN, đồng thời phụ thuộc kết vào tham số Cuối chương trình bày thuật toán để cải tiến KNN 4.1 Xây dựng chương trình kiểm thử: Trong khóa luận này, viết chương trình để tính toán kiểm tra độ xác thuật toán phân loại KANTS, đồng thời viết chương trình cho thuật toán k láng giềng gần để tiện so sánh Chương trình viết ngôn ngữ C++ Microsoft Windows công cụ Visual Studio Phần mềm gồm class chính: Cell, Ant Kants Mỗi đối tượng Cell biểu diễn ô lưới Mỗi đối tượng Ant biểu diễn kiến Kants đối tượng gồm mảng chiều ô (Cell) mảng kiến (Ant) Mỗi ô xác định tọa độ (x, y) Mỗi ô đặc trưng vector trọng số Số chiều ô xác định số chiều liệu đầu vào Ngoài ô có biến để xác định class tương ứng cờ để xác định có kiến ô chưa (trường hợp cho kiến ô) Mỗi kiến đặc trưng vector trọng số mà mang theo để huấn luyện mạng, vị trí (x, y) tọa độ ô mà đứng, class tương ứng với vector trọng số mà mang theo Ma trận trọng tâm xác định ma trận có kích thước với kích thước lưới Vị trí (x, y) ma trận trọng tâm vùng có tâm ô (x, y) lưới, tính trung bình cộng vector trọng số Tham số bán kính tâm tùy chọn chương trình, thông thường bán kính tâm xấp xỉ bán kính cụm tối ưu Hàm định Decide_where_to_go: Hàm xác định xem bước lặp, kiến đâu Theo KANTS nói trên: chương trình sinh số ngẫu nhiên q, q < q0 Chương trình chọn điểm (x, y) lưới cho khoảng cách Ơ clit vector vector kiến với vector ma trận trọng tâm (x, y) cho hàm xác xuất nhỏ 34 Hàm updateVector: cập nhật vector xung quanh kiến theo vector Hàm centroid_calculate: tính lại ma trận trọng tâm sau bước lặp Hàm vote_cell: gán nhãn cho ô lưới dựa vào khoảng cách Ơ clit Hàm read_patterns: đọc mẫu vào Hàm main: trước hết chương trình đọc tham số vào, đọc file mẫu vào, khởi tạo lưới với trọng số ngẫu nhiên Đặt kiến ngẫu nhiên lưới Sau đó, bước lặp, chương trình tính ma trận trọng tâm, xác định bước cho kiến, cập nhật môi trường xung quanh, bay mùi đến thuật toán đạt điều kiện dừng Chương trình cho thuật toán k láng giềng gần đơn giản có hàm đọc liệu vào hàm vote để tính toán độ xác phân lớp 4.2 Chuẩn bị liệu kiểm tra Các tập liệu sử dụng để kiểm tra kiểm chứng mô hình sở liệu giới thực quen thuộc lấy từ UCI Machine Learning repository (http://archive.ics.uci.edu/ml/) IRIS chứa liệu gồm loài hoa iris( Iris Setosa, Versicolo Virginica), 50 mẫu loại thuộc tính số học ( độ dài độ rộng cánh đo cm) GLASS chưa liệu từ loại ống nhòm khác nghành tội phạm học Có lớp với 214 mẫu (được phân bố không lớp) đặc tính số học liền quan đến thành phần hóa học thủy tinh PIMA (cơ sở liệu bệnh đái đường Ấn độ) chứa liệu liên quan đến số bệnh nhân nhãn lớp biểu diễn chuẩn đoán bênh đái đường theo tiêu chuẩn tổ chức y tế giới Có 768 mẫu với thuộc tính số học (dữ liệu thành phần hóa học) Với sở liệu, tập dựng lên việc chuyển liệu gốc thành tập rời có kích cỡ Phân bố lớp gốc bảo toàn tập hợp Vậy cặp tập liệu traning-test tạo cách chia tập thành 2; chúng đặt tên 50tran-50tst (nghĩa nửa để huấn luyện nửa để kiểm tra) Và, cặp khác tạo phân bố gồm 90% mẫu cho huấn luyện 10 % để kiểm tra Những tập đặt tên 90tra-10tst Để phân lớp với KANTS, than số cần là: số lân cận cần so sánh với mẫu kiểm tra Theo cách này, thuật toán tìm kiếm K 35 vector gần lưới (sử dụng khoảng cách Ơclit) tới vector tương ứng với mẫu muốn phân lớp Nó gán lớp cho mẫu lớp phần lớp vector tìm Nói cách khác ta sử dụng phương pháp K-Nearest Neihbours (KNN – hay K láng giềng gần nhất), trường hợp ta sử dụng đồng thời cho việc gán nhãn neural tìm nhãn lớp liệu kiểm tra nhiều lần thuật toán làm việc tốt chí với K = Với K = 10, ta có bảng so sánh KANTS KNN với tập liệu khác sau: Tập liệu KANTS KNN IRIS (9-1) 86.6666% 86.6666% PIMA(9-1) 72.7272% 71.4286% GLASS(9-1) 54.5454% 50.00% IRIS(5-5) 89.3333% 94.6667% PIMA(5-5) 70.833332% 73.4375% GLASS(5-5) 59.090908% 51.4019% Sử dụng cách tiếp cận thống kê, chạy 10 lần với cặp tập liệu (huấn luyện test) Thu kết phân loại tốt làm phép thống kê Khi so sánh với phương pháp kinh điển ta thấy KANTS trội hẳn chọn hệ số tốt 4.3 Sự phụ thuộc chất lượng thuật toán vào tham số: Các tham số có ảnh hưởng lớn đến chất lượng thuật toán, việc chọn tham số cho thường khó, phụ thuộc vào đặc điểm mẫu liệu huấn luyện: số mẫu, số lớp… Sau ta xét tiến hành thí nghiệm để xem tham số ảnh hướng đến kết 36 4.3.1 β-δ – Độ ngẫu nhiên theo mùi: Trong [9] tác giả thực so sánh phân bố kiến AS, với cặp β-δ không gian tham số khác Ba loại hành vi quan quan sát nhìn vào ảnh chụp hệ thống sau lặp lại 1000 lần: rối hoạn, vá lỗ hổng tạo đường mòn Rối loạn trạng thái mà cụm chưa phân, trạng thái hệ thống bắt đầu học, ta nhìn cụm trạng thái Vá lỗ hổng giai đoạn cụm hình thành chưa rõ ràng (chưa tròn), có “lỗ hổng” cụm, trạng thái hệ thống học sau số bước Tạo đường mòn giai đoạn mà vệt mùi hình thành rõ nét, cụm phân bố tương đối rõ, kiến theo “đường mòn” để cụm lại với Dưới biểu đồ thể phân bố phụ thuộc vào hai tham số β-δ Các tham số α (nr) (cr) lấy là: 1, Nhìn vào biểu đồ ta thấy là: tham số lý tưởng để việc phân cụm diễn nhanh là: β ~ 32-64 δ gần phụ thuộc tuyến tính vào β với δ ~ – 0.4 Quá trình làm thí nghiệm để rút điều kiện để tham số tối ưu, thu bảng thể phân bố kiến sau (): 37 Hình 20: Sự phân cụm kiến theo tham sô Nhìn vào biểu đồ ta thấy trình miêu tả Dựa vào kết này, KANTS công cụ phân cụm hiệu đầy hứa hẹn Với tham số β-δ khởi tạo hợp lí, liệu biểu diễn kiến tạo nên cụm, cụm dễ dàng phân biệt lưới Trong thực tế ta cần sử dụng số loại tìm kiếm địa phương để xử lí gán nhãn cho ô lưới dựa vào khoảng cách Ơ clit gán tìm k ô lưới gần với mẫu liệu test 38 Phương pháp k láng giềng gần đủ tốt trình huấn luyện “làm mịn” liệu vào, xong chưa hoàn toàn “mịn” hẳn, cuối chương có giới thiệu phương pháp học tập hợp để cải thiện hiệu thuật toán trình huấn luyện làm mịn tăng thêm độ xác 4.3.2 Tham số k thuật toán k láng giềng gần nhất: K số xác định số lân cận dùng thuật toán KNN, thực tế sau lưới KANTS huấn luyện, k = cho kết đủ tốt Nguyên nhân phân cụm neural làm giảm đáng kể nhiễu Tuy nhiên, số neural lưới nhỏ mà số cụm (số nhãn lớp liệu huấn luyện) lại lớn bán kính cụm lại nhỏ, chọn k lớn có nhiễu, sai sốlớn đáng kể Ta có bảng thống kê sau: k Iris(9-1) 86.6666 % 86.666664% 93.333336% 93.333336% 93.333336% Pima 65.62500% 64.843750% 69.791672% 69.010422% 70.833328% Glass 36.363636% 63.636364% 59.090908% 59.090908% 54.545456% 4.3.3 Kích thước lưới: Bảng thống kê khảo sáo thay đổi theo kích thước lưới: Kích thước 30x50 35x50 50x50 80x50 100x100 Iris 80.000000% 80.000000% 86.666664% 86.666664% 80.000000% Pima 67.968750% 67.447922% 63.541668% 68.489578% 66.666672% Glass 40.909092% 54.545456% 59.090908% 63.636364% 59.090908% 39 4.3.4 Bán kính lân cận: Bảng thống kê với bán kính lân cận thay đổi: nr Iris(9-1) 86.666664% 80.000000% 86.666664% 86.666664% Pima(9-1) 68.831169% 68.831169% 66.233765% 67.532471% Glass(9-1) 31.818182% 45.454548% 50.000000% 59.090908% 4.3.5 Tham số q0: Tham số điều khiển cân khai thác khám phá Nghĩa khả kiến chọn đường để tìm cụm hay tiếp tục đường có nồng độ mùi cao Nhìn chung tham số q0 không ảnh hưởng nhiều đến kết phân loại với tập liệu nhỏ chương trình 4.3.6 Tham số bán kính trọng tâm cr: Bán kính trọng tâm, ảnh hưởng nhiều đến thời gian chạy thuật toán, cr nhỏ, thời gian chạy thuật toán nhỏ cụm nhỏ, khả kiến xa thấp, điều làm lưới xuất nhiều cụm bé cho kết phân lớp xác Tuy nhiên cr không lớn, cr lớn, thời gian chạy thuật toán lớn mà cụm vừa hình thành bị xé ra… Cr Iris(9-1) 86.666664% 86.666664% 86.666664% 86.666664% 86.666664% Pima(9-1) 63.636364% 63.636364% 63.636364% 63.636364% 63.636364% Glass(9-1) 59.090908% 59.090908% 59.090908% 59.090908% 59.090908% 40 4.3.7 Tham số bay Tham số thể tốc độ bay mùi, tốc độ bay lớn, vector ô lưới dễ tiến (0, 0), tức gần với class có vector trọng số nhỏ mà kiến chưa kịp cập nhật Nếu tốc độ bay nhỏ, vệt mùi khó hình thành, nhiều thông tin học tăng cường 4.3.8 Số lần lặp tối thiểu cách xác định điều kiện dừng thuật toán: Điều kiện dừng thuật toán bước lặp t xác định hình dạng lưới không thay đổi sau bước lặp t + Nghĩa có lặp thêm không thay đổi dạng lưới, thực tế điều khó xảy đồng thời lưới xảy hai hành động trái ngược nhau: bay mùi cập nhật mùi Hai hành động bù trừ khiến lưới không ổn định Tuy nhiên thay đổi đủ nhỏ, ta xem lưới đủ ổn định, xác định ổn định cách tính khoảng cách Ơ clit vector vector kiến vector mà kiến 4.4 Mở rộng KANTS: Trong thực tế thực gán nhãn cho ô cho liệu test, ta thực thuật toán k láng giềng gần (KNN), nhiên k láng giềng gần có nhược điểm số trường hợp liệu nhiễu làm sai kết Để làm giảm ảnh hưởng nhiễu, ta sử dụng Emsembler learning cho KNN, tức tiến hành bỏ phiếu với k thay đổi dựa kết này, tìm nhãn lớp bỏ nhiều sau giá trị k, gán cho nhãn lớp 4.4.1 Giới thiệu Ensembler learning: Ensembler learning trình học tập hợp mà nhiều mô hình nhiều liệu huấn luyện sử dụng phân loại, chiến lược kết hợp để sinh kết quả, kết hợp kết để sinh kết cuối Ensembler learning chủ yếu sử dụng để cải thiện (phân loại, dự báo, xấp xỉ…) hiệu suất mô hình, làm giảm khả lựa chọn không may mô hình xác Mô hình trực quan sau: 41 Hình 21: Mô hình trực quan giải thích học tập hợp Giải thích sơ đồ: với mô hình (phương pháp) cho ta lời giải (đường biên phân lớp) khác nhau, tất có chung nhược điểm có sai số, ta cần giảm thiểu tối đa sai số này, lẽ di nhiên phương pháp cải thiện thêm nữa, nhiên kết hợp kết phương pháp theo tư tưởng thống kê, lời giải kết hợp cho kết đáng tin cậy Tức là, sơ đồ trên, đường biên gộp chung đường biên cho kết tin cậy Sơ đồ thuật toán: 42 Hình 22: Mô hình nguyên lý học tập hợp Việc kết hợp học Ci cho ta kết cuối Ngoài có học tập hợp kết hợp mô hình chuyên gia, nghĩa với mô hình kết hợp với trọng số thể độ xác để tăng cường tốt Do tính phức tạp nên khoa luận đưa mô hình Mô sau: 43 Hình 23: Ensembler learning với hỗ trợ mô hình chuyên gia 4.4.2 Áp dụng ensembler learning vào toán phân lớp với KANTS: Có hai gian đoạn mà ta áp dụng học tập hợp ensembler learning vào toán Thứ nhất: giai đoạn gán nhãn cho ô: việc gán nhãn cho ô i lưới việc áp dụng phương pháp k láng giềng gần để tìm nhãn lớp bỏ phiếu nhiều nhất, kết nhãn lớp gán cho ô Áp dụng học tập hợp, thay gán cho ô đó, ta chọn N kết quả, tức chọn cho k = 1,N Áp dụng phương pháp k láng giềng gần với k để tìm K nhãn bỏ phiếu, chọn nhãn bảo phiếu nhiều N gán nhãn cho ô Vậy việc gán nhãn hai lần bỏ phiếu, nhãn gán nhãn qua vòng hai 44 Thứ hai: giai đoạn tìm nhãn cho mẫu liệu (phân lớp): Việc gán nhãn tiến hành tương tự giai đoạn thay gán nhãn cho ô, ta gán nhãn cho mẫu liệu thay tính khoảng cách với kiến, ta tính khoảng cách với ô Độ xác thuật toán tính tương tự Kết so sánh thuật toán cũ mới: Kiểu học KANTS KANTS với thuật toán Với KNN Ensembler learning Iris(9-1) 86.666664% 93.333336% Pima(9-1) 72.727272% 74.025978% Glass(9-1) 45.454548% 54.545456% Nhận xét: Nhìn chung ensembler learning có cải thiện thuật toán cho kết tốt KANTS thông thường, việc cải thiện nhiều hay phụ thuộc vào việc chọn tham số liệu huấn luyện Tuy nhiên trường hợp lưới KANTS đủ “mịn” việc N lớn làm sai số tăng lên Nếu N = thuật toán trở dạng ban đầu với k = 45 CHƯƠNG 5: KẾT LUẬN Khóa luận trình bày thuật toán KohonAnts (hay gọi KANTS), phương pháp cho việc phân lớp liệu, dựa kết hợp thuật toán kiến đồ tự tổ chức Kohonen Mô hình đưa mẫu liệu n-biến vào kiến nhân tạo lưới xuyến 2D với vector n-chiều Dữ liệu/kiến di chuyển lưới để tạo khác biệt mặt liệu, từ cụm hình thành Quá trình di chuyển kiến tạo độ mịn lưới Khi lưới đủ ổn định, kiến dừng ta tiến hành gán nhãn cho ô lưới Lưới sau gán nhãn giống lưới SOM huấn luyện, công cụ để phân lớp tốt nhiều công cụ thông thường khác Khóa luận đồng thời việc kết hợp KANTS với phương pháp học tập hợp cho kết khả quan Tuy nhiên hiệu KANTS phân lớp liệu phức tạp, nhiều biến, nhiều lớp tốt KNN xong nhiều hạn chế Việc chọn hệ số thích hợp khó khăn chắn cho kết tốt KNN 46 Tham khảo: KohonAnts: A Self-Organizing Ant Algorithm for Clustering and Pattern Classification: C Fernandes1,2, A.M Mora2, J.J Merelo2, V Ramos1,J.L.J Laredo KANTS: Artificial Ant System for classification: C Fernandes1,2, A.M Mora2, J.J Merelo2, V Ramos1,J.L.J Laredo Self-organizing maps: http://en.wikipedia.org/wiki/Self-organizing_map Ensemble learning: http://en.wikipedia.org/wiki/Ensemble_learning K-nearest neibourds algorithm: http://www.scholarpedia.org/article/Knearest_neighbor Ant Colony Optimization: http://en.wikipedia.org/wiki/Ant_colony_optimization Theodoridis S., Koutroumbas K Pattern Recognition.3rd.ed.(AP, 2006) Artificial neural network: http://en.wikipedia.org/wiki/Artificial_neural_network Swarn Chialvo, D.R., Millonas, M.M., “How Swarms build Cognitive Maps” 10 http://www.scholarpedia.org/article/Ensemble_learning [...]... dạng sau  Phân lớp có giám sát hay phân loại (categorize): Dựa trên một tập con (tập đào tạo) đã biết nhãn, đưa ra một cách gán nhãn cho các đối tượng mới để phân tập các đối tượng thành các lớp Ví dụ: nhận dạng chữ viết tay nhờ các chữ đã biết, nhận dạng loài hoa nhờ các thông tin về độ dài, độ rộng, màu sắc  Phân lớp không giám sát hay phân cụm (cluster): Chia tập đối tượng thành nhóm sao cho các... của mạng Neural nhân tạo 4 Về bản chất toán học thì mạng Neural nhân tạo như là một mặt trong không gian đa chiều để xấp xỉ một hàm chưa biết nào đấy Nhưng mạng Neural nhân tạo lại giống mạng Neural sinh học ở chỗ đó là khá năng có thể huấn luyện(học), đây là đặc điểm quan trọng nhất của mạng Neural nhân tạo Chính vì đặc điểm này mà mạng Neural nhân tạo có khả năng thực hiện tốt các công việc sau khi... sẽ được cụm lại gần nhau 23 CHƯƠNG 3: KANTS – HỆ KIẾN NHÂN TẠO CHO PHÂN LỚP Chương này sẽ giới thiệu về mô hình nhận thức bầy đàn của Chialvo và Minonas Sau đó sẽ trình bày sự kết hợp của mô hình này với bản đồ tự tổ chức và chi tiết về KANTS 3.1 Giới thiệu: Như đã nói ở trên, KANTS là một sự kết hợp ưu điểm giữa SOM và ACO dùng trong bài toán nhận dạng và phân lớp mẫu SOM là một bài toán học mạng neural... Neural nhân tạo (ANN) là máy mô phỏng cách bộ não hoạt động thực hiên các nhiệm vụ của nó Một mạng Neural là bộ xử lý song song phân tán lớn nó giống bộ não người về 2 mặt: -Tri thức được nắm bắt bởi Neural thông qua quá trình học -Độ lớn của trọng số kết nối Neural đóng vai trò khớp nối cất giữ thông tin a) Cấu tạo một Neuron trong mạng Neural nhân tạo x1 w1 x2 w2 xn w3 w0 Y ∑ ∑ F Cấu tạo một Neural nhân. .. sigmoid thường dùng cho mạng Neural truyền thẳng nhiều tầng MLP vì các hàm này dễ tính đạo hàm: f '( x)  f ( x)(1  f ( x)) , trong khi đó mạng Neural RBF lại dùng hàm kích hoạt là hàm bán kính b) Kiến trúc của mạng Neural nhân tạo 8 Kiến trúc của mạng Neural nhân tạo lấy tư tưởng chính của mạng Neural sinh học đó là sự kết nối của các Neural Tuy nhiên, mạng Neural nhân tạo có kiến trúc HIDDEN INPUT... W.Pitts (1940) đề xuất mô hình mạng neural nhân tạo khá sớm nhưng định đề Heb (1949) mới là nền tảng lý luận cho mạng neural nhân tạo Định đề Heb: Khi một neuron(thần kinh) A ở gần neuron B, kích hoạt thường xuyên hoặc lặp lại việc làm cháy nó thì phát triển một quá trình sinh hoá ở các neuron làm tăng tác động này 1.2.2 Mạng Neural nhân tạo Mạng Neural nhân tạo được thiết kế để mô hình một số tính chất... thành công trong những bài toán và những vấn đề kinh điển và cho kết quả tốt hơn những thuật toán kinh điển khác như K-nearest neibouhoods và Mạng neural Việc phân cụm được thực hiện một cách tự nhiên bằng một số loại kiến theo hai con đường khác nhau Thứ nhất, hệ kiến nhận dạng bởi mùi của các thành viên khác trong hệ của chúng dẫn đến một sự phân cụm tự nhiên theo các tổ giống nhau;thứ 2, các con kiến. .. nhiều hay ít Ngoài ra ở một số loài 25 kiến, mùi mà chúng nhả ra còn đặc trưng cho hệ gien mà dựa vào đó, các con kiến có thể xác định mùi này thuộc con kiến của loài nào (hoặc tổ nào) Đây chính là các truyền thông gián tiếp mà các con kiến tạo ra, chúng dựa vào môi trường để biết trạng thái của các con kiến khác Qua đó chúng tự tổ chức để tìm được những đường đi đủ tốt (tối ưu hoặc gần tối ưu) Thí nghiệm... 2, các con kiến làm việc phân cụm một cách thủ công các ấu trùng của chúng và các con đã chết, đặt những thứ đó vào từng dống, vị trí và kích cỡ của các đống này là hoàn toàn độc lập Thuật toán kiến được dùng trong các mô hình như được đưa ra trong [9] đã được áp dụng vào việc phân cụm và phân lớp Thông thường, các phương pháp này đi theo hành động phân cụm thứ 2: dữ liệu cho việc huấn luyện các cụm...CHƯƠNG 1: BÀI TOÁN PHÂN LỚP VÀ MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN Chương này trình bày về khái niệm bài toán phân lớp trong học máy và hai phương pháp kinh điển để giải bài toán này hiện nay: mạng neural và k-láng giềng gần nhất 1.1 PHÁT BIỂU BÀI TOÁN PHÂN LỚP 1.1.1 Mẫu (pattern/sample): Có thể phân làm hai hoại: mẫu trừu tượng và mẫu cụ thể Các ý tưởng, lập luận và khái niệm là những ví dụ

Khoá luận tốt nghiệp ngành công nghệ thông tin KANTS hệ kiến nhân tạo cho phân lớp

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan