BÁO CÁO BÀI TẬP LỚN Môn Khai phá dữ liệu: Phân lớp dữ liệu số bằng giải thuật K-NN

19 8.6K 59
BÁO CÁO BÀI TẬP LỚN Môn Khai phá dữ liệu: Phân lớp dữ liệu số bằng giải thuật K-NN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trong thời buổi hiện đại ngày nay, công nghệ thông tin cũng như những ứng dụng của nó không ngừng phát triển, lượng thông tin và cơ sở dữ liệu được thu thập và lưu trữ cũng tích lũy ngày một nhiều lên. Con người cũng vì thế mà cần có thông tin với tốc độ nhanh nhất để đưa ra quyết định dựa trên lượng dữ liệu khổng lồ đã có. Các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế, vì thế, một khuynh hướng kỹ thuật mới là Kỹ thuật phát hiện tri thức và khai phá dữ liệu nhanh chóng được phát triển. Khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới. Ở Việt Nam, kỹ thuật này đang được nghiên cứu và dần đưa vào ứng dụng. Khai phá dữ liệu là một bước trong quy trình phất hiện tri thức. Hiện nay, mọi người không ngừng tìm tòi các kỹ thuật để thực hiện khai phá dữ liệu một cách nhanh nhất và có được kết quả tốt nhất. Trong bài tập lớn này, chúng em tìm hiểu và trình bày về một kỹ thuật trong khai phá dữ liệu để phân lớp dữ liệu cũng như tổng quan về khai phá dữ liệu, với đề tài “ Phân lớp dữ liệu số bằng giải thuật K-NN”. Trong quá trình làm bài tập lớn này, chúng em xin gửi lời cảm ơn đến thầy giáoNguyễn Mạnh Cường. Thầy đã rất tận tình hướng dẫn chi tiết cho chúng em, những kiến thức thầy cung cấp rất hữu ích. Chúng em rất mong nhận được những góp ý từ thầy.

GVHD: Nguyễn Mạnh Cường TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO BÀI TẬP LỚN Môn Khai phá liệu Phân lớp liệu số giải thuật K-NN Giáo viên hướng dẫn: Nguyễn Mạnh Cường Nhóm Lớp Kỹ thuật phần mềm – K7 Thành viên: Nguyễn Hà Anh Dũng Nguyễn Quang Long Nguyễn Thị Thảo Hà Nội, tháng năm 2016 Nhóm GVHD: Nguyễn Mạnh Cường Lời nói đầu Trong thời buổi đại ngày nay, công nghệ thông tin ứng dụng không ngừng phát triển, lượng thông tin sở liệu thu thập lưu trữ tích lũy ngày nhiều lên Con người mà cần có thông tin với tốc độ nhanh để đưa định dựa lượng liệu khổng lồ có Các phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế, thế, khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu nhanh chóng phát triển Khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới Ở Việt Nam, kỹ thuật nghiên cứu dần đưa vào ứng dụng Khai phá liệu bước quy trình phất tri thức Hiện nay, người không ngừng tìm tòi kỹ thuật để thực khai phá liệu cách nhanh có kết tốt Trong tập lớn này, chúng em tìm hiểu trình bày kỹ thuật khai phá liệu để phân lớp liệu tổng quan khai phá liệu, với đề tài “ Phân lớp liệu số giải thuật K-NN” Trong trình làm tập lớn này, chúng em xin gửi lời cảm ơn đến thầy giáo Nguyễn Mạnh Cường Thầy tận tình hướng dẫn chi tiết cho chúng em, kiến thức thầy cung cấp hữu ích Chúng em mong nhận góp ý từ thầy Chúng em xin chân thành cảm ơn! Sinh viên nhóm Nhóm GVHD: Nguyễn Mạnh Cường Chương 1: Tổng quan Khai phá liệu 1.1 Khái - niệm Khai phá liệu ? Khai phá liệu trình xác định mẫu tiềm ẩn có tính hợp lệ, lạ, có ích hiểu khối liệu lớn - Khai phá tri thức từ CSDL ( Knowledge Discovery in Database) Khai phá tri thức từ CSDL gồm bước B1: Lựa chọn CSDL B2: Tiền xử lý B3: Chuyển đổi B4: Khai phá liệu B5: Diễn giải đánh giá  Khai phá liệu bước trình khai phá tri thức từ CSDL - Các ứng dụng khai phá liệu Phát tri thức khai phá liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, sở liệu, thuật toán, tính toán song song tốc độ cao, thu thập tri thức cho hệ chuyên gia, quan sát liệu Đặc biệt phát tri thức khai phá liệu gần gũi với lĩnh vực thống kê, sử dụng phương pháp thống kê để mô hình liệu phát mẫu, luật Ngân hàng liệu Nhóm GVHD: Nguyễn Mạnh Cường (Data Warehousing) công cụ phân tích trực tuyến (OLAP- On Line Analytical Processing) liên quan chặt chẽ với phát tri thức khai phá liệu Khai phá liệu có nhiều ứng dụng thực tế, ví dụ như: • • • • • • • - Bảo hiểm, tài thị trường chứng khoán: phân tích tình hình tài dự báo giá loại cổ phiếu thị trường chứng khoán Danh mục vốn giá, lãi suất, liệu thẻ tín dụng, phát gian lận, Thống kê, phân tích liệu hỗ trợ định Điều trị y học chăm sóc y tế: số thông tin chuẩn đoán bệnh lưu hệ thống quản lý bệnh viện Phân tích mối liên hệ triệu chứng bệnh, chuẩn đoán phương pháp điều trị (chế độ dinh dưỡng, thuốc, ) Sản xuất chế biến: Quy trình, phương pháp chế biến xử lý cố Text mining Web mining: Phân lớp văn trang Web, tóm tắt văn bản, Lĩnh vực khoa học: Quan sát thiên văn, liệu gene, liệu sinh vật học, tìm kiếm, so sánh hệ gene thông tin di truyền, mối liên hệ gene số bệnh di truyền, Mạng viễn thông: Phân tích gọi điện thoại hệ thống giám sát lỗi, cố, chất lượng dịch vụ, Các bước trình khai phá liệu Quy trình phát tri thức thường tuân theo bước sau: Bước thứ nhất: Hình thành, xác định định nghĩa toán Là tìm hiểu lĩnh vực ứng dụng từ hình thành toán, xác định nhiệm vụ cần phải hoàn Nhóm GVHD: Nguyễn Mạnh Cường thành Bước định cho việc rút tri thức hữu ích cho phép chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu Bước thứ hai: Thu thập tiền xử lý liệu Là thu thập xử lý thô, gọi tiền xử lý liệu nhằm loại bỏ nhiễu (làm liệu), xử lý việc thiếu liệu (làm giàu liệu), biến đổi liệu rút gọn liệu cần thiết, bước thường chiếm nhiều thời gian toàn qui trình phát tri thức Do liệu lấy từ nhiều nguồn khác nhau, không đồng nhất, … gây nhầm lẫn Sau bước này, liệu quán, đầy đủ, rút gọn rời rạc hoá Bước thứ ba: Khai phá liệu, rút tri thức Là khai phá liệu, hay nói cách khác trích mẫu hoặc/và mô hình ẩn liệu Giai đoạn quan trọng, bao gồm công đoạn như: chức năng, nhiệm vụ mục đích khai phá liệu, dùng phương pháp khai phá nào? Thông thường, toán khai phá liệu bao gồm: toán mang tính mô tả - đưa tính chất chung liệu, toán dự báo - bao gồm việc phát suy diễn dựa liệu có Tuỳ theo toán xác định mà ta lựa chọn phương pháp khai phá liệu cho phù hợp Bước thứ tư: Sử dụng tri thức phát Là hiểu tri thức tìm được, đặc biệt làm sáng tỏ mô tả dự đoán Các bước lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực Các kết trình phát tri thức đưa vào ứng dụng lĩnh vực khác kết dự đoán 1.2 Một số kỹ thuật Khai phá liệu a Kỹ thuật khai phá luật kết hợp Trong khai phá liệu, mục đích luật kết hợp tìm mối quan hệ đối tượng khối lượng lớn liệu Để khai phá luật kết hợp có nhiều thuật toán, dùng phổ biến thuật toán Apriori Đây thuật toán khai phá tập phổ biến liệu giao dịch để phát luật kết hợp dạng khẳng định nhị phân sử dụng để xác định, tìm luật kết hợp liệu giao dịch Ngoài ra, có thuật toán FP-growth, thuật toán Partition,… b Kỹ thuật phân lớp Trong kỹ thuật phân lớp gồm có thuật toán: - - Phân lớp định (giải thuật ID3, J48): phân lớp liệu dựa việc lập nên định, nhìn vào định định liệu thuộc phân lớp Phân lớp dựa xác suất (Naïve Bayesian): dựa việc giả định thuộc tính độc lập mạnh với qua việc sử dụng định lý Bayes Nhóm 5 GVHD: Nguyễn Mạnh Cường - - Phân lớp dựa khoảng cách (giải thuật K – láng giềng): làm láng giềng làm, liệu phân vào lớp k đối tượng gần với liệu Phân lớp SVM: phân lớp liệu dựa việc tìm siêu phẳng “tốt nhất” để tách lớp liệu không gian nhiều chiều c Kỹ thuật phân cụm Phân cụm liệu cách phân bố đối tượng liệu vào nhóm/ cụm cho đối tượng cụm giống phần tử khác cụm, gồm có số phương pháp phân cụm như: + Phân cụm phương pháp K-mean: tìm tâm cụm mà khoảng cách tâm đến đối tượng, liệu khác ngắn + Phân cụm đồ thị Ngoài ra, khai phá liệu có nhiều kỹ thuật, kỹ thuật đơn giản khai phá liệu mà chúng em tìm hiểu Nhóm GVHD: Nguyễn Mạnh Cường Chương 2: Giải thuật K láng giềng gần (K-NN) 2.1 Tổng quan K-NN Bài toán phân loại liệu toán thường gặp sống kĩ thuật, có nhiều cách tiếp cận giải thuật đưa để giải toán phân lớp Một số thuật toán láng giềng gần k-NN(k-Nearest Neighbors) Thuật toán K- láng giềng gần ( viết tắt K-NN) thuật toán có mục đích phân loại lớp cho mẫu ( Query Point) dựa thuộc tính mẫu sẵn có ( Training Data) , mẫu nằm trọng hệ gọi không gian mẫu Một đối tượng phân lớp dựa vào K láng giềng K số nguyên dương xác định trước thực thuật toán Người ta thường dùng khoảng cách Euclidean để tính khoảng cách đối tượng với mẫu mới, sau chuẩn đoán mẫu thuộc phân lớp dựa vào số k láng giềng xác định trước có khoảng cách gần mẫu so với mẫu khác 2.2 Mô tả thuật toán K-NN Các mẫu mô tả n – chiều thuộc tính số Mỗi mẫu đại diện cho điểm chiều không gian n – chiều Theo cách tất mẫu lưu trữ mô hình không gian n – chiều Các bước thực Thuật toán K-NN mô tả sau: Xác định giá trị tham số K ( số láng giềng gần nhất) Tính khoảng cách đối tượng cần phân lớp (Query Point) với tất đối tượng mẫu có sẵn (Trainning Data) ( Thường sử dụng khoảng cách Euclidean) • Sắp xếp khoảng cách theo thứ tự tăng dần xác định K láng giềng gần với Query Point • Lấy tất lớp K láng giềng gần xác định • Dựa vào phần lớn lớp láng giềng gần để xác định lớp cho Query Ponit • • Minh họa K-NN: Trong hình đây, Trainning Data mô tả dấu (+) dấu (-), đối tượng cần xác định lớp cho (Query Point) hình mặt cười đỏ Nhiệm vụ ta ước lượng lớp Query Point dựa vào việc lựa chọn số láng giềng gần với Nói cách khác ta muốn biết liệu Query Point phân vào lớp (+) hay lớp (-) Nhóm GVHD: Nguyễn Mạnh Cường  Ta thấy rằng: Có Nearest Neightbor: Kết (–) :Query Point xếp vào lớp dấu (–) láng giềng gần với có đối tượng thuộc lớp (–) nhiều lớp (+) có đối tượng.) Đánh giá ưu, nhược điểm thuật toán 2.3 - Ưu điểm: + Tư tưởng đơn giản, thích hợp với hệ thống nhỏ + Dễ hiểu, dễ cài đặt - Nhược điểm + Giải thuật K-NN thích hợp cho việc phân loại liệu giải thuật khả phân tích liệu để tìm thông tin có giá trị Trong trình K-NN hoạt động, phải tính toán "khoảng cách" từ liệu cần xác định loại đến tất liệu tập huấn luyện (training set) ==> Nếu tập huấn luyện lớn, điều làm cho thời gian chạy chương trình lâu 2.4 Ví dụ minh họa Bây ta vào chi tiết cách thức hoạt động giải thuật k-NN Đầu tiên, phải chuẩn bị tập huấn luyện(training set) mà tất liệu tập biết trước thuộc lớp Người dùng đưa vào liệu chưa biết thuộc lớp K-NN so sánh liệu với tất liệu Nhóm GVHD: Nguyễn Mạnh Cường tập huấn luyện chọn k liệu gần giống Trong k liệu đó, k-NN xem xét xem lớp lớp chiếm đa số > đưa kết luận tập liệu cần xác định thuộc loại Ví dụ tham khảo “Machine learning in action” Petter Harington Ta phân loại xem phim thuộc thể loại phim hành động hay phim tình cảm Việc phân loại phim xác định cách đếm số lượng cú đá số lượng nụ hôn phim Ở đây, tập huấn luyện(training set), tập chứa số phim biết số lượng cú đá, nụ hôn phim đó, loại phim cho bảng sau: Tên phim California Man He isn't really into dudes Beautiful Woman Kevin Longblade Robo Slayer 3000 Amped II Anh Số lượng cú đá Số lượng nụ hôn 104 100 101 99 98 18 81 10 90 Loại phim Tình cảm Tình cảm Tình cảm Hành động Hành động Hành động ??? Ta biết số lượng cú đá, số lượng nụ hôn phim Nhiệm vụ ta xác định xem phim ? thuộc thể loại nào? Đầu tiên xác định xem giống phim “Anh” với phim khác Để làm điều đó, ta sử dụng Euclidean distance Euclidean distance việc tìm khoảng cách hai điểm không gian, ví dụ cho điểm P1(x1,y1) P2(x2,y2) Euclidean distance tính theo công thức: d= Để áp dụng euclidean distance vào trường hợp này, coi phim biểu diễn điểm tọa độ Oxy với số lượng cú đá tọa độ x số lượng nụ hôn tọa độ y Điều có nghĩa phim “California Man” biểu diễn điểm (3, 104); phim “He isn't really into dudes” biểu diễn điểm (2, 100), Gọi d euclidean distance thì: • “California Man”: d = =20.5 • “He isn't really into dudes”: d= = 18.7 • “Beautiful Woman”: d = =19.2 Nhóm GVHD: Nguyễn Mạnh Cường “Kevin Longblade”: d = = 115.3 • “Robo Slayer 3000”: d = = 117.4 • “Amped II”: d = = 118.9 • Sau tính toán ta bảng: Tên phim California Man He isn’t really into dudes Beautiful Woman Kevin Longblade Robo Slayer 3000 Amped II Euclidean distance 20.5 18.7 19.2 115.3 117.4 118.9 Chúng ta có khoảng cách euclidean từ phim chưa biết lớp tới phim tập huấn luyện, tìm k láng giềng gần cách xếp phim theo thứ tự euclidean distance từ nhỏ đến lớn Giả sử k = láng giềng gần nhất, phim “California Man”, “He isn't really into dudes” “Beautiful Woman” Thuật toán k-NN lấy loại phim chiếm ưu láng giếng gần để làm loại phim cho phim cần xác định lớp Vì phim thể loại Tình cảm ==> Phim “Anh” thuộc thể loại phim tình cảm Nhóm 10 GVHD: Nguyễn Mạnh Cường Chương 3: Thực giải thuật K-NN Weka Tổng quan Weka 3.1 Weka (viết tắt Waikato Environment for Knowledge Analysis) phần mềm học máy Đại học Waikato, New Zealand phát triển Java Weka phần mềm tự phát hành theo Giấy phép công cộng GNU Theo KDNuggets (2005): Weka sản phẩm khai thác liệu sử dụng nhiều hiệu năm 2005 Những tính bật Weka: • • • • Hỗ trợ nhiều thuật toán máy học khai thác liệu Được tổ chức theo dạng mã nguồn mở Độc lập với môi trường ( sử dụng máy ảo java JVM) Dễ sử dụng, kiến trúc dạng thư viện dễ dàng việc xây dựng ứng dụng thực nghiệm Các chức Weka: Nhóm 11 GVHD: Nguyễn Mạnh Cường Các chức Weka Explorer thể thẻ (tab) hình chính, bao gồm: • Preprocess: Cho phép mở, điều chỉnh, lưu tập tin liệu, thẻ chứa • • • • • thuậtt toán áp dụng tiền xử lý liệu Classify: Cung cấp mô hình phân loại liệu hồi quy Cluster: Cung cấp mô hình gom cụm Associate: Khai thác tập phổ biến luật kết hợp SelectAttribites: Lựa chọn thuộc tính thích hợp tập liệu Visualize: Thể liệu dạng biểu đồ Khai phá liệu: * Sử dụng thẻ Preprocess (1) Open file…: Mở tập tin liệu (2) Edit…: Hiển thị chỉnh sửa liệu tay cần thiết (3) Save…: Lưu liệu tập tin Weka Explorer hỗ trợ số định dạng có định dạng cần quan tâm *.arff *.csv (4) Filter: Các tác vụ tiền xử lý gọi lọc( thuật toán) (5) Selected attribute: Thông tin thuộc tính chọn: Nhóm 12 GVHD: Nguyễn Mạnh Cường o o o o o   3.2 Type: Kiểu liệu thuộc tính (Numeric: Dạng số, Nominal: Dạng rời rạc/phi số) Missing: Số mẫu thiếu giá trị thuộc tính xét Distinct: Số giá trị phân biệt Unique: Số mẫu giá trị trùng với mẫu khác Bảng thống kê: Dạng phi số:Thể giá trị tần suất giá trị Dạng số:Thể số đại lượng thống kê giá trị nhỏ nhất, lớn nhất, giá trị trung bình độ lệch chuẩn Thực thuật toán K-NN Weka Để thực thuật toán K-NN Weka, chúng em chọn liệu Iris sẵn có Weka để trình bày Trước tiên, để thực thuật toán, ta mở Weka, chọn Explorer, chọn Open file, liệu lưu: C:\Program Files\Weka-3-6\data Sau chọn liệu, hình hiển thị sau: Để thực K-NN Weka, ta chọn tag Classify Choose IBk: Nhóm 13 GVHD: Nguyễn Mạnh Cường Click Start để chạy thuật toán Chúng ta chọn số K xác định công thức tính khoảng cách cho thuật tán cách click đúp vào ô thuật toán cửa sổ sau: Xác định số láng giềng k=5 Dùng khoảng cách Euclidean Ngoài ra, thực chức KnowledgeFlow Weka hiển thị kiến thức: Nhóm 14 GVHD: Nguyễn Mạnh Cường 3.3 Một số kết đạt Sau thực áp dụng giải thuật K-NN Weka với liệu Iris, ta thu kết sau: Nhóm 15 GVHD: Nguyễn Mạnh Cường Kết với k=1 Nhóm 16 GVHD: Nguyễn Mạnh Cường Kết với k=2 Kết với k=5 Nhóm 17 GVHD: Nguyễn Mạnh Cường Kết luận *Kết đạt hạn chế có - Kết quả: + Hiểu tổng quan khai phá liệu số kỹ thuật khai phá + Có thể ứng dụng thuật toán K- láng giềng vào liệu khác sau - Hạn chế: Tất kiến thức nắm mức lý thuyết thực hành sơ qua máy tính riêng, chưa thực hành thực tế nhiều để hiểu sau rộng thuật toán kỹ thuật khai phá liệu *Hướng nghiên cứu Trong trình tìm hiểu thực hành, chúng em nhận thấy thuật toán K-láng giềng thuật toán đơn giản, dễ sử dụng Tuy nhiên, việc ứng dụng thuật toán liệu lớn hạn chế Vì vậy, chúng em tiếp tục tìm hiểu kỹ thuật thuật toán khai phá liệu để có thêm nhiều kiến thức phục vụ công việc áp dụng vào ứng dụng tự xây dựng sau Nhóm 18 GVHD: Nguyễn Mạnh Cường Tài liệu tham khảo Thuật toán K- láng giềng gần – Nguyễn Văn Chức http://bis.net.vn/forums/p/370/635.aspx Sử dụng KnowledgeFlow Weka để xây dựng mô hình Khai phá liệu – Nguyễn Văn Chức http://bis.net.vn/forums/p/426/770.aspx Slide giảng dạy thầy giáo Nguyễn Mạnh Cường Bài giảng Khai phá liệu online Link: http://hfs1.duytan.edu.vn/upload/ebooks/3262.pdf Ngoài ra, chúng em tham khảo viết google, youtube,… Nhóm 19 [...]... chỉnh, lưu một tập tin dữ liệu, thẻ này chứa các • • • • • thuậtt toán áp dụng trong tiền xử lý dữ liệu Classify: Cung cấp các mô hình phân loại dữ liệu hoặc hồi quy Cluster: Cung cấp các mô hình gom cụm Associate: Khai thác tập phổ biến và luật kết hợp SelectAttribites: Lựa chọn các thuộc tính thích hợp nhất trong 1 tập dữ liệu Visualize: Thể hiện dữ liệu dưới dạng biểu đồ Khai phá dữ liệu: * Sử dụng... nhiều để hiểu sau rộng về thuật toán cũng như các kỹ thuật khai phá dữ liệu *Hướng nghiên cứu Trong quá trình tìm hiểu và thực hành, chúng em nhận thấy thuật toán K-láng giềng là một thuật toán đơn giản, dễ sử dụng Tuy nhiên, việc ứng dụng thuật toán này trên các bộ dữ liệu lớn còn khá hạn chế Vì vậy, chúng em sẽ tiếp tục tìm hiểu các kỹ thuật cũng như thuật toán khai phá dữ liệu để có thêm nhiều kiến... với bộ dữ liệu Iris, ta thu được kết quả như sau: Nhóm 5 15 GVHD: Nguyễn Mạnh Cường Kết quả với k=1 Nhóm 5 16 GVHD: Nguyễn Mạnh Cường Kết quả với k=2 Kết quả với k=5 Nhóm 5 17 GVHD: Nguyễn Mạnh Cường Kết luận *Kết quả đạt được và hạn chế nếu có - Kết quả: + Hiểu được tổng quan về khai phá dữ liệu cũng như một số kỹ thuật khai phá cơ bản + Có thể ứng dụng thuật toán K- láng giềng vào các bộ dữ liệu khác... o o o   3.2 Type: Kiểu dữ liệu của thuộc tính (Numeric: Dạng số, Nominal: Dạng rời rạc/phi số) Missing: Số mẫu thiếu giá trị trên thuộc tính đang xét Distinct: Số giá trị phân biệt Unique: Số mẫu không có giá trị trùng với mẫu khác Bảng thống kê: Dạng phi số: Thể hiện các giá trị và tần suất của mỗi giá trị Dạng số: Thể hiện một số đại lượng thống kê như giá trị nhỏ nhất, lớn nhất, giá trị trung bình... trung bình và độ lệch chuẩn Thực hiện thuật toán K-NN trong Weka Để thực hiện thuật toán K-NN trên Weka, chúng em chọn bộ dữ liệu Iris sẵn có trong Weka để trình bày Trước tiên, để thực hiện thuật toán, ta mở Weka, chọn Explorer, chọn Open file, dữ liệu được lưu: C:\Program Files\Weka-3-6\data Sau khi chọn được bộ dữ liệu, màn hình hiển thị như sau: Để thực hiện K-NN trên Weka, ta chọn tag Classify... phá dữ liệu: * Sử dụng thẻ Preprocess (1) Open file…: Mở một tập tin dữ liệu (2) Edit…: Hiển thị và chỉnh sửa dữ liệu bằng tay nếu cần thiết (3) Save…: Lưu dữ liệu hiện tại ra tập tin Weka Explorer hỗ trợ một số định dạng trong đó có 2 định dạng chính cần quan tâm là *.arff và *.csv (4) Filter: Các tác vụ tiền xử lý được gọi là các bộ lọc( thuật toán) (5) Selected attribute: Thông tin về thuộc tính... sau này Nhóm 5 18 GVHD: Nguyễn Mạnh Cường Tài liệu tham khảo 1 Thuật toán K- láng giềng gần nhất – Nguyễn Văn Chức 2 3 4 5 http://bis.net.vn/forums/p/370/635.aspx Sử dụng KnowledgeFlow trong Weka để xây dựng mô hình Khai phá dữ liệu – Nguyễn Văn Chức http://bis.net.vn/forums/p/426/770.aspx Slide giảng dạy của thầy giáo Nguyễn Mạnh Cường Bài giảng Khai phá dữ liệu online Link: http://hfs1.duytan.edu.vn/upload/ebooks/3262.pdf... chạy thuật toán Chúng ta có thể chọn số K và xác định công thức tính khoảng cách cho thuật tán bằng cách click đúp vào ô thuật toán một cửa sổ hiện ra như sau: Xác định số láng giềng k=5 Dùng khoảng cách Euclidean Ngoài ra, chúng ta còn thực hiện chức năng KnowledgeFlow của Weka hiển thị kiến thức: Nhóm 5 14 GVHD: Nguyễn Mạnh Cường 3.3 Một số kết quả đạt được Sau khi thực hiện áp dụng giải thuật K-NN. ..GVHD: Nguyễn Mạnh Cường Chương 3: Thực hiện giải thuật K-NN trên Weka Tổng quan về Weka 3.1 Weka (viết tắt của Waikato Environment for Knowledge Analysis) là một bộ phần mềm học máy được Đại học Waikato, New Zealand phát triển bằng Java Weka là phần mềm tự do phát hành theo Giấy phép công cộng GNU Theo KDNuggets (2005): Weka là sản phẩm khai thác dữ liệu được sử dụng nhiều nhất và hiệu quả nhất năm... Giấy phép công cộng GNU Theo KDNuggets (2005): Weka là sản phẩm khai thác dữ liệu được sử dụng nhiều nhất và hiệu quả nhất năm 2005 Những tính năng nổi bật của Weka: • • • • Hỗ trợ nhiều thuật toán máy học và khai thác dữ liệu Được tổ chức theo dạng mã nguồn mở Độc lập với môi trường ( do sử dụng máy ảo java JVM) Dễ sử dụng, kiến trúc dạng thư viện dễ dàng trong việc xây dựng các ứng dụng thực nghiệm Các

Ngày đăng: 17/05/2016, 12:24

Từ khóa liên quan

Mục lục

  • Lời nói đầu

  • Chương 1: Tổng quan về Khai phá dữ liệu

    • 1.1. Khái niệm cơ bản

    • 1.2. Một số kỹ thuật Khai phá dữ liệu

    • Chương 2: Giải thuật K láng giềng gần nhất (K-NN)

      • 2.1. Tổng quan về K-NN

      • 2.2. Mô tả thuật toán K-NN

      • 2.3. Đánh giá ưu, nhược điểm của thuật toán

      • 2.4. Ví dụ minh họa

      • Chương 3: Thực hiện giải thuật K-NN trên Weka

        • 3.1. Tổng quan về Weka

        • 3.2. Thực hiện thuật toán K-NN trong Weka

        • 3.3. Một số kết quả đạt được

        • Kết luận

        • Tài liệu tham khảo

Tài liệu cùng người dùng

Tài liệu liên quan