Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định

90 925 4
Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

2 Mục lục Mục lục Mở đầu Chương 1.1 Công nghệ khai phá tri thức khai phá liệu 1.1.1 1.1.2 1.1.3 1.2 Tổng quan công nghệ khai phá tri thức kho liệu Khai phá tri thức khai phá liệu Quá trình khai phá tri thức Nhiệm vụ khai phá liệu Kho liệu 13 1.2.1 1.2.2 1.2.3 Chương Kho liệu số đặc điểm 13 Sự khác kho liệu sở liệu tác nghiệp 15 Kiến trúc chung kho liệu 19 Tiền xử lý liệu, công đoạn quan trọng trình KDD 25 2.1 Giới thiệu 25 2.2 Làm liệu 26 2.2.1 2.2.2 2.2.3 2.3 Tích hợp chuyển đổi liệu 29 2.3.1 2.3.2 2.4 Chương Một số phương pháp xây dựng định khai phá liệu 43 Phân lớp dự báo 43 Chuẩn bị liệu cho phân lớp dự báo 46 So sánh phương pháp phân lớp 47 Phân lớp quy nạp định 47 3.2.1 3.2.2 3.2.3 3.2.4 3.2.5 3.2.6 3.3 Tổng quát hóa rời rạc hóa bậc khái niệm cho liệu kiểu số 37 Tổng quát hóa mức khái niệm cho liệu kiểu xác định 40 Phân lớp dự báo 43 3.1.1 3.1.2 3.1.3 3.2 Kết hợp khối liệu 32 Thu gọn chiều 34 Nén liệu 36 Giảm bớt số lượng 36 Rời rạc hóa tổng quát hóa bậc khái niệm 37 2.5.1 2.5.2 3.1 Tích hợp liệu 29 Chuyển đổi liệu 31 Thu gọn liệu 32 2.4.1 2.4.2 2.4.3 2.4.4 2.5 Giá trị bị 26 Dữ liệu bị nhiễu 27 Dữ liệu không quán 29 Quy nạp định 48 Thu gọn 53 Rút quy tắc phân lớp từ định 54 Cải tiến quy nạp định 55 Quy nạp định khả cỡ 56 Tích hợp quy nạp định với công nghệ kho liệu 59 Xây dựng định phụ thuộc hàm 60 3.3.1 3.3.2 3.3.3 3.3.4 3.3.5 Định nghĩa vấn đề 62 Hàm xấp xỉ phụ thuộc 62 Phương pháp phân lớp 63 Ưu điểm việc sử dụng lớp phụ thuộc hàm (CFDs) 64 Đánh giá 65 Chương Khai phá liệu CSDL ORACLE 10G 66 4.1 Giới thiệu công cụ khai phá liệu Oracle 66 4.2 Quá trình khai phá liệu Oracle 68 4.3 Một số thuật toán ODM 69 4.3.1 4.3.2 Chương Các thuật tốn học có giám sát 69 Các thuật tốn học khơng giám sát 73 Bài toán khai phá liệu khách vi phạm quy chế xuất nhập cảnh 78 5.1 Lựa chọn phương pháp phân lớp 78 5.2 Mô tả liệu nghiệp vụ 79 5.2.1 5.2.2 Chuẩn bị liệu cho ứng dụng 79 Lựa chọn liệu cho ứng dụng 80 5.3 Các tham số xây dựng mơ hình cho thuật toán định 82 5.4 Xây dựng mơ hình 83 5.4.1 5.4.2 Xây dựng kiểm thử mơ hình 83 Nhận xét 88 Kết luận 89 Kết đạt luận văn 89 Phương hướng nghiên cứu 89 Tài liệu tham khảo 91 Mở đầu Trong vài thập niên trở lại đây, với phát triển mạnh mẽ công nghệ phần cứng, tạo máy tính có lực xử lý nhanh, khả lưu trữ lớn Cùng với việc tin học hóa mạnh mẽ hầu hết lĩnh vực đời sống xã hội nên tổ chức thu thập khối lượng liệu lớn Nhiều hệ quản trị sở liệu với giải pháp lưu trữ công cụ phân tích liệu mạnh giúp khai thác cách hiệu nguồn tài nguyên liệu quý báu thu thập Tuy nhiên, vấn đề mà gặp phải liệu thu thập lưu trữ ngày nhiều thiếu thông tin, thiếu tri thức giúp nhà quản lý định Các cơng cụ phân tích liệu truyền thống tỏ không hữu hiệu lượng liệu thu thập tăng lên cách nhanh chóng Nhu cầu tìm kiếm thơng tin tri thức ẩn chứa liệu có từ lâu đến năm 90 kỷ trước với phát triển mạnh mẽ của số lĩnh vực kho liệu, hệ hỗ trợ định, phương pháp phát tri thức khai phá liệu thu kết bước đầu Từ đó, khai phá liệu phát tri thức trở thành lĩnh vực nghiên cứu sôi động, thu hút quan tâm nhiều nhà khoa học thuộc lĩnh vực khác sở liệu, học máy, trí tuệ nhân tạo, thống kê,… Luận văn đề cập đến kiến thức, kỹ thuật liên quan đến khai phá liệu Đi sâu nghiên cứu, phân tích, đánh giá so sánh số phương pháp, thuật toán khai phá liệu định Bằng việc vận dụng kiến thức trình bày luận văn, kết hợp với tìm hiểu ứng dụng công nghệ khai phá liệu Oracle, triển khai toán khai phá liệu thực tế, “Dự đốn loại vi phạm quy chế xuất nhập cảnh người nước Việt Nam” Chương Tổng quan công nghệ khai phá tri thức kho liệu 1.1 Công nghệ khai phá tri thức khai phá liệu 1.1.1 Khai phá tri thức khai phá liệu Khai phá tri thức sở liệu (KDD) trình nhận biết mẫu hay mơ hình từ liệu, với tính chất: có giá trị, mới, khả ích hiểu [3] Khai phá liệu (DM) cơng đoạn q trình KDD, bao gồm thuật tốn khai phá liệu cụ thể, thực với khả có hạn máy tính, để tìm mẫu hay mơ hình liệu Nói cách khác, mục tiêu chung KDD DM tìm mẫu, mơ hình mà ta quan tâm, tồn sở liệu bị che lấp KDD phát triển nhanh chóng với lĩnh vực có liên quan quản trị sở liệu, thống kê, học máy tính tốn song song hiệu cao, thu nhận tri thức cho hệ chuyên gia, trực quan hóa liệu Các lĩnh vực có mục đích chung chắt lọc (extract) tri thức từ liệu sở liệu lớn Các lĩnh vực học máy, nhận dạng mẫu KDD có mục đích nghiên cứu lý thuyết giải thuật cho hệ thống nhằm tìm mẫu mơ hình bên liệu (là phương pháp khai phá liệu chính) Khai phá tri thức tập trung vào việc mở rộng lý thuyết giải thuật cho tốn tìm kiếm mẫu đặc biệt (có thể hiểu theo nghĩa tri thức có ích hay quan tâm) tập liệu lớn giới thực KDD có nhiều điểm chung với phương pháp thống kê, đặc biệt phân tích liệu có tính chất thăm giò (EDA) Những hệ thống KDD thường nhúng vào bên thủ tục thống kê cách riêng biệt, để mơ hình hóa liệu kiểm sốt nhiễu, thủ tục đóng vai trị thành phần kết cấu tổng thể hệ khám phá tri thức 1.1.2 Quá trình khai phá tri thức Q trình khai phá tri thức thơng thường gồm có số bước [3], hình 1.1: - Tìm hiểu ứng dụng hình thành tốn Bước hiển nhiên điều kiện việc chắt lọc tri thức hữu dụng để lựa chọn phương pháp khai phá liệu thích hợp bước thứ ba phù hợp với mục tiêu ứng dụng chất liệu - Thu thập xử lý liệu Bao gồm việc chọn lựa nguồn liệu, loại bỏ nhiễu, xử lý liệu bị mất, chuyển đổi (nếu có) thu gọn liệu Bước thường chiếm phần lớn thời gian tồn q trình KDD - Khai phá liệu: Thực việc chắt lọc mẫu, mô hình bị che lấp liệu Trong “mơ hình xem biểu diễn tổng thể cấu trúc nhằm tóm lược thành phần mang tính hệ thống nằm liệu miêu tả tập liệu sinh sôi nảy nở nào” Trái lại, “mẫu cấu trúc cục liên quan đến nhóm trường số ca liệu” Phương pháp khai phá liệu có số lớp như: Mơ hình dự đốn bao gồm phân lớp hồi quy; phân đoạn; mơ hình phụ thuộc mơ hình đồ thị ước lượng mật độ; Mơ hình tóm lược tìm mối quan hệ trường, liên kết… - Làm sáng tỏ tri thức tìm được, đặc biệt thể dạng mô tả dự đốn, hai mục tiêu hệ thống khai phá liệu thực tế Kinh nghiệm cho thấy, mẫu mơ hình tìm thấy khơng phải lúc đáng quan tâm trực tiếp sử dụng Vì trình KDD cần thiết lặp lặp lại với việc đánh giá tri thức thu Để đánh giá kết thu người ta thường chia liệu làm hai phần, phần thứ dùng để huấn luyện phần thứ hai dùng vào việc kiểm thử Có thể lặp lại bước số lần với lần chia liệu khác nhau, sau lấy kết trung bình để đánh giá luật thi hành - Bước cuối đem tri thức phát vào sử dụng thực tế Trong số trường hợp, người ta sử dụng tri thức phát mà khơng cần phải đưa vào hệ thống máy tính Mặt khác, người sử dụng lại mong muốn tri thức tìm được đưa vào máy tính khai thác số chương trình Đưa kết thu vào sử dụng thực tế mục tiêu cuối quy trình KDD Nhận dạng định nghĩa vấn đề Thu nhận tiền xử lý liệu KHAI PHÁ DỮ LIỆU Chắt lọc tri thức Giải thích đánh giá kết Sử dụng tri thức khai phá Hình 1.1 Q trình khai phá tri thức Có điều cần phải lưu ý không gian mẫu thường vô hạn, để liệt kê mẫu cần phải có số hình thức nghiên cứu khơng gian Hiệu tính tốn bị ràng buộc việc giới hạn khơng gian tìm kiếm mà thực thuật toán 1.1.3 Nhiệm vụ khai phá liệu Để nhiệm vụ khai phá liệu thực cách thuận lợi, hiệu thành công người ta phải quan tâm đến số yếu tố, bao gồm: đặc tả phần sở liệu hay tập liệu mà người sử dụng quan tâm; loại tri thức để khai phá; tri thức giúp ích cho việc định hướng trình khai phá; đánh giá quan tâm với mẫu tìm được…Dưới xem xét số yếu tố [4] 1.1.3.1 Dữ liệu liên quan đến nhiệm vụ khai phá Yếu tố đặc tả liệu mà thực khai phá Thơng thường, người sử dụng quan tâm đến phần nhỏ sở liệu Khai phá toàn sở liệu điều không thực tế, số lượng mẫu sinh hàm mũ cỡ sở liệu nhiều mẫu tìm thấy chẳng liên quan đến quan tâm người sử dụng Trong sở liệu quan hệ, liệu liên quan đến nhiệm vụ thu thập thơng qua truy vấn quan hệ, bao gồm thao tác chọn, chiếu, nối, kết hợp Việc chuẩn bị liệu xem “nhiệm vụ con” nhiệm vụ khai phá liệu Quá trình thu thập liệu đem lại liệu quan hệ mới, gọi liệu quan hệ khởi tạo Dữ liệu xếp hay nhóm lại tùy thuộc vào điều kiện rõ truy vấn Sau đó, làm chuyển đổi trước áp dụng phương pháp phân tích liệu 1.1.3.2 Loại tri thức khai phá Chỉ rõ loại tri thức khai phá điều quan trọng, xác định rõ chức khai phá liệu thực Tri thức bao gồm loại mô tả khái niệm, dự báo, phân cụm phân tích phát triển… Thêm vào việc rõ loại tri thức khai phá cho nhiệm vụ khai phá liệu, người sử dụng rõ cung cấp khuân mẫu mà tất mẫu tìm phải phù hợp Những khn mẫu đó, sử dụng để định hướng cho trình khai phá 1.1.3.3 Tri thức Tri thức thơng tin lĩnh vực khai phá, hữu dụng cho tiến trình khai phá Chúng ta tập trung ý vào dạng tri thức mạnh biết thứ bậc khái niệm Thứ bậc khái niệm cho phép khai phá tri thức nhiều mức trừu tượng khác Một thứ bậc khái niệm định nghĩa chuỗi ánh xạ từ tập khái niệm mức thấp đến khái niệm mức cao, tổng quát hình thức thể có ý nghĩa tri thức Trong đó, cho phép liệu thơ kiểm soát mức độ trừu tượng cao khái quát Quá trình khái quát liệu thực cách thay liệu gốc liệu có mức khái niệm cao Điều cho phép người sử dụng quan sát liệu với ý nghĩa đầy đủ hơn, minh bạch làm cho mẫu tìm dễ hiểu Những thứ bậc khái niệm cung cấp người sử dụng hệ thống, chuyên gia lĩnh vực, kỹ sư tri thức Chúng cịn tự động khai phá cải tiến cách linh hoạt dựa vào phân tích thống kê phân bố liệu 1.1.3.4 Độ đo lôi quấn Việc rõ liệu liên quan loại tri thức khai phá làm giảm số lượng mẫu sinh Tuy nhiên, trình khai phá liệu sinh số lượng lớn mẫu Thơng thường, có phần nhỏ mẫu thực quan tâm người sử dụng cụ thể Vì thế, người sử dụng cần phải hạn chế số lượng mẫu khơng quan tâm sinh q trình khai phá Điều thu cách độ đo lơi quấn để đánh giá tính dễ hiểu, chắn, có lợi tính lạ mẫu thu Thông thường, độ đo kết hợp với ngưỡng, người sử dụng điều chỉnh ngưỡng này, luật không phù hợp với ngưỡng xem không đáng ý Dưới xem khái quát số độ đo mục tiêu Tính dễ hiểu: Một nhân tố góp phần vào quan tâm mẫu làm cho người nhận thức mẫu cách dễ dàng Tính dễ hiểu định nghĩa dạng kích thước mẫu tính bit, số lượng thuộc tính hay tốn hạng xuất mẫu Ví dụ, mẫu có cấu trúc phức tạp khó hiểu lơi quấn Độ chắn: Mỗi mẫu tìm có độ đo chắn gắn liền với chúng Độ đo đánh giá tính hiệu lực hay tính đáng tin cậy 10 mẫu Độ đo chắn luật kết hợp có dạng “A=>B” Cho tập ghi (hoặc giao dịch), tin tưởng “A=>B” định nghĩa là: SuTinTuong ( A  B)  So _ ban _ ghi _ bao _ gom _ ca _ A _ va _ B So _ ban _ ghi _ co _ A cơng thức (1.1) Ví dụ: Cho tập ghi liệu bán hàng cơng ty máy tính Sự tin tưởng luật kết hợp 85% Mua(X,”may_tinh”) => Mua(X,”Phan_mem”) Có nghĩa 85% khách hàng mua máy tính mua phần mềm Sự tin tưởng đạt 100% có nghĩa luật tìm thấy ln ln tập liệu phân tích, luật gọi xác Sự có lợi: Khả có lợi mẫu nhân tố định rõ lôi quấn Nó có đánh giá hàm tiện ích, hàm ủng hộ (Support) Sự ủng hộ mẫu kết hợp liên quan đến tỷ lệ phần trăm ghi cho mẫu Cho luật kết hợp có dạng “A=>B” A B tập mục, ủng hộ định nghĩa là: Ung _ ho( A  B)  So _ ban _ ghi _ bao _ gom _ A _ va _ B Tong _ so _ cac _ ban _ ghi công thức (1.2) Ví dụ: Cho tập ghi liệu bán hàng cơng ty máy tính luật kết hợp có ủng hộ 30% nghĩa có 30% tổng số khách hàng mua máy tính phần mềm 1.1.3.5 Biểu diễn mẫu tìm Để việc khai phá liệu thêm hiệu quả, hệ thống khai phá liệu nên có khả thể mẫu phát nhiều hình thức khác nhau, luật, bảng tổng hợp, biểu đồ, định hay biểu diễn trực quan khác Việc cho phép thể mẫu phát nhiều hình thức khác giúp người sử dụng với kinh nghiệm khác nhận mẫu đáng quan tâm để tác động hay định hướng cho hệ thống lần khai phá tiếp 11 sau Một người sử dụng rõ hình thức thể sử dụng cho việc hiển thị mẫu phát Sự cần thiết phải có KDD Có nhiều lý khiến cần phải có KDD, số lý tiêu biểu [3]: - Nhiều tổ chức, thời gian dài thu thập lượng lớn liệu, họ phải làm với liệu - Người ta thu thập lưu trữ liệu nghĩ thu thơng tin có giá trị từ liệu - Trong kinh doanh, thu giữ liệu thị trường, đối thủ cạnh tranh khách hàng Trong ngành sản xuất, thu giữ liệu hiệu suất, tối ưu hóa hội, nguyên tắc cải tiến quy trình rắc rối gặp phải - Chỉ có lượng nhỏ liệu thu thập phân tích - Với ý nghĩ tiếp tục thu thập liệu để không bỏ qua điều quan trọng, mà liệu lại khơng phân tích gây tốn - Các phương thức phân tích liệu cổ điển tỏ khơng phù hợp lượng liệu lên - Nhiều người phân tích liệu khơng phải chuyên gia liệu, cần phải có cơng cụ để họ thực cơng việc phân tích liệu - Trong mơi trường cạnh tranh việc phát dấu hiệu bất thường nhanh chóng đưa định phù hợp điều quan trọng Một số khó khăn gặp phải xây dựng KDD Trong trình xây dựng KDD, gặp phải trở ngại, phải tìm cách khắc phục vượt qua trở ngại để thu kết mong muốn Một khó khăn [3]: 77 phá liệu Sự kết hợp chặt chẽ trình khai phá liệu trình phát triển ứng dụng đặt ODM vào vị trí lựa chọn tảng cho việc xây dựng ứng dụng khai phá liệu tích hợp tự động - Oracle thêm vào giao diện gọi Oracle Spreadsheet dùng cho mục đích phân tích dự báo (Predictive Analytics) Giao diện tích hợp vào Microsoft Excel cho phép người dùng kết nối với gói PL/SQL PREDICT EXPLAIN cách hoàn toàn tự động Dữ liệu Excel CSDL Áp dụng ghi nhận mơ hình Khi mơ hình khai phá liệu ODM xây dựng, việc áp dụng mơ hình cho liệu ghi nhận ghi Ghi nhận kết trình dự báo Trong ODM, thuật toán khai phá liệu thực việc xây dựng áp dụng mơ hình CSDL, khơng yêu cầu phải đưa liệu để thực công cụ khai phá liệu khác Đây kiến trúc hiệu quả, đặc biệt làm việc với liệu lớn ODM áp dụng mơ hình theo chế độ mẻ theo u cầu Áp dụng mơ hình theo chế độ mẻ lấy bảng ghi làm đầu vào lưu trữ dự báo bảng khác Các dự báo theo yêu cầu lấy ghi đơn trả dự báo mà đưa trực tiếp vào ứng dụng gọi 78 Chương Bài toán khai phá liệu khách vi phạm quy chế xuất nhập cảnh Hiện với sách mở cửa nhà nước, ngày có nhiều người nước (NNN) đến Việt Nam để làm việc, tìm kiếm hội đầu tư, tham quan du lịch… Tuyệt đại đa số NNN đến Việt Nam với thiện chí chấp hành tốt pháp luật Việt Nam nói chung quy chế XNC nói riêng, nhiên số cịn có trường hợp vi phạm pháp luật Việt Nam, vi phạm Quy chế xuất nhập cảnh Tình hình vi phạm diễn ngày phức tạp, với hành vi thủ đoạn tinh vi, hòng qua mắt quan thi hành pháp luật Việc vi phạm NNN ảnh hưởng xấu đến tình hình an ninh trị, trật tự an tồn xã hội Từ tình hình dẫn đến việc khai phá tập liệu thu thập nhiệm vụ quan trọng, giúp cho việc đánh giá, phân tích định, dự đốn tình hình trường hợp vi phạm quy chế XNC, hỗ trợ cho quan chức có thêm sở để đấu tranh, ngăn chặn hành vi vi phạm Dựa số liệu người nước vi phạm quy chế XNC thu thập từ nhiều năm qua, tiến hành phân lớp liệu với mục tiêu “Dự đoán loại vi phạm quy chế XNC NNN Việt Nam” 5.1 Lựa chọn phương pháp phân lớp Trước tiến hành phân tích tập liệu thực sự, điều quan trọng phải lựa chọn phương pháp dự báo phù hợp, điều ảnh hưởng đến hiệu giá trị việc phân tích Phương pháp Bayesian hay lan truyền ngược (Backpropagation) phương pháp phân lớp phổ biến Nhưng việc tính tốn đơn giản, phương pháp phân lớp Bayesian cho lớp độc lập điều kiện với nhau, tức là, cho nhãn lớp mẫu, giá trị thuộc tính độc lập điều kiện với thuộc tính khác [11] Nhưng toán chúng ta, tồn quan hệ phức tạp thuộc tính tập liệu 79 lớp độc lập điều kiện lúc thỏa mãn, không sử dụng phương pháp phân lớp Bayesian Phương pháp phân lớp Backpropagation có thời gian huấn luyện dài, đòi hỏi tham số đặc trưng mà giá trị tham số có kinh nghiệm, lại khó hiểu Với ứng dụng đặc điểm làm cho người định thao tác khó khăn [11] Vì tốn khơng lựa chọn phương pháp phân lớp Quy nạp định hình thức phân tích liệu sử dụng để lấy mơ hình miêu tả lớp liệu quan trọng, để dự đoán xu liệu tương lai Ở Chương III thảo luận vấn đề liên quan đến quy nạp định Đây phương pháp phân lớp có ý tưởng đơn giản dễ hiểu, đặc biệt mơ hình xây dựng định dễ dàng biến đổi thành hình thức thể khác có lợi cho người định Vì tốn sử dụng phương pháp quy nạp định, phương pháp ODM sử dụng thuật tốn xây dựng định Ngồi sử dụng công cụ Oracle Data Miner, có giao diện đồ họa để minh họa thực tốn 5.2 Mơ tả liệu nghiệp vụ Hàng ngày liệu NNN vi phạm quy chế XNC từ nhiều nguồn Sân bay, cảng biển, cửa đường bộ, Công an địa phương tập hợp truyền Cục Quản lý xuất nhập cảnh Mỗi ghi có đến 40 trường, phải lựa chọn thông tin liên quan, tích hợp tiền xử lý liệu để có tập liệu đào tạo có chất lượng tốt, điều góp phần tạo nên xác hiệu bước khai phá liệu sau 5.2.1 Chuẩn bị liệu cho ứng dụng 5.2.1.1 Tích hợp chuyển đổi liệu Mặc dù tập liệu NNN vi phạm quy chế XNC có nhiều thơng tin, số thơng tin ta cần cho q trình phân tích lại khơng sẵn có, cần phải tích hợp từ nguồn liệu khác để có thơng tin Ví 80 dụ: Thuộc tính nghề_nghiệp cần phải phân tích ứng dụng chúng ta, liệu gốc khơng có sẵn thơng tin này, ta phải thu thập liệu dựa vào nguồn liệu khác liệu khách xin nhập cảnh, khách nhập cảnh cửa khẩu… Ta lấy liệu cách kết hợp sử dụng thơng tin có sẵn số_hộ_chiếu quốc_tịch Sau lấy liệu về, nhiều trường hợp chưa sử dụng chưa phù hợp nên phải chuyển đổi chuẩn hóa liệu 5.2.1.2 Rời rạc hóa liệu Rời rạc hóa kỹ thuật sử dụng để làm giảm số lượng giá trị thuộc tính có kiểu liệu liên tục Số lượng phân biệt giá trị thuộc tính nhỏ làm cho phương pháp dự báo dựa vào định thực nhanh dễ hiểu Lấy ví dụ, trường ngày_sinh (kiểu Date) người vi phạm thuộc tính kiểu liên tục cần phải rời rạc hóa Thơng thường, chia làm số khoảng tuổi tương ứng với năm sinh Trẻ em, Thiếu niên, Thanh niên, Trung niên, Già, Rất già … 5.2.1.3 Thứ bậc khái niệm Sử dụng kỹ thuật thứ bậc khái niệm với mục đích để giảm số lượng giá trị phân biệt thuộc tính có kiểu liệu xác định Trong ứng dụng chúng dùng thứ bậc khái niệm cho thuộc tính Quốc_tịch Hàng năm, có cơng dân hàng trăm nước vi phạm quy chế XNC, để nguyên giá trị thuộc tính quốc_tịch để phân tích thu định sâu khó hiểu Do ta phải khái quát hóa chúng lên mức khái niệm cao hơn, để thu tập liệu thử gọn Ví dụ: Các nước thuộc Châu Phi chia thành Bắc Phi, Trung Phi Nam Phi… 5.2.2 Lựa chọn liệu cho ứng dụng Các ứng dụng khác cần có tập liệu đào tạo khác Mục tiêu “Phân lớp vi phạm quy chế XNC NNN Việt Nam”, nên lựa chọn thông tin liên quan, phục vụ cho trình phân lớp Sau 81 lựa chọn, tiền xử lý liệu ứng dụng tổng kết Bảng 5.1 [9], [10]: Mẫu 7656 Tên Quốc tịch Độ tuổi Thuộc tính Nghề nghiệp Mục đích nhập cảnh Giá trị 48-Ơ-xtrây-li-a, 73-Ca-na-da, 79Trung Quốc, 109-Pháp, 117-CH Liên bang Đức, 145-Nhật Bản, 213-CH Hàn Quốc, 224-Trung Quốc (Đài Loan), 226-Thái Lan, 246-Công dân Vương quốc liên hiệp Anh, 254-Mỹ 1-Trẻ em, 2-Trẻ vị thành niên, 3-Thanh niên, 4-Trung niên, 5-Già, 6-Rất già 1-Làm công, 2-Công nhân, 3-Nội trợ, 4Thương nhân, 5-Hưu trí (già), 6-Nhân viên, 7-Sinh viên, 8-Kỹ sư, 9-Học sinh, 10-Nghề nghiệp khác 1-Công tác, 2-Du lịch, 3-Thương mại, 4Hội nghị, 5-Thăm thân, 6-Viện trợ, 7Đầu tư, 8-Báo trí phóng viên, 9-Định cư, 10-Lao động, 0-Mục đích khác Qua cửa Dự đốn 1-Tân Sơn Nhất, 2-Nội Bài, 3-Cửa khác Loại vi phạm 9-Nhập xuất cảnh trái phép, 10-khơng có hộ chiếu thị thực, 11-Đi vào khu vực cấm, 15-Quay phim chụp ảnh trái phép, 16-Hộ chiếu giấy tờ giả, 17-Hộ chiếu giấy tờ khơng cịn giá trị, 18-Vi phạm quy chế quản lý cửa khẩu, 19-Hoạt động sai mục đích, 20-Các vi phạm khác Bảng 5.1 - Dữ liệu ứng dụng sau lựa chọn tiền xử lý Trong hình 5.1 ví dụ trình bày biểu đồ phân bố liệu thuộc tính nghề_nghiệp với 1000 ghi lấy ngẫu nhiên 82 Hình 5.1 – Phân bố liệu thuộc tính Nghề_nghiệp 5.3 Các tham số xây dựng mơ hình cho thuật tốn định Trước xây dựng mơ hình, để việc xây dựng mơ hình đạt hiệu phải đưa vào tham số cho thuật tốn thay sử dụng tham số mặc định Những tham số lưu bảng bên sở liệu Tên bảng ta tự đặt tên cột kiểu liệu phải định nghĩa sau[9]: Tên cột Kiểu liệu setting_name setting_value VARCHAR2(30) VARCHAR2(128) Trong đó, cột setting_name chứa tên tham số cột setting_value chứa giá trị tham số Trong bảng 5.2 số tham số cho thuật toán định ODM Tên tham số Giá trị tham số (Với khoảng giá trị dùng được) tree_impurity_metric Chỉ rõ tham số dùng để đo không cho định Để phân lớp (nhị phân hay đa lớp) có hai độ đo sử dụng Gini Entropy  tree_impurity_entropy  tree_impurity_gini (mặc định) tree_term_max_depth TO_CHAR(2

Ngày đăng: 25/03/2015, 09:50

Từ khóa liên quan

Mục lục

  • Mục lục

  • Mở đầu

  • 1.1 Công nghệ khai phá tri thức và khai phá dữ liệu

  • 1.1.1 Khai phá tri thức và khai phá dữ liệu.

  • 1.1.2 Quá trình khai phá tri thức

  • 1.1.3 Nhiệm vụ khai phá dữ liệu

  • 1.2 Kho dữ liệu

  • 1.2.1 Kho dữ liệu và một số đặc điểm

  • 1.2.2 Sự khác nhau giữa kho dữ liệu và cơ sở dữ liệu tác nghiệp

  • 1.2.3 Kiến trúc chung của kho dữ liệu

  • 2.1 Giới thiệu

  • 2.2 Làm sạch dữ liệu

  • 2.2.1 Giá trị bị mất

  • 2.2.2 Dữ liệu bị nhiễu

  • 2.2.3 Dữ liệu không nhất quán

  • 2.3 Tích hợp và chuyển đổi dữ liệu

  • 2.3.1 Tích hợp dữ liệu

  • 2.3.2 Chuyển đổi dữ liệu

  • 2.4 Thu gọn dữ liệu

  • 2.4.1 Kết hợp khối dữ liệu.

Tài liệu cùng người dùng

Tài liệu liên quan