Nghiên cứu ứng dụng khai phá dữ liệu trong phân tích số liệu dân cư

26 729 0
Nghiên cứu ứng dụng khai phá dữ liệu trong phân tích số liệu dân cư

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG  NGUYỄN TẤN PHƯƠNG NGHIÊN CỨU ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG PHÂN TÍCH SỐ LIỆU DÂN CƯ Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2011 -1- Cơng trình hồn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TSKH TRẦN QUỐC CHIẾN Phản biện 1: PGS.TS PHAN HUY KHÁNH Phản biện 2: GS.TS NGUYỄN THANH THUỶ Luận văn ñược bảo vệ Hội ñồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp Đại học Đà Nẵng vào ngày 10 tháng năm 2011 Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng -1- MỞ ĐẦU Lý chọn ñề tài Trong vài thập niên gần ñây, với thay đổi phát triển khơng ngừng ngành cơng nghệ thơng tin, luồng thơng tin chuyển tải mau lẹ đến chóng mặt, ước tính khoảng 20 tháng lượng thông tin giới lại tăng gấp ñôi Những người ñịnh tổ chức tài chính, thương mại, khoa học…khơng muốn bỏ sót thông tin nào, họ thu thập, lưu trữ tất thơng tin cho ẩn chứa giá trị định Hiện lượng liệu mà người thu thập lưu trữ kho liệu lớn, kỹ thuật truyền thống khơng đủ khả làm việc với liệu thơ, khơng thể phân tích tay phải tốn nhiều thời gian để khám phá thơng tin có ích, phần lớn liệu chưa phân tích nhận định Usama Fayyad:“Hố sâu khả sinh liệu khả sử dụng liệu” Giải pháp giúp phân tích tự động khối lượng liệu lớn kỹ thuật phát tri thức khai phá liệu (KDD Knowledge Discovery and Data Mining) Kỹ thuật phát tri thức khai phá liệu ñã nghiên cứu ứng dụng rộng tồn giới, với kỹ thuật KDD, tác giả muốn nghiên cứu ứng dụng phân tích số liệu dân cư Việt Nam ñể phát tri thức tăng trưởng dân số Vấn ñề tăng trưởng dân số nhanh Việt Nam thập niên gần ñây ñược quan tâm lớn cấp lãnh đạo, điển hình việc phủ Việt Nam đưa sách kế hoạch hố gia đình “Mỗi gia đình có con” Đã có nhiều biện pháp xử lý gia đình vi phạm sách kế hoạch hố gia đình, qua đợt thống kê dân số gần ñây vào năm 2009 cịn nhiều gia đình -2vi phạm sách kế hoạch hố gia đình (sinh con) Những gia đình vi phạm sách có đặc điểm chung nào? Với lượng lớn liệu thu thập ñược qua ñợt thống kê dân số Việt Nam, việc ứng dụng khai phá liệu phân tích số liệu dân cư cần thiết ñể phát đặc điểm chung gia đình vi phạm sách kế hoạch hố gia đình, hỗ trợ lãnh đạo ban dân số kế hoạch hố gia đình cấp ñưa biện pháp phù hợp, ñịnh chọn ñề tài: “Nghiên cứu ứng dụng khai phá liệu phân tích số liệu dân cư” Mục đích nghiên cứu Mục đích đề tài tìm hiểu kỹ thuật khai phá liệu, nghiên cứu ứng dụng kỹ thuật khai phá liệu phân tích số liệu dân cư, nhằm phát ñặc ñiểm chung gia đình vi phạm sách kế hoạch hóa gia đình, hỗ trợ cho cấp lãnh ñạo có nhận ñịnh ñể ñưa biện pháp phù hợp Đối tượng phạm vi nghiên cứu - Tìm hiểu lý thuyết phát tri thức khai phá liệu - Quản lí tổ chức lưu trữ sở liệu từ số liệu thống kê dân số tỉnh Quảng Nam - Nghiên cứu số mã nguồn mở áp dụng khai phá liệu - Áp dụng kỹ thuật khai phá liệu sở liệu lưu trữ Phương pháp nghiên cứu - Thu thập số liệu thống kê dân số từ nguồn liệu thống kê dân số tỉnh Quảng Nam - Chọn phương pháp khai phá liệu thích hợp - Lựa chọn cơng nghệ cài đặt chương trình -3- Phân tích kiểm ñịnh kết ñạt ñược Ý nghĩa khoa học thực tiễn - Cung cấp cách nhìn tổng quan phát tri thức khai phá liệu - Áp dụng thuật toán khai phá liệu sở liệu thống kê dân số Việt Nam (Dữ liệu thu thập từ nguồn liệu thống kê dân số tỉnh Quảng Nam) - Tìm đặc điểm chung gia đình vi phạm sách kế hoạch hóa gia đình hỗ trợ nhà lãnh đạo có nhận định cụ thể - Chương trình sử dụng cho lãnh đạo ban dân số kế hoạch hóa gia đình cấp Cấu trúc luận văn Chương 1: Giới thiệu khái niệm, tính chất, bước q trình khai phá liệu Phương pháp, dạng sở liệu khai phá thách thức trình khai phá liệu Chương 2: Trình bày khái niệm bước trình khai phá liệu luật kết hợp, trình bày thuật tốn Apriori Trình bày khái niệm bước trình khai phá liệu định, trình bày thuật toán C4.5 Chương 3: Xây dựng hệ thống định phân tích số liệu dân cư -4- CHƯƠNG NGHIÊN CỨU TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 GIỚI THIỆU CHUNG VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU Hiện nay, lượng liệu mà người thu thập, lưu trữ kho liệu lớn, kỹ thuật truyền thống khơng đủ khả làm việc với liệu thơ Vậy làm trích lọc thơng tin có ích từ kho liệu lớn Để giải vấn đề đó, kỹ thuật khám phá tri thức sở liệu đời 1.2 Q TRÌNH KHÁM PHÁ TRI THỨC Hình 1.1: Các bước trình khám phá tri thức 1.3 Q TRÌNH KHAI PHÁ DỮ LIỆU Hình 1.2: Quá trình khai phá liệu -51.4 CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU 1.4.1 Theo quan ñiểm học máy 1.4.2 Theo lớp toán cần giải 1.5 CÁC DẠNG CƠ SỞ DỮ LIỆU CÓ THỂ KHAI PHÁ - Cơ sở liệu quan hệ - Cơ sở liệu ña chiều - Cơ sở liệu giao tác - Cơ sở liệu quan hệ - hướng đối tượng - Dữ liệu khơng gian thời gian - Cơ sở liệu ña phương tiện … 1.6 MỘT SỐ THÁCH THỨC TRONG KHAI PHÁ DỮ LIỆU - Các sở liệu lớn - Số chiều lớn (số thuộc tính liệu nhiều) - Thay ñổi liệu tri thức - Dữ liệu bị thiếu nhiễu - Quan hệ trường phức tạp - Giao tiếp người sử dụng với tri thức có - Tích hợp với hệ thống khác… 1.7 KẾT LUẬN Quá trình nghiên cứu tổng quan khai phá liệu giúp hiểu bước qui trình khai phá liệu, phương pháp, dạng liệu khai phá vấn ñề cần giải khai phá liệu -6- CHƯƠNG KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP VÀ PHÂN LỚP 2.1 KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP 2.1.1 Khái niệm tập phổ biến luật kết hợp Trước ñi vào tìm hiểu kỹ thuật khai thác liệu luật kết hợp, ta có số khái niệm sau: Hạng mục (Item): thuộc tính (i k ) đối tượng xét sở liệu ( ik : k ∈ {1 m}, với m số thuộc tính ñối tượng) Tập hạng mục (Itemset) I = {i1 , i2 , , im }: tập hợp thuộc tính đối tượng xét sở liệu Giao dịch (transaction): tập hạng mục ñơn vị tương tác, giao dịch ñược xử lý cách quán mà không phụ thuộc vào giao dịch khác Cơ sở liệu giao dịch D: tập giao dịch mà giao dịch ñược ñánh nhãn với ñịnh danh (cơ sở liệu giao dịch D = {T , T , , T n }, T i ⊆ I ) Một giao dịch T ∈ D hỗ hợ tập X ⊆ I chứa tất mục X Độ hỗ trợ (supp) tập hạng mục X sở liệu giao dịch D tỷ lệ số giao dịch chứa X tổng số giao dịch D Supp( X ) = Tổng số giao dịch ( 2.1) Số lượng giao dịch chứa X Tập hạng mục phổ biến X hay tập phổ biến tập hạng mục có độ hỗ trợ thoả mãn độ hỗ trợ tối thiểu (minsupp) (minsupp giá trị người dùng xác ñịnh trước) -7Nếu tập mục X có Supp ( X ) ≥ minsupp ta nói X tập mục phổ biến Tập phổ biến tối đại tập phổ biến khơng tồn tập bao tập phổ biến Tập phổ biến đóng tập phổ biến khơng tồn tập bao có độ hỗ trợ Vấn đề khám phá luật kết hợp ñược phát biểu sau: Cho trước thông số ñộ hỗ trợ θ ñộ tin cậy β Đánh số tất mẫu D có độ hỗ trợ ñộ tin cậy lớn hay θ β tương ứng Luật kết hợp cho biết phạm vi mà xuất mục X giao dịch sở liệu giao dịch D kéo theo xuất tập mục Y giao dịch Mỗi luật kết hợp đặc trưng hai thơng số ñộ hỗ trợ ñộ tin cậy (supp, conf) Luật kết hợp X → Y tồn ñộ tin cậy confidence (c/conf) Độ tin cậy conf ñược ñịnh nghĩa khả giao dịch T hỗ trợ X hỗ trợ Y Ta có cơng thức tính độ tin cậy conf sau: Supp ( X ∪ Y ) Conf ( X → Y ) = Supp ( X ) (2.2) Khai phá liệu luật kết hợp phân thành hai toán : Bài tốn 1: Tìm tất tập mục mà có độ hỗ trợ lớn độ hỗ trợ tối thiểu người dùng xác ñịnh Các tập mục thoả mãn ñộ hỗ trợ tối thiểu ñược gọi tập mục phổ biến Bài toán : Dùng tập mục phổ biến ñể sinh luật mong muốn Ý tưởng chung gọi XY X tập mục phổ biến, xác ñịnh luật X → Y với tỷ lệ ñộ tin cậy : Supp ( XY ) ( 2.3) Conf ( X → Y ) = Supp ( X ) -8Nếu conf(X → Y) ≥ minconf luật kết hợp X → Y ñược giữ lại (Luật thoả mãn độ hỗ trợ tối thiểu X phổ biến)  Các tính chất tập mục phổ biến Tính chất 1: Với Supp X Y ( X ) ≥ Supp tập mục, X ⊆Y : ( Y ) Điều rõ ràng tất giao dịch D hỗ trợ Y hỗ trợ X Tính chất : Một tập chứa tập không phổ biến tập khơng phổ biến Nếu tập mục X khơng có độ hỗ trợ tối thiểu D nghĩa Supp ( X ) < minsupp tập Y chứa tập X tập phổ biến Supp (Y ) ≤ Supp ( X ) < minsupp (theo tính chất 1) Tính chất 3: Các tập tập phổ biến tập phổ biến Nếu tập mục Y tập phổ biến D, nghĩa Supp (Y ) ≥ minsupp tập X Y tập phổ biến D Supp ( X ) ≥ Supp (Y ) > minsupp  Các tính chất luật kết hợp Tính chất 1: Nếu X → Z Y → Z X ∪ Y → Z chưa xảy chúng cịn phụ thuộc vào độ hỗ trợ trường hợp Tính chất 2: Nếu X ∪ Y → Z X → Z Y → Z chưa xảy chúng cịn phụ thuộc vào ñộ tin cậy trường hợp Tính chất 3: Nếu X → Y Y → Z X → Z chưa xảy chúng cịn phụ thuộc vào độ tin cậy Tính chất 4: - 10 Giải thuật Apriori Các ký hiệu : Lk : tập tất k-mục phổ biến (tức tập tất k-mục có độ hỗ trợ lớn độ hỗ trợ tối thiểu ) Mỗi phần tử tập có trường : tập mục (itemset) số mẫu tin hỗ trợ (support-count) Ck : Tập tất k-mục ứng viên, phần tử tập có trường tập mục (itemset) số mẫu tin hỗ trợ (support-count) |D| : Tổng số giao dịch D Count: Biến ñể ñếm tần suất xuất tập mục ñang xét tương ứng, giá trị khởi tạo Nội dung thuật tốn Apriori trình bày sau: Input: Tập giao dịch D, ñộ hỗ trợ tối thiểu minsupp Output: L- tập mục phổ biến D Thuật toán: L1={ tập 1-mục phổ biến}// tìm tập phổ biến hạng mục For (lần lượt duyệt mẫu tin từ ñầu ñến cuối tập Lk) Begin Ck+1=apriori-gen(Lk);//sinh tập ứng viên (k+1) hạng mục For (mỗi giao dịch T ∈ D ) //duyệt csdl để tính support Begin CT=subset(Ck+1, T); //lấy tập T ứng viên Ck+1 For (mỗi ứng viên c ∈ CT ) c.count++; //tăng ñếm tần suất ñơn vị end; Lk+1 = {c ∈ C k +1 End; Return ∪ k Lk c.count ≥ minsupp} |D| - 11 + Trong giai ñoạn thứ ñếm support cho mục giữ lại mục mà supp lớn minsupp + Trong giai ñoạn thứ k ( k ≥ ), giai đoạn gồm có pha:  Trước hết tất tập Ti tập Lk ñược sử dụng ñể sinh tập ứng viên Ck+1, cách thực hàm Apriori_gen  Tiếp theo CSDL D qt để tính độ hỗ trợ cho ứng viên Ck+1 Thuật toán sinh tập ứng viên hàm Apriori_gen với ñối số Lk cho kết tập hợp tất Lk+1 Thuật toán hàm Apriori_gen Input: tập mục phổ biến Lk có kích thước k-mục Output: tập ứng viên Ck+1 Thuật toán: Function apriori-gen(Lk: tập mục phổ biến có kích thước k) Begin For (mỗi Ti ∈ Lk) For (mỗi Tj ∈ Lk) Begin If (Ti Tj khác hạng mục) then C= Ti ∪ Tj ;// hợp Ti với Tj sinh ứng viên c If subset(c, Lk) then //kiểm tra tập khơng phổ biến c Lk Remove (c)// xố ứng viên c Else C k +1 = C k +1 ∪ {c}; // kết tập c vào Ck+1 End; Return Ck+1 End; - 12 2.2 KHAI PHÁ DỮ LIỆU BẰNG PHÂN LỚP DỮ LIỆU Khái niệm phân lớp 2.2.1 Phân lớp liệu kỹ thuật dựa tập huấn luyện để phân lớp liệu • Mục đích: Gán mẫu vào lớp với độ xác cao để dự đốn nhãn phân lớp cho liệu • Đầu vào: Một tập mẫu liệu huấn luyện, với nhãn phân lớp cho mẫu liệu • Đầu ra: Mơ hình định dựa tập huấn luyện nhãn phân lớp 2.2.2 Quá trình phân lớp 2.2.3 Phân lớp phương pháp quy nạp ñịnh 2.2.3.1 Khái niệm ñịnh 2.2.3.2 Tạo ñịnh Tạo ñịnh bao gồm giai ñoạn: Tạo tỉa - Tạo cây: thời ñiểm bắt ñầu tất mẫu huấn luyện gốc, sau phân chia mẫu dựa thuộc tính chọn - Tỉa cây: xác định xóa nhánh mà có phần tử hỗn loạn phần tử nằm lớp cho trước 2.2.3.3 Sử dụng ñịnh Kiểm tra giá trị thuộc tính nút nút gốc ñịnh suy luật tương ứng * Thuật toán quy nạp ñịnh: Cây ñược xây dựng ñệ quy từ xuống Ở thời ñiểm bắt ñầu, tất mẫu huấn luyện gốc Thuộc tính phân loại theo giá trị Những mẫu huấn luyện ñược phân chia ñệ quy dựa thuộc tính mà chọn lựa - 13 Kiểm tra thuộc tính chọn dựa tảng heuristic ñịnh lượng thống kê 2.2.3.4 Giải thuật qui nạp ñịnh C4.5 Ý tưởng giải thuật C4.5 sau: Đầu vào: Một tập hợp mẫu huấn luyện Mỗi mẫu huấn luyện bao gồm thuộc tính với giá trị phân loại Đầu ra: Cây định có khả phân loại đắn mẫu huấn luyện cho chưa gặp tương lai Giải thuật: Function induce_tree (tập_mẫu_huấn_luyện, tập_thuộc_tính) begin if mẫu tập_mẫu_huấn_luyện ñều nằm lớp then return nút ñược gán nhãn lớp else if tập_thuộc_tính rỗng then return nút ñược gán nhãn tuyển tất lớp tập_mẫu_huấn_luyện else begin chọn thuộc tính P, lấy làm gốc cho tại; //(thuộc tính P có độ đo GainRatio lớn ) xóa P khỏi tập_thuộc_tính; với giá trị V P begin tạo nhánh gán nhãn V; Đặt vào phân_vùng V mẫu tập_mẫu_huấn_luyện có giá trị V thuộc tính P; Gọi induce_tree(phân_vùngV, tập_thuộc_tính) //gắn kết vào nhánh V end end end - 14 2.2.3.5 Một số vấn ñề cần giải việc phân lớp liệu * Việc chọn thuộc tính để phân chia mẫu? Ta chọn thuộc tính làm nút cây, điều có khả xuất nhiều ñịnh khác biểu diễn tập mẫu Thuộc tính chọn thuộc tính cho độ đo tốt nhất, có lợi cho q trình phân lớp Độ đo để đánh giá chất lượng phân chia ñộ ño ñồng • Information Gain • Information Gain Ratio • Gini Index • X2 – số thống kê bảng ngẫu nhiên • G – thống kê (statistic) * Điều kiện ñể dừng việc phân chia: Tất mẫu huấn luyện thuộc lớp Khơng cịn thuộc tính cịn lại để phân chia tiếp Khơng cịn mẫu cịn lại * Độ lợi thơng tin (Information Gain) ñịnh: Information Gain (Gain): ñại lượng sử dụng để lựa chọn thuộc tính có ñộ lợi thông tin lớn ñể phân lớp Độ ño Information Gain ñược tính dựa vào ñộ ño info (I) entropy (E) Info độ đo thơng tin kỳ vọng ñể phân lớp mẫu tập liệu Giả sử cho P, N hai lớp S tập liệu chứa p phần tử lớp P n phần tử lớp N Khối lượng thơng tin cần để định mẫu tùy ý S thuộc lớp P N ñược ñịnh nghĩa sau: p p n n (2.6) I ( p , n) = − log − log p+n p+n p+n p+n - 15 Entropy khái niệm để đo tính tập huấn luyện Giả sử sử dụng thuộc tính A để phân hoạch tập hợp S thành tập hợp {S1, S2, ,Sv} Nếu Si chứa pi mẫu lớp P ni mẫu N, entropy hay thông tin mong ñợi cần ñể phân lớp ñối tượng tất Si là: E ( A ) = v ∑ i=1 p i + n p + n i I ( p i , n i ) (2.7) Độ lợi thơng tin nhận việc phân nhánh thuộc tính A là: Gain ( A ) = I ( p , n ) − E ( A ) ( 2.8) Ta nhận thấy ñộ đo Gain có xu hướng chọn thuộc tính có nhiều giá trị, nhiên thuộc tính có nhiều giá trị lúc cho việc phân lớp tốt nhất, ta cần chuẩn hóa độ đo Gain, việc chọn thuộc tính khơng dựa vào độ ño Gain mà phụ thuộc vào ñộ ño GainRation SplitInfo độ đo thơng tin trung bình thuộc tính, để hạn chế xu hướng chọn thuộc tính có nhiều giá trị, thơng tin trung bình thuộc tính A tính: SplitInfo(A) = − v ∑ j =1 D j D log ( D j D ) ( 2.9) Việc chọn thuộc tính để phân nhánh dựa vào ñộ ño GainRation GainRatio(A) = Gain(A) / SplitInfo(A) ( 2.10) Đây cơng thức tính độ đo GainRatio cho thuộc tính A sở liệu D, sau ta chọn thuộc tính có độ đo GainRatio lớn để phân lớp theo thuộc tính * Vấn ñề khớp phân lớp * Vấn ñề phân lớp ñịnh sở liệu lớn - 16 2.3 KẾT LUẬN Hai phương pháp khai phá liệu luật kết hợp phân lớp mà tìm hiểu đây, phương pháp có thuật tốn điển hình, chúng tiếp cận khai phá liệu khác nhau, phương pháp có ưu khuyết điểm riêng tùy thuộc vào dạng liệu, miền liệu, khối lượng liệu Như phân tích trên, ưu điểm khai phá liệu phương pháp phân lớp liệu khối lượng liệu lớn, mà áp dụng thuật tốn C4.5 để phân lớp liệu dân cư Thuật toán số 10 thuật toán “nổi tiếng – best known” Data Mining, ñược trao phần thưởng ICDM’06-Hong Kong CHƯƠNG ỨNG DỤNG TRONG PHÂN TÍCH SỐ LIỆU DÂN CƯ 3.1 MƠ TẢ BÀI TỐN Qua khảo sát thực tế, việc thu thập liệu dân cư tồn quốc thực theo chu kỳ năm có số địa phương cịn thực việc khảo sát cập nhật thường xuyên theo tháng, quí, năm nhằm thống kê dân số theo độ tuổi, giới tính, trình độ văn hóa, mức độ tăng trưởng dân số theo vùng nước Đây công việc cần thiết, giúp nhà lãnh đạo có nhận định nên hỗ trợ yếu tố hạn chế yếu tố nào, tạo ñiều kiện thuận lợi ổn ñịnh xã hội phát triển ñất nước Với mong muốn ứng dụng khai phá liệu phân tích số liệu dân cư để tìm đối tượng thường hay vi phạm kế hoạch hóa gia đình, hỗ trợ cho ban lãnh đạo DS-KHHGĐ cấp tập trung vận ñộng, tuyên truyền giáo dục cho đối tượng vi phạm kế hoạch hóa gia đình góp phần thực chiến lược dân số cho giai - 17 ñoạn tới ñạt kết tốt Tác giả ñã thu thập khối lượng lớn thơng tin qua tổng điều tra dân số, thực phân tích, lưu trữ liệu hệ quản trị CSDL quan hệ SQL Server 2005 sử dụng thuật toán C4.5 khai phá liệu mơ hình định 3.2 PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG  Xác ñịnh thực thể  Mơ hình thực thể kết hợp(ERD) Mơ hình thực thể kết hợp  Chuyển mơ hình ERD thành mơ hình quan hệ Theo phân tích liệu lưu trữ mối quan hệ bảng sở liệu ñồng thời qua khảo sát thực tế, ta thấy việc có vi phạm hay khơng vi phạm kế hoạch hóa gia đình phụ thuộc vào nhiều thuộc tính - 18 khác Như trình độ học vấn, khu vực sinh sống, thu nhập, giới tính con…  Xét thuộc tính: Trình độ học vấn (TH sơ, TH phổ thông, THCN) Khu vực sinh sống (Thành thị, Nông thôn, Miền núi) Thu nhập (Thấp, Trung bình, Cao) Giới tính (1 trai gái, trai, gái) Từ liệu lưu trữ ta rút trích mẫu liệu theo bảng sau: Bảng3.3 Một số mẫu liệu sở liệu dân cư (S) STT 10 11 12 13 14 15 16 17 18 19 20 Họ tên Hà Lương Phạm Văn Chánh Nguyễn Công Trạng Võ Bé Lê Thanh Tùng Đỗ Ngọc Thái Nguyễn Long Trương Ngọc Lộc Nguyễn Hưu Tuân Lê Thanh Tùng Nguyễn Minh Kế Lê Văn Thắng Huỳnh Thi Chung Phạm Thị Hoang Đồn Văn Ngự Phạm Hùng Võ Trung Thơng Lê Đức Sơn A Viết Ngai Phạm Văn Cảm Trình độ học vấn TH phổ thông TH sở TH phổ thông TH CN trở lên TH phổ thông TH sở TH CN trở lên TH phổ thông TH sở TH sở TH phổ thông TH CN trở lên TH phổ thông TH Phổ thông TH sở TH CN trở lên TH CN trở lên TH phổ thông TH sở TH sở Thu nhập Trung bình Cao Trung bình Thấp Thấp Trung bình Thấp Cao Thấp Cao Thấp Cao Thấp Trung bình Thấp Cao Thấp Cao Thấp Cao Nơi Thành thị Nông thôn Miền núi Thành thị Thành thị Nông thôn Miền núi Thành thị Miền núi Miền núi Nông thôn Nông thôn Thành thị Miền núi Nông thôn Miền núi Thành thị Nông thôn Miền núi Nơng thơn Giới tính trai, gái gái trai, gái trai gái trai gái gái trai trai, gái trai trai, gái trai gái trai, gái gái trai, gái trai trai, gái trai, gái Vi phạm Khơng Có Khơng Khơng Có Có Có Khơng Có Khơng Khơng Khơng Khơng Có Có Khơng Khơng Khơng Có Khơng Để xây dựng định, nút thuật tốn đo lượng thơng tin nhận thuộc tính chọn thuộc tính có lượng thơng tin tốt làm nút phân tách nhằm ñể ñạt ñược có nút có khả dự đốn cao ... dụng khai phá liệu - Áp dụng kỹ thuật khai phá liệu sở liệu lưu trữ Phương pháp nghiên cứu - Thu thập số liệu thống kê dân số từ nguồn liệu thống kê dân số tỉnh Quảng Nam - Chọn phương pháp khai. .. Mining) Kỹ thuật phát tri thức khai phá liệu ñã ñang ñược nghiên cứu ứng dụng rộng toàn giới, với kỹ thuật KDD, tác giả muốn nghiên cứu ứng dụng phân tích số liệu dân cư Việt Nam ñể phát tri thức... hỗ trợ lãnh đạo ban dân số kế hoạch hố gia đình cấp đưa biện pháp phù hợp, tơi định chọn đề tài: ? ?Nghiên cứu ứng dụng khai phá liệu phân tích số liệu dân cư? ?? Mục đích nghiên cứu Mục đích đề tài

Ngày đăng: 31/12/2013, 09:23

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan