Xây dựng hệ thống dự đoán thuê bao rời mạng của mobifone dựa vào mạng nơ ron

70 888 2
Xây dựng hệ thống dự đoán thuê bao rời mạng của mobifone dựa vào mạng nơ ron

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Xây dựng hệ thống dự đoán thuê bao rời mạng của Mobifone dựa vào mạng nơ ronXây dựng hệ thống dự đoán thuê bao rời mạng của Mobifone dựa vào mạng nơ ronXây dựng hệ thống dự đoán thuê bao rời mạng của Mobifone dựa vào mạng nơ ronXây dựng hệ thống dự đoán thuê bao rời mạng của Mobifone dựa vào mạng nơ ronXây dựng hệ thống dự đoán thuê bao rời mạng của Mobifone dựa vào mạng nơ ronXây dựng hệ thống dự đoán thuê bao rời mạng của Mobifone dựa vào mạng nơ ronXây dựng hệ thống dự đoán thuê bao rời mạng của Mobifone dựa vào mạng nơ ronXây dựng hệ thống dự đoán thuê bao rời mạng của Mobifone dựa vào mạng nơ ronXây dựng hệ thống dự đoán thuê bao rời mạng của Mobifone dựa vào mạng nơ ronXây dựng hệ thống dự đoán thuê bao rời mạng của Mobifone dựa vào mạng nơ ron

HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG - TRẦN THANH GIẢNG XÂY DỰNG HỆ THỐNG DỰ ĐOÁN THUÊ BAO RỜI MẠNG CỦA MOBIFONE DỰA VÀO MẠNG NƠ RON LUẬN VĂN THẠC SĨ KỸ THUẬT TP HỒ CHÍ MINH – NĂM 2016 HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG - TRẦN THANH GIẢNG XÂY DỰNG HỆ THỐNG DỰ ĐOÁN THUÊ BAO RỜI MẠNG CỦA MOBIFONE DỰA VÀO MẠNG NƠ RON CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS DƢƠNG TUẤN ANH TP HỒ CHÍ MINH – NĂM 2016 TP HỒ CHÍ MINH – NĂM 2015 i LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng Các số liệu, kết trình bày luận văn trung thực chƣa đƣợc công bố công trình khác Tp HCM, 20 tháng 06 năm 2016 Học viên thực luận văn Trần Thanh Giảng ii LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn sâu sắc đến PGS.TS Dƣơng Tuấn Anh hƣớng dẫn nhiệt tình, tận tâm suốt trình giúp thực luận văn Thầy giúp cho định hƣớng, phƣơng pháp nghiên cứu, tài liệu bổ ích đặt biệt kinh nghiệm quý giá Tôi xin chân thành cảm ơn Học Viện Công Nghệ Bƣu Chính Viễn Thông tạo điều kiện đặc biệt gửi lời cám ơn sâu sắc tới Thầy, Cô tận tụy hƣớng dẫn, giúp đỡ truyền dạy kiến thức quý báu, bổ ích cho suốt khóa học, để áp dụng vào công việc lĩnh vực công nghệ thông tin, nhƣ hoàn thành luận văn Cảm ơn bạn học viên lớp Cao học Hệ thống thông tin 2014-2016 gắn bó, đoàn kết chia sẻ kinh nghiệm, giúp đỡ trình học tập nhƣ suốt trình thực luận văn Tp HCM, 20 tháng 06 năm 2016 Học viên thực luận văn Trần Thanh Giảng iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vi DANH SÁCH HÌNH VẼ vii DANH SÁCH BẢNG viii MỞ ĐẦU .1 CHƢƠNG - TỔNG QUAN .3 1.1 Tổng quan vấn đề cần nghiên cứu 1.2 Lý chọn đề tài .4 1.3 Những kết đạt đƣợc luận văn .5 CHƢƠNG - CƠ SỞ LÝ LUẬN .6 2.1 Giới thiệu khai phá liệu (Data Mining) 2.1.1 Khai phá liệu gì? .6 Hình 2.1: Các bƣớc Data Mining & KDD ([6]) .7 2.1.2 Mô hình khai phá liệu Hình 2.2: Mô hình khai phá liệu 2.1.3 Các kỹ thuật khai phá liệu .9 2.1.3.1 Phân lớp 2.1.3.2 Phân cụm .10 2.1.3.3 Luật kết hợp 10 2.1.3.4 Mẫu 10 2.1.3.5 Hồi quy 11 2.1.4 Ứng dụng khai phá liệu 11 iv 2.2 Giới thiệu mạng Nơ ron 12 Mạng nơron gì? 12 2.2.1 2.2.1.1 Nơ ron sinh học nơ ron nhân tạo 12 2.2.1.2 Mạng nơ ron nhân tạo gi? 13 2.2.1.3 Các kiểu mô hình mạng nơ ron .14 Hình 2.4: Mô hình mạng tự kết hợp 14 Hình 2.5: Mô hình mạngkết hợp kháckiểu .14 Hình 2.6: Mô hình mạng truyềnthẳng .15 Hình 2.7: Mô hình mạng phảnhồi 15 2.2.2 Mạng nơ ron đa lớp truyền thẳng .16 2.2.3 Thuật toán mạng perceptron nhiều lớp 17 2.3 Lựa chọn đặc trƣng (feature selection) 24 2.4 Giới thiệu toán thuê bao rời mạng 27 2.5 Mô hình xây dựng hệ thống dự đoán thuê bao rời mạng 27 2.6 Kết luận chƣơng 29 CHƢƠNG – KHẢO SÁT DỮ LIỆU THUÊ BAO CỦA MOBIFONE 30 3.1 Mục tiêu chƣơng 30 3.2 Khảo sát liệu thuê bao MobiFone 30 3.2.1 Tổng quan hệ thống liệu thuê bao MobiFone 30 3.2.2 Cấu trúc lƣu trữ liệu thuê bao Mobifone 31 3.2.3 Các bảng biểu trƣờng liệu thuê bao Mobifone 32 3.2.4 Các tiến trình thu thập – tổng hợp – lƣu trữ liệu .35 3.3 Phát biểu toán 36 3.4 Kết luận chƣơng 36 CHƢƠNG - HIỆN THỰC, ĐÁNH GIÁ, KẾT LUẬN VÀ CÁC HƢỚNG NGHIÊN CỨU TRONG TƢƠNG LAI 37 4.1 Phƣơng pháp giải vấn đề .37 v 4.2 Giới thiệu phần mềm SPSS 38 4.2.1 Giới thiệu phần mềm SPSS 38 4.2.2 Các phiên SPSS 38 4.2.3 Chức SPSS 39 4.2.4 Một số ứng dụng SPSS 39 4.3 Các bƣớc xây dựng mô hình dự đoán thuê bao rời mạng .40 4.3.1 Tiền xử lý liệu .40 4.3.2 Đƣa liệu đầu vào vào sở liệu phần mềm SPSS 43 4.3.3 Rút trích liệu huấn luyện .44 4.3.4 Tạo mô hình dự đoán .45 4.3.5 Kiểm tra mô hình vừa tạo - biên tập liệu sau kiểm tra .50 4.3.6 Đánh giá mô hình .53 4.3.7 Hoàn thành kết 53 4.4 Kết huấn luyện với tập thuê bao đầu vào khứ 54 Bảng 4.2: Kết huấn luyện mạng Nơ ron lần 54 Bảng 4.3: Kết huấn luyện mạng Nơ ron lần 55 4.5 Kết kiểm thử với tập thuê bao 55 Bảng 4.4: Kết kiểm thử mô hình phân lớp 55 4.6 Hƣớng nghiên cứu tƣơng lai 56 4.7 Kết luận chƣơng 56 KẾT LUẬN VÀ KIẾN NGHỊ 58 DANH MỤC TÀI LIỆU THAM KHẢO 59 vi DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Viết tắt Tiếng Anh SPSS Statistical Tiếng Việt Product and Phần mềm SPSS Services Solutions CDR Call Detail Recording Chi tiết gọi Mạng Nơ ron Neuron Network Mạng Nơ ron KPDL Data Mining Khai phá liệu MLP MultiLayer Perceptron Mạng Nơ ron đa lớp truyền thẳng CSDL Database Cơ sở liệu vii DANH SÁCH HÌNH VẼ Hình 2.1: Các bƣớc Data Mining & KDD ([6]) .7 Hình 2.2: Mô hình khai phá liệu Hình 2.3: Mô hình mạng Nơ ron nhân tạo .12 Hình 2.4: Mô hình mạng tự kết hợp 14 Hình 2.5: Mô hình mạngkết hợp kháckiểu .14 Hình 2.6: Mô hình mạng truyềnthẳng .15 Hình 2.7: Mô hình mạng phảnhồi 15 Hình 2.8: Mô hình mạng MLP tổng quát 16 Hình 2.10: Mô hình xây dựng hệ thống dự đoán thuê bao rời mạng ([3]) 28 Hình 3.1: Cấu trúc sở liệu thuê bao Mobifone 32 Hình 4.1 Sơ đồ tiến trình phƣơng pháp dự đoán thuê bao rời mạng .37 Hình 4.2: Sản phẩm SPSS IBM hỗ trợ phân tích số liệu Big Data 38 Hình 4.3: Một giao diện phần mềm SPSS IBM 39 Hình 4.4: Đƣa liệu đầu vào vào phần mềm SPSS .44 Hình 4.5: Định dạng trƣờng liệu đầu vào .44 Hình 4.6: Feature Selection (lựa chọn thuộc tính) 45 Hình 4.7: Partition (phân nhóm liệu huấn luyện) 46 Hình 4.9: Lựa chọn thông số mạng nơ ron lần 47 Hình 4.10: Kết thực nghiệm sử dụng mạng nơ ron lần 48 Hình 4.11: Kết chi tiết độ xác sử dụng mạng Nơ ron lần 48 Hình 4.12: Kết chi tiết theo số ghi mạng Nơ ron lần 49 Hình 4.13: Cấu hình mạng Nơ ron kết lần (để biên tập liệu) .49 Hình 4.14: Kết chi tiết theo ghi 50 Hình 4.15: Kết chi tiết theo ghi 51 Hình 4.16: Kết chi tiết độ xác sử dụng mạng Nơ ron lần 52 viii Hình 4.17: Cấu hình mạng Nơ ron kết lần (để dự đoán) 52 Hình 4.18: Kết chi tiết theo ghi mạng nơ ron lần .53 Hình 4.19: Hoàn thành kết 54 DANH SÁCHBẢNG Bảng4.1: Các trƣờng thông tin đầu vào 41 Bảng 4.2: Kết huấn luyện mang Nơ ron lần 54 Bảng 4.3: Kết huấn luyện mạng Nơ ron lần 55 Bảng 4.4: Kết chạy thử .55 46 hợp đa số đƣợc thực phần mềm SPSS [13] Phần mềm SPSS có hỗ trợ công cụ Partition dùng để chia liệu Chúng thêm vào hai cột Training Testing, với hai giá trị 1_Training để nhận biết ghi dùng để huấn luyện, 2_Testing ghi dùng để kiểm thử Hình 4.7 mô tả cách làm chia nhóm công cụ Partition phần mềm SPSS Các tham số đƣợc nêu đƣợc thiết lập công cụ Partition Hình 4.7: Partition (phân nhóm liệu huấn luyện) Sau chia nhóm xong, sử dụng mô hình mạng nơ ron để huấn luyện tập thuê bao (sau loại bỏ hai trƣờng không quan trọng), mà sau gọi mô hình mạng nơ ron lần Chúng chọn mô hình mạng mơ ron với thông số thiết lập nhƣ hình 4.8: Hình 4.8: Dùng mô hình mạng nơ ron đa lớp truyền thẳng Chúng ta thấy, phần mềm cho phép chọn mô hình mạng nơ ron Multilayer Perceptron (MLP) – mô hình mạng nơ ron đa lớp truyền thẳng Về số lớp ẩn mạng nơ ron cấu hình phần mềm tự chọn số lƣợng lớp ẩn Ngoài phần mềm cho phép cấu hình có chọn số lớp ẩn thứ thứ hai hay không Việc cấu hình mạng nơ ron cho phép tùy biến Chúng ta để ý 47 là, tất thông số có ảnh hƣởng đến cách thức vận hành thuật toán mạng nơ ron đa lớp truyền thẳng đƣợc thiết lập xem nhƣ thông số đầu vào mô hình Việc sử dụng chức mạng nơ ron phần mềm SPSS giúp cho ngƣời dùng che vấn đề kỹ thuật phức tạp, nhƣng tạo mạng nơ ron để giải toán cụ thể Để thực đƣợc việc phần mềm SPSS mô lại cách thức giải toán mạng nơ ron dựa vào thuật toán mà nêu chƣơng hai Ngoài phần mềm SPSS nhiều phần mềm khác hỗ trợ giải toán khai phá liệu Hình 4.9: Lựa chọn thông số mạng nơ ron lần Hình 4.9 tiếp tục mô tả việc thiết lập thông số cho mạng nơ ron lần nhƣ thời gian để huấn luyện, số lần lặp lại tỉ lệ bảo vệ overfit Chúng chọn thời gian tối đa để huấn luyệnlà 15 phút, tức thời gian để thực việc huấn luyện lặp lặp lại để chọn hệ số mạng nơ ron lớn 15 phút Số lần lặp lại là250, nghĩa ghi đƣợc đƣa vào giải thuật huấn luyện 250 lần để điều chỉnh trọng số Ngoài chọn tỉ lệ bảo vệ overfit 30% 48 Sau chạy mô hình mạng nơ ron lần 1, đạt kết đƣợc trình bày nhƣ hình 4.10 Trƣờng liệu mục tiêu ROIMANG, có 10 trƣờng liệu gọi INPUT, số ghi 150.000 ghi, 70% dùng cho huấn luyện, 30% dùng cho kiểm thử Chúng dùng mô hình mạng nơ ron đa lớp truyền thẳng, số biến lớp ẩn 8, tỉ lệ xác đƣợc 90,8% Trong trình chạy không phát sinh lỗi Hình 4.10: Kết thực nghiệm sử dụng mạng nơ ron lần Hình 4.11 4.12 mô tả kết chi tiết độ xác số ghi sau lần sử dụng mạng nơ ron lần Với ghi có trƣờng liệu mục tiêu ROIMANG có 87,0% ghi dự đoán (nghĩa dự đoán trƣờng liệu mục tiêu 0), có 13,0% ghi dự đoán sai (nghĩa dự đoán trƣờng liệu mục tiêu 1) Hình 4.11: Kết chi tiếtvề độ xác sử dụng mạng Nơ ron lần 49 Với ghi có trƣờng liệu mục tiêu ROIMANG có 6,1% ghi dự đoán sai (nghĩa dự đoán trƣờng liệu mục tiêu 0), có 93,9% ghi dự đoán (nghĩa dự đoán trƣờng liệu mục tiêu 1) Hình 4.12: Kết chi tiết theo số ghi mạng Nơ ron lần Hình 4.13: Cấu hình mạng Nơ ron kết lần (để biên tập liệu) 50 Hình 4.13 mô tả cấu hình mạng nơ ron kết lần Chúng ta thấy số lƣợng biến đầu vào 10, số lƣợng node lớp ẩn 9, kết đầu trƣờng mục tiêu ROIMANG Sau lần phân lớp mạng nơ ron lần để biên tập liệu, kết chi tiết số ghi đƣợc trình bày hình 4.14 Trong cột có tiêu đề $N-ROIMANG mang giá trị thuê bao liên quan đến ghi đƣợc phân lớp rời mạng cột mang giá trị thuê bao liên quan đến ghi không rời mạng Hình 4.14: Kết chi tiết theo ghi Tất liệu ghi với kết vừa tạo ra, kết xuất thành file liệu loại excel text để phục vụ cho việc áp dụng thực tế 4.3.5 Kiểm tra mô hình vừa tạo - biên tập liệu sau kiểm tra Sau chạy mạng nơ ron lần để biên tập liệu, thấy có 9,2% số ghi bị phân lớp chƣa Đây kết nhiễu thực mạng nơ ron lần Chúng sử dụng tiếp mô hình mạng nơ ron lần cho 90,8% ghi sau loại bỏ ghi bị phân lớpchƣa xác Việc làm tăng độ 51 xác cho công việc phân lớp chúng tôi, nhƣ đề cập đầu chƣơng (mục 4.1) Chúng sử dụng công cụ phần mềm SPSS để thực công việc sau: - Loại bỏ chỉgiữ lại ghi liệu có trƣờng dự đoán ($N-ROIMANG) trƣờng rời mạng thực (ROIMANG)bằng (tức ghi đƣợc phân lớp đúng) - Loại bỏ hai trƣờng liệu dự đoán (($N-ROIMANG ($NC-ROIMANG) - Tạo mạng nơ ron phân lớp lần thứ cho số ghi đƣợc biên tập Chúng lấy kết cuối Sau chạy mô hình mạng nơ ron lần 2, đạt kết đƣợc trình bày nhƣ hình 4.15 Chúng dùng mô hình mạng nơ ron đa lớp truyền thẳng, liệu đầu vào (INPUT) 10, số biến lớp ẩn 8, tỉ lệ xác đƣợc 99,2% Trong trình chạy không phát sinh lỗi Hình 4.15: Kết chi tiết theo ghi Hình 4.16 mô tả kết chi tiết độ xác số ghi sau lần sử dụng mạng nơ ron lần theo tỉ lệ phần trăm Với ghi có trƣờng liệu mục tiêu 52 ROIMANG có 99,0% ghi dự đoán (nghĩa dự đoán trƣờng liệu mục tiêu 0), có 1,0% ghi dự đoán sai (nghĩa dự đoán trƣờng liệu mục tiêu 1) Hình 4.16: Kết chi tiết độ xác sử dụng mạng Nơ ron lần Với ghi có trƣờng liệu mục tiêu ROIMANG có 0,6% ghi dự đoán sai (nghĩa dự đoán trƣờng liệu mục tiêu 0), có 99,4% ghi dự đoán (nghĩa dự đoán trƣờng liệu mục tiêu 1) Hình 4.17: Cấu hình mạng Nơ ron kết lần (để dự đoán) 53 Hình 4.17 mô tả cấu hình mạng nơ ron kết lần Chúng ta thấy số lƣợng biến đầu vào 10, số lƣợng node lớp ẩn 8, số lƣợng kết đầu trƣờng mục tiêu ROIMANG Hình 4.18: Kết chi tiết theo ghi mạng nơ ron lần Sau lần phân lớp mạng nơ ron lần kết chi tiết số ghi đƣợc trình bảy hình 4.18 Trong cột có tiêu đề $N-ROIMANG mang giá trị thuê bao liên quan đến ghi đƣợc phân lớp rời mạng cột mang giá trị thuê bao liên quan đến ghi không rời mạng 4.3.6 Đánh giá mô hình Sau sử dụng hai lần mạng nơ ron (lần đầu để biên tập lần sau để phân lớp) cho tập liệu 150.000 thuê bao huấn luyện đạt đƣợc kết khả quan mô hình dự đoán 90% tập liệu đầu vào Đây kết tốt dựa vào mô hình tiếp tục áp dụng cho liệu thực tế 4.3.7 Hoàn thành kết Sau thực xong bƣớc cuối cùng, chúng tôiđã thực mô hình gồm hai lần sử dụng mạng nơ ron nối tiếp nhau, sơ đồ động tác thực với phần mềm SPSS nhƣ hình 4.19 Sơ đồ mô tả tất bƣớc thực với phần mềm SPSS, từ đƣa liệu đầu vào vào phần mềm SPSS kết cuối Khi thực bƣớc đặt tên bƣớc để gợi nhớ mục đích bƣớc kết thực 54 Hình 4.19: Hoàn thành kết 4.4 Kết huấn luyện với tập thuê bao đầu vào khứ Theo kết huấn luyện với 30% tập thuê bao đầu vào huấn luyện, có kết nhƣ sau: Sử dụng mạng Nơ ron lần với mục đích biên tập liệu Khi sử dụng mạng nơ ron lần 1, thấy kết với tập liệu kiểm tra 90,97% Bảng 4.2: Kết huấn luyện mạng Nơ ron lần Partition Tập liệu Độ Tập liệu Độ huấn luyện xác phân kiểm tra xác phân lớp lớp Đúng 95,250 90.78% 41,003 90.97% Sai 9,677 9.22% 4,070 9.03% Tổng 104,927 45,073 Sử dụng mạng Nơ ron lần với mục đích phân lớp Khi sử dụng mạng nơ ron lần kết với tập liệu kiểm tra lớn nhiều, 98.77%, kết tốt, nhiên chƣa phải kết cuối hai trình 55 Bảng 4.3: Kết huấn luyện mạng Nơ ron lần Partition Tập liệu Độ Tập liệu Độ huấn luyện xác phân kiểm tra xác phân lớp Đúng Sai Tổng 94,868 1,10 lớp 98.85% 40,603 98.77% 1.15% 505 1.23% 95,976 41,108 4.5 Kết kiểm thử với tập thuê bao Để thử nghiệm kết với tập liệu dầu vào, thử với tập liệu đầu vào 50.000 thuê bao Trong phần mềm SPSS để làm điều này, thay tập liệu đầu vào, bắt đầu dùng phƣơng thức run biểu tƣợng mạng nơ ron lần để lấy kết đầu Khi chạy kết đầu ra, kết xuất kết đầu thành file liệu excel file text Tuy nhiên, khuôn khổ hiển thị hết kết nên đƣa kết tổng hợp nhƣ sau: Bảng 4.4: Kết kiểm thử mô hình phân lớp Partition Tập liệu Độ huấn luyện xác phân lớp Đúng 45,539 91.08% Sai 4,461 8.92% Tổng 50,000 56 4.6 Hƣớng nghiên cứu tƣơng lai Luận văn giải đƣợc toán làm để xây dựng mô hình dự đoán thuê bao rời mạng, nhiên giới hạn thời gian thực nên luận văn có giới hạn định Hƣớng nghiên cứu tƣơng lai thực nhƣ sau • Mở rộng liệu thuê bao Mobifone thêm nhiều trƣờng thông tin hơn, nhằm phản ánh hành vi ngƣời tiêu dùng • Từ toán nghiên cứu dự đoán thuê bao rời mạng hay không, mở rộng toán trả lời câu hỏi: rời mạng tầm thời gian • Bên cạnh sử dụng mạng mơ ron để dự đoán thuê bao rời mạng hay không, sâu nghiên cứu sử dụng kỹ thuật khai phá liệu khác nhƣ Decision Tree, Naive Bayes so sánh kết với nhằm tìm cách tốt để giải toán thuê bao rời mạng • Từ toán dự đoán thuê bao rời mạng, mở rộng nghiên cứu toán phân lớp khách hàng dựa vào hành vi tiêu dùng (các thuộc tính) sau phân thuê bao vào lớp khác để có động thái kinh doanh cho khách hàng lớp • Thay sử dụng phần mềm SPSS, xây dựng hệ thống mạng nơ ron để giải toán 4.7 Kết luận chƣơng Chƣơng thực thực nghiệmmô hình dự đoán thuê bao rời mạng mạng nơ ron đa lớp truyền thẳng (phần mềm sử dụng SPSS IBM) Để thực đƣợc vấn đề này, khảo sát sở liệu Mobifone, sau nghiên cứu trƣờng thông tin liệu Mobifone có Trên sở trƣờng thông tin đó, trích lọc, tổng hợp liệu thuê bao theo trƣờng thông tin định sẵn, kết có đƣợc 200.000 thuê bao để giải toán 57 Chúng sử dụng công cụ mạng nơ ron phần mềm SPSS để huấn luyện 150.000 thuê bao đầu vào Sau sử dụng kết để dự đoán 50.000 thuê bao có rời mạng hay không Kết dự đoán 90% Đây kết tốt cho phép áp dụng kết đề tài thực tế 58 KẾT LUẬNVÀ KIẾN NGHỊ Việc khai phá liệu Data Mining xu hƣớng thời đại ngành Công nghệ thông tin Dựa vào liệu khứ đƣa kết luận áp dụng cho việc kinh doanh tƣơng lai Việc áp dụng kỹ thuật Data Mining để dự đoán thuê bao khách hàng rời mạng (không sử dụng dịch vụ) phổ biến ngành viễn thông Những năm qua, giới nhƣ Việt Nam có nhiều đề tài nghiên cứu việc áp dụng Data Mining để dự đoán thuê bao mạng viễn thông rời mạng Trong nhiều đề tài áp dụng nhiều kỹ thuật Data Mining khác nhƣ Cây định (Decision Tree), Mạng Nơ ron (Neuron Network) để giải toán dự đoán thuê bao rời mạng Đề tài đóng góp phần vào việc áp dụng kỹ thuật Data Mining để giải toán phân lớp, cụ thể dự đoán thuê bao rời mạng dựa vào mạng nơ ron Dựa vào khứ thông tin thuê bao Mobifone, khảosát nhiều thuộc tính thuê bao Mobifone nhƣ loại thuê bao, thói quen gọi, thói quen nhắn tin, thói quen truy cập liệu data, thói quen mở máy, thói quen nạp tiền Từ thói quen ảnh hƣởng đến việc thuê bao rời mạng hay không? Sau sử dụng mạng nơ ron để xây dựng mô hình dự đoán thuê bao rời mạng, mô hình đáp ứng 90% liệu khứ Chúng dùng kết để biên tập liệu thuê bao Và sử dụng mô hình mạng nơ ron để dự đoán thuê bao rời mạng dựa toàn liệu đƣợc biên tập Kết thực nghiệm cho thấy mô hình đề xuất dự đoán 99% thuê bao rời mạng Vì tính xác việc dự đoán cao, nên kiến nghị ứng dụng phân tích vào việc dự đoán thuê bao rời mạng công ty viễn thông Đồng thời kỹ thuật áp dụng với ngành nghề khác Bài toán dự đoán thuê bao rời mạng phá triển thành toán nhƣ dựa đoán thời điểm thuê bao rời mạng, toán phân lớp khách hàng, toán dự đoán doanh thu 59 DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Phạm Thị Hoàng Nhung (2006), Luận văn thạc sỹ, Đại học Quốc gia Hà Nội Tiếng Anh: [2] Berson, A.S., & Threaling, K (2000), Buiding data mining applications for CRM, McGraw-Hill, New York, NY [3] Hung, S.Y., Yen, D.C., Wang, H.Y (2006), “Applying data mining to telecom churn management”, Expert Systems with Applications, Vol 3.1, pp 515-524 [4] Sharma, A., Panigrahi, P.K (2011), “A Neural Network based Approach for Predicting Customer Churn in Cellular Network Services”, International Journal of Computer Applications, Vol 27, No 11, pp 26-31 [5] Adwan, O., Faris, H., Jaradat, K., Harfoushi, O., Ghatasheh, N (2014), “Predicting Customer Churn in Telecom Industry using Multilayer Preceptron Neural Networks Modeling and Analysis”,Life Science Journal, Vol 11, No 3, pp 75-81 [6] Han, J Kamber, M Jian, J (2012), Data Mining Concepts and Techniques, Elseviel [7] Whitley, D., Starkweather, T., Bogart, C (1990), Genetic algorithms and neural networks: optimizing connections and connectivity, in: Parallel Computing 14, 347-361, North-Holland [8] Montana, D and Davis, L (1989), Training feedforward neural networks using genetic algorithms, In Proceedings of the Eleventh International Joint Conference on Artificial Intelligence, 762-767, Morgan Kaufmann, San Mateo, CA [9] Nelson, M.C and Illingworth, W.T (1991), A Practical Guide to Neural Nets, Reading, MA: Addison-Wesley [10] Narasimhy, M.N, Susheela, V.S (2011), Pattern Recognition An Algorithmic Approach, Springer, USA [11] IBM (2011), IBM SPSS Modeler 14.2 In-Database Mining Guide, IBM 60 [12] Tsai, C.F., Lu, Y.H (2009), “Customer churn prediction by hybrid neural networks”,Expert Systems with Applications 36 (2011),No 12547–12553, pp 5-7 [13] H.Jeff (2008), Introduction to Neural Networks for C#, Second Edition, Heaton Research Inc [14] Wendler, T., Grottrup, S., “Data Mining with SPSS Modeler: Theory, Exercises and Solutions”, Springer, 2016 [15] Blum, A L., Langley, P., Selection of Relevant Features and Examples in Machine Learning, Artificial Intelligence, Vol 97, pp 245-271, 1997 [...]... dạn nghiên cứu đề tài Xây dựng hệ thống dự đoán thuê bao rời mạng MobiFone dựa vào mạng nơ ron Tất nhiên hệ thống dự đoán này có thể áp dụng cho bất kỳ công ty viễn thông nào có hệ thống khách hàng, miễn là có những thay đổi cách tiếp cận khách hàng cho phù hợp, nhƣng với nguồn dữ liệu có đƣợc khảo sát từ mạng điện thoại di động MobiFone thì chúng tôi xây dựng hệ thống này dựa trên những dữ liệu... nghiên cứu các thuộc tính của khách hàng MobiFone trong quá khứ, xây dựng tập thuộc tính khách hàng trong quá khứ, từ tập dữ liệu thuê bao trong quá khứ này xây dựng mô hình dự đoán thuê bao nào đó rời mạng hay không, sau đó dựa vào các tập dữ liệu thuê bao rời mạng khác cũng trong quá khứ để xác định độ chính xác của mô hình và quyết định việc áp dụng có áp dụng mô hình trong thực tế hay không? Đây... phá dữ liệu (data mining), mạng nơ ron, mạng nơ ron đa lớp truyền thẳng, các thuật toán xây dựng mạng nơ ron, mô hình để giải bài toán dự đoán Chƣơng 3: Khảo sát cơ sở dữ liệu thuê bao của Mobifone Chƣơng 4: Hiện thực, đánh giá, kết luận và các hƣớng nghiên cứu trong tƣơng lai 6 CHƢƠNG 2 -CƠ SỞ LÝ LUẬN Để giải quyết bài toán xây dựng mô hình dự đoán thuê bao rời mạng thì chúng tôi cần các kiến thức... đƣờng mòn nơ ron, các con đƣờng này tạo nên hệ thống giao tiếp của bộ não [7] Nơ ron nhân tạo Một nơ ronlà một đơn vị xử lý thông tin và là thành phần cơ bản của một mạng nơ ron Cấu trúc của một nơ ron ƣợc mô tả trên hình 2.3 Inputs X1 Weights W1 Output X2 W2 ∑ Wx Xx Hình 2.3:Mô hình mạng Nơ ron nhân tạo Các thành phần cơ bản của một nơ ronnhân tạo bao gồm:  Tập các đầu vào: Là các tín hiệu vào (input... (2.14) Trong đó “output_i ” là đầu ra của nơ- ron i và “input_j ” là đầu vào của n ron j,δi là tín hiệu học Từ các phân tích trên, thuật toán lan truyền ngƣợc sai số đƣợc xây dựng nhƣ sau: Xét một mạng nơ- ron truyền thẳng có Q lớp, q = 1, 2, …, Q, và gọi neti và yi là tín hiệu vào và ra của nơ- ron thứ i trong lớp q Mạng này có m đầu vào và n đầu ra Đặt qwij là trọng số của liên kết từ nơ- ron thứ j trong... đó còn cần phải xem lại trong dữ liệu lịch sử khách hàng là khách hàng nào đã rời mạng Từ đó có thể rút ra đƣợc những kết luận về tính chất của khách hàng đã rời mạng trong quá khứ, tính chất này đƣợc cụ thể hóa bằng mô hình dự đoán thuê bao rời mạng Khi biết đƣợc thuê bao nào rời mạng thì các nhà mạng có thể có những tác động đến khách hàng để hạn chế các thuê bao đó rời mạng 3 CHƢƠNG 1 - TỔNG QUAN... vụ của mạng là phân loại các mẫu này vào một trong 10 lớp tƣơng ứng với 10 chữ số 0, 1, …, 9 Khi đó p là kích thƣớc mẫu và bằng 8 x 2= 16; q là số lớp và bằng 10 17  Mỗi nơ ron thuộc tầng sau liên kết với tất cả các nơ ron thuộc tầng liền trƣớc nó  Đầu ra của nơ ron tầng trƣớc là đầu vào của nơ ron thuộc tầng liền sau nó Hoạt động của mạng MLP nhƣ sau: tại tầng đầu vào các nơ ron nhận tín hiệu vào. .. giữa các nơ ron 14 2.2.1.3 Các kiểu mô hình mạng nơ ron Tự kết hợp (autoassociative): là mạng có các neural đầu vào cũng là các nơ ron ầu ra Mạng Hopfield là một kiểu mạng tự kết hợp Hình 2.1 dƣới đây là mô hình của mạng tự kết hợp Output Inputs Hình 2.4: Mô hìnhmạng tự kết hợp Kết hợp khác kiểu (heteroassociative): là mạng có tập nơ ron ầu vào và đầu ra riêng biệt Perceptron, các mạng Perceptron nhiều... 2.2.2 Mạng nơ ron đa lớp truyền thẳng Mô hình mạng nơ ron ƣợc sử dụng rộng rãi nhất là mô hình mạng nhiều tầng (đa lớp) truyền thẳng (MLP: Multi Layer Perceptron) Một mạng MLP tổng quát là mạng có n (n≥2) tầng (thông thƣờng tầng đầu vào không đƣợc tính đến): trong đó gồm một tầng đầu ra (tầng thứ n) và (n-1) tầng ẩn Hình 2.8 mô tả mạng nơ ron đa lớp truyền thẳng [1][8][9] Nơ ron vào Nơ ron ẩn... nơ ron ầu ra về các nơ ron ầu vào; mạng không lƣu lại các giá trị output trƣớc và các trạng thái kích hoạt của neural Các mạng nơ rontruyền thẳng cho phép tín hiệu di chuyển theo một đƣờng duy nhất; từ đầu vào tới đầu ra, đầu ra của một tầng bất kì sẽ không ảnh hƣởng tới tầng đó Các mạng kiểu Perceptron là mạng truyền thẳng nhƣ hình 2.6 Tầng vào Tầng vào Tầng vào Hình 2.6:Mô hình mạng truyềnthẳng Nơ ... thực hệ thống dự đoán thuê bao (khách hàng) rời mạng (rời bỏ dịch vụ) mà công ty cung cấp Xuất phát từ việc đó, mạnh dạn nghiên cứu đề tài Xây dựng hệ thống dự đoán thuê bao rời mạng MobiFone dựa. ..HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG - TRẦN THANH GIẢNG XÂY DỰNG HỆ THỐNG DỰ ĐOÁN THUÊ BAO RỜI MẠNG CỦA MOBIFONE DỰA VÀO MẠNG NƠ RON CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ:... dựng tập thuộc tính khách hàng khứ, từ tập liệu thuê bao khứ xây dựng mô hình dự đoán thuê bao rời mạng hay không, sau dựa vào tập liệu thuê bao rời mạng khác khứ để xác định độ xác mô hình định

Ngày đăng: 17/12/2016, 23:42

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan