NGHIÊN CỨU KHAI PHÁ DỮ LIỆU DỰ BÁO KHÁCH HÀNG CÓ KHẢ NĂNG RỜI MẠNG VNPT

80 1.4K 14
NGHIÊN CỨU KHAI PHÁ DỮ LIỆU DỰ BÁO KHÁCH HÀNG CÓ KHẢ NĂNG RỜI MẠNG VNPT

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

NGHIÊN CỨU KHAI PHÁ DỮ LIỆU DỰ BÁO KHÁCH HÀNG CÓ KHẢ NĂNG RỜI MẠNG VNPT Luận văn nghiên cứu về các phương pháp phân lớp trong khai phá dữ liệu dùng để phân lớp, dự đoán các đoán các thuê bao của tập đoàn bưu chính viễn thông VNPT có khả năng rời mạng hay không. Xây dựng tool xử dụng thuật toán Bayes phân lớp khách hàng, dự đoán khách hàng có khả năng rời mạng.

NGHIÊN CỨU KHAI PHÁ DỮ LIỆU DỰ BÁO KHÁCH HÀNG CÓ KHẢ NĂNG RỜI MẠNG VNPT Chuyên ngành: Hệ thống thông tin LUẬN VĂN THẠC SĨ KỸ THUẬT Hà Nội - Năm 2015 NGUYỄN ĐỨC ANH NGHIÊN CỨU KHAI PHÁ DỮ LIỆU DỰ BÁO KHÁCH HÀNG CÓ KHẢ NĂNG RỜI MẠNG VNPT Chuyên ngành: Hệ thống thông tin Mã số: 870154 LUẬN VĂN THẠC SĨ KỸ THUẬT Hà Nội - Năm 2015 Cán bộ hướng dẫn chính: Ts. Nguyễn Hoàng Sinh Cán bộ chấm phản biện 1: Cán bộ chấm phản biện 2: Luận văn thạc sĩ được bảo vệ tại: Tôi xin cam đoan: Những kết quả nghiên cứu được trình bày trong luận văn là hoàn toàn trung thực, của tôi, không vi phạm bất cứ điều gì trong luật sở hữu trí tuệ và pháp luật Việt Nam. Nếu sai, tôi hoàn toàn chịu trách nhiệm trước pháp luật. TÁC GIẢ LUẬN VĂN MỤC LỤC Trang Trang phụ bìa Bản cam đoan Mục lục Tóm tắt luận văn Danh mục các ký hiệu, viết tắt, các bảng, các hình vẽ MỞ ĐẦU 1 Cơ sở khoa học và tính thực tiễn của đề tài: 1 a. Cơ sở khoa học: 1 b. Tính thực tiễn 1 c. Mục tiêu của đề tài 3 d. Phương pháp nghiên cứu 3 1.1. Tìm hiểu về khai phá dữ liệu 4 1.1.1.Mục tiêu, nguồn gốc của khai phá dữ liệu 4 1.1.2.Lý do khai phá dữ liệu [12] 5 1.2.Quá trình khai phá dữ liệu 6 1.2.1.Tiền xử lý dữ liệu 7 1.2.2.Xây dựng và xác nhận mô hình 7 1.2.3.Áp dụng và đánh giá mô hình 8 1.3. Các kỹ thuật khai phá dữ liệu 8 1.3.1.Phân lớp 9 1.3.2.Phân cụm 9 1.3.3.Luật kết hợp 10 1.3.4.Mẫu tuần tự 10 1.3.5.Cây quyết định (Decision tree) và luật (Rule) 11 1.3.6.Phương pháp dựa trên mẫu (Based-on Pattern) 14 1.3.7.Phương pháp phụ thuộc trên đồ thị xác suất (Depending based-on Probability Graph) 14 1.3.8.Mạng Nơron (Neuron Network) 15 1.3.9.Thuật giải di truyền (Genetic Algorithm) 15 1.4. Ứng dụng, thách thức và hướng phát triển của KPDL 16 1.5. Kết luận chương 1 16 2.1. Một số ứng dụng data mining trong viễn thông 17 2.1.1. Phát hiện gian lận (fraud detection) 17 2.1.2. Các ứng dụng quản lý và chăm sóc khách hàng 17 2.1.3. Các ứng dụng phát hiện và cô lập lỗi trên hệ thống mạng viễn thông (Network fault isolation) 19 2.2. Nghiên cứu CSDL của mạng di động VNPT 19 2.2.1. Các tập CSDL quản lý thuê bao liên quan đến bài toán 20 2.2.2. Phân lớp dự đoán xu hướng khách hàng 21 2.2.3 Thuật toán K-Nearest Neighbors [16] 32 2.2.4. Phân lớp Bayes 36 2.2.5 Thực nghiệm, đánh giá chung và so sánh của các thuật toán [11]. 40 2.3. Kết luận chương 2 47 3.1. Áp dụng data mining để dự đoán trước ý định rời khỏi mạng của khách hàng 49 3.1.1. Cách giải quyết yêu cầu bài toán 49 3.1.2. Phương pháp triển khai 49 3.1.3. Nội dung triển khai 49 3.1.4. Xây dựng tập CSDL huấn luyện 50 3.2. Xây dựng ứng dụng 57 3.2.1 Giới thiệu 57 3.2.2. Quá trình phát triển 58 3.2.3. Xây dựng Chương trình 58 3.2.4. Đánh giá 62 3.3. Kết luận chương 3 62 1. Kết luận 63 2. Hướng phát triển tiếp theo 63 TÀI LIỆU THAM KHẢO 65 TÓM TẮT LUẬN VĂN THẠC SĨ Họ và tên học viên: Nguyễn Đức Anh Lớp: Hệ thống thông tin Khoá: K25A Cán bộ hướng dẫn: TS. Nguyễn Hoàng Sinh Tên đề tài: NGHIÊN CỨU KHAI PHÁ DỮ LIỆU DỰ BÁO KHÁCH HÀNG CÓ KHẢ NĂNG RỜI MẠNG VNPT + Tóm tắt: Luận văn nghiên cứu về các phương pháp phân lớp trong khai phá dữ liệu dùng để phân lớp, dự đoán các đoán các thuê bao của tập đoàn bưu chính viễn thông VNPT có khả năng rời mạng hay không. Sử dụng cơ sở dữ liệu SQL server để thiết kế, phân tích dữ liệu, lựa chọn các thuộc tính có ích cho việc dự đoán để tạo bảng cơ sở dữ liệu huấn luyện. Sử dụng thuật toán phân lớp Bayes để dự đoán một thuê bao cụ thể có khả năng rời khỏi mạng hay không. DANH MỤC CÁC KÝ HIỆU KPDL Khai phá dữ liệu CSDL Cơ sở dữ liệu CDR Call Data Record DANH MỤC CÁC BẢNG Trang Cơ sở khoa học và tính thực tiễn của đề tài: 1 a. Cơ sở khoa học: 1 b. Tính thực tiễn 1 c. Mục tiêu của đề tài 3 d. Phương pháp nghiên cứu 3 1.1. Tìm hiểu về khai phá dữ liệu 4 1.1.1.Mục tiêu, nguồn gốc của khai phá dữ liệu 4 Hình 1.1. Nguồn gốc khai phá dữ liệu 5 1.1.2.Lý do khai phá dữ liệu [12] 5 1.2.Quá trình khai phá dữ liệu 6 1.2.1.Tiền xử lý dữ liệu 7 1.2.2.Xây dựng và xác nhận mô hình 7 1.2.3.Áp dụng và đánh giá mô hình 8 1.3. Các kỹ thuật khai phá dữ liệu 8 1.3.1.Phân lớp 9 1.3.2.Phân cụm 9 1.3.3.Luật kết hợp 10 1.3.4.Mẫu tuần tự 10 1.3.5.Cây quyết định (Decision tree) và luật (Rule) 11 Bảng 1.1 Bảng training Data 12 Hình 1.2. Cây quyết định từ bảng training data 12 Bảng 1.2 Bảng testing Data 13 Bảng 1.3. Kết quả phân lớp bằng cây quyết định 13 1.3.6.Phương pháp dựa trên mẫu (Based-on Pattern) 14 1.3.7.Phương pháp phụ thuộc trên đồ thị xác suất (Depending based-on Probability Graph) 14 1.3.8.Mạng Nơron (Neuron Network) 15 1.3.9.Thuật giải di truyền (Genetic Algorithm) 15 1.4. Ứng dụng, thách thức và hướng phát triển của KPDL 16 1.5. Kết luận chương 1 16 2.1. Một số ứng dụng data mining trong viễn thông 17 2.1.1. Phát hiện gian lận (fraud detection) 17 2.1.2. Các ứng dụng quản lý và chăm sóc khách hàng 17 2.1.3. Các ứng dụng phát hiện và cô lập lỗi trên hệ thống mạng viễn thông (Network fault isolation) 19 2.2. Nghiên cứu CSDL của mạng di động VNPT 19 2.2.1. Các tập CSDL quản lý thuê bao liên quan đến bài toán 20 2.2.2. Phân lớp dự đoán xu hướng khách hàng 21 Hình 2.1. Xây dựng Mô hình huấn luyện 23 Hình 2.2. Sử dụng mô hình huấn luyện để dự đoán 25 2.2.3 Thuật toán K-Nearest Neighbors [16] 32 Hình 2.3 Traning samples thuật toán KNN 34 Hình 2.4 Sắp xếp khoảng cách thuật toán KNN 35 Hình 2.5 Kết quả ví dụ thuật toán KNN 35 2.2.4. Phân lớp Bayes 36 Hình 2.6. Dữ liệu quan sát D và tập giả thiết h 37 Bảng 2.1. Mối quan hệ giữa 2 biến thu nhập và loại xe hơi 38 Bảng 2.3. Bảng phần trăm theo dòng 39 Bảng 2.6. Các giá trị trong bảng phần trăm theo cột 40 2.2.5 Thực nghiệm, đánh giá chung và so sánh của các thuật toán [11]. 40 Bảng 2.7. Bảng so sánh ưu điểm của các thuật toán 41 Bảng 2.8. So sánh các tính năng của các thuật toán 41 [...]... họ có ý định rời bỏ mạng c Mục tiêu của đề tài Nghiên cứu kỹ thuật khai phá dữ liệu nhằm ứng dụng phân nhóm khách hàng để dự đoán những khách hàng có khả năng rời mạng d Phương pháp nghiên cứu • Về lý thuyết: - Nghiên cứu tổng quan về khai phá dữ liệu - Nghiên cứu về một số kỹ thuật khai phá dữ liệu: Luật kết hợp, Phân lớp, Phân cụm - Nghiên cứu công cụ khai phá dữ liệu - Nghiên cứu thực tiễn bộ dữ liệu. .. nội dung tổng quan về khai phá dữ liệu, mục tiêu của khai phá dữ liệu, một số phương pháp khai phá dữ liệu Tập trung vào phương pháp khai phá dữ liệu dựa trên cây quyết định là tiền đề cho nội dung nghiên cứu của chương 2 khi sử dụng thuật toán Bayes để khai phá Chương này cũng giới thiệu các ứng dụng của khai phá dữ liệu trong viễn thông Chương 2 NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG VIỄN THÔNG... tiễn bộ dữ liệu và lựa chọn phương pháp khai phá dữ liệu phù hợp • Về thực nghiệm: - Sử dụng các kết quả nghiên cứu từ lý thuyết ứng dụng vào cơ sở dữ liệu viễn thông của mạng di động VNPT - Xây dựng tool xử dụng thuật toán Bayes phân lớp khách hàng, dự đoán khách hàng có khả năng rời mạng Chương 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Tìm hiểu về khai phá dữ liệu Sự phát triển của công nghệ phần cứng... lớn của dữ liệu, khai phá tri thức từ dữ liệu, tách tri thức, phân tích mẫu dữ liệu Quá trình khai phá gồm những bước tuần tự như sau: 1 Làm sạch dữ liệu (loại bỏ những dữ liệu dư thừa không có thông tin) 2 Tích hợp dữ liệu ( khi nhiều nguồn dữ liệu được kết hợp) 3 Lựa chọn dữ liệu ( lựa chọn những dữ liệu tích hợp cho việc phân tích được thực hiện lấy từ CSDL) 4 Chuyển đổi dữ liệu (nơi dữ liệu được... hàng, dữ liệu mạng, và miêu tả họ sử dụng dịch vụ nào Dựa trên việc phân loại thành các nhóm khách hàng khác nhau và những nhu cầu, sở thích, thói quen của từng nhóm đối tượng khách hàng, nhà quản lý sẽ dự đoán được những khách hàng có khả năng rời bỏ mạng di động của mình Từ đó sẽ đưa ra được những chiến lược chăm sóc khách hàng trên từng nhóm đối tượng khách hàng khác nhau nhằm níu giữ khách hàng. .. kho dữ liệu cùng với các tập tin CDR’s c CSDL Khách hàng CSDL khách hàng cho ta biết thông tin về đối tượng thuê bao, mã khách hàng, số thuê bao, họ tên, nơi ở, số chứng minh nhân dân, đối tượng khách hàng, các loại cước khác nhau Điều này giúp cho chúng ta phân loại khách hàng 2.2.2 Phân lớp dự đoán xu hướng khách hàng a Xây dựng tập dữ liệu huấn luyện (Training Data) Dựa trên các cơ sở dữ liệu đã có. .. tree), mạng nơ ron nhân tạo (neural network) trên dữ liệu cước (billing data), dữ liệu chi tiết cuộc gọi (call detail records), dữ liệu khách hàng (customer data) tìm ra các quy luật mà dựa trên đó ta có thể tiên đoán trước ý định rời khỏi mạng của khách hàng, từ đó công ty viễn thông sẽ có các ứng xử phù hợp nhằm lôi kéo khách hàng Cuối cùng, một ứng dụng cũng rất phổ biến đó là phân lớp khách hàng Dựa... trữ dữ liệu tốt với giá cả phải chăng Song song với điều đó, những tiến bộ trong quá trình thu thập đã dẫn tới sự tăng trưởng với số lượng lớn dữ liệu Công cụ KPDL thực thi việc phân tích dữ liệu và khám phá ra những mẫu quan trọng bị ẩn dấu Việc mở rộng giữa dữ liệu và thông tin được gọi là công cụ phát triển khai thác hệ thống – công cụ khai phá dữ liệu 1.1.1 Mục tiêu, nguồn gốc của khai phá dữ liệu. .. là khách hàng sẽ có hoặc vẫn dùng sản phẩm của công ty và tại sao • Bộ dữ liệu đồ sộ: Các công ty viễn thông có một khối lượng dữ liệu đồ sộ Khi những sản phẩm chính của công ty được sử dụng, mỗi khách hàng đã tạo ra hàng trăm dịch vụ trên một ngày Một bản ghi cuộc gọi được lưu trữ trong CSDL và nó là một nguồn dữ liệu rất lớn Các công ty viễn thông cũng lưu trữ dữ liệu khách hàng, miêu tả khách hàng, ... • • • • CSLD, kho dữ liệu, web hoặc những hệ thống thông tin khác Máy chủ CSDL hoặc kho dữ liệu Dựa trên cơ sở tri thức Cách thức KPDL Module đánh giá mô hình Giao diện người sử dụng 1.2.1 Tiền xử lý dữ liệu Tiền xử lý dữ liệu là quá trình chuẩn bị dữ liệu và xử lý dữ liệu Trước khi sử dụng bất kỳ kỹ thuật KPDL nào để khai phá dữ liệu, một vấn đề cực kỳ cần thiết là phải xử lý dữ liệu thô Đầu tiên,

Ngày đăng: 09/01/2015, 22:12

Từ khóa liên quan

Mục lục

  • Bảng 2.10. Bảng cơ sở dữ liệu sử dụng dịch vụ

  • Hình 3.1. Kiến trúc hệ thống phân lớp

    • Bảng 3.4. Bảng thông tin tổng hợp khách hàng

    • Cơ sở khoa học và tính thực tiễn của đề tài:

    • a. Cơ sở khoa học:

      • b. Tính thực tiễn

      • c. Mục tiêu của đề tài

      • d. Phương pháp nghiên cứu

      • 1.1. Tìm hiểu về khai phá dữ liệu

        • 1.1.1. Mục tiêu, nguồn gốc của khai phá dữ liệu

          • Hình 1.1. Nguồn gốc khai phá dữ liệu

          • 1.1.2. Lý do khai phá dữ liệu [12]

          • 1.2. Quá trình khai phá dữ liệu

            • 1.2.1. Tiền xử lý dữ liệu

            • 1.2.2. Xây dựng và xác nhận mô hình

            • 1.2.3. Áp dụng và đánh giá mô hình

            • 1.3. Các kỹ thuật khai phá dữ liệu

              • 1.3.1. Phân lớp

              • 1.3.2. Phân cụm

              • 1.3.3. Luật kết hợp

              • 1.3.4. Mẫu tuần tự

              • 1.3.5. Cây quyết định (Decision tree) và luật (Rule)

                • Bảng 1.1 Bảng training Data

                • Hình 1.2. Cây quyết định từ bảng training data

                  • Bảng 1.2 Bảng testing Data

                  • Bảng 1.3. Kết quả phân lớp bằng cây quyết định

                  • 1.3.6. Phương pháp dựa trên mẫu (Based-on Pattern)

                  • 1.3.7. Phương pháp phụ thuộc trên đồ thị xác suất (Depending based-on Probability Graph)

Tài liệu cùng người dùng

Tài liệu liên quan