Ứng dụng một số thuật toán phân cụm phân tích dữ liệu ngân hàng

106 757 1
Ứng dụng một số thuật toán phân cụm phân tích dữ liệu ngân hàng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Doãn Hiền ỨNG DỤNG MỘT SỐ THUẬT TOÁN PHÂN CỤM PHÂN TÍCH DỮ LIỆU NGÂN HÀNG LUẬN VĂN THẠC SỸ Hà Nội – 2006 1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Doãn Hiền ỨNG DỤNG MỘT SỐ THUẬT TOÁN PHÂN CỤM PHÂN TÍCH DỮ LIỆU NGÂN HÀNG Ngành: Công nghệ Thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SỸ Ngƣời hƣớng dẫn khoa học: PGS. TSKH. Bùi Công Cƣờng Hà Nội – 2006 2 Lêi c¶m ¬n Sau một thời gian nghiên cứu và nỗ lực thực hiện, luận văn “Ứng dụng một số thuật toán phân cụm phân tích dữ liệu Ngân hàng” đã cơ bản hoàn thành. Ngoài sự cố gắng của bản thân, tôi đã nhận đƣợc sự giúp đỡ từ nhà trƣờng, thầy cô giáo, gia đình và bạn bè. Trƣớc hết, tôi xin đƣợc cảm ơn mẹ, ngƣời đã động viên và chăm sóc tôi trong quá trình học tập và hoàn thành luận văn. Tôi xin cảm ơn các thầy cô giáo trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội đã truyền đạt những kiến thức quí báu cho tôi cũng nhƣ các học viên lớp Cao học Công nghệ K10T3. Đặc biệt, tôi xin cảm ơn sâu sắc tới thầy giáo Bùi Công Cƣờng, ngƣời đã trực tiếp tận tình giúp đỡ, hƣớng dẫn tôi trong quá trình thực hiện luận văn này. Nhân đây, tôi cũng gửi lời cảm ơn tới các bạn bè cùng lớp K10T3 đã cùng sát cánh và động viên tôi trong những ngày cùng nhau học tập tại trƣờng Đại học Công nghệ - Đại học Quốc Gia Hà Nội. 3 MỤC LỤC MỞ ĐẦU 6 CHƢƠNG 1. TỔNG QUAN 7 1.1. MỤC TIÊU, NỘI DUNG VÀ PHƢƠNG PHÁP NGHIÊN CỨU 7 1.2. TÓM TẮT NỘI DUNG CÁC CHƢƠNG 8 CHƢƠNG 2. PHÂN CỤM DỮ LIỆU 10 2.1 KHÁI NIỆM PHÂN CỤM DỮ LIỆU 10 2.2 CÁC BƢỚC CƠ BẢN ĐỂ PHÂN CỤM 11 2.3 CÁC ỨNG DỤNG CỦA PHÂN CỤM 12 2.4 CÁC LOẠI ĐẶC TRƢNG 13 2.5 CÁC ĐỊNH NGHĨA PHÂN CỤM 14 2.5.1 Định nghĩa phân cụm 14 2.5.2 Định nghĩa phân cụm mờ 15 2.6 CÁC ĐỘ ĐO 16 2.6.1 Độ đo không tƣơng tự 16 2.6.2 Độ đo tƣơng tự 16 2.6.3 Độ đo gần gũi giữa các tập con của X 17 2.6.4 Các độ đo gần gũi giữa hai điểm 18 2.6.5 Các hàm gần gũi giữa một điểm và một tập 27 2.6.6 Các hàm gần gũi giữa hai tập 29 2.6.7 Đánh giá phân cụm 30 CHƢƠNG 3. MỘT SỐ THUẬT TOÁN PHÂN CỤM 32 3.1 GIỚI THIỆU VỀ CÁC THUẬT TOÁN PHÂN CỤM 32 3.1.1 Số các phân cụm 32 3.1.2 Phân loại các thuật toán phân cụm 33 3.2 THUẬT TOÁN PHÂN CỤM TUẦN TỰ 34 3.2.1 Thuật toán phân cụm tuần tự 34 3.2.2 Ƣớc lƣợng số lƣợng các phân cụm 37 3.2.3. Một thuật toán BSAS cải tiến 39 3.2.4. Sơ đồ tuần tự với hai ngƣỡng 41 3.2.5. Thực hiện tinh chỉnh 45 3.3 THUẬT TOÁN PHÂN CỤM K-MEANS 47 3.3.1 Thuật toán K-means 47 3.3.2 Các bƣớc thực hiện thuật toán K-means 47 3.3.3 Ví dụ về áp dụng thuật toán K-means 49 3.3.4 Một số vấn đề và ƣu, nhƣợc điểm của K-means 52 3.3.5 Độ phức tạp của thuật toán K-means 53 3.4 THUẬT TOÁN PHÂN CỤM MỜ K-MEANS (FKM) 53 3.4.1 Khái niệm về tập mờ và phân cụm mờ 53 4 3.4.2 Thuật toán phân cụm mờ K-means 55 3.4.3 Mô tả thuật toán 57 3.4.4 Độ phức tạp thuật toán 58 3.5 THUẬT TOÁN PHÂN CỤM HIERACHICAL 59 3.5.1 Nguyên lý thực hiện 59 3.5.2 Mô tả thuật toán 60 3.5.3 Ví dụ về thuật toán phân cấp 61 3.5.4 Ƣu, nhƣợc điểm của thuật toán 65 3.6 THUẬT TOÁN PHÂN CỤM K-LÁNG GIỀNG GẦN 66 3.6.1 Thuật toán K-láng giềng gần 66 3.6.2. Cách thức thực hiện thuật toán KNN 66 3.6.3. Một ví dụ áp dụng thuật toán KNN 69 3.6.4. Ƣu, nhƣợc điểm của thuật toán KNN 71 CHƢƠNG 4. XÂY DỰNG CHƢƠNG TRÌNH PHÂN CỤM 72 4.1 PHÂN TÍCH CÁC MODULE 72 4.1.1 Module chuẩn bị dữ liệu 72 4.1.2 Tinh chỉnh dữ liệu 72 4.1.3 Hàm tính khoảng cách 73 4.2 CHƢƠNG TRÌNH MÔ PHỎNG CÁC THUẬT TOÁN 75 4.2.1 Giới thiệu chƣơng trình 75 4.2.2 Chuyển đổi và tinh chỉnh dữ liệu 75 4.2.3 Thuật toán K-means 76 4.2.4 Thuật toán phân cụm phân cấp (Hierachical) 77 4.2.5 Thuật toán Fuzzy K-means 79 CHƢƠNG 5. ỨNG DỤNG PHÂN CỤM DỮ LIỆU GIAO DỊCH ATM 80 5.1 PHÁT BIỂU BÀI TOÁN 80 5.2. ÁP DỤNG VÀO CHƢƠNG TRÌNH ĐÃ XÂY DỰNG 80 5.2.1 Phƣơng pháp áp dụng 80 5.2.2 Đặc tả dữ liệu và cách thức thực hiện 81 5.2.3 Phân tích, đánh giá kết quả 81 KẾT LUẬN 85 1. TÓM TẮT KẾT QUẢ 85 2. PHƢƠNG HƢỚNG PHÁT TRIỂN 85 TÀI LIỆU THAM KHẢO 87 PHỤ LỤC 1: MÃ NGUỒN CHƢƠNG TRÌNH 88 1 MODULE TÍNH KHOẢNG CÁCH GIỮA CÁC PHẦN TỬ 88 1.1 Tính khoảng cách theo Manhattan 88 1.2 Tính khoảng cách theo công thức Euclide 89 1.3 Tính khoảng cách hỗn hợp (công thức Kaufman và Rousseeuw) 90 2. MODULE THỰC HIỆN THUẬT TOÁN K-MEANS 96 3. MODULE THỰC HIỆN THUẬT TOÁN HIERACHICAL 99 5 PHỤ LỤC 2: MÔ TẢ DỮ LIỆU GIAO DỊCH 102 1. Cấu trúc bảng dữ liệu 102 2. Danh sách mã loại thẻ 102 3. Danh sách mã giao dịch 103 4. Định dạng dữ liệu sau khi chuyển đổi 103 5. Định dạng dữ liệu sau phân cụm bằng thuật toán K-means 104 6. Định dạng dữ liệu sau phân cụm bằng thuật toán Hierachical 104 7. Định dạng cây phân cấp 105 6 MỞ ĐẦU Đối với các Ngân hàng hiện nay, nắm đƣợc khách hàng là một trong những điểm mấu chốt tạo nên thành công trong kinh doanh. Để đạt đƣợc điều này, việc cần thiết đó là thiết lập đƣợc chiến lƣợc khách hàng đúng đắn để sao cho giành đƣợc các khách hàng mới và giữ đƣợc các khách hàng có chất lƣợng cao. Để đạt đƣợc những mục tiêu đó, các Ngân hàng đã xây dựng các hệ thống dữ liệu về khách hàng, từ đó có thể phân tích và xây dựng các chiến lƣợc kinh doanh cho mình. Thực tế cho thấy rằng, thay vì nhắm vào tất cả các khách hàng để đối xử, khuyến khích, Ngân hàng có thể lựa chọn các khách hàng đáp ứng một tiêu chuẩn nào đó về lợi nhuận dựa trên các thuộc tính giao dịch hay những thuộc tính khác của khách hàng [7]. Trong những năm gần đây, hệ thống máy giao dịch tự động (ATM – Automatic Teller Machine) đƣợc các Ngân hàng tại Việt Nam triển khai và phát triển khá mạnh mẽ. Hệ thống này cho phép khách hàng thực hiện giao dịch một cách tiện lợi về thời gian (online 24/7) cũng nhƣ cung cấp các dịch vụ (vấn tin, chuyển khoản, rút tiền, thanh toán hoá đơn, cách dịch vụ tín dụng ). Vì vậy, có thể nói hệ thống ATM trở thành một trong những kênh quan trọng trong các kênh giao dịch của Ngân hàng cung cấp cho khách hàng. Tuy nhiên, để phát huy hiệu quả của hệ thống này, ngoài các thông tin cố định nhƣ lƣợng thẻ, lƣợng giao dịch, số máy ATM… Ngân hàng cần biết đƣợc các thuộc tính ẩn của khách hàng để đề ra chiến lƣợc phát triển đúng đắn cho loại hình dịch vụ này. Đó chính là lý do cần đến khoa học khai phá dữ liệu mà ở đây cụ thể hơn, chúng ta sẽ nghiên cứu về các thuật toán phân cụm dữ liệu để tìm ra các thuộc tính ẩn đó. 7 CHƢƠNG 1. TỔNG QUAN 1.1. MỤC TIÊU, NỘI DUNG VÀ PHƢƠNG PHÁP NGHIÊN CỨU  Mục tiêu của luận văn Nắm bắt đƣợc cơ sở lý thuyết của các thuật toán phân cụm, đƣa ra phƣơng hƣớng giải quyết cho bài toán áp dụng vào thực tế để thực hiện bài toán phân cụm dữ liệu ATM trong Ngân hàng.  Nội dung chính của luận văn Luận văn có các nội dung chính nhƣ sau: - Khái quát cơ sở lý thuyết về phân cụm dữ liệu. - Tìm hiểu, trình bày một số thuật toán phân cụm đã và đang đƣợc sử dụng trên thế giớ1. - Xây dựng chƣơng trình mô phỏng các thuật toán phân cụm dữ liệu. - Áp dụng vào bào toán phân cụm dữ liệu ATM của Ngân hàng Đầu tƣ và Phát triển Việt nam (BIDV).  Phƣơng pháp nghiên cứu - Kết hợp lý thuyết, thực nghiệm và thực tế để đƣa ra các đánh giá, kết luận. - Học hỏi, nghiên cứu, phân tích các lý thuyết về các lĩnh vực có liên quan trong luận văn, từ các nguồn: các thầy giáo, cô giáo, các nhà khoa học, các chuyên gia, các đồng nghiệp, sách, báo, tài liệu, internet, 5.5 - Tìm hiểu trên thực tế các yêu cầu, các tiêu chuẩn và các đánh giá về các hệ thống. - Xây dựng các sơ đồ cấu trúc, nguyên lý cho các hệ thống sao cho phù hợp với yêu cầu và khả năng, xây dựng mô hình thực nghiệm. - Đƣa ra kết luận từ kết quả nghiên cứu. 8 1.2. TÓM TẮT NỘI DUNG CÁC CHƢƠNG Luận văn có 4 chƣơng và phần mở đầu, kết luận:  Phần mở đầu Phần này nêu lên sự cần thiết của vấn đề phân cụm dữ liệu nói chung và nhất là việc áp dụng vào phân tích dữ liệu trong Ngân hàng để từ đó định hƣớng cho việc mở rộng các dịch vụ với các dối tƣợng khách hàng hợp lý.  Chƣơng một: Tổng quan Chƣơng này nêu lên mục tiêu, nội dung và phƣơng pháp nghiên cứu để hoàn thành bản luận văn này.  Chƣơng hai: Phân cụm dữ liệu Chƣơng này nêu lên khái niệm cơ bản về phân cụm dữ liệu, các bƣớc cơ bản để thực hiện một thuật toán phân cụm, các loại đặc trƣng của phân cụm và các định nghĩa liên quan đến phân cụm. Chƣơng hai có đề cập đến một số ứng dụng của việc phân cụm và một nội dung quan trọng nhất của các thuật toán phân cụm là các độ đo.  Chƣơng ba: Một số thuật toán phân cụm dữ liệu Chƣơng ba giới thiệu chi tiết về một số thuật toán phân cụm hiện đang đƣợc áp dụng phổ biến, đó là các thuật toán phân cụm tuần tự (Sequence), thuật toán phân cụm phân cấp (Hierachical), thuật toán K-trung bình (K-Means), K- trung bình mờ (Fuzzy K-Means) và thuật toán K láng giềng gần (K-Nearest Neighbour).  Chƣơng bốn: Xây dựng chƣơng trình phân cụm 9 Chƣơng bốn giới thiệu chƣơng trình thực hiện một số thuật toán nêu tại Chƣơng ba bao gồm phần phân tích các module thực hiện và phần chƣơng trình thực hiện.  Chƣơng năm: Ứng dụng phân cụm dữ liệu giao dịch ATM Chƣơng năm giới thiệu ứng dụng bài toán phân cụm vào việc phân tích dữ liệu giao dịch ATM của Ngân hàng, cụ thể là phát biểu bài toán, nêu phƣơng pháp áp dụng, đặc tả dữ liệu, phân tích đánh giá kết quả đầu ra và đề xuất phƣơng hƣớng phát triển của chƣơng trình.  Phần kết luận Phần này nêu kết quả của luận văn và định hƣớng phát triển trong tƣơng lai.  Phục lục mã nguồn chƣơng trình Mã nguồn thực hiện các thuật toán phân cụm và một số hàm liên quan nhƣ chuyển đổi dữ liệu, tinh chỉnh dữ liệu trƣớc khi phân cụm, tính khoảng cách và một số hàm khác liên quan. [...]...10 CHƢƠNG 2 PHÂN CỤM DỮ LIỆU 2.1 KHÁI NIỆM PHÂN CỤM DỮ LIỆU Phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong một cụm “tƣơng tự” với nhau và các phần tử trong các cụm khác nhau sẽ “không tƣơng tự” Phân cụm dữ liệu nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu trong tập dữ liệu lớn, từ đó cung cấp thông tin hữu... trọng trong một số ứng dụng, sau đây là một số ứng dụng của nó: - Giảm dữ liệu: Từ một số lƣợng lớn dữ liệu, phân cụm sẽ nhóm các dữ liệu này thành cụm dữ liệu nhỏ dễ nhận thấy sau đó xử lý mỗi cụm nhƣ một đối tƣợng đơn - Rút ra các giả thuyết: Các giả thuyết này có liên quan đến tính tự nhiên của dữ liệu phải đƣợc kiểm tra bởi việc dùng một số tập dữ liệu khác - Kiểm định giả thuyết: Phân cụm để xét... năng một véctơ đặc trƣng thuộc về một cụm nào đó - Các thuật toán phát hiện biên phân tách Các thuật toán này cố gắng đặt các biên phân tách một cách tối ƣu giữa các cụm Sau đây chúng ta sẽ đi vào một số thuật toán phân cụm cụ thể, đó là Thuật toán phân cụm tuần tự (Sequential), thuật toán phân cụm K-trung bình (Kmeans), K-trung bình mờ (Fuzzy K-means), K-láng giềng gần (K-Nearest Neighbor), Phân cụm phân. .. việc trộn 2 cụm làm một Các đại diện chính của loại này là thuật toán liên kết đơn (phù hợp với cụm dài và mỏng) và thuật toán liên kết đầy đủ (phù hợp với các cụm chặt) - Các thuật toán chia rẽ (Deviside) Sinh ra một dãy các phân cụm mà số cụm m tăng dần ở mỗi bƣớc Cách phân cụm ở mỗi bƣớc là kết quả cách phân cụm ở bƣớc trƣớc đó bằng việc chia đôi một cụm đơn 3.1.2.3 Các thuật toán phân cụm dựa trên... việc đƣa một véctơ về các cụm cụ thể đƣợc thực hiện một cách tối ƣu theo tiêu chuẩn phân cụm tối ƣu - Các thuật toán phân cụm theo hàm xác suất Dựa vào lý thuyết phân lớp Bayes và mỗi véctơ đƣợc phân về cụm thứ i nếu P(Ci | x) là lớn nhất (xác suất để x được phân đúng vào cụm Ci) - Các thuật toán phân cụm mờ Các véctơ thuộc về một cụm nào đó với một độ chắc chắn nào đó - Các thuật toán phân cụm theo... tìm tất cả các cách phân cụm là điều không thể khi N đủ lớn 33 3.1.2 Phân loại các thuật toán phân cụm Các thuật toán phân cụm có thể đƣợc xem nhƣ các sơ đồ cung cấp cho ta các cụm “dễ nhận thấy” bởi việc chỉ xem xét một phần nhỏ của tập chứa tất cả các cách phân cụm của X Kết quả phụ thuộc vào thuật toán và tiêu chuẩn phân cụm cụ thể đƣợc dùng Nhƣ vậy, một thuật toán phân cụm là một chức năng học cố... bƣớc phân tích khuynh hƣớng phân cụm, trong bƣớc này có các kiểm định khác nhau để chỉ ra tập dữ liệu có hay không một cấu trúc phân cụm Ví dụ nhƣ tập dữ liệu của ta có thể hoàn toàn ngẫu nhiên vì vậy mọi cố gắng phân cụm đều là vô nghĩa Các lựa chọn khác nhau của các đặc trƣng, độ đo gần gũi, tiêu chuẩn phân cụm có thể dẫn tới các kết quả phân cụm khác nhau 2.3 CÁC ỨNG DỤNG CỦA PHÂN CỤM Phân cụm là một. .. véctơ tham gia thuật toán Những sơ đồ loại này có khuynh hƣớng sinh ra các cụm có hình dạng chặt và siêu cầu hoặc siêu elipxoit tuỳ theo độ đo đƣợc sử dụng 3.1.2.2 Các thuật toán phân cụm phân cấp (Hierachical Aalgorithms) - Các thuật toán tích tụ (Agglomerative) Chúng sinh ra một dãy các cách phân cụm mà số cụm m giảm dần ở mỗi bƣớc Cách phân cụm ở mỗi bƣớc là kết quả của cách phân cụm ở bƣớc trƣớc... các nhãn cho các nhóm dữ liệu Một vấn đề thƣờng gặp trong phân cụm dữ liệu là hầu hết các dữ liệu cần cho phân cụm đều có chứa nhiễu do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ, vì vậy cần phải xây dựng chiến lƣợc cho bƣớc tiền xử lý dữ liệu nhặm khắc phục và loại bỏ nhiễu trƣớc khi bƣớc vào giai đoạn phân tích phân cụm dữ liệu “Nhiễu” ở đây có thể là các đối tƣợng dữ liệu không chính xác,... cách phân cụm Thƣờng thì số các cụm m là cố định Thuật toán sẽ dùng các khái niệm về phép tính vi phân và 34 sinh ra các cách phân cụm liên tiếp trong khi cố gắng tối ƣu hoá J Thuật toán sẽ dừng khi một tối ƣu địa phƣơng đƣợc xác định Các thuật toán này cũng đƣợc gọi là các sơ đồ tối ƣu hoá hàm lặp Chúng đƣợc phân loại tiếp nhƣ sau: - Các thuật toán phân cụm chặt hay rõ Véctơ thuộc hoàn toàn vào một cụm . phân cụm 32 3.1.2 Phân loại các thuật toán phân cụm 33 3.2 THUẬT TOÁN PHÂN CỤM TUẦN TỰ 34 3.2.1 Thuật toán phân cụm tuần tự 34 3.2.2 Ƣớc lƣợng số lƣợng các phân cụm 37 3.2.3. Một thuật toán. đến phân cụm. Chƣơng hai có đề cập đến một số ứng dụng của việc phân cụm và một nội dung quan trọng nhất của các thuật toán phân cụm là các độ đo.  Chƣơng ba: Một số thuật toán phân cụm dữ liệu. tiêu chuẩn phân cụm có thể dẫn tới các kết quả phân cụm khác nhau. 2.3 CÁC ỨNG DỤNG CỦA PHÂN CỤM Phân cụm là một công cụ quan trọng trong một số ứng dụng, sau đây là một số ứng dụng của nó:

Ngày đăng: 19/08/2015, 06:34

Từ khóa liên quan

Mục lục

  • BÌA

  • LỜI CẢM ƠN

  • MỞ ĐẦU

  • CHƯƠNG 1. TỔNG QUAN

  • 1.1. MỤC TIÊU, NỘI DUNG VÀ PHƢƠNG PHÁP NGHIÊN CỨU

  • 1.2. TÓM TẮT NỘI DUNG CÁC CHƢƠNG

  • CHƯƠNG 2. PHÂN CỤM DỮ LIỆU

  • 2.1 KHÁI NIỆM PHÂN CỤM DỮ LIỆU

  • 2.2 CÁC BƯỚC CƠ BẢN ĐỂ PHÂN CỤM

  • 2.3 CÁC ỨNG DỤNG CỦA PHÂN CỤM

  • 2.4 CÁC LOẠI ĐẶC TRƯNG

  • 2.5 CÁC ĐỊNH NGHĨA PHÂN CỤM

  • 2.5.1 Định nghĩa phân cụm

  • 2.5.2 Định nghĩa phân cụm mờ

  • 2.6 CÁC ĐỘ ĐO

  • 2.6.1 Độ đo không tương tự

  • 2.6.2 Độ đo tương tự

  • 2.6.3 Độ đo gần gũi giữa các tập con của X

  • 2.6.4 Các độ đo gần gũi giữa hai điểm

  • 2.6.5 Các hàm gần gũi giữa một điểm và một tập

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan