Thông tin tài liệu
1
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
TRẦN NAM QUỲNH
XÂY DỰNG KHO DỮ LIỆU KHÁCH HÀNG SỬ DỤNG DỊCH VỤ
VIỄN THÔNG PHỤC VỤ CÔNG TÁC QUẢN LÝ
CHUYÊN NGÀNH: TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH
MÃ SỐ: 60.48.15
Ngư
ời h
ư
ớng dẫn khoa học:
PGS.TS. LÊ HỮU LẬP
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2011
2
MỞ ĐẦU
1. Lý do chọn đề tài
Việc áp dụng công nghệ thông tin vào thực tiễn sản xuất kinh doanh đã
mang lại những hiệu quả và lợi ích to lớn. Các hệ thống thông tin từ chỗ chỉ giải
quyết những xử lý công việc hàng ngày nay đã tiến tới đáp ứng được những yêu
cầu ở mức độ cao hơn. Các nhà quản lý điều hành không những biết được công
việc đang diễn ra như thế nào mà còn biết cái gì sẽ xảy ra sau đó, có nghĩa là
thông tin mang tính phân tích và hệ thống thông tin có khả năng hỗ trợ quyết
định. Tuy nhiên việc xây dựng một hệ thống như thế vấp phải một số hạn chế về
mặt kỹ thuật, đặc biệt là khi kích thước cũng như độ phức tạp của môi trường
thông tin tăng lên. Lưu trữ phân tán ở nhiều dạng không tương thích với nhau,
thậm chí còn ở những dạng phi cấu trúc. Nhiều hệ CSDL đã được xây dựng
không tương thích với nhau và không tương thích với những hệ thông tin mới
được xây dựng. Nhiều khách hàng không thoả mãn với những hệ thống thông tin
hiện thời.
Một cách tiếp cận được đề xướng bởi B.Inmon là sự kết hợp của một số giải
pháp kỹ thuật và được đặt tên là Data Warehoushing - kỹ thuật xây dựng các
kho dữ liệu. Data Warehouse được định nghĩa như một tập hợp các phương tiện
cho phép hình dung dữ liệu một cách tổng thể, hướng đối tượng để giúp cho việc
phân tích và ra quyết định.
2. Mục đích của đề tài: Tiếp cận các phương pháp khai phá dữ liệu để tích hợp
dữ liệu và các siêu dữ liệu từ nhiều nguồn thành một nguồn mang tính lôgic duy
nhất nhằm cung cấp thông tin trợ giúp cho việc phân tích và ra quyết định.
3. Đối tượng và phạm vi nghiên cứu: Việc nghiên cứu sẽ tập trung xây dựng
các báo cáo dựa trên kho dữ liệu tích hợp từ các nguồn dữ liệu hiện có với các
ứng dụng quản lý điều hành sản xuất kinh doanh của VNPT Quảng Ninh.
4. Phương pháp nghiên cứu: Tìm hiểu các tài liệu liên quan đến Data
Warehouse các kỹ thuật truy cập, phân tích và khai phá dữ liệu.
3
5. Kết cấu của luận văn
Luận văn bao gồm 3 chương:
Chương 1: Tổng quan về Kho dữ liệu và Khai phá dữ liệu
Tìm hiểu về kho dữ liệu, đặc điểm, phân loại, sử dụng đồng thời nghiên
cứu và trình bày về Khai phá dữ liệu.
Chương 2: Xây dựng kho dữ liệu.
Chương này phân tích các yêu cầu xây dựng kho dữ liệu; Các mô hình dữ
liệu; Cấu trúc, kiến trúc trong việc xây dựng kho dữ liệu.
Chương 3: Xây dựng kho dữ liệu khách hàng sử dụng dịch vụ viễn thông phục
vụ công tác quản lý.
CHƯƠNG I
TỔNG QUAN VỀ KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU
1.1 Tổng quan về kho dữ liệu
Ngày nay, thông tin trở thành một yếu tố quan trọng cần được quản lý và
khai thác hiệu quả bởi chính việc quản lý và khai thác thông tin này sẽ mang lại
một phần lợi ích không nhỏ trong việc tổ chức và quản lý của các tổ chức kinh
tế. Hơn thế, các yêu về khả năng lưu trữ thông tin khối lượng lớn, xử lý thông
tin nhanh chóng ngày càng trở nên phổ biến. Điều này dẫn đến sự ra đời của
Data Warehouse. Data Warehouse không chỉ đáp ứng những nhu cầu về việc lưu
trữ và quản lý thông tin mà nó còn là nền tảng để người dùng có thể sử dụng
những kỹ thuật hỗ trợ trực tuyến OLAP và đặc biệt là nó tạo một nền tảng thuận
lợi để người dùng có thể khai thác, phân tích và dự đoán về số liệu của mình
thông qua những kỹ thuật khai phá dữ liệu (data mining).
1.1.1 Định nghĩa
Kho dữ liệu (Data Warehouse – DW) không phải là một khái niệm mới và
đã được định nghĩa theo rất nhiều cách khác nhau, vì vậy khó có thể định nghĩa
chuẩn xác được. Theo một nghĩa nào đó thì kho dữ liệu được xem như là một cơ
sở dữ liệu được duy trì riêng biệt từ nhiều nguồn cơ sở dữ liệu (CSDL) tác
4
nghiệp khác nhau, hỗ trợ phân tích trên cơ sở các dữ liệu lịch sử và các công cụ
truy vấn dữ liệu mạnh.
1.1.2 Đặc điểm
Một kho dữ liệu được xác định là một cơ sở dữ liệu trong đó có chứa bốn đặc
tính sau: hướng chủ đề, tính ổn định, được tích hợp, gắn với thời gian.
1.1.3 Phân loại
Tùy thuộc vào quy mô tổ chức, cách tổ chức và vị trí của Data Warehouse mà
người ta chia Data Warehouse nói chung ra thành hai loại là: Data Mart và
Enterprise Data Warehouse.
1.1.3.1. Khái niệm Enterprise Data Warehouse
Nếu như một Enterprise Data Warehouse là một cơ sở dữ liệu bao gồm dữ
liệu về nhiều đối tượng khác nhau, trên toàn bộ cơ quan và thường được xây
dựng tập trung.
1.1.3.2. Khái niệm Data Mart
Data Mart cũng là một cơ sở dữ liệu có những đặc điểm giống với kho dữ
liệu nhưng quy mô của nó nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một
chuyên ngành cụ thể.
1.1.3.3. Phân loại Data Mart
- DM phụ thuộc.
- DM độc lập.
1.1.3.4. Siêu dữ liệu (Metadata)
Metadata là một loại “dữ liệu về dữ liệu”, nó được xây dựng nhằm mục
đích mô tả cấu trúc nội dung về dữ liệu bên trong cơ sở dữ liệu. Metadata có ý
nghĩa đặc biệt quan trọng trong việc xây dựng và tổ chức lưu trữ dữ liệu của
Data Warehouse.
5
1.1.4. Các phương pháp sử dụng kho dữ liệu
1.1.4.1. Cách sử dụng truyền thống
Trong cách sử dụng này việc khai thác thông tin dựa trên các công cụ truy
vấn và báo cáo. Nhờ có việc trích lọc, tích hợp và chuyển đổi các dữ liệu thô
sang dạng dữ liệu có chất lượng cao và có tính ổn định.
1.1.4.2. Hỗ trợ trực tuyến (OLAP)
Nếu ngôn ngữ truy vấn chuẩn SQL và các công cụ làm báo cáo truyền
thống chỉ có thể miêu tả những gì có trong cơ sở dữ liệu thì phân tích trực tuyến
có khả năng phân tích dữ liệu, xem xét xem giả thuyết là đúng hay sai. Tuy
nhiên phân tích trực tuyến lại không có khả năng đưa ra giả thuyết. Do kích
thước quá lớn và có tính chất phức tạp nên khó có thể sử dụng Data Warehouse
cho mục đích này.
1.1.4.3. Công nghệ khai phá dữ liệu (Data mining)
Trong hoàn cảnh hiện nay sự phát triển của dữ liệu đặt ra yêu cầu phải lưu
trữ dữ liệu phức tạp và có kích thước lớn. Việc khai phá dữ liệu trở thành một
nhu cầu khoa học và trong hoạt động thực tiễn.
1.2. Khai phá dữ liệu
1.2.1. Định nghĩa
Khai phá dữ liệu (data mining): là quá trình trích xuất các thông tin có giá
trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ
liệu…
1.2.2. Vị trí của khai phá dữ liệu
1.2.2.1. Quá trình khám phá tri thức
Trên thực tế, nhiều người coi khai phá dữ liệu và một thuật ngữ thông
dụng khác là khám phá tri thức trong CSDL là như nhau. Một số người khác
quan niệm khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình Khám phá
tri thức trong CSDL. Quá trình này gồm một số bước lặp đi lặp lại, và được thể
hiện trong hình 1.2:
6
Hình 1.2: Khai phá dữ liệu trong quá trình Khám phá tri thức
1.2.2.2. Hệ ra quyết định
Khai phá dữ liệu chiếm một vị trí quan trọng và nằm ở trung tâm của quá trình
Khám phá tri thức từ cơ sở dữ liệu. Nó có mối liên hệ chặt chẽ với hệ ra quyết
định như trong sơ đồ sau:
Hình 1.3: Khai phá dữ liệu với Hệ ra quyết định
Nhưng trên thực tế, thuật ngữ khai phá dữ liệu thông dụng và được sử
dụng rộng rãi hơn nhiều so với thuật ngữ khám phá tri thức trong CSDL (KDD).
Kho ch
ứa
dữ liệu
Khai phá
dữ liệu
Tri thức
Ngư
ời
dùng
Làm s
ạch
và tích hợp
L
ựa chọn
và chuyển
đổi dữ liệu
Ư
ớc l
ư
ợng
và biểu diễn
Cơ sở
DL
Các file
DL
Mẫu DL
7
Kiến trúc của một hệ thống khai phá dữ liệu thường gồm những thành phần
chính thể hiện trong hình 1.4.
Hình 1.4
1.2.3. So sánh Khai phá dữ liệu với các giải pháp dữ liệu truyền thống
Chúng ta có thể so sánh trực tiếp khai phá dữ liệu với một số phương
pháp truyền thống để thấy cụ thể hơn:
- Học máy.
- Phương pháp hệ chuyên gia.
- Phát kiến khoa học.
- Phương pháp thống kê.
1.3. Kết luận chương
Từ những lý thuyết cơ sở của Data Warehouse, với mục đích cơ bản của
việc xây dựng Data Warehouse là tạo thuận lợi tối đa khi phân tích dữ liệu. Khi
xây dựng Data Warehouse mang lại cho chúng ta rất nhiều lợi ích: Tích hợp dữ
Giao diện đồ hoạ người dùng
Đánh giá mẫu
Máy khai phá dữ liệu
Máy chủ CSDL hoặc kho dữ liệu
CSDL Kho dữ
liệu
Cơ sở tri
thức
Làm sạch dữ liệu
Tích hợp dữ liệu
Lọc
8
liệu và các siêu dữ liệu từ nhiều nguồn thành một nguồn mang tính lôgic duy
nhất nhằm cung cấp thông tin mềm dẻo từ các nguồn khác nhau và thỏa mãn
nhiều loại người dùng khác nhau. Nâng cao chất lượng dữ liệu bằng các phương
pháp làm sạch dữ liệu và tinh lọc dữ liệu theo những hướng chủ đề nhất định
nên dữ liệu sẽ rõ ràng, thống nhất hơn.
Sử dụng các phương pháp, kỹ thuật Khai phá dữ liệu nêu trên một cách
hợp lý sẽ giúp chúng ta có được những thông tin quan trọng, cần thiết và có giá
trị cao trong hoạt động quản lý điều hành, sản xuất kinh doanh cũng như trong
các lĩnh vực khác của đời sống xã hội.
9
CHƯƠNG II
XÂY DỰNG KHO DỮ LIỆU
2.1. Các yêu cầu của kho dữ liệu
2.1.1. Lập kế hoạch
Gồm các bước:
- Bước 1. Xác định chiến lược cài đặt
- Bước 2. Lựa chọn phương pháp và mô hình phát triển kho dữ liệu
2.1.2. Phân tích các yêu cầu của hệ thống
Bao gốm các bước sau:
- Bước 1. Xác định các yêu cầu của chủ sở hữu và công tác -quản lý
- Bước 2. Yêu cầu về kiến trúc:
- Bước 3. Xác định yêu cầu của người phát triển hệ thống
2.2. Công nghệ và cấu trúc chung kho dữ liệu
2.2.1. Công nghệ
Bảng 2.1 Các giải pháp công nghệ cho Dataware House
STT
Công nghệ Diễn giải
Giải pháp Microsoft .NET
1.
Ngôn ngữ lập
trình C#
Một trong những ngôn ngữ lập trình chính, phổ biến trên
MS .NET.
2.
WinForm Công nghệ xây dựng ứng dụng người sử dụng chuẩn
trên nền MS .NET
3.
SmartClient
/OneClick
Deployment
Solution
Công ngh
ệ phân tán ứng dụng dạng WinForm, một giải
pháp xây dựng ứng dụng mới bên cạnh các dạng công
nghệ có quá nhiều nhược điểm như thin-client (WEB: dễ
triển khai, khó phát triển), thick-client (desktop-client:
phát triển nhanh, khó triển khai, khó bảo trì).
4.
Internet
Explorer
Trình duyệt (Web browser) chuẩn, miễn phí của
Microsoft
5.
ASP.NET Công nghệ xây dựng ứng dụng WEB trên nền .NET
10
6.
Remoting/SOAP
Một trong hai công nghệ xây dựng ứng dụng phân tán
cấp doanh nghiệp chuẩn của Microsoft (công nghệ còn
lại là XML-Webservice). Công nghệ này cung cấp nhiều
tùy chọn khi cần hosting các đối tượng doanh nghiệp ở
khối “Business Object Server”, ở đây, do yêu cầu về
hiệu năng, sẽ chọn các thông số như sau:
Chanel: TCP:<port-xác định sau>
Formatter: binary
Nếu khi hosting ta chọn thêm Formatter là SOAP thì
chúng ta cũng có đồng thời giao diện SOAP cho các
Business Object. Điều này là rất tiện lợi cho quá trình
tích hợp hệ thống sau này.
7.
ADO.NET - Chuẩn công nghệ truy cập CSDL trên nền .NET. Hai
engine thực hiện theo chuẩn này được lựa chọn sử dụng
là:
ODP.NET: là engine của Oracle; được khối
“Business Object Server” sử dụng để truy cập
CSDL Oracle.
MS ADO.NET Driver for Oracle: là engine của
Microsoft; được khối “Report Server” sử dụng để
truy cập CSDL Oracle.
Giải pháp Crystal Decision Support
8.
Report
Application
Server (RAS)
Theo gi
ải pháp n
ày, các báo bi
ểu đ
ư
ợc hosting l
ên máy
chủ RAS, các client (Application hoặc WEB) truy xuất
báo biểu theo cùng một công nghệ, một cách thức
Giải pháp Oracle DBMS
9.
Oracle CSDL quan hệ mạnh & phổ biến nhất hiện nay
[...]... chiều của dữ liệu Nhất là biểu đồ thống kê của báo cáo đã đánh giá được sự hiệu quả của kho dữ liệu 20 KẾT LUẬN Luận văn nghiên cứu Xây dựng kho dữ liệu khách hàng sử dụng dịch vụ viễn thông phục vụ công tác quản lý đã được hoàn thành Phân tích công nghệ, cấu trúc, kiến trúc dịch vụ, lược đồ, mô hình dữ liệu và công cụ để xây dựng một kho dữ liệu Tìm hiểu các phương pháp, kỹ thuật Khai phá dữ liệu. .. doanh, chọn các chiều, chọn các dữ kiện Hình 3.3 trình bày mô hình dữ liệu hệ thống Hình 3.3: Mô hình dữ liệu hệ thống 3.2.2.1 Kho dữ liệu chủ đề bán hàng 3.2.2.2 Kho dữ liệu phát triển thuê bao 3.2.2.3 Kho dữ liệu cước khách hàng 3.2.2.4 Kho dữ liệu tổng hợp cước khách hàng 3.2.2.5 Kho dữ liệu thanh toán nợ của khách hàng 3.2.3 Tạo cấu trúc database Ở đây sẽ sử dụng công cụ Warehouse Builder để thực... tổng thể 3.2 Thiết kế kho dữ liệu 3.2.1 Kiến trúc kho dữ liệu viễn thông Kiến trúc hệ thống kho dữ liệu viễn thông bao gồm máy chủ chuyển đổi dữ liệu, máy chủ cở sở dữ liệu để lưu kho dữ liệu, máy chủ báo cáo + web server + process server, máy chủ phân tích dữ liệu trực tuyến Hình 3.2: Kiến trúc kho dữ liệu viễn thông 3.2.2 Thiết kế mô hình dữ liệu Việc thiết kế mô hình dữ liệu qua các bước, từ yêu... biến động của dữ liệu trong quá trình sử dụng Độ chính xác của dữ liệu trong kh dữ liệu chỉ phụ thuộc vào dữ liệu đầu vào, những biến động thực tế đều được thể hiện trên số liệu Qua đó, có thể khẳng định xây dựng kho dữ liệu và khai phá dữ liệu là một hướng đi hiệu quả để dự đoán số liệu, đưa ra một công cụ hỗ trợ các chuyên viên và nhà quản lý trong công tác xử lý số liệu phục công tác điều hành sản... hình dữ liệu và công cụ để xây dựng một kho dữ liệu Trong chương tiếp theo sẽ tìm hiểu về các hệ thống nguồn, phân tích , chuyển đổi, làm sạch dữ liệu Xây dựng và thử nghiệm kho dữ liệu, kết xuất ra báo cáo hỗ trợ công tác phân tích và trợ giúp ra quyết định cho hoạt động sản xuất kinh doanh của VNPT QUANG NINH 16 CHƯƠNG III XÂY DỰNG KHO DỮ LIỆU KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIỄN THÔNG 3 1 Nghiên cứu hệ... khách hàng BCSS o Cắt mở thuê bao, dịch vụ tự động o Quản lý điều hành sửa chữa báo hỏng o Quản lý mạng ngoại vi Khách hàng Call Center Hệ thống tính cước & hỗ trợ khách hàng Khách hàng Điểm giao dịch Hệ thống Quản lý mạng ngoại vi Hệ thống Điều hành sửa chữa báo hỏng Khách hàng Web Email Hệ thống Cắt mở thuê bao dịch vụ tự động Hệ thống CCBS tổng thể Hình 3 1: Hệ thống CCBS tổng thể 3.2 Thiết kế kho. .. bảng dữ kiện yêu cầu – Các tổng hợp ở thứ tự cao có thể được tính toán từ các tổng hợp thứ tự thấp, 2.5.6 Nguồn dữ liệu Nguồn dữ liệu của DWH gồm nhiều loại khác nhau: Dữ liệu từ các hệ thống tác nghiệp Hệ thống kế thừa Các nguồn dữ liệu bên ngoài 15 2.5.7 Công cụ làm sạch, chuyển đổi dữ liệu Làm sạch Chuyển đổi 2.5.8 Tích hợp dữ liệu khách hàng Tích hợp dữ liệu khách hàng CDI là MDM cho dữ liệu. .. liệu khách hàng CDI là một quá trình chiết, làm sạch, lưu trữ, duy trì, và phân phối dữ liệu của khách hàng 2.6 Mối quan hệ giữa kho dữ liệu và Khai phá dữ liệu Cả hai đều có thể đứng độc lập với nhau, tuy nhiên khi kết hợp được kho dữ liệu với khai phá dữ liệu thì lợi ích rất lớn 2.7 Kết luận chương Chương này đi vào phân tích công nghệ, cấu trúc, kiến trúc dịch vụ, lược đồ, mô hình dữ liệu và công. .. này cho thấy điểm ưu việt của kho dữ liệu và khai phá dữ liệu so với những phương pháp dự báo truyền thống như kinh tế lượng hay thống kê hay những báo cáo thông thường: Kho dữ liệu có thể khai thác, phục vụ tốt cho nhiều tiêu chí báo cáo, dữ liệu giải quyết được bài toán định hướng quản lý tập trung không bị rời rạc, manh mún của các hệ thống dữ liệu hiện hành Kho dữ liệu có khả năng điều chỉnh tham... 2.3 Xu hướng kho dữ liệu 2.3.1 Dữ liệu phi cấu trúc Dữ liệu có cấu trúc thường dùng để chỉ dữ liệu lưu trữ trong các hệ quản trị cơ sở dữ liệu quan hệ như Oracle, MS SQL Server, MySQL,… 2.3.2 Tìm kiếm Phần này câu trả lời câu hỏi thứ hai, làm thế nào để bạn nhận được những thông tin ra? Câu trả lời là bằng cách tìm kiếm (Search) Để có được thông tin từ dữ liệu có cấu trúc, bạn có thể sử dụng các câu .
Chương 3: Xây dựng kho dữ liệu khách hàng sử dụng dịch vụ viễn thông phục
vụ công tác quản lý.
CHƯƠNG I
TỔNG QUAN VỀ KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU
. VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
TRẦN NAM QUỲNH
XÂY DỰNG KHO DỮ LIỆU KHÁCH HÀNG SỬ DỤNG DỊCH VỤ
VIỄN THÔNG PHỤC VỤ CÔNG TÁC QUẢN LÝ
Ngày đăng: 17/02/2014, 09:46
Xem thêm: Xây dựng kho dữ liệu khách hàng sử dụng dịch vụ viễn thông phục vụ công tác quản lý, Xây dựng kho dữ liệu khách hàng sử dụng dịch vụ viễn thông phục vụ công tác quản lý