Ứng dụng các kĩ thuật khai phá dữ liệu vào lĩnh vực viến thông

5 700 9
Ứng dụng các kĩ thuật khai phá dữ liệu vào lĩnh vực viến thông

Đang tải... (xem toàn văn)

Thông tin tài liệu

LĨNH VỰC CÔNG NGHỆ THÔNG TIN ỨNG DỤNG CÁC KĨ THUẬT KHAI PHÁ DỮ LIỆU VÀO LĨNH VỰC VIẾN THÔNG KS Nguyễn Anh Trung Trung tâm Công nghệ Thông tin Tóm tắt: Khám phá tri thức Cơ sở liệu (Knowledge Discovery in Databases) xu hướng quan trọng CNTT giới Nó có khả ứng dụng vào nhiều lớp toán thực tế khác Bước quan trọng trình Khai phá liệu, giúp người sử dụng thu tri thức hữu ích từ CSDL nguồn liệu khổng lồ khác Rất nhiều doanh nghiệp tổ chức giới ứng dụng kĩ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu lợi ích to lớn Trong lĩnh vực viễn thông, Khai phá liệu tỏ đặc biệt hiệu Viễn thông ngành có số lượng khách hàng lớn có lượng liệu cần lưu trữ khổng lồ Bên cạnh đó, thị trường viễn thông luôn biến động đầy cạnh tranh VNPT doanh nghiệp viễn thông lớn Việt Nam Ngoài đặc trưng doanh nghiệp viễn thông, VNPT mang đặc điểm doanh nghiệp nhà nước Chính việc nghiên cứu áp dụng kĩ thuật khai phá liệu vào hoạt động sản xuất kinh doanh VNPT cần thiết Bài báo giới thiệu cách tổng quan kĩ thuật khai phá liệu, mô hình, kiến trúc, phạm vi ứng dụng, lợi ích, đề xuất giải pháp để áp dụng kĩ thuật khai phá liệu vào hoạt động sản xuất kinh doanh VNPT Giới thiệu chung Trong năm gần đây, phát triển mạnh mẽ CNTT ngành công nghiệp phần cứng làm cho khả thu thập lưu trữ thông tin hệ thống thông tin tăng nhanh cách chóng mặt Bên cạnh việc tin học hoá cách ạt nhanh chóng hoạt động sản xuất, kinh doanh nhiều lĩnh vực hoạt động khác tạo cho lượng liệu lưu trữ khổng lồ Hàng triệu CSDL sử dụng hoạt động sản xuất, kinh doanh, quản lí , có nhiều CSDL cực lớn cỡ Gigabyte, chí Terabyte Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kĩ thuật công cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức có ích Từ đó, kĩ thuật Khai phá liệu trở thành lĩnh vực thời CNTT giới Khai phá liệu (Data Mining) định nghĩa là: trình trích xuất thông tin có giá trị tiềm ẩn bên lượng lớn liệu lưu trữ CSDL, kho liệu… Hiện nay, thuật ngữ khai phá liệu, người ta dùng số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ CSDL (knowlegde mining from databases), trích lọc liệu (knowlegde extraction), phân tích liệu/mẫu (data/pattern analysis), khảo cổ liệu (data archaeology), nạo vét liệu (data dredging) Nhiều người coi khai phá liệu thuật ngữ thông dụng khác khám phá tri thức CSDL (Knowlegde Discovery in Databases – KDD) Tuy nhiên thực tế, khai phá liệu bước thiết yếu trình Khám phá tri thức CSDL Quá trình bao gồm bước sau: 1) Làm liệu (data cleaning): loại bỏ nhiễu liệu không thích hợp 2) Tích hợp liệu (data integration): tích hợp liệu từ nguồn khác như: CSDL, Kho liệu, file text 3) Chọn liệu (data selection): bước này, liệu liên quan trực tiếp đến nhiệm vụ thu thập từ nguồn liệu ban đầu HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG HỘI NGHỊ KHOA HỌC LẦN THƯ VI LĨNH VỰC CÔNG NGHỆ THÔNG TIN 4) Chuyển đổi liệu (data transformation): bước này, liệu chuyển đổi dạng phù hợp cho việc khai phá cách thực thao tác nhóm tập hợp 5) Khai phá liệu (data mining): giai đoạn thiết yếu, phương pháp thông minh áp dụng để trích xuất mẫu liệu 6) Đánh giá mẫu (pattern evaluation): đánh giá hữu ích mẫu biểu diễn tri thức dựa vào số phép đo 7) Trình diễn liệu (knowlegde presentation): sử dụng kĩ thuật trình diễn trực quan hoá liệu để biểu diễn tri thức khai phá cho người sử dụng Khai phá liệu lĩnh vực liên quan tới nhiều ngành học khác như: hệ CSDL, thống kê, trực quan hóa Hơn nữa, tuỳ vào cách tiếp cận sử dụng, khai phá liệu áp dụng số kĩ thuật mạng nơ ron, lí thuyết tập thô tập mờ, biểu diễn tri thức… So với phương pháp này, khai phá liệu có số ưu rõ rệt: ƒ So với phương pháp học máy, khai phá liệu có lợi chỗ, khai phá liệu sử dụng với CSDL chứa nhiều nhiễu, liệu không đầy đủ biến đổi liên tục Trong phương pháp học máy chủ yếu áp dụng CSDL đầy đủ, biến động tập liệu không lớn ƒ Phương pháp hệ chuyên gia: phương pháp khác với khai phá liệu chỗ ví dụ chuyên gia thường mức chất lượng cao nhiều so với liệu CSDL, chúng thường bao hàm trường hợp quan trọng Hơn chuyên gia xác nhận giá trị tính hữu ích mẫu phát ƒ Phương pháp thống kê tảng lí thuyết Khai phá liệu, so sánh hai phương pháp với ta thấy phương pháp thống kê tồn số điểm yếu mà Khai phá liệu khắc phục được: o Các phương pháp thống kê chuẩn không phù hợp với kiểu liệu có cấu trúc nhiều CSDL o Các phương pháp thống kê hoạt động hoàn toàn theo liệu, không sử dụng tri thức sẵn có lĩnh vực o Kết phân tích thống kê nhiều khó làm rõ o Phương pháp thống kê cần có hướng dẫn người dùng để xác định phân tích liệu đâu Với ưu điểm đó, khai phá liệu áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác nhau: marketing, tài chính, ngân hàng bảo hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức công ty lớn giới áp dụng kĩ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu lợi ích to lớn: Bảo hiểm y tế Australia phát nhiều trường hợp xét nghiệm không hợp lí, tiết kiệm triệu $ / năm; British Telecom phát nhóm người thường xuyên gọi cho mobile thu lại hàng triệu USD; JPL Palomar Observatory phát 22 quasars nhờ kĩ thuật KPDL; IBM Surf-Aid áp dụng KPDL phân tích lần đăng nhập Web vào trang có liên quan đến thị trường để phát sở thích khách hàng, phục vụ việc đánh giá hiệu việc tiếp thị qua Web (Web marketing) cải thiện hoạt động Website Các công ty phần mềm lớn giới quan tâm trọng tới việc nghiên cứu phát triển kĩ thuật khai phá liệu: Oracle tích hợp công cụ khai phá liệu vào Oracle9i, IBM tiên phong việc phát triển ứng dụng khai phá liệu với ứng dụng Intelligence Miner Các kỹ thuật khai phá liệu Các kĩ thuật khai phá liệu thường chia thành nhóm chính: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG HỘI NGHỊ KHOA HỌC LẦN THƯ VI LĨNH VỰC CÔNG NGHỆ THÔNG TIN ƒ Kĩ thuật khai phá liệu mô tả: có nhiệm vụ mô tả tính chất đặc tính chung liệu CSDL có Các kĩ thuật gồm có: phân cụm (clustering), tóm tắt (summerization), trực quan hóa (visualiztion), phân tích phát triển độ lệch (Evolution and deviation analyst), phân tích luật kết hợp (association rules) ƒ Kĩ thuật khai phá liệu dự đoán: có nhiệm vụ đưa dự đoán dựa vào suy diễn liệu thời Các kĩ thuật gồm có: phân lớp (classification), hồi quy (regression) Tuy nhiên, khuôn khổ có hạn nên báo này, giới thiệu phương pháp thông dụng là: phân cụm liệu, phân lớp liệu khai phá luật kết hợp ƒ Phân cụm liệu: Mục tiêu phương pháp phân cụm liệu nhóm đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc lớp tương đồng đối tượng thuộc cụm khác không tương đồng Phân cụm liệu ví dụ phương pháp học thầy Không giống phân lớp liệu, phân cụm liệu không đòi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học quan sát (learning by observation), phân lớp liệu học ví dụ (learning by example) Trong phương pháp bạn biết kết cụm thu bắt đầu trình Vì vậy, thông thường cần có chuyên gia lĩnh vực để đánh giá cụm thu Phân cụm liệu sử dụng nhiều ứng dụng phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web… Ngoài phân cụm liệu sử dụng bước tiền xử lí cho thuật toán khai phá liệu khác ƒ Phân lớp liệu hồi qui: Mục tiêu phương pháp phân lớp liệu dự đoán nhãn lớp cho mẫu liệu Quá trình phân lớp liệu thường gồm bước: xây dựng mô hình sử dụng mô hình để phân lớp liệu • Bước 1: mô hình xây dựng dựa việc phân tích mẫu liệu sẵn có Mỗi mẫu tương ứng với lớp, định thuộc tính gọi thuộc tính lớp Các mẫu liệu gọi tập liệu huấn luyện (training data set) Các nhãn lớp tập liệu huấn luyện phải xác định trước xây dựng mô hình, phương pháp gọi học có thầy (supervised learning) khác với phân cụm liệu học thầy (unsupervised learning) • Bước 2: sử dụng mô hình để phân lớp liệu Trước hết phải tính độ xác mô hình Nếu độ xác chấp nhận được, mô hình sử dụng để dự đoán nhãn lớp cho mẫu liệu khác tương lai Phương pháp hồi qui khác với phân lớp liệu chỗ, hồi qui dùng để dự đoán giá trị liên tục phân lớp liệu dùng để dự đoán giá trị rời rạc ƒ Khai phá luật kết hợp: mục tiêu phương pháp phát đưa mối liên hệ giá trị liệu CSDL Mẫu đầu giải thuật khai phá liệu tập luật kết hợp tìm Chẳng hạn: phân tích CSDL bán hàng nhận thông tin khách hàng mua máy tính có khuynh hướng mua phần mềm quản lý tài lần mua miêu tả luật kết hợp sau: “Máy tính => Phần mềm quản lý tài chính” [Độ hỗ trợ: 2%, độ tin cậy: 60%] Độ hỗ trợ độ tin cậy hai độ đo đáng quan tâm luật Chúng tương ứng phản ánh hữu ích chắn luật khám phá Độ hỗ trợ 2% có nghĩa 2% tất tác vụ phân tích máy tính phần mềm quản lý tài mua Còn độ tin cậy 60% có nghĩa 60% khách hàng mua máy tính mua phần mềm Khai phá luật kết hợp thực qua bước: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG HỘI NGHỊ KHOA HỌC LẦN THƯ VI LĨNH VỰC CÔNG NGHỆ THÔNG TIN • Bước 1: tìm tất tập mục phổ biến, tập mục phổ biến xác định qua tính độ hỗ trợ thỏa mãn độ hỗ trợ cực tiểu • Bước 2: sinh luật kết hợp mạnh từ tập mục phổ biến, luật phải thỏa mãn độ hỗ trợ cực tiểu độ tin cậy cực tiểu Phương pháp sử dụng hiệu lĩnh vực marketing có chủ đích, phân tích định, quản lí kinh doanh, phân tích giỏ thị trường… Ứng dụng công nghệ khai phá liệu Viễn thông Viễn thông ngành có bước phát triển ngoạn mục năm gần Số lượng thuê bao dịch vụ viễn thông kèm theo gia tăng cách chóng mặt Các công nghệ phát triển mạnh mẽ Đây lại ngành có tỉ lệ tin học hóa cao, hầu hết giao dịch, thao tác, hoạt động lưu lại CSDL Từ đó, lượng liệu thu thập lưu trữ hoạt động sản xuất kinh doanh trở nên ngày khổng lồ Tiềm ẩn bên lượng liệu tri thức quí báu thị trường, khách hàng, sản phẩm… Đối với ngành viễn thông, thị phần khách hàng hai yếu tố quan trọng, định thành công doanh nghiệp Chính vậy, việc nắm bắt nhu cầu, sở thích khách hàng xu hướng, biến động thị trường lợi to lớn cho doanh nghiệp việc cạnh tranh mở rộng thị trường Bên cạnh đó, với phát triển kĩ thuật, công nghệ, gian lận việc sử dụng dịch vụ viễn thông gia tăng theo gây thiệt hại đáng kể cho ngành này, lấy ví dụ: tạp chí Telecom and Network Security Review (tập – 04/1997) công bố khoảng 4%-6% doanh thu ngành viễn thông Hoa Kỳ bị thất thoát gian lận, Mobile Europe(2000) đưa số thất thoát ngành viễn thông 13 tỷ USD/ năm… Những vấn đề nhiều doanh nghiệp viễn thông giới nhìn nhận tìm cách giải Và khai phá liệu kỹ thuật hữu ích để giải vấn đề VNPT doanh nghiệp bưu viễn thông lớn Việt Nam Nhận thấy lợi ích thu từ việc áp dụng kĩ thuật khai phá liệu, lãnh đạo VNPT định áp dụng kĩ thuật khai phá liệu vào hoạt động sản xuất kinh doanh VNPT Giải pháp ứng dụng DataMining VNPT Sau trình nghiên cứu tình hình sản xuất kinh doanh VNPT, đề xuất hệ thống áp dụng kĩ thuật khai phá liệu vào hoạt động sản xuất kinh doanh VNPT Hệ thống gồm có chức sau: • Dự đoán dịch vụ gia tăng có xu hướng khách hàng sử dụng nhiều bưu điện tỉnh, thành phố: mục tiêu chức từ thông tin tình hình kinh doanh dịch vụ thông tin đăng kí dịch vụ khách hàng, đưa dịch vụ có xu hướng sử dụng nhiều tương lai Hướng giải nhiệm vụ sử dụng phương pháp phân lớp liệu, từ liệu có xây dựng nên mô hình phân lớp, sau có liệu mới, hệ thống áp dụng mô hình để phân dịch vụ vào lớp như: lớp dịch vụ sử dụng nhiều, lớp dịch vụ sử dụng vừa phải, lớp dịch vụ sử dụng ít… • Phân tích dự đoán xu hướng phát triển sản phẩm, dịch vụ có lợi nhuận lớn thời điểm tại: mục tiêu chức từ thông tin tình hình sản xuất, kinh doanh dịch vụ, sản phẩm bưu điện tỉnh, thành phố đơn vị thành viên Từ phân tích trên, áp dụng phương pháp phân lớp liệu để xác định dịch vụ có lợi nhuận lớn thời điểm xu hướng phát triển sản phẩm dịch vụ HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG HỘI NGHỊ KHOA HỌC LẦN THƯ VI LĨNH VỰC CÔNG NGHỆ THÔNG TIN • Dự đoán nhu cầu tăng dung lượng đường truyền bưu điện tỉnh, thành: mục tiêu chức từ thông tin tình hình sử dụng đường truyền bưu điện, đưa nhu cầu dung lượng đường truyền bưu điện tỉnh thành thời gian tới Phương pháp đề xuất để giải nhiệm vụ phương pháp hồi quy • Đánh giá xu hướng biến đổi sản lượng sản phẩm, dịch vụ: mục tiêu chức từ thông tin tình hình sản xuất, kinh doanh sản phẩm, dịch vụ, đưa xu hướng biến đổi sản lượng sản phẩm, dịch vụ: tăng lên, giữ nguyên hay giảm sút… Hướng giải nhiệm vụ áp dụng phương pháp phân lớp liệu • Nhận dạng dự đoán biểu gian lận sử dụng dịch vụ viễn thông bưu điện tỉnh, thành phố: mục tiêu chức từ thông tin tình trạng sử dụng dịch vụ viễn thông bưu điện tỉnh thành, xác định đối tượng bị nghi ngờ có gian lận khu vực có nhiều khả xảy gian lận Phương pháp đề xuất để giải nhiệm vụ sử phương pháp phân cụm liệu tìm điểm ngoại lai Hầu hết chức giải phương pháp phân lớp liệu Trong phương pháp phương pháp hồi quy vấn đề quan tâm hàng đầu độ xác mô hình Để tăng độ xác cho mô hình với nhiệm vụ không xây dựng phân lớp mà xây dựng số phân lớp Sau đó, với mẫu liệu cần dự đoán, phân lớp cho kết dự đoán nhãn lớp dự đoán nhiều phân lớp gán cho mẫu Bên cạnh đó, lượng liệu lưu trữ để xây dựng mô hình lớn Vì vậy, trình xây dựng mô hình diễn thời gian lâu Mặt khác, chu kỳ cập nhật liệu dài (thường theo tháng) Để giảm thời gian chờ đợi người sử dụng, tách riêng bước xây dựng mô hình bước áp dụng mô hình Mô hình sau xây dựng lưu lại để sử dụng người dùng muốn dự đoán số liệu Mô hình định kỳ xây dựng lại xây dựng lại người dùng thấy hệ thống dự đoán không xác Kết luận Khai phá liệu lĩnh vực trở thành hướng nghiên cứu thu hút quan tâm nhiều chuyên gia CNTT giới Trong năm gần đây, nhiều phương pháp thuật toán liên tục công bố Điều chứng tỏ ưu thế, lợi ích khả ứng dụng thực tế to lớn khai phá liệu Bài báo trình bày số kiến thức tổng quan khai phá liệu, kiến thức phương pháp phân cụm liệu, phân lớp liệu khai phá luật kết hợp; đồng thời đề xuất giải pháp để áp dụng kĩ thuật vào hoạt động sản xuất kinh doanh VNPT Tài liệu tham khảo [1] Introduction to Data Mining and Knowledge Discovery - Third Edition - 1999, by Two Crows Corporation [2] Web Data Mining and Applications in Business Intelligence and Counter-Terrorism 2003, by Bhavani Thuraisingham (Auerbach) [3] Data Mining: Opportunities and Challenges -2003, by John Wang (Idea Group Publishing) [4] Principles of Data Mining - 2001, by David Hand, Heikki Mannila and Padhraic Smyth (The MIT Press) HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG HỘI NGHỊ KHOA HỌC LẦN THƯ VI ... kĩ thuật khai phá liệu: Oracle tích hợp công cụ khai phá liệu vào Oracle9i, IBM tiên phong việc phát triển ứng dụng khai phá liệu với ứng dụng Intelligence Miner Các kỹ thuật khai phá liệu Các. .. liệu kỹ thuật hữu ích để giải vấn đề VNPT doanh nghiệp bưu viễn thông lớn Việt Nam Nhận thấy lợi ích thu từ việc áp dụng kĩ thuật khai phá liệu, lãnh đạo VNPT định áp dụng kĩ thuật khai phá liệu. .. phá liệu Các kĩ thuật khai phá liệu thường chia thành nhóm chính: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG HỘI NGHỊ KHOA HỌC LẦN THƯ VI LĨNH VỰC CÔNG NGHỆ THÔNG TIN ƒ Kĩ thuật khai phá liệu mô tả:

Ngày đăng: 03/01/2016, 19:33

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan