KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP. ỨNG DỤNG SQL SERVER BUSINESS INTELLIGENCE TRONG KHAI PHÁ DỮ LIỆU

49 2.3K 12
KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP. ỨNG DỤNG SQL SERVER BUSINESS INTELLIGENCE TRONG KHAI PHÁ DỮ LIỆU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Báo cáo môn học KHAI PHÁ DỮ LIỆU Đề tài : KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP. KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP. ỨNG DỤNG SQL SERVER BUSINESS ỨNG DỤNG SQL SERVER BUSINESS INTELLIGENCE TRONG KHAI PHÁ DỮ LIỆU INTELLIGENCE TRONG KHAI PHÁ DỮ LIỆU . . HVTH : Nguyễn Bảo Minh – CH1101104 GVHD : PGS.TS Đỗ Phúc Lớp : Cao Học-K6 Thành Phố Hồ Chí Minh 11/2012 MỤC LỤC Chương I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 2 1.1. Tổng quan 2 1.2. Khai phá dữ liệu và phát hiện tri thức 2 1.3. Quá trình phát hiện tri thức từ cơ sở dữ liệu 2 1.3.1. Xác định bài toán 3 1.3.2. Thu thập và tiền xử lý 3 1.3.3. Khai phá dữ liệu 6 1.3.4. Phát biểu và đánh giá kết quả 7 1.3.5. Sử dụng tri thức đã phát hiện 7 1.4. Khai phá dữ liệu có những lợi ích gì 7 1.5. Các kỹ thuật khai phá dữ liệu 8 1.5.1. Kỹ thuật khai phá dữ liệu mô tả 8 1.5.2. Kỹ thuật khai phá dữ liệu dự đoán 8 1.6. Nhiệm vụ chính của khai phá dữ liệu 8 1.6.1. Phân lớp (Classification) 9 1.6.2. Hồi quy (Regression) 9 1.6.3. Gom nhóm (Clustering) 9 1.6.4. Tổng hợp (Summarization) 9 1.6.5. Mô hình ràng buộc (Dependency modeling) 10 1.6.6. Dò tìm biến đổi và độ lệch (Change and Deviation Dectection) 10 1.7. Các phương pháp khai phá dữ liệu 10 1.7.1. Các thành phần của giải thuật khai phá dữ liệu 10 1.7.2. Một số phương pháp khai thác dữ liệu phổ biến 11 Chương II: TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP 15 2.2.1. Ngữ cảnh khai phá dữ liệu 15 2.2.2 Các kết nối Galois 15 2.2.3 Độ hỗ trợ (Support) 15 2.2.4 Độ tin cậy ( Confidence) 16 2.2.5 Tập mặt hàng phổ biến 17 2.2.6 Luật kết hợp 17 2.3. Tìm tập phổ biến 18 2.3.1. Một số khái niệm 18 2.3.2. Thuật toán Apriori 19 2.4.1. Phát biểu bài toán khai phá luật kết hợp 24 2.4.2. Phát triển giải pháp hiệu quả trong khai thác luật kết hợp 26 CHƯƠNG III :ỨNG DỤNG SQL SERVER BUSINESS INTELLIGENCE DEVELOPMENT STUDIO TRONG KHAI PHÁ DỮ LIỆU 29 3.1 Giới thiệu 29 3.2 Luật kết hợp với Microsoft Association Rule trong BIDS 29 3.2.1 Qui trình Xây dựng mô hình khai phá dữ liệu với BIDS như sau : 29 3.2.2 Khai phá dữ liệu bằng luật kết hợp trong BIDS 30 3.3 Sự kết hợp để phân tích dữ liệu sử dụng nhiều mô hình khai phá dữ liệu 37 3.3.1 Tab Attribute Discrimination 38 3.3.2 Tab Mining Accuracy Chart 39 Chương IV: MINH HỌA THUẬT TOÁN APRIORI TRÊN C# 44 3.1. Phát biểu bài toán 44 3.3. Kết quả phân tích 44 KẾT LUẬN 46 TÀI LIỆU THAM KHẢO 47 Lời Mở Đầu LỜI MỞ ĐẦU Trong kỷ nguyên toàn cầu hóa ngày nay các lĩnh vực khoa học kỹ thuật đang ngày một phát triển mạnh mẽ. Đặc biệt là nghành khoa học máy tính rất phát triển ngoài việc được áp dụng rộng rãi trong công nghệ thông tin nó ứng dụng rất nhiều trong các lĩnh vực khác nhau của cuộc sống như: Khoa học, Giáo dục, Y tế, kinh doanh v.v Nó đã trở thành một phần không thể thiếu được trong cuộc sống hàng ngày của con người. Việc dùng các phương tiện tin học để tổ chức và khai thác các cơ sở dữ liệu đã được phát triển từ những năm 60. Đặc biệt trong thập kỷ gần đây vai trò của máy tính trong việc lưu trữ và xử lý thông tin ngày càng trở lên quan trọng. Với sự phát triển mạnh mẽ của công nghệ điện tử tạo ra các bộ nhớ có dung lượng lớn, bộ xử lý tốc độ cao cùng với các hệ thống mạng viễn thông phát triển vượt bậc đã góp phần tạo nên những dữ liệu khổng lồ như cơ sở dữ liệu thông tin khách hàng, dữ liệu lịch sử các giao dịch, dữ liệu bán hàng, dữ liệu các tài khoản vay, sử dụng vốn cũng như vô số các thông tin được cập nhật thông qua internet mỗi ngày. Vấn đề đặt ra là làm thế nào để xử lý khối lượng thông tin cực lớn như vậy một cách nhanh chóng, phù hợp, tự động, chính xác và có hiệu quả để lấy được thông tin có giá trị. Để làm được điều đó người ta đã sử dụng quá trình Phát hiện tri thức trong cơ sở dữ liệu( Knowledge Discovery in Database-KDD). Nhiệm vụ của KDD là từ dữ liệu sẵn có phải tìm ra những thông tin tiềm ẩn có giá trị mà trước đó chưa được phát hiện cũng như tìm ra những xu hướng phát triển và các xu hướng tác động lên chúng .Các kỹ thuật cho phép ta lấy được các tri thức từ cơ sở dữ liệu sẵn có đó được gọi là kỹ thuật Khai phá dữ liệu( Data Mining). Có rất nhiều kỹ thuật khai phá dữ liệu khác nhau cũng như các phần mềm khác nhau để thực hiện data mining, trong phạm vi đề tài này tập trung nghiên cứu về việc luật kết hợp trong khai phá dữ liệu và sử dụng công cụ SQL Server Business Intelligence Development Studio trong data mining cũng như viết chương trình minh họa thuật toán luật kết hợp. Báo Cáo Thu Hoạch Khai Phá Dữ Liệu Trang 1 Chương I: Tổng quan về khai phá dữ liệu Chương I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1. Tổng quan Khai phá dữ liệu (data mining) được định nghĩa như là một quá trình chắt lọc hay khai phá tri thức từ một lượng lớn dữ liệu. Một ví dụ hay được sử dụng là là việc khai thác vàng từ đá và cát, Dataming được ví như công việc "Đãi cát tìm vàng" trong một tập hợp lớn các dữ liệu cho trước. Thuật ngữ Data mining ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô. Có nhiều thuật ngữ hiện được dùng cũng có nghĩa tương tự với từ Data mining như Knowledge Mining (khai phá tri thức), knowledge extraction(chắt lọc tri thức), data/patern analysis(phân tích dữ liệu/mẫu), data archaeoloogy (khảo cổdữ liệu), data dredging(nạo vét dữ liệu), Định nghĩa: Khai phá dữ liệu là một tập hợp các kỹthuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó. 1.2. Khai phá dữ liệu và phát hiện tri thức Yếu tố thành công trong mọi hoạt động kinh doanh ngày nay là việc biết sử dụng thông tin có hiệu quả. Điều đó có nghĩa là từ các dữ liệu có sẵn phải tìm ra những thông tin tiềm ẩn mà trước đó chưa được phát hiện, tìm ra những xu hướng phát triển và những yếu tố tác động lên chúng. Thực hiện công việc đó chính là quá trình phát hiện tri thức trong cơ sở dữ liệu mà trong đó kỹ thuật cho phép ta lấy được các tri thức chính ra từ kỹ thuật khai phá dữ liệu. Nếu quan niệm tri thức là mối quan hệ của các mẫu giữa các phần tử dữ liệu thì quá trình phát hiện tri thức chỉ toàn bộ quá trình triết xuất tri thức từ cơ sở dữ liệu, trong đó trải qua nhiều giai đoạn khác nhau như: Tìm hiểu và phát hiện vấn đề, thu thập và tiền xử lý dữ liệu, phát hiện tri thức, minh hoạ và đánh giá tri thức đã phát hiện và đưa kết quả vào thực tế. Khai phá dữ liệu có những điểm khác nhau về mặt ngữ nghĩa so với phát hiện tri thức từ cơ sở dữ liệu nhưng thực tế ta thấy khai phá dữ liệu là chỉ một giai đoạn phát hiện tri thức trong một chuỗi các giai đoạn quá trình phát hiện tri thức trong cơ sở dữ liệu. Tuy nhiên đây là giai đoạn đóng vai trò chủ chốt và là giai đoạn chính tạo nên tính đa ngành của phát hiện tri thức trong cơ sở dữ liệu. 1.3. Quá trình phát hiện tri thức từ cơ sở dữ liệu Phát hiện tri thức từ cơ sở dữ liệu là một quá trình có sử dụng nhiều phương pháp và công cụ tin học nhưng vẫn là một quá trình mà trong đó con người làm trung Báo Cáo Thu Hoạch Khai Phá Dữ Liệu Trang 2 Chương I: Tổng quan về khai phá dữ liệu tâm. Do đó nó không phải là một hệ thống phân tích tự động mà là một hệ thống bao gồm nhiều hoạt động tương tác thường xuyên giữa con người và cơ sở dữ liệu, tất nhiên là với sự hỗ trợ của các công cụ tin học. Hình 1.1. Quá trình phát hiện tri thức từ cơ sở dữ liệu Quá trình phát hiện tri thức từ cơ sở dữ liệu là 1 quá trình tương tác và lặp đi lặp lại theo kiểu xoắn chôn ốc, trong đó lần lặp sau hoàn chỉnh hơn lần lặp trước. Ngoài ra giai đoạn sau lại dựa trên kết quả thu được của giai đoạn trước theo kiểu thác nước. Đây là một quá trình biện trứng mang tính chất học của quá trình phát hiện trí thức và là phương pháp luận trong viện phát hiện tri thức. Các giai đoạn đó sẽ được trình bày cụ thể như sau: 1.3.1. Xác định bài toán Đây là một quá trình mang tính định hình với mục đích xác định được lĩnh vực yêu cầu phát hiện tri thức và xây dựng bài toán tổng kết. Trong thực tế các cơ sở dữ liệu được chuyên môn hoá và phân chia theo các lĩnh vực khác nhau như: Sản phẩm, kinh doanh, tài chính, v.v.Với mỗi tri thức phát hiện được có thể có giá trị trong lĩnh vực này nhưng lại không mang nhiều ý nghĩa với một lĩnh vực khác. Vì vậy việc xác định lĩnh vực và định nghĩa bài toán giúp định hướng cho giai đoạn tiếp theo thu thập và tiền xử lý dữ liệu. 1.3.2. Thu thập và tiền xử lý Các cơ sở dữ liệu thu được thường chứa rất nhiều thuộc tính nhưng lại không đầy đủ, không thuần nhất, có nhiều lỗi và các giá trị đặc biệt. Vì vậy giai đoạn thu thập Báo Cáo Thu Hoạch Khai Phá Dữ Liệu Trang 3 Chương I: Tổng quan về khai phá dữ liệu và tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình phát hiện tri thức từ cơ sở dữ liệu. Có thể nói giai đoạn này chiếm từ 70%-80% giá thành trong toàn bộ bài toán. Người ta chia giai đoạn và tiền xử lý dữ liệu như: Gom dữ liệu, chọn dữ liệu, làm sạch, mã hoá dữ liệu, làm giàu, đánh giá và trình diễn dữ liệu. Các công đoạn này được thực hiện theo trình tự nhất định cụ thể như sau: Hình 1.2. Quá trình phát hiện tri thức 1.3.2.1. Gom dữ liệu Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu. Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web. 1.3.2.2. Chọn lọc dữ liệu Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó. Đây là giai đoạn chọn lọc, trích rút các dữ liệu cần thiết tứ cơ sở dữ liệu tác nghiệp vào một cơ sở dữ liệu riêng. Chúng ta chọn ra những dữ liệu cần thiết cho các giai đoạn sau. Tuy nhiên công việc thu gom dữ liệu vào một cơ sở dữ liệu thường rất khó khăn vì dữ liệu nằm rải rác khắp nơi trong cơ quan, tổ chức cùng một loại thông tin, nhưng được tạo lập theo các dạng hình thức khác nhau. Ví dụ nơi này dùng kiểu Báo Cáo Thu Hoạch Khai Phá Dữ Liệu Trang 4 Chương I: Tổng quan về khai phá dữ liệu chuỗi, nơi kia lại dùng kiểu số để khai báo một thuộc tính nào đó của khách hàng. Đồng thời chất lượng dữ liệu của các nơi cũng không giống nhau. Vì vậy chúng ta cần chọn lọc dữ liệu thật tốt để chuyển sang giai đoạn tiếp theo 1.3.2.3. Làm sạch Giai đoan thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bước rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải trong khi gom dữ liệu là tính không đủ chặt chẽ, logic. Vì vậy, dữ liệu thường chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu. Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nói trên. Những dữ liệu dạng này được xem như thông tin dư thừa, không có giá trị. Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu không được “làm sạch - tiền xử lý - chuẩn bị trước” thì sẽ gây nên những kết quả sai lệch nghiệm trọng. Giai đoạn này thực hiện một số chức năng sau: - Điều hoà dữ liệu: Công việc này nhằm giảm bớt tính không nhất quán dữ liệu lấy từ nhiều nguồn khác nhau. Phương pháp thông thường là khử các trường hợp trùng lặp dữ liệu và thống nhất các ký hiệu. Ví dụ một khách hàng có thể có nhiều bản ghi do việc nhập sai tên hoặc do quá trình thay đổi một số thông tin cá nhân gây ra và tạo ra sự nhầm lẫn là có nhiều khách hàng. - Xử lý các giá trị khuyết: Tính không đầy đủ của dữ liệu có thế gây ra hiện tượng dữ liệu chứa các giá trị khuyết. Đây là hiện tượng khá phổ biến. Người ta sử dụng nhiều phương pháp khác nhau để xứ lý các giá trị khuyết như: Bỏ qua các bộ có giá trị khuyết, điểm bổ sung bằng tay, dùng một hằng chung để bổ sung vào giá trị khuyết, dùng giá trị trung bình của mọi bản ghi trên thuộc tinh khuyết, dùng giá trị trung bình của mọi bản ghi cùng lớp hoặc dùng các giá trị mà tần suất xuất hiện lớn nhất. - Xử lý nhiễu và các ngoại lệ: Thông thường nhiễu dữ liệu có thể là nhiễu ngẫu nhiên hoặc các giá trị bất bình thường. Để làm sạch nhiễu, người ta có thể sử dụng phương pháp làm trơn nhiễu hoặc dùng các giải thuật phát hiện ra các ngoại lệ để xử lý. 1.3.2.4. Làm giàu dữ liệu Mục đích của giai đoạn này là bổ sung thêm nhiều loại thông tin có liên quan vào cơ sở dữ liệu gốc. Để làm được điêu này, chúng ta phải có các cơ sở dữ liệu Báo Cáo Thu Hoạch Khai Phá Dữ Liệu Trang 5 Chương I: Tổng quan về khai phá dữ liệu khác ở bên ngoài có liên quan tới cơ sở dữ liệu gốc ban đầu. Ta tiến hành bổ sung những thông tin cần thiết, làm tăng khả năng khám phá tri thức. Đây là bước mang tính tư duy trong khai phá dữ liệu.Ở giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu. Thuật toán thường dùng là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự, v. v. Quá trình làm giàu bao gồm việc tích hợp và chuyển đổi dữ liệu. Các dữ liệu từ nhiều nguồn khác nhau được tích hợp thành một kho thông nhất. Các khuôn dạng khác nhau của dữ liệu cũng được quy đổi, tính toán lại để đưa về một kiểu thống nhất, tiện cho quá trình phân tích. 1.3.2.5. Mã hoá dữ liệu Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó. Dữ liệu đã được chuyển đổi phù hợp với mục đích khai thác. Mục đích của giai đoạn này là chuyển đổi kiểu dữ liệu về những dạng thuật tiện để tiến hành các thuật toán khám phá dữ liệu. Có nhiều cách mã hoá dữ liệu như: - Phân vùng: Dữ liệu là giá trị chuỗi, nằm trong các tập các chuỗi cố đinh. - Biến đổi giá trị năm thành con số nguyên là số năm đã trôi qua so với năm hiện hành. - Chia giá trị số theo một hệ số để tập các giá trị nằm trong vùng nhỏ hơn. - Chuyển đổi Yes-No thành 0-1. 1.3.2.6. Đánh giá và trình diễn Đây là giai đoạn cuối trong quá trình khai phá dữ liệu.Ở giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch. Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức cần chiết xuất ra. Trên đây là 6 giai đoạn trong quá trình khai phá dữ liệu. 1.3.3. Khai phá dữ liệu Giai đoạn khai thác dữ liệu được bắt đầu sau khi dữ liệu đã được thu thập và tiến hành xử lý. Trong giai đoạn này, công việc chủ yếu là xác định được bài toán khai phá dữ liệu, tiến hành lựa chọn các phương pháp khai thác phù hợp với dữ liệu có được và tách ta các tri thức cần thiết. Báo Cáo Thu Hoạch Khai Phá Dữ Liệu Trang 6 Chương I: Tổng quan về khai phá dữ liệu Là giai đoạn thiết yếu, trong đó các phương pháp thông minh sẽ được áp dụng để trích xuất ra các mẩu dữ liệu. 1.3.4. Phát biểu và đánh giá kết quả Các tri thức phát hiện từ cơ sở dữ liệu cần được tổng hợp dưới dạng các báo cáo phục vụ cho các mục đích hỗ trợ các quyết định khác nhau. Do nhiều phương pháp khai thác có thể được áp dụng nên các kết quả có mức độ tốt, xấu khác nhau. Việc đánh giá các kết quả thu được là cần thiêt, Các tri thức phát hiện từ cơ sở dữ liệu cần được tổng hợp dưới dạng các báo cáo phục vụ cho các mục đích hỗ trợ các quyết định khác nhau. Do nhiều phương pháp khai thác có thể được áp dụng nên các kết quả có mức độ tốt, xấu khác nhau. Việc đánh giá các kết quả thu được là cần thiêt, giúp tạo cơ sở cho những quyết định chiến lược. Thông thường, chúng được tổng hợp, so sánh bằng các biểu đồ và được kiểm nghiệm, tin hoc. 1.3.5. Sử dụng tri thức đã phát hiện Củng cố, tinh chế các tri thức đã được phát hiện. Kết hợp các tri thức thành hệ thống. Giải quyết các xung đột tiềm tàng trong tri thức khai thác được. Sau đó tri thức được chuẩn bị sẵn sàng cho ứng dụng. Các kết quả của quá trình phát hiện tri thức có thể được đưa vào ứng dụng trong những lĩnh vực khác nhau. Do các kết quả có thể là các dự báo hoặc các mô tả nên chúng có thể được đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hoá quá trình này. 1.4. Khai phá dữ liệu có những lợi ích gì - Cung cấp tri thức hỗ trợ ra quyết định. - Dự báo. - Khái quát dữ liệu. Hình 1.3 Là một mô hình thể hiện lợi ích của KPDL trong việc phân tích và ra quyết định cho việc ra tiếp thị của một loại sản phẩm nào đó Báo Cáo Thu Hoạch Khai Phá Dữ Liệu Trang 7 [...]... Hoạch Khai Phá Dữ Liệu Trang 28 Chương III: SQL server business intelligence development studio CHƯƠNG III :ỨNG DỤNG SQL SERVER BUSINESS INTELLIGENCE DEVELOPMENT STUDIO TRONG KHAI PHÁ DỮ LIỆU 3.1 Giới thiệu Business Intelligence Development Studio (BIDS) là công cụ cho phép tổ chức quản lý và khai thác kho dữ liệu (Xử lý phân tích số liệu trực tuyến OLAP) cũng như xây dựng các mô hình khai phá dữ liệu. .. sử dụng rất rộng rãi trong việc tối ưu hóa các kỹ thuật khai phá dữ liệu trong đó có kỹ thuật mạng Neuron Sự liên hệ của nó với các quá trình khai phá dữ liệu Ví dụ như trong kỹ thuật Báo Cáo Thu Hoạch Khai Phá Dữ Liệu Trang 13 Chương I: Tổng quan về khai phá dữ liệu cây quyết định, tạo luật Như đã đề cập ở phần trước, các luật mô hình hóa dữ liệu chứa các tham số được xác định bởi các giải thuật phát... I: Tổng quan về khai phá dữ liệu Tiếp thị CSDL Tiếp thị Nhà kho dữ liệu KDD & Data Mining Hình 1.3: Mô hình lợi ích của khai phá dữ liệu 1.5 Các kỹ thuật khai phá dữ liệu Kỹ thuật khai phá dữ liệu thường được chia làm 2 nhóm chính: dự đoán (Predictive) và mô tả (Descriptive) 1.5.1 Kỹ thuật khai phá dữ liệu mô tả Có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trong CSDL hiện... không có các tính chất và đặc điểm của lớp 1.7 Các phương pháp khai phá dữ liệu Quá trình khai phá dữ liệu là quá trình phát hiện mẫu, trong đó, giải thuật khai phá dữ liệu tìm kiếm các mẫu đáng quan tâm theo dạng xác định như các luật, cây phân lớp, hồi quy, gom nhóm, v v 1.7.1 Các thành phần của giải thuật khai phá dữ liệu Giải thuật khai phá dữ liệu bao gồm 3 thành phần chính như sau: biểu diễn mô hình,... Hoạch Khai Phá Dữ Liệu Trang 29 Chương III: SQL server business intelligence development studio · Tạo một Data Source · Tạo một Data Source View · Tạo một Mining model structure · Tạo các Mining models · Khai thác Mining models · Kiểm tra độ chính xác của Mining Models · Sử dụng Mining Models để dự đoán 3.2.2 Khai phá dữ liệu bằng luật kết hợp trong BIDS Dữ liệu dùng để xây dựng mô hình phát hiện luật kết. .. sử dụng Tuy nhiên, giới hạn của nó là mô tả cây và luật chỉ có thể biểu diễn được một số dạng chức năng và vì vậy giới hạn về cả độ chính xác của mô hình 1.7.2.3 Phát hiện các luật kết hợp Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được Ta có thể lấy một ví dụ đơn giản về luật kết. .. bộ dữ liệu dạng giỏ mua hàng thuộc một lớp Các mô tả đặc trưng thể hiện dưới dạng các luật thường có khuôn dạng: “Nếu một bộ dữ liệu thuộc về một lớp đã chỉ ra trong tiền đề, thì bộ dữ liệu đó có tất cả các Báo Cáo Thu Hoạch Khai Phá Dữ Liệu Trang 9 Chương I: Tổng quan về khai phá dữ liệu thuộc tính đã nêu trong kết luận” Những luật này có những đặc trưng khác biệt so với các luật phân lớp Luật phát... nào tạo ra các luật tốt nhất Và vì vậy mà giải thuật di truyền đã được sử dụng trong các công cụ khai phá dữ liệu Báo Cáo Thu Hoạch Khai Phá Dữ Liệu Trang 14 Chương II: Tập phổ biền và luật kết hợp Chương II: TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP 2.1 Mở đầu Hiện nay các siêu thị,công ty, doanh nghiệp,ngân hàng đang lưu trữ một lượng thông tin lớn về bán hàng,vay vốn Một bản ghi trong cơ sở dữ liệu này chứa các... tin mà phương pháp này đem lại là các thông tin hay các tri thức cấp cao diễn tả về các đối tượng trong cơ sở dữ liệu Phương pháp này liên quan đến việc tìm kiếm các mẫu trong CSDL Trong khai phá dữ liệu, quy nạp được sử dụng trong cây quyết định và tạo luật 1.7.2.2 Cây quyết định và luật • Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằm phân các đối tượng dữ liệu thành một... mục đích của khai phá dữ liệu là các tri thức chiết xuất được sẽ được sử dụng cho lợi ích cạnh tranh trên thương trường và các lợi ích trong nghiên cứu khoa học Do đó, ta có thể coi mục đích chính của khai thác dữ liệu sẽ là mô tả và dự đoán Các mẫu mà khai phá dữ liệu phát hiện được nhằm vào mục đích này Dự đoán liên quan đến việc sử dụng các biến hoặc các trường trong cơ sở dữ liệu để chiết xuất . học KHAI PHÁ DỮ LIỆU Đề tài : KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP. KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP. ỨNG DỤNG SQL SERVER BUSINESS ỨNG DỤNG SQL SERVER BUSINESS INTELLIGENCE TRONG KHAI PHÁ DỮ LIỆU. 19 2.4.1. Phát biểu bài toán khai phá luật kết hợp 24 2.4.2. Phát triển giải pháp hiệu quả trong khai thác luật kết hợp 26 CHƯƠNG III :ỨNG DỤNG SQL SERVER BUSINESS INTELLIGENCE DEVELOPMENT STUDIO TRONG. & Data Mining Nhà kho dữ liệu Chương I: Tổng quan về khai phá dữ liệu Hình 1.3: Mô hình lợi ích của khai phá dữ liệu 1.5. Các kỹ thuật khai phá dữ liệu Kỹ thuật khai phá dữ liệu thường được chia

Ngày đăng: 10/04/2015, 00:10

Từ khóa liên quan

Mục lục

  • Chương I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

    • 1.1. Tổng quan

    • 1.2. Khai phá dữ liệu và phát hiện tri thức

    • 1.3. Quá trình phát hiện tri thức từ cơ sở dữ liệu

      • Hình 1.1. Quá trình phát hiện tri thức từ cơ sở dữ liệu

      • 1.3.1. Xác định bài toán

      • 1.3.2. Thu thập và tiền xử lý

        • Hình 1.2. Quá trình phát hiện tri thức

        • 1.3.2.1. Gom dữ liệu

        • 1.3.2.2. Chọn lọc dữ liệu

        • 1.3.2.3. Làm sạch

        • 1.3.2.4. Làm giàu dữ liệu

        • 1.3.2.5. Mã hoá dữ liệu

        • 1.3.2.6. Đánh giá và trình diễn

        • 1.3.3. Khai phá dữ liệu

        • 1.3.4. Phát biểu và đánh giá kết quả

        • 1.3.5. Sử dụng tri thức đã phát hiện

        • 1.4. Khai phá dữ liệu có những lợi ích gì

          • Hình 1.3: Mô hình lợi ích của khai phá dữ liệu

          • 1.5. Các kỹ thuật khai phá dữ liệu

            • 1.5.1. Kỹ thuật khai phá dữ liệu mô tả

            • 1.5.2. Kỹ thuật khai phá dữ liệu dự đoán

            • 1.6. Nhiệm vụ chính của khai phá dữ liệu

              • 1.6.1. Phân lớp (Classification)

              • 1.6.2. Hồi quy (Regression)

Tài liệu cùng người dùng

Tài liệu liên quan