Khai phá dữ liệu và khám phá tri thức

31 829 4
Khai phá dữ liệu và khám phá tri thức

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khai phá dữ liệu và khám phá tri thức

Data Mining Concepts LÊ VINH HIỆP 51001048 TRẦN ĐƯỜNG TÚ 51003857 Nội dung • Giới thiệu khai phá dữ liệu khám phá tri thức • Mục tiêu của khám phá tri thức • Các kĩ thuật khai phá dữ liệu: • Association rules • Classification • Clustering Dữ liệu tri thức • Sự bùng nổ của dữ liệu: • Mạng xã hội, world wide web,… • Dữ liệu trong kinh doanh, khoa học, xã hội,… • Lên tới mức terabytes thậm chí petabytes. • Chúng ta có dữ liệu nhưng cần tri thức. • Khai phá dữ liệu: khám phá tri thức từ kho dữ liệu rất lớn. Ứng dụng khai phá tri thức • Marketing: • Tự động phân loại khách hàng, hàng hóa, dịch vụ • Đưa ra chiến lược kinh doanh, quảng cáo • Tài chính: • Đánh giá hành vi sử dụng tài khoản tín dụng • Phân tích khả năng đầu tư • Y học: • Phân tích gene Khai phá dữ liệu kho dữ liệu • Kho dữ liệu (data warehouse) là tập hợp những dữ liệu đã được làm sạch, hướng chủ đề để hổ trợ khả năng ra quyết định • Kho dữ liệu được kết hợp với khai phá dữ liệu (data mining) để đưa ra một quyết định cụ thể nào đó. • Kho dữ liệu quyết định tính hiệu quả của khai phá dữ liệu Khai phá dữ liệu khám phá tri thứcKhai phá dữ liệu chỉ là một công đoạn trong một quá trình lớn hơn là Khám phá tri thức (Knowledge discovery). Mục tiêu của khai phá dữ liệuDự đoán: ví dụ dự đoán những mặt hàng mà một khách hàng có thể sẽ quan tâm dựa trên những thứ mà người ấy đã cho vào giỏ hàng. • Nhận diện: ví dụ nhận diện cấu trúc gene • Phân lớp: dựa vào thông tin sử dụng tài khoảng tín dụng, phân lớp họ • Tối ưu: tối ưu lợi nhuận từ một tập giới hạn tài nguyên như thời gian, không gian, nhân lực,… Các kiểu tri thức • Không có cấu trúc: • Dạng các luật hoặc logic mệnh đề • Ví dụ từ một dữ liệu của một ngân hàng, sau quá trình khai phá ta có kết quả: những tài khoản chưa kết hôn nhỏ hơn 20 tuổi có mức nguy cơ cao. • Có cấu trúc: • Dạng cây ra quyết định, mạng ngữ nghĩa, mạng neuron,… Các luật kết hợp (Association rules) Bài toán giỏ thị trường Click to edit Master text styles Second level Third level Fourth level Fifth level [...]... trình học mô hình từ đó phân loại dữ liệu thành các lớp khác nhau • Đây là hình thức học có giám sát (supervised) dựa trên một tập dữ liệu huấn luyện (training set) đã được phân loại trước đó • Mô hình ở đây thường là một cây ra quyết định hoặc một tập các quy tắc suy diễn Classification (tt) Classification (tt) Phân cụm (Clustering) • Phân cụm: phân loại dữ liệu mà không có dữ liệu huấn luyện (học... ứng là 0.75, 0.5, 0.5, 0.5, 0.25, 0.25 • L1 {milk, bread, juice, cookies} • C2 {milk, bread}, {milk, juice}, {bread, juice}, {milk, cookies}, {bread, cookies} {juice, cookies} • L2 {milk, juice} {bread, cookies} với support = 50% C3 L3 ??? Giải thuật Apriori Giải thuật Apriori Giải thuật Apriori • Đặc điểm: • Tạo ra nhiều tập dự tuyển • Kiểm tra tập dữ liệu nhiều lần • Giải thuật cải tiến:... milk =>juice support = 50%, confidence = 66.7% bread => juice support = 25%, confidence = 50% Khai phá luật kết hợp Yêu cầu: Luật X=>Y phải thỏa mãn Support >= Minimum support threshold Confidence >= Minimum confidence threshold large (or frequent) itemset: tập có giá trị support >= Minimum support threshold Khai phá luật từ tập thường xuyên (frequent itemset): Ứng với mỗi tập thường xuyên X, Y ⊂ X, lấy... • Ví dụ: • Phân chia khách hàng thành các nhóm có hành vi mua sắm tương tự nhau • Mục tiêu: phân dữ liệu thành các nhóm với các mẫu tương tự nhau khác với các mẫu của nhóm khác Một số vấn đề khác • Sequential patterns • Patterns in time series • Regression • Neural networks • Genetic algorithms Tài liệu tham khảo • [1] Fundamentals of Database Systems 6th Edition • [2] Jiawei Han, Micheline Kamber,...Association Rule – các khái niệm • • • • Item (phần tử)? Itemset (tập phần tử, gọi tắt là tập)? K-Itemset Transaction (giao dịch)? • Một luật kết hợp (association rule) có dạng X => Y, nếu X = {x1, x2, , xn}, Y = {y1, y2, , ym} là những tập phần tử, với mọi xi, yj là những phần tử khác nhau • LHS (left-hand side), RHS (right-hand side) • LHS ∪ RHS = itemset Association Rule - Các khái niệm Support (độ hỗ... nhiều tập dự tuyển • Kiểm tra tập dữ liệu nhiều lần • Giải thuật cải tiến: • Lấy mẫu (sampling): thực hiện Giải thuật Apriori với một trị support threshold nhỏ • Phân hoạch (partitioning): chia nhiều phần chạy Giải thuật Apriori trên từng phần Frequent-Pattern (FP) Tree • Cây mẫu thường xuyên (Frequent-Pattern tree) • Phiên bản nén Database dưới dạng cây • Khái niệm support chuyển đơn vị từ phần trăm . petabytes. • Chúng ta có dữ liệu nhưng cần tri thức. • Khai phá dữ liệu: khám phá tri thức từ kho dữ liệu rất lớn. Ứng dụng khai phá tri thức • Marketing:. khai phá dữ liệu Khai phá dữ liệu và khám phá tri thức • Khai phá dữ liệu chỉ là một công đoạn trong một quá trình lớn hơn là Khám phá tri thức (Knowledge

Ngày đăng: 24/01/2013, 09:41

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan