Tìm hiểu một số kỹ thuật phát hiện tri thức ứng dụng trên cơ sở dữ liệu đăng kí học theo tín chỉ

77 353 0
Tìm hiểu một số kỹ thuật phát hiện tri thức  ứng dụng trên cơ sở dữ liệu đăng kí học theo tín chỉ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC Chương 1…………… TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1.Các khái niệm bản………… 1.1.1.Tại phải khai phá liệu 1.1.2.Mục tiêu khai phá liệu 1.1.3.Định nghĩa khai phá liệu 1.1.4.Các dạng liệu khai phá 1.1.5.Quá trình khai phá liệu 1.1.5.1.Các bước trình khai phá 1.1.5.2.Các thành phần giải thuật khai phá 1.1.6.Các hướng tiếp cận kỹ thuật áp dụng 1.1.7 Các lĩnh vực ứng dụng khai phá liệu 1.2 Phương pháp khai phá liệu 10 1.2.1.Một số phương pháp khai phá liệu phổ biến 10 1.2.1.1.Phương pháp suy diễn quy nạp 10 1.2.1.2 Cây định luật 10 1.2.1.3.Phát luật kết hợp 11 1.2.1.4 Phân nhóm phân đoạn 12 1.2.1.5 Mạng neural 13 1.2.1.6.Giải thuật di truyền 13 1.2.2 Lựa chọn kỹ thuật khai phá 14 Chương 2……………… KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP 16 2.1 Ý nghĩa luật kết hợp 16 2.2 Bài toán khai phá liệu luật kết hợp 17 2.2.1.Phát biểu toán pha thực 17 2.2.2.Ví dụ 20 2.3 Một số tính chất tập mục phổ biến luật kết hợp 22 2.3.1.Một số tính chất với tập mục phổ biến: 22 2.3.2.Một số tính chất với luật kết hợp: 23 2.2.4 Các loại luật kết hợp 24 2.4 Các thuật toán khai phá liệu nhờ luật kết hợp 26 2.4.1.Khai phá luật kết hợp Boolean đơn chiều từ CSDL tác vụ 26 2.4.1.1.Thuật toán Apriori tìm tập mục phổ biến sử dụng phương pháp sinh ứng cử 26 2.4.1.2 Nâng cao hiệu thuật toán Apriori 36 2.4.1.3.Thuật toán sinh luật kết hợp từ tập mục phổ biến 40 2.4.1.4 Thuật toán AIS 43 2.4.1.5.Thuật toán SETM 46 2.4.1.6 Thuật toán AprioriTid 49 2.4.2.Khai phá luật kết hợp định lượng 51 2.4.3.Khai phá luật kết hợp đa mức 53 2.4.3.1.Luật kết hợp đa mức 53 2.4.3.2.Các cách tiếp cận khai phá luật kết hợp đa mức 55 2.4.4.Khai phá luật kết hợp đóng 58 2.4.4.2.Sinh luật 63 Chương 3:……………………ỨNG DỤNG 64 3.1.Tình hình đào tạo theo tín giới Việt Nam 64 3.1.1 Vài nét hệ thống tín đại học Châu Âu 65 3.1.2 Việt Nam chuyển sang học chế tín chỉ: Đổi theo 3C 65 3.1.2.1 Đổi theo 3C 68 3.1.2.3 Đào tạo theo học chế tín trường Đại học Đà Lạt 69 3.1.2.4 Đào tạo theo tín Đại học Thái Nguyên 70 3.2 Ứng dụng cho toán khai phá luật kết hợp sở liệu đăng kí học theo tín chỉ………………… 70 3.2.2 Thiết kế môđul chương trình giải thuật 71 3.2.3 Thiết kế giao diện sử dụng 71 3.2.4 Đánh giá kết hướng phát triển chương trình 74 KẾT LUẬN……………………………………………………………………….75 TÀI LIỆU THAM KHẢO……………………………………………………… 76 MỞ ĐẦU Trong năm gần đây, khai phá liệu trở thành lĩnh vực nhà khoa học quan tâm nghiên cứu tính ứng dụng cao thực tiễn sống Với hàng loạt nghiên cứu, đề xuất thử nghiệm ứng dụng thành công vào đời sống chứng minh khai phá liệu lĩnh vực nghiên cứu có tảng lý thuyết vững Khai phá liệu ứng dụng rộng rãi nhiều lĩnh vực như: Tài thị trường chứng khoán, Thương mại, Giáo dục, Y tế, Sinh học, Bưu viễn thông,…với nhiều hướng tiếp cận khác như: Phân lớp/ Dự đoán, Phân cụm, Luật kết hợp,….Các kỹ thuật áp dụng khai phá liệu phần lớn thừa kế từ lĩnh vực: Cơ sở liệu, Học máy, Trí tuệ nhân tạo, Lý thuyết thông tin, Xác suất thống kê,… Luật kết hợp phương pháp khai phá liệu có hiệu vấn đề quan trọng nhiều nhà khoa học tìm hiểu thu thành công lớn Với lĩnh vực công nghệ nhiều triển vọng tương lai, em chọn hướng nghiên cứu Tìm hiểu số kỹ thuật phát tri thức Ứng dụng sở liệu đăng kí học theo tín cho đề tài Đồ án tốt nghiệp Đồ án tốt nghiệp xây dựng tổng hợp nội dung dựa số nghiên cứu chủ yếu lĩnh vực khai phá liệu nhà nghiên cứu năm gần số hội nghị quốc tế số báo công bố tạp chí chuyên ngành, Internet Mục đích đồ án nghiên cứu, tổng hợp kiến thức khai phá liệu, phát tri thức tìm hiểu số thuật toán khai phá luật kết hợp CSDL lớn áp dụng vào việc khai phá liệu, phát tri thức nhằm hỗ trợ định Nội dung Đồ án gồm chương mục sau: Chương 1: Tổng quan khai phá liệu Chương trình bày nét khái quát khai phá liệu, khai phá liệu trình phát tri thức; Các hướng tiếp cận; Các kỹ thuật áp dụng khai phá liệu; Các lĩnh vực ứng dụng Chương 2: Khai phá liệu nhờ luật kết hợp Trong chương trình bày phương pháp khai phá liệu luật kết hợp từ thuật toán - Thuật toán Apriori hướng cải tiến thuật toán nhằm nâng cao hiệu trình tính toán Ngoài giới thiệu số thuật toán khác AIS, SETM, AprioriTid…Đồng thời trình bày số hướng nghiên cứu luật kết hợp đa mức, luật kết hợp định lượng, luật kết hợp đóng Chương 3: Ứng dụng luật kết hợp toán khai phá liệu Cơ sở liệu đăng kí học theo tín Khoa công nghệ thông tin - Đại học Thái Nguyên Chương trình bày toán qua toán xác định rõ nhiệm vụ khai phá liệu, phân tích thiết kế môdul chương trình đồng thời thiết kế giao diện cho thuận lợi thân thiết với người sử dụng dễ theo dõi kiểm tra Chương trình xây dựng với mục đích thử nghiệm để đánh giá kết Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Các khái niệm 1.1.1.Tại phải khai phá liệu Để lấy thông tin có tính “tri thức” khối liệu khổng lồ này, người ta tìm kỹ thuật có khả hợp liệu từ hệ thống liệu khác nhau, chuyển đổi thành tập hợp sở liệu ổn định, có chất lượng sử dụng riêng cho vài mục đích Các kỹ thuật gọi chung kỹ thuật tạo kho liệu (Data Warehousing) môi trường liệu gọi kho liệu Điều tạo nên lỗ hổng lớn việc hỗ trợ phân tích tìm hiểu liệu, tạo khoảng cách việc tạo liệu việc khai thác liệu Trong đó, ngày người ta nhận thấy phân tích thông minh liệu nguồn tài nguyên quý giá cạnh tranh thương trường Một công nghệ nghiên cứu, đáp ứng nhu cầu khoa học hoạt động thực tiễn Đó công nghệ Khai phá liệu 1.1.2 Mục tiêu khai phá liệu Gần thập niên trở lại đây, lượng thông tin lưu trữ thiết bị đĩa cứng, CD-ROM, băng từ,…không ngừng tăng lên Sự tích luỹ liệu xảy với tốc độ bùng nổ Người ta ước đoán rằng, lượng thông tin toàn cầu tăng khoảng gấp đôi sau hai năm đồng thời theo số lượng kích cỡ Cơ sở liệu tăng lên cách nhanh chóng Trong lĩnh vực kinh doanh, nhà quản lý thực ngập liệu lại cảm thấy thiếu tri thức thông tin hữu ích Lượng liệu khổng lồ thực trở thành nguồn tài nguyên giá trị thông tin yếu tố then chốt hoạt động thương mại thông tin giúp người điều hành nhà quản lý có nhìn sâu sắc, xác, khách quan vào tiến trình kinh doanh doanh nghiệp trước định Việc khai thác thông tin tiềm ẩn mang tính dự đoán từ sở liệu lớn mục tiêu khai phá liệu - hướng tiếp cận với khả giúp đơn vị, tổ chức trọng vào thông tin có nhiều ý nghĩa từ tập hợp liệu lớn mang tính lịch sử Những công cụ khai phá liệu dự đoán xu hướng tương lai cho phép tổ chức, doanh nghiệp định kịp thời định hướng tri thức mà khai phá liệu đem lại Sự phân tích liệu cách tự động mang tính dự báo khai phá liệu khiến có ưu hẳn so với phân tích thông thường dựa kiện khứ hệ hỗ trợ định truyền thống trước Công cụ khai phá liệu trả lời câu hỏi lĩnh vực kinh doanh mà trước xem tốn nhiều thời gian để xử lý Với tất ưu trên, khai phá liệu chứng tỏ tính hữu dụng môi trường kinh doanh đầy tính cạnh tranh ngày Giờ khai phá liệu trở thành hướng nghiên cứu lĩnh vực khoa học máy tính công nghệ tri thức Phạm vi ứng dụng ban đầu khai phá liệu lĩnh vực thương mại tài Nhưng ngày nay, khai phá liệu ứng dụng rộng rãi lĩnh vực khác như: Tin sinh học, điều trị y học, viễn thông, giáo dục,… 1.1.3 Định nghĩa khai phá liệu Qua nội dung trình bày trên, hiểu cách sơ lược khai phá liệu trình tìm kiếm thông tin hữu ích, tiềm ẩn mang tính dự báo sở liệu lớn Như vậy, nên gọi trình khám phá tri thức thay khai phá liệu Tuy nhiên số nhà khoa học đồng ý với hai thuật ngữ tương đương thay cho Họ lý giải mục đích trình khám phá tri thức thông tin tri thức có ích đối tượng mà phải xử lý nhiều trình lại liệu Mặt khác, chia bước trình khám phá tri thức, nhiều nhà khoa học khác lại cho khai phá liệu bước trình khám phá tri thức Như vậy, xét mức không thật chi tiết hai thuật ngữ xem đồng nghĩa xét cụ thể khai phá liệu lại bước trình khám phá tri thức 1.1.4 Các dạng liệu khai phá Khai phá liệu áp dụng rộng rãi nên có nhiều kiểu liệu khác chấp nhận để khai phá Sau số loại điển hình: Cơ sở liệu quan hệ (relational databases): sở liệu tác nghiệp tổ chức theo mô hình liệu quan hệ Hầu hết hệ quản trị sở liệu hỗ trợ dạng liệu như: Oracle, IBM DB2, MS SQL Server, MS Access,… Cơ sở liệu đa chiều (multimemtional structures, data warehouses, datamart): kho liệu tập hợp, chọn lọc từ nhiều nguồn liệu khác Dạng liệu mang tính lịch sử (tức có thời gian) chủ yếu phục vụ cho trình phân tích khai phá tri thức nhằm hỗ trợ cho việc định Cơ sở liệu dạng giao dịch (transactional databases): dạng sở liệu tác nghiệp ghi thường giao dịch Dạng liệu thường phổ biến lĩnh vực thương mại ngân hàng Cơ sở liệu quan hệ - hướng đối tượng (object-relational databases): dạng sở liệu lai hai mô hình quan hệ hướng đối tượng Dữ liệu không gian thời gian (spatial, temporal and time-series data): dạng liệu có tích hợp thuộc tính không gian (ví dụ liệu đồ) thời gian (ví dụ liệu thị trường chứng khoán) Cơ sở liệu đa phương tiện (multimedia databases): dạng liệu âm (audio), hình ảnh (image), phim ảnh (video), text & WWW…Dạng liệu phổ biến Internet ứng dụng rộng rãi 1.1.5 Quá trình khai phá liệu 1.1.5.1 Các bước trình khai phá Thông thường trình khai phá liệu thực qua bước sau: - Xác định nhiệm vụ: Xác định xác vấn đề cần giải - Xác định liệu liên quan: Dùng để xây dựng giải pháp nhiệm vụ toán - Thu thập liệu có liên quan xử lý chúng thành dạng cho giải thuật khai phá liệu hiểu - Chọn thuật toán khai phá liệu thích hợp thực việc khai phá nhằm tìm mẫu có ý nghĩa dạng biểu diễn tương ứng với ý nghĩa 1.1.5.2 Các thành phần giải thuật khai phá Quá trình khai phá liệu trình phát triển mẫu giải thuật khai phá liệu tìm kiếm mẫu đáng quan tâm theo dạng xác định luật, phân lớp, hồi quy, phân nhóm,…Giải thuật khai phá liệu bao gồm thành phần sau: - Biểu diễn mô hình - Đánh giá mô hình - Tìm kiếm mô hình  Biểu diễn mô hình: Mô hình biểu diễn ngôn ngữ cho khai phá Nếu mô hình có mô tả hạn chế học có mẫu tạo Nếu diễn tả mô hình lớn làm tăng mức độ nguy hiểm bị học nhiều làm giảm khả dự đoán liệu chưa biết Hơn nữa, việc tìm kiếm trở lên phức tạp việc giải thích mô hình khó khăn  Đánh giá mô hình: Đánh giá xem mẫu có đáp ứng tiêu chuẩn trình phát tri thức hay không Việc đánh giá mô hình thực thông qua kiểm tra liệu, nhiệm vụ dự đoán việc đánh giá mô hình kiểm tra liệu dựa độ xác dự đoán mà việc đánh giá độ xác dự đoán dựa đánh giá chéo  Tìm kiếm mô hình: Bao gồm thành phần : tìm kiếm tham số tìm kiếm mô hình - Tìm kiếm tham số: Giải thuật cần tìm tham số để tối ưu hoá tiêu chuẩn đánh giá mô hình với liệu quan sát với miêu tả mô hình định - Tìm kiếm mô hình: Quá trình xảy giống vòng lặp tìm kiếm tham số Khi miêu tả, mô hình bị thay đổi tạo nên họ mô hình với miêu tả mô hình phương pháp tìm kiếm tham số áp dụng để đánh giá chất lượng mô hình Các phương pháp tìm kiếm mô hình thường sử dụng kỹ thuật tìm kiếm heuristic (tức dựa kinh nghiệm, thử nghiệm, rút kết luận) kích thước không gian mô hình ngăn cản tìm kiếm tổng thể 1.1.6 Các hướng tiếp cận kỹ thuật áp dụng Vấn đề khai phá liệu phân chia theo lớp hướng tiếp cận sau: Phân lớp dự đoán (classification & prediction): xếp đối tượng vào lớp biết Ví dụ phân lớp vùng địa lý theo liệu thời tiết Đối với hướng tiếp cận thường áp dụng số kỹ thuật học máy (machine learning), định (decision tree), mạng nơ ron nhân tạo (neural network),…Hay lớp toán gọi học có giám sát - Học có thầy (supervised learning) Phân cụm (clustering/segmentation: Sắp xếp đối tượng theo cụm số lượng tên cụm chưa biết trước Lớp toán phân cụm gọi học không giám sát - Học không thầy (unsupervised learning) Luật kết hợp (association rules): Là dạng luật biểu diễn tri thức dạng đơn giản Ví dụ: “80% sinh viên đăng kí học môn Cơ sở liệu có tới 70% số họ đăng kí học môn Phân tích thiết kế hệ thống thông tin” Hướng tiếp cận ứng dụng nhiều lĩnh vực kinh doanh, y học, tin sinh học, giáo dục,… Khai phá chuỗi theo thời gian (sequential/temporal patterns): Cũng tương tự khai phá liệu luật kết hợp có thêm tính thứ tự tính thời gian Hướng tiếp cận ứng dụng nhiều lĩnh vực tài thị trường chứng khoán chúng có tính dự báo cao 1.1.7 Các lĩnh vực ứng dụng khai phá liệu Khai phá liệu lĩnh vực phát triển thu hút nhiều nhà nghiên cứu nhờ vào ứng dụng thực tiễn Sau số lĩnh vực ứng dụng điển hình: - Phân tích liệu hỗ trợ định - Điều trị y học: Mối liên hệ triệu chứng, chuẩn đoán phương pháp điều trị - Phân lớp văn bản, tóm tắt văn phân lớp trang Web - Tin sinh học: tìm kiếm, đối sánh hệ gene thông tin di truyền, mối liên hệ số hệ gene số bệnh di truyền,… - Tài thị trường chứng khoán: Phân tích tình hình tài dự báo giá cổ phiếu - Bảo hiểm - Giáo dục 1.2 Phương pháp khai phá liệu 1.2.1 Một số phương pháp khai phá liệu phổ biến 1.2.1.1 Phương pháp suy diễn quy nạp  Phương pháp suy diễn: Rút thông tin kết logic từ thông tin nằm sở liệu dựa quan hệ liệu Phương pháp suy diễn dựa kiện xác để suy tri thức từ thông tin cũ Mẫu chiết suất cách sử dụng phương pháp thường luật suy diễn  Phương pháp quy nạp: Các thông tin suy từ sở liệu cách tự tìm kiếm, tạo mẫu sinh tri thức không bắt đầu với tri thức biết trước 1.2.1.2 Cây định luật Cây định: Cây định phương pháp mô tả tri thức dạng đơn giản nhằm phân phối đối tượng liệu thành số lớp định Các nút gán nhãn tên thuộc tính, cạnh gán nhãn giá trị thuộc tính, miêu tả lớp khác Các đối tượng phân lớp theo đường cây, qua cạnh tương ứng với giá trị thuộc tính đối tượng tới Tạo luật: Các luật tạo nhằm suy diễn cho số mẫu liệu có ý nghĩa mặt thống kê Các luật có dạng P Q, P mệnh đề với phần liệu sở liệu Q mệnh đề dự đoán Ví dụ: Ta có mẫu phát phương pháp tạo luật “ Nếu giảm ngưỡng cần học đủ số trình 120 phát chứng nhận tốt nghiệp giai đoạn I số lượng sinh viên đăng ký học tăng lên 30% Cây định phương pháp dùng toán phân loại liệu theo tiêu chuẩn dựa mức độ khác thuộc tính Cây 10 Chứng minh: Độ hỗ trợ X số tác vụ xuất hiện, tức số phần tử tập định danh t(X), supp(X)= | t(X) | Vì supp(cit(X))= | t(cit(X)) |, để chứng minh định lý ta cần t(X)=t(cit(X)) Vì cit toán tử đóng, nên thoả mãn tính chất mở rộng hay: t(X)cti( t(X))=t(i(t(X)))=t(cit(X)) Do t(X)t(cit(X)) Mặt khác cit toán tử đóng, Xcit(X) suy t(X)t(cit(X)) tính chất kết nối Galois Vậy t(X)=t(cit(X)) Định lý cho thấy tất tập mục phổ biến xác định tập mục đóng (hoặc khái niệm phổ biến) Hơn nữa, tập tập mục phổ biến đóng nhỏ nhiều tập tập mục phổ biến, đặc biệt nhỏ trường hợp liệu dày (desne) Minh hoạ cho điều thấy ví dụ có tập mục phổ biến đóng có 19 tập mục phổ biến Từ cho thấy rõ ích lợi việc khai phá luật kết hợp đóng 2.4.4.2 Sinh luật Ta nhắc lại luật kết hợp biểu thức có dạng X1p X2, X1, X2 I Độ hỗ trợ | t(X1  X2) | độ tin cậy p=|t(X1 X2)| / | t(X1) | Chúng ta quan tâm đến luật có độ hỗ trợ lớn độ hỗ trợ cực tiểu minconf Số luật kết hợp tìm lớn Nếu tập mục phổ biến có k mục sinh tới 2k –2 luật, tập mục phổ biến lớn số luật sinh lớn Tuy nhiên người ta không cần thiết khai phá luật từ tất tập mục phổ biến có nhiều luật thừa, cần khai phá luật sinh từ tập mục phổ biến đóng Định lý 2: Luật X1p X2 tương đương với luật cit(X1q cit(X2), p=q Chứng minh: 63 Theo định lý 1, độ hỗ trợ tập mục X độ hỗ trợ tập mục đóng cit(X) Vậy ta có: q t (cit ( X )  cit ( X )) t ( cit ( X ))  t ( cit ( X ))  t (cit ( X )) t( X 1) t( X 1)  t( X ) t( X1  X )   p t( X1) t( X1)  Như có nhiều tập mục phổ biến ánh xạ tới tập mục phổ biến đóng Giả sử: S1 có n tập mục tập toán tử đóng C1, S2 có m tập mụ tập toán tử đóng C2, người ta có: n(m-1) luật hai tập mục không đóng sinh trực tiếp từ S1 tới S2 không cần thiết Tất chúng tương đương với luật C1p C2 Hơn có m(n-1) luật sinh trực tiếp từ S1 tới S2 không cần thiết chúng tương đương với luật C1q C2 Các tính chất cặp tập mục- tập định danh Cho f: P(I)N ánh xạ 1-1 từ tập mục đến tập số tự nhiên N Với hai tập mục X1 X2: X1  X2 f(X1)f(X2) với f xác định trật tự tập mục Ví dụ: f xác định trật tự từ điển tập mục AC[...]... (Transaction Identification) Cho ∂ là một quan hệ nhị phân trên I và T (hay   IxT ) Nếu mục i xuất hiện trong giao dịch t thì ta viết (i,t)  Một cơ sở dữ liệu D, về mặt hình thức chính là một quan hệ nhị phân ∂ như trên Về ý nghĩa, một cơ sở dữ liệu là một tập các giao dịch, mỗi giao dịch t là một tập mục: t  2I (với 2I là tập các tập con của I)i Sau đây là một ví dụ về cơ sở dữ liệu quan hệ (dạng giao dịch):... bỏ Giải thuật di truyền là một giải thuật tối ưu hoá, nó được sử dụng rất rộng rãi trong việc tối ưu hoá các kỹ thuật khai phá dữ liệu trong đó có kỹ thuật mạng Neural Sự liên hệ của nó với các giải thuật khai phá dữ liệu là ở chỗ tối ưu hoá là cần thiết để xác định các giá trị tham số nào tạo ra các luật tốt nhất 1.2.2 Lựa chọn các kỹ thuật khai phá Các kỹ thuật khai phá dữ liệu tự động mới chỉ ở giai... phân nhóm khách hàng theo các tham số và các nhóm thuế tối ưu có được khi thiết lập biểu thuế bảo hiểm Mẫu đầu ra của quá trình khai phá dữ liệu sử dụng kỹ thuật này là các tập mẫu chứa dữ liệu có chung những tính chất nào đó được phân tách từ cơ sở dữ liệu Khi các mẫu được thiết lập, chúng có thể được sử dụng để tái tạo các tập dữ liệu dễ hiểu hơn, đồng thời cũng cung cấp các nhóm dữ liệu cho các hoạt... kết hợp giữa các thành phần dữ liệu trong cơ sở dữ liệu Một đầu ra của giải thuật khai phá dữ liệu là tập các luật kết hợp tìm được Cho một lược đồ R={A1, A2,…, Ap} với các thuộc tính có miền giá trị {0,1} và một quan hệ r trên R Ta gọi một luật kết hợp trên quan hệ r được mô tả như sau: XB với X  R và B  R\X Cho WR, đặt s(W,r) là tần số xuất hiện của W trong r được tính bằng tỉ lệ của các hàng... có thể dựa trên mức độ giống nhau của các thành viên và từ đó xây dựng nên các luật ràng buộc giữa các thành viên trong nhóm Một kỹ thuật phân nhóm khác là xây dựng nên các hàm đánh giá thuộc tính của các thành phần như là hàm của các tham số của các thành phần Kỹ thuật này được gọi là kỹ thuật phân hoạch tối ưu Một trong những ứng dụng của kỹ thuật phân nhóm theo độ giống nhau là cơ sở dữ liệu khách... Bảng 2.7: Cơ sở dữ liệu để minh hoạ thuật toán Apriori Trong cơ sở dữ liệu này, không làm mất tính tổng quát của bài toán ta giả sử: - Tên các mục là: 1,2,3,4,5 - Các mục được sắp xếp theo thứ tự từ điển - Cơ sở dữ liệu cho dưới dạng giao dịch Ở đây có 9 tác vụ (giao dịch) tức |D|=9 Giả sử minsupp=2 Quá trình thuật toán Apriori tìm tập mục phổ biến trong D thể hiện qua các bảng sau: Quét D để tính supp... công việc phân tích Đối với cơ sở dữ liệu lớn, việc lấy ra các nhóm này là rất quan trọng 1.2.1.5 Mạng neural Mạng neural là một phương pháp khai phá dữ liệu phát tri n dựa trên cấu trúc toán học với khả năng học trên mô hình hệ thần kinh con người Mạng neural có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không chính xác và có thể được sử dụng để chiết suất các mẫu và phát hiện xu hướng quá phức tạp... phải) Ta thấy tri thức đem lại bởi luật kết hợp ở dạng trên có một sự khác biệt cơ bản so với thông tin thu được từ các câu lệnh truy vấn dữ liệu thông thường Đó 16 thường là những tri thức, những mối liên hệ chưa được biết trước và mang tính dự báo đang tiềm ẩn trong dữ liệu Những tri thức này không đơn giản chỉ là kết quả của các phép nhóm, tính tổng, sắp xếp mà là kết quả của một quá trình tính toán... thể tìm được Đối với câu hỏi thứ 3: Hệ thống khai phá có thể chỉ sinh ra các mẫu cần quan tâm không? Đây chính là vấn đề tối ưu trong khai phá dữ liệu Vấn đề này còn là thách thức rất lớn đối với các nhà khoa học trong lĩnh vực khai phá dữ liệu 15 Chương 2 KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP Khai phá dữ liệu bằng luật kết hợp là một phương pháp quan trọng trong khai phá dữ liệu Nó được ra đời và phát tri n... thiết kế dữ liệu dùng cho kỹ thuật luật kết hợp cần hết sức lưu ý để giảm thiểu số lượng các thuộc tính đầu vào bởi không gian tìm kiếm các luật sẽ tăng lên theo hàm mũ của số lượng các thuộc tính đầu vào Giải thuật tìm các luật kết hợp được bắt đầu bằng việc tìm tất cả các tập thường xuyên xuất hiện Tập thường xuyên xuất hiện là các tập thoả mãn tấn số xuất hiện lớn hơn ngưỡng tần số được xác định trước

Ngày đăng: 02/08/2016, 22:02

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan