BÀI THU HOẠCH MÔN HỌC CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG ĐỀ TÀI DATA MINING

44 731 0
BÀI THU HOẠCH MÔN HỌC CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG ĐỀ TÀI DATA MINING

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN CHƢƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG  BÀI THU HOẠCH MÔN HỌC CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG ĐỀ TÀI: DATA MINING Giảng viên hướng dẫn: GS.TSKH.Hoàng Kiếm Học viên thực hiện: Lƣơng Trí Quân MSHV: CH1101125 TP HCM, năm 2012 Bài thu hoạch môn học: công nghệ tri thức ứng dụng MỤC LỤC MỞ ĐẦU CHƢƠNG 1:TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU I Phát tri thức khai phá liệu II Một số quan niệm khai phá liệu III Nhiệm vụ khai phá liệu IV Triển khai việc khai phá liệu V Quá trình phát tri thức từ sở liệu VI Kiến trúc hệ thống khai phá liệu 13 VII Các kỹ thuật khai phá liệu 14 Phân cụm liệu 15 Phân lớp liệu 16 Phƣơng pháp hồi quy 16 Khai phá luật kết hợp 16 Một số ứng dụng khai phá liệu 17 VIII IX Những khó khăn khai phá liệu 19 CHƢƠNG 2: LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 22 I Xem xét toán 22 II Luật kết hợp 23 Độ hỗ trợ 23 III Độ tin cậy 24 Tập hợp 25 Một số hƣớng tiếp cận khai phá luật kết hợp 28 CHƢƠNG 3: MỘT SỐ THUẬT TOÁN PHÁT HIỆN LUẬT KẾT HỢP 31 I Thuật toán AIS 31 Lương Trí Quân Trang Bài thu hoạch môn học: công nghệ tri thức ứng dụng II Thuật toán SETM 32 III Thuật toán Apriori 33 IV Thuật toán Apriori-TID 41 V Thuật toán Apriori-Hybrid 42 VI Thuật toán PARTITION [Savasere 95] 43 Lương Trí Quân Trang Bài thu hoạch môn học: công nghệ tri thức ứng dụng MỞ ĐẦU Trong năm gần đây, phát triển mạnh mẽ công nghệ thông tin làm cho khả thu thập lưu trữ thông tin hệ thống thông tin tăng nhanh cách nhanh chóng Bên cạnh đó, việc tin học hóa cách ạt nhanh chóng hoạt động sản xuất, kinh doanh nhiều lĩnh vực hoạt động khác tạo cho lượng liệu cần lưu trữ khổng lồ Hàng triệu sở liệu sử dụng hoạt động sản xuất, kinh doanh, quản lý…, có nhiều sở liệu cực lớn tính đơn vị Gigabyte, Terabyte Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kỹ thuật công cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức có ích Từ đó, kỹ thuật khai phá liệu trở thành lĩnh vực thời CNTT giới nói chung Việt Nam nói riêng Khai phá liệu áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác nhau: marketing, tài chính, ngân hàng, bảo hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức công ty lớn giới áp dụng kỹ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu lợi ích to lớn Mục đích đề tài tìm hiểu kỹ thuật khai phá liệu, vấn đề liên quan đến khai phá luật kết hợp nhằm phát đưa mối liên hệ giá trị liệu đồng thời viết ứng dụng minh họa tìm luật kết hợp Lương Trí Qn Trang Bài thu hoạch mơn học: công nghệ tri thức ứng dụng CHƢƠNG 1:TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU I Phát tri thức khai phá liệu Trong thời đại bùng nổ công nghệ thông tin, công nghệ lưu trữ liệu ngày phát triển tạo điều kiện cho đơn vị thu thập liệu tốt Đặc biệt lĩnh vực kinh doanh, doanh nghiệp nhận thức tầm quan trọng việc nắm bắt xử lý thông tin, nhằm giúp chủ doanh nghiệp việc vạch chiến lược kinh doanh kịp thời mang lại lợi nhuận to lớn cho doanh nghiệp Tất lí khiến cho quan, đơn vị doanh nghiệp tạo lượng liệu khổng lồ Khi lưu trữ liệu khổng lồ thấy chắn chúng phải chứa giá trị định Tuy nhiên, theo thống kê có lượng nhỏ liệu (khoảng từ 5% đến 10%) ln phân tích, số cịn lại họ khơng biết phải làm làm với chúng họ tiếp tục thu thập tốn với ý nghĩ lo sợ có quan trọng bị bỏ qua sau có lúc cần đến Mặt khác, mơi trường cạnh tranh, người ta ngày cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Với lý vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) Thông thường coi liệu dãy bit, số ký hiệu, “đối tượng” với ý nghĩa gửi cho chương trình dạng định Chúng ta sử dụng bit để đo lường thơng tin xem liệu lọc bỏ dư thừa, rút gọn tới mức tối thiểu để đặc trưng cách cho liệu Chúng ta xem tri thức Lương Trí Quân Trang Bài thu hoạch môn học: công nghệ tri thức ứng dụng thơng tin tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ hiểu ra, phát hiện, học Nói cách khác, tri thức coi liệu có độ trừu tượng tổ chức cao Phát tri thức sở liệu qui trình nhận biết mẫu mơ hình liệu với tính năng: hợp thức, mới, khả ích, hiểu Cịn khai thác liệu bước qui trình phát tri thức gồm có thuật tốn khai thác liệu chuyên dùng số qui định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu Nói cách khác, mục đích phát tri thức khai phá liệu tìm mẫu và/hoặc mơ hình tồn sở liệu bị che khuất hàng “núi” liệu Nhiều người coi khai phá liệu khám phá tri thức sở liệu Tuy nhiên thực tế, khai phá liệu bước thiết yếu trình phát tri thức sở liệu II Một số quan niệm khai phá liệu Khai phá liệu tập hợp thuật toán nhằm chiết xuất thơng tin có ích từ kho liệu khổng lồ Khai phá liệu định nghĩa trình phát mẫu liệu Q trình tự động hay bán tự động, song phần nhiều bán tự động Các mẫu phát thường hữu ích theo nghĩa: mẫu mang lại cho người sử dụng lợi đó, thường lợi kinh tế Khai phá liệu giống trình tìm mô tả mẫu liệu Dữ liệu tập hợp vật hay kiện, đầu trình khai phá liệu dự báo vật hay kiện Lương Trí Qn Trang Bài thu hoạch mơn học: công nghệ tri thức ứng dụng Khai phá liệu áp dụng sở liệu quan hệ, giao dịch, sở liệu không gian, kho liệu phi cấu trúc, mà điển hình World Wide Web Khám phá tri thức trình nhận biết mẫu mơ hình liệu với tính chất: Đúng đắn, mới, khả ích hiểu Khai phá liệu bước trình khám phá tri thức bao gồm thuật toán khai phá liệu chuyên dùng số quy định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu Tóm lại, mục đích khám phá tri thức khai phá liệu tìm mẫu mơ hình tồn sở liệu bị khuất số lượng liệu qúa khổng lồ III Nhiệm vụ khai phá liệu Các toán liên quan đến khai phá liệu chất tothống kê Điểm khác biệt kỹ thuật khai phá liệu cơng phục vụ tính tốn thống kê mà biết khối lượng cần tính tốn.Một liệu trở nên khổng lồ khâu như: thu thập liệu, tiền xử lý xử lý liệu đòi hỏi phải tự động hóa Tuy nhiên đoạn cuối cùng, việc phân tích kết sau khai phá liệu công việc người Do lĩnh vực đa ngành, khai phá liệu thu hút lĩnh vực khoa học khác trí tuệ nhân tạo, sở liệu, hiển thị liệu, marketing, toán học, vận trù học, tin sinh học, nhận dạng mẫu, tính tốn thống kê … Điều mà khai phá liệu làm tốt phát giả thuyết mạnh trước sử dụng cơng cụ tính tốn thống kê Mơ hình dự báo sử dụng kỹ thuật phân cụm (Clustering) để chia nhóm vật, kiện sau rút luật nhằm tìm đặc trưng cho nhóm cuối đề nghị mơ hình Ví dụ, bạn đọc đăng ký dài hạn tạp chí phân nhóm dựa theo nhiều tiêu chí khác (lứa tuổi, giới tính, thu nhập…), sau tạp chí Lương Trí Qn Trang Bài thu hoạch môn học: công nghệ tri thức ứng dụng vào đặc trưng riêng nhóm để đề mức phí thu năm cho phù hợp Từ thấy, nhiệm vụ khai phá liệu là: Phân cụm, phân loại, phân nhóm, phân lớp: Có nhiệm vụ trả lời câu hỏi: Một liệu thu thập thuộc nhóm nào? Q trình thường thực cách tự động Khai phá luật kết hợp: Có nhiệm vụ phát mối quan hệ giống nhâu ghi giao dịch Luật kết hợp X=>Y có dạng tổng quát là: Nếu giao dịch sở hữu tính chất X đồng thời sở hữu tính chất Y.Ở mức độ đó, khai phá luật kết hợp hiểu theo nghĩa: Biết trước tính chât X, tính chất Y tính chất nào? Lập mơ hình dự báo: Bao gồm hai nhiệm vụ phân nhóm dư liệu vào hay nhiều lớp liệu xác định từ trước, sử dụng trường cho sở liệu để dự báo xuất (hoặc không xuất hiện) trường hợp khác Phân tích đối tƣợng ngồi cuộc: Một sở liệu có thể chứa đối tượng khơng tn theo mơ hình liệu Các đối tượng liệu gọi đối tượng Hầu hết phương pháp khai phá liệu coi đối tượng nhiễu loại bỏ chúng Tuy nhiên số ứng dụng, chẳng hạn phát nhiễu kiện xảy lại ý thường xuyên gặp phải Sự phân tích liệu ngồi coi phai phá đối tượng Một số phương pháp ứng dụng để phát đối tượng ngồi cuộc: Sử dụng hình thức kiểm tra mang tính thống kê sở phân phối liệu hay mơ hình xác suất cho liệu, dùng độ đo khoảng cách mà theo đối tượng có khoảng cách đáng kể đến cụm khác coi Lương Trí Quân Trang Bài thu hoạch môn học: công nghệ tri thức ứng dụng đối tượng cuộc, dùng phương pháp dựa độ lệch để kiểm tra khác đặc trưng nhóm đối tượng Phân tích tiến hóa: Phân tích tiến hóa thực việc mơ tả mơ hình hóa quy luật hay khuynh hướng đối tượng mà ứng xử chúng thay đổi theo thời gian Phân tích tiến hóa bao gồm đặc trưng hóa, phân biệt, tìm luật kết hợp, phân lớp hay phân cụm liệu liên quan đến thời gian, phân tích liệu theo chuỗi thời gian, so sánh mẫu theo chu kỳ phân tích liệu dựa tính tương tự IV Triển khai việc khai phá liệu Nhìn chung, việc triển khai trình khai phá liệu theo bước: Bƣớc 1: Xác định rõ mục tiêu thương mại cần khai phá Bƣớc 2: Chuẩn bị liệu (Thu thập, tiền xử lý, chuyển đổi khuôn dạng liệu thấy cần thiết) Bƣớc 3: Khai phá liệu (Chọn thuật tốn thích hợp) Bƣớc 4: Phân tích kết thu (Xem có thú vị khơng?) Bƣớc 5: Tiêu hóa tri thức thu lượm (Nhằm đề kế hoạch khai thác thông tin mới) V Quá trình phát tri thức từ sở liệu Q trình phát tri thức chia thành bước sau:  Bƣớc 1: Làm liệu (Data cleaning): Loại bỏ liệu nhiễu liệu khơng thích hợp  Bƣớc 2: Tích hợp liệu (Data integration): Tích hợp liệu từ nguồn khác  Bƣớc 3: Chọn liệu (Data Selection): Chọn liệu liên quan trực tiếp đến nhiệm vụ  Bƣớc 4: Chuyển đổi liệu (Data Transformation): Chuyển liệu dạng phù hợp cho việc khai phá  Bƣớc 5: Khai phá liệu (Data mining): Các kỹ thuật áp dụng để trích xuất thơng tin có ích mẫu điển hình liệu  Bƣớc 6: Đánh giá mẫu (Pattern evaluation): Đánh giá mẫu tri thức thu  Bƣớc 7: Trình diễn liệu (Knowledge Presentation): Biểu diễn tri thức khai phá cho người sử dụng Lương Trí Qn Trang Bài thu hoạch mơn học: cơng nghệ tri thức ứng dụng Q trình phát tri thức từ sở liệu đƣợc diễn tả qua mơ hình sau: Mơ hình mơ tả giai đoạn trình khám phá tri thức từ sở liệu Mặc dù có giai đoạn xong trình khám phá tri thức từ sở liệu trình tương tác lặp di lặp lại theo chu trình liên tục kiểu xốy trơn ốc, lần lặp sau hoàn chỉnh lần lặp trước Ngoài ra, giai đoạn sau lại dựa kết thu giai đoạn trước theo kiểu thác nước Đây trình biện chứng mang tính chất khoa học lĩnh vực phát tri thức phương pháp luận việc xây dựng hệ thống phát tri thức Giai đoạn xác định vấn đề: Đây q trình mang tính định tính với mục đích xác định lĩnh vực yêu cầu phát tri thức xây dựng toán tổng kết Trong thực tế, sở liệu chun mơn hóa phân chia theo lĩnh vực khác sản phẩm, kinh doanh, tài chính, … Với tri thức phát có giá trị lĩnh vực lại không mang nhiều ý nghĩa lĩnh vực khác Vì mà việc xác định lĩnh vực định nghĩa toán giúp định hướng cho giai đoạn thu thập tiền xử lý liệu Giai đoạn thu thập tiền xử lý liệu: Các sở liệu thu thường chứa nhiều thuộc tính lại khơng đầy đủ, khơng nhất, có nhiều lỗi giá trị đặc biệt Vì vậy, giai Lương Trí Qn Trang 10 Bài thu hoạch mơn học: cơng nghệ tri thức ứng dụng Các thuộc tính sở liệu thường khơng có vai trị Có số thuộc tính quan trọng trọng thuộc tính khác Vì q trình tìm kiếm luật thuộc tính đánh trọng số theo mức độ xác định Nhờ ta thu luật “hiếm” (tức có độ hỗ trợ thấp mang nghiều ý nghĩa)  Khai thác luật kết hợp song song (parallel mining of association rule) Nhu cầu song song hóa xử lý phân tán cần thiết kích thước liệu ngày lớn nên đòi hỏi tốc độ xử lý phải đảm bảo Trên biến thể khai phá luật kết hợp cho phép ta tìm kiếm luật kết hợp cách linh hoạt sở liệu lớn Bên cạnh nhà nghiên cứu cịn trọng đề xuất thuật tốn nhằm tăng tốc trình tìm kiếm luật kết hợp sở liệu Lương Trí Quân Trang 30 Bài thu hoạch môn học: công nghệ tri thức ứng dụng CHƢƠNG 3: MỘT SỐ THUẬT TOÁN PHÁT HIỆN LUẬT KẾT HỢP I Thuật tốn AIS Lương Trí Qn Trang 31 Bài thu hoạch môn học: công nghệ tri thức ứng dụng Thuật toán áp dụng tỏ thành công cho sở liệu cơng ty bán lẻ hàng hóa tìm luật kết hợp đề cập đến mối quan hệ hành vi ứng xử mua hàng khách hàng với 63 gian hàng công ty, sau nghiên cứu 46.873 giao dịch mua hàng II Thuật toán SETM Thuật toán Houtsma đề nghị năm 1995 Thuật toán sử dụng kỹ thuật bổ sung phần tử (từ tập hợp phần tử) nhằm tìm kiếm tập hợp ứng cử viên Một cải tiến đáng kể Thuật toán đề nghị lưu lại ID giao dịch với tập hợp ứng cử viên Agrawal ra, Thuật tốn khơng khơng có phương án quản lý nhớ mà cịn giả định nhét tồn Lương Trí Qn Trang 32 Bài thu hoạch môn học: công nghệ tri thức ứng dụng tập hợp ứng cử viên bước trước vào nhớ để bước sau tiện bề sử dụng Sarawagi Thuật tốn khơng hiệu Thuật tốn SETM mơ tả hình thức sau: III Thuật toán Apriori Thuật toán Agrawal đề nghị năm 1994, Cheung đánh giá mang tính chất lịch sử lĩnh vực khám phá luật kết hợp, vượt xa tầm Lương Trí Quân Trang 33 Bài thu hoạch môn học: công nghệ tri thức ứng dụng thuật toán quen thuộc lĩnh vực Thuật toán dựa nhận xét đơn giản tập hợp tập xuất tập xuất – thường xuyên – thường xun Do đó, q trình tìm tập ứng cử viên, cần dùng đến tập ứng cử viên vừa xuất bước trước đó, khơng cần dùng đến tất tập ứng cử viên (cho đến thời điểm đó) Nhờ vậy, nhớ giải phóng đáng kể Lương Trí Qn Trang 34 Bài thu hoạch mơn học: công nghệ tri thức ứng dụng Nhận xét: Khi ghép Baskets với nó, giỏ ta có 45 cách chế cặp ứng viên [do (10*9)/2=45], có 10 triệu giỏ mua hàng, nên ta phải xét 45x107 trường hợp để lọc cặp – thường xuyên Trong sử dụng Thuật tốn Apriori, trước hết ta giảm đáng kể kích thước Baskets, bước ta tìm phần tử (mặt hàng) xuất – thường xuyên SELECT * FROM Baskets GROUP BY item HAVING COUNT (*) >= s; Sự giảm kích thước Baskets chưa phải điểm cốt yếu Điểm cốt yếu ta kết hợp để tìm cặp, ta giảm bình phương lần Cốt lõi thuật toán Apriori hàm apriori_gen() Agrawal đề nghị năm 1994 Hàm hoạt động theo bước, bước 1- tập hợp Lk-1 tự kết nối (join) với để tạo tập ứng cử viên Ck Sau hàm apriori_gen() loại bỏ tập hợp có hợp (k-1) phần tử khơng nằm Lk-1 (vì chúng khơng thể tập hợp xuất Lương Trí Quân – thường xuyên, theo nhận xét ban đầu) Trang 35 Bài thu hoạch môn học: công nghệ tri thức ứng dụng Hàm sau có nhiệm vụ rà sốt tính chất đo đếm xem giá đỡ Nói cách khác, bước Agrawal dùng hàm count() để tìm tập hợp xuất – thường xuyên có phần tử Sau tồn Thuật tốn Apriori: Lương Trí Qn Trang 36 Bài thu hoạch môn học: công nghệ tri thức ứng dụng Dưới minh họa áp dụng thuật toán cho ví dụ ( =40%) Lương Trí Quân Trang 37 Bài thu hoạch môn học: công nghệ tri thức ứng dụng Dùng thuật tốn Apriori tính tập hợp xuất – thường xuyên Bản thân Agrawal đưa nhận xét: thuật toán Apriori hiệu so với AIS SETM Trong ví dụ minh họa, bước thứ tư, thuật toán Apriori lược bỏ hết, giữ lại tập ứng cử viên nhất, hai thuật toán đề nghị tới ứng cử viên Do đó, để đạt kết Apriori, hai thuật toán chắn phải cần đến tính tốn bổ trợ Thuật tốn Apriori cải tiến giải tình “xấu”, C k Lk-1 to q, khơng chứa đủ nhớ tính tốn Khi đó, cần tu chỉnh lại hàm apriori_gen() chút * Thuật tốn Apriori nhị phân Lương Trí Qn Trang 38 Bài thu hoạch môn học: công nghệ tri thức ứng dụng Thuật toán Apriori nhị phân sử dụng vector bit cho thuộc tính, vector nhị phân n chiều ứng với n giao tác sở liệu Có thể biểu diễn sở liệu ma trận nhị phân dịng thứ I tương ứng với giao tác (bản ghi) ti cột thứ j tương ứng với mục (thuộc tính ) ij Ma trận biểu diễn sở liệu ví dụ cho bảng dưới: Ma trận biểu diễn sở liệu Các vector biểu diễn nhị phân cho tập thuộc tính có dạng sau: Vector biểu diễn nhị phân cho tập thuộc tính Các vector biểu diễn nhị phân cho tập thuộc tính có dạng sau: Lương Trí Qn Trang 39 Bài thu hoạch mơn học: công nghệ tri thức ứng dụng Vector biểu diễn nhị phân cho tập thuộc tính Các vector biểu diễn cho thấy {A,C}, {C,D} có độ hỗ trợ 33% nhỏ độ hỗ trợ tối thiểu MinSupp=50% (cho trước) nên bị loại Các vector biểu diễn nhị phân cho tập thuộc tính có dạng: Vector biểu diễn nhị phân cho tập thuộc tính Các vector biểu diễn nhị phân cho tập thuộc tính có dạng: Vector biểu diễn nhị phân cho tập thuộc tính Lương Trí Quân Trang 40 Bài thu hoạch môn học: công nghệ tri thức ứng dụng IV Thuật toán Apriori-TID Thuật toán Apriori-TID phần mở rộng theo hướng tiếp cận thuật tốn Apriori Thay dựa vào sở liệu thơ thuật tốn Apriori-TID biểu diễn bên giao dịch candidate hành Như ta thấy, thuật tốn Apriori địi hỏi phải qt tồn sở liệu để tính độ hỗ trợ cho tập hợp ứng cử viên bước Đây lãng phí lớn Dựa tư tưởng ước đoán đánh giá độ hỗ trợ, Agrawal đề nghị cải tiến Apriori theo hướng phải quét sở liệu lần đầu tiên, sau tính độ hỗ trợ cho tập hợp phần tử Từ bước thứ hai trở đi, Thuật toán Apriori-TID nhờ lưu trữ song song ID giao dịch ứng cử viên, đánh giá, ước lượng độ hỗ trợ mà khỏi phải quét lại toàn sở liệu Lương Trí Quân Trang 41 Bài thu hoạch môn học: công nghệ tri thức ứng dụng V Thuật tốn Apriori-Hybrid Lương Trí Qn Trang 42 Bài thu hoạch môn học: công nghệ tri thức ứng dụng VI Thuật toán PARTITION [Savasere 95] Thuật toán Partition dùng kỹ thuật tìm kiếm theo bề rộng giao tập hợp biến nhận dạng (TID-List Intersection) Thuật toán Partition thuật toán tựa Apriori dùng tập giao để xác định giá trị support Như trình bày thuật toán Apriori xác định giá trị support tất k-1 candidate trước tính k candidate Vấn đề đặt thuật toán Partition muốn dùng TIDList tập phổ biến (k-1)-item để phát sinh IDList k candidate Một điều hiển nhiên kích thước phát sinh kết vượt giới hạn nhớ vật lý máy tính thơng thường cách dễ dàng Để giải vấn đề thuật toán Partition chia sở liệu thành nhiều phần chúng xử lý độc lập Kích thước phần chọn cách thức TIDList lưu nhớ Sau xác định tập phổ biến cho phần sở liệu, cần phải có motọ tao tác duyệt lại toàn sở liệu để đảm bảo tập phổ biến cục tập phổ biến tồn cục Thuật tốn Partition làm giảm số lần quét liệu [18] Nó chia sở liệu thành phần nhỏ phần lưu trử nhớ chính, giả sử phàn D1 , D2 ,…., Dp Trong lần qt đầu tiên, tìm large-itemset đại phương Di (1 ≤ i ≤ p), với large-itemset địa phương Li tìm cách sử dụng thuật toán Level-wise chẳng hạn Apriori Từ Lương Trí Qn Trang 43 Bài thu hoạch mơn học: công nghệ tri thức ứng dụng phần điều chỉnh nhớ Trong lần quét thứ hai, phần đếm candidate-itemset Tài liệu tham khảo [1] Chuyên đề công nghệ tri thức ứng dụng,GS TSKH Hoàng Kiếm [2] Lê Hoài Bắc (2002), Bài giảng khám phá tri thức khai thác liệu – tìm luật kết hợp theo mục đích người dùng, Đại học Quốc gia TP Hồ Chí Minh [3] Đỗ Phúc (2002), Nghiên cứu phát triển số thuật giải, mơ hình ứng dụng khai thác liệu (data mining) [4] Trang web: http://wwwai.wu-wien.ac.at/~hahsler/research/bib/association_rules/ [5] Giới thiệu phần mềm khai thác tri thức CITD Data Mining 2000 [6] Một số tiểu luận đại học Thái Nguyên Lương Trí Quân Trang 44 ... tồn Thu? ??t tốn Apriori: Lương Trí Qn Trang 36 Bài thu hoạch môn học: công nghệ tri thức ứng dụng Dưới minh họa áp dụng thu? ??t tốn cho ví dụ ( =40%) Lương Trí Quân Trang 37 Bài thu hoạch môn học: công. .. Bài thu hoạch mơn học: công nghệ tri thức ứng dụng CHƢƠNG 1:TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU I Phát tri thức khai phá liệu Trong thời đại bùng nổ công nghệ thông tin, công nghệ. .. nghệ tri thức ứng dụng V Thu? ??t tốn Apriori-Hybrid Lương Trí Qn Trang 42 Bài thu hoạch môn học: công nghệ tri thức ứng dụng VI Thu? ??t toán PARTITION [Savasere 95] Thu? ??t tốn Partition dùng kỹ thu? ??t

Ngày đăng: 10/04/2015, 16:26

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan