MÔ PHỎNG THUẬT TOÁN APRIORI TÌM TẬP PHỔ BIẾN & LUẬT KẾT HỢP

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC MÁY TÍNH **********    ********** TIỂU LUẬN CHUYÊN ĐỀ KHAI PHÁ DỮ LIỆU & KHO DỮ LIỆU ĐỀ TÀI: MÔ PHỎNG THUẬT TOÁN APRIORI TÌM TẬP PHỔ BIẾN & LUẬT KẾT HỢP GIẢNG VIÊN HƯỚNG DẪN: PGS.TS ĐỖ PHÚC HỌC VIÊN THỰC HIỆN: LÊ MINH TRÍ MSHV: CH1101148 Thành phố Hồ Chí Minh Mô phỏng thuật toán Apriori tìm tập phổ biến và luật kết hợp 11/2012 MỤC LỤC Nội dung Trang DANH MỤC CÁC HÌNH 3 LỜI NÓI ĐẦU 4 Chương I>Giới thiệu: 5 Chương II>Khai phá dữ liệu: 6 1/Khái niệm: 6 2/ Quá trình phát hiện tri thức: 6 3/Các phương pháp khai phá dữ liệu: 9 4/Các tác vụ khai phá dữ liệu: 16 Chương III>Luật kết hợp: 19 1/Một số khái niệm cơ bản: 19 2/Khai phá luật kết hợp: 20 3/Tình trạng nghẽn cổ chai của thuật toán Apriori: 26 4/Các cải tiến của thuật toán Apriori: 26 5/Một số biến thể của thuật toán Apriori: 26 Chương IV>Cài đặt thuật toán tìm luật kết hợp: 32 1/Giới thiệu chương trình: 32 2/Một số đoạn mã chính để xây dựng chương trình: 33 3/Hướng dẫn sử dụng chương trình: 38 Chương V>Kết luận & Hướng phát triển đề tài: 40 1/Kết luận : 40 2/Hướng phát triển đề tài: 41 TÀI LIỆU THAM KHẢO 42 HVTH: Lê Minh Trí (CH1101148) Trang 2 Mô phỏng thuật toán Apriori tìm tập phổ biến và luật kết hợp DANH MỤC CÁC HÌNH Hình 1: Quá trình phát hiện tri thức 8 Hình 2: Hỗ trợ ra quyết định 8 Hình 3: Sơ đồ quá trình khai phá dữ liệu bằng mạng 15 Hình 4: Tri thức đạt được từ quá trình khai phá 19 Hình 5: Sơ đồ so sánh Apriori và AprioriTid 29 Hình 6: So sánh 3 thuật toán Apriori, AprioriTid và AprioriHybrid 30 Hình 7: Các giai đoạn áp dụng khuôn mẫu của thuật toán Apriori DT 31 Hình 8: Giao diện chính của chương trình 32 Hình 9: Mở tập tin 38 Hình 10: Thêm mặt hàng 38 Hình 11: Thêm giao tác 39 Hình 12: Độ hỗ trợ và độ tin cậy 39 Hình 13: Kết quả thực hiện 40 HVTH: Lê Minh Trí (CH1101148) Trang 3 Mô phỏng thuật toán Apriori tìm tập phổ biến và luật kết hợp LỜI NÓI ĐẦU Sự bùng nổ, phát triển của công nghệ thông tin (CNTT) và việc ứng dụng CNTT trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với việc thu thập và lưu trữ dữ liệu càng ngày càng tăng. Chúng ta bị tràn ngập trong dữ liệu nhưng lại đói khát tri thức. Việc tổ chức quản lý và sử dụng những dữ liệu đó như thế nào trong tương lai lại là một bài toán nan giải của các doanh nghiệp nói chung và trong lĩnh vực kinh doanh nói riêng. Trong môi trường cạnh tranh, người ta cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Với những lý do đó, các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới đó là kỹ thuật Phát hiện tri thức và Khai phá dữ liệu (KDD - Knowledge Discovery and Data Mining). Khai phá dữ liệu bao gồm rất nhiều những kỹ thuật phân tích dữ liệu bên trong như: luật kết hợp, phân loại dữ liệu, gom nhóm dữ liệu, lập mô hình, dự báo… nhưng tiềm ẩn quan trọng nhất vẫn là phương pháp tìm luật kết hợp để tạo ra các tri thức hữu dụng. Ví dụ như chúng ta có thể dự đoán được những sản phẩm nào sẽ được mua nhiều trong tương lai đối với hệ thống siêu thị hay dự đoán thị trường đối với lĩnh vực kinh doanh chứng khoán… Trong phạm vi bài tiểu luận này người nghiên cứu xin trình bày một cách tổng quát nhất về những khái niệm của Data Mining và đồng thời cài đặt thử nghiệm chương trình mô phỏng thuật toán Apriori để tìm tập phổ biến, từ đó suy ra các luật kết hợp tương ứng. Qua bài thu hoạch, em xin gửi lời cảm ơn chân thành, sâu sắc đến thầy PGS.TS Đỗ Phúc, người đã tận tình truyền đạt cho em những kiến thức sâu rộng, bổ ích về môn Khai phá dữ liệu và kho dữ liệu. Từ đó giúp em nắm vững hơn về cơ sở lý thuyết, và có được một nền tảng kiến thức cơ bản tạo điều kiện thuận lợi để em hoàn thành tốt bài tiểu luận này. Bên cạnh đó em cũng xin gửi lời cảm ơn đến các anh/chị trong cùng khóa học đã nhiệt tình chia sẽ tài liệu và những thông tin cần thiết trong suốt quá trình học. Thân mến, HVTH: Lê Minh Trí (CH1101148) Trang 4 Mô phỏng thuật toán Apriori tìm tập phổ biến và luật kết hợp Người nghiên cứu Chương I> Giới thiệu: Sự bùng nổ của CNTT đồng nghĩa với việc bùng nổ dữ liệu. Theo thống kê, rất nhiều tập đoàn lớn trên thế giới đã lưu trữ một số lượng khổng lồ về CSDL như: Google (90 triệu tìm kiếm/ngày), trung tâm tính toán khoa học nghiên cứu năng lượng quốc gia Mỹ tháng 3/2010 khoảng 460 TB, Youtube sau hai năm hàng trăm triệu video, dung lượng CSDL của Youtube tăng gấp đôi sau mỗi chu kỳ 5 tháng, tổng lượng giao vận IP trên mạng năm 2010 là 20.396 PB/tháng, ước tính từ năm 2009 đến năm 2014 tăng trung bình hàng năm khoảng 34% (nguồn sách trắng Cissco 2010), khoảng 13,5 tỷ trang web được đánh chỉ số ngày 23/01/2011,… Chúng ta đang ngập trong dữ liệu khoa học, dữ liệu y tế, dữ liệu nhân khẩu học, dữ liệu tài chính, và các dữ liệu tiếp thị,… Con người không có đủ thời gian để xem xét dữ liệu như vậy. Sự chú ý của con người đã trở thành nguồn tài nguyên quý giá. Vì vậy, chúng ta phải tìm cách tự động phân tích dữ liệu, tự động phân loại nó, tự động tóm tắt nó, tự động phát hiện và mô tả các xu hướng trong nó, và tự động chỉ dẫn các dị thường. Đây là một trong những lĩnh vực năng động và thú vị nhất của cộng đồng nghiên cứu cơ sở dữ liệu. Các nhà nghiên cứu trong lĩnh vực bao gồm thống kê, trực quan hóa, trí tuệ nhân tạo, và học máy đang đóng góp cho lĩnh vực này. Bề rộng của lĩnh vực làm cho nó trở nên khó khăn để nắm bắt những tiến bộ phi thường trong vài thập kỷ gần đây (Theo Jim Gray, chuyên gia của Microsoft, giải thưởng Turing 1998). Thông tin từ khan hiếm tới dư dật. Điều đó mang lại lợi ích mới to lớn… tạo nên khả năng làm được nhiều việc mà trước đây không thể thực hiện được như: nhận ra các xu hướng kinh doanh, ngăn ngừa bệnh tật, chống tội phạm … Được quản lý tốt, dữ liệu như vậy có thể được sử dụng để mở khóa các nguồn mới có giá trị kinh tế, cung cấp những hiểu biết mới vào khoa học và tạo ra lợi ích từ quản lý (Theo Kenneth Cukier). Từ những phân tích trên ta có thể dễ dàng thấy được việc khai phá dữ liệu để chọn lọc ra những tri thức hữu ích giữ vai trò ngày càng cao. Hiện nay khai phá dữ liệu được ứng dụng vào rất nhiều lĩnh vực cụ thể khác nhau như: y tế, dầu khí, khí tượng, kinh doanh, y học, web mining, tin-sinh, tài chính và thị trường chứng khoán, bảo hiểm Để có được những tri thức hữu ích ấy thì CIO và các chuyên gia phân tích dữ liệu cũng có tầm ảnh hưởng quan trọng không kém. HVTH: Lê Minh Trí (CH1101148) Trang 5 Mô phỏng thuật toán Apriori tìm tập phổ biến và luật kết hợp Chương II> Khai phá dữ liệu: Khai phá dữ liệu (Datamining) được định nghĩa như là một quá trình chắt lọc hay khai phá tri thức từ một lượng lớn dữ liệu. Một ví dụ hay được sử dụng là việc khai thác vàng từ đá và cát, Datamining được ví như công việc "Đãi cát tìm vàng" trong một tập hợp lớn các dữ liệu cho trước. Thuật ngữ Datamining ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô. Có nhiều thuật ngữ hiện được dùng cũng có nghĩa tương tự với từ Datamining như Knowledge Mining (khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/patern analysis (phân tích dữ liệu/mẫu), data archaeoloogy (khảo cổ dữ liệu), datadredging (nạo vét dữ liệu), 1/ Khái niệm: Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó. Khai phá dữ liệu là một bước quan trọng trong các bước của quá trình phát hiện tri thức (Knowledge Discovery in Database – KDD). 2/ Quá trình phát hiện tri thức: Là quá trình khám phá các tri thức mới và các tri thức hữu ích ở dạng tiềm năng trong nguồn dữ liệu đã có. Nó không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã qua. Nếu cho rằng các điện tử và các sóng điện tử chính là bản chất của công nghệ điện tử truyền thống thì dữ liệu, thông tin và tri thức hiện đang là tiêu điểm của một lĩnh vực mới trong nghiên cứu và ứng dụng về phát hiện tri thức (Knowledge Discovery) và khai phá dữ liệu (Data Mining). Thông thường chúng ta coi dữ liệu như một dãy các bit, hoặc các số và các ký hiệu, hoặc các “đối tượng” với một ý nghĩa nào đó khi được gửi cho một chương trình dưới một dạng nhất định. Chúng ta sử dụng các bit để đo lường các thông tin và xem nó như là các dữ liệu đã được lọc bỏ các dư thừa, được rút gọn tới mức tối thiểu để đặc trưng một cách cơ bản cho dữ liệu. Chúng ta có thể xem tri thức như là các thông tin tích hợp, bao gồm các sự kiện và các mối quan hệ giữa chúng. Các HVTH: Lê Minh Trí (CH1101148) Trang 6 Người phân tích dữ liệu Người lập trình Nhà thống kê Nghệ nhân dữ liệu = + + Mô phỏng thuật toán Apriori tìm tập phổ biến và luật kết hợp mối quan hệ này có thể được hiểu ra, có thể được phát hiện, hoặc có thể được học. Nói cách khác, tri thức có thể được coi là dữ liệu có độ trừu tượng và tổ chức cao. Phát hiện tri thức trong các cơ sở dữ liệu là một qui trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được. Còn khai thác dữ liệu là một bước trong qui trình phát hiện tri thức gồm có các thuật toán khai thác dữ liệu chuyên dùng dưới một số qui định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu. Nói một cách khác, mục đích của phát hiện tri thức và khai phá dữ liệu chính là tìm ra các mẫu hoặc các mô hình đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị che khuất bởi kho tàng dữ liệu. Các nhà thống kê thì xem khai phá dữ liệu như là một qui trình phân tích được thiết kế để thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp và/hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đó sẽ hợp thức hoá các kết quả tìm đưọc bằng cách áp dụng các mẫu đã phát hiện được cho các tập con mới của dữ liệu. Qui trình này bao gồm ba giai đoạn cơ bản: thăm dò, xây dựng mô hình hoặc định nghĩa mẫu, hợp thức/kiểm chứng. Quá trình phát hiện tri thức được mô tả tóm tắt như sau: a) Làm sạch dữ liệu (data cleaning): loại bỏ nhiễu, hiệu chỉnh những phần dữ liệu không nhất quán. b) Làm giàu dữ liệu (data enrichment): tích hợp dữ liệu từ các nguồn khác nhau như: CSDL, kho dữ liệu, file text c) Chọn lọc dữ liệu (data selection): chọn những dữ liệu liên quan trực tiếp đến nhiệm vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu. d) Chuyển đổi dữ liệu (data transformation): dữ liệu sẽ được chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp. e) Khai phá dữ liệu (data mining): là giai đoạn quan trọng nhất, trong đó các phương pháp thông minh sẽ được áp dụng để trích xuất ra các mẫu dữ liệu. f) Đánh giá mẫu (pattern evaluation): đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa vào một số phép đo. g) Biểu diễn dữ liệu (knowlegde presentation): sử dụng các kỹ thuật trình diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng. HVTH: Lê Minh Trí (CH1101148) Trang 7 Mô phỏng thuật toán Apriori tìm tập phổ biến và luật kết hợp Hình 1: Quá trình phát hiện tri thức Quá trình khám phá tri thức là một chuỗi lặp gồm các bước được thực thi với: a) Các nguồn dữ liệu (Data Sources) b) Nhà kho dữ liệu (Data Warehouses) c) Thăm dò dữ liệu (Data Exploration) d) Khai phá dữ liệu (Data Mining) e) Trình bày dữ liệu (Data Presentation) f) Ra quyết định (Making Decisions) Hình 2: Hỗ trợ ra quyết định HVTH: Lê Minh Trí (CH1101148) Trang 8 Làm giàu dữ liệu Làm sạch dữ liệu Chọn lọc dữ liệu Chuyển đổi dữ liệu Khai phá dữ liệu Đánh giá mẫu Biểu diễn dữ liệu Mô phỏng thuật toán Apriori tìm tập phổ biến và luật kết hợp 3/ Các phương pháp khai phá dữ liệu: Quá trình khai phá dữ liệu là quá trình phát hiện mẫu, trong đó, giải thuật khai phá dữ liệu tìm kiếm các mẫu đáng quan tâm theo dạng xác định như các luật, phân loại (Classification), hồi quy (Regression), phân nhóm (Clustering), tổng hợp (Summarization), mô hình ràng buộc (Dependency modeling), dò tìm biến đổi và độ lệch (Change and Deviation Dectection), biểu diễn mô hình (Model Representation), kiểm định mô hình (Model Evaluation), phương pháp tìm kiếm (Search Method),… 3.1/ Các thành phần của giải thuật khai phá dữ liệu: Giải thuật khai phá dữ liệu bao gồm 3 thành phần chính như sau: biểu diễn mô hình, đánh giá mô hình, tìm kiếm mô hình. 3.1.1/ Biểu diễn mô hình: Mô hình được biểu diễn bằng một ngôn ngữ L để mô tả các mẫu có thể khai thác được. Nếu sự mô tả quá bị hạn chế thì sẽ không thể học được hoặc sẽ không thể có các mẫu tạo ra được một mô hình chính xác cho dữ liệu. Ví dụ một mô tả cây quyết định sử dụng phân chia các nút theo trường đơn, chia không gian đầu vào thành các mặt siêu phẳng song song với các trục thuộc tính. Phương pháp cây quyết định như vậy không thể khai thác được từ dữ liệu dạng công thức x=y dù cho tập học có to đến đâu đi nữa. Vì vậy, việc quan trọng là người phân tích dữ liệu cần phải hiểu đầy đủ các giả thiết mô tả. Một điều cũng khá quan trọng là người thiết kế giải thuật cần phải diễn tả được các giả thiết mô tả nào được tạo ra bởi giải thuật nào. Khả năng mô tả mô hình càng lớn thì càng làm tăng mức độ nguy hiểm do bị học quá và làm giảm đi khả năng dự đoán các dữ liệu chưa biết. Hơn nữa, việc tìm kiếm sẽ càng trở nên phức tạp hơn và việc giải thích mô hình cũng khó khăn hơn. Mô hình ban đầu được xác định bằng cách kết hợp biến đầu ra (phụ thuộc) với các biến độc lập mà biến đầu ra phụ thuộc vào. Sau đó phải tìm những tham số mà bài toán cần tập trung giải quyết. Việc tìm kiếm mô hình sẽ đưa ra được một mô hình phù hợp với các tham số được xác định dựa trên dữ liệu (trong một số trường hợp, mô hình được xây dựng độc lập với dữ liệu trong khi đối với một số trường hợp khác thì mô hình và các tham số lại thay đổi để phù hợp với dữ liệu). Trong một số trường hợp, tập dữ liệu được chia thành tập dữ liệu học và tập dữ liệu thử. Tập dữ liệu học được sử dụng để làm cho các tham số của mô hình phù hợp với dữ liệu. Mô hình sau đó sẽ được đánh giá bằng cách đưa các dữ liệu thử vào mô hình và thay đổi lại các tham số cho phù hợp nếu cần. Mô hình lựa chọn có thể là phương pháp thống kê như SASS, v.v…, một số giải thuật học máy (ví dụ như suy HVTH: Lê Minh Trí (CH1101148) Trang 9 Mô phỏng thuật toán Apriori tìm tập phổ biến và luật kết hợp diễn cây quyết định và các kỹ thuật học có thầy khác), mạng neural, suy diễn hướng tình huống (case-based reasoning), các kỹ thuật phân lớp. 3.1.2/ Đánh giá mô hình: Đánh giá xem một mẫu có đáp ứng được các tiêu chuẩn của quá trình phát hiện tri thức hay không. Việc đánh giá độ chính xac dự đoán dựa trên đánh giá chéo (cross validation). Đánh giá chất lượng mô tả liên quan đến độ chính xác dự đoán, độ mới, khả năng sử dụng, khả năng hiểu được của mô hình. Cả hai chuẩn thống kê và chuẩn logic đều có thể được sử dụng để đánh giá mô hình. Ví dụ như luật xác suất lớn nhất có thể dùng để lựa chọn các tham số cho mô hình sao cho xử lý phù hợp nhất với tập dữ liệu học. Việc đánh giá mô hình được thực hiện qua kiểm tra dữ liệu (trong một số trường hợp kiểm tra với tất cả các dữ liệu, trong một số trường hợp khác chỉ kiểm tra với dữ liệu thử). Ví dụ như đối với mạng neural, việc đánh giá mô hình được thực hiện dựa trên việc kiểm tra dữ liệu (bao gồm cả dữ liệu học và dữ liệu thử), đối với nhiệm vụ dự đoán thì việc đánh giá mô hình ngoài kiểm tra dữ liệu còn dựa trên độ chính xác dự đoán. 3.1.3/ Phương pháp tìm kiếm: Phương pháp tìm kiếm bao gồm hai thành phần: tìm kiếm tham số và tìm kiếm mô hình. Trong tìm kiếm tham số, giải thuật cần tìm kiếm các tham số để tối ưu hóa các tiêu chuẩn đánh giá mô hình với các dữ liệu quan sát được và với một mô tả mô hình đã định. Việc tìm kiếm không cần thiết đối với một số bài toán khá đơn giản: các đánh giá tham số tối ưu có thể đạt được bằng các cách đơn giản hơn. Đối với các mô hình chung thì không có các cách này, khi đó giải thuật “tham lam” thường được sử dụng lặp đi lặp lại. Ví dụ như phương pháp giảm gradient trong giải thuật lan truyền ngược (backpropagation) cho các mạng neural. Tìm kiếm mô hình xảy ra giống như một vòng lặp qua phương pháp tìm kiếm tham số: mô tả mô hình bị thay đổi tạo nên một họ các mô hình. Với mỗi một mô tả mô hình, phương pháp tìm kiếm tham số được áp dụng để đánh giá chất lượng mô hình. Các phương pháp tìm kiếm mô hình thường sử dụng các kỹ thuật tìm kiếm heuristic vì kích thước của không gian các mô hình có thể thường ngăn cản các tìm kiếm tổng thể, hơn nữa các giải pháp đơn giản (closed form) không dễ đạt được. 3.2/ Một số phương pháp khai thác dữ liệu phổ biến: 3.2.1/ Phương pháp quy nạp: HVTH: Lê Minh Trí (CH1101148) Trang 10 [...]... {∅} Kết luận: Vậy các tập phổ biến có minsupp=0,3 là F1, F2, F3 2.3/ Tập phổ biến tối đại (maximal frequent sets): M là tập phổ biến tối đại nếu M là tập phổ biến và không tồn tại tập phổ biến S khác M mà M ⊂ S HVTH: Lê Minh Trí (CH1101148) Trang 23 Mô phỏng thuật toán Apriori tìm tập phổ biến và luật kết hợp Ví dụ: Với đề bài như trên, dựa vào các tập phổ biến tìm được hãy tìm tất cả các tập phổ biến. .. Lặp việc tìm tập phổ biến với kích thước từ 1 đến k (tập có kích thước k) HVTH: Lê Minh Trí (CH1101148) Trang 20 Mô phỏng thuật toán Apriori tìm tập phổ biến và luật kết hợp Bước 2: Dùng các tập phổ biến để tạo các luật kết hợp Rakesh Agrawal, 1993 2.2/ Các tập phổ biến với mẹo Apriori: Bước kết hợp: Ck được tạo bằng cách kết Lk-1 với chính nó Bước rút gọn: Những tập kích thước (k-1) không phổ biến không... liệu Mẫu phổ biến (Frequent pattern): là mẫu (tập mục, dãy mục…) mà xuất hiện phổ biến trong 1 CSDL 2.1/ Tạo luật kết hợp: Quá trình tạo luật kết hợp qua hai bước chính như sau: Bước 1: Tìm các tập phổ biến: các tập các phần tử có độ support tối thiểu • Mẹo Apriori: Tập con của tập phổ biến cũng là một tập phổ biến o Ví dụ: nếu {AB} là một tập phổ biến thì cả {A} và {B} đều là những tập phổ biến • Lặp... (CH1101148) Trang 28 Mô phỏng thuật toán Apriori tìm tập phổ biến và luật kết hợp Hình 5: Sơ đồ so sánh Apriori và AprioriTid 5.2/ Thuật toán AprioriHybrid: Dựa vào những ưu và nhược điểm của hai thuật toán Apriori và AprioriTid, người ta đã thiết kế một thuật toán lai gọi là AprioriHybrid Thuật toán AprioriHybrid dùng Apriori trong các lần duyệt đầu và chuyển sang AprioriTid khi nó cho rằng tập Ck tại cuối... chỉ rút trích các luật phù hợp với mục tiêu khai thác Sự lai tạp của thuật toán Apriori- DT được thể hiện qua hai sự kết hợp sau vào HVTH: Lê Minh Trí (CH1101148) Trang 30 Mô phỏng thuật toán Apriori tìm tập phổ biến và luật kết hợp thuật toán Apriori cổ điển: • Sử dụng các Khuôn mẫu luật [3] vào quá trình khai thác luật kết hợp nhằm chỉ rút trích những luật có khuôn dạng dữ liệu phù hợp với mục tiêu... dữ liệu, mô hình phân tích kết hợp hay tương quan, mô hình phân lớp, mô hình dự đoán, mô hình gom cụm, mô hình phân tích phần tử biên, mô HVTH: Lê Minh Trí (CH1101148) Trang 16 Mô phỏng thuật toán Apriori tìm tập phổ biến và luật kết hợp hình phân tích tiến hóa Bao gồm: đặc trưng hóa dữ liệu, phân biệt hóa dữ liệu, mô hình phân tích kết hợp hay tương quan, mô hình phân lớp, mô hình dự đoán, mô hình... có luật: {i1,i5} → {i2} và {i2,i5} → {i1} Thõa Thõa Kết luận: Ta có các luật sau: {i6} → {i5} {i1,i3} → {i2} {i2,i3} → {i1} {i1,i5} → {i2} {i2,i5} → {i1} HVTH: Lê Minh Trí (CH1101148) Trang 25 Mô phỏng thuật toán Apriori tìm tập phổ biến và luật kết hợp 3/ Tình trạng nghẽn cổ chai của thuật toán Apriori: Thuật toán kinh điển Apriori tìm tập mục phổ biến thực hiện tốt bởi rút gọn kích thước các tập. .. {i6} Kết luận: Dựa vào sơ đồ trên các tập phổ biến tối đại có minsupp=0,3 là {i5,i6}, {i1,i2,i3} và {i1,i2,i5} 2.4/ Tạo luật kết hợp từ tập phổ biến: Việc sinh luật kết hợp gồm hai bước: • Với mỗi tập phổ biến W tìm được hãy sinh ra mọi tập con thực sự X khác rỗng của nó • Với mỗi tập phố biến W và tập con X khác rỗng thực sự của nó: sinh luật X → (W – X) nếu P(W-X|X) ≥ c Ví dụ: Với các tập phổ biến. .. {c}; kết tập c vào Ck end; return Ck; end;  Thuật toán kiểm tra tập con k-1 mục của ứng cử viên k-mục không là tập phổ biến: function has_infrequent_subset(c: ứng cử viên k-mục; Lk-1 tập phổ biến k-1 mục) begin //sử dụng tập mục phổ biến trước for (mỗi tập con k-1 mục s của c) do if s ∈ Lk-1 then return true; end; HVTH: Lê Minh Trí (CH1101148) Trang 22 Mô phỏng thuật toán Apriori tìm tập phổ biến và luật. .. luật không cần thiết, chuyển đổi cấu trúc dữ liệu phục vụ tính toán độ hỗ trợ dựa trên truy vấn, lưu trữ danh sách các tập mẫu thường xuyên kết hợp với cấu trúc dữ liệu từ điển nhằm tối ưu hoá thao tác tìm kiếm HVTH: Lê Minh Trí (CH1101148) Trang 31 Mô phỏng thuật toán Apriori tìm tập phổ biến và luật kết hợp Chương IV> Cài đặt thuật toán tìm luật kết hợp: 1/ Giới thiệu chương trình: Chương trình Mô . Tập con của tập phổ biến cũng là một tập phổ biến. o Ví dụ: nếu {AB} là một tập phổ biến thì cả {A} và {B} đều là những tập phổ biến • Lặp việc tìm tập phổ biến với kích thước từ 1 đến k (tập. Trang 11 Mô phỏng thuật toán Apriori tìm tập phổ biến và luật kết hợp mô hình. Cây và luật chủ yếu được sử dụng cho việc mô hình hóa dự đoán, phân lớp (Apte & Hong; Fayyad, Djorgovski, &. Minh Trí (CH1101148) Trang 18 Mô phỏng thuật toán Apriori tìm tập phổ biến và luật kết hợp Hình 4: Tri thức đạt được từ quá trình khai phá. Chương III> Luật kết hợp: 1/ Một số khái niệm cơ bản:

MÔ PHỎNG THUẬT TOÁN APRIORI TÌM TẬP PHỔ BIẾN & LUẬT KẾT HỢP

Thông tin tài liệu

Từ khóa liên quan

Mục lục

DANH MỤC CÁC HÌNH

LỜI NÓI ĐẦU

Chương I> Giới thiệu:

Chương II> Khai phá dữ liệu:

1/ Khái niệm:

2/ Quá trình phát hiện tri thức:

3/ Các phương pháp khai phá dữ liệu:

4/ Các tác vụ khai phá dữ liệu:

Chương III> Luật kết hợp:

1/ Một số khái niệm cơ bản:

2/ Khai phá luật kết hợp:

2.1/ Tạo luật kết hợp:

2.2/ Các tập phổ biến với mẹo Apriori:

2.3/ Tập phổ biến tối đại (maximal frequent sets):

2.4/ Tạo luật kết hợp từ tập phổ biến:

3/ Tình trạng nghẽn cổ chai của thuật toán Apriori:

4/ Các cải tiến của thuật toán Apriori:

5/ Một số biến thể của thuật toán Apriori:

Chương IV> Cài đặt thuật toán tìm luật kết hợp:

1/ Giới thiệu chương trình:

2/ Một số đoạn mã chính để xây dựng chương trình:

3/ Hướng dẫn sử dụng chương trình:

Chương V> Kết luận & Hướng phát triển đề tài:

1/ Kết luận :

2/ Hướng phát triển đề tài:

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan