KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP SONG SONG

Thông tin tài liệu

MỤC LỤC LỜI MỞ ĐẦU51. Lý do chọn đề tài12. Đối tượng và phạm vi nghiên cứu13. Mục tiêu và nội dung của báo cáo2CHƯƠNG I: TỔNG QUAN KHO DỮ LIỆU VÀ KHAI PHÁ3DỮ LIỆU31.1. Sự cần thiết của khai phá dữ liệu31.1.1. Những nghiên cứu về thị trường của khái phá dữ liệu31.1.2. Những nhu cầu về khái phá dữ liệu trong kinh doanh31.1.3. Khai phá dữ liệu trong một số lĩnh vực quan trọng khác31.2 Tổng quan về khai phá dữ liệu41.2.1. Định nghĩa khai phá dữ liệu41.2.2. Kiến trúc của một hệ thống khai phá dữ liệu41.2.3. Quá trình khai phá dữ liệu51.2.4. Một số kỹ thuật khai phá dữ liệu61.2.5. Lợi ích của khai phá dữ liệu so với các phương pháp khác61.2.6. Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu7CHƯƠNG II: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ8DỮ LIỆU82.1. Lý thuyết về luật kết hợp82.1.1. Định nghĩa luật kết hợp82.1.2. Khái niệm82.1.3. Một số tính chất liên quan92.2. Khai phá luật kết hợp102.3. Cách tiếp cận khai phá luật kết hợp112.4. Luật kết hợp cơ sở122.4.1. Phát hiện các tập mục phổ biến122.4.2. Một số thuật toán phát hiện tập mục phổ biến khác152.4.3. Sinh luật kết hợp16CHƯƠNG III : MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ LUẬT17KẾT HỢP SONG SONG VÀ PHÂN TÍCH ĐÁNH GIÁ17CÁC THUẬT TOÁN173.1. Nguyên lý thiết kế thuật toán song song173.2. Hướng tiếp cận chính trong thiết kế thuật toán khai phá luật kết hợp song song173.2.1. Mô hình song song dữ liệu183.2.2. Mô hình song song thao tác183.3. Một số thuật toán khai phá luật kết hợp song song193.3.1. Thuật toán Count Distribution (CD)193.3.2. Thuật toán Data Distribution (DD)203.3.3. Thuật toán Candidate Distribution223.3.4. Thuật toán song song Eclat233.3.5 Thuật toán khai phá các mẫu phổ biến sử dụng Fp Growth283.4. Phân tích, đánh giá việc thực hiện thuật toán323.4.1. Phân tích thuật toán song song323.4.2. Đánh giá việc thực hiện các thuật toán33KẾT LUẬN VÀ KIẾN NGHỊ35TÀI LIỆU THAM KHẢO36

BỘ TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN ***************************** BÁO CÁO THỰC TẬP TỐT NGHIỆP ĐỀ TÀI: KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP SONG SONG Cán hướng dẫn : Th S Hoàng Minh Quang Sinh viên thực Lớp : Nguyễn Thị Thực : ĐH2C2 HÀ NỘI - 2016 LỜI CẢM ƠN Sau thời gian thực tập, nghiên cứu tại phòng Cơ sở dữ liệu, viện Công nghệ thông tin- Viện Hàn lâm và khoa học Việt Nam, được sự giúp đỡ nhiệt tình của các thầy cô giáo và các cán bộ, nhân viên của phòng em đã hoàn thành được bài báo cáo thực tập tốt nghiệp Em chân thành cảm ơn các thầy cô khoa Công nghệ thông tin, trường Đại học Tài nguyên và môi trường Hà Nội đã tận tình giảng dạy truyền đạt kiến thức suốt quá trình học tập Với vốn kiến thức được tiếp thu quá trình học tập không chỉ là nền tảng cho quá trình nghiên cứu thực tập mà còn là hành trang để e bước vào đời sau trường Đặc biệt cho em gửi lời cảm ơn sâu sắc đến thầy ThS Hoàng Minh Quang, đã tận tình hướng dẫn suốt quá trình thực tập để em có thể hoàn thành được bài báo cáo này Em chân thành cảm ơn trưởng phòng TS Nguyễn Việt Anh và các nhân viên của Phòng Cơ sở dữ liệu, viện CNTT- viện Hàn lâm và khoa học Việt Nam đã tạo điều kiện thuận lợi nhất suốt quá trình thực tập Do thời gian thực tập có hạn, cũng kinh nghiệm bản thân còn hạn chế của một sinh viên thực tập nên bài báo cáo còn có nhiều thiếu sót Vì vậy, em rất mong nhận được sự chỉ bảo, đóng góp của các thầy cô để em có thể bổ sung, nâng cao kiến thức của mình MỤC LỤC MỤC LỤC DANH MỤC HÌNH LỜI MỞ ĐẦU CHƯƠNG I: TỔNG QUAN KHO DỮ LIỆU VÀ KHAI PHÁ .3 DỮ LIỆU CHƯƠNG II: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ .8 DỮ LIỆU CHƯƠNG III : MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ LUẬT 17 KẾT HỢP SONG SONG VÀ PHÂN TÍCH ĐÁNH GIÁ 17 CÁC THUẬT TOÁN 17 DANH MỤC HÌNH MỤC LỤC DANH MỤC HÌNH LỜI MỞ ĐẦU CHƯƠNG I: TỔNG QUAN KHO DỮ LIỆU VÀ KHAI PHÁ .3 DỮ LIỆU CHƯƠNG II: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ .8 DỮ LIỆU CHƯƠNG III : MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ LUẬT 17 KẾT HỢP SONG SONG VÀ PHÂN TÍCH ĐÁNH GIÁ 17 CÁC THUẬT TOÁN 17 LỜI MỞ ĐẦU Lý chọn đề tài Với bùng nổ phát triển công nghệ thông tin mang lại nhiều hiệu khoa học hoạt động thực tế, khai phá liệu lĩnh vực mang lại hiệu thiết thực cho người Khai phá liệu giúp người sử dụng thu tri thức hữu ích từ sở liệu kho liệu khổng lồ khác Cơ sở liệu đơn vị, tổ chức kinh doanh, quản lý khoa học chứa đựng nhiều thông tin tiềm ẩn, phong phú đa dạng, đòi hỏi phải có phương pháp nhanh, phù hợp, xác, hiệu để lấy thông tin bổ ích Để lấy thông tin mang tính tri thức khối liệu khổng lồ, cần thiết phải phát triển kỹ thuật có khả tích hợp liệu từ hệ thống giao dịch khác nhau, chuyển chúng thành tập hợp sở liệu ổn định có chất lượng Các kỹ thuật gọi kỹ thuật tạo kho liệu môi trường liệu nhận áp dụng kỹ thuật tạo kho liệu nói gọi kho liệu Một nội dung khai phá liệu phổ biến phát luật kết hợp Phương pháp nhằm tìm tập thuộc tính thường xuất đồng thời sở liệu rút luật ảnh hưởng tập thuộc tính dẫn đến xuất (hoặc tập) thuộc tính khác Bên cạnh đó, nhu cầu song song hóa xử lý phân tán cần thiết kích thước lưu trữ liệu ngày nhiều nên đòi hỏi tốc độ xử lý dung lượng nhớ hệ thống phải đảm bảo Vì thế, yêu cầu cần có thuật toán song song hiệu cho việc phát luật kết hợp Do vậy, em đã chọn đề tài tìm hiểu về “Khai phá dữ liệu và thuật toán khai phá luật kết hợp song song” Ứng dụng khai phá liệu mang lại lợi ích to lớn việc tổng hợp cung cấp thông tin nguồn sở liệu lớn Hơn nhu cầu song song hóa xử lý phân tán cần thiết kíchthước liệu lưu trữ ngày lớn nên đòi hỏi tốc độ xử lý dung lượng nhớ hệ thống phải đảm bảo Vì thế, yêu cầu cần có thuật toán song song hiệu cho luật kết hợp, từ trình bày vấn đề khai phá liệu xây dựng số thuật toán khai phá luật kết hợp song song Đối tượng và phạm vi nghiên cứu - Các kiến thức bản về khai phá dữ liệu và khai phá luật kết hợp - Các phương pháp khai phá luật kết hợp song song Mục tiêu và nội dung của báo cáo Mục tiêu: nghiên cứu tìm hiểu lý thuyết tổng quan khai phá liệu tìm hiểu thuật toán khai phá luật kết hợp Nội dung báo cáo trình bày chương phần kết luận Chương 1: Tổng quan khai phá liệu Chương 2: Khai phá luật kết hợp song song Chương 3: Một số phương pháp khai phá luật kết hợp song song phân tích đánh giá thuật toán song song CHƯƠNG I: TỔNG QUAN KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU 1.1 Sự cần thiết khai phá liệu 1.1.1 Những nghiên cứu thị trường khái phá liệu Theo Giga Research-một tổ chức nghiên cứu tiếng Mỹ ước tính thị truowgf khai phsa dữu liệu bao gồm phần mềm dịch vụ vượt qua số tỷ $ Mỹ( báo cáo năm 2005) Một số nghiên cứu khác không đồng ý, cho số mức 700-800t triệu Tuy nhiên điểm mà nhà phân tích đồng tình mức tăng trưởng thị trường khai phá liệu ngày tăng nhanh lĩnh vực kinh doanh 1.1.2 Những nhu cầu khái phá liệu kinh doanh Ngày kinh tế thị trường cạnh tranh ngày phát triển, đôi với nhu cầu tất yếu như: - Phân loại khách hàng để từ phân định thị trường, thị phần - Tăng sức mạnh cạnh tranh, làm để giữ khách hàng cũ thu hút khách hàng - Phân tích rủi ro trước định quan trọng chiến lược bất động sản kinh doanh - Ra báo cáo giàu thông tin Tất nhu cầu xã hội đòi hỏi cần phải có phương thức, công cụ hỗ trợ bên cạnh chuyên gia kinh tế Và khai phá liệu chìa khóa hỗ trợ giải vấn đề nêu 1.1.3 Khai phá liệu số lĩnh vực quan trọng khác - Khoa học: • Thiên văn học: dựu đoán đường quỹ đạo thiên thể, hành tinh • Chiêm tinh học: tiên đoán, giải đáp giấc mơ • Công nghệ sinh học; tìm giống mới, giải mã gen - Web: • Các máy tìm kiếm - Trong thể thao: • Phát sử dụng chất kích thích - Và đề lĩnh vực khác: • Chống giả mạo • Phát nói dối 1.2Tổng quan khai phá liệu 1.2.1 Định nghĩa khai phá liệu Khai phá liệu dùng để mô tả trình phát tri thức sở liệu Quá trình kết xuất tri thức tiềm ẩn từ liệu giúp cho việc dự báo kinh doanh, hoạt động sản xuất… Khai phá liệu làm giảm chi phí thời gian so với phương pháp truyền thống trước Định nghĩa Ferruzza: “Khai phá liệu tập hợp phương pháp dùng tiến trình khám phá tri thức để khác biệt mối quan hệ mẫu chưa biết bên liệu” Định nghĩa Parsaye: “Khai phá liệu trình trợ giúp định, tìm kiếm mẫu thông tin chưa biết bất ngờ sở liệu lớn” Định nghĩa Fayyad: “Khai phá tri thức trình không tầm thường nhận mẫu liệu có giá trị, mới, hữu ích, tiềm hiểu được” 1.2.2 Kiến trúc hệ thống khai phá liệu Khai phá liệu trình rút trích thông tin bổ ích từ kho liệu lớn Khai phá liệu trình khai phá tri thức từ sở liệu Hình 1.1: Kiến trúc của hệ thống khai phá dữ liệu Kiến trúc hệ thống khai phá liệu gồm thành phần sau: • CSDL, kho liệu nguồn lưu trữ thông tin khác: Đây hay tập CSDL, kho liệu, trang tính hay dạng khác thông tin lưu trữ Các kỹ thuật làm liệu tích hợp liệu thực • Máy chủ CSDL (Database or Warehouse Sever): Máy chủ có trách nhiệm lấy liệu thích hợp dựa yêu cầu khám phá người dùng • Cơ sở tri thức (Knowledge-base): miền tri thức dùng để tìm kiếm hay đánh giá độ quan trọng mẫu kết thu Tri thức bao gồm sư phân cấp khái niệm dùng đề tổ chức thuộc tính hay giá trị thuộc tính mức trừu tượng khác • Máy khai phá liệu (Data mining engine): hệ thống khai phá liệu cần phải có tập modul chức để thực công việc kết hợp, phân lớp, phân cụm • Modul đánh giá mẫu (Pattern evaluation): phận tương tác với modul khai phá liệu để tập trung vào việc duyệt tìm mẫu đáng quan tâm Nó dùng ngưỡng độ quan tâm để lọc mẫu khám phá được, modul đánh giá mẫu tích hợp vào modul khai phá liệu tùy theo cách cài đặt phương pháp khai phá liệu dùng • Giao diện đồ họa người dùng (Graphical user interface): phận cho phép người dùng giao tiếp với hệ thống khai phá liệu Thông qua giao diện người dùng tương tác với hệ thống cách đặc tả yêu cầu khai phá hay nhiệm vụ, cung cấp thông tin trợ giúp cho việc tìm kiếm thực khai phá thăm dò kết khai phá trung gian Ngoài phận cho phép người dùng xem lược đồ CSDL, lược đồ kho liệu, đánh giá mẫu hiển thị mẫu khuôn dạng khác 1.2.3 Quá trình khai phá liệu Quy trình khai phá liệu chuỗi lập tương tác gồm bước bắt đầu với liệu thô kết thúc với tri thức Quá trình khai phá liệu thể mô hình sau: Hình 1.2: Quá trình khai phá dữ liệu Quá trình xử lý khai phá liệu bắt đầu việc xác định xác vấn đề cần giải Sau xác định liệu liên quan dùng để xây dựng giải pháp Tiếp theo thu thập liệu có liên quan xử lý chúng thành dạng cho thuật toán khai phá liệu hiểu Quá trình khai phá liệu trải qua bước: • Bước 1: Lọc liệu thực trình tiền xử lý Công việc tích hợp chỉnh sửa liệu Khi liệu thu thập từ nhiều nguồn khác nên có sai sót, dư thừa trùng lặp Lọc liệu cắt bỏ dư thừa để liệu định dạng thống Dữ liệu sau lọc chỉnh sửa nhỏ hơn, xử lý nhanh chóng • Bước 2: Khai phá liệu công việc chính, sử dụng thuật toán khác để khai phá kiến thức tiềm ẩn liệu • Bước 3: Sau xử lý trình ước lượng kết khai phá theo yêu cầu người dùng Nhiều kỹ thuật khai phá liệu ứng dụng cho nguồn liệu, kỹ thuật cho kết khác Các kết ước lượng quy tắc đó, cuối kết không thỏa mãn yêu cầu, phải làm lại kỹ thuật khác có kết mong muốn 1.2.4 Một số kỹ thuật khai phá liệu Trong thực tế có nhiều kỹ thuật khai phá liệu khác chia làm nhóm chính: - Kỹ thuật khai phá liệu mô tả: mô tả tính chất đặc tính chung liệu CSDL có Kỹ thuật gồm có: phân cụm (clustering), khai phá luật kết hợp (association rules)… - Kỹ thuật khai phá liệu dự đoán: đưa dự đoán vào suy diễn dự liệu thời Kỹ thuật gồm có: phân lớp (classification), hồi quy (regession) … 1.2.5 Lợi ích khai phá liệu so với phương pháp khác - So với phương pháp học máy: khai phá liệu có lợi chỗ sử dụng CSDL chứa nhiễu, liệu không đầy đủ biến đổi liên tục - Phương pháp hệ chuyên gia: ví dụ chuyên gia thường mức chất lượng cao nhiều so với CSDL chúng bao hàm trường hợp quan trọng, đòi hỏi phải có tham gia chuyên gia việc phát tri thức - Phương pháp thống kê: phương pháp thống kê có số điểm yếu mà khai phá liệu khắc phục được: không phù hợp với kiểu liệu có cấu trúc nhiều CSDL, không sử dụng tri thức sẵn có lĩnh vực, cần có hướng dẫn người dùng để xác định phân tích liệu đâu 1.2.6 Các sở liệu phục vụ cho khai phá liệu - Cơ sở liệu quan hệ: CSDL quan hệ nguồn tài nguyên lớn chứa đối tượng mà cần khai phá, CSDL quan hệ có cấu trúc cao, liệu mô tả tập thuộc tính lưu bảng Khai phá liệu CSDL quan hệ chủ yếu tập trung khai phá mẫu Thuật toán DD gồm bước bản sau : • Bước : Mỗi bộ xử lý quét phân hoạch CSDL cục bộ để tính các số đếm hỗ trợ cục bộ của các tập mục ứng cử được phân bổ cho nó • Bước : Mỗi bộ xử lý truyền phân hoạch CSDL của nó đến các bộ xử lý khác và nhận các phân hoạch CSDL từ các bộ xử lý khác truyền đến Sau dó quét các phân hoạch CSDL nhận được để tính các số đếm hỗ trợ tổng thể của các tập mục ứng cử CSDL D • Bước : Mỗi bộ xử lý các định các tập mục phổ biến từ phân hoạch tập mục ứng cử của nó, trao đổi với các bộ xử lý khác để nhận được tất cả các tập mục phổ biến Lk và sau đó sinh tập mục ứng cử Ck+1 từ Lk, từ phân hoạch Ck+1 và phân bố các phân hoạch ứng cử đó cho tất cả các bộ xử lý Thuật toán DD lặp lại bước 1→3 cho đến không còn tập mục ứng cử nào được sinh Hình 3.4 : Sơ đồ luồng thuật toán Data Distribution 3.3.3 Thuật toán Candidate Distribution Thuật toán Candidate Distribution thực phân hoạch liệu lẫn tập mục ứng cử Theo cách này, xử lý xử lý độc lập Trong l giai đoạn ( l giá trị heuristic), thuật toán chia tập mục phổ biến L l-1 cho các bộ xử lý cho mỗi bộ xử lý Pi có thể sinh một Cim (m≥ l) nhất độc lập với các bộ xử lý khác cho Ci m Cjm= , i j Trong cùng một thời điểm, dữ liệu được phân chia lại cho một bộ xử lý có thể sinh các tập mục ứng cử C im một cách độc lập với tất cả các bộ xử lý khác Tùy vào tính tối ưu của việc phân chia tập mục, một số phần sở dữ liệu có thể có các bản một bộ xử lý 22 Nội dung thuật toán Giai đoạn k< l : sử dụng thuật toán CD hay DD Giai đoạn k=1 : Phân hoạch Lk+1 cho các bộ xử lý cho các tập Lk+1 cân bằng Bộ xử lý Pi sinh Cjk từ phân hoạch Lk-1 đã gán cho nó Lưu ý, Pi có thể truy xuất đến Lk-1 đầy đủ và đó có thể sử dụng phương pháp cắt tỉa chuẩn sinh C jk giai đoạn này Pi tính các số đếm hỗ trợ tổng thể cho các tập mục ứng cử Cjk và CSDL được phân hoạch lại thành các Di tại thời điểm này Sau Pi đã xử lý tất cả các dữ liệu cục bộ của nó và mọi dữ liệu nhận được từ các bộ xử lý khác Các L jk này cần cho việc cắt tỉa C jk+1 bước cắt tỉa sinh tập ứng cử Bộ xử lý Pi sịnh Ljk từ Cjk và truyền dị bộ đến N-1 bộ xử lý khác bằng cách sử dụng N-1 phép chuyển dị bộ Giai đoạn k> l : Bộ xử lý Pi tập hợp tất tập mục phổ biến mà xử lý khác chuyển đến Chúng sử dụng bước cắt tỉa sinh tập mục ứng cử không sử dụng bước kết nối Các tập mục nhận từ xử lý P j có độ dài k-1 nhỏ k-1 (nếu xử lý P j chậm hơn) lớn k-1 (nếu xử lý Pj nhanh hơn) Bộ xử lý P i lưu giữ phần tập mục phổ biến chuyển đến cho xử lý Pj Các đệm dùng để nhận tập mục phổ biến phản hồi lại sau xử lý Pi sinh Cjk bằng cách sử dụng Ljk-1 cục bộ Ta biết rằng Pi có thể không nhận được Ljk-1 từ tất cả các bộ xử lý khác, nên P i phải thận trọng lúc cắt tỉa Nó cần phải nhận biết được một tập mục (một tập k-1-itemset của một tập mục ứng cử) không có mặt bất kỳ L jk-1 nào với một tập mục có mặt L jk-1 tập này chưa nhận được bởi bộ xử lý P i Pi nhận biết bằng cách khảo sát L jk-1 sử dụng phần tiền tố với độ dài l-1 của các tập mục cần xem xét, bằng cách tìm kiếm bộ xử lý nào trả lời và kiểm tra nếu Ljk-1 nhận được từ bộ xử lý này Pi thiết lập một giai đoạn D i và đếm Sau đó Pi sinh Lik từ Cik và truyền dị bộ Lik đến các bộ xử lý khác bằng N-1 phép chuyển dị bộ 3.3.4 Thuật toán song song Eclat a) Nhóm tập mục và giao dịch Phương pháp để nhóm các tập mục phổ biến có liên quan với bằng cách sử dụng lược đồ phân chia lớp tương đương Mỗi lớp tương đương chứa các tập mục 23 ứng cử quan hệ tương đương với Bên cạnh, ta sử dụng kỹ thuật tổ chức CSDL theo chiều dọc để nhóm các giao dịch có liên quan với  Phân lớp tương đương Gọi Lk là tập các itemset phổ biến Không mất tính tổng quát, giả sử L k được sắp xếp thep thứ tự từ điển Ta có thể phân hoạch các tập mục L k thành các lớp tương đương sau: nếu các phần tử L k có k-1 thành viên đầu tiên giống thì chúng cùng thuộc một lớp, kí hiệu lớp tương đương chứa a là Sa = [a] Trong phạm vi một lớp, ta sinh k- itemset ứng cử bằng cách kết nối tất cả = |Si|(|Si|- 1)/2 cặp tiền tố là định danh của lớp Trong đó |S i| là số phần tử của lóp có định danh là i Các k-itemset ứng cử được sinh từ các lớp khác sẽ độc lập với  Tổ chức sở dữ liệu Thuật toán Eclat sử dụng cách tổ chức dữ liệu theo chiều dọc Với các tổ chứ dữ liệu theo chiều dọc, một CSDL gồm danh sách các mục, mỗi mục xác định một danh sách các định danh của giao dịch có chứa mục đó Kí hiệu tid-List Ưu điểm của cách tổ chức theo chiều dọc: - Nếu tid- List đã được sắp xếp theo thứ tự tăng dần thì đỗ hộ trợ của k- itemset ửng cử có thể đã được tính toán bởi phép lấy giao các tid-List của hai (k-1)- subset bất kỳ Với cách tổ chức này, thuật toán không cần trì cấu trúc dữ liệu phức tạp - Các tid-List chứa tất cả các thông tin liên quan về một tập mục, vì vậy tính độ hỗ trợ cho một tập mục không cần quét toàn bộ CSDL Vì tất cả các thông tin về một lớp tương đương là được nhóm cùng nên có thể sinh các tập mục phổ biến trước chuyển sang lớp tiếp theo b) Thuật toán song song Eclat Nội dung thuật toán Begin /Pha khởi tạo/ Duyệt qua các phân hoạch CSDL cục bộ Tính toán số đếm hỗ trợ cục bộ cho tất cả các 2-itemset Xây dựng số đếm hỗ trợ tổng thể cho các tập mục chứa L2 /Pha biến đổi/ Phân hoạch L2 thành các lớp tương đương Lập lịch L2 các bộ xử lý Tổ chức phân hoạch dữ liệu cục bộ theo chiều dọc Truyền các tid-List có liên quan đến các bộ xử lý khác L2 cục bộ = nhận các tid-List từ các bộ xử lý khác /Pha đồng thời/ Forparallel mỗi lớp tương đương E2 L2 cục bộ 24 Compute_Frequent (E2) /Pha rút gọn/ 10 Tập hợp các kết quả đưa các kết hợp End  Giải thích thuật toán Phần khởi tạo Pha khởi tạo bao gồm việc tính toán tất cả các 2-itemset phổ biến CSDL cần khai phá Ta không cần tính số đếm hỗ trợ của các 1-itemset vì việc xác định số đếm hỗ trợ của 2-itemset có thể đạt được chỉ một lần duyệt CSDL Để tính toán cho các 2-itemset, mỗi bộ xử lý sử dụng một mảng cục bộ và tiến hành chỉ số hóa các mục CSDL theo cả chiều Mặt khác mỗi bộ xử lý tính số đếm hỗ trợ cục bộ cho các 2-itemset và thực hiện phép lấy tổng rút gọn của tất cả các bộ xử lý để xây dựng các số đếm hỗ trợ tổng thể Kết thúc pha khởi tạo, tất cả các bộ xử lý đều có những số đếm hỗ trợ tổng thể của tất cả các 2-itemset phổ biến L CSDL Pha biến đổi gồm bước Bước 1: Đầu tiên L2 được phân hoạch thành các lớp tương đương Sau đó các lớp tương đương này được gán cho các bộ xử lý cho cân bằng Bước 2: CSDL đã được biến đổi từ định dạng theo chiều ngang thành chiều dọc và được phân phối lại Do đó, bộ nhớ cục bộ của mỗi bộ xử lý, các tid-List của tất cả các 2-itemset một lớp tương đương bất kỳ đước nó gán cho nó Lập lịch phân lớp tương đương: Đầu tiên, ta phân hoạch L thành các lớp tương đương bằng cách sử dụng tiền tố chung mô tả ở Tiếp theo, phân chia cho mỗi bộ xử lý một lớp tương đương Mỗi lớp tương đương được gán một trọng số dựa vào các số phần tử lớp Vì phải khảo sát tất cả các cặp bước lặp tiếp theo, nên ta gán trọng số cho một lớp với m là số các phần tử của lớp tương đương tương ứng Biến đổi CSDL theo chiều dọc: Sauk hi phân hoạch các lớp tương đương cân bằng giữa các bộ xử lý, ta biến đổi CSDL cục bộ từ định dạng theo chiều ngang thành chiều dọc Điều này có thể thực hiện bước: • Bước 1: Mỗi bộ xử lý duyệt CSDL cục bộ của nó và xây dựng các tid-List cục bộ cho tất cả các itemset 25 • Bước 2: Mỗi bộ xử lý cần xây dựng các tid-List toàn cục cho các tập mục các lớp tương đương của nó Do đo, nó phải gửi các tid-List này cho các bộ xử lý khác và nhận các tid-List từ các bộ xử lý khác gửi đến Pha đồng thời CSDL đã được phân bố lại, vì vậy các tid-List của tất cả các 2-itemset các lớp tương đương cục bộ của nó là đã thường trú đĩa cục bộ Mỗi bộ xử lý có thể tính toán tất cả các tập mục phổ biến một cách độc lập Nó đọc trực tiếp từ nhớ cục tid-List 2-itemset, sau sinh tất tập mục phổ biến trước chuyển sang bước tiếp theo, bước bao gồm việc quét phân hoạch CSDL cục biến đổi lần Trong phạm vi lớp tương đương, cần khảo sát tất cặp 2-itemset thực lấy giao tid-List tương ứng Nếu số phần tử tidList kết lớn độ hỗ trợ tối thiểu tập mục bổ sung vào L3 Sau đó, tiếp tục phân hoạch L thành lớp tương đương dựa tiền tố chung độ dài Quá trình lặp lại thủ tục thực sau: Begin Compute_Frequent(Ek-1) for tất itemset I1 I2 Ek-1 if((I1.tidList ∩ I2 tidList) ≥ minsup) Bổ sung (I1 ∪ I2) vào Lk; Phân hoạch Lk thành lớp tương đương; forparallel lớp tương đương Ek Lk Compute_Frequent(Ek); End Compute_Frequent Pha rút gọn Tại thời điểm cuối pha đồng thời, trích rút kết từ xử lý đưa kết Quá trình thực bước truyền thông khác thuật toán  Giai đoạn khởi tạo: Khi thu số đếm hỗ trợ tất 2-itemset, ta cần thực phép lấy tổng rút gọn để tính số đếm tổng thể Ta định mảng kích thước (m số mục) vùng kênh nhớ dùng chung, sau xử lý truy cập mảng chung (theo phương thức loại từ lẫn nhau) để tăng số đếm hỗ trợ hành lên số đếm hỗ trợ cục đợi rào chắn xử lý cuối thực xong việc truy cập mảng dùng chung để tăng số đếm hỗ trợ Các số đếm hỗ trợ cục sử dụng để xây dựng tid-List đảo toàn cục 26  Giai đoạn biến đổi Mỗi xử lý quét phân hoạch CSDL cục lần thứ hai xây dựng tid-List theo chiều dọc tất 2-itemset phổ biến L2 Vì CSDL gốc ban đầu phân hoạch theo dạng khối nên CSDL đảo xử lý gồm vùng định danh không liên tiếp Ta sử dụng thông tin với thông tin số đếm hỗ trợ cục để đặt tid-List xử lý khác gửi đến vào khoảng trống thích hợp, tid-List toàn cục thu xuất theo thứ tự từ điển Với lưu giữ này, tiết kiệm chi phí xếp cho tid-List giao dịch phân tán cách ngẫu nhiên Quá trình biến đổi hoàn thành qua bước sau: Bước 1: Biến đổi tid-List cục Trước tiên, ta chia L2 thành hai nhóm Các tập mục thuộc lớp tương đương mà gán cho xử lý cục bộ, kí hiệu G, tập mục lại thuộc lớp tương đương khác, kí hiệu R Với xử lý Pi, nhớ dành vùng nhớ có kích thước Với g ∈ G, r ∈ R: tập mục partial_count(r, Pi): Số đếm hỗ trợ tập mục r xử lý Pi Sau đó, xử lý thực việc biến đổi ghi tid-List phần tử G vào khoảng trống thích hợp Các phần tử R để trống Bước 2: Truyền tid-List Một việc biến đổi CSDL cục hoàn thành, ta cần phải nhận tid-List tất 2-itemset G từ xử lý khác truyền đến truyền tid-List R đến xử lý khác Các tid-List đến chép vào khoảng trống thích hợp Vì phần giao dịch phân biệt tăng đều, tid-List tập mục G viết đĩa, R bị loại bỏ Để truyền tid-List cục qua kênh nhớ, sử dụng lợi việc truyền thông điệp nhanh mức người sử dụng Mỗi xử lý xác định kích thước đệm (2MB) cho vùng truyền, vùng nhận dùng chung định danh Việc truyền thông tiến hành theo cách khóa luân phiên pha ghi đọc Trong pha ghi, xử lý ghi tid-List tập mục P vào vùng truyền đạt đến giới hạn không gian đệm Tại thời điểm này, vào pha đọc, quét vùng nhận xử lý đặt tid-List G vào khoảng trống thích hợp Khi vùng đọc quét xong, vào pha ghi Quá trình lặp lại nhận tất tid-List phận Tại thời điểm cuối pha này, CSDL định dạng theo chiều dọc Sau đó, xử lý vào pha đồng thời tính toán tập mục phổ biến mô tả Việc phép rút gọn cuối thực tương tự phép rút gọn pha khởi tạo 27 3.3.5 Thuật toán khai phá mẫu phổ biến sử dụng Fp- Growth Dựa vào thuật toán Fp-Tree tuần tự Thuật toán này ta xây dựng một số Fp- tree cục bộ môi trường bộ nhớ phân tán và sử dụng mô hình “chủ- tớ” Dựa chiến lược lập lịch làm việc động giai đoạn hợp nhất các mẫu điều kiện sở và giai đoạn khai phá để cân bằng khối lượng công việc quá trình thực thi  Khai phá tập mục song song Thuật toán khai phá mẫu phổ biến song song gồm nhiệm vụ chính sau: Xây dựng song song FP- Tree Giai đoạn đầu của thuật toán khai phá song song là xây dựng các Fp- tree đồng thời mỗi bộ xử lý tương tự thuật toán CD, ta chia CSDL giao dịch D cho P bộ xử lý Đảm bảo rằng mỗi bộ xử lý có N/P giao dịch (D N/P), N và P lần lượt là tổng số giao dịch CSDL và số các bộ xử lý Việc phân hoạch CSDL D cho P bộ xử lý được thực hiện một cách ngẫu nhiên auk hi phân hoạch dữ liệu, công việc tiếp theo là xác định 1-itemset phổ biến (F1-itemset) trước xây dựng một Fp-tree cục bộ Mỗi bộ xử lý tính toán đếm hỗ trợ (f local(i)) của mỗi mục i bằng cách quét phân hoạch CSDL cục bộ DN/P, tất cả các bộ xử lý đếm flocal(i) cục bộ đến xử lý chủ Bộ xử lý chủ tập hợp tất cả các mục và kết hợp chúng lại để sinh số đếm hỗ trợ tổng thể (f glocal(i)) Sau đó, các mục có hỗ trợ nhỏ ngưỡng hỗ trợ minsup được lược bỏ Tập các 1-itemset phổ biến thu được sẽ được truyền cho tất cả các bộ xử lý nhóm Bước tiếp theo là xây dựng các Fp- tree cục bộ Mỗi bộ xử lý quét CSDL cục bộ DN/P của nó và chèn các mục phổ biến vào Fp- tree Việc xây dựng Fp- tree bởi mỗi bộ xử lý với CSDL cục bộ của nó giống thuật toán tuần tự Phương pháp khai phá bao gồm một số giai đoạn sau: Trong giai đoạn đầu, ta xét toàn bộ FP- tree và tạo các mẫu điều kiện sở Trong giai đoạn tiếp theo, ta tập hợp các mẫu điều kiện sở từ các bộ xử lý để xây dựng FP- tree điều kiện sở (CFPT) cho mỗi mục phổ biến Giai đoạn cuối cùng là thực hiện việc khai phá bằng cách xây dựng đệ quy các mẫu điều kiện sở và các CFPTs cho đến nó sinh tất cả các tập mục phổ biến Xây dựng các mẫu điều kiện sở: Mỗi bộ xử lý thăm bảng tiêu đề (1-itemset phổ biến cục bộ) của nó theo hướng từ xuống và tạo các mẫu điều kiện sở cho mỗi mục phổ biến Việc thiết lập các mẫu điều kiện sở bằng cách xét toàn bộ các nút Fp- tree cục bộ từ xuống thuật toán tuần tự Xây dựng FP- tree điều kiện sở: Khi tất cả các mẫu điều kiện sở đã tìm được, các FP – tree điều kiện được xây dựng bằng cách hợp nhất các mẫu điều kiện sở Với mỗi mục phổ biến, các mẫu điều kiện sở được hợp nhất cho các số đếm hỗ trợ của các mục giống được tăng lên để tính số đếm hỗ trợ tổng thể Nếu số 28 đếm hỗ trợ tổng thể của một mục mà nhỏ ngưỡng tối thiểu, mục đó sẽ được lược bỏ khỏi FP- tree điều kiện Để xây dựng các FP –tree điều kiện ta sử dụng mô hình “chủ- tớ” Bộ xử lý chủ chuyển các mục cần được khai phá cho các bộ xử lý tớ Các bộ xử tớ sinh các FP- tree điều kiện cho các mục đó, bộ xử lý tớ hoành thành việc sinh Fp- tree điều kiện, nó chuyền một mã thông báo đến bộ xử lý chủ yêu cầu mục kế tiếp Nhiệm vụ của bộ xử lý chủ là lắng nghe các yêu cầu đến từ bất kỳ bộ xử lý tớ Nó trả lời bằng cách chuyển mục kế tiếp đến bộ xử lý tớ đó Khi mà bộ xử lý tớ nhận mục kế tiếp từ bộ xử lý chủ chuyển đến, nó sẽ bắt đầu sính CFPT cho mục này Chi phí truyền thông thuật toán này tương đối thấp vì mỗi bộ xử lý chỉ chuyển mã thông báo Hơn nữa, khối lượng công việc là cân bằng giữa các bộ xử lý nhóm mỗi một bộ xử lý tớ nào đó hoàn thành nhiệm vụ nó nhận một nhiệm vụ khác lập tức Sinh các tập mục phổ biến: Sinh các tập mục phổ biến bằng cách xây dựng lần lượt các mẫu điều kiện sở và các điều kiện FP- tree bởi mỗi bộ xử lý Khi một nhánh của FP- tree điều kiện được xây dựng, ta thu được các tập hợp các mục khả thuật toán FP-Growth tuần tự Mô hình song song được áo dụng là mô hình “chủ- tớ” Bộ xử lý chủ chuyển các mục sở cần được khai phá cho các mục này và sinh các tập mục phổ biến Trong mô hình này, một bộ xử lý tớ hoàn thành nhiệm vụ, nó nhận nhiệm vụ khác lập tức, điều này làm cho các bộ xử lý bận cho đến kết thúc quá trình khai phá Ở đây, việc cân đối khối lượng công việc xảy thời gian thực thi (runtime) Mô hình “chủ- tớ” được trì cho đến tất cả các tập mục phổ biến được sinh ứng với mỗi mục phổ biến F 1-itemset Sau đó tất cả các bộ xử lý tớ này chuyển các tập mục phổ biến mà nó sinh đến bộ xử lý chủ, giai đoạn khai phá kết thúc Ví dụ: Bảng tất item: TID Các mặt hàng mua 100 f, a, c, d, g, i, m,p 200 a, b, c, f, l, m, o 300 b, f, h, j, o 400 b, c, k, s, p 500 a, f, c, e, l, p, m, n Chọn độ phổ biến cực tiểu ξ (min_support) = (60%)  Ta có danh sách mặt hàng phổ biến L là:  Các mặt hàng thứ tự giảm dần theo độ phổ biến 29 Item a b c d e f g i j l K m n o p s Supp 3 1 1 3 Từ tập liệu ban đầu, có FP sau:  Từ tập liệu ban đầu, ta xây dựng header table FP sau: 30 Khai khoáng mẫu phổ biến cách sử dụng FP Call FP-Growth(Tree, null) Đối với nút “p” • β=“p” U null = “p”, xuất kết p:3 • Cơ sở điều kiện là: (f:2, c:2, a:2, m:2) (c:1, b:1) • Cây FP với điều kiện {(c:3)}p Xuất kết là: cp:3 Vậy nút p có mẫu phổ biến là: p:3, cp:3 Đối với nút “m” β=“m” U null = “m”, Xuất kết m:3 Cơ sở điều kiện nút “m”: (f:2, c:2, a:2) (f:1, c:1, a:1, b:1) Cây điều kiện FP “m”: Gọi FP-Growth(Treem, “m”) Vì Treem có chứa đường đơn Nên nút m có mẫu phổ biến là: {(m:3), (am:3), (cm:3), (fm:3), (cam:3), (fam:3), (fcm:3), (fcam:3)} 31 Bảng kết tất item: Item Cơ sở điều kiện P Cây điều kiện FP {(f:2, c:2, a:2, m:2), (c:1, b:1)} {(c:3}|p M {(f:2, c:2, a:2), (f:1, c:1, a:1, b:1)} {(f:3, c:3, a:3)}|m B {(f:1, c:1, a:1), (f:1), (c:1)} ∅ A {(f:3, c:3)} {(f:3, c:3)}|a C {(f:3)} ∅ F ∅ ∅ 3.4 Phân tích, đánh giá việc thực hiện thuật toán 3.4.1 Phân tích thuật toán song song Đánh giá thuật toán chủ yếu vào thời gian thực tính theo hàm kích cỡ liệu vào (input) Hàm gọi độ phức tạp tính toán thời gian f(n) thuật toán ký hiệu O(f(n)) Một cách hình thức, O() định nghĩa sau: Một thuật toán có độ phức tạp tính toán tính toán f(n) = O(g(x)) ⇔ Tồn số dương C số nguyên x0 cho ≤ f(x) ≤ C * g(x), với số lượng liệu vào x≥x0 O(1) ký hiệu cho số Ngoài ra, độ phức tạp tính toán thuật toán song song phụ thuộc vào kiến trúc máy tính song song số lượng xử lý phép sử dụng hệ thống phụ thuộc vào thời gian trao đổi liệu xử lý Độ phức tạp thời gian thước đo quan trọng đánh giá mức độ hiệu thuật toán song song Giả sử mô hình tính toán có p xử lý; dẫn đến mức độ song song có giới hạn; ngược lại, không bị giới hạn số lượng xử lý không bị chặn Mức độ hiệu thuật toán thể mức độ song song thuật toán Là số lượng cực đại phép toán độc lập thực đồng thời thời điểm thực thuật toán Ký hiệu p(w) độ song song thuật toán, thuật toán đạt hiệu để giải toán có kích cỡ w thuật toán cần sử dụng nhiều p(w) xử lý Độ phức tạp thời gian thuật toán song song sử dụng p xử lý để giải toán có kích cỡ n hàm f(n, p) xác định thời gian cực đại trôi qua điểm bắt đầu thực 32 thuật toán xử lý thời điểm kết thúc xử lý liệu vào Có hai thao tác khác thuật toán song song: - Các phép toán sở như: +, -, *, /, AND, OR,… - Các phép truyền liệu kênh truyền Vì độ phức tạp thời gian thuật toán song song xác định số phép toán sở số bước truyền tải liệu xử lý với Nên từ suy ra, độ phức tạp thời gian thuật toán song song không phụ thuộc vào mô hình tính toán mà phụ thuộc vào xử lý sử dụng Định nghĩa liên quan đến độ phức tạp giải thuật song song là: Định nghĩa 1: Một thuật toán song song có độ phức tạp tính toán O(t) với p xử lý thực nhiều O(t * p) phép toán sở Định nghĩa 2: Một thuật toán song song có độ phức tạp tính toán O(t) sử dụng nhiều xử lý để thực O(e) phép toán sở cài đặt với p xử lý có độ phức tạp thời gian O([e/p]+t) Định nghĩa 3: Một thuật toán song song có độ phức tạp tính toán O(t) với p xử lý cài đặt với [p/f] xử lý (1≤ f ≤ p) có độ phức tạp thời gian O(f * t) Ngoài ra, đánh giá thuật toán song song cần phải xét tới độ tăng tốc hiệu suất 3.4.2 Đánh giá việc thực hiện các thuật toán Trong số thuật toán khai phá liệu luật kết hợp song song, thuật toán song song cài đặt dựa thuật toán Apriori (chẳng hạn thuật toán CD, DD, Candidate distribution) sử dụng phổ biến thực thi chúng đơn giản dễ dàng Hơn nữa, luật kết hợp sinh trực tiếp dựa vào cách thức khai phá tập mục Bởi tập mục ứng cử sinh ta tất thông tin tập tính toán Tốc độ thực thuật toán tỉ lệ với số lượng giao dịch gặp khó khăn việc xử lý nhiều mục nhiều mẫu CSDL lớn Thuật toán song song Eclat có ưu điểm tính toán nhanh độ hỗ trợ thông qua tập giao dịch tid-List Thuật toán thiết kế dựa mô hình song song thao tác, có tốc độ thực thi nhanh hệ thống đa xử lý nhớ phân tán Hạn chế chủ yếu thuật toán chúng cần phải sinh phân bố lại tid-List Hơn nữa, với tập mục phổ biến có kích thước lớn, phần chung chủ yếu tid-List lấy giao lặp lại nhiều lần tất tập Để giảm bớt tình trạng này, cách thiết lập tối ưu khác kiểm tra thay đổi tid-List thay cho 33 việc lưu giữ tid-List toàn cục thông qua vòng lặp cho giảm đáng kể khối lượng liệu tính toán 34 KẾT LUẬN VÀ KIẾN NGHỊ Khai phá liệu lĩnh vực quan trọng, bao gồm nhiều lĩnh vực nhiều kỹ thuật khác Luận văn đề cập đến nội dung phát tri thức, khai phá liệu Ứng dụng khai phá liệu lớn có ích hoạt động sản xuất, kinh doanh trợ giúp cho việc hoạch định chiến lược nhà quản lý hỗ trợ định Bên cạnh, luận văn đề cập đến khó khăn, thách thức việc ứng dụng nghiên cứu kỹ thuật khai phá liệu Về mặt lý thuyết, khai phá liệu công đoạn tiến trình lớn , tiến trình khám phá tri thức từ CSDL Trong báo cáo trình bày chi tiết vấn đề khai phá luật kết hợp Về thuật toán khai phá luật kết hợp, luận văn trình bày số thuật toán tiêu biểu khai phá luật kết hợp như: Apriori, phân hoạch, AIS, ,… Trên sở thuật toán tuần tự, báo cáo trình bày chi tiết thuật toán song song Count Distribution, Data Distribution, Candidate Distribution, Eclat, FP-Growth Trong trình thực tập, tìm hiểu nghiên cứu với khoảng thời gian làm báo cáo, cố gắng tập trung tìm hiểu tham khảo tài liệu liên quan Tuy nhiên thời gian nghiên cứu có hạn nên không tránh khỏi thiếu sót mong nhận nhận xét đóng góp ý kiến thầy cô giáo để bài báo cáo hoàn thiện 35 TÀI LIỆU THAM KHẢO Đoàn Văn Ban, Nguyễn Mậu Hân (2006) Xử lý song song và phân tán, NXB Khoa học và kỹ thuật Hà Nội Nguyễn Thanh Bình (2007), Khai phá dữ liệu: Khái niệm và kỹ thuật, Huế Đỗ Phúc (2006), Giáo trình khai phá dữ liệu, NXB Đại học Quốc gia TP.HCM Bài giảng Khai phá dữ liệu, trường Đại học hàng hải Việt Nam 36 [...]... tra luật AB => CD vì AB⊂ ABC nên sup (AB) ≥ sup (ABC) và do đó < minconf 16 ≥ CHƯƠNG III : MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP SONG SONG VÀ PHÂN TÍCH ĐÁNH GIÁ CÁC THUẬT TOÁN 3.1 Nguyên lý thiết kế thuật toán song song Những thuật toán, trong đó có một số thao tác có thể thực hiện đồng thời được gọi là thuật toán song song Tổng quát hơn, thuật toán song. .. toán là cấu hình topo liên kết của các đơn vị xử lý - Thuật toán song song phải được thiết kế dựa trên những kiến thức về kiến trúc máy tính, ngôn ngữ lập trình song song các phướng pháp tính toán 3.2 Hướng tiếp cận chính trong thiết kế thuật toán khai phá luật kết hợp song song Hai hướng tiếp cận chính trong thiết kế thuật toán khai phá luật kết. .. sup(L-C) ⇒ ≥ minconf 2.2 Khai phá luật kết hợp Bài toán khai phá luật kết hợp trên một CSDL được chia thành hai bài toán nhỏ Bài toán thứ nhất là tìm tất cả các tập mục dữ liệu có độ hỗ trợ thỏa ngưỡng tối thiểu cho trước, gọi là tập các mục dữ liệu thường xuyên Bài toán thứ hai là tìm ra những luật kết hợp từ những tập mục dữ liệu thường xuyên... tiếp cận chính trong thiết kế thuật toán khai phá luật kết hợp song song đó là : mô hình song song dữ liệu và mô hình song song thao tác 17 3.2.1 Mô hình song song dữ liệu Hình 3.1 Mô hình song song dữ liệu Mô hình song song dữ liệu thực thi thao tác giống nhau hay thực thi lệnh trên một tập con dữ liệu cùng một thời điểm Tất cả các bộ xử lý thực hiện chương... trên một hay một vài bộ xử lý Trong mô hình song song dữ liệu, dữ liệu cần phải phân chia thành các tập con dữ liệu để tăng tốc đạt được bằng cách giảm khối lượng dữ liệu cần được xử lý trên mỗi bộ xử lý Thuật toán được thiết kế dựa vào mô hình song song dữ liệu dễ dàng thực thi, ít phụ thuộc vào kiến trúc máy tính song song và năng suất cao... Các thuật toán song song được thiết kết dựa vào mô hình song song thao tác có độ phức tạp tính toán nhỏ hơn so với các thuật toán tuần tự do thao tác được chia thành những thao tác nhỏ hơn để dễ xử lý Tuy nhiên, việc thực thi các thuật toán này lại phụ thuộc vào kiến trúc máy tính song song và mang tính chuyên dụng 18 3.3 Một số thuật toán khai phá. .. thi  Khai phá tập mục song song Thuật toán khai phá mẫu phổ biến song song gồm 2 nhiệm vụ chính sau: 1 Xây dựng song song FP- Tree Giai đoạn đầu của thuật toán khai phá song song là xây dựng các Fp- tree đồng thời trên mỗi bộ xử lý tương tự như thuật toán CD, ta chia CSDL giao dịch D cho P bộ xử lý Đảm bảo rằng mỗi bộ xử lý có N/P giao dịch (D N/P), N và. .. Bài toán thứ hai là đơn giản, hầu hết nghiên cứu về luật kết hợp tập trung ở bài toán thứ nhất 2.3 Cách tiếp cận khai phá luật kết hợp Khai phá luật kết hợp là một lĩnh vực nghiên cứu được nhiều người quan tâm và có nhiều kết quả đã được công bố Dưới đây chỉ giới thiệu một số cách tiếp cận cơ bản, làm cơ sở để phát triển các thuật toán. .. khai phá luật kết hợp song song 3.3.1 Thuật toán Count Distribution (CD) Thuật toán sử dụng kiến trúc không chia sẻ, mỗi bộ xử lý có một bộ xử lý chính và bộ nhớ phụ riêng Các bộ xử lý này được kết nối với nhau bởi một mạng truyền thông và có thể được truyền thông tin cho nhau bằng việc truyền thông điệp Dựa trên mô hình song song dữ liệu, dữ liệu. .. tối thiểu cho trước Phát triển thuật toán khai phá luật kết hợp, là làm giảm độ phức tạp tính toán của thuật toán để cải thiện tốc độ xử lý Ta có thể phân loại các thuật toán tìm tập thường xuyên theo hai tiêu chí : • Phương pháp duyệt qua không gian tìm kiếm • Phương pháp xác định độ hỗ trợ của tập mục dữ liệu Với phương pháp duyệt qua không

Ngày đăng: 27/06/2016, 14:02

Xem thêm: KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP SONG SONG, KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP SONG SONG, CHƯƠNG I: TỔNG QUAN KHO DỮ LIỆU VÀ KHAI PHÁ, CHƯƠNG II: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ, KẾT HỢP SONG SONG VÀ PHÂN TÍCH ĐÁNH GIÁ

KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP SONG SONG

Thông tin tài liệu

Từ khóa liên quan

Mục lục

MỤC LỤC

DANH MỤC HÌNH

LỜI MỞ ĐẦU

CHƯƠNG I: TỔNG QUAN KHO DỮ LIỆU VÀ KHAI PHÁ

DỮ LIỆU

CHƯƠNG II: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ

DỮ LIỆU

CHƯƠNG III : MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ LUẬT

KẾT HỢP SONG SONG VÀ PHÂN TÍCH ĐÁNH GIÁ

CÁC THUẬT TOÁN

Tài liệu cùng người dùng

Tài liệu liên quan