KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP SONG SONG

40 307 0
KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP SONG SONG

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC LỜI MỞ ĐẦU51. Lý do chọn đề tài12. Đối tượng và phạm vi nghiên cứu13. Mục tiêu và nội dung của báo cáo2CHƯƠNG I: TỔNG QUAN KHO DỮ LIỆU VÀ KHAI PHÁ3DỮ LIỆU31.1. Sự cần thiết của khai phá dữ liệu31.1.1. Những nghiên cứu về thị trường của khái phá dữ liệu31.1.2. Những nhu cầu về khái phá dữ liệu trong kinh doanh31.1.3. Khai phá dữ liệu trong một số lĩnh vực quan trọng khác31.2 Tổng quan về khai phá dữ liệu41.2.1. Định nghĩa khai phá dữ liệu41.2.2. Kiến trúc của một hệ thống khai phá dữ liệu41.2.3. Quá trình khai phá dữ liệu51.2.4. Một số kỹ thuật khai phá dữ liệu61.2.5. Lợi ích của khai phá dữ liệu so với các phương pháp khác61.2.6. Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu7CHƯƠNG II: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ8DỮ LIỆU82.1. Lý thuyết về luật kết hợp82.1.1. Định nghĩa luật kết hợp82.1.2. Khái niệm82.1.3. Một số tính chất liên quan92.2. Khai phá luật kết hợp102.3. Cách tiếp cận khai phá luật kết hợp112.4. Luật kết hợp cơ sở122.4.1. Phát hiện các tập mục phổ biến122.4.2. Một số thuật toán phát hiện tập mục phổ biến khác152.4.3. Sinh luật kết hợp16CHƯƠNG III : MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ LUẬT17KẾT HỢP SONG SONG VÀ PHÂN TÍCH ĐÁNH GIÁ17CÁC THUẬT TOÁN173.1. Nguyên lý thiết kế thuật toán song song173.2. Hướng tiếp cận chính trong thiết kế thuật toán khai phá luật kết hợp song song173.2.1. Mô hình song song dữ liệu183.2.2. Mô hình song song thao tác183.3. Một số thuật toán khai phá luật kết hợp song song193.3.1. Thuật toán Count Distribution (CD)193.3.2. Thuật toán Data Distribution (DD)203.3.3. Thuật toán Candidate Distribution223.3.4. Thuật toán song song Eclat233.3.5 Thuật toán khai phá các mẫu phổ biến sử dụng Fp Growth283.4. Phân tích, đánh giá việc thực hiện thuật toán323.4.1. Phân tích thuật toán song song323.4.2. Đánh giá việc thực hiện các thuật toán33KẾT LUẬN VÀ KIẾN NGHỊ35TÀI LIỆU THAM KHẢO36

BỘ TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN ***************************** BÁO CÁO THỰC TẬP TỐT NGHIỆP ĐỀ TÀI: KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP SONG SONG Cán hướng dẫn : Th S Hoàng Minh Quang Sinh viên thực Lớp : Nguyễn Thị Thực : ĐH2C2 HÀ NỘI - 2016 LỜI CẢM ƠN Sau thời gian thực tập, nghiên cứu tại phòng Cơ sở dữ liệu, viện Công nghệ thông tin- Viện Hàn lâm và khoa học Việt Nam, được sự giúp đỡ nhiệt tình của các thầy cô giáo và các cán bộ, nhân viên của phòng em đã hoàn thành được bài báo cáo thực tập tốt nghiệp Em chân thành cảm ơn các thầy cô khoa Công nghệ thông tin, trường Đại học Tài nguyên và môi trường Hà Nội đã tận tình giảng dạy truyền đạt kiến thức suốt quá trình học tập Với vốn kiến thức được tiếp thu quá trình học tập không chỉ là nền tảng cho quá trình nghiên cứu thực tập mà còn là hành trang để e bước vào đời sau trường Đặc biệt cho em gửi lời cảm ơn sâu sắc đến thầy ThS Hoàng Minh Quang, đã tận tình hướng dẫn suốt quá trình thực tập để em có thể hoàn thành được bài báo cáo này Em chân thành cảm ơn trưởng phòng TS Nguyễn Việt Anh và các nhân viên của Phòng Cơ sở dữ liệu, viện CNTT- viện Hàn lâm và khoa học Việt Nam đã tạo điều kiện thuận lợi nhất suốt quá trình thực tập Do thời gian thực tập có hạn, cũng kinh nghiệm bản thân còn hạn chế của một sinh viên thực tập nên bài báo cáo còn có nhiều thiếu sót Vì vậy, em rất mong nhận được sự chỉ bảo, đóng góp của các thầy cô để em có thể bổ sung, nâng cao kiến thức của mình MỤC LỤC MỤC LỤC DANH MỤC HÌNH LỜI MỞ ĐẦU CHƯƠNG I: TỔNG QUAN KHO DỮ LIỆU VÀ KHAI PHÁ .3 DỮ LIỆU CHƯƠNG II: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ .8 DỮ LIỆU CHƯƠNG III : MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ LUẬT 17 KẾT HỢP SONG SONG VÀ PHÂN TÍCH ĐÁNH GIÁ 17 CÁC THUẬT TOÁN 17 DANH MỤC HÌNH MỤC LỤC DANH MỤC HÌNH LỜI MỞ ĐẦU CHƯƠNG I: TỔNG QUAN KHO DỮ LIỆU VÀ KHAI PHÁ .3 DỮ LIỆU CHƯƠNG II: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ .8 DỮ LIỆU CHƯƠNG III : MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ LUẬT 17 KẾT HỢP SONG SONG VÀ PHÂN TÍCH ĐÁNH GIÁ 17 CÁC THUẬT TOÁN 17 LỜI MỞ ĐẦU Lý chọn đề tài Với bùng nổ phát triển công nghệ thông tin mang lại nhiều hiệu khoa học hoạt động thực tế, khai phá liệu lĩnh vực mang lại hiệu thiết thực cho người Khai phá liệu giúp người sử dụng thu tri thức hữu ích từ sở liệu kho liệu khổng lồ khác Cơ sở liệu đơn vị, tổ chức kinh doanh, quản lý khoa học chứa đựng nhiều thông tin tiềm ẩn, phong phú đa dạng, đòi hỏi phải có phương pháp nhanh, phù hợp, xác, hiệu để lấy thông tin bổ ích Để lấy thông tin mang tính tri thức khối liệu khổng lồ, cần thiết phải phát triển kỹ thuật có khả tích hợp liệu từ hệ thống giao dịch khác nhau, chuyển chúng thành tập hợp sở liệu ổn định có chất lượng Các kỹ thuật gọi kỹ thuật tạo kho liệu môi trường liệu nhận áp dụng kỹ thuật tạo kho liệu nói gọi kho liệu Một nội dung khai phá liệu phổ biến phát luật kết hợp Phương pháp nhằm tìm tập thuộc tính thường xuất đồng thời sở liệu rút luật ảnh hưởng tập thuộc tính dẫn đến xuất (hoặc tập) thuộc tính khác Bên cạnh đó, nhu cầu song song hóa xử lý phân tán cần thiết kích thước lưu trữ liệu ngày nhiều nên đòi hỏi tốc độ xử lý dung lượng nhớ hệ thống phải đảm bảo Vì thế, yêu cầu cần có thuật toán song song hiệu cho việc phát luật kết hợp Do vậy, em đã chọn đề tài tìm hiểu về “Khai phá dữ liệu và thuật toán khai phá luật kết hợp song song” Ứng dụng khai phá liệu mang lại lợi ích to lớn việc tổng hợp cung cấp thông tin nguồn sở liệu lớn Hơn nhu cầu song song hóa xử lý phân tán cần thiết kíchthước liệu lưu trữ ngày lớn nên đòi hỏi tốc độ xử lý dung lượng nhớ hệ thống phải đảm bảo Vì thế, yêu cầu cần có thuật toán song song hiệu cho luật kết hợp, từ trình bày vấn đề khai phá liệu xây dựng số thuật toán khai phá luật kết hợp song song Đối tượng và phạm vi nghiên cứu - Các kiến thức bản về khai phá dữ liệu và khai phá luật kết hợp - Các phương pháp khai phá luật kết hợp song song Mục tiêu và nội dung của báo cáo Mục tiêu: nghiên cứu tìm hiểu lý thuyết tổng quan khai phá liệu tìm hiểu thuật toán khai phá luật kết hợp Nội dung báo cáo trình bày chương phần kết luận Chương 1: Tổng quan khai phá liệu Chương 2: Khai phá luật kết hợp song song Chương 3: Một số phương pháp khai phá luật kết hợp song song phân tích đánh giá thuật toán song song CHƯƠNG I: TỔNG QUAN KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU 1.1 Sự cần thiết khai phá liệu 1.1.1 Những nghiên cứu thị trường khái phá liệu Theo Giga Research-một tổ chức nghiên cứu tiếng Mỹ ước tính thị truowgf khai phsa dữu liệu bao gồm phần mềm dịch vụ vượt qua số tỷ $ Mỹ( báo cáo năm 2005) Một số nghiên cứu khác không đồng ý, cho số mức 700-800t triệu Tuy nhiên điểm mà nhà phân tích đồng tình mức tăng trưởng thị trường khai phá liệu ngày tăng nhanh lĩnh vực kinh doanh 1.1.2 Những nhu cầu khái phá liệu kinh doanh Ngày kinh tế thị trường cạnh tranh ngày phát triển, đôi với nhu cầu tất yếu như: - Phân loại khách hàng để từ phân định thị trường, thị phần - Tăng sức mạnh cạnh tranh, làm để giữ khách hàng cũ thu hút khách hàng - Phân tích rủi ro trước định quan trọng chiến lược bất động sản kinh doanh - Ra báo cáo giàu thông tin Tất nhu cầu xã hội đòi hỏi cần phải có phương thức, công cụ hỗ trợ bên cạnh chuyên gia kinh tế Và khai phá liệu chìa khóa hỗ trợ giải vấn đề nêu 1.1.3 Khai phá liệu số lĩnh vực quan trọng khác - Khoa học: • Thiên văn học: dựu đoán đường quỹ đạo thiên thể, hành tinh • Chiêm tinh học: tiên đoán, giải đáp giấc mơ • Công nghệ sinh học; tìm giống mới, giải mã gen - Web: • Các máy tìm kiếm - Trong thể thao: • Phát sử dụng chất kích thích - Và đề lĩnh vực khác: • Chống giả mạo • Phát nói dối 1.2Tổng quan khai phá liệu 1.2.1 Định nghĩa khai phá liệu Khai phá liệu dùng để mô tả trình phát tri thức sở liệu Quá trình kết xuất tri thức tiềm ẩn từ liệu giúp cho việc dự báo kinh doanh, hoạt động sản xuất… Khai phá liệu làm giảm chi phí thời gian so với phương pháp truyền thống trước Định nghĩa Ferruzza: “Khai phá liệu tập hợp phương pháp dùng tiến trình khám phá tri thức để khác biệt mối quan hệ mẫu chưa biết bên liệu” Định nghĩa Parsaye: “Khai phá liệu trình trợ giúp định, tìm kiếm mẫu thông tin chưa biết bất ngờ sở liệu lớn” Định nghĩa Fayyad: “Khai phá tri thức trình không tầm thường nhận mẫu liệu có giá trị, mới, hữu ích, tiềm hiểu được” 1.2.2 Kiến trúc hệ thống khai phá liệu Khai phá liệu trình rút trích thông tin bổ ích từ kho liệu lớn Khai phá liệu trình khai phá tri thức từ sở liệu Hình 1.1: Kiến trúc của hệ thống khai phá dữ liệu Kiến trúc hệ thống khai phá liệu gồm thành phần sau: • CSDL, kho liệu nguồn lưu trữ thông tin khác: Đây hay tập CSDL, kho liệu, trang tính hay dạng khác thông tin lưu trữ Các kỹ thuật làm liệu tích hợp liệu thực • Máy chủ CSDL (Database or Warehouse Sever): Máy chủ có trách nhiệm lấy liệu thích hợp dựa yêu cầu khám phá người dùng • Cơ sở tri thức (Knowledge-base): miền tri thức dùng để tìm kiếm hay đánh giá độ quan trọng mẫu kết thu Tri thức bao gồm sư phân cấp khái niệm dùng đề tổ chức thuộc tính hay giá trị thuộc tính mức trừu tượng khác • Máy khai phá liệu (Data mining engine): hệ thống khai phá liệu cần phải có tập modul chức để thực công việc kết hợp, phân lớp, phân cụm • Modul đánh giá mẫu (Pattern evaluation): phận tương tác với modul khai phá liệu để tập trung vào việc duyệt tìm mẫu đáng quan tâm Nó dùng ngưỡng độ quan tâm để lọc mẫu khám phá được, modul đánh giá mẫu tích hợp vào modul khai phá liệu tùy theo cách cài đặt phương pháp khai phá liệu dùng • Giao diện đồ họa người dùng (Graphical user interface): phận cho phép người dùng giao tiếp với hệ thống khai phá liệu Thông qua giao diện người dùng tương tác với hệ thống cách đặc tả yêu cầu khai phá hay nhiệm vụ, cung cấp thông tin trợ giúp cho việc tìm kiếm thực khai phá thăm dò kết khai phá trung gian Ngoài phận cho phép người dùng xem lược đồ CSDL, lược đồ kho liệu, đánh giá mẫu hiển thị mẫu khuôn dạng khác 1.2.3 Quá trình khai phá liệu Quy trình khai phá liệu chuỗi lập tương tác gồm bước bắt đầu với liệu thô kết thúc với tri thức Quá trình khai phá liệu thể mô hình sau: Hình 1.2: Quá trình khai phá dữ liệu Quá trình xử lý khai phá liệu bắt đầu việc xác định xác vấn đề cần giải Sau xác định liệu liên quan dùng để xây dựng giải pháp Tiếp theo thu thập liệu có liên quan xử lý chúng thành dạng cho thuật toán khai phá liệu hiểu Quá trình khai phá liệu trải qua bước: • Bước 1: Lọc liệu thực trình tiền xử lý Công việc tích hợp chỉnh sửa liệu Khi liệu thu thập từ nhiều nguồn khác nên có sai sót, dư thừa trùng lặp Lọc liệu cắt bỏ dư thừa để liệu định dạng thống Dữ liệu sau lọc chỉnh sửa nhỏ hơn, xử lý nhanh chóng • Bước 2: Khai phá liệu công việc chính, sử dụng thuật toán khác để khai phá kiến thức tiềm ẩn liệu • Bước 3: Sau xử lý trình ước lượng kết khai phá theo yêu cầu người dùng Nhiều kỹ thuật khai phá liệu ứng dụng cho nguồn liệu, kỹ thuật cho kết khác Các kết ước lượng quy tắc đó, cuối kết không thỏa mãn yêu cầu, phải làm lại kỹ thuật khác có kết mong muốn 1.2.4 Một số kỹ thuật khai phá liệu Trong thực tế có nhiều kỹ thuật khai phá liệu khác chia làm nhóm chính: - Kỹ thuật khai phá liệu mô tả: mô tả tính chất đặc tính chung liệu CSDL có Kỹ thuật gồm có: phân cụm (clustering), khai phá luật kết hợp (association rules)… - Kỹ thuật khai phá liệu dự đoán: đưa dự đoán vào suy diễn dự liệu thời Kỹ thuật gồm có: phân lớp (classification), hồi quy (regession) … 1.2.5 Lợi ích khai phá liệu so với phương pháp khác - So với phương pháp học máy: khai phá liệu có lợi chỗ sử dụng CSDL chứa nhiễu, liệu không đầy đủ biến đổi liên tục - Phương pháp hệ chuyên gia: ví dụ chuyên gia thường mức chất lượng cao nhiều so với CSDL chúng bao hàm trường hợp quan trọng, đòi hỏi phải có tham gia chuyên gia việc phát tri thức - Phương pháp thống kê: phương pháp thống kê có số điểm yếu mà khai phá liệu khắc phục được: không phù hợp với kiểu liệu có cấu trúc nhiều CSDL, không sử dụng tri thức sẵn có lĩnh vực, cần có hướng dẫn người dùng để xác định phân tích liệu đâu 1.2.6 Các sở liệu phục vụ cho khai phá liệu - Cơ sở liệu quan hệ: CSDL quan hệ nguồn tài nguyên lớn chứa đối tượng mà cần khai phá, CSDL quan hệ có cấu trúc cao, liệu mô tả tập thuộc tính lưu bảng Khai phá liệu CSDL quan hệ chủ yếu tập trung khai phá mẫu Thuật toán DD gồm bước bản sau : • Bước : Mỗi bộ xử lý quét phân hoạch CSDL cục bộ để tính các số đếm hỗ trợ cục bộ của các tập mục ứng cử được phân bổ cho nó • Bước : Mỗi bộ xử lý truyền phân hoạch CSDL của nó đến các bộ xử lý khác và nhận các phân hoạch CSDL từ các bộ xử lý khác truyền đến Sau dó quét các phân hoạch CSDL nhận được để tính các số đếm hỗ trợ tổng thể của các tập mục ứng cử CSDL D • Bước : Mỗi bộ xử lý các định các tập mục phổ biến từ phân hoạch tập mục ứng cử của nó, trao đổi với các bộ xử lý khác để nhận được tất cả các tập mục phổ biến Lk và sau đó sinh tập mục ứng cử Ck+1 từ Lk, từ phân hoạch Ck+1 và phân bố các phân hoạch ứng cử đó cho tất cả các bộ xử lý Thuật toán DD lặp lại bước 1→3 cho đến không còn tập mục ứng cử nào được sinh Hình 3.4 : Sơ đồ luồng thuật toán Data Distribution 3.3.3 Thuật toán Candidate Distribution Thuật toán Candidate Distribution thực phân hoạch liệu lẫn tập mục ứng cử Theo cách này, xử lý xử lý độc lập Trong l giai đoạn ( l giá trị heuristic), thuật toán chia tập mục phổ biến L l-1 cho các bộ xử lý cho mỗi bộ xử lý Pi có thể sinh một Cim (m≥ l) nhất độc lập với các bộ xử lý khác cho Ci m Cjm= , i j Trong cùng một thời điểm, dữ liệu được phân chia lại cho một bộ xử lý có thể sinh các tập mục ứng cử C im một cách độc lập với tất cả các bộ xử lý khác Tùy vào tính tối ưu của việc phân chia tập mục, một số phần sở dữ liệu có thể có các bản một bộ xử lý 22 Nội dung thuật toán Giai đoạn k< l : sử dụng thuật toán CD hay DD Giai đoạn k=1 : Phân hoạch Lk+1 cho các bộ xử lý cho các tập Lk+1 cân bằng Bộ xử lý Pi sinh Cjk từ phân hoạch Lk-1 đã gán cho nó Lưu ý, Pi có thể truy xuất đến Lk-1 đầy đủ và đó có thể sử dụng phương pháp cắt tỉa chuẩn sinh C jk giai đoạn này Pi tính các số đếm hỗ trợ tổng thể cho các tập mục ứng cử Cjk và CSDL được phân hoạch lại thành các Di tại thời điểm này Sau Pi đã xử lý tất cả các dữ liệu cục bộ của nó và mọi dữ liệu nhận được từ các bộ xử lý khác Các L jk này cần cho việc cắt tỉa C jk+1 bước cắt tỉa sinh tập ứng cử Bộ xử lý Pi sịnh Ljk từ Cjk và truyền dị bộ đến N-1 bộ xử lý khác bằng cách sử dụng N-1 phép chuyển dị bộ Giai đoạn k> l : Bộ xử lý Pi tập hợp tất tập mục phổ biến mà xử lý khác chuyển đến Chúng sử dụng bước cắt tỉa sinh tập mục ứng cử không sử dụng bước kết nối Các tập mục nhận từ xử lý P j có độ dài k-1 nhỏ k-1 (nếu xử lý P j chậm hơn) lớn k-1 (nếu xử lý Pj nhanh hơn) Bộ xử lý P i lưu giữ phần tập mục phổ biến chuyển đến cho xử lý Pj Các đệm dùng để nhận tập mục phổ biến phản hồi lại sau xử lý Pi sinh Cjk bằng cách sử dụng Ljk-1 cục bộ Ta biết rằng Pi có thể không nhận được Ljk-1 từ tất cả các bộ xử lý khác, nên P i phải thận trọng lúc cắt tỉa Nó cần phải nhận biết được một tập mục (một tập k-1-itemset của một tập mục ứng cử) không có mặt bất kỳ L jk-1 nào với một tập mục có mặt L jk-1 tập này chưa nhận được bởi bộ xử lý P i Pi nhận biết bằng cách khảo sát L jk-1 sử dụng phần tiền tố với độ dài l-1 của các tập mục cần xem xét, bằng cách tìm kiếm bộ xử lý nào trả lời và kiểm tra nếu Ljk-1 nhận được từ bộ xử lý này Pi thiết lập một giai đoạn D i và đếm Sau đó Pi sinh Lik từ Cik và truyền dị bộ Lik đến các bộ xử lý khác bằng N-1 phép chuyển dị bộ 3.3.4 Thuật toán song song Eclat a) Nhóm tập mục và giao dịch Phương pháp để nhóm các tập mục phổ biến có liên quan với bằng cách sử dụng lược đồ phân chia lớp tương đương Mỗi lớp tương đương chứa các tập mục 23 ứng cử quan hệ tương đương với Bên cạnh, ta sử dụng kỹ thuật tổ chức CSDL theo chiều dọc để nhóm các giao dịch có liên quan với  Phân lớp tương đương Gọi Lk là tập các itemset phổ biến Không mất tính tổng quát, giả sử L k được sắp xếp thep thứ tự từ điển Ta có thể phân hoạch các tập mục L k thành các lớp tương đương sau: nếu các phần tử L k có k-1 thành viên đầu tiên giống thì chúng cùng thuộc một lớp, kí hiệu lớp tương đương chứa a là Sa = [a] Trong phạm vi một lớp, ta sinh k- itemset ứng cử bằng cách kết nối tất cả = |Si|(|Si|- 1)/2 cặp tiền tố là định danh của lớp Trong đó |S i| là số phần tử của lóp có định danh là i Các k-itemset ứng cử được sinh từ các lớp khác sẽ độc lập với  Tổ chức sở dữ liệu Thuật toán Eclat sử dụng cách tổ chức dữ liệu theo chiều dọc Với các tổ chứ dữ liệu theo chiều dọc, một CSDL gồm danh sách các mục, mỗi mục xác định một danh sách các định danh của giao dịch có chứa mục đó Kí hiệu tid-List Ưu điểm của cách tổ chức theo chiều dọc: - Nếu tid- List đã được sắp xếp theo thứ tự tăng dần thì đỗ hộ trợ của k- itemset ửng cử có thể đã được tính toán bởi phép lấy giao các tid-List của hai (k-1)- subset bất kỳ Với cách tổ chức này, thuật toán không cần trì cấu trúc dữ liệu phức tạp - Các tid-List chứa tất cả các thông tin liên quan về một tập mục, vì vậy tính độ hỗ trợ cho một tập mục không cần quét toàn bộ CSDL Vì tất cả các thông tin về một lớp tương đương là được nhóm cùng nên có thể sinh các tập mục phổ biến trước chuyển sang lớp tiếp theo b) Thuật toán song song Eclat Nội dung thuật toán Begin /Pha khởi tạo/ Duyệt qua các phân hoạch CSDL cục bộ Tính toán số đếm hỗ trợ cục bộ cho tất cả các 2-itemset Xây dựng số đếm hỗ trợ tổng thể cho các tập mục chứa L2 /Pha biến đổi/ Phân hoạch L2 thành các lớp tương đương Lập lịch L2 các bộ xử lý Tổ chức phân hoạch dữ liệu cục bộ theo chiều dọc Truyền các tid-List có liên quan đến các bộ xử lý khác L2 cục bộ = nhận các tid-List từ các bộ xử lý khác /Pha đồng thời/ Forparallel mỗi lớp tương đương E2 L2 cục bộ 24 Compute_Frequent (E2) /Pha rút gọn/ 10 Tập hợp các kết quả đưa các kết hợp End  Giải thích thuật toán Phần khởi tạo Pha khởi tạo bao gồm việc tính toán tất cả các 2-itemset phổ biến CSDL cần khai phá Ta không cần tính số đếm hỗ trợ của các 1-itemset vì việc xác định số đếm hỗ trợ của 2-itemset có thể đạt được chỉ một lần duyệt CSDL Để tính toán cho các 2-itemset, mỗi bộ xử lý sử dụng một mảng cục bộ và tiến hành chỉ số hóa các mục CSDL theo cả chiều Mặt khác mỗi bộ xử lý tính số đếm hỗ trợ cục bộ cho các 2-itemset và thực hiện phép lấy tổng rút gọn của tất cả các bộ xử lý để xây dựng các số đếm hỗ trợ tổng thể Kết thúc pha khởi tạo, tất cả các bộ xử lý đều có những số đếm hỗ trợ tổng thể của tất cả các 2-itemset phổ biến L CSDL Pha biến đổi gồm bước Bước 1: Đầu tiên L2 được phân hoạch thành các lớp tương đương Sau đó các lớp tương đương này được gán cho các bộ xử lý cho cân bằng Bước 2: CSDL đã được biến đổi từ định dạng theo chiều ngang thành chiều dọc và được phân phối lại Do đó, bộ nhớ cục bộ của mỗi bộ xử lý, các tid-List của tất cả các 2-itemset một lớp tương đương bất kỳ đước nó gán cho nó Lập lịch phân lớp tương đương: Đầu tiên, ta phân hoạch L thành các lớp tương đương bằng cách sử dụng tiền tố chung mô tả ở Tiếp theo, phân chia cho mỗi bộ xử lý một lớp tương đương Mỗi lớp tương đương được gán một trọng số dựa vào các số phần tử lớp Vì phải khảo sát tất cả các cặp bước lặp tiếp theo, nên ta gán trọng số cho một lớp với m là số các phần tử của lớp tương đương tương ứng Biến đổi CSDL theo chiều dọc: Sauk hi phân hoạch các lớp tương đương cân bằng giữa các bộ xử lý, ta biến đổi CSDL cục bộ từ định dạng theo chiều ngang thành chiều dọc Điều này có thể thực hiện bước: • Bước 1: Mỗi bộ xử lý duyệt CSDL cục bộ của nó và xây dựng các tid-List cục bộ cho tất cả các itemset 25 • Bước 2: Mỗi bộ xử lý cần xây dựng các tid-List toàn cục cho các tập mục các lớp tương đương của nó Do đo, nó phải gửi các tid-List này cho các bộ xử lý khác và nhận các tid-List từ các bộ xử lý khác gửi đến Pha đồng thời CSDL đã được phân bố lại, vì vậy các tid-List của tất cả các 2-itemset các lớp tương đương cục bộ của nó là đã thường trú đĩa cục bộ Mỗi bộ xử lý có thể tính toán tất cả các tập mục phổ biến một cách độc lập Nó đọc trực tiếp từ nhớ cục tid-List 2-itemset, sau sinh tất tập mục phổ biến trước chuyển sang bước tiếp theo, bước bao gồm việc quét phân hoạch CSDL cục biến đổi lần Trong phạm vi lớp tương đương, cần khảo sát tất cặp 2-itemset thực lấy giao tid-List tương ứng Nếu số phần tử tidList kết lớn độ hỗ trợ tối thiểu tập mục bổ sung vào L3 Sau đó, tiếp tục phân hoạch L thành lớp tương đương dựa tiền tố chung độ dài Quá trình lặp lại thủ tục thực sau: Begin Compute_Frequent(Ek-1) for tất itemset I1 I2 Ek-1 if((I1.tidList ∩ I2 tidList) ≥ minsup) Bổ sung (I1 ∪ I2) vào Lk; Phân hoạch Lk thành lớp tương đương; forparallel lớp tương đương Ek Lk Compute_Frequent(Ek); End Compute_Frequent Pha rút gọn Tại thời điểm cuối pha đồng thời, trích rút kết từ xử lý đưa kết Quá trình thực bước truyền thông khác thuật toán  Giai đoạn khởi tạo: Khi thu số đếm hỗ trợ tất 2-itemset, ta cần thực phép lấy tổng rút gọn để tính số đếm tổng thể Ta định mảng kích thước (m số mục) vùng kênh nhớ dùng chung, sau xử lý truy cập mảng chung (theo phương thức loại từ lẫn nhau) để tăng số đếm hỗ trợ hành lên số đếm hỗ trợ cục đợi rào chắn xử lý cuối thực xong việc truy cập mảng dùng chung để tăng số đếm hỗ trợ Các số đếm hỗ trợ cục sử dụng để xây dựng tid-List đảo toàn cục 26  Giai đoạn biến đổi Mỗi xử lý quét phân hoạch CSDL cục lần thứ hai xây dựng tid-List theo chiều dọc tất 2-itemset phổ biến L2 Vì CSDL gốc ban đầu phân hoạch theo dạng khối nên CSDL đảo xử lý gồm vùng định danh không liên tiếp Ta sử dụng thông tin với thông tin số đếm hỗ trợ cục để đặt tid-List xử lý khác gửi đến vào khoảng trống thích hợp, tid-List toàn cục thu xuất theo thứ tự từ điển Với lưu giữ này, tiết kiệm chi phí xếp cho tid-List giao dịch phân tán cách ngẫu nhiên Quá trình biến đổi hoàn thành qua bước sau: Bước 1: Biến đổi tid-List cục Trước tiên, ta chia L2 thành hai nhóm Các tập mục thuộc lớp tương đương mà gán cho xử lý cục bộ, kí hiệu G, tập mục lại thuộc lớp tương đương khác, kí hiệu R Với xử lý Pi, nhớ dành vùng nhớ có kích thước Với g ∈ G, r ∈ R: tập mục partial_count(r, Pi): Số đếm hỗ trợ tập mục r xử lý Pi Sau đó, xử lý thực việc biến đổi ghi tid-List phần tử G vào khoảng trống thích hợp Các phần tử R để trống Bước 2: Truyền tid-List Một việc biến đổi CSDL cục hoàn thành, ta cần phải nhận tid-List tất 2-itemset G từ xử lý khác truyền đến truyền tid-List R đến xử lý khác Các tid-List đến chép vào khoảng trống thích hợp Vì phần giao dịch phân biệt tăng đều, tid-List tập mục G viết đĩa, R bị loại bỏ Để truyền tid-List cục qua kênh nhớ, sử dụng lợi việc truyền thông điệp nhanh mức người sử dụng Mỗi xử lý xác định kích thước đệm (2MB) cho vùng truyền, vùng nhận dùng chung định danh Việc truyền thông tiến hành theo cách khóa luân phiên pha ghi đọc Trong pha ghi, xử lý ghi tid-List tập mục P vào vùng truyền đạt đến giới hạn không gian đệm Tại thời điểm này, vào pha đọc, quét vùng nhận xử lý đặt tid-List G vào khoảng trống thích hợp Khi vùng đọc quét xong, vào pha ghi Quá trình lặp lại nhận tất tid-List phận Tại thời điểm cuối pha này, CSDL định dạng theo chiều dọc Sau đó, xử lý vào pha đồng thời tính toán tập mục phổ biến mô tả Việc phép rút gọn cuối thực tương tự phép rút gọn pha khởi tạo 27 3.3.5 Thuật toán khai phá mẫu phổ biến sử dụng Fp- Growth Dựa vào thuật toán Fp-Tree tuần tự Thuật toán này ta xây dựng một số Fp- tree cục bộ môi trường bộ nhớ phân tán và sử dụng mô hình “chủ- tớ” Dựa chiến lược lập lịch làm việc động giai đoạn hợp nhất các mẫu điều kiện sở và giai đoạn khai phá để cân bằng khối lượng công việc quá trình thực thi  Khai phá tập mục song song Thuật toán khai phá mẫu phổ biến song song gồm nhiệm vụ chính sau: Xây dựng song song FP- Tree Giai đoạn đầu của thuật toán khai phá song song là xây dựng các Fp- tree đồng thời mỗi bộ xử lý tương tự thuật toán CD, ta chia CSDL giao dịch D cho P bộ xử lý Đảm bảo rằng mỗi bộ xử lý có N/P giao dịch (D N/P), N và P lần lượt là tổng số giao dịch CSDL và số các bộ xử lý Việc phân hoạch CSDL D cho P bộ xử lý được thực hiện một cách ngẫu nhiên auk hi phân hoạch dữ liệu, công việc tiếp theo là xác định 1-itemset phổ biến (F1-itemset) trước xây dựng một Fp-tree cục bộ Mỗi bộ xử lý tính toán đếm hỗ trợ (f local(i)) của mỗi mục i bằng cách quét phân hoạch CSDL cục bộ DN/P, tất cả các bộ xử lý đếm flocal(i) cục bộ đến xử lý chủ Bộ xử lý chủ tập hợp tất cả các mục và kết hợp chúng lại để sinh số đếm hỗ trợ tổng thể (f glocal(i)) Sau đó, các mục có hỗ trợ nhỏ ngưỡng hỗ trợ minsup được lược bỏ Tập các 1-itemset phổ biến thu được sẽ được truyền cho tất cả các bộ xử lý nhóm Bước tiếp theo là xây dựng các Fp- tree cục bộ Mỗi bộ xử lý quét CSDL cục bộ DN/P của nó và chèn các mục phổ biến vào Fp- tree Việc xây dựng Fp- tree bởi mỗi bộ xử lý với CSDL cục bộ của nó giống thuật toán tuần tự Phương pháp khai phá bao gồm một số giai đoạn sau: Trong giai đoạn đầu, ta xét toàn bộ FP- tree và tạo các mẫu điều kiện sở Trong giai đoạn tiếp theo, ta tập hợp các mẫu điều kiện sở từ các bộ xử lý để xây dựng FP- tree điều kiện sở (CFPT) cho mỗi mục phổ biến Giai đoạn cuối cùng là thực hiện việc khai phá bằng cách xây dựng đệ quy các mẫu điều kiện sở và các CFPTs cho đến nó sinh tất cả các tập mục phổ biến Xây dựng các mẫu điều kiện sở: Mỗi bộ xử lý thăm bảng tiêu đề (1-itemset phổ biến cục bộ) của nó theo hướng từ xuống và tạo các mẫu điều kiện sở cho mỗi mục phổ biến Việc thiết lập các mẫu điều kiện sở bằng cách xét toàn bộ các nút Fp- tree cục bộ từ xuống thuật toán tuần tự Xây dựng FP- tree điều kiện sở: Khi tất cả các mẫu điều kiện sở đã tìm được, các FP – tree điều kiện được xây dựng bằng cách hợp nhất các mẫu điều kiện sở Với mỗi mục phổ biến, các mẫu điều kiện sở được hợp nhất cho các số đếm hỗ trợ của các mục giống được tăng lên để tính số đếm hỗ trợ tổng thể Nếu số 28 đếm hỗ trợ tổng thể của một mục mà nhỏ ngưỡng tối thiểu, mục đó sẽ được lược bỏ khỏi FP- tree điều kiện Để xây dựng các FP –tree điều kiện ta sử dụng mô hình “chủ- tớ” Bộ xử lý chủ chuyển các mục cần được khai phá cho các bộ xử lý tớ Các bộ xử tớ sinh các FP- tree điều kiện cho các mục đó, bộ xử lý tớ hoành thành việc sinh Fp- tree điều kiện, nó chuyền một mã thông báo đến bộ xử lý chủ yêu cầu mục kế tiếp Nhiệm vụ của bộ xử lý chủ là lắng nghe các yêu cầu đến từ bất kỳ bộ xử lý tớ Nó trả lời bằng cách chuyển mục kế tiếp đến bộ xử lý tớ đó Khi mà bộ xử lý tớ nhận mục kế tiếp từ bộ xử lý chủ chuyển đến, nó sẽ bắt đầu sính CFPT cho mục này Chi phí truyền thông thuật toán này tương đối thấp vì mỗi bộ xử lý chỉ chuyển mã thông báo Hơn nữa, khối lượng công việc là cân bằng giữa các bộ xử lý nhóm mỗi một bộ xử lý tớ nào đó hoàn thành nhiệm vụ nó nhận một nhiệm vụ khác lập tức Sinh các tập mục phổ biến: Sinh các tập mục phổ biến bằng cách xây dựng lần lượt các mẫu điều kiện sở và các điều kiện FP- tree bởi mỗi bộ xử lý Khi một nhánh của FP- tree điều kiện được xây dựng, ta thu được các tập hợp các mục khả thuật toán FP-Growth tuần tự Mô hình song song được áo dụng là mô hình “chủ- tớ” Bộ xử lý chủ chuyển các mục sở cần được khai phá cho các mục này và sinh các tập mục phổ biến Trong mô hình này, một bộ xử lý tớ hoàn thành nhiệm vụ, nó nhận nhiệm vụ khác lập tức, điều này làm cho các bộ xử lý bận cho đến kết thúc quá trình khai phá Ở đây, việc cân đối khối lượng công việc xảy thời gian thực thi (runtime) Mô hình “chủ- tớ” được trì cho đến tất cả các tập mục phổ biến được sinh ứng với mỗi mục phổ biến F 1-itemset Sau đó tất cả các bộ xử lý tớ này chuyển các tập mục phổ biến mà nó sinh đến bộ xử lý chủ, giai đoạn khai phá kết thúc Ví dụ: Bảng tất item: TID Các mặt hàng mua 100 f, a, c, d, g, i, m,p 200 a, b, c, f, l, m, o 300 b, f, h, j, o 400 b, c, k, s, p 500 a, f, c, e, l, p, m, n Chọn độ phổ biến cực tiểu ξ (min_support) = (60%)  Ta có danh sách mặt hàng phổ biến L là:  Các mặt hàng thứ tự giảm dần theo độ phổ biến 29 Item a b c d e f g i j l K m n o p s Supp 3 1 1 3 Từ tập liệu ban đầu, có FP sau:  Từ tập liệu ban đầu, ta xây dựng header table FP sau: 30 Khai khoáng mẫu phổ biến cách sử dụng FP Call FP-Growth(Tree, null) Đối với nút “p” • β=“p” U null = “p”, xuất kết p:3 • Cơ sở điều kiện là: (f:2, c:2, a:2, m:2) (c:1, b:1) • Cây FP với điều kiện {(c:3)}p Xuất kết là: cp:3 Vậy nút p có mẫu phổ biến là: p:3, cp:3 Đối với nút “m” β=“m” U null = “m”, Xuất kết m:3 Cơ sở điều kiện nút “m”: (f:2, c:2, a:2) (f:1, c:1, a:1, b:1) Cây điều kiện FP “m”: Gọi FP-Growth(Treem, “m”) Vì Treem có chứa đường đơn Nên nút m có mẫu phổ biến là: {(m:3), (am:3), (cm:3), (fm:3), (cam:3), (fam:3), (fcm:3), (fcam:3)} 31 Bảng kết tất item: Item Cơ sở điều kiện P Cây điều kiện FP {(f:2, c:2, a:2, m:2), (c:1, b:1)} {(c:3}|p M {(f:2, c:2, a:2), (f:1, c:1, a:1, b:1)} {(f:3, c:3, a:3)}|m B {(f:1, c:1, a:1), (f:1), (c:1)} ∅ A {(f:3, c:3)} {(f:3, c:3)}|a C {(f:3)} ∅ F ∅ ∅ 3.4 Phân tích, đánh giá việc thực hiện thuật toán 3.4.1 Phân tích thuật toán song song Đánh giá thuật toán chủ yếu vào thời gian thực tính theo hàm kích cỡ liệu vào (input) Hàm gọi độ phức tạp tính toán thời gian f(n) thuật toán ký hiệu O(f(n)) Một cách hình thức, O() định nghĩa sau: Một thuật toán có độ phức tạp tính toán tính toán f(n) = O(g(x)) ⇔ Tồn số dương C số nguyên x0 cho ≤ f(x) ≤ C * g(x), với số lượng liệu vào x≥x0 O(1) ký hiệu cho số Ngoài ra, độ phức tạp tính toán thuật toán song song phụ thuộc vào kiến trúc máy tính song song số lượng xử lý phép sử dụng hệ thống phụ thuộc vào thời gian trao đổi liệu xử lý Độ phức tạp thời gian thước đo quan trọng đánh giá mức độ hiệu thuật toán song song Giả sử mô hình tính toán có p xử lý; dẫn đến mức độ song song có giới hạn; ngược lại, không bị giới hạn số lượng xử lý không bị chặn Mức độ hiệu thuật toán thể mức độ song song thuật toán Là số lượng cực đại phép toán độc lập thực đồng thời thời điểm thực thuật toán Ký hiệu p(w) độ song song thuật toán, thuật toán đạt hiệu để giải toán có kích cỡ w thuật toán cần sử dụng nhiều p(w) xử lý Độ phức tạp thời gian thuật toán song song sử dụng p xử lý để giải toán có kích cỡ n hàm f(n, p) xác định thời gian cực đại trôi qua điểm bắt đầu thực 32 thuật toán xử lý thời điểm kết thúc xử lý liệu vào Có hai thao tác khác thuật toán song song: - Các phép toán sở như: +, -, *, /, AND, OR,… - Các phép truyền liệu kênh truyền Vì độ phức tạp thời gian thuật toán song song xác định số phép toán sở số bước truyền tải liệu xử lý với Nên từ suy ra, độ phức tạp thời gian thuật toán song song không phụ thuộc vào mô hình tính toán mà phụ thuộc vào xử lý sử dụng Định nghĩa liên quan đến độ phức tạp giải thuật song song là: Định nghĩa 1: Một thuật toán song song có độ phức tạp tính toán O(t) với p xử lý thực nhiều O(t * p) phép toán sở Định nghĩa 2: Một thuật toán song song có độ phức tạp tính toán O(t) sử dụng nhiều xử lý để thực O(e) phép toán sở cài đặt với p xử lý có độ phức tạp thời gian O([e/p]+t) Định nghĩa 3: Một thuật toán song song có độ phức tạp tính toán O(t) với p xử lý cài đặt với [p/f] xử lý (1≤ f ≤ p) có độ phức tạp thời gian O(f * t) Ngoài ra, đánh giá thuật toán song song cần phải xét tới độ tăng tốc hiệu suất 3.4.2 Đánh giá việc thực hiện các thuật toán Trong số thuật toán khai phá liệu luật kết hợp song song, thuật toán song song cài đặt dựa thuật toán Apriori (chẳng hạn thuật toán CD, DD, Candidate distribution) sử dụng phổ biến thực thi chúng đơn giản dễ dàng Hơn nữa, luật kết hợp sinh trực tiếp dựa vào cách thức khai phá tập mục Bởi tập mục ứng cử sinh ta tất thông tin tập tính toán Tốc độ thực thuật toán tỉ lệ với số lượng giao dịch gặp khó khăn việc xử lý nhiều mục nhiều mẫu CSDL lớn Thuật toán song song Eclat có ưu điểm tính toán nhanh độ hỗ trợ thông qua tập giao dịch tid-List Thuật toán thiết kế dựa mô hình song song thao tác, có tốc độ thực thi nhanh hệ thống đa xử lý nhớ phân tán Hạn chế chủ yếu thuật toán chúng cần phải sinh phân bố lại tid-List Hơn nữa, với tập mục phổ biến có kích thước lớn, phần chung chủ yếu tid-List lấy giao lặp lại nhiều lần tất tập Để giảm bớt tình trạng này, cách thiết lập tối ưu khác kiểm tra thay đổi tid-List thay cho 33 việc lưu giữ tid-List toàn cục thông qua vòng lặp cho giảm đáng kể khối lượng liệu tính toán 34 KẾT LUẬN VÀ KIẾN NGHỊ Khai phá liệu lĩnh vực quan trọng, bao gồm nhiều lĩnh vực nhiều kỹ thuật khác Luận văn đề cập đến nội dung phát tri thức, khai phá liệu Ứng dụng khai phá liệu lớn có ích hoạt động sản xuất, kinh doanh trợ giúp cho việc hoạch định chiến lược nhà quản lý hỗ trợ định Bên cạnh, luận văn đề cập đến khó khăn, thách thức việc ứng dụng nghiên cứu kỹ thuật khai phá liệu Về mặt lý thuyết, khai phá liệu công đoạn tiến trình lớn , tiến trình khám phá tri thức từ CSDL Trong báo cáo trình bày chi tiết vấn đề khai phá luật kết hợp Về thuật toán khai phá luật kết hợp, luận văn trình bày số thuật toán tiêu biểu khai phá luật kết hợp như: Apriori, phân hoạch, AIS, ,… Trên sở thuật toán tuần tự, báo cáo trình bày chi tiết thuật toán song song Count Distribution, Data Distribution, Candidate Distribution, Eclat, FP-Growth Trong trình thực tập, tìm hiểu nghiên cứu với khoảng thời gian làm báo cáo, cố gắng tập trung tìm hiểu tham khảo tài liệu liên quan Tuy nhiên thời gian nghiên cứu có hạn nên không tránh khỏi thiếu sót mong nhận nhận xét đóng góp ý kiến thầy cô giáo để bài báo cáo hoàn thiện 35 TÀI LIỆU THAM KHẢO Đoàn Văn Ban, Nguyễn Mậu Hân (2006) Xử lý song song và phân tán, NXB Khoa học và kỹ thuật Hà Nội Nguyễn Thanh Bình (2007), Khai phá dữ liệu: Khái niệm và kỹ thuật, Huế Đỗ Phúc (2006), Giáo trình khai phá dữ liệu, NXB Đại học Quốc gia TP.HCM Bài giảng Khai phá dữ liệu, trường Đại học hàng hải Việt Nam 36 [...]... tra luật AB => CD vì AB⊂ ABC nên sup (AB) ≥ sup (ABC) và do đó < minconf 16 ≥ CHƯƠNG III : MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP SONG SONG VÀ PHÂN TÍCH ĐÁNH GIÁ CÁC THUẬT TOÁN 3.1 Nguyên lý thiết kế thuật toán song song Những thuật toán, trong đó có một số thao tác có thể thực hiện đồng thời được gọi là thuật toán song song Tổng quát hơn, thuật toán song. .. toán là cấu hình topo liên kết của các đơn vị xử lý - Thuật toán song song phải được thiết kế dựa trên những kiến thức về kiến trúc máy tính, ngôn ngữ lập trình song song các phướng pháp tính toán 3.2 Hướng tiếp cận chính trong thiết kế thuật toán khai phá luật kết hợp song song Hai hướng tiếp cận chính trong thiết kế thuật toán khai phá luật kết. .. sup(L-C) ⇒ ≥ minconf 2.2 Khai phá luật kết hợp Bài toán khai phá luật kết hợp trên một CSDL được chia thành hai bài toán nhỏ Bài toán thứ nhất là tìm tất cả các tập mục dữ liệu có độ hỗ trợ thỏa ngưỡng tối thiểu cho trước, gọi là tập các mục dữ liệu thường xuyên Bài toán thứ hai là tìm ra những luật kết hợp từ những tập mục dữ liệu thường xuyên... tiếp cận chính trong thiết kế thuật toán khai phá luật kết hợp song song đó là : mô hình song song dữ liệu và mô hình song song thao tác 17 3.2.1 Mô hình song song dữ liệu Hình 3.1 Mô hình song song dữ liệu Mô hình song song dữ liệu thực thi thao tác giống nhau hay thực thi lệnh trên một tập con dữ liệu cùng một thời điểm Tất cả các bộ xử lý thực hiện chương... trên một hay một vài bộ xử lý Trong mô hình song song dữ liệu, dữ liệu cần phải phân chia thành các tập con dữ liệu để tăng tốc đạt được bằng cách giảm khối lượng dữ liệu cần được xử lý trên mỗi bộ xử lý Thuật toán được thiết kế dựa vào mô hình song song dữ liệu dễ dàng thực thi, ít phụ thuộc vào kiến trúc máy tính song song và năng suất cao... Các thuật toán song song được thiết kết dựa vào mô hình song song thao tác có độ phức tạp tính toán nhỏ hơn so với các thuật toán tuần tự do thao tác được chia thành những thao tác nhỏ hơn để dễ xử lý Tuy nhiên, việc thực thi các thuật toán này lại phụ thuộc vào kiến trúc máy tính song song và mang tính chuyên dụng 18 3.3 Một số thuật toán khai phá. .. thi  Khai phá tập mục song song Thuật toán khai phá mẫu phổ biến song song gồm 2 nhiệm vụ chính sau: 1 Xây dựng song song FP- Tree Giai đoạn đầu của thuật toán khai phá song song là xây dựng các Fp- tree đồng thời trên mỗi bộ xử lý tương tự như thuật toán CD, ta chia CSDL giao dịch D cho P bộ xử lý Đảm bảo rằng mỗi bộ xử lý có N/P giao dịch (D N/P), N và. .. Bài toán thứ hai là đơn giản, hầu hết nghiên cứu về luật kết hợp tập trung ở bài toán thứ nhất 2.3 Cách tiếp cận khai phá luật kết hợp Khai phá luật kết hợp là một lĩnh vực nghiên cứu được nhiều người quan tâm và có nhiều kết quả đã được công bố Dưới đây chỉ giới thiệu một số cách tiếp cận cơ bản, làm cơ sở để phát triển các thuật toán. .. khai phá luật kết hợp song song 3.3.1 Thuật toán Count Distribution (CD) Thuật toán sử dụng kiến trúc không chia sẻ, mỗi bộ xử lý có một bộ xử lý chính và bộ nhớ phụ riêng Các bộ xử lý này được kết nối với nhau bởi một mạng truyền thông và có thể được truyền thông tin cho nhau bằng việc truyền thông điệp Dựa trên mô hình song song dữ liệu, dữ liệu. .. tối thiểu cho trước Phát triển thuật toán khai phá luật kết hợp, là làm giảm độ phức tạp tính toán của thuật toán để cải thiện tốc độ xử lý Ta có thể phân loại các thuật toán tìm tập thường xuyên theo hai tiêu chí : • Phương pháp duyệt qua không gian tìm kiếm • Phương pháp xác định độ hỗ trợ của tập mục dữ liệu Với phương pháp duyệt qua không

Ngày đăng: 27/06/2016, 14:02

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • DANH MỤC HÌNH

  • LỜI MỞ ĐẦU

  • CHƯƠNG I: TỔNG QUAN KHO DỮ LIỆU VÀ KHAI PHÁ

  • DỮ LIỆU

  • CHƯƠNG II: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ

  • DỮ LIỆU

  • CHƯƠNG III : MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ LUẬT

  • KẾT HỢP SONG SONG VÀ PHÂN TÍCH ĐÁNH GIÁ

  • CÁC THUẬT TOÁN

Tài liệu cùng người dùng

Tài liệu liên quan