đề tài Ứng dụng luật kết hợp trong phân tán

MỤC LỤC 1.2 Những thách thức trong Khai phá dữ liệu 8 1.3 Những vấn đề được chú trọng trong Khai phá dữ liệu 9 1 LỜI NÓI ĐẦU Trong thời đại ngày nay, Internet phát triển rộng lớn khắp toàn cầu, cùng với sự bùng nổ của ngành Công nghệ thông tin và những điều kiện phát triển của nó, các công nghệ lưu trữ dữ liệu và phục hồi dữ liệu ngày càng phát triển nhanh chóng tạo điều kiện cho các đơn vị thu thập dữ liệu nhiều hơn và tốt hơn. Chính vì lý do này mà cơ sở dữ liệu ở các cơ quan, doanh nghiệp, đơn vị, trường học ngày càng nhiều thông tin tiềm ẩn, phong phú và đa dạng; đặc biệt trong việc học tập các môn học của học viên, các nhà trường đã nhận thức được tầm quan trọng của việc nắm bắt và xử lý thông tin, sử dụng những tri thức được chiết xuất từ cơ sở dữ liệu để phục vụ cho việc dự đoán phân loại học viên trong các môn học tiếp theo trong quá trình học tập của học viên tại nhà trường. Trước những điều kiện và yêu cầu đặt ra của nhiệm vụ đào tạo, đòi hỏi phải có những phương pháp nhanh, phù hợp, tự động, chính xác và có hiệu quả để lấy được thông tin có giá trị. Khai phá dữ liệu là một kỹ thuật được áp dụng rất hiệu quả phục vụ cho mục đích này; là một khâu trong quá trình khám phá tri thức, khai phá dữ liệu làm nhiệm vụ trích xuất các thông tin có giá trị tiềm ẩn trong những kho dữ liệu; hiện nay, kỹ thuật này đang được áp dụng một cách rộng rãi trong rất nhiều lĩnh vực kinh doanh và đời sống khác nhau như: y tế, marketing, ngân hàng, viễn thông, Internet,…. Không ai có thể phủ nhận những lợi ích to lớn mà nhờ áp dụng kỹ thuật khai phá đem lại. Nhận thấy tầm quan trọng của vấn đề này, trong nội dung bài tập lớn của nhóm em đã nghiên cứu về kỹ thuật khai phá dữ liệu, trong đó tập trung vào tìm luật kết hợp của khai phá dữ liệu với mục đích đưa ra tập luật để đưa ra quyết định trong 1 việc thực tế nào đó. Nhóm xin chân thành cảm ơn thầy giáo hướng dẫn Đại tá, PGS.TS Nguyễn Bá Tường đã tận tình hướng dẫn, chỉ bảo, giúp đỡ cho nhóm trong quá trình làm bài tập lớn, để nhóm có thể hoàn thành tốt bài tập. 2 CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá dữ liệu Khai phá dữ liệu là quá trình khai thác những thông tin tiềm ẩn có tính dự đoán, những thông tin có nhiều ý nghĩa từ những cơ sở dữ liệu lớn, nó được coi như là một bước trong quá trình khám phá tri thức (Knowledge Discovery in Databases – KDD). Khai phá dữ liệu là giai đoạn quan trọng nhất trong tiến trình khám phá tri thức từ cơ sở dữ liệu, các tri thức này có rất nhiều ý nghĩa, là cơ sở hỗ trợ trong việc ra quyết định trong khoa học và kinh doanh. Các bước trong quá trình khám phá tri thức: - Làm sạch dữ liệu (Data cleaning): loại bỏ dữ liệu nhiễu hoặc dữ liệu không thích hợp. - Tích hợp dữ liệu (Data Intergration): Tích hợp dữ liệu từ các nguồn khác nhau như CSDL, kho dữ liệu, file text, - Trích chọn dữ liệu (data selection): trích chọn những tập dữ liệu cần được khai phá từ các tập dữ liệu lớn ban đầu (database, data warehouses,…) theo một số tiêu chí nhất định. - Biến đổi dữ liệu (data transformation): chuẩn hoá và làm mịn dữ liệu, đưa dữ liệu về dạng thuận lợi nhất, phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp. - Khai phá dữ liệu (data mining): là giai đoạn thiết yếu, đây là bước quan trọng và tốn nhiều thời gian nhất của toàn bộ quá trình khám phá tri thức, đây là bước áp dụng những kỹ thuật khai phá để khai thác, trích xuất thông tin có ích, những mẫu điển hình, những mối liên hệ đặc biệt có nhiều giá trị, mang nhiều ý nghĩa từ dữ liệu. - Đánh giá mẫu (Pattern Evaluation): đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa vào một số phép đo. 3 - Trình diễn dữ liệu (knowledge presentation): sử dụng các kỹ thuật trình diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng. Hình 1.1 Các bước trong quá trình khám phá trí thức. Khai phá dữ liệu là một lĩnh vực liên quan tới rất nhiều ngành học khác như: hệ Cơ sở dữ liệu, thống kê, trực quan hoá. Tuỳ vào cách tiếp cận được sử dụng, khai phá dữ liệu còn có thể áp dụng một số kỹ thuật như mạng nơron, lý thuyết tập thô hoặc tập mờ, biểu diễn tri thức,… So với các phương pháp này, khai phá dữ liệu có một số ưu thế rõ rệt, cụ thể:  Phương pháp hệ chuyên gia: phương pháp này khác với khai phá dữ liệu ở chỗ các ví dụ của hệ chuyên gia thường ở mức chất lượng cao hơn nhiều so với các dữ liệu trong cơ sở dữ liệu và chúng thường chỉ bao hàm được các trường hợp quan trọng. Ngoài ra, các chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện được.  So sánh với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai phá dữ liệu có thể sử dụng với các cơ sở dữ liệu chứa nhiều nhiễu, dữ liệu không đầy đủ hoặc biến đổi liên tục. Trong khi đó, phương pháp học 4 máy chủ yếu được áp dụng trong các cơ sở dữ liệu đầy đủ, ít biến động và tập dữ liệu không quá lớn.  Phương pháp thống kê là một trong những nền tảng lý thuyết của Khai phá dữ liệu nhưng phương pháp thống kê còn tồn tại một số điểm yếu mà Khai phá dữ liệu đã khắc phục được:  Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu trúc trong rất nhiều các cơ sở dữ liệu.  Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó không sử dụng tri thức sẵn có về lĩnh vực.  Kết quả phân tích của thống kê có thể sẽ rất nhiều và khó có thể làm rõ được.  Phương pháp thống kê còn có sự hướng dẫn của người dùng để xác định phân tích dữ liệu như thế nào và ở đâu. Các kỹ thuật khai phá dữ liệu được chia làm 2 nhóm chính: - Kỹ thuật khai phá dữ liệu mô tả: mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trong CSDL, các kỹ thuật này gồm có: phân cụm (clustering), tóm tắt (sumerization), trực quan hoá (visualization), phân tích sự phát triển và độ lệch (Evolution and deviation analyst), phân tích luật kết hợp (association rules),… - Kỹ thuật khai phá dữ liệu dự đoán: đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời, các kỹ thuật này gồm có: phân lớp (classification), hồi quy (regression),… Các bài toán chính trong khai phá dữ liệu: 3 bài toán thông dụng và phổ biến nhất là: - Bài toán phân lớp dữ liệu và hồi quy: Mục tiêu của phương pháp phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu. Quá trình phân lớp dữ liệu thường gồm 2 bước: xây dựng mô hình và sử dụng mô hình để phân lớp. + Xây dựng mô hình: một mô hình sẽ được xây dựng trên việc phân tích các mẫu dữ liệu sẵn có. Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là thuộc tính lớp. Các mẫu dữ liệu này còn được gọi là tập dữ liệu 5 huấn luyện. Các nhãn lớp của tập dữ liệu huấn luyện đều phải được xác định trước khi xây dựng mô hình, vì vậy phương pháp này còn được gọi là học có giám sát, khác với phân cụm dữ liệu là học không có giám sát. + Sử dụng mô hình để phân lớp dữ liệu: trước hết ta tính toán độ chính xác của mô hình. Nếu độ chính xác là chấp nhận được, mô hình sẽ được sử dụng để dự đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai. Phương pháp hồi quy khác với phân lớp dữ liệu ở chỗ, hồi quy dùng để dự đoán về các giá trị liên tục còn phân lớp dữ liệu thì chỉ dùng để dự đoán về các giá trị rời rạc. - Bài toán phân cụm (clustering/segmentation): Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng. Phân cụm dữ liệu là một ví dụ của phương pháp học không giám sát. Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luỵện. Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng quan sát (learning by observation), trong khi phân lớp dữ liệu là học bằng ví dụ (learning by example). Với phương pháp này ta không thể biết kết quả các cụm thu được sẽ thế nào khi bắt đầu quá trình, do đó luôn cần một chuyên gia về lĩnh vực đó để đánh giá các cụm thu được. Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web… Ngoài ra, phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác. - Bài toán luật kết hợp: là dạng biểu diễn tri thức ở dạng khá đơn giản, mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong CSDL. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được, ví dụ: “75% học viên học tốt môn cấu trúc dữ liệu và giải thuật thì học tốt môn lập trình hướng đối tượng, 30% sinh viên học tốt cả môn cấu trúc dữ liệu và giải thuật và môn lập trình hướng đối tượng”. Ở đây, “học tốt môn cấu trúc dữ liệu 6 và giải thuật” là vế trái của luật, “học tốt môn lập trình hướng đối tượng” là vế phải của luật, con số 75% là độ tin cậy của luật, con số 30% là độ hỗ trợ của luật. Độ hỗ trợ và độ tin cậy là 2 độ đo đặc trưng và quan trọng của luật. Chúng tương ứng phản ánh sự hữu ích và sự chắc chắn của luật đã khám phá. Độ hỗ trợ 30% có nghĩa là 30% của tất cả các học viên đã phân tích chỉ ra rằng học viên đồng thời học tốt cả hai môn cấu trúc dữ liệu và giải thuật và môn lập trình hướng đối tượng. Độ tin cậy 75% có nghĩa là 75% các học viên học tốt môn cấu trúc dữ liệu và giải thuật cũng học tốt môn lập trình hướng đối tượng. Ngoài ra còn một số bài toán khác như: - Bài toán khai phá chuỗi theo thời gian (sequential/temporal patterns): tương tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian - Bài toán mô tả khái niệm (concept description & summarization): tập trung vào việc mô tả, tổng hợp và tóm tắt khái niệm. Ví dụ: tóm tắt văn bản, mô tả khái niệm,… Những công cụ khai phá dữ liệu có thể dự đoán những xu hướng trong tương lai và do đó cho phép doanh nghiệp ra những quyết định kịp thời được định hướng bởi tri thức mà khai phá dữ liệu mang lại. Những ứng dụng điển hình của khai phá dữ liệu:  Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis and decision support)  Text mining & Webmining: phân lớp văn bản và các trang Web, tóm tắt văn bản, tìm kiếm thông tin,…  Tin – sinh: tìm kiếm, đối sánh các quan hệ gen và thông tin di truyền, mối liên hệ giữa một số hệ gen và một số bệnh di truyền,…  Điều trị y học: (medical treatment): mối liên hệ giữa triệu chứng, chẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc men,…)  Tài chính và thị trường chứng khoán (finance & stock market): phân tích tình hình tài chính và dự báo giá của các loại cổ phiếu trong thị trường chứng khoán,… 7 Những ứng dụng thực tế: + Ngành bảo hiểm y tế Australia đã dựa vào việc chẩn đoán bệnh trong y tế dựa trên kết quả xét nghiệm và đã phát hiện ra nhiều trường hợp xét nghiệm không hợp lý, tiết kiệm được 1 triệu USD/năm. + Trang Web mua bán qua mạng Amazon.com cũng tăng doanh thu nhờ áp dụng khái phá dữ liệu trong việc phân tích sở thích mua bán của khách hàng. + Bitish Telecom đã phát hiện ra những nhóm người thường xuyên gọi cho nhau bằng mobile và thu lợi hàng triệu USD. 1.2 Những thách thức trong Khai phá dữ liệu • CSDL có kích thước lớn: Các CSDL có tới hàng trăm bảng, mỗi bảng hàng trăm trường, số lượng bản ghi cỡ hàng triệu, kích thước các CSDL dạng này ở mức gigabyte. • Số chiều dữ liệu nhiều: Một vấn đề rất khó khăn khi giải quyết các bài toán KPDL là số chiều của dữ liệu rất lớn (số thuộc tính, số biến). Việc gia tăng số chiều khiến các thuật toán tìm kiếm trong không gian tìm kiếm nếu không được mở rộng thì rất khó đạt được hiệu quả. • Over-fitting: Với các hệ thống KPDL theo mô hình học có giám sát, tức là học quy nạp thì rất có thể diễn ra tình trạng hệ thống học vẹt, trên tập dữ liệu huấn luyện thì kết quả rất tốt, nhưng trên tập kiểm tra thì kết quả rất tồi. Đây là một vấn đề mang tính bản chất cố hữu của các hệ thống học máy. • Sự thay đổi dữ liệu và tri thức: Sự thay đổi nhanh chóng của dữ liệu có thể làm cho các hệ thống KPDL đã được xây dựng trước đó hoạt động không chính xác. Các thuộc tính đầu vào của các hệ KPDL trong quá trình thực tế, có thể bị chỉnh sửa, loại bỏ…. • Dữ liệu nhiễu, dữ liệu không đầy đủ: Vấn đề xử lý dữ liệu không đầy đủ và lẫn nhiễu đã trở thành một phần trong toàn bộ quá trình KPDL. Vấn đề này càng trở nên nghiêm trọng khi dữ liệu của các ứng dụng thực tế có tỷ lệ lỗi lên đến 20%. 8 • Mối quan hệ phức tạp giữa các lĩnh vực: Cấu trúc hình cây và thuộc tính hoặc giá trị, mối quan hệ giữa các thuộc tính, thuộc tính ẩn, có tính trừu tượng cao… đòi hỏi phải có những thuật toán đủ mạnh để giải quyết. • Khả năng giải thích: Một số hệ thống KPDL yêu cầu tính giải thích những tri thức rút được từ dữ liệu. Những tri thức này được mô tả dưới dạng các tập luật, hoặc mô hình đồ thị, ngôn ngữ tự nhiên hay sử dụng các kỹ thuật trực quan hoá dữ liệu và tri thức…. • Khả năng tích hợp với các hệ thống khác: Hệ thống để đạt được hiệu quả và khả năng cao nhất thì phải được tích hợp với các hệ thống khác, ví dụ như các hệ sensor đầu thu dữ liệu, các công cụ bảng tính, trực quan dữ liệu. 1.3 Những vấn đề được chú trọng trong Khai phá dữ liệu KPDL là một lĩnh vực mới, do đó đang còn rất nhiều vấn đề chưa đuợc nghiên cứu một cách trọn vẹn. Sau đây là một số hướng nghiên cứu đã và đang thu hút được sự chú ý của các nhà tin học. • OLAM (OnLine Analytical Mining) - Sự tích hợp giữa CSDL, kho dữ liệu, và KPDL. Hiện nay một số hệ quản trị CSDL như Oracle, MS SQL Server, DB2 đã tích hợp tính năng xây dựng kho dữ liệu và phân tích trực tuyến (OLAP). Những nhà nghiên cứu trong lĩnh vực CSDL mong muốn có một sự tích hợp giữa CSDL, kho dữ liệu và KPDL. • Khám phá được nhiều dạng tri thức khác nhau từ nhiều kiểu dữ liệu. • Tính hiệu quả, tính chính xác, độ phức tạp tính toán, khả năng mở rộng và tích hợp, xử lý nhiễu và dữ liệu không đầy đủ, tính hữu dụng (ý nghĩa) của tri thức. • Kết hợp KPDL với tri thức cơ sở. • Vấn đề song song hóa và phân tán quá trình KPDL. • Ngôn ngữ truy vấn trong KPDL (Data Mining Query Language – DMQL): cung cấp cho người sử dụng một ngôn ngữ hỏi thuận tiện tương tự như SQL đối với CSDL quan hệ. 9 • Biểu diễn và trực quan hóa tri thức khai phá được sao cho gần gũi với người sử dụng. Tri thức có thể biểu diễn đa chiều, đa tầng để sử dụng tri thức hiệu quả hơn. 10 [...]... chúng Một số hướng tiếp cận trong khai thác luật kết hợp: lĩnh vực khai thác luật kết hợp cho đến nay đã được nghiên cứu và phát triển theo nhiều hướng khác nhau Một số hướng chính rất được quan tâm như: - Luật kết hợp nhị phân (binary association rule): là hướng nghiên cứu đầu tiên của luật kết hợp Theo dạng luật kết hợp này thì các items chỉ được quan tâm có hay không xuất hiện trong cơ sở dữ liệu giao... dạng nhị phân để có thể áp dụng các thuật toán đã có - Luật kết hợp tiếp cận theo hướng tập thô (mining association rules base on rough set): tìm kiếm luật kết hợp dựa trên lý thuyết tập thô - Luật kết hợp nhiều mức (multi – level association rules): cách tiếp cận luật kết hợp này sẽ tìm kiếm thêm những luật có dạng: mua máy tính ⇒ mua hệ điều hành Window & mua phần mềm diệt vi rút - Luật kết hợp mờ... phá dữ liệu Luật kết hợp được ứng dụng trong nhiều lĩnh vực: Phân tích bán hàng trong siêu thị, cross-marketing, thiết kế catalog, loss-leader analysis, gom cụm, phân lớp, … 3.2 Thuật toán chung cho luật kết hợp  Trong lần duyệt đầu tiên, độ hỗ trợ của mỗi tập riêng biệt được tính toán và mỗi tập phổ biến được xác định  Trong mỗi lần duyệt sau đó, các tập item phổ biến được xác định trong lần duyệt... ∂ ( Milk , Diaper , Beer ) : số giao dịch có chứa cả tiền đề và kết luận, tức có chứa đồng thời (Milk, Diaper, Beer)  ∂ ( Milk , Diaper ) : số giao dịch có chứa phần tiền đề (Milk, Diaper) 3.1.2 Ứng dụng của luật kết hợp 14 Luật kết hợp là một dạng luật khá đơn giản nhưng mang lại rất nhiều ý nghĩa, tri thức đem lại bởi luật kết hợp có một sự khác biệt cơ bản so với thông tin thu được từ các...CHƯƠNG II: CÁC THUẬT TOÁN TÌM LUẬT KẾT HỢP 3.1 Luật kết hợp Được đưa ra bởi Agrawal vào năm 1993 Nó là một mô hình khai phá dữ liệu quan trọng được nghiên cứu một cách rộng rãi trên cơ sở dữ liệu Phân tích luật kết hợp là một trong những phương pháp của khai phá dữ liệu, nhiệm vụ của phương pháp này là phân tích dữ liệu trong cơ sở dữ liệu nhằm phát hiện và đưa ra những mối... số, các nhà nghiên cứu đề xuất luật kết hợp mờ khắc phục hạn chế đó và chuyển luật kết hợp về một dạng gần gũi hơn - Luật kết hợp với thuộc tính được đánh trọng số (associaton rule with weighted items): các thuộc tính trong cơ sở dữ liệu thường không có vai trò như nhau Có một số thuộc tính quan trọng và được chú trọng hơn các thuộc tính khác Vì vậy, trong quá trình tìm kiếm luật các thuộc tính được... tập ứng cử viên được tạo ra sử dụng các phép kết hợp và cũng có chứa các TID Thuật toán này được đề cập qua việc mong muốn sử dụng SQL để tính toán các tập item lớn Giống như AIS, thuật toán SETM cũng tạo ra các ứng cử viên dựa trên các giao dịch đọc từ CSDL Theo đó, nó tạo ra và tính toán mọi tập ứng cử viên mà thuật toán AIS tạo ra Tuy nhiên, để sử dụng phép toán kết hợp chuẩn SQL cho việc tạo ứng. .. báo đang tiềm ẩn trong dữ liệu Những tri thức này không đơn giản chỉ là kết quả của các phép nhóm, tính tổng hay sắp xếp mà là kết quả của một quá trình tính toán phức tạp và tốn nhiều thời gian Thông tin mà luật kết hợp đem lại là rất đáng kể và hỗ trợ không nhỏ trong quá trình ra quyết định Tìm kiếm được những luật kết hợp “quý hiếm” và mang nhiều thông tin từ CSDL tác nghiệp là một trong những hướng... theo dạng luật này là thuật toán Apriori - Luật kết hợp có thuộc tính số và thuộc tính hạng mục (quantitative & categorial association rule): các cơ sở dữ liệu thực tế thường có các thuộc tính đa dạng như nhị phân, số,… chứ không nhất quán ở một dạng nào cả Vì vậy, để khai thác luật kết hợp với các cơ sở dữ liệu này, các nhà nghiên cứu đề xuất một số 11 phương pháp rời rạc hoá nhằm chuyển dạng luật này... item i, hash on mỗi item sau i trong t, áp dụng một cách đệ quy tới các nút trong bucket tương ứng - tại nút gốc, hash on mọi item trong t Bước kết hợp sử dụng Hash Tree Chỉ những tập phổ biến k-1 item có các cha chung mới được xem xét cho bước kết hợp Vì vậy việc kiểm tra tất cả các tập k-1 item trong Lk-1 được tránh Bước tỉa sử dụng Hash Tree Để xác định một tập k-1 item có là phổ biến không, chúng ta . Làm sạch dữ liệu (Data cleaning): loại bỏ dữ liệu nhiễu hoặc dữ liệu không thích hợp. - Tích hợp dữ liệu (Data Intergration): Tích hợp dữ liệu từ các nguồn khác nhau như CSDL, kho dữ liệu, file. nghệ lưu trữ dữ liệu và phục hồi dữ liệu ngày càng phát triển nhanh chóng tạo điều kiện cho các đơn vị thu thập dữ liệu nhiều hơn và tốt hơn. Chính vì lý do này mà cơ sở dữ liệu ở các cơ quan,. phá dữ liệu: 3 bài toán thông dụng và phổ biến nhất là: - Bài toán phân lớp dữ liệu và hồi quy: Mục tiêu của phương pháp phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu. Quá trình phân

đề tài Ứng dụng luật kết hợp trong phân tán

Thông tin tài liệu

Từ khóa liên quan

Mục lục

1.2 Những thách thức trong Khai phá dữ liệu

1.3 Những vấn đề được chú trọng trong Khai phá dữ liệu

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan