Khai phá tập mục thường xuyên đóng trên dòng dữ liệu

64 583 1
Khai phá tập mục thường xuyên đóng trên dòng dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG  PHẠM THỊ LÝ Tên đề tài: KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN ĐÓNG TRÊN DÕNG DỮ LIỆU Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số : 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Hƣớng dẫn khoa học: TS. NGUYỄN HUY ĐỨC Thái Nguyên - 2014 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 2 MỞ ĐẦU Khai phá dữ liệu (Data Mining), hiện nay đang đƣợc rất nhiều ngƣời chú ý. Nó thực sự đã đem lại những lợi ích đáng kể trong việc cung cấp những thông tin tiềm ẩn trong các cơ sở dữ liệu lớn, giúp ngƣời sử dụng thu đƣợc những tri thức hữu ích từ những cơ sở dữ liệu hoặc các kho dữ liệu khổng lồ khác. Những “tri thức” chiết xuất từ nguồn cơ sở dữ liệu đó phục vụ các yêu cầu trợ giúp quyết định ngày càng có ý nghĩa quan trọng và là nhu cầu to lớn trong mọi lĩnh vực hoạt động kinh doanh, quản lý. Tiến hành công việc nhƣ vậy chính là thực hiện quá trình phát triển tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database) mà trong đó kỹ thuật khai phá dữ liệu (Data Mining) cho phép phát hiện những tri thức tiềm ẩn. Một trong các nội dung cơ bản trong khai phá dữ liệukhai phá luật kết hợp. Khai phá luật kết hợp gồm hai bƣớc: Bƣớc thứ nhất, tìm tất cả các tập mục thƣờng xuyên, đòi hỏi sự tính toán lớn. Bƣớc thứ hai, dựa vào các tập mục thƣờng xuyên tìm các luật kết hợp, đòi hỏi tính toán ít hơn, song gặp phải một vấn đề là có thể sinh ra quá nhiều luật, vƣợt khỏi sự kiểm soát của ngƣời khai phá hoặc ngƣời dùng, trong đó có nhiều luật không cần thiết. Để giải quyết vấn đề đó, trong bƣớc thứ nhất, không cần thiết khai phá tất cả các tập mục thƣờng xuyên mà chỉ cần khai phá các tập mục thƣờng xuyên đóng. Khai phá luật kết hợp dựa trên tập mục thƣờng xuyên đóng cho hiệu quả cao hơn, nó đảm bảo không tìm ra các tập mục thƣờng xuyên không cần thiết, không sinh ra các luật dƣ thừa.Với ý nghĩa đó và mục đích tìm hiểu về bài toán tìm tập mục thƣờng xuyên trên dòng dữ liệu, em đã quyết định lựa chọn đề tài “Khai phá tập mục thƣờng xuyên đóng trên dòng dữ liệu”. Nội dung luận văn gồm 3 chƣơng: Chương 1: Tổng quan về khai phá dữ liệu Chương 2: Khai phá tập mục thường xuyên đóng trên dòng dữ liệu Chương 3: Chương trình thực nghiệm ứng dụng Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 3 CHƢƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1. Khái niệm về khám phá tri thức và khai phá dữ liệu. KPDL (Khai phá dữ liệu) là việc rút trích tri thức một cách tự động và hiệu quả từ một khối dữ liệu lớn. Tri thức đó thƣờng ở dạng các mẫu có tính chất không tầm thƣờng, không tƣờng minh (ẩn), chƣa đƣợc biết đến và có tiềm năng mang lại lợi ích. Có một số nhà nghiên cứu còn gọi khai phá dữ liệu là phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database - KDD). Ở đây chúng ta có thể coi KPDL là cốt lõi của quá trình phát hiện tri thức. Quá trình phát hiện tri thức gồm các bƣớc sau : Bước 1: Trích chọn dữ liệu (Data Selection). Là bƣớc trích chọn những tập dữ liệu cần đƣợc khai phá từ các tập dữ liệu lớn (databases, data warehouses). Bước 2: Tiền xử lý dữ liệu ( Data preprocessing) là bƣớc làm sạch dữ liệu (Xử lý dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán…rút gọn dữ liệu (Sử dụng các phƣơng pháp thu gọn dữ liệu, histograms, lấy mẫu, v v ) rời rạc hóa dữ liệu (dựa vào histograms, entropy, phân khoảng.v v ). Sau bƣớc này dữ liệu sẽ nhất quán, đầy đủ, đƣợc rút gọn và đƣợc rời rạc hóa. Bước 3: Biến đổi dữ liệu (Data transformation) Là bƣớc chuẩn hóa và làm mịn dữ liệu để đƣa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai thác ở bƣớc sau. Bước 4 : Khai phá dữ liệu (Data mining) Đây là bƣớc quan trọng và tốn nhiều thời gian nhất của quá trình khai phá tri thức, áp dụng các kỹ thuật khai phá phần lớn là các kỹ thuật của machine learning) để khai phá, trích chọn đƣợc các mẫu (pattern) thông tin, các mối liên hệ đặc biệt trong dữ liệu. Bước 5: Đánh giá và biểu diễn tri thức (Knowledge representation & evaluation) Dùng các kỹ thuật hiển thị dữ liệu để trình bày các thông tin (tri thức) và mối liên hệ đặc biệt trong dữ liệu đã đƣợc khai thác ở bƣớc trên biểu diễn dƣới dạng gần gũi với ngƣời sử dụng nhƣ đồ thị, cây, bảng biểu, luật…Đồng thời bƣớc này cũng đánh giá những tri thức khám phá đƣợc theo những tiêu chí nhất định. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 4 Trong giai đoạn khai phá dữ liệu, có thể cần sự tƣơng tác của ngƣời dung để điều chỉnh và rút ra các tri thức cần thiết. Các tri thức nhận đƣợc cũng có thể đƣợc lƣu và sử dụng lại. Hình 1.1: Qúa trình phát hiện tri thức Việc KPDL có thể đƣợc tiến hành trên một lƣợng lớn dữ liệu có trong các CSDL (Cơ sở dữ liệu), các kho dữ liệu hoặc trong các loại lƣu trữ thông tin khác. Các mẫu đáng quan tâm có thể đƣợc đƣa đến ngƣời dung hoặc đƣợc lƣu trữ trong một số cơ sở tri thức. 1.2. Kiến trúc của một hệ thống khai phá dữ liệu Kiến trúc của một hệ thống KPDL điển hình có thể có các thành phần nhƣ hình 1.2, [5], [9] CSDL, kho dữ liệu hoặc các lƣu trữ thông tin khác (Databases, Data warehouse, ). Đây là một hay một tập các CSDL, các kho dữ liệu, các trang tính hay các dạng lƣu trữ thông tin khác. Các kỹ thuật làm sạch dữ liệu và tích hợp dữ liệu có thể đƣợc thực hiện trên những dữ liệu này. Dữ liệu đã chọn Dữ liệu đã sạch Các mẫu Kho dữ liệu Các tri thức 2. Tiền xử lý dữ liệu data preprocessing 1. Trích chọn dữ liệu data selection 4 . Khai phá dữ liệu Data mining 3. Biến đổi dữ liệu data transformation 5. Đánh giá và biểu diễn tri thức knowledge representation & evaluation Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 5 Hình 1.2: Kiến trúc của một hệ thống khai phá dữ liệu - Máy chủ CSDL hay máy chủ kho dữ liệu ( Database or warehouse server ). Máy chủ này có trách nhiệm lấy dữ liệu thích hợp dựa trên các yêu cầu khai phá của ngƣời dùng. - Cơ sở tri thức (Knowledge base). Đây là nhiều tri thức đƣợc dùng để hƣớng dẫn việc tìm kiếm hay đánh giá độ quan trọng của các hình mẫu kết quả. - Máy KPDL (Data mining engine) Một hệ thống KPDL cần phải có một tập các modun chức năng để thực hiện công việc nhƣ: đặc trƣng hóa, kết hợp, phân lớp, phân cụm, phân tích sự tiến hóa. - Modun đánh giá mẫu (Pattern evaluation ) . Bộ phận này tƣơng tác với các modun KPDL để duyệt tìm các mẫu đáng đƣợc quan tâm. Nó có thể dung các ngƣỡng về độ quan tâm để lọc mẫu đã khám phá đƣợc. Cũng có thể modun đánh giá mẫu đƣợc tích hợp vào modun khám phá, tùy theo sự cài đặt của phƣơng pháp (Graphical interface) Giao diện đồ họa cho ngƣời dùng Đánh giá mẫu Máy khai phá dữ liệu Máy chủ CSDL hay kho dữ liệu Làm sạch, tích hợp dữ liệu, lọc Cơ sở dữ liệu Kho dữ liệu Các lƣu trữ thông tin khác Cơ sở tri thức (Knowledge-base) ( Pattern evaluation) (Data mining engine) (Database or Warehouse Server) Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 6 khai phá đƣợc dùng. - Giao diện người dung ( Graphical user interface ). Bộ phận này cho phép ngƣời dùng giao tiếp với hệ thống KPDL. Ngoài ra bộ phận này còn cho phép ngƣời dung xem các lƣợc đồ CSDL, lƣợc đồ kho dữ liệu (hay các cấu trúc dữ liệu), các đánh giá mẫu và hiển thị các mẫu trong khuôn dạng khác nhau. 1.3 Các giai đoạn của quá trình khai phá dữ liệu Các giải thuật khai phá dữ liệu thƣờng đƣợc miêu tả nhƣ những chƣơng trình hoạt động trực tiếp trên tệp dữ liệu. Với các phƣơng pháp học máy và thống kê trƣớc đây, thƣờng thì bƣớc đầu tiên là các giải thuật nạp toàn bộ tệp dữ liệu vào trong bộ nhớ. Khi chuyển sang các ứng dụng công nghiệp liên quan đến việc khai phá các kho dữ liệu, mô hình này không thể đáp ứng đƣợc. Không chỉ bởi vì nó không thể nạp hết dữ liệu vào trong bộ nhớ mà còn vì khó có thể chiết xuất dữ liệu ra các tệp đơn giản để phân tích đƣợc. Quá trình khai phá dữ liệu đƣợc thể hiện bởi mô hình sau [3]: Hình 1.3. Quá trình khai phá dữ liệu + Xác định nhiệm vụ: Xác định chính xác vấn đề cần giải quyết. + Xác định dữ liệu liên quan: Dùng để xây dựng giải pháp. + Thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho giải thuật khai phá dữ liệu có thể hiểu đƣợc. Ở đây có thể gặp một số vấn đề: dữ liệu phải đƣợc sao ra nhiều bản (nếu đƣợc chiết xuất vào các tệp), quản lý tập các tệp dữ Thống kê tóm tắt Xác định nhiệm vụ Xác định dữ liệu liên quan Thu thập và tiền xử lý DL Dữ liệu trực tiếp Giải thuật khai phá dữ liệu Mẫu Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 7 liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi v.v ). + Chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc khai phá dữ liệu: nhằm tìm đƣợc các mẫu (pattern) có ý nghĩa dƣới dạng biểu diễn tƣơng ứng với các ý nghĩa đó. 1.4. Một số kỹ thuật khai phá dữ liệu Mục đích của khai phá dữ liệu là chiết xuất ra các tri thức có lợi cho kinh doanh hay cho nghiên cứu khoa học… Do đó, ta có thể xem mục đích của khai phá dữ liệu sẽ là mô tả các sự kiện và dự đoán. Các mẫu khai phá dữ liệu phát hiện đƣợc nhằm vào mục đích này. Dự đoán liên quan đến việc sử dụng các biến hoặc các đối tƣợng (bản ghi) trong CSDL để chiết xuất ra các mẫu, dự đoán đƣợc những giá trị chƣa biết hoặc những giá trị tƣơng lai của các biến đáng quan tâm. Mô tả tập trung vào việc tìm kiếm các mẫu mô tả dữ liệu mà con ngƣời có thể hiểu đƣợc. Một số kỹ thuật phổ biến thƣờng đƣợc sử dụng để KPDL hiện nay là : Phân lớp dữ liệu Mục tiêu của phân lớp dữ liệudự đoán nhãn lớp cho các mẫu dữ liệu. Quá trình gồm hai bƣớc: xây dựng mô hình, sử dụng mô hình để phân lớp dữ liệu. Mô hình đƣợc sử dụng để dự đoán nhãn lớp khi mà độ chính xác của mô hình chấp nhận đƣợc. Phân nhóm dữ liệu Phân nhóm là kỹ thuật khai phá dữ liệu tƣơng tự nhƣ phân lớp dữ liệu. Tuy nhiên, sự phân nhóm dữ liệu là quá trình học không đƣợc giám sát, là quá trình nhóm những đối tƣợng vào trong những lớp tƣơng đƣơng, đến những đối tƣợng trong một nhóm là tƣơng đƣơng nhau, chúng phải khác với những đối tƣợng trong những nhóm khác. Trong phân lớp dữ liệu, một bản ghi thuộc về lớp nào là phải xác định trƣớc, trong khi phân nhóm không xác định trƣớc Trong phân nhóm, những đối tƣợng đƣợc nhóm lại cùng nhau dựa vào sự giống nhau của chúng. Sự giống nhau giữa những đối tƣợng đƣợc xác định Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 8 bởi những chức năng giống nhau. Thông thƣờng những sự giống nhau về định lƣợng nhƣ khoảng cách hoặc độ đo khác đƣợc xác định bởi những chuyên gia trong lĩnh vực của mình. Đa số các ứng dụng phân nhóm đƣợc sử dụng trong sự phân chia thị trƣờng. Với sự phân nhóm khách hàng vào trong từng nhóm, những doanh nghiệp có thể cung cấp những dịch vụ khác nhau tới nhóm khách hàng một cách thuận lợi. Ví dụ: dựa vào chi tiêu, số tiền trong tài khoản và việc rút tiền của khách hàng, một ngân hàng có thể xếp những khách hàng vào những nhóm khác nhau. Với mỗi nhóm, ngân hàng có thể cho vay những khoản tiền tƣơng ứng cho việc mua nhà, mua xe, … Trong trƣờng hợp này ngân hàng có thể cung cấp những dịch vụ tốt hơn, và cũng chắc chắn rằng tất cả các khoản tiền cho vay đều có thể thu hồi đƣợc. Ta có thể tham khảo một khảo sát toàn diện về kỹ thuật và thuật toán phân nhóm trong. Khai phá luật kết hợp Mục tiêu của phƣơng pháp này là phát hiện và đƣa ra mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu. Đầu ra của giải thuật luật kết hợp là tập luật kết hợp tìm đƣợc. Phƣơng pháp khai phá luật kết hợp gồm có hai bƣớc: -Bƣớc 1: Tìm ra tất cả các tập mục thƣờng xuyên. Một tập mục thƣờng xuyên đƣợc xác định thông qua việc tính độ hỗ trợ và thoả mãn độ hỗ trợ cực tiểu. -Bƣớc 2: Sinh ra các luật kết hợp mạnh từ tập mục thƣờng xuyên, luật phải thoả mãn độ hỗ trợ và độ tin cậy cực tiểu. Hồi quy Phƣơng pháp hồi quy tƣơng tự nhƣ là phân lớp dữ liệu. Nhƣng khác ở chỗ nó dùng để dự đoán các giá trị liên tục còn phân lớp dữ liệu dùng để dự đoán các giá trị rời rạc. Phát hiện sự thay đổi và độ lệch (change and deviation dectection): Nhiệm vụ này tập trung vào khám phá những thay đổi có ý nghĩa trong dữ liệu dựa vào các giá trị chuẩn hay độ đo đã biết trƣớc, phát hiện độ lệch đáng kể giữa Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 9 nội dung của tập con dữ liệu và nội dung mong đợi. Hai mô hình độ lệch thƣờng dùng là lệch theo thời gian và lệch theo nhóm. Độ lệch theo thời gian là sự thay đổi có nghĩa của dữ liệu theo thời gian. Độ lệch theo nhóm là sự khác nhau giữa dữ liệu trong hai tập con dữ liệu, tính cả trƣờng hợp tập con của đối tƣợng này thuộc tập con kia, nghĩa là xác định dữ liệu trong một nhóm con của đối tƣợng có khác nhau đáng kể so với toàn bộ đối tƣợng. 1.5. Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu. Dựa vào những kiểu dữ liệu mà kỹ thuật khai phá áp dụng, có thể chia dữ liệu thành các loại khác nhau. Cơ sở dữ liệu quan hệ Đến nay, hầu hết dữ liệu đƣợc lƣu giữ dƣới dạng cơ sở dữ liệu quan hệ. Cơ sở dữ liệu quan hệ là một nguồn tài nguyên lớn nhất chứa những đối tƣợng mà chúng ta cần khai phá. Cơ sở dữ liệu quan hệ có cấu trúc cao, dữ liệu đƣợc mô tả bởi một tập những thuộc tính và lƣu trong những bảng. Khai phá dữ liệu trên cơ sở dữ liệu quan hệ chủ yếu tập trung khai phá mẫu. Ví dụ, trong cơ sở dữ liệu của một ngân hàng, ta có thể tìm đƣợc những khách hàng có mức chi tiêu cao, ta có thể phân loại những khách hàng này dựa vào quá trình chi tiêu của họ. Cũng với việc phân tích những mục chi tiêu của khách hàng, chúng ta có thể cung cấp một số thông tin của khách hàng đến những doanh nghiệp khác. Giả sử rằng một khách hàng chi mỗi tháng 500 đô la cho thời trang, nếu đƣợc phép, ngân hàng có thể cung cấp thông tin về khách hàng này cho những cửa hàng thời trang. Cơ sở dữ liệu giao tác Cơ sở dữ liệu giao tác là tập hợp những bản ghi giao dịch, trong đa số các trƣờng hợp chúng là những bản ghi các dữ liệu hoạt động của doanh nghiệp, tổ chức. Với tính phổ biến của máy tính và thƣơng mại điện tử, ngày nay có rất nhiều cơ sở dữ liệu giao tác. Khai phá dữ liệu trên cơ sở dữ liệu giao tác tập trung vào khai phá lật kết hợp, tìm mối tƣơng quan giữa những mục dữ liệu của bản ghi giao dịch. Nghiên cứu sâu về cơ sở dữ liệu giao tác đƣợc mô tả chi tiết ở phần sau. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 10 Cơ sở dữ liệu không gian Cơ sở dữ liệu không gian bao gồm hai phần: Phần thứ nhất là dữ liệu quan hệ hay giao tác, phần thứ hai là thông tin định vị hoặc thông tin địa lý. Những luật kết hợp trên cơ sở dữ liệu không gian mô tả mối quan hệ giữa các đặc trƣng trong cơ sở dữ liệu không gian. Dạng của luật kết hợp không gian có dạng X => Y, với X, Y là tập hợp những vị từ không gian. Những thuật toán khai phá luật kết hợp không gian tƣơng tự nhƣ khai phá luật kết hợp nhƣng thêm những vị từ về không gian. Cơ sở dữ liệu có yếu tố thời gian Giống nhƣ cơ sở dữ liệu không gian, cơ sở dữ liệu có yếu tố thời gian bao gồm hai phần: Phần thứ nhất là dữ liệu quan hệ hay giao tác, phần thứ hai là thông tin về thời gian xuất hiện dữ liệu ở phần thứ nhất. Những luật kết hợp có yếu tố thời gian có nhiều thông tin hơn những luật kết hợp cơ bản. Ví dụ, từ luật kết hợp cơ bản {Bia} {Thuốc lá}, với dữ liệu có yếu tố thời gian chúng ta có thể có nhiều luật: Độ hỗ trợ của luật {Bia} {Thuốc lá} là 20% từ 9 giờ đến 13 giờ, là 50% trong thời gian 19 giờ tới 22 giờ. Rõ ràng rằng, những ngƣời bán lẻ có thể xác định chiến lƣợc để buôn bán tốt hơn. Hầu hết nghiên cứu về lĩnh vực này ngày nay hình thành một hƣớng khai phá dữ liệu mới gọi là khai phá mẫu lặp liên tục, khai phá tập mục dữ liệu thƣờng xuyên trong cơ sở dữ liệu thời gian. Cơ sở dữ liệu đa phương tiện Số lƣợng trang web đang bùng nổ trên thế giới, web có mặt ở khắp mọi nơi, duyệt web đã là nhu cầu của mọi tầng lớp trong xã hội. Thông tin trên web đang phát triển với tốc độ rất cao, khai phá thông tin trên web (web mining) đã trở thành một lĩnh vực nghiên cứu chính của khai phá dữ liệu, đƣợc các nhà nghiên cứu đặc biệt quan tâm. Khai phá dữ liệu web thông thƣờng đƣợc chia thành ba phạm trù chính: Khai phá cách dùng web (web usage mining), khai phá c ấu trúc web (web structure mining) và khai phá nội dung web (web content mining). [...]... f(X), thì Y là tập mục thƣờng xuyên đóng nhỏ nhất có chứa X, X Y Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 30 Tính chất 3: Nếu supp(X) >supp(Y), Y là tập cha bất kỳ của X, Y X, thì X = f(X) 2.4 Khai phá tập mục thƣờng xuyên trên dòng dữ liệu giao tác Bài toán khai phá tập mục thƣờng xuyên trên dòng dữ liệu giao tác có thể đƣợc phát biểu nhƣ sau: Khai phá tập mục thƣờng xuyên với ngƣỡng... khai phá tập mục thƣờng xuyên Các nghiên cứu về khai phá tập mục thƣờng xuyên tập trung vào tìm các thuật toán mới hoặc đề xuất giải pháp nâng cao hiệu quả các thuật toán đã có Phần này sẽ trình bày khái quát các kỹ thuật chính để khai phá tập mục thƣờng xuyên Bài toán khai phá tập mục thƣờng xuyên có thể chia thành hai bài toán nhỏ: tìm các tập mục ứng viên và tìm các tập mục thƣờng xuyên Tập mục ứng... có nhiều ứng dụng đòi hỏi khai phá tập mục thƣờng xuyên đóng trên dòng dữ liệu Chƣơng 2 tiếp theo của luận văn sẽ trình bày chi tiết vấn đề này Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 27 CHƢƠNG 2 KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN ĐÓNG TRÊN DÕNG DỮ LIỆU 2.1 Cơ sở toán học của tập mục thƣờng xuyên đóng 2.1.1 Kết nối Galois Cho quan hệ hai ngôi I x T chứa CSDL cần khai thác Đặt: X I và Y T... bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 33 2.4.2 Khái quát các thuật toán khai phá Dựa trên kết quả khai phá, các thuật toán khai phá tập mục thƣờng xuyên trên các dòng dữ liệu giao tác có thể chia thành 2 kiểu: thuật toán khai phá chính xác và thuật toán khai phá xấp xỉ Các thuật toán khai phá chính xác cho kết quả là tất cả các tập mục thƣờng xuyên cùng với độ hỗ trợ của nó trên cửa sổ hiện... đóng) : Cho T là tập con của tập các giao tác D, T mục dữ liệu I, Y (T) = {i I D, Y là tập con của tập các I Khái niệm tập mục đóng dựa trên hai hàm f và g sau: t T ,i t} hàm f trên tập giao tác T trả về tập mục dữ liệu chứa trong mọi giao tác của T (Y) = {t D i Y ,i t} hàm g trên tập mục Y trả về tập các giao tác chứa Y Hàm C= x g là hàm hợp của f và g, đƣợc gọi là toán tử đóng Định nghĩa 2.2.2 (tập. .. kỳ tập con nào của tập mục thƣờng xuyên cũng phải là tập mục thƣờng xuyên Vì vậy các tập mục ứng viên gồm k mục có thể đƣợc sinh ra bằng cách kết nối các tập mục thƣờng xuyên có (k-1) mục và loại bỏ tập mục ứng viên nếu nó có chứa bất kỳ một tập con nào không phải là thƣờng xuyên Giả sử các mục dữ liệu trong mỗi giao tác đƣợc lƣu theo trật tự từ điển Thuật toán sử dụng các ký hiệu sau đây : Tập k mục. .. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 36 Danh sách định danh CL đƣợc sử dụng để lƣu các mục dữ liệutập các định danh của các tập mục đóng chứa nó Bảng này gồm 2 trƣờng dữ liệu: mục dữ liệu (Item) và tập chứa định danh các tập mục đóng chứa nó (cidset) Tập định danh của mục X đƣợc ký hiệu là cidset(X), nó là tập chứa tất cả các định danh của các tập mục đóng chứa X Quá trình cập... bài toán khai phá tập mục thƣờng xuyên và hai thuật toán điển hình trong khai phá tập mục thƣờng xuyên là thuật toán Apriori và FP-growth Thuật toán Apriori tiêu biểu cho phƣơng pháp sinh ra các tập mục ứng viên rồi duyệt cơ sở dữ liệu kiểm tra độ hỗ trợ của chúng, thuật toán FP-growth đại diện cho phƣơng pháp không sinh ra các tập mục ứng viên mà nén cơ sở dữ liệu lên cấu trúc cây, sau đó khai phá cây... Học liệu http://www.lrc-tnu.edu.vn/ 34 (Chang J H., Lee W S, 2003),… Một phƣơng pháp khác để nâng cao hiệu quả khai phá trên dòng dữ liệu giao tác là khai phá tập mục thƣờng xuyên đóng thay cho tập mục thƣờng xuyên, điển hình là các thuật toán Moment (Chi, 2004), CFI-Stream (Jiang, 2006); CloStream (Yen, 2009).… Bảng 2.3: Phân loại các thuật toán theo mô hình dữ liệu và kiểu thuật toán Mô hình dữ liệu. .. Chức năng Lk Tập các k -tập mục thƣờng xuyên (với độ hỗ trợ tối thiểu minsup) Mỗi phần tử của tập này có 2 trƣờng: i) Tập mục (itemsets) ii) Độ hỗ trợ (count) Ck Tập các k -tập mục ứng viên (các tập mục thƣờng xuyên tiềm năng) Mỗi phần tử của tập này có 2 trƣờng: i) Tập mục (itemsets) ii) Độ hỗ trợ (count) Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 15 Thuật toán duyệt cơ sở dữ liệu nhiều . Khai phá tập mục thƣờng xuyên đóng trên dòng dữ liệu . Nội dung luận văn gồm 3 chƣơng: Chương 1: Tổng quan về khai phá dữ liệu Chương 2: Khai phá tập mục thường xuyên đóng trên dòng dữ liệu. nhất, không cần thiết khai phá tất cả các tập mục thƣờng xuyên mà chỉ cần khai phá các tập mục thƣờng xuyên đóng. Khai phá luật kết hợp dựa trên tập mục thƣờng xuyên đóng cho hiệu quả cao hơn,. hƣớng khai phá dữ liệu mới gọi là khai phá mẫu lặp liên tục, khai phá tập mục dữ liệu thƣờng xuyên trong cơ sở dữ liệu thời gian. Cơ sở dữ liệu đa phương tiện Số lƣợng trang web đang bùng nổ trên

Ngày đăng: 18/06/2014, 12:10

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan