công nghệ khai phá dữ liệu

Thông tin tài liệu

26.2.1 Tổng quan công nghệ khai phá dữ liệu.Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được các cơ quan thu thập và lưu trữ ngày một tích luỹ nhiều lên. Họ lưu trữ các dữ liệu này vì cho rằng trong nó ẩn chứa những giá trị nhất định nào đó. Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ của những dữ liệu này (khoảng từ 5% đến 10%) là luôn được phân tích, số còn lại họ không biết sẽ phải làm gì hoặc có thể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó. Mặt khác, trong môi trường cạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Với những lý do như vậy, các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD - Knowledge Discovery and Data Mining).Với những ưu điểm đó, khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau: marketing, tài chính, ngân hàng và bảo hiểm, khoa học, y tế, an ninh, internet…Data mining and data warehousing. – khai thác dữ liệu và kho dữ liệu- Mục đích của data warehouse là hỗ trợ cho việc ra quyết định khi làm việc với data.- Data mining được sử dụng kết hợp với data warehouse giúp cho việc chắc chắn khi ra quyết định.- Data mining cũng có thể được ứng dụng trong tổ chức dữ liệu thành các transaction riêng lẻ.- Để cho việc khai thác dữ liệu được hiệu quả, kho dữ liệu phải tập hợp được tính toàn thể hay tổng lược vè dữ liệu.- Khai thác dữ liệu giúp cho việc rút trích ngữ nghĩa của những mẫu mới, điều đó có thể không cần thiết mà chỉ truy vấn hoặc xử lí data hoặc metadata( siêu data) trong data warehouse.- Các ứng dụng của data mining cần được xem xét đến sớm cho quá trình cùng với các thiết kế của kho dữ liệu. Cũng vì vậy, mà các công cụ của data mining được thiết kế sao cho có thể dễ dàng kết hợp với data warehouse.- Thật vậy, mỗi cơ sở dữ liệu lớn thực thi trên terabyte (1024 MB) của dữ liệu, thành công của những ứng dụng data mining là bước phụ thuộc đầu tiên để xây dựng data warehouse.Khai Thác Dữ liệu như là một phần trong tiến trình khám phá tri thức.- Khai phá dữ liệu (Data Mining) được định nghĩa là: quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu…- Khám phá tri thức trên csdl, được viết tắt là KDD (Knowledge Dicovery in Databasenó mang nhiều ý nghĩa hơn chỉ là khai phá dữ liệu. Tiến trình khám phá tri thức gồm có 6 pha: chọn dữ liệu, lọc dữ liệu, làm giàu ý nghĩa, chuyển đổi thông tin hoặc mã hóa chuẩn và báo cáo và phản ánh những thông tin khám phá được.- Trong ví dụ, để duy trì giao tác dịch vụ khách hàng củacửa hàng bán lẻ. Tin chắc dữ liệu khách bao gồm thông tin: tên khách hàng, zip code, số điện thoại, ngày giao dịch, item code, giá, chất lượng, và tổng số lượng. Sự đa dạng tri thức mới có thể được khai thác bằng tiến trình KDD trên dữ liệu khách. Trong khi chọn data, dữ liệu là item cụ thể hoặc những item được phân loại hoặc từ lĩnh vực cụ thể hoặc vùng của quốc gia, sẽ được chọn. Tiến trình lọc dữ liệu khi phải cần hợp lệ về zip code hoặc loại bỏ các các mẫu tin không chính xác về mã vùng (tiền tố). Làm giàu dữ liệu tiêu biểu làm tăng thêm một số thông tin vào nguồn. Ví dụ, đưa vào những tên và những số điện thoại của khách hàng, lưu trữ thu nhập dưới dạng dữ liệu: tuổi, thu nhập, loại thẻ tín dụng và thêm chúng vào mỗi mẫu tin. Chuyển đỗi dữ liệu(data transformation) và mã hóa sao cho giảm bớt lượng dữ liệu. - Ví dụ khác, các mẫu tin là nhóm các loại sản phẩm : audio, video, những ứng dụng, thiết bị cải tiến, camera, những phụ tùng và nhiều thứ khác. Từ sớm, hình 26.01, chúng ta đã thấy bước gọi là làm sạch như tiền thân cho việc tạo kho dữ liệu. Nếu việc khai thác dữ liệu là dựa trên sự tồn tại của kho chứa đó là chuỗi các cửa hàng bán lẻ, chúng ta sẽ làm sạch dữ liệu ứng dụng. Nó chỉ là sau như tiến trình của kĩ thuật khai thác dữ liệu sử dụng các luật và các mẫu khác nhau. Ví dụ, kết quả của việc khai thác được khám phá:• Luật kết hợp- bất cứ khi nào một khách hàng có nhu cầu mua video, anh ấy hoắc cô ấy cũng sẽ mua thiết bị cải tiến khác.• Mẫu liên tục- cho rằng một khách hàng mua một camera , và trong thời gian 3 tháng anh ấy hoặc cô ấy mua số vật dụng và áy chụp hình và 6 tháng sau sẽ mua một số phụ tùng. Một khách hàng người mua nhiều hơn 2 lần trong kì sẽ mua ít nhất một lần trong mùa giáng sinh.• Phân lớp dạng cây- khách hàng được phân thành những lớp thường xuyên ghé thăm, loại về tài chính, loại về tổng thu nhập, loại về sự ham thích các mẫu, và một số dùng kĩ thuật phân tích có lẽ phát sinh dạng lớp.- Chúng ta có thể thấy có nhiều nhiều tồn tại trong việc khám phá kiến thức mới về các mẫu tin mua bán, mới quan hệ các nhân tố như là tuổi, nhóm thu nhập, nơi ở, như thấ nào và bao nhiêu thu nhập khách hàng . Thông tin đó có thể ứng dụng trong việc thêm vào nơi lưu trữ dựa trên nhân khẩu học, lưu trữ về việc thăng tiến, kết hợp mẫu về quảng cáo , đưa ra chiến lược tiếp thị cho từng mùa. Đó như ví dụ về cửa hàng, việc khai thác dữ liệu phải theo thứ tự về sự chuẩn bị những dữ liệu có ý nghĩa trước tiên nó có thể là những mẫu thông tin hữu dụng để định hướng cho việc kinh doanh sau này.- Kết quả của việc khai thác dữ liệu sẽ được báo cáo lại theo một định dạng, nhu là dạng danh sách, xuất ra dạng hình ảnh, bảng tóm lược, hoặc những thông tin.Mục đích khai thác dữ liệu và khám phá tri thức.- Nói theo diện rộng, mục đích của khai thác dữ liệu phỏng đoán dựa trên các lớp: dự đoán(prediction), sự nhận dạng (indentification), sự phân loại, và tối ưu hóa. o Dự đoán – khai thác dữ liệu có thể hiển thị chắc chắn các thuộc tính mà cho rằng dữ liệu được dùng trong tương lai. Ví dụ, dự đoán khai thác dữ liệu bao gồm phân tích các giao dịch mua bán sẽ đoán được khách hàng sẽ mua với giá giảm nhiêu.tỉ lệ cần giảm bao nhiêu cho của hàng sẽ được ohat1 sinh từng giai đoạn, và loại bỏ một số hàng hóa không lợi nhuận. Trong ứng dụng này, kinh doanh khoa học phải sữ dụng cả hai với khai thác dữ liệu. Trong ngữ cảnh khoa học , để dự đoán chắc chắn mẫu thông tin sóng địa chấn của động đất với xác suất cao.o Sự chứng thực- mẫu dữ liệu có thể sử dụng sự tồn tại của item, một sự kiện, hoặc một hành động. Ví dụ, người muốn xâm nhập hệ thống phải chứng thực với chương trình đang thực thi, file xử lí, hay phiên thời gian của CPU. Ứng dụng trong sinh học, kiểm tra sự tồn tại của một gen nào đó bằng cách xem xét mẫu DNA. Đó như khu vực biết chứng thực một hình thức của sự chứng nhận. Nó xác nhận một người phải là thực sự là người dùng chuyên biệt hay từ một lớp chứng thực, nó sẽ ảnh hưởng so sánh tham số hoặc hình ảnh hoặc chữ kí trên database.o Sự phân loại – khai thác dữ liệu có thể phân chia dữ liệu thành lớp khác nhau hoặc phân loại có thể xác định dựa trên kết hợp các thông số. Ví dụ, một khách hàng trong siêu thị có thể thuộc loại khách hàng theo đuổi hàng giảm, khách hàng mua giá đắt, khách hàng thường xuyên, khách hàng quen. Đó sẽ là những lớp được dử dụng phân tích sự khác nhau các giao tác mua hàng như là giao tác chủ yếu khai thác. Đôi khi việc phân lớp dựa trên các miền tri thức phổ biến như sử dụng đầu vào phân tích ngữ nghĩa vấn đề, và làm nó đơn giản hơn. Ví dụ, thức ăn tốt sức khỏe, thức ăn dành bữa tiệc, thức ăn trưa trong siêu thị. Nó cũng làm việc phân tích mối quan hệ và tách loạ theoi các vấn đề riêng biệt. Sự phân chia phải sử dụng mã hóa dữ liệu theo tì lệ trước khi tiến tới khai thác dữ liệu.o Tối ưu hóa- một mục tiêu cuối của khai thác dữ liệu là tối ưu nguồn tài nguyên cho phép như thời gian, không gian, tiền hoặc chi tiết và giá trị kích thước output quá lớn như giá hoặc lợi nhuận dưới sự ức chế. Như là, mục tiêu của khai thác dữ liệu tương tự chức năng đối tượng nghiên cứu tổ chức vấn đề sao cho tối ưu hóa cho phép. - Thuật ngữ khai thác dữ liệu hiện tại được sử dụng ý nghĩa rộng. Trong vài trường hợp bao gồm phân tích thống kê và tối ưu hóa constrained như thể máy học. Nó không là đường thẳng riêng biệt rõ ràng theo qui luật. Phạm vi chúng ta nói tới rộng hơn, bởi vậy, chúng ta thảo luận chi tiết toàn thể lĩnh vực của ứng dụng tổng thể sườn của công việc. Một số loại tri thức trong quá trình khai thác dữ liệu.- Từ “knowledge” được hiểu rất rộng tùy theo mức độ hiểu biết. Tri thức là loại qui nạp và suy diễn. Chúng ta sẽ thảo luận về việc khám phá của tri thức suy diễn trong chương 25. Khai thác dữ liệu đây noi về tri thức qui nạp. Tri thức có thể trình bày dưới nhiều hình thức: không cấu trúc, có thể trình bày dạng các luật, hoặc định đề logic. Trong hình thức cấu trúc, nó phải định trình bày dạng cây quyết định, mạng ngữ nghĩa, mạng neural, hoặc cấp bậc của lớp hoặc hệ thống. Tri thức trong quá trình khai thác dữ liệu có thể được mô tả theo 5 cách như trình bày dưới đây :1. Luật kết hợp (association rules) – mối tương quan về sự hiện diện việc thiết lập các bộ thông qua sắp xếp các giá trị khác nhau cho các biến khác nhau. Ví dụ: (1) một khách hàng nữ mua túi sách, thì cô ấy cũng thích mua giày. Hình ảnh một tia X chứa đựng các đặc điểm a và b thì cũng có thể có đặc điểm c. 2. Cấp bậc sự phân loại – Mục tiêu là từ công việc cho đến tất cả các trường họp có thể tồn tại hay các giao tác sẽ tạo ra hệ thống của các lớp. Ví dụ: (1) Về con người có thể chia làm 5 nhóm dựa theo lòng tin theo những sự giao dịch trước đó. (2) Một mô hình được phát triển xác định các nhân tố mong muốn cho vị trí tỉ lệ 1-10. (3) Kho lưu trữ chung phải được phân loại dựa theo khả năng dữ liệu sử dụng các đặc điểm như: sự trưởng thành, thu nhập, và tính ổn định. 3. Mẫu liên tiếp- Một loạt các hoạt động liên tiếp hoặc các sự việc là quá trình tìm kiếm. Ví dụ: Nếu một bệnh nhân chịu đựng ca thay thế tim các khối động mạch và chứng phình động mạnh và sau đó lại phát triển tình tạng máu tăng cao trong vng2 một năm phẫu thuật giẫu phẩu (quá trình giải phẩu…) , anh và cô ấy se phải chịu đựng quả cật hỏng trong vòng 6 tháng.Để tìm ra các mẫu liên tiếp đòi hỏi phải tìm hiểu mối quan hệ giữa các trường hợp chắc chắn mối về mặt thời gian.4. Chuỗi mẫu theo thời gian – Sự tương tự có thể phát hiện ra vị trí của chuỗi thời gian. 3 ví dụ trên về lưu trữ dữ liệu giá cả thị trường theo khoảng thời gian: (1)Lưu trữ tính thiết thực công ty ABC và tính an toàn của công ty tài chính XYZ thể hiện dạng mẫu từ năm 1998 theo giá cả đóng mở.(2) Hai sản phẩm giống việc bán hàng trong mùa hè khác hàng bán trong mùa đông.(3) Dạng sức gió hệ mặt trời có thể dùng dự đoán sự thay đổi khí hậu ở trái đất.5. Sự phân loại và sự phân đoạn- đưa ra trường hợp dân số hoặc những mẫu có thể phân chia được thiết lập như các nhân tố .Ví dụ: (1) Toàn bộ dân số có dữ liệu điều trị về căn bệnh sẽ được chia theo ra thành nhóm dựa trên sự giống nhau của các căn bệnh.(2) Những người lớn ở Hoa Kì sẽ được phân thành năm nhóm từ “hầu như thích mua” đến”ít thích mua” một sản phẩm mới.(3) trang web được truy cập phải của bộ sưu tập của người sử dụng dựa vào tài liệu (nói, trong một thư viện tín hiệu) sẽ được phân tích thành mẫu làm từ khóa thu gom lại cho tài liệu hoặc loại người sử dụng. Hầu như mọi ứng dụng, tri thức được đề nghị thì chứa đựng các loại trên. Chúng ta có thể mở rộng với mỗi chủ đề trên thành loại tri thức chi tiết hơn nữa.26.2.2 Association rules.Một trong những kĩ thuật chính trong khai thác dữ liệu điều liên quan các luật khám phá dựa trên mối kết hợp. Trong cơ sở dữ liệu được chú ý đến như là tập hợp nhiều transaction mỗi cái lại liên quan việc thiết lập các mẫu tin. Một số ví dụ thông thường đó là dữ liệu trong siêu thị. Ở đó mỗi dữ liệu tương ứng khách hàng mua trong siêu thị đến mua sắm.Tương tự cho 4 giao dịch được random làm ví dụ:Transaction-id Time Items-Brought101 6:35 milk, bread, juice792 7:38 milk, juice1130 8:05 milk, eggs1735 8:40 bread, cookies, coffeeTheo qui tắc X=>Y. Ở đó X= và Y= được thiết lập thành các mẫu item với xi và yi là những mẫu tin riêng cho tất cả i và j.Đó là việc kết hợp các khách hàng mua X, anh ta hay cô ta có nhu cầu sẽ mua Y. TRong thường, bất kì luật kết hợp nào cũng có hình thức dạng LHS (left-hand side ) RHS(right-hand side), trong đó LHS và RHS cài đặt thành các mẫu tin. Luật kết hợp cả về hỗ trợ và tin tưởng. Hỗ trợ luật LHS RHS theo % của giao dịch được xét trên tất cả item trong tập hợp, thiết lập LHS RHS. Nếu mức hỗ trợ thấp, nó cho biết trong đó có ít sự xuất hiện của các item LHS RHS cùng với nhau, bởi vì trong tập hợp nó chỉ xuất hiện ở phần nhỏ của các giao dịch. Luật Milk Juice có 50% mức hỗ trợ, trong khi Bread Juice chỉ có 25% mức hỗ trợ.Còn những cái khác được hỗ trợ tùy theo sự phổ biến của luật.Ước tính độ tin cậy chúng tôi cho rằng phải gồm tất cả giao dịch bao gồm luôn các mẫu trong LHS. Độ tin cậy dùng cho các luật tổ hợp LHS RHS là phần trăm (phân số) của những giao tác cũng bao gồm luôn RHS. Còn những cái khác thì tùy theo độ mạnh của luật. Đối với Milk Juice, mức độ tin cậy là 66.7% (nghĩa là, trong 3 giao tác có milk cuất hiện, 2 giao tác có juice) và bread juice có 50% độ tin cậy( nghĩa là một trong 2 giao tác có chứa bread cũng có chứa juice.)Chúng ta cũng có thể thấy, mức độ hỗ trợ và độ tin cậy không nhất thiết phải đi cùng với nhau.Mục tiêu của sự khai thác các luật kết hợp là để có thể phát sinh ra các luật vượt qua được các ngưỡng thấp nhất của mức hỗ trợ và độ tin cậy. Vấn đề vì thế cũng được chia làm 2 vấn đề chính:1. Phát sinh tất cả các mẫu tin sao cho chúng có mức độ hỗ trợ có thể vượt qua ngưỡng. Đó là việc thiết lập các mậu tin gọi là itemset lớn. Chúng ý chữ lớn đây có nghĩa được hỗ trợ nhiều. 2. Đối với mỗi itemset lớn, tất cả các luật có độ tin cậy thấp thì sẽ được phát sinh sau: để có itemset lớn X và Y⊂ X, sao cho Z = X-Y; khi đó nếu độ hỗ trợ (X)/ độ hỗ trợ(Z) > độ tin cậy nhỏ nhất, luật Z =>Y(i.e X-Y=> Y) vẫn là luật hợp lệ.[Chú ý: Trong câu phát biểu trước, Y⊂ X đọc là “Y là tập hợp con của X” ]Các luật phát sinh bằng cách sử dụng tất cả itemset lớn và chúng có các mức hỗ trợ tương đối dễ hiểu. Tuy nhiên, để khám phá ra hết tất cả các itemset lớn cùng với các giá trị về mức độ hỗ trợ của chúng là một vấn đề lớn nếu các thành phần trong tập hợp quá lớn.Trong một siêu thị thì có những hàng hàng mẫu tin.Số lượng itemset riêng biệt là 2m, trong đó m là số lượng mẫu tin, và ước tính mức độ hỗ trợ có thể có của các itemset trờ thành rất không hạn định (computation-intensive) .Để giảm tổ hợp khoảng cách tìm kiếm, các thuật toán tìm kiếm theo luật kết hợp có các đặc trưng:• Một tập hợp con cỉa itemset lớn cũng phải lớn (i.e, mỗi tập hợp con của itemset lớn vượt qua được mức hỗ trợ tối thiếu yêu cầu).• Ngược lại, phần mở rộng của một itemset nhỏ cũng phải nhỏ (đơn giản đó là nó không có đủ mức hỗ trợ).Các đặc tính thứ 2 có thể giúp trong việc loại bỏ những itemset từ phần thêm vào nếu nó được cho thì cũng nhỏ (không vượt qua mức hỗ trợ tối thiểu).Các thuật toán tìm kiếm cơ bản được dùng cho các luật kết hợp. Hiện nay các thuật toán tìm các itemset lớn được thiết kế để làm những việc sau:1. Kiểm tra mức độ hỗ trợ của itemset có chiều dài là 1, gọi là 1-itemsets, bằng cách quét toàn bộ cơ sở dữ liệu. Bỏ qua những thành phần có mức hỗ trợ thắp hơn so yêu cầu.2. Mở rộng 1-itemsets thành 2-itemsets bằng cách thêm vào một item cho mỗi phần, để tạo ra các ứng viên itemset có chiều dài là 2.Kiểm tra mức hỗ trợ của các ứng viên itemset bằng cách quét vào cơ sở dữ liệu và loại ra những itemset không đáp ứng mức hỗ trợ.3. Lặp lại bước trên; tới bước k, thì trước đó đã tìm thấy được (k-1) itemset được mở rộng k-intemsets và được kiểm tra mức độ hỗ trợ tối thiểu.Tiến trình được lặp lại cho đến khi không còn itemset nào được tìm thấy. tuy nhiên, một số phiên bản thấp của thuật toán thì tổ hợp của nó thật kinh khủng. vài thuet65 toán được đề xuất để khai thác cho luật kết hợp.Chúng phần lớn biến đổi trong các lần để làm thế nào có thể phát sinh ra các ứng viên itemset, và mức độ hỗ trợ của các ứng viên itemset được đếm hết.Một số thuật toán dạng dữ liệu có cấu trúc như bitmap và hashtree để lưu giữ thông tin về các itemset. Vài thuật toán có đề nghị sử dụng quét đa chiều (multiple scan) trong cơ sở dữ liệu bởi vì tiềm ẩn số lượng itemset, 2m, có thể là quá lớn để có thể đếm và quét theo một chiều. Chúng taq cũng có thể đề xuất ra thuật toán gọi là thuật toán phân mãnh (Partition algorithm), được tóm lược bên dưới.Nếu chúng ta đưa ra một cơ sở dữ liệu tiềm tàng ít số lượng itemset lớn, có thể nói, chỉ vài ngàn, khi đó chúng ta có thể test theo cách sử dụng công nghệ phân mãnh. Phân mãnh chia cơ sỡ dữ liệu sao cho không tùng lắp nhau; đó là chia cơ sở dữ liệu thành các phần riêng biệt và tất cả itemset lớn mỗi partition sẽ được phát sinh qua một lần. Khi kết thúc, chúng ta vì thế cũng có thể phát sinh danh sách các itemset lớn từ mỗi phần. Khi đó danh sách sẽ được trộn với nhau, chúng có thể chứa một vài cái không chính xác. Đó là, một vài itemset chúng có nhiều trong một partition nhưng không đủ điều kiện trong partition khác và do đó sẽ không thể vượt qua được ngưỡng hỗ trợ trong cơ sở dự liệu nguồn. Chú ý đó không thể là phủ định sai, i.e, không itemset lớn nào bị bỏ qua. Tập hợp tất cả itemset lớn tìm thấy trong lượt vừa rồi sẽ là đầu vào cho lượt 2 giống như là ứng viên itemset, và chúng thật sự được mức hỗ trợ khi kiểm tra trong toàn thể cơ sở dữ liệu. vào cuối pha 2, tất cả itemset lớn thật sự được tìm thấy. Các partition sẽ được lựa chọn theo cách mỗi partition có thể thích hợp bộ nhớ chính và mỗi patition chỉ đọc một lần trong mỗi pha. Thuật toán phân mãnh giúp cho chính bản thân nó thực thi song song, vẫn hiệu quả. Hơn nữa việc cải thiện thuật toán cũng đã được đề cập (Note 8). Những luật kết hợp trong hệ thống cấp bậc (Hierarchies).Đó là những loại kết hợp đặc biệt được chú ý vì những lí do đặc biệt. Mối kết hợp đó thường xảy ra trong hệ thống cấp bậc của những mẫu tin. Điển hình, nó có thể chia các mẫu tin trong đó một cách độc lập cấp bậc dựa trên tính chất lĩnh vực. Ví dụ, thức ăn trong siêu thị, các mẫu được lưu trữ trong một gian, hoặc những quầy đồ thể thao được phân loại dựa trên loại và phân lớp nó đưa ra các hệ thống cáp bậc. Trong hình 26.10, biễn diễn quá trình phân loại của các mẫu tin trong siêu thị. Hình hiển thị 2 hệ thống cấp bậc- những thức uống và bánh ngọt, tương ứng. Phân loại tổng thể có lẽ không kết quả mối kết hợp của hình thức thức ăn nước uống hoặc nước uống thức ăn. Tuy nhiên, sự kết hợp của loại nhãn hiệu sức khỏe (Healthy-brand) hũ yogurt đá đông lạnh, hoặc richeream- brand kem lạnh pha rượu sản phẩm đủ mức tin cậy và sự hỗ trợ hợp lệ trong luật kết hợp.Vì thế, nếu lĩnh vực ứng dụng có những lớp tự nhiên của chính itemset thuộc hệ phân cấp, khám phá mối kết hợp trong hệ thống cấp bậc là không còn hợp lệ. Một số đặc biệt quan trọng là mối kết hợp theo cả 2 phái trong hệ thống cấp bậc. Chúng có lẽ xuấ hiện ở một số nhóm mẫu tin khác nhau về cấp độ.Phủ định những mối kết hợp.Vấn đề đây là khai thác kết hợp phủ định thì khó hơn, so với khai thác mối kết hợp rõ ràng. Một phủ định mối kết hợp được hiểu :”60% khách hàng mua khoai tây chiên mà không mua nước uống” .(Ở đây, 60% thích ứng với độ tin cậy dành cho luật phủ định mối kết hợp.) Trong cơ sở dữ liệu với 10,000 mẫu, có 210000 có sự kết hợp của các mẫu tin, phần lớn không xuất hiện chỉ mỗi một lần trong cơ sở dữ liệu. Nếu sự xuất hiện của các mẫu tin kết hợp là mang đến nghĩa phủ định sự kết hợp, khi đó chúng tìm ẩn cả nhiều triệu và triệu của luật mối kết hợp phủ định với nhiều RHS điều đó thì hầu như không thích đáng chút nào. Vấn đề, khi, tìm thấy duy nhất một luật phủ định thích hợp. Thông thường, chúng thì thích đáng trong trường hợp 2item đặc biệt xuất hiện hiếm thấy trong giao tác. Điều đó đặt ra 2 vấn đề:Trong tổng thể mẫu 10,000 mẫu kiểm tra, thì chỉ có thể bất cứ 2 cùng với (1/10000)* (1/10000) =10-8. Nếu chúng ta tìm thấy sự hỗ trợ thưc sự của 2 cùng với 0 đó có nghĩa là không hiện diện đáng kể được mong đợi và do đó sẽ không thích hop785 có phủ định mối kết hợp.Vấn đề khác đáng lo ngại. Chúng ta sẽ tìm thấy item kết hợp với mứa hỗ trợ thấp, và nó có hàng triệu triệu mẫu với mức hỗ trợ thấp thậm chí gần bằng 0. Ví dụ, một dữ liệu 10 triệu giao tác có hầu hết 2.5 tỉ cặp kết hợp trong đó 10,000 mẫu bị bỏ lỡ. Nó sẽ phát sinh nhiều tỉ luật yếu. Do vậy, việc thực hiện phủ định luật kết hợp thích hợp , chúng ta phải sử dụng những tri thức biết trước về itemsets. Một những phương pháp tiếp cận là sử dụng hệ phân cấp. Mụ tiêu chúng ta sử dụng hệ phân cấp cho những thức uống mềm và những thiết bị được trình bày trong hình 26.11. Mối kết hợp mạnh được thể hiện giữa shown between soft drinks and chips . Nếu chúng ta tìm được sự hỗ trợ lớn thật sự khi khách hàng mua Days chips họ phần lớn mua Topsy và không Joke và không Wakeup, đó sẽ là thích hợp. Đây là vì sao chúng ta hầu như cho rằng nếu đó là mối kết hợp mạnh giữa Days và Topsy, nó cũng sẽ có mối kết hợp mạnh giữa Days và Joke hoặc Days và Wakeup (Note 9). Trong yogurt lạnh và nhóm chai nước trong hình 26.10, hỗ trợ của Reduce đối với Healthy brand chia ra lả 80-20 và Plain và Clear brand chia ra là 60-40 tương ứng các theo từng loại. Đó sẽ có thể nhiều điểm chung của Reduce yogurt đá sẽ được mua với Plain nước chai là 48% trong những giao tác được chứa yogurt đá và nước đóng chai. Nếu những đó được hỗ trợ, tuy nhiên, chỉ tìm được 20% điều đó cần phải có nghĩa phủ định luật kết hợp trong số Reduce yogurt và Plain nước đóng chai; lần nữa, đó sẽ phải được quan tâm. Vấn đề của phủ định mối kết hợp thì quan trọng trong tình huống cho lĩnh vực tri thức đối với các dạng item thuộc hệ thống cấp bậc bao quát (đó là, đồ uống nêu ra và thức ăn biểu diễn dạng hệ thống cấp bậc trong hình 26.10), tồn tại những mối kết hợp rõ ràng (như là giữa các nhóm yogurt đá và nước đóng chai), và sự phân phối các mẫu tin (như là tên nhãn mối quan hệ nhóm). Công việc gần đây là thực hiện báo cáo lại các nhóm cơ sở dữ liệu tại Georgia Tech trong ngữ cảnh đó (lưu ý quan sát các thư mục). Phạm vi khám phá của mối kết hợp phủ định thì giới hạn trong ngữ cảnh của tri thức mẫu tin thuộc hệ thống cấp bậc và theo sự phân bổ. Sự gia tăng theo hệ thồng số mũ của mối kết hợp phủ định vẫn còn là sự thử thách.Cân nhắc việc bổ sung các luật kết hợp .Đối với nguồn dữ liệu rất lớn, một cách để cải tiến hiệu quả đó là lấy theo mẫu. Nếu một mẫu tiêu biểu có thể thật sự được tìm thấy sự hiện diện các đặc tính trong dữ liệu gốc, khi đó hầu hết các luật có thể được thiết lập. Vấn đề làm giảm một trong số các sáng kiến đề xuất là theo hướng thủ tục. Đây là tiến trình có tìm ẩn nguy cơ khi khám phá một số xác thực sai( itemset lớn nó thì thật sự không lớn) cách tốt nhất có được phủ định sai bằng cách bỏ qua một số itemset lớn và tương ứng một số luật kết hợp.Khám phá luật kết hợp trong cơ sở dữ liệu thực là rắc rối hơn nữa dựa trên các yếu tố.• Tập hợp con của các itemset thì hầu hết mọi trường hợp là vô cùng lớn, và cường độ của các giao tác là rất cao. Một vài cơ sở dữ liệu hoạt động riêng lẻ và các giao tác có thể là tập hợp hàng tỉ thông tin của các quốc gia mỗi ngày.• Các giao tác biểu thị tính thay đổi trong các nhân tố liên quan vị trí địa lí và các mùa, là một mẫu phức tạp.• Mẫu của các lớp tồn tại dạng đa chiều. Do đó, việc điều khiển tiến trình khai thác với phạm vi tri thức, đặc biệt những luật phủ định, thì cực kì phức tạp.• Đặc trưng của dữ liệu là có thể thay đổi; vấn đề quan trọng tồn tại với việc bỏ qua, không đúng, trùng lắp, được xem như là dữ liệu thừa của các quốc gia. Luật kết hợp có thể phát sinh nhằm mục tiêu khai thác dữ liệu. Mặc dù khái niệm các itemset thì được sử dụng bên trên trong việc khám phá các luật kết hợp, hầu như bất cứ dữ liệu trong chuẩn liên kết với số lượng các thuộc tính có thể được dùng đến. Ví dụ, việc kiểm tra dữ liệu máu với các thuộc tính như hemoglobin, đếm tế bào máu đỏ, tế bào màu trắng, tỉ lệ đường trong máu, ure, tuổi của bệnh nhân, và vân vân. Mỗi thuộc tính có thể chia thành nhưng loại, và sự có mặt của thuộc tính với một giá trị có thể được cho là tương đương với một mẫu. Vì vậy, nếu thuộc tính hemoglobin được chia loại: 0-5, 6-7, 8-9,10-12,13-14 và trên 14, khi đó chúng ta có thể nghĩ rằng chúng là những mẫu H1, H2, H3,…, H7. Một hemoglobin giá trị đặc biệt của bệnh nhân tương ứng với 7 mẫu có sẵn. Sự loại trừ lẫn nhau trong số các mẫu hemoglobin có thể được sử dụng một cách lợi để quét các itemset lớn. Phương pháp chia giá trị các biến theo nhóm cho phép chúng ta ứng dụng các cơ chế luật kết hợp vào bất cứ cơ sở dữ liệu có mục tiêu cần khai thác. Các nhóm phải xác định khu vực tri thức như là mối quan hệ quan trọng của các giá trị hemoglobin. . 26.2.1 Tổng quan công nghệ khai phá dữ liệu. Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh. chức dữ liệu thành các transaction riêng lẻ.- Để cho việc khai thác dữ liệu được hiệu quả, kho dữ liệu phải tập hợp được tính toàn thể hay tổng lược vè dữ

Ngày đăng: 25/01/2013, 15:30

Xem thêm: công nghệ khai phá dữ liệu, công nghệ khai phá dữ liệu

công nghệ khai phá dữ liệu

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan