KHẢO SÁT BÀI TOÁN TÌM LUẬT KẾ HỢP

27 275 0
KHẢO SÁT BÀI TOÁN TÌM LUẬT KẾ HỢP

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Công Nghệ Tri Thức Và Ứng Dụng Data Mining – Apriori algorithm Contents Contents 1 1. GIỚI THIỆU 1 2. TỔNG QUAN VỀ QUÁ TRÌNH KHAI PHÁ TRI THỨC 2 2.1 Khái niệm về khai phá dữ liệu (datamining) và ứng dụng 2 2.2. Các hướng tiếp cận khai phá dữ liệu (datamining) 4 3. BÀI TOÁN KHAI PHÁ DỮ LIỆU TỪ MẠNG XÃ HỘI 5 3.1 Mạng xã hội 5 3.2 Mạng xã hội Facebook 5 3.3 Mạng xã hội Twitter 6 3.4 Mạng xã hội Zing Me 7 3.5 Mạng xã hội – Jomsocial 7 4. KHẢO SÁT BÀI TOÁN TÌM LUẬT KẾ HỢP 11 4.1 Mô tả bài toán tìm Luật kết hợp 11 4.2 Phân tích bài tóan : 12 4.3 Thuật toán Apriori 13 5. CÀI ĐẶT CHƯƠNG TRÌNH : 15 5.1 Giới thiệu CSDL : 15 5.2 Giới thiệu chương trình : 17 5.4 Kết quả đạt được – hạn chế - hướng phát triển 21 5.5 Giới thiệu một số source code chính của chương trình: 22 Tài liệu tham khảo : 27 1. GIỚI THIỆU Như chúng ta đã biết mạng xã hội như facebook, twitter, zingme … đã trở nên rất phổ biến hiện nay. Nhiều bạn trẻ xem nó như là một thế giới thứ 2 của mình – thế giới ảo trong việc tìm bạn, chia sẻ thông tin, kiến thức… Mỏi ngày một lượng số lượng lớn các thao tác được thực hiện trên mạng xã hội và đồng nghĩa với việc một số lượng rất lớn Nguyễn Xuân Nghề 1 Công Nghệ Tri Thức Và Ứng Dụng Data Mining – Apriori algorithm database được sinh vào và lưu trữ. Khai phá dữ liệu cho mạng xã hội một chủ đề khá mới nhưng lại gây nhiều quan tâm cho giới nghiên cứu. Khai phá dữ liệu cho mạng xã hội là một chủ đề rất rộng bao gồm link prediction, xác định trạng thái một nhân tố (actor) tại thời gian t, dự đoán những liên kết với nhân tố này tại thời điểm t+1. Cho thông tin về những nhân tố, dự đoán những lien kết xã hội giữa chúng. Tìm ra những nhân tố nổi bật, những nhân tố có tầm hưởng nhiều nhất trong mạng xã hội. Tìm kiếm trong mạng xã hội và tính thật trong mạng xã hội… Vì thời gian có hạn nên Em chỉ xin trình bày chi tiết phần Data Mining với bài toán tìm luật kết hợp bằng thuật toán Apriori trong quá trình khai phá tri thức và thông qua đó xây dựng một chương trình tìm luật kết hợp tiềm ẩn trong CSDL. Dựa vào các mối lien hệ của từng user đã kết bạn với những user khác trong mạng xã hội và sử dụng thuật toán apriori để có thể đoán được những user có thể kết bạn với nhau và dự đoán nếu một user đã kết bạn với user A thì sẽ kết bạn với user B. Mạng xã hội Em nghiên cứu ở đây là Jomsocial là một thành phần cộng đồng (com_community) của Joomla CMS. Đây là một giải pháp xây dựng các website cộng đồng với mã nguồn mở Joomla CMS được thiết kế mô phỏng theo facebook hiện nay. 2. TỔNG QUAN VỀ QUÁ TRÌNH KHAI PHÁ TRI THỨC 2.1 Khái niệm về khai phá dữ liệu (datamining) và ứng dụng Trong môi trường cạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Với những lý do như vậy, các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD - Knowledge Discovery and Data Mining).Với những ưu điểm đó, khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau: marketing, tài chính, ngân hàng và bảo hiểm, khoa học, y tế, an ninh, internet… Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng. Khai phá dữ liệu (Data Mining) được định nghĩa Nguyễn Xuân Nghề 2 Knowledge Pattern Discovery Transformed Data Cleansed Preprocessed Preparated Data Target Data Gathering Data Mining Selection Transformation non Cleansing Pre-processing Preparation Envalution of Rule Internet, Internet, Công Nghệ Tri Thức Và Ứng Dụng Data Mining – Apriori algorithm là: quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu… Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ CSDL (knowlegde mining from databases), trích lọc dữ liệu (knowlegde extraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data archaeology),nạo vét dữ liệu (data dredging). Quá trình này bao gồm các bước sau: a) Làm sạch dữ liệu (data cleaning): loại bỏ nhiễu hoặc các dữ liệu không thích hợp. b) Tích hợp dữ liệu (data integration): Tích hợp dữ liệu từ các nguồn khác nhau như: CSDL, Kho dữ liệu, file text c) Chọn dữ liệu (data selection): Ở bước này, những dữ liệu liên quan trực tiếp đến nhiệm vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu. d) Chuyển đổi dữ liệu (data transformation): Trong bước này, dữ liệu sẽ được chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp. e) Khai phá dữ liệu (data mining): Là giai đoạn thiết yếu, trong đó các phương pháp thông minh sẽ được áp dụng để trích xuất ra các mẫu dữ liệu. f) Đánh giá mẫu (pattern evaluation): Đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa vào một số phép đo. Đây là mô hình minh họa cho các quá trình khai thác dữ liệu : Nguyễn Xuân Nghề 3 Công Nghệ Tri Thức Và Ứng Dụng Data Mining – Apriori algorithm (Hình 1 – Quá Trình Khai Thác Dữ Liệu) g) Trình diễn dữ liệu (knowlegde presentation): Sử dụng các kĩ thuật trình diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng. Khai phá dữ liệu là một lĩnh vực liên quan tới rất nhiều ngành học khác như: hệ CSDL, thống kê, trực quan hóa Hơn nữa, tuỳ vào cách tiếp cận được sử dụng, khai phá dữ liệu còn có thể áp dụng một số kĩ thuật như mạng nơ ron, lí thuyết tập thô hoặc tập mờ, biểu diễn tri thức… So với các phương pháp này, khai phá dữ liệu có một số ưu thế rõ rệt: 2.2. Các hướng tiếp cận khai phá dữ liệu (datamining) - Phân lớp và dự đoán (classification & prediction) : xếp đối tượng vào một trong các lớp đã biết trước. Ví dụ: trong mạng xã hội ta có thể phân lớp user tùy thuộc vào độ tuổi, giới tính, trình độ học vấn… Hướng tiếp cận phân lớp có giám sát (supervised learning) thường sử dụng một số kỹ thuật của học máy như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural network) .v.v - Luật kết hợp (association rules) : là dạng luật biểu diễn tri thức ở dạng tương đối đơn giản. Luật kết hợp có khả năng ứng dụng trong nhiều lĩnh vực khác nhau trong đó có lĩnh vực mạng xã hội. Nguyễn Xuân Nghề 4 Công Nghệ Tri Thức Và Ứng Dụng Data Mining – Apriori algorithm - Khai thác mẫu tuần tự (sequential/temporal patterns): Tương tự như khai thác luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Một luật mô tả mẫu tuần tự có dạng tiêu biểu X -> Y, phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện biến cố Y. Hướng tiếp cận này có tính dự báo cao. - Phân cụm (clustering/segmentation) : Sắp xếp các đối tượng theo từng cụm (số lượng và tên của cụm chưa được biết trước). Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là nhỏ nhất. Phân cụm còn được gọi là học không có giám sát (unsupervised learing). Trong các hướng tiếp cận trên, luật kết hợp là tri thức quan trọng nhất tiềm ẩn trong CSDL. Có rất nhiều thuật toán khai mỏ luật kế hợp. Do vì thời gian hạn chế Em chỉ trình bài thuật toán Apriori trong bài luận này. 3. BÀI TOÁN KHAI PHÁ DỮ LIỆU TỪ MẠNG XÃ HỘI 3.1 Mạng xã hội Ngày nay, các mạng xã hội đang có sự phát triển bùng nổ, với số lượng người dùng lên đến hàng trăm triệu. Các mạng xã hội đang dần trở thành một môi trường mạng không thể thiếu với hàng triệu người dùng. Nơi mang lại cho người dùng một cơ hội to lớn để kết nối và chia sẻ thông tin dễ dàng. Nó cũng phản ánh nhu cầu tâm lý tất yếu của con người là chia sẻ và trao đổi thông tin. Khi mà xã hội càng hiện đại thì áp lực cuộc sống, sự thiếu thốn về thời gian càng tăng… Điều đó làm cho các mạng xã hội trở thành một môi trường tiện dụng để người dùng có thể chia sẻ nhanh chóng những thông tin mình có với bạn bè. 3.2 Mạng xã hội Facebook Facebook là mạng xã hội lớn nhất thế giới, được thành lập vào tháng 2 năm 2004, Facebook ban đầu có tên là Facemash. Đây là một phiên bản Hot or Not của trường đại học Harvard. Sau đó, MarkZuckerberg thành lập “The Facebook” đặt trên domain thefacebook.com. Dịch vụ mạng xã hội này ban đầu chỉ dành riêng cho các sinh viên của Nguyễn Xuân Nghề 5 Công Nghệ Tri Thức Và Ứng Dụng Data Mining – Apriori algorithm Đại học Harvard. Chỉ sau một tháng, hơn nửa số sinh viên Đại học Harvard đã đăng ký sử dụng dịch vụ này. Tháng 9 năm 2004, Mark Zuckerberg đã chuyển trụ sở của thefacebbook.com về Palo, Alto, California và bỏ chữ “the” trong tên miền thefacebook.com, chuyển thành facebook.com. Facebook nhanh chóng trở thành cái tên quen thuộc đối với người sử dụng các dịch vụ mạng xã hội. Đến tháng 12 năm 2004, tức chỉ 10 tháng sau khi thành lập, Facebook đã gần chạm mốc 1 triệu người dung. Một năm sau đó, số người dung đã dung vọt lên tới 5.5 triệu người. Facebook dần dần mở rộng hoạt động ra phạm vi bên ngoài các trường đại học. Các trường trung học tại Hoa Kỳ bắt đầu được dung vào hệ thống. Tháng 4 năm 2008, Facebook chính thức có mặt trên nhiều quốc gia và vùng lãnh thổ với 21 ngôn ngữ khác nhau. Số thành viên của mạng xã hội này đã lên tới 100 triệu người. Thành công đến với Facebook nhanh hơn mong đợi khi số lượng thành viên của mạng xã hội này lần lượt chạm mốc 200 triệu vào tháng 4, 300 triệu vào tháng 9 năm 2009, 400 triệu vào tháng 2 năm 2010. Mới đây nhất, Facebook đã vượt mốc 500 triệu người dung. 3.3 Mạng xã hội Twitter Twitter cũng là một trong những mạng xã hội lớn nhất thế giới. Nó còn được biết đến như một mạng “tiểu” blog khi mà mỗi người 6ung chỉ được phép đăng một tin (tweet) có đồ dài không vượt quá 104 kí tự. Mặc dù vậy, nhưng Twitter đáp ứng đúng yêu cầu của người dùng trong một xã hội ngày càng “vội vã”. Ngày 21/3/2011 vừa qua Twitter kỉ niệm sinh nhật lần thứ 5 của mình. Đó một dấu mốc quan trọng trong sự phát triển nhiều thăng trầm mạng tiểu blog này. Đã có thời Twitter phải chật vật để níu giữ người 6ung. Nhưng ngày nay Twitter đã trở nên trưởng thành hơn và giữ một vai trò quan trọng trong xã hội, chính trị, truyền thông, thể thao và nhiều lĩnh vực khác. Người 6ung Twitter hiện nay gửi đi 140 triệu đoạn tweet mỗi ngày. Trước đây, Twitter đã mất 3 năm, 2 tháng và 1 ngày để đạt được 1 tỷ tweet đầu tiên, nhưng giờ đây, cứ 8 ngày thì có 1 tỷ tweet được gửi đi. Nguyễn Xuân Nghề 6 Công Nghệ Tri Thức Và Ứng Dụng Data Mining – Apriori algorithm Tương tự, Twitter đã mất 18 tháng để có 500 ngàn người 7ung, nhưng giờ đây, mỗi ngày lại có 7ung 500 ngàn tài khoản mới được đăng ký. 3.4 Mạng xã hội Zing Me Đáp ứng xu thế mạng xã hội, tại Việt Nam đã có 7ung loạt mạng xã hội ra đời. Tiêu biểu trong số đố là mạng xã hội Zing Me do tập VNG làm chủ. Đây có thể nói là mạng xã hội lớn nhất Việt Nam. Chỉ sau hơn một năm phát triển Zing Me đã có hơn 5 triệu người 7ung. Với giao diện được việt hóa thân thiện, cùng sự tích hợp nhiều ứng dụng và dịch vụ khác nhau, Zing Me đã nhanh chóng thu hút được một lượng lớn người 7ung. Đặc biệt là nhóm những người 7ung trẻ tuổi. Zing Me cung cấp một môi trường chia sẻ và kết nối dễ dàng. Đồng thời Zing Me cũng cung cấp nhiều công cụ khác nhau để các doanh nghiệp tổ chức các sự kiện, thực hiện các điều tra thăm dò. Zing Me cũng mở các API để các bên thứ ba phát triển các ứng dụng dựa trên nền tảng Zing Me. Zing Me ngày càng chiếm được cảm tình của người 7ung, đặc biệt là nhóm người 7ung trẻ tuổi. Đó là cơ sở cho sự phát triển bền vững tại thị trường Việt Nam sau này. Trên đây là một số mạng xã hội phổ biến ở trên thế giới và ở Việt Nam. Nó cho thấy mạng xã hội đã trở thành một xu hướng chi phối đời sống xã hội, nó chiếm được cảm tính và sự quan tâm của tất cả mọi lứa tuổi, tầng lớp và trên phạm vi toàn cầu rộng lớn. Xu hướng đó tạo ra sự phát triển bùng nổ của mạng xã hội. Đồng thời nó cũng biến mạng xã hội trở thành một kho chứa thông tin khổng lồ. Bởi mạng xã hội gần như trở thành một môi trường xã hội ảo. Nó ghi nhận một cách đa dạng các hoạt động khác nhau của người 7ung. Nó nắm giữ từ các thông tin cá nhân, cho tới các thông tin về các mối quan hệ, về sở thích, về thói quen của người 7ung. Mạng xã hội trở thành một kho dữ liệu khổng lồ mà nếu khai thác hiệu quả người ta có thể tìm được rất nhiều thông tin hữu ích. Có thể đoán nhận được sở thích của một người, phân tích các xu hướng về nhu cầu của người 7ung, hay mối quan hệ giữa những người 7ung… 3.5 Mạng xã hội – Jomsocial JomSocial được ra mắt năm 2007 bởi Slashes and Dots Sdn. Bhd, một công ty ở Malaysia. JomSocial là một extension thương mại và được tích hợp vào Joomla CMS. Sau nhiều năm phát triển, nó đã trở thành một trong những extensions hang đầu về mạng xã hội của Joomla. Nguyễn Xuân Nghề 7 Công Nghệ Tri Thức Và Ứng Dụng Data Mining – Apriori algorithm Năm 2010, JomSocial nhận giải thưởng “best joomla application” tại 2010 CMS Expo. Năm 2012 nhận giải thưởng 2012 CMS Expo Spotlight Awards, Extension này có những tính năng sau: • Tạo và quản lý profile của bạn • Thêm các applications vào profile của bạn(ứng dụng lien quan như: hình ảnh, tường, videos, google map…) • Tích hợp với những third-party components khác • Thiết lập hệ thống bạn bè, send email riêng tư đến bạn bè, mời bạn bè tham gia, và lien kết với những người khác trong mạng xã hội • Thiết lập quyền riêng tư cho profile, applications • Tích hợp với các mạng xã hội khác như facebook, Twitter… • Tạo photo album, videos – users có thể comment về chúng trên profile của bạn • Lưu trữ những hoạt động của các thành viên • Tạo groups, events và user có thể subscribe với những hoạt động của groups, events • … Mạng xã hội với Jomsocial: Website http://linux.com đang dung Jomsocial cho cộng đồng người sử dụng linux: Nguyễn Xuân Nghề 8 Công Nghệ Tri Thức Và Ứng Dụng Data Mining – Apriori algorithm (Hình 2 – linux.com sử dụng Jomsocial) Website http://giblink.com là mạng xã hội về sự liên kết kinh doanh, quảng bá sản phẩm: (Hình 3 – giblink.com sử dụng Jomsocila) Nguyễn Xuân Nghề 9 Công Nghệ Tri Thức Và Ứng Dụng Data Mining – Apriori algorithm Website http://onlineradiostations.com tổng hợp các đài radio. Users có thể share những đài radio và những nhân tố thú vị khác về chúng: (Hình 4 – onlineradiostation.com sử dụng Jomsocial) Còn rất rất nhiều website khác sử dụng Jomsocial cho giải pháp mạng xã hội của mình. Ở đây do giới hạn thời gian nên em chỉ nghiên cứu việc kết bạn giữa các thành viên qua table jos_community_connection: Table’s name: jos_community_connection Connection_id Connect_from Connect_to Status Groups Msg Created Cơ chế hoạt động việc kết bạn của Jomsocial như sau: khi user A kết bạn với user B, tại table jos_community_connection sẽ lưu trữ id của user A vào trường connect_from và id của user B vào connect_to. Dựa vào thuật toán Apriori ta có thể áp dụng để tìm những tập phổ biến là những users có liên quan với nhau. Nếu những users trong cùng trong một tập phổ biến đã chưa Nguyễn Xuân Nghề 10 [...]... chứa cả vế trái lẫn vế phải của luật Card(X) : Tổng số dòng chứa vế trái của luật trên CSDL • Tóm lại tìm luật kết hợp là đi tìm những luật X=>Y trong CDSL sao cho luật thỏa những giới hạn tối thiểu support và confidence cho trước 4.2 Phân tích bài tóan : Để giải quyết bài toán tìm tất cả các luật kết hợp người ta thường chia bài toán thành hai bài toán con sau : • Tìm tập các hạng mục dữ liệu gọi...Công Nghệ Tri Thức Và Ứng Dụng Data Mining – Apriori algorithm kết bạn với nhau thì họ là những ứng viên tốt nhất cho việc dự đoán họ sẽ là bạn của nhau Những luật kết hợp đã tìm được ví dụ với C->D,E ta có thể dự đoán Nếu một user kết bạn với C thì suy ra họ sẽ kết bạn với D và E 4 KHẢO SÁT BÀI TOÁN TÌM LUẬT KẾ HỢP Luật kết hợp là một trong những kỹ thuật được nghiên cứu tốt nhất cũng như quan... mạng xã hội và khai thác dữ liệu trên mạng xã hội o Trình bài luật kết hợp, thuật toán khai thác luật kết hợp – thuật toán Apriori o Trình bài cài đặt chương trình khai thác luật kết hợp cho mạng xã hội Jomsocial o Cài đặt được giải thuật apriori bằng ngôn ngữ java Hạn chế: • Chưa kết nối với database server của mạng xã hội (Mysql) và tích hợp database vào giải thuật apriori một cách tự động • Chưa... nhất của khai mỏ dữ liệu, nó được giới thiệu lần đầu tiên vào năm 1993 Mục đích của luật kết hợp là rút ra những mối lien quan thú vị, những tập mẫu phỏ biến, những cấu trúc kết hợp hay cấu trúc ngẫu nhiên giữa những tập hợp Item trong các transaction database hoặc trong những kho dữ liệu 4.1 Mô tả bài toán tìm Luật kết hợp • Gọi I={i1,i2,…,in} là tập các trường gọi là items • D là tập giao tác, ở đó... chỉ danh là TID • Luật kết hợp là một mối quan hệ điều kiện giữa hai tập các hạng mục dữ liệu X và Y theo dạng sau : Nếu X thì Y, và ký hiệu là X=>Y Chúng ta có luật kết hợp : X=>Y, nếu : X ⊂ I, Y ⊂ I và X ∩ Y =∅ Có hai đơn vị đo cơ bản quan trọng cho luật kết hợp là : support là s và confidence là c • Độ tác động (Support) : Thể hiện phạm vi ảnh hưởng của luật trên tòan bộ CSDL Luật X=>Y có độ support... ItemSet • Sử dụng tập Large Item để phát sinh những luật mong muốn.Với mỗi một Large ItemSet – L, tìm tất cà tập con khác rộng của L gọi là A, Với mỗi tập con A nếu tỉ lệ phần trăm giữa support của L so với support của A lớn hơn hay bằng độ tin cậy nhỏ nhất (gọi là minconf) thì ta có luật kết hợp A=>(L\A) Thuật tóan xác định luật kết hợp : • Tìm tất cả các luật R : X=>Y sao cho : Support(R) ≥ minsup và... dụng những luật kết hợp để viết những module hiển thị trên giao diện website mạng xã hội như: module gợi ý những thành viên có thể bạn biết module dự đoán bạn của user A chắc chắn sẽ là ai… Hướng phát triển: • Kết nối với database server của mạng xã hội và tích hợp vào thuật toán apriori một cách tự động • Đưa kết quả thuật toán vào thực tế website mạng xã hội • Tiếp tục nghiên cứu các thuật toán khác:... của hệ thống (0.00->1.00) 2/ Thực thi và xem kết quả chương trình : Thực thi với trường hợp (minsup=40% và mincon=70%) – hình 6 - Frequent 2-itemsets : Là tất cả các tập tối đại tìm được mà có support thỏa minsup (Tập phổ biến) - The Rules list : Tất cả các luật thỏa minsup và mincon tìm được 5.4 Kết quả đạt được – hạn chế - hướng phát triển Kết quả: • tìm hiểu và trình bày các kiến thức sau: o tổng... Tập L 3={{1, 2, 3},{1, 2, 4}, {1, 3, 4}, {1,3, 5}, {2, 3, 4}} Sau khi kết ta có , C 4 sẽ là {1, 2, 3,4}, {1, 3, 4, 5} Bước xén bớt sẽ xóa itemset {1, 3, 4, 5} bởi vì itemset {1, 4, 5}∉ L3 Do đó C 4 chỉ chứa{1, 2, 3, 4} 5 CÀI ĐẶT CHƯƠNG TRÌNH : Em xin cụ thể hóa những kiến thức đã học thông qua viết 1 chương trình hỗ trợ tìm luật kết hợp Chương trình được viết bằng ngôn ngữ Java 5.1 Giới thiệu CSDL :... thành viên của tập hợp này có 2 trường : • Ck itemset • Support count Tập ứng viên k-itemsets.(Là tập tiềm năng của Lk ) Mỗi thành viên của tập hợp này có 2 trường : • • • itemset Support count Thuật toán Apriori : Đầu tiên đếm số items và xác định L1 Bước tiếp theo gồm 2 phần chính : Nguyễn Xuân Nghề 13 Công Nghệ Tri Thức Và Ứng Dụng Data Mining – Apriori algorithm * Ck tạo được bằng cc kết Lk-1 với chính . Mạng xã hội – Jomsocial 7 4. KHẢO SÁT BÀI TOÁN TÌM LUẬT KẾ HỢP 11 4.1 Mô tả bài toán tìm Luật kết hợp 11 4.2 Phân tích bài tóan : 12 4.3 Thuật toán Apriori 13 5. CÀI ĐẶT CHƯƠNG TRÌNH : 15 5.1. ta có thể dự đoán Nếu một user kết bạn với C thì suy ra họ sẽ kết bạn với D và E 4. KHẢO SÁT BÀI TOÁN TÌM LUẬT KẾ HỢP Luật kết hợp là một trong những kỹ thuật được nghiên cứu tốt nhất cũng như. confidence cho trước. 4.2 Phân tích bài tóan : Để giải quyết bài toán tìm tất cả các luật kết hợp người ta thường chia bài toán thành hai bài toán con sau : • Tìm tập các hạng mục dữ liệu gọi là

Ngày đăng: 10/04/2015, 17:04

Từ khóa liên quan

Mục lục

  • Contents

  • 1. GIỚI THIỆU

  • 2. TỔNG QUAN VỀ QUÁ TRÌNH KHAI PHÁ TRI THỨC

    • 2.1 Khái niệm về khai phá dữ liệu (datamining) và ứng dụng

    • 2.2. Các hướng tiếp cận khai phá dữ liệu (datamining)

    • 3. BÀI TOÁN KHAI PHÁ DỮ LIỆU TỪ MẠNG XÃ HỘI

      • 3.1 Mạng xã hội

      • 3.2 Mạng xã hội Facebook

      • 3.3 Mạng xã hội Twitter

      • 3.4 Mạng xã hội Zing Me

      • 3.5 Mạng xã hội – Jomsocial

      • 4. KHẢO SÁT BÀI TOÁN TÌM LUẬT KẾ HỢP

        • 4.1 Mô tả bài toán tìm Luật kết hợp

        • 4.2 Phân tích bài tóan :

        • 4.3 Thuật toán Apriori

        • 5. CÀI ĐẶT CHƯƠNG TRÌNH :

          • 5.1 Giới thiệu CSDL :

          • 5.2 Giới thiệu chương trình :

          • 5.4 Kết quả đạt được – hạn chế - hướng phát triển

          • 5.5 Giới thiệu một số source code chính của chương trình:

          • Tài liệu tham khảo :

Tài liệu cùng người dùng

Tài liệu liên quan