Hỗ trợ hệ chuyên gia cho khai phá luật kết hợp

LỜI CẢM ƠN Trước hết, tôi xin chân thành cảm ơn tới các thầy cô giáo Trường Đại học Sư phạm Hà Nội 2 đă tận tâm giảng dạy, cung cấp cho tôi kiến thức, phương pháp nghiên cứu trong khóa học cũng như trong quá trình thực hiện luận văn. Đặc biệt tôi xin được bày tỏ lòng biết ơn sâu sắc đến thầy giáo hướng dẫn PGS.TS Lê Huy Thập, người đã tận tình hướng dẫn, giúp đỡ và động viên để tôi thực hiện luận văn này. Xin cảm ơn gia đình, bạn bè và đồng nghiệp đã tạo điều kiện giúp đỡ tôi trong thời gian tôi thực hiện luận văn. Mặc dù tôi đã cố gắng nghiên cứu, tìm hiếu đề tài nhưng vẫn không thể tránh khỏi những sai sót nhất định, rất mong nhận được sự đóng góp và chia sẻ của quý thầy cô và bạn bè. Tôi xin chân thành cảm ơn. Hà Nội, tháng 12 năm 2013 TÁC GIẢ LUẬN VĂN Hoàng Văn Lê \ LỜI CAM ĐOAN Tôi xin cam đoan toàn bộ nội dung bản luận văn theo đúng nội dung đề cương. Nội dung luận văn là sự hướng dẫn tận tình của PGS. TS Lê Huy Thập và bản thân tồi tự sưu tầm, tra cứu và sắp xếp cho phù hợp với nội dung yêu cầu. Nội dung luận văn này chưa được công bố hay xuất bản dưới bất kỳ hình thức nào cũng như không được sao chép từ tài liệu đã có sẵn và đảm bảo tính chính xác và thực tiễn. 1 Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn. Hà Nội, tháng 12 năm 2013 TÁC GIẢ LUẬN VĂN Hoàng Văn Lê MỤC LỤC 2 Ký hiệu, chữ viết tắt Ý nghĩa Candidate itemset Một itemset trong tập Ck được sử dụng để sinh ra các large itemset Ck Tập các candidate k-itemset ỏ' giai đoạn thứ k Confidence Độ tin cậy của luật kết hợp CSDL Cơ sở dữ liệu HCG Hệ chuyên gia DM Data mining- Khai phá dữ liệu Frequent/large itemset Một intemset có độ hỗ trợ (support)>= ngưỡng độ hỗ trợ tối thiếu CF Certainty factor ID Indentifier Item Một phần tử của Itemset Itemset Tập của các item k-itemset Một itemset có độ dài k Lk Tập các large itemset ở giai đoạn thứ k TID Transaction Indentifier Transaction Giao dịch Classification Phân loại Candidate Dự tuyển Ý nghĩa Trang Bảng 2.1 Các mặt hàng và nhãn 38 Bảng 2.2 Các giao dịch 38 Bảng 2.3 ứng viên c 1 39 Bảng 2.4 ứng viên LI 39 Bảng 2.5 ứng viên C2 39 Bảng 2.6 ứng viên C2 39 Bảng 2.7 ửng viên C2 39 Bảng 2.8 ứng viên L2 39 Bảng 2.9 ứng viên C3 40 Bảng 2.10 Miêu tả giá trí CF 55 Hình Ý nghĩa Trang Hình 1.1 Quy trình phát hiện tri thức 12 Hình 1.2 Hoạt động của hệ chuyên gia 23 Hình 1.3 Những thành phần cơ bản của một hệ chuyên gia 24 Hình ] .4 Quan hệ giữa máy suy diễn và cơ sở tri thức 25 Hình 1.5 Kiến trúc hệ chuyên gia theo J.Emine 26 Hình 1.6 Kiến trúc hệ chuyên gia theo c. Ernest 26 Hình 2.1 Query Point phân lớp 47 Hình 2.2 Thiết kế xác định danh giới các cụm ban đầu 48 Hình 2.3 Tính toán trọng tâm các cụm mới 48 Hình 2.4 Phạm vi của giá trị CF 53 Hình 3.1 Mô hình quan hệ thực thể 68 Hình 3.2 Sơ đồ giữ liệu quan hệ 69 Hình 3.3 Các giao dịch chính 70 Hình 3.4 Các giao dịch trong cơ sở dữ liệu 70 Hình 3.5 Thể hiện độ hỗ trợ tối thiểu và độ tin cậy tối thiểu 71 Hình 3.6 Thế hiện độ hỗ trợ tối thiếu và độ tin cậy tối thiểu khác 72 Hình 3.7 Thể hiện độ chắc chắn của luật 72 Hình 3.8 Kết quả chương trình 73 PHÀN MỎ ĐÀU 1. Lý do chọn đề tài Đe tìm ra các luật kết hợp trong khai phá dữ liệu, cơ bản dựa vào độ hỗ trợ Sup (Suport) và độ tin cậy Conf (Confidence), nhưng những tham số này phải được xác định qua kinh nghiệm hay qua phương pháp chuyên gia. Dù bằng cách nào thì độ khả tín của các luật cũng ở mức độ tham khảo nào đó. Đe tăng độ tin cậy vào các luật đã tìm được chúng ta có thế dùng phương pháp hỗ trợ thêm của hệ chuyên gia. Từng chuyên đề trên thì thế giới và Việt Nam đã có sự quan tâm nghiên cứu, nhưng sự kết hợp gữa hai chuyên đề theo cách nêu ra trên thì chưa. Chúng ta sẽ dùng phương pháp bố sung nhân tố chắc chắn CF cho cả các sir kiện, luật, để tăng độ khả tín cho các luật kết hợp đã nhận được bằng phương pháp khai phá luật kết hợp. 2. Mục đích nghiên cứu (Các kết quả cần đạt đưọc) Dùng suy luận không chắc chắn để hỗ trợ khai phá luật kết hợp Lập trình thể hiện luật kết hợp có hỗ trợ phương pháp suy luận không chắc chắn tại siêu thị bán sách 3. Nhiệm yụ nghiên cứu Nghiên cứu khai phá dữ liệu có hỗ trợ của hệ chuyên gia. 4. Đối tượng và phạm vi nghiên cứu Khai phá dữ liệu Hệ chuyên gia 5. Giả thuyết khoa học Dùng hệ chuyên gia, Trí tuệ nhân tạo, để hỗ trợ khi nâng cao và mở rộng đề tài. 6. Phương pháp nghiên cứu Phương pháp tìm luật kết hợp trong khai phá dữ liệu Các phương pháp suy luận không chắc chắn trong hệ chuyên gia. Thể hiện độ chắc chan CF trong sự kiện và luật khai phá kết hợp 3 Nội dung luận văn gồm 3 chương Chương 1. Tông quan 1.1 Khai phá dữ liệu 1.2 Hệ chuyên gia 1.3 Ket luận chương Chương 2. Hồ trợ hệ chuyên gia trong khai phá luật kết hợp 2.1 Phương pháp tìm luật kết hợp trong khai phá dữ liệu 2.2 Các phương pháp suy luận không chắc chắn trong hệ chuyên gia. 2.3 Thể hiện độ chắc chắn CF trong sự kiện và luật khai phá kết hợp 2.4 Kết luận Chương 3. ứng dụng hỗ trợ hệ chuyên gia trong khai phá luật kết hợp tại siêu thị bán sách 3.1.Lập trình ứng dụng tại siêu thị bán sách Các giao diện và kết quả của chương trình ứng dụng CHƯƠNG 1 TỐNG QUAN 1.1 KHAI PHÁ Dũ LIỆU 1.1.1 Định nghĩa khai phá dữ liệu Khai phá dữ liệu được dùng đế mô tả quá trình phát hiện ra tri thức trong cơ sở dừ liệu. Quá trình này kết xuất ra các tri thức tiềm ấn từ dữ liệu giúp cho việc dự báo trong kinh doanh, các hoạt động sản xuất, Khai phá dữ liệu làm giảm chi phí về thời gian so với phương pháp truyền thống trước kia (ví dụ như phương pháp thống kê). Sau đây là các định nghĩa mang tính mô tả của nhiều tác giả về khai phá dữ liệu: Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phương pháp được dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối 4 quan hệ và các mẫu chưa biết bên trong dữ liệu”. Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định, trong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong cơ sở dữ liệu lớn”. Định nghĩa của Fayyađ: “Khai phá dữ liệu là một quá trình không tầm thường nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và có thể hiểu được”. 1.1.2 Các ứng dụng cùa khai phá dữ liệu Phát hiện tri thức và khai phá dừ liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, tri tuệ nhân tạo, cơ sở dữ liệu, thuật toán, tính toán song song Đặc biệt phát hiện tri thức và khai phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các phương pháp thống kê để mô hình hóa dữ liệu và phát hiện các mẫu. Khai phá dừ liệu có nhiều ứng dụng trong thực tế, ví dụ như: Bảo hiểm, tài chính và thị trường chứng khoán: phân tích tình hình tài chính và dự báo giá của các loại cổ phiếu trong thị trường chứng khoán. Danh mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận, Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định. Điều trị y học và chăm sóc y tế: một số thông tin về chuẩn đoán bệnh được lưu trong các hệ thống quản lý bệnh viện. Phân tích mối liên hệ giữa các triệu chứng bệnh, chuẩn đoán và phương pháp điều trị. Sản xuất và chế biến: các quy trình, phương pháp chế biến và xử lý sự cố. Text mining và Web mining: phân lóp văn bản và các trang Web, tóm tắt văn bản. Lĩnh vực khoa học: quan sát thiên văn, dữ liệu sinh vật học, dữ liệu gene, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và một số bệnh di truyền, 5 Mạng viễn thông: phân tích các cuộc gọi điện thoại và hệ thống giám sát lỗi, sự cố, chất lượng dịch vụ, 1.1.3 Các bước của quá trình khai phá dữ liệu Quy trình phát hiện tri thức thường tuân theo các bước sau: Bước thứ nhất: Hình thành, xác định và định nghĩa bài toán. Là tìm hiểu lĩnh vực ứng dụng từ đó hình thành bài toán, xác định các nhiệm vụ cần phải hoàn thành. Bước này sẽ quyết định cho việc rút ra được các tri thức hữu ích và cho phép chọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu. Bước thứ hai: Thu thập và tiền xử lý dữ liệu. Là thu thập và xử lý thô, còn được gọi là tiền xử lý dừ liệu nhằm loại bỏ nhiễu (làm sạch dữ liệu), xử lý việc thiếu dữ liệu (làm giàu dữ liệu), biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước này thường chiếm nhiều thời gian nhất trong toàn bộ qui trình phát hiện tri thức. Do dừ liệu được lấy từ nhiều nguồn khác nhau, không đồng nhất, có thể gây ra các nhầm lẫn. Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn và rời rạc hoá. Hình 1.1. Quy trình phát hiện tri thức Bước thứ ba: Khai phá dữ liệu, rút ra các tri thức.Là khai phá dữ liệu, hay nói cách khác là trích ra các mẫu hoặc/và các mô hình ẩn dưới các dữ liệu. Giai 6 đoạn này rất quan trọng, bao gồm các công đoạn như: chức năng, nhiệm vụ và mục đích của khai phá dừ liệu, dùng phương pháp khai phá nào? Thông thường, các bài toán khai phá dữ liệu bao gồm: các bài toán mang tính mô tả - đưa ra tính chất chung nhất của dữ liệu, các bài toán dự báo - bao gồm cả việc phát hiện các suy diễn dựa trên dữ liệu hiện có. Tùy theo bài toán xác định được mà ta lựa chọn các phương pháp khai phá dữ liệu cho phù hợp. Bước thứ tư: Là hiểu tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán. Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có được lấy trung bình trên tất cả các lần thực hiện. Bước thứ năm: Sử dụng các tri thức phát hiện được. Là hiểu tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán. Các bước trên có thê lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện. Các kết quả của quá trình phát hiện tri thức có thể được đưa và ứng dụng trong các lĩnh vực khác nhau. Do các kết quả có thế là các dự đoán hoặc các mô tả nên chúng có thế được đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hoá quá trình này. Tóm lại: Khai phá dữ liệu là một quá trình kết xuất ra tri thức từ kho dữ liệu mà trong đó khai phá dữ liệu là công đoạn quan trọng nhất. 1.1.4 Nhiệm vụ chính trong khai phá dữ liệu Quá trình khai phá dữ liệu là quá trình phát hiện ra mẫu thông tin. Trong đó, giải thuật khai phá tìm kiếm các mẫu đáng quan tâm theo dạng xác định như các luật, phân lớp, hồi quy, cây quyết định, Nhiệm vụ chính trong khai phá dừ liệu bao gồm: phân lớp, hồi qui, phân nhóm, tổng hợp, mô hình hoá sự phụ thuộc và phát hiện sự biến đối và độ lệch. 7 1.1.4.1 Phân lớp (phân loại - classification) Là việc xác định một ánh xạ để ánh xạ các mẫu dữ liệu thỏa mãn ràng buộc nào đó vào cùng một lớp, do đó dữ liệu sẽ được phân thành các lớp có thế giao nhau hoặc không. Mục tiêu của thuật toán phân lớp là tìm ra mối quan hệ nào đó giữa thuộc tính dự báo và thuộc tính phân lớp. Như thế quá trình phân lớp có thế sử dụng mối quan hệ này đế dự báo cho các mục mới. Các kiến thức được phát hiện biếu diễn dưới dạng các luật theo cách sau: “Neu các thuộc tính dự báo của một mục thoả mãn điều kiện của các tiền đề thì mục nằm trong lớp chỉ ra trong kết luận”. Ví dụ 1.1: Một mục biểu diễn thông tin về nhân viên có các thuộc tính dự báo là: họ tên, tuổi, giới tính, trình độ học vấn, và thuộc tính phân loại là trình độ lãnh đạo của nhân viên. 1.1.4.2 Hồi qui (regression) Là việc dùng một hàm dự báo để từ các mẫu dữ liệu đã có hàm dự báo sẽ cho một giá trị thực. Nhiệm vụ của hồi qui tương tự như phân lớp, điếm khác nhau chính là ở chỗ thuộc tính để dự báo là liên tục chứ không phải rời rạc. Việc dự báo các giá trị số thường được làm bởi các phương pháp thống kê cổ điển, chẳng hạn như hồi quy tuyến tính. Tuy nhiên, phương pháp mô hình hoá cũng được sử dụng, ví dụ như cây quyết định. ứng dụng của hồi quy là rất nhiều: dự báo thời tiết, ước lượng xác suất người bệnh có thế chết bằng cách kiểm tra các triệu chứng; dự báo nhu cầu của người dùng đối với một sản phẩm. 1.1.4.3 Phân nhóm (clustering) Là việc mô tả chung đế tìm ra các tập hay các nhóm, loại mô tả dữ liệu. Các nhóm có thế tách nhau hoặc phân cấp hay gối lên nhau. Có nghĩa là dữ liệu 8 có thế vừa thuộc nhóm này lại vừa thuộc nhóm khác. Các ứng dụng khai phá dữ liệu có nhiệm vụ phân nhóm như phát hiện tập các khách hàng có phản ứng giống nhau trong cơ sở dữ liệu tiếp thị; xác định các quang phổ từ các phương pháp đo tia hồng ngoại, Liên quan chặt chẽ đến việc phân nhóm là nhiệm vụ đánh giá dữ liệu, hàm mật độ xác suất đa biến/ các trường trong cơ sở dữ liệu. 1.1.4.4 Tống ho’p (summarization) Là công việc liên quan đến các phương pháp tìm kiếm một mô tả tập con dữ liệu. Kỹ thuật tổng hợp thường áp dụng trong việc phân tích dữ liệu có tính thăm dò và báo cáo tự động. Nhiệm vụ chính là sản sinh ra các mô tả đặc trưng cho một lớp. Mô tả loại này là một kiêu tổng hợp, tóm tắt các đặc tính chung của tất cả hay hầu hết các mục của một lớp. Các mô tả đặc trưng thế hiện theo luật có dạng sau: “Neu một mục thuộc về lớp đã chỉ trong tiền đề thì mục đó có tất cả các thuộc tính đã nêu trong kết luận”. Lưu ý rằng luật dạng này có các khác biệt so với luật phân lớp. Luật phát hiện đặc trưng cho lớp chỉ sản sinh khi các mục đà thuộc về lớp đó. 1.1.4.5 Mô hình hoá sự phụ thuộc (dependency modeling) Là việc tìm kiếm một mô hình mô tả sự phụ thuộc giữa các biến, thuộc tính theo hai mức: Mức 1: Mức cấu trúc của mô hình mô tả (thường dưới dạng đồ thị). Trong đó, các biến phụ thuộc bộ phận vào các biến khác. Mức 2: Mức định lượng mô hình mô tả mức độ phụ thuộc. Những phụ thuộc này thường được biểu thị dưới dạng theo luật “nếu - thì” (nếu tiền đề là đúng thì kết luận đúng), về nguyên tắc, cả tiền đề và kết luận đều có thể là sự kết hợp logic của các giá trị thuộc tính. Trên thực tế, tiền đề thường là nhóm các giá trị thuộc tính và kết luận chỉ là một thuộc tính. Hơn nữa hệ thống có thể phát hiện các luật phân lớp trong đó tất cả các luật cần phải có cùng một 9 thuộc tính do người dùng chỉ ra trong kết luận. Quan hệ phụ thuộc cũng có thể biểu diễn dưới dạng mạng tin cậy Bayes. Đó là đồ thị có hướng, không chu trình. Các nút biếu diễn thuộc tính và trọng số của liên kết phụ thuộc giữa các nút đó. 1.1.4.6 Phát hiện sự biến đổi và độ lệch (change and deviation dectection) Hai mô hình độ lệch hay dùng là lệch theo thời gian hay lệch theo nhóm. Độ lệch theo thời gian là sự thay đổi có ỷ nghĩa của dữ liệu theo thời gian. Độ lệch theo nhóm là sự khác nhau của giữa dữ liệu trong hai tập con dữ liệu, ở đây tính cả trường hợp tập con dữ liệu này thuộc tập con kia, nghĩa xác định dữ liệu trong một nhóm con của đối tượng có khác đáng kể so với toàn bộ đối tượng không? Theo cách này, sai sót dữ liệu hay sai lệch so với giá trị thông thường được phát hiện. Vì những nhiệm vụ này yêu cầu số lượng và các dạng thông tin rất khác nhau nên chúng thường ảnh hưởng đến việc thiết kế và chọn phương pháp khai phá dữ liệu khác nhau. Vĩ dụ như phương pháp cây quyết định (sẽ được trình bày mục 1.1.5.3) tạo ra được một mô tả phân biệt được các mẫu giữa các lớp nhưng không có tính chất và đặc điểm của lớp. 1.1.5 Các phương pháp khai phá dữ liệu 1.1.5.1 Phương pháp suy diễn / quy nạp Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các thông tin trong cơ sở dữ liệu. Ví dụ như toán tử liên kết áp dụng cho bảng quan hệ, báng đầu chứa thông tin về các nhân viên và phòng ban, bảng thứ hai chứa các thông tin về các phòng ban và các trưởng phòng. Như vậy sẽ suy ra được mối quan hệ giữa các nhân viên và các trưởng phòng. Phương pháp suy diễn dựa trên các sự kiện chính xác để suy ra các tri thức mới từ các thông tin cũ. Mầu chiết xuất được bằng cách sử dụng phương pháp này thường là các luật 1 [...]... chuyên gia trong khai phá dữ liệu cho phép khai thác được những thông tin mới mà các cơ sở dữ liệu tác nghiệp thông thường không thể có được Từ đó thế hiện độ chắc chắn trong sự kiện và luật khai phá luật kết hợp: sử dụng công cụ truy vấn, xây dựng cây quyết định, dựa theo khoảng cách (K-láng giềng gần), giá trị trung bình, phát hiện luật kết hợp, CHƯƠNG 2 HỎ TRỢ HỆ CHUYÊN GIA TRONG KHAI LUẬT KÉT HỢP... Trong hệ thống xử lý thông tin, dữ liệu tăng lên không ngừng, đòi hỏi phải có kỹ thuật lưu trữ và khai thác thông tin một cách có hiệu quả Từ đó có thế khai phá ra các tri thức phục vụ cho hoạt động sản xuất, kinh doanh và hỗ trợ ra quyết định Giải pháp cho tất cả các vấn đề nêu trên chính là kỹ thuật khai phá dữ liệu (KDD- Knowledge Discovery and Data Mining) có sự hỗ trợ của hệ chuyên gia Hỗ trợ hệ chuyên. .. tri thức chuyên gia về lĩnh vực, khối motor là cơ chế giải quyết vấn đề Việc tách như vậy rất tốt trong hệ chuyên gia, nó làm cho việc giải quyết vấn đề và đưa ra kết luận sẽ khách quan không bị nhiễu hay xung đột với các luật trong bộ nhớ tri thức b Tri thức chuyên gia Tri thức giải quyết vấn đề trong hệ chuyên gia là tri thức thu thập từ các chuyên gia c Tập trung nguồn chuyên gia Mỗi chuyên gia chỉ... PHƯƠNG PHÁP TÌM LUẬT KÉT HỢP TRONG KHAI PHÁ DŨ LIỆU 2.1.1 Vài nét về khai phá luật kết hợp Giả sử chúng ta có một cơ sở dữ liệu D Luật kết hợp cho biết phạm vi mà trong đó sự xuất hiện của tập các thuộc tính s nào đó trong các bản ghi (records) của D sẽ kéo theo sự xuất hiện của một tập những thuộc tính khác u cũng trong những bản ghi đó Mỗi luật kết hợp được đặc trưng bởi một cặp tỉ lệ hỗ trợ (support... ration) Mỗi tỉ lệ hỗ trợ được biếu diễn bằng tỉ lệ % những bản ghi trong D chứa cả s và u Vấn đề khám phá luật kết hợp được phát biểu như sau: Cho trước tỉ lệ hỗ trợ (support ration) 9 và độ tin cậy (confidence) p Đánh số tất cả các luật trong D có các giá trị tỉ lệ hỗ trợ và tin cậy lớn hơn 0 và |3 tương ứng Vấn đề phát hiện luật kết hợp được thực hiện như sau: Liệt kê (đếm) tất cả những qui luật chỉ ra... nhiều tiềm năng mà người ta vẫn chưa khai thác hết 1.2 HỆ CHUYÊN GIA 1.2.1 Khái niệm Hệ chuyên gia Theo IAE.Feigenbaum: Hệ chuyên gia (Expert System) là một chương trình Iĩiáy tính thông minh sử dụng tri thức (knowledge) và các thủ tục suy luận (inference procedures) đế giải những bài toán tương đối khó khăn đòi hỏi những chuyên gia mới giải được” Hệ chuyên gia là một hệ thống tin học có thế mô phỏng... bắt đầu Điều đó cũng cho thấy không gian tìm kiếm có kích thước tăng theo hàm mũ của số lượng các thuộc tính ở đầu vào Do vậy cần phải chú ý khi thiết kế dữ liệu cho việc tìm kiếm các luật kết hợp Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật 1 X=>B sao cho tần số của luật không nhỏ hơn ngưỡng ơ cho trước và độ tin cậy của luật không nhỏ hơn ngưỡng 0 cho trước Từ một cơ sở... một giao dịch T G D hỗ trợ (support) cho một tập Xçl nếu nó chứa tất cả các item của X, nghã là XÇT, trong một số trường hợp người ta dùng ký hiệu T(X) để chỉ tập các giao dịch hỗ trợ cho X Kí hiệu support(X) (hoặc sup(X), s(X)) là tỷ lệ phần trăm của các giao dịch hỗ trợ X trên tổng các giao dịch trong D, nghĩa là: sup(X ) = -— - I DI Độ hỗ trợ tối thiểu (minimum support) minsup là một giá trị cho. .. cậy c được định nghĩa là khả năng giao dịch T hỗ trợ X thì cũng hỗ trợ Y Khai phá luật kết hợp được phân thành hai bài toán con: Bài toán 1; Tìm tất cả các tập mục mà có độ hỗ trợ lớn hơn độ hỗ trợ tối thiểu do người dùng xác định Các tập mục thoả măn độ hỗ trợ tối thiểu được gọi là các tập mục phổ biến Bài toán 2: Dùng các tập mục phố biến để sinh ra các luật mong muốn Ý tưởng chung là nếu gọi ABCD... vực khai phá luật kết hợp cho đến nay đã được nghiên cứu và phát triển theo nhiều hướng khác nhau; nhằm cải tiến tốc độ thuật toán, hoặc tìm kiếm luật có ỷ nghĩa hơn, Sau đây xin nêu một số hướng chính hiện nay: - Luật kết hợp nhị phân (binary association rule hoặc boolean association rule) - Luật kết hợp có thuộc tính số và thuộc tính hạng mục (quantitative and categorial association rule) - Luật kết . phương pháp khai phá luật kết hợp. 2. Mục đích nghiên cứu (Các kết quả cần đạt đưọc) Dùng suy luận không chắc chắn để hỗ trợ khai phá luật kết hợp Lập trình thể hiện luật kết hợp có hỗ trợ phương. phá dữ liệu 1.2 Hệ chuyên gia 1.3 Ket luận chương Chương 2. Hồ trợ hệ chuyên gia trong khai phá luật kết hợp 2.1 Phương pháp tìm luật kết hợp trong khai phá dữ liệu 2.2 Các phương pháp suy luận. chắc chắn trong hệ chuyên gia. 2.3 Thể hiện độ chắc chắn CF trong sự kiện và luật khai phá kết hợp 2.4 Kết luận Chương 3. ứng dụng hỗ trợ hệ chuyên gia trong khai phá luật kết hợp tại siêu thị

Hỗ trợ hệ chuyên gia cho khai phá luật kết hợp

Thông tin tài liệu

Từ khóa liên quan

Mục lục

LỜI CẢM ƠN

LỜI CAM ĐOAN

PHÀN MỎ ĐÀU

1. Lý do chọn đề tài

2. Mục đích nghiên cứu (Các kết quả cần đạt đưọc)

3. Nhiệm yụ nghiên cứu

4. Đối tượng và phạm vi nghiên cứu

5. Giả thuyết khoa học

6. Phương pháp nghiên cứu

CHƯƠNG 1 TỐNG QUAN

1.1 KHAI PHÁ Dũ LIỆU

1.1.1 Định nghĩa khai phá dữ liệu

1.1.2 Các ứng dụng cùa khai phá dữ liệu

1.1.3 Các bước của quá trình khai phá dữ liệu

1.1.4 Nhiệm vụ chính trong khai phá dữ liệu

1.1.4.1 Phân lớp (phân loại - classification)

1.1.4.2 Hồi qui (regression)

1.1.4.3 Phân nhóm (clustering)

1.1.4.4 Tống ho’p (summarization)

1.1.4.5 Mô hình hoá sự phụ thuộc (dependency modeling)

1.1.4.6 Phát hiện sự biến đổi và độ lệch (change and deviation dectection)

1.1.5 Các phương pháp khai phá dữ liệu

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan