Luận án tiến sĩ nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng (TT)

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ✩ I H✬C CÔNG NGH✮ - CÙ THU THỦY NGHIÊN CỨU PHÁT HIỆN LU✵T KẾT H✷P HIẾM VÀ ỨNG D✸NG Chuyên ngành: Hệ thống thông tin 62 48 05 01 Mã s✹: TÓM TẮT LUẬN ÁN TIẾN SỸ CÔNG NGHỆ THÔNG TIN HÀ N❀I - 2013 Công trình hoàn thành tại: Trường Đại học Công nghệ - ĐH Quốc gia Hà nội NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Đỗ Văn Thành PGS.TS Hà Quang Th y ❅ Phản biện 1: PGS.TS Nguyễn Đình Hóa Phản biện 2: PGS.TS Ngô Quốc Tạo Phản biện 3: PGS.TS Đỗ Trung Tuấn Luận án bảo vệ trước Hội đồng Đại học Quốc gia chấm luận án tiến sĩ họp tại: Trường Đại học Công Nghệ - ĐHQG Hà Nội Vào: ngày tháng năm 2013 Có thể tìm hiểu luận án thư viện: - Thư viện Quốc gia Việt nam - Trung tâm Thông tin – Thư viện, Đại học Quốc gia Hà nội DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ CÓ LIÊN QUAN ĐẾN LUẬN ÁN Cù Thu Thủy, Đỗ Văn Thành (2008), “Một giải pháp phân tích thị trường chứng khoán Việt Nam”, Tạp chí Tin học Điều khiển học Tập 24 (2), tr 107118 Cù Thu Thủy, Đỗ Văn Thành (2009), “Phát luật kết hợp với ràng buộc mục liệu âm”, Tạp chí Tin học Điều khiển học Tập 25 (4), tr 345-354 Cu Thu Thuy, Do Van Thanh (2010), “Mining Perfectly Sporadic Rules with Two Thresholds”, In Proceedings of MASS2010, Wuhan, China Cu Thu Thuy, Do Van Thanh (2010), “Mining Imperfectly Sporadic Rules with Two Thresholds”, International Journal of Computer Theory and Engineering Vol (5), pp 1793-8201 Cù Thu Thủy, Hà Quang Thụy (2010), “Phát luật kết hợp Sporadic tuyệt đối hai ngưỡng mờ”, Kỷ yếu Hội thảo quốc gia lần thứ XIII Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông, Hưng Yên, tr 263-275 Cù Thu Thủy, Hà Quang Thụy (2011), “Phát tập mục Sporadic không tuyệt đối hai ngưỡng mờ”, Tạp chí Tin học Điều khiển học Tập 27 (2), tr 142-153 Do Van Thanh, Cu Thu Thuy, Pham Thi Thu Trang (2010), “Building CPI Forecasting Model by Combining the Smooth Transition Regression Model and Mining Association Rules.”, Journal on Information Technologies and Communications Vol E-1 (7), pp.16-27 Đỗ Văn Thành, Phạm Thị Thu Trang, Cù Thu Thủy (2009), “ Xây dựng mô hình dự báo giá kết hợp mô hình hồi quy chuyển tiếp trơn kỹ thuật phát luật kết hợp”, Kỷ yếu Hội thảo lần thứ hai khuôn khổ Nghị định thư Việt Nam - Thái Lan, Đại học Kinh tế Quốc dân, tr 308-322 24 MỞ ĐẦU Lý chọn đề tài Trong lĩnh vực khai phá liệu (data mining), luật kết hợp (association rule) dùng để mối quan hệ kiểu "điều kiện → hệ quả" phần tử liệu (chẳng hạn, xuất tập mặt hàng "kéo theo" xuất tập mặt hàng khác) tập bao gồm nhiều đối tượng liệu (chẳng hạn, giao dịch mua hàng) Phát luật kết hợp phát mối quan hệ phạm vi tập liệu cho Lý thuyết luật kết hợp Rakesh Agrawal cộng giới thiệu lần vào năm 1993 [13] nhanh chóng trở thành hướng nghiên cứu khai phá liệu quan trọng, đặc biệt năm gần Phát luật kết hợp ứng dụng thành công nhiều lĩnh vực kinh tế-xã hội khác thương mại, y tế, sinh học, tài chính-ngân hàng, [18, 23, 25, 44, 69, 86, 87] Hiện tại, nhiều khuynh hướng nghiên cứu ứng dụng liên quan đến phát luật kết hợp tiếp tục hình thành Một vấn đề phát luật kết hợp nhận nhiều quan tâm nhà nghiên cứu phát luật kết hợp [26, 47, 49, 50, 53, 58, 66, 68, 80] Luật kết hợp (còn gọi luật hiếm) luật kết hợp xảy Mặc dù tần suất xảy thấp, nhiều trường hợp, luật lại có giá trị Phần lớn thuật toán phát luật kết hợp thường thực tìm luật có độ hỗ trợ độ tin cậy cao Việc ứng dụng thuật toán để tìm luật kết hợp (có độ hỗ trợ thấp, độ tin cậy cao) không hiệu phải đặt ngưỡng độ hỗ trợ cực tiểu nhỏ, nên số lượng tập phổ biến tìm lớn (trong có phần tập tìm có độ hỗ trợ nhỏ ngưỡng độ hỗ trợ cực tiểu minSup) chi phí cho việc tìm kiếm tăng lên Nhằm khắc phục khó khăn này, thuật toán phát luật kết hợp phát triển Hai khuynh hướng phát luật kết hợp quan tâm nhiều là: (i) Sử dụng ràng buộc phần hệ luật Các phương pháp đưa danh sách mục liệu xuất phần luật sử dụng làm điều kiện sinh luật Tuy nhiên, cách tiếp cận hiệu biết trước thông tin mục liệu, chẳng hạn phải xác định trước mục liệu xuất phần hệ luật [22, 56, 66] (ii) Sử dụng đường ranh giới để phân chia tập không phổ biến với tập phổ biến phát luật từ tập (được gọi tập hiếm) thuộc không gian tập không phổ biến [49, 50, 58, 75, 76, 80] Tuy đạt kết định hướng nghiên cứu nhiều hạn chế như: phải sinh tất tập không phổ biến phí cho không gian nhớ cao, xẩy tình trạng dư thừa nhiều luật kết hợp sinh từ tập tìm Cả hai hướng nghiên cứu nói tập trung chủ yếu vào vấn đề phát luật kết hợp CSDL tác vụ chưa giải triệt để Vấn đề phát luật kết hợp CSDL định lượng đề cập lần đầu [58] nhằm phát luật kết hợp từ tập chứa mục liệu không phổ biến Tuy nhiên, tập không gồm mục liệu không phổ biến mà kết hợp số mục liệu không phổ biến với mục liệu phổ biến hay kết hợp mục liệu phổ biến Như vậy, vấn đề phát luật kết hợp CSDL định lượng chưa giải đầy đủ Luận án tiếp nối nghiên cứu trước nhằm giải hạn chế nêu ✁ ✺ ✻ M c tiêu cụ th ph m vi nghiên cứu Mục tiêu cụ thể luận án phát triển vấn đề đề xuất thuật toán phát luật kết hợp hai loại CSDL tác vụ định lượng, đồng thời ứng dụng ban đầu phần kết nghiên cứu lý thuyết đạt xây dựng mô hình phân tích dự báo số vấn đề cụ thể thực tiễn đặt Phát luật kết hợp có phạm vi rộng nghiên cứu sinh tập trung giải giai đoạn toán phát luật hiếm, đề xuất giải pháp hiệu tìm tập cho CSDL tác vụ định lượng ✂ Nh✄ng đóng góp c❂a lu❃n án V✫ nghiên cứu lý thuyết, luận án tập trung xác định số dạng luật kết hợp Sporadic CSDL tác vụ CSDL định lượng, đồng thời phát triển thuật toán tương ứng phát tập mục liệu cho dạng luật Đối với toán phát luật CSDL tác vụ, luận án theo hướng tiếp cận tìm tập không phổ biến đóng cho luật thay việc tìm tất tập không phổ biến nghiên cứu luật trước Hướng tiếp cận luận án phát triển dựa theo tư tưởng thuật toán CHARM [94]; việc phải tìm tập đóng hạn chế chi phí mà hạn chế luật dư thừa Luận án phát triển ba thuật toán tìm tập cho ba dạng luật kết hợp CSDL tác vụ là: thuật toán MCPSI phát tập Sporadic tuyệt đối hai ngưỡng [32], thuật toán MCISI phát tập Sporadic không tuyệt đối hai ngưỡng [33] thuật toán NC-CHARM phát tập liệu với ràng buộc mục liệu âm [2] Đối với toán phát luật CSDL định lượng, luận án theo hướng tiếp cận sử dụng lý thuyết tập mờ để chuyển CSDL định lượng CSDL mờ thực phát luật CSDL mờ Luận án đề xuất hai dạng luật kết hợp Sporadic cho CSDL định lượng (luật kết hợp Sporadic tuyệt đối hai ngưỡng mờ [3], luật kết hợp Sporadic không tuyệt đối hai ngưỡng mờ [4]) phát triển hai thuật toán tìm tập cho hai dạng luật Thuật toán MFPSI phát tập Sporadic tuyệt đối hai ngưỡng mờ [3] phát triển theo tư tưởng thuật toán Apriori [16], thuật toán MFISI phát tập Sporadic không tuyệt đối hai ngưỡng mờ [4] phát triển theo tư tưởng thuật toán tìm tập cho luật Sporadic không tuyệt đối CSDL tác vụ tác giả luận án đề xuất [33] Về triển khai ứng dụng, luận án đề xuất kết hợp phát luật kết hợp mẫu âm mô hình hồi quy chuyển tiếp trơn phi tuyến để xây dựng mô hình phân tích dự báo số CPI số chứng khoán Việt Nam Kết dự báo kiểm định theo mô hình xây dựng cho thấy chất lượng dự báo cải thiện rõ rệt, độ xác kết dự báo so với thực tiễn cao [1, 7, 36] 2 Góp phần giải toán phát luật kết hợp CSDL định lượng: - Đề xuất toán phát luật kết hợp Sporadic tuyệt đối hai ngưỡng mờ giới thiệu thuật toán MFPSI (được phát triển từ tư tưởng thuật toán Apriori) nhằm tìm tập mục cho luật - Đề xuất toán phát luật kết hợp Sporadic không tuyệt đối hai ngưỡng mờ giới thiệu thuật toán MFISI (được phát triển từ thuật toán MCISI chúng tôi) nhằm tìm tập mục cho luật Đóng góp luận án phát triển khuynh hướng ứng dụng tập mờ việc phát luật kết hợp CSDL định lượng phát triển thuật toán riêng để tìm tập mục mờ cho luật kết hợp Góp phần nghiên cứu ứng dụng luật kết hợp phân tích dự báo kinh tế, luận án đề xuất sử dụng luật kết hợp mẫu âm mô hình hồi quy chuyển tiếp trơn việc xây dựng mô hình phân tích dự báo số chứng khoán, giá số giá tiêu dùng CPI Việt Nam Dự báo kiểm định mô hình dự báo xây dựng cho thấy kết dự báo sát với giá trị thực tế thống kê Một hạn chế phần ứng dụng luận án chưa tiến hành triển khai phát luật kết hợp Sporadic lĩnh vực chứng khoán giá hàng hóa số CPI Hướng nghiên cứu tương lai Như phần Phát luật kết hợp với ràng buộc mục liệu âm CSDL tác vụ có mục liệu âm chuyển tập mục liệu dương với ràng buộc mục liệu âm Nghiên cứu tìm điều kiện cần đủ để thực việc chuyển đổi biểu diễn Cả năm thuật toán trình bầy luận án nhằm tìm tập phổ biến cho luật kết hợp hai loại CSDL tác vụ CSDL định lượng Cũng giống vấn đề phát luật kết hợp, nhiệm vụ nghiên cứu phải sinh luật có giá trị từ tập tìm Đây hướng nghiên cứu hay không dễ luật kết hợp có tính chất riêng Tiếp tục triển khai ứng dụng luật kết hợp với phương pháp khác xây dựng mô hình phân tích dự báo kinh tế 23 ✪ D báo kiểm định chấp nhận mô hình dự báo số CPI: Dữ liệu số CPI NB1 từ tuần thứ 95 đến tuần 103 tệp liệu thứ hai dùng để đánh giá mô hình dự báo Dựa mô hình dự báo xây dựng cho số CPI_d1 tính CPI_d1(t) với t=95 đến t=103 số CPI(t) tính tương ứng theo CPI-d1(t) Bảng 4.1 thể kết số CPI tính theo mô hình xây dựng số CPI theo thống kê thực tế B ng 1: Ch số CPI tính theo mô hình xây dựng thống kê ✴ ☎ ✠ Ngoài phần mở đầu kết luận, nội dung luận án bố cục thành chương Hình 0.1 trình bày phân bố chủ đề phát luật kết hợp đề cập chương nội dung luận án Các chủ đề nghiên cứu hình chữ nhật với đường biên kép kết đóng góp luận án ❄ Theo bảng ta thấy độ xác kết dự báo cao Hơn mô hình dự báo không điều kiện, cụ thể CPI tương lai hoàn toàn tính từ trễ NB1 K T LU N Các kết qu luận án Luận án tập trung nghiên cứu, phát triển lý thuyết ứng dụng vấn đề phát luật kết hợp Qua phân tích kết đạt hạn chế nêu nghiên cứu trước luật kết hợp hiếm, luận án đề xuất số vấn đề luật kết hợp Sporadic đạt số kết quả: Góp phần giải toán phát luật kết hợp CSDL tác vụ: - Mở rộng toán phát luật kết hợp Sporadic tuyệt đối hai ngưỡng luật kết hợp Sporadic không tuyệt đối hai ngưỡng Đề xuất hai thuật toán MCPSI MCISI tìm tập mục cho hai luật kết hợp - Đề xuất toán phát luật kết hợp với ràng buộc mục liệu âm giới thiệu thuật toán NC-CHARM nhằm tìm tập phổ biến cho luật Luận án sử dụng chiến lược tìm tập đóng thay tìm tất tập cho luật tiết kiệm chi phí hạn chế luật dư thừa Cả ba thuật toán MCPSI, MCISI NC-CHARM phát triển từ thuật toán CHARM [94] thuật toán phát luật kết hợp hiệu CSDL tác vụ ✞ ✟ 4.T chức lu n án ✆ ✝ 22 Hình 0.1 Phân bố chủ đề phát luật kết hợp luận án ✾✡ng PHÁT HIỆN LUẬT KẾT HỢP VÀ LUẬT KẾT HỢP HIẾM Ch 1.1 Luật kết hợp phương pháp chung phát luật kết hợp ✳ 1.1.1 Bài toán phát luật kết hợp Mục đích toán phát luật kết hợp tìm mối quan hệ tập mục liệu CSDL lớn Khái niệm luật kết hợp phát luật kết hợp R Agrawal cộng đề xuất lần vào năm 1993 nhằm phát mẫu có giá trị CSDL tác vụ siêu thị [13, 14, 16] Kí hiệu I ={i1, i2, , in} tập thuộc tính nhị phân (mỗi thuộc tính biểu diễn mặt hàng siêu thị gọi mục liệu, vậy, I tập tất mặt hàng có siêu thị); tập X ⊂ I gọi tập mục liệu tập mục (itemset); O ={t1, t2, , tm} tập định danh tác vụ (mỗi vụ mua hàng xem tác vụ) Quan hệ D ⊆ I×O gọi CSDL tác vụ Mỗi tác vụ t biểu diễn véc tơ nhị phân, t[k] = mặt hàng ik xuất t ngược lại t[k] = Cho tập mục X ⊆ I, độ hỗ trợ tập X, kí hiệu sup(X), định nghĩa số (hoặc phần trăm) tác vụ D chứa X Lu t kết hợp (association rule) định nghĩa hình thức biểu diễn dạng X → Y, X ⊆ I, Y ⊆ I, X∩Y = ∅ X gọi phần tiền đề (antecedent) Y gọi phần hệ (consequent) luật ☛ Độ hỗ trợ (support) luật X → Y, kí hiệu sup(X → Y) định nghĩa số (hoặc phần trăm) tác vụ D chứa X∪Y Theo R Agrawal cộng [13], luật kết hợp phát cần đáp ứng ràng buộc độ hỗ trợ, theo đó, độ hỗ trợ tập mục W = X∪Y phải vượt qua (không nhỏ thua) ngưỡng hỗ trợ tối thiểu người dùng đưa vào Mọi tập W có tính chất nói gọi tập phổ biến hay tập mục lớn Độ tin cậy (confidence) luật X → Y, kí hiệu conf(X → Y), định nghĩa số (hoặc phần trăm) tác vụ D chứa X chứa Y Luật kết hợp phát cần có tính tin cậy, theo cần có độ tin cậy không nhỏ thua ngưỡng tin cậy tối thiểu người dùng đưa vào Luật kết hợp có độ hỗ trợ độ tin cậy tương ứng không nhỏ thua ngưỡng hỗ trợ tối thiểu ngưỡng tin cậy tối thiểu gọi luật mạnh 1.1.2 Quy trình hai bước phát luật kết hợp Phần lớn thuật toán phát luật kết hợp chia thành hai giai đoạn sau: (1) Tìm tất tập phổ biến CSDL D (2) Với tập phổ biến I1 tìm giai đoạn 1, sinh tất luật mạnh có dạng I2→ I1 – I2, I2 ⊂ I1 Trong hai giai đoạn trên, giai đoạn khó khăn, phức tạp tốn nhiều chi phí ✳ ☞✳3.1 Dữ liệu phục vụ xây dựng mô hình dự báo số CPI Giá mặt hàng thu thập hàng tuần năm 2008 2009 CPI số sử dụng để đánh giá mức độ lạm phát nước ta Song số thu thập theo tháng, mặt hàng khác lại thu thập theo tuần Giải pháp khắc phục đề xuất sử dụng số giá tiêu dùng tháng để xác định số giá tiêu dùng cho tuần tháng 4.3.2 Phát mối quan hệ gi a giá hàng hóa số CPI Chọn độ hỗ trợ cực tiểu minSup = 10% độ tin cậy cực tiểu minConf = 90% phát 214 luật có 12 luật có số CPI phần hệ Trong 12 luật có luật số CPI tăng luật số CPI giảm Tất luật kết hợp luật kết hợp mẫu âm khó để giải thích mối quan hệ thể luật lý thuyết kinh tế 4.3.3 Xây dựng mô hình dự báo số CPI Xây dựng mô hình dự báo số CPI: Các luật kết hợp cho biết tương quan biến động giá số mặt hàng với số CPI, chưa cho biết ảnh hưởng đến mức độ Việc xây dựng mô hình dự báo số CPI quan hệ giúp trả lời câu hỏi Giả sử cần xây dựng mô hình dự báo số CPI dựa luật Rule 93: ✌ XB41; XA81;NB12 → CPI1 (13,725% 92,86% 14 13 12,745%) Luật 93 thể mối quan hệ số CPI giá nhập mặt hàng cotton Mỹ loại (NB1), giá xuất cao su SVR loại (XA8), giá xuất tôm loại 20-30 con/1kg (XB4) Luật cho biết có 14 số 103 tuần (chiếm 13,725%) năm 2008 2009 giá NB1 giảm giá XA8 XB4 tăng Chỉ có 13 103 tuần (chiếm 12,7455 %) giá nhập NB1 giảm giá xuất mặt hàng XA8, XB4 số CPI lại tăng Như độ hỗ trợ luật 93 12,745% độ tin cậy 92,96% Độ tin cậy luật giá NB1 giảm, giá XA8 XB4 tăng số CPI tăng với độ tin cậy 92,86% Để xây dựng mô hình dự báo số CPI từ giá NB1, XA8 XB4 liệu số CPI giá NB1, XA8, XB4 chia thành tập Tập thứ bao gồm 94 tuần năm 2008 2009 dùng để xây dựng mô hình dự báo số CPI Tập thứ gồm tuần tháng 11 tháng 12 năm 2009 dùng để kiểm định mô hình Ứng dụng quy trình bước để xây dựng mô hình hồi quy chuyển tiếp trơn logistic tập thứ việc sử dụng phần mềm JMULTI, ta nhận mô hình dự báo số CPI sau: − 5,997 − ,096 CPI _ d 1(t − 1) + 7,347 CPI _ d 1(t − )  CPI _ d 1(t ) =  + − 6,267 CPI _ d 1(t − 3) − NB1 _ d 1(t − )  6,04 + ,46 CPI _ d 1(t − 1) − ,132 CPI _ d 1(t − 2)    + 5,582 CPI _ d 1(t − 3) + 0,018 NB1 _ d 1(t − 4)  + + exp {− 2,86 (CPI _ d 1(t − 3) + 0,803 )} 21 Phân tích mô hình dự báo số HNX Mô hình cho phép nghiên cứu, phân tích dự báo số HNX thông qua việc nghiên cứu, phân tích dự báo mã cổ phiếu ACB PVI Dự báo ki m nghiệm ch p nhận mô hình: Sử dụng mô hình dự báo xây dựng để dự báo giá trị số HNX từ ngày 16/10/2009 đến hết ngày 31/11/2009, gồm 32 phiên giao dịch đối chiếu với giá trị thống kê thực tế số tập thứ hai, ta thấy có 17 32 phiên giao dịch (bằng 53,2%) có phần trăm sai số tuyệt đối kết dự báo so với giá trị thực tế số HNX không vượt 0,025%, có 20 phiên giao dịch (xấp xỉ 67%) có phần trăm sai số tuyệt đối không vượt 0,03%, Như độ xác dự báo cao (hình 4.1) ✍ ✲ 1.2 Phát luật kết hợp từ CSDL tác vụ ✓ ❁ 1.2.1 Phát luật kết hợp với m t ngưỡng độ hỗ trợ Trong giai đoạn đầu tiên, toán phát luật kết hợp đề cập tới ngưỡng độ hỗ trợ chung (độ hỗ trợ cực tiểu) người sử dụng đưa vào Việc tìm tập phổ biến giải theo cách tiếp cận: - Tìm tất tập phổ biến - Tìm tất tập phổ biến đóng - Tìm tất tập phổ biến cực đại 1.2.2 Phát luật kết hợp với độ hỗ trợ khác Vai trò quan trọng khác mục liệu cho thấy việc sử dụng ngưỡng độ hỗ trợ chung không phù hợp Các nhà nghiên cứu đề xuất hướng phát luật kết hợp sau: - Phát luật kết hợp có ràng buộc mục liệu - Phát luật kết hợp với độ hỗ trợ nhiều mức - Phát luật kết hợp có trọng số - Phát luật kết hợp có ràng buộc độ hỗ trợ - Phát luật kết hợp không sử dụng độ hỗ trợ cực tiểu ✓ 1.3 Phát luật kết hợp từ CSDL định lượng ✎ Hình 1: Chỉ số HNX tính theo mô hình xây dựng thực tế Dự báo tiên nghiệm số ch ng khoán HN : Việc dự báo tiên nghiệm số HNX thực thông qua dự báo giá cổ phiếu ACB PVI Cụ thể việc dự báo số HNX thời điểm t tính thông qua giá trị dự báo sai phân cấp số HNX thời điểm HNX_d1(t) ✑❋ ✏ ❳ ✒ ng dụng lu t kết hợp mẫu âm mô hình chuyển tiếp trơn phân tích liệu giá dự báo số CPI Chúng đề xuất cách kết hợp kỹ thuật phát luật kết hợp để tìm mối quan hệ số CPI giá mặt hàng thiết yếu đời sống dân sinh mặt hàng xuất nhập chủ đạo kinh tế; tiếp sau ứng dụng mô hình hồi quy chuyển tiếp trơn để xây dựng mô hình dự báo số CPI dựa mối quan hệ CPI số mặt hàng phát Quy trình xây dựng mô hình dự báo số CPI thực qua giai đoạn nêu mục 4.2 Giai đoạn nhằm phát luật kết hợp biểu diễn mối tương quan số CPI với giá mặt hàng Giai đoạn nhằm xây dựng mô hình dự báo số CPI dựa mô hình hồi quy chuyển tiếp trơn phi tuyến số quan hệ phát giai đoạn 20 Hầu hết CSDL CSDL định lượng mà CSDL tác vụ Phát luật kết hợp từ CSDL định lượng (thuộc tính nhận giá trị số phân loại) có ý nghĩa ứng dụng lớn nhiều so với CSDL tác vụ Năm 1996, R Srikant R Agrawal [73] lần đầu đề cập tới toán Giải pháp tác giả đơn giản: đầu tiên, rời rạc hoá thuộc tính định lượng để chuyển CSDL cho thành CSDL tác vụ, sau đó, áp dụng thuật toán phát luật kết hợp từ CSDL tác vụ biết Phương pháp rời rạc hoá CSDL định lượng có số nhược điểm sau [2]: (i) Khi rời rạc hoá CSDL định lượng, số thuộc tính tăng lên nhiều dẫn đến phình to CSDL tác vụ (ii) Nếu thuộc tính định lượng chia thành nhiều khoảng độ hỗ trợ thuộc tính khoảng đơn phân chia nhỏ (iii) Tại điểm “biên gãy” thuộc tính rời rạc hoá thường thiếu tính tự nhiên giá trị gần (hoặc tương tự nhau) thuộc tính lại nằm hai khoảng chia khác Để giải hạn chế này, người ta đề xuất ứng dụng lý thuyết tập mờ để chuyển đổi CSDL định lượng ban đầu thành CSDL mờ thực phát luật kết hợp CSDL Từ hướng nghiên cứu phát luật kết hợp mờ đời phát triển ❊ ✔ 1.4 Phát hi n lu t kết hợp ✕ ✖ ✗ .1 Giới thiệu chung v phát luật kết hợp Phần lớn thuật toán phát luật kết hợp thường tìm luật có độ hỗ trợ độ tin cậy cao Việc ứng dụng thuật toán để tìm tập không hiệu phải đặt ngưỡng độ hỗ trợ cực tiểu nhỏ nên số lượng tập tìm lớn (trong có phần tập tìm tập không phổ biến theo ngưỡng độ hỗ trợ cực tiểu này), chi phí cho việc tìm kiếm tăng lên Nhằm khắc phục khó khăn này, thuật toán riêng để tìm tập phát triển .2 t số hướng nghiên cứu phát luật kết hợp - Sử dụng ràng buộc phần hệ luật - Thiết lập đường biên phân chia tập phổ biến không phổ biến .3 Luật Sporadic Theo hướng tiếp cận đường biên phân chia tập phổ biến tập không phổ biến, luật Sporadic Y S Koh cộng đề xuất [49, 50] dạng luật thú vị luận án tập trung nghiên cứu Các tác giả chia luật Sporadic thành hai loại là: luật Sporadic tuyệt đối luật Sporadic không tuyệt đối ✕ ✖ ✘✙ ✕ Luật Sporadic tuyệt đối X → Y với độ hỗ trợ cực tiểu maxSup độ tin cậy cực tiểu minConf luật kết hợp thỏa mãn: (1.1) conf ( X → Y ) ≥ minConf,  sup(X ∪ Y) < maxSup, ∀x ∈X ∪ Y , sup( x) < max Sup  Độ hỗ trợ luật Sporadic tuyệt đối nhỏ maxSup (tính hiếm) mục liệu tập X∪Y có độ hỗ trợ nhỏ thua maxSup (tính "tuyệt đối") Dựa theo ý tưởng thuật toán Apriori, Y S Koh N Rountree phát triển thuật toán Apriori-Inverse [49] để tìm tập Sporadic tuyệt đối Luật Sporadic không tuyệt độ hỗ trợ cực tiểu maxSup độ tin cậy cực tiểu minConf luật kết hợp dạng X → Y cho: (1.2) conf ( X → Y ) ≥ minConf,  sup(X ∪ Y) < maxSup, ∃x ∈X ∪ Y , sup ( x) ≥ max Sup  Khác với luật Sporadic tuyệt đối, luật Sporadic không tuyệt đối đảm bảo tính không đòi hỏi tính "tuyệt đối" (tồn mục liệu tập X∪Y có độ hỗ trợ không nhỏ thua maxSup) Các tác giả chia luật kết hợp Sporadic không tuyệt đối thành dạng giới thiệu kỹ thuật để tìm luật Sporadic không tuyệt đối "thú vị" Đó luật có mục liệu phần tiền đề có độ hỗ trợ cao maxSup giao tập có độ hỗ trợ nhỏ maxSup phần hệ luật có độ hỗ trợ nhỏ maxSup Đây luật thuộc dạng thứ ba phân loại Thuật toán MIISR đề xuất nhằm tìm phần tiền đề cho luật dạng [50] vào bên phải mã số chứng khoán hay mã cổ phiếu đó; thêm chữ số ”2 ” số chứng khoán giá cổ phiếu giảm so với phiên trước 4.2.2 Phát mối quan hệ số chứng khoán c phiếu ✚ Với độ hỗ trợ 35% độ tin cậy 90%, thực phát luật kết hợp CSDL tác vụ có mẫu âm, thu 99 luật kết hợp Để xây dựng mô hình dự báo số chứng khoán HNX HOSE mô hình hồi quy chuyển tiếp trơn phi tuyến cần lựa chọn luật kết hợp có mục liệu liên quan đến HNX HOSE phần kết luật Trong trường hợp này, tất luật kết hợp phát mà phần kết có chứa số HNX HOSE chứa riêng số 4.2.3 Xây dựng mô hình dự báo số chứng khoán Về nguyên tắc, luật kết hợp có số HNX (hoặc số HOSE) phần kết cho phép ta xây dựng mô hình dự báo cho số Chẳng hạn xét luật: PVI1; ACB1→HNX1 (38,037% 94,35% 124 117 35,890%) Luật cho biết: tổng số 350 ngày có 124 ngày chiếm 38,07% tổng số ngày giá cổ phiếu Tổng công ty cổ phần Bảo hiểm Dầu khí Việt Nam (PVI) Ngân hàng thương mại cổ phần Á Châu (ACB) tăng giá có 117 ngày 35,89% tổng số ngày giá cổ phiếu PVI, ACB HNX-index tăng giá, nói cách khác độ hỗ trợ luật 35,89% Luật có độ tin cậy 94,35% cho biết có đến 94,35% ngày mà PVI ACB tăng giá HNX tăng điểm Có thể nói tín hiệu để nhận biết HNX tăng điểm dựa vào tăng giá PVI ACB cao Xây dựng mô hình dự báo số HNX: Xây dựng mô hình dự báo số HNX Để xây dựng mô hình dự báo số HNX dựa luật kết hợp, liệu số chứng khoán HNX giá mã cổ phiếu ACB, PVI thu thập theo phiên giao dịch chia thành hai tập Tập thứ bao gồm liệu phiên giao dịch từ ngày 2/6/2008 đến hết ngày 15/10/2009 tập thứ hai bao gồm liệu phiên giao dịch từ ngày 16/10/2009 đến ngày 31/11/2009 Tập thứ sử dụng để xây dựng mô hình, tập thứ hai sử dụng để kiểm định chấp nhận mô hình Ứng dụng phần mềm JMULTI [99] tập thứ để kiểm định tính chất tuyến tính, lựa chọn mô hình, lựa chọn biến chuyển tiếp giá trị ban đầu mô hình sau ước lượng tham số mô hình Từ bảng ước lượng xây dựng mô hình dự báo dạng: 18,87 + 13,44HNX _ d1(t −1) + 0,44ACB_ d1(t ) HNX _ d1(t ) =   +   − 29,40PVI _ d1(t ) − 5,0PVI _ d1(t − 3)  −18,84 −13,53HNX _ d1(t −1) + 1,5ACB_ d1(t)   *  + 29,38PVI _ d1(t) + 5,1PVI _ d1(t − 3)  1+ exp(−4,06*[ ACB_ d1(t) + 5,24]) 19 Bảng 3.2: Kết thử nghiệm thuật toán MFISI Kết thử nghiệm cho thấy số tập Sporadic không tuyệt đối hai ngưỡng mờ tìm khác chọn ngưỡng minSup maxSup thay đổi giá trị tham số chồng lấp ✛ ✥ Chương - NG DỤNG LUẬT ẾT HỢP MẪU ÂM VÀ MÔ HÌNH HỒI QUY CHUYỂN TIẾP TRƠN TRONG PHÂN TÍCH VÀ DỰ BÁO INH TẾ ✥ 4.1 Mô hình hồi quy chuyển tiếp trơn ✜✢1.1✢ Phân tích h❆i quy ✜✢1.2✢ ✣ô hình h❆i quy chuyển tiếp trơn logistic ✜✢1.3 Xây dựng mô hình h❆i quy chuyển tiếp trơn logistic - Chỉ định mô hình - Ước lượng tham số mô hình - Đánh giá- Kiểm định sai lầm định mô hình 4.2 Ứng dụng luật kết hợp mẫu âm mô hình hồi quy chuyển tiếp trơn phân tích liệu chứng khoán Nội dung phần nghiên cứu ứng dụng luật kết hợp mô hình hồi quy chuyển tiếp trơn logistic để xây dựng mô hình dự báo số HNX HOSE theo số mã cổ phiếu blue chip thị trường chứng khoán Việt Nam Quy trình xây dựng mô hình dự báo số chứng khoán thực qua giai đoạn Giai đoạn nhằm phát luật kết hợp biểu diễn mối tương quan số chứng khoán Việt Nam với giá cổ phiếu blue chip hai sàn giao dịch Hà Nội Thành phố Hồ Chí Minh Giai đoạn nhằm xây dựng mô hình dự báo số chứng khoán dựa mô hình hồi quy chuyển tiếp trơn phi tuyến số quan hệ phát Giai đoạn 4.2.1 Dữ liệu phục vụ xây dựng mô hình Dữ liệu phục vụ việc phát luật kết hợp chứng khoán xây dựng mô hình dự báo thu thập theo phiên giao dịch hai sàn chứng khoán Hà Nội Thành phố Hồ Chí Minh kể từ ngày 2/6/2008 đến ngày 31/11/2009 bao gồm thông tin sau: ngày giao dịch, giá trị hai số HNX, HOSE giá cổ phiếu Blue chip Các luật kết hợp phục vụ việc xây dựng mô hình dự báo số chứng khoán phát từ CSDL tác vụ có mẫu âm Tập liệu xây dựng sau: xuất phát từ tập liệu biến động số chứng khoán biến động giá mã cổ phiếu blue chip, số chứng khoán giá cổ phiếu blue chip tăng giá so với phiên trước ta thêm chữ số ”1” 18 1.4.4 Khuynh hướng nghiên cứu luật Việc sinh tất luật hữu ích vấn đề khó Quá trình bị giới hạn tính chất tự nhiên liệu.Việc phát triển kỹ thuật tương ứng dành cho phát luật kết hợp vấn đề mở theo vài hướng tiếp cận có ý nghĩa khác - Hướng thứ tìm cách phù hợp nhằm phát tập - Hướng tiếp cận thứ hai tìm luật cụ thể - Hướng thứ ba dựa việc phát triển thuật toán tiền xử lý, tức dựa độ đo giá trị để xác định luật ✥ Chương - PHÁT HIỆN LUẬT ẾT HỢP HIẾM TR N CƠ SỞ DỮ LIỆU TÁC VỤ ✃ 2.1 Luật kết hợp Sporadic tuyệt đối hai ngưỡng 2.1.1 Giới thiệu luật Sporadic tuyệt đối hai ngưỡng Chúng phát triển giải pháp hiệu việc phát luật Sporadic tuyệt đối cách đề xuất mở rộng toán phát luật kết hợp A → B: (2.1)  conf ( A → B ) ≥ m inConf,   minSup ≤ sup(A ∪ B) < maxSup,  ∀ x ∈A ∪ B , sup ( x ) < max Sup  đó: minConf, minSup, maxSup giá trị người sử dụng đưa vào trình thực phát luật, chúng tương ứng gọi độ tin cậy cực tiểu, độ hỗ trợ cận độ hỗ trợ cận (minSup < maxSup) luật Các luật gọi luật Sporadic tuyệt đối hai ngưỡng toán gọi toán phát luật kết hợp Sporadic tuyệt đối hai ngưỡng Khác với cách tiếp cận [49], thuật toán tìm tập Sporadic tuyệt đối hai ngưỡng MCPSI nghiên cứu phát triển theo cách tiếp cận thuật toán CHARM [94] Thuật toán xây dựng dựa tính chất cấu trúc dàn Galois tập mục liệu đóng Không gian tìm kiếm tập Sporadic tuyệt đối hai ngưỡng đóng thuật toán MCPSI thu hẹp, đồng thời số lượng tập Sporadic tuyệt đối hai ngưỡng đóng giảm dẫn đến loại bỏ nhiều luật Sporadic tuyệt đối hai ngưỡng dư thừa 2.1.2 Tập Sporadic tuyệt đối hai ngưỡng Định nghĩa 2.1: Tập X gọi tập Sporadic tuyệt đối hai ngưỡng nếu: minSup ≤ sup(X) < maxSup, ∀x X, sup(x) < maxSup Tập Sporadictuyệt đối hai ngưỡng X gọi tập Sporadic tuyệt đối hai ngưỡng cực đại không tồn tập Sporadic tuyệt đối hai ngưỡng chứa thực Định nghĩa 2.2: Ngữ cảnh khai phá liệu ba Dˆ = (O, INF, R), O tập tác vụ, INF tập tất mục liệu không phổ biến theo maxSup phổ biến theo minSup R⊆ INF×O quan hệ nhị phân Mỗi cặp (t,i) ∈R ký hiệu cho kiện đối tượng t∈O quan hệ với mục liệu i ∈INF Định nghĩa 2.3: (Kết nối Galois) Cho Dˆ = (O, INF, R) ngữ cảnh phát liệu Với O ⊆ O I ⊆ INF, xác định: f: 2O→ 2INF g: 2INF→ 2O f(O) = {I |i∈I; ∀t∈O; (t,i)∈R} g(I) = {t |t∈O; ∀i∈I; (t,i)∈R} f(O) tập mục liệu chung cho tất đối tượng O g(I) tập đối tượng quan hệ với tất mục liệu I Cặp ánh xạ (f,g) gọi kết nối Galois tập tập O tập tập INF Toán tử h = fog h’ = gof gọi toán tử đóng Galois Định nghĩa 2.4: X tập Sporadic tuyệt đối hai ngưỡng, X gọi đóng h(X) = X, h phép kết nối Galois xác định ✤ Nh n xét 2.1: Khi ngưỡng minSup = O , với O tổng số tất tác vụ Dˆ toán phát luật Sporadic tuyệt đối hai ngưỡng trở thành toán phát luật Sporadic tuyệt đối đề xuất [49] Còn minSup = minAS, ngưỡng xác định thuật toán Apriori-Inverse toán phát luật Sporadic tuyệt đối hai ngưỡng trở thành toán phát luật Sporadic tuyệt đối theo cách tiếp cận đề xuất Apriori-Inverse Tính chất 2.1: Các t p Sporadic t đối hai ngưỡng có tính chất Apriori tức tập tập Sporadic tuyệt đối hai ngưỡng tập Sporadic tuyệt đối hai ngưỡng Tính chất đối ngẫu tính chất tập chứa tập tập Sporadic tuyệt đối hai ngưỡng không tập Sporadic tuyệt đối hai ngưỡng Tính chất 2.2: Độ hỗ trợ tập Sporadic tuyệt đối hai ngưỡng X độ hỗ trợ bao đóng ức sup(X) = sup(h(X)) Tính chất 2.3: Nếu X tập Sporadic tuyệt đối hai ngưỡng cực đại X tập đóng Tính chất 2.4: Các luật kết hợp sinh t tập Sporadic tuyệt đối hai ngưỡng từ tập Sporadic tuyệt đối hai ngưỡng cực đại 1.3 Thuật toán tìm tập Sporadic tuyệt đối hai ngưỡng đóng Thuật toán MCPSI đề xuất nhằm tìm tập Sporadic tuyệt đối hai ngưỡng đóng Thuật toán MCPSI phát triển dựa tư tưởng thuật toán CHARM Hình 2.1 minh họa giả ngôn ngữ thuật toán Độ phức tạp thuật toán MCPSI: Độ phức tạp thuật toán MCPSI O(l.|C|) với l độ dài trung bình định danh C tập Sporadic tuyệt đối hai ngưỡng đóng Mệnh đề 2.1: Thuật toán MCPSI đắn đầy đủ Kết thử nghiệm: Để đánh giá hiệu thực thuật toán MCPSI, tiến hành thử nghiệm thuật toán thuật toán Apriori-Inverse [49] để tìm tập Sporadic tuyệt đối CSDL giả định số CSDL thực ✤ ✦ ✱ ✱✧ ❑ ✭★ ★ 3.3.3 Thuật toán tìm tập Sporadic không tuyệt đối hai ngưỡng mờ Thuật toán MFISI đề xuất nhằm tìm tập Sporadic không tuyệt đối hai ngưỡng mờ Thuật toán MFISI phát triển từ ý tưởng thuật toán MCISI tìm tập Sporadic không tuyệt đối hai ngưỡng CSDL tác vụ Đầu vào: CSDL D, minSup, maxSup Kết quả: Tập tập Sporadic không tuyệt đối hai ngưỡng mờ FIS Bước 1: Chuyển CSDL D ⊆ I O ban đầu thành CSDL mờ DF ⊆ IF OF đó: IF tập thuộc tính DF, thuộc tính xj IF gắn với tập mờ Mỗi tập mờ có ngưỡng Bước 2: Từ tập thuộc tính ban đầu tách thành hai tập: FI = {, sup() ≥ maxSup; ∈IF} //FI tập thuộc tính phổ biến theo maxSup IFI = {, minSup ≤ sup() < maxSup; ∈IF} //IFI tập thuộc tính không phổ biến theo maxSup có độ hỗ trợ lớn minSup Bước 3: Tìm tập Sporadic không tuyệt đối hai ngưỡng mờ // Với thuộc tính FI khởi tạo không gian tìm kiếm sau: Kết hợp thuộc tính FI với thuộc tính khác bên phải thuộc tính xét FI với tất thuộc tính IFI Loại bỏ tập có độ hỗ trợ nhỏ minSup để tạo không gian tìm kiếm for each in FI begin Nodes={{,},∈ FI\ ∈IFI) Λ sup(,) ≥ minSup} MFISI-EXTEND(Nodes,C) //Hàm thực tìm tập Sporadic không tuyệt đối hai ngưỡng mờ không gian tìm kiếm khởi tạo FIS = FIS ∪ C end ✇❝ xj MFISI-EXTEND(Nodes, C): for each in Nodes begin NewN = ∅ ; X = 10 for each in Nodes 11 X = X ∪ 12 if NewN ≠ ∅ then MFISI-EXTEND(NewN, C) 13 if sup(X) < maxSup then 14 C=C∪X // if X is not subsumed 15 end Hình 3.2: Thuật toán MFISI Kết thử nghiệm: Để đánh giá hiệu thực thuật toán MFISI, tiến hành thử nghiệm CSDLthực Census Income từ nguồn [100] 17 ✯ Bảng 3.1: Kết thực MFPSI với tham số chồng lấp độ hỗ trợ minSup maxSup khác từ nguồn liệu [100] Phần thử nghiệm thực máy tính Lenovo-IBM Codual 2.0ghz, 2GB nhớ, cài đặt hệ điều hành Windows Vista Thuật toán MCPSI phần mô thuật toán Apriori-Inverse lập trình ngôn ngữ C++ Đầu vào: CSDL D, minSup, maxSup Kết quả: Tập tập Sporadic tuyệt đối hai ngưỡng đóng C MCPSI ALGORITHM(D, minSup, maxSup): Nodes = {Ij × g(Ij) : Ij ∈I Λg(Ij)< maxSup Λg(Ij)≥ minSup} MCPSI-EXTEND(Nodes, C) Khi cố định độ hỗ trợ cận minSup = 0,1 thay đổi độ hỗ trợ cận maxSup 0,3, 0,4 0,5 nhận số tập Sporadic tuyệt đối hai ngưỡng mờ 10, 13 17 (với tham số chồng lấp 20%) Nếu chọn độ hỗ trợ cận minSup = 0,2 thay đổi độ hỗ trợ cận maxSup 0,3, 0,4 0,5 nhận số tập Sporadic tuyệt đối hai ngưỡng mờ 2, (với tham số chồng lấp 20%) Như vậy, cố định ngưỡng minSup lựa chọn tham số maxSup có giá trị tăng dần số tập Sporadic tuyệt đối hai ngưỡng mờ tăng, điều hoàn toàn phù hợp với quy luật phát luật kết hợp Số tập Sporadic tuyệt đối hai ngưỡng mờ tìm thay đổi chọn hai ngưỡng độ hỗ trợ minSup maxSup thay đổi tham số chồng lấp ✰ 3.3 Lu t kết hợp Sporadic không tuyệt đối hai ngưỡng mờ 3.3.1 Giới thiệu luật Sporadic không tuyệt đối hai ngưỡng mờ Chúng đề xuất vấn đề tìm luật kết hợp mờ có dạng r ≡ X is A → Y is B cho: (3.2) conf ( r ) ≥ minConf,  minSup ≤ sup( < X ∪ Y, A ∪ B >) < maxSup, ∃x ∈< X ∪ Y ,A ∪ B >, sup ( x) ≥ max Sup  MCPSI-EXTEND(Nodes, C): for each Xi × g(Xi) in Nodes begin NewN = ∅ ; X = Xi for each Xj × g(Xj) in Nodes, with k(j) > k(i) begin X = X∪Xj ; Y = g(Xi)∩g(Xj) CHARM-PROPERTY(Nodes, NewN) end if NewN ≠ ∅ then MCPSI-EXTEND(NewN, C) 10 C = C∪X // if X is not subsumed 11 end Hàm CHARM-PROPERTY xây dựng [94] Hình 2.1: Thuật toán MCPSI Thử nghiệm CSDL giả nh: Bảng 2.1 kết thử nghiệm thuật toán MCPSI nhằm tìm tập Sporadic tuyệt đối hai ngưỡng đóng thuật toán AprioriInverse nhằm tìm tập Sporadic tuyệt đối tập liệu với hai ngưỡng minSup maxSup, minSup chọn minAS Như biết minSup = minAS việc tìm tập Sporadic tuyệt đối hai ngưỡng trở thành việc tìm tập Sporadic tuyệt đối theo cách tiếp cận Apriori-Inverse Bảng 2.1: Kết thực MCPSI Apriori-Inverse CSDL giả định ✶✼ Các luật dạng gọi luật Sporadic không tuyệt đối hai ngưỡng mờ toán gọi toán phát luật Sporadic không tuyệt đối hai ngưỡng mờ Phần trình bầy giải pháp tìm tập Sporadic không tuyệt đối mờ cho luật Sporadic không tuyệt đối mờ từ CSDL định lượng 3.3.2 Tập Sporadic không tuyệt đối hai ngưỡng mờ Định nghĩa 3.3: Tập gọi tập Sporadic không tuyệt đối hai ngưỡng mờ nếu: minSup ≤ sup() < maxSup, ∃x∈, sup(x) ≥ maxSup Định nghĩa 3.4: Tập Sporadic không tuyệt đối hai ngưỡng mờ gọi tập Y ⊆ X B ⊆ A 16 Kết thực hai thuật toán bảng 2.1 cho thấy thuật toán MCPSI hiệu thuật toán Apriori-Inverse không số lượng tập Sproradic tuyệt đối hai ngưỡng đóng tìm so với tập Sporadic tuyệt đối mà thời gian thực thuật toán nghiệm C DL thực: Dữ liệu thử nghiệm thuật toán tệp liệu lấy từ nguồn [100] Tệp ban đầu chuyển sang dạng CSDL tác vụ Thông tin CSDL, kết thực thuật toán MCPSI thuật toán Apriori-Inverse mô tả hình 2.2 ❚✽ ❙ Hình 2.2: Số tập Sporadic tuyệt đối Sporadic tuyệt đối hai ngưỡng đóng CSDL thực 2.2 Lu✿t kết hợp Sporadic không tuyệt đối hai ngưỡng ❇❈❇❈1❈ Giới thiệu luật kết hợp ❙poradic không tuyệt đối hai ngưỡng Trong phần này, phát triển giải pháp hiệu cho việc tìm luật Sporadic không tuyệt đối đề xuất [50] Cụ thể nghiên cứu xây dựng thuật toán tìm tập Sporadic không tuyệt đối cho luật kết hợp A → B cho: (2.2) conf ( A → B ) ≥ minConf,  minSup ≤ sup(A ∪ B) < maxSup, ∃x ∈A ∪ B, sup ( x ) ≥ max Sup  minSup, maxSup (minSup < maxSup) tương ứng gọi độ hỗ trợ cận dưới, cận minConf độ tin cậy cực tiểu luật Các luật kết hợp trường hợp gọi luật Sporadic không tuyệt đối hai ngưỡng Các tập Sporadic luật gọi tập Sporadic không tuyệt đối hai ngưỡng ập poradic không tuyệt đối hai ngưỡng Định nghĩa : Tập X gọi tập Sporadic không tuyệt đối hai ngưỡng nếu: minSup ≤ sup(X) < maxSup, ❇❈❇❈❇❈ ❚ ❙ ❉● ∃x ∈ X, sup(x) ≥ maxSup Định nghĩa : X tập Sporadic không tuyệt đối hai ngưỡng, X gọi tập Sporadic không tuyệt đối hai ngưỡng đóng tập đóng, tức h(X) = X Tính chất : Độ hỗ trợ tập Sporadic không tuyệt đối hai ngưỡng độ hỗ trợ bao đóng ức sup(X) = sup(h(X)) ❉❍ ❉● ■❏ 10 Định nghĩa 3.2: Tập Sporadic tuyệt đối hai ngưỡng mờ gọi tập Y ⊆ X B ⊆ A Tính chất 3.1: Các tập Sporadic tuyệt đối hai ngưỡng m có tính chất Apriori tức tập tập Sporadic tuyệt đối hai ngưỡng mờ tập Sporadic tuyệt đối hai ngưỡng mờ 3.2.3 Thuật toán tìm tập Sporadic tuyệt đối hai ngưỡng mờ Ý tưởng thuật toán: Quá trình tìm tập Sporadic tuyệt đối hai ngưỡng mờ tiến hành tương tự việc tìm tập phổ biến mờ nói chung bao gồm bước sau: (a) Xây dựng tập mờ cho thuộc tính phân loại thuộc tính số (b) Chuyển CSDL ban đầu thành CSDL mờ (c) Tìm tập Sporadic tuyệt đối hai ngưỡng mờ Thuật toán tìm tập Sporadic tuyệt đối hai ngưỡng mờ: ■ Đầu vào: CSDL D, minSup, maxSup Kết quả: Tập tập Sporadic tuyệt đối hai ngưỡng mờ Bước 1: Chuyển CSDL D ⊆ I × O ban đầu thành CSDL mờ DF ⊆ IF × OF Bước sử dụng cách chia khoảng hàm thành viên mô tả phần 1.3.3 Trong đó: IF tập thuộc tính DF, thuộc tính xj ▼▲ IF gắn với tập mờ Mỗi tập mờ có ngưỡng x j Bước 2: Tìm tập Sporadic tuyệt đối hai ngưỡng mờ có kích cỡ 1: S1 = ∅ for each item xj ∈ IF begin if sup(xj) < maxSup and sup(xj) ≥ minSup then S1 = S1∪xj end Bước 3: Tìm tập Sporadic tuyệt đối hai ngưỡng mờ có kích cỡ k (k ≥ 2): for (k = 2; Sk-1 ≠ ∅; k++) begin Sk = ∅ for each xj ∈ Ck (Ck tập ứng cử viên sinh từ Sk-1) begin if sup(xj) ≥ minSup 10 then Sk = Sk∪xj 11 end 12 end 13 return US k k Hình 3.1: Thuật toán MFPSI Kết thử nghiệm: Để đánh giá hiệu thực thuật toán MFPSI, tiến hành thực nghiệm CSDL thực Census Income từ nguồn [100] 15 Thuật toán tìm tập phổ biến đóng với ràng buộc mục liệu âm gọi NC-CHARM Hình 2.4 thể giả ngôn ngữ thuật toán Độ phức tạp thuật toán NC CHA : Độ phức tạp NC-CHARM O(l.| |).|C|) với l độ dài trung bình định danh, C tập mục phổ biến đóng | | số phần tử tập ràng buộc mục liệu âm Kết thử nghiệm: Thuật toán NC-CHARM thử nghiệm CSDL giả định với ngưỡng minSup = 0,01 Tập ràng buộc âm sinh ngẫu nhiên, bao gồm 100 điều kiện ràng buộc Mỗi điều kiện ràng buộc có số mục liệu chọn ngẫu nhiên không mục liệu Kết việc tìm tập phổ biến thỏa mãn điều kiện ràng buộc âm thể bảng 2.4 Bảng : Bảng kết thử nghiệm thuật toán NC-CHARM ◆ ❘❖ ◗ ❯ ❱ ❲❨ ❩ T H P HIẾM TRÊN CƠ SỞ DỮ LIỆU Chương - PHÁT HI N LU T ĐỊNH LƯỢNG 3.1 Giới thiệu phát luật kết hợp CSDL định lượng 3.2 Luật kết hợp Sporadic tuyệt đối hai ngưỡng mờ 3.2.1 Giới thiệu luật Sporadic tuyệt đối hai ngưỡng mờ Chúng đề xuất toán phát luật kết hợp mờ dạng r ≡ X is A → Y is B cho: (3.1) conf (r ) ≥ minConf,  minSup ≤ sup(< X ∪ Y, A ∪ B >) < maxSup, ∀x ∈< X ∪ Y ,A ∪ B >, minSup ≤ sup( x) < max Sup  đó: minConf, minSup, maxSup giá trị người sử dụng đưa vào trình thực phát luật, chúng tương ứng gọi độ tin cậy cực tiểu, độ hỗ trợ cận độ hỗ trợ cận (minSup < maxSup) luật Các luật dạng gọi luật Sporadic tuyệt đối hai ngưỡng mờ toán gọi toán phát luật Sporadic tuyệt đối hai ngưỡng mờ Luận án nghiên cứu đề xuất giải pháp tìm tập Sporadic tuyệt đối mờ cho luật Sporadic tuyệt đối mờ 3.2.2 Tập Sporadic tuyệt đối hai ngưỡng mờ Định nghĩa 3.1:Tập gọi tập Sporadictuyệt đối hai ngưỡng mờ nếu: minSup ≤ sup() < maxSup, ∀x ∈, sup(x) < maxSup 14 ❬❭ Tính chất : Tập tập Sporadic không tuyệt đối hai ngưỡng cực đại tập tập Sporadic không tuyệt đối hai ngưỡng đóng cực đại trùng Tính chất 2.7: Các luật kết hợp sinh từ tập Sporadic không tuyệt đối hai ngưỡng từ tập Sporadic không tuyệt đối hai ngưỡng cực đại Các tính chất 2.6, 2.7 sở để đề xuất thuật toán tìm tập Sporadic không tuyệt đối hai ngưỡng 2.2.3 Thuật toán tìm tập Sporadic không tuyệt đối hai ngưỡng đóng Đầu vào: CSDL D, minSup, maxSup Kết quả: Tập tập Sporadic không tuyệt đối hai ngưỡng đóng CS MCISI ALGORITHM (D, minSup, maxSup): FI = {Ij × g(Ij) : Ij∈I Λg(Ij)≥ maxSup} IFI = {Kj × g(Kj) : Kj∈I Λg(Kj)< maxSup Λg(Kj)≥ minSup} for each Ij × g(Ij) in FI begin Nodes={Pj × g(Pj): Pj = Ij∪Mj , g(Pj) = g(Ij)∩g(Mj), Mj∈FI\{I1, ,Ij} or Mj ∈ IFI Λg(Pj)≥ minSup} /Kết hợp Ij với mục liệu lại bên phải mục xét FI mục liệu IFI MCISI-EXTEND(Nodes,C) CS = CS ∪ C end MCISI-EXTEND(Nodes, C): for each Xi × g(Xi) in Nodes begin NewN = ∅ ; X = Xi 10 for each Xj × g(Xj) in Nodes, with k(j) > k(i) begin 11 X = X ∪ Xj ; Y = g(Xi) ∩ g(Xj) 12 CHARM-PROPERTY(Nodes, NewN) 13 end 14 if NewN ≠ ∅ then MCISI-EXTEND(NewN, C) 15 if sup(X) < maxSup then 16 C = C ∪ X // if X is not subsumed 17 end Hình 2.3: Thuật toán MCISI Độ phức tạp thuật toán MCISI: Độ phức tạp thuật toán MCISI O(|FI|.l.| C |), FI tập mục liệu phổ biến theo maxSup, l độ dài trung bình định danh | C | kích thước trung bình tập Sporadic không tuyệt đối hai ngưỡng đóng tìm Mệnh đề 2.2 Thuật toán MCISI đắn đầy đủ Kết thử nghiệm: a Thử nghiệm tập liệu giả định 11 Kết thử nghiệm thuật toán MCISI CSDL với hai ngưỡng minSup maxSup chọn phù hợp việc tìm tập thể bảng 2.2 Bảng 2.2: Bảng kết thử nghiệm CSDL giả định sup(A ∪ B) ≥ minSup; conf(A → B) ≥ minConf điều kiện tồn số ràng buộc mục liệu âm 2.3.2 Tập ph biến có ràng bu c m c liệu âm ❜ ❞ ❡ Ta gọi cặp (A, B ), A ⊆ I B ⊆ I cặp ràng buộc mục liệu âm mục liệu A xuất tác vụ mục liệu B, với A ∩ B = ∅, xuất tác vụ Giả sử D ⊆ I×O CSDL tác vụ gồm mục liệu dương Ký hiệu = {(Ai, B i ), i =1,2, …, k} tập tất cặp ràng buộc mục liệu âm cho trước Bảng 2.2 kết thử nghiệm thuật toán MCISI CSDL giả định với độ hỗ trợ cận minSup = 0,005 độ hỗ trợ cận maxSup = 0,05 Kết bảng 2.2 cho thấy thuật toán thực tệp liệu lớn với thời gian thực nhỏ b Thử nghiệm CSDL thực Bảng 2.3: Thông tin CSDL thực kết thử nghiệm Giả sử X tập I, ký hiệu Y = {x ∈I∪ I / x∈I x ∈ X x ∈ I tồn cặp (Ai, B i ) ∈ cho x ∈ B i Ai ⊆ X} Mệnh đề 2.3 Tập tác vụ hỗ trợ X Y xuất Mệnh đề 2.4 Bài toán tìm tập phổ biến từ CSDL D với tập điều kiện ràng buộc mục liệu âm cho trước đưa toán tìm tập phổ biến từ CSDL tác vụ có mục liệu âm thích hợp Ngược lại chưa Mệnh đề ả sử X Y xác định Mệnh đề 2.3 Nếu X tập phổ biến đóng cực đại CSDL tác vụ D thoả mãn tập ràng buộc mục liệu âm Y tập phổ biến đóng cực đại CSDL tác vụ có mục liệu âm D ➪ ➪ ❢❣ ❤✐ ❥ ❜ ❞ ❡ 2.3.3 Thuật toán tìm tập ph biến với ràng bu c m c liệu âm Đầu vào: CSDL D, minSup, tập ràng buộc ℑ Kết quả: Tập tập phổ biến đóng với ràng buộc mục liệu âm C NC-CHARM ALGORITHM(D, minSup, ℑ): Nodes = {Ij × g(Ij) : Ij ∈I Λg(Ij)≥ minSup} NC-CHARM-EXTEND(Nodes, ℑ, C) 2.3 Lu❪t kết hợp với ràng buộc mục liệu âm ❫❴3.1 Giới thiệu luật kết hợp với ràng buộc mục liệu âm Giả sử I ={i1, i2,…, ij, , in}là tập mục liệu gọi tập mục liệu dương Ký hiệu -ij ký hiệu mục liệu âm mục liệu ij I ={-i1, -i2,…, -ij, …, -in} gọi tập mục liệu âm I, tập B ⊆ I ký hiệu tập mục liệu âm tập B ⊆ I Luật kết hợp mẫu âm quan tâm số công trình nghiên cứu có dạng tổng quát sau: A1 ∪ A2 → B1 ∪ B2 , A1, B1⊆ A2 , B2 ⊆ I Chẳng hạn luật A → B có nghĩa tập mục liệu A xuất tác vụ t mục liệu B không xuất tác vụ sup( A → B ) = sup(A B ) = sup(A) – sup(AB) ❵❛ Trong phần trình bầy dạng đặc biệt luật kết hợp mẫu âm, luật kết hợp với ràng buộc mục liệu âm Cụ thể luận án nghiên cứu giải toán sau đây: NC-CHARM-EXTEND(Nodes, ℑ, C): for each Xi × g(Xi) in Nodes begin NewN = ∅ ; X = Xi for each Xj × g(Xj) in Nodes, with k(j) > k(i) begin X = X ∪ Xj ; Y = g(Xi) ∩ g(Xj) CHARM-PROPERTY(Nodes, NewN) end if NewN ≠ ∅ then NC-CHARM-EXTEND(NewN, ℑ, C) 10 temp = X 11 for each (Ai, Bi ) ∈ ℑ 12 if Ai ⊆ X then X = X ∪ Bi 13 if X = temp then remove X × g(X) from Nodes 14 C=C∪X // if X is not subsumed 15 end ❦ Hình : Thuật toán NC-CHARM Phát luật kết hợp A→B với: 12 13 [...]... nhiên và không quá 5 mục dữ liệu Kết quả của việc tìm các tập phổ biến thỏa mãn điều kiện ràng buộc âm được thể hiện ở bảng 2.4 Bảng 2 : Bảng kết quả thử nghiệm thuật toán NC-CHARM ◆ ❘❖ ◗ ❯ ❱ ❲❨ ❩ T H P HIẾM TRÊN CƠ SỞ DỮ LIỆU Chương 3 - PHÁT HI N LU T ĐỊNH LƯỢNG 3.1 Giới thiệu về phát hiện luật kết hợp hiếm trên CSDL định lượng 3.2 Luật kết hợp Sporadic tuyệt đối hai ngưỡng mờ 3.2.1 Giới thiệu về luật. .. đề xuất bài toán phát hiện luật kết hợp mờ dạng r ≡ X is A → Y is B sao cho: (3.1) conf (r ) ≥ minConf,  minSup ≤ sup(< X ∪ Y, A ∪ B >) < maxSup, ∀x ∈< X ∪ Y ,A ∪ B >, minSup ≤ sup( x) < max Sup  trong đó: minConf, minSup, maxSup là những giá trị do người sử dụng đưa vào trong quá trình thực hiện phát hiện luật, và chúng tương ứng được gọi là độ tin cậy cực tiểu, độ hỗ trợ cận dưới và độ hỗ trợ... tin cậy cực tiểu, độ hỗ trợ cận dưới và độ hỗ trợ cận trên (minSup < maxSup) của luật Các luật dạng này được gọi là luật Sporadic tuyệt đối hai ngưỡng mờ và bài toán trên được gọi là bài toán phát hiện luật Sporadic tuyệt đối hai ngưỡng mờ Luận án đã nghiên cứu đề xuất giải pháp tìm các tập Sporadic tuyệt đối mờ cho các luật Sporadic tuyệt đối mờ 3.2.2 Tập Sporadic tuyệt đối hai ngưỡng mờ Định nghĩa... luật A → B có nghĩa là tập mục dữ liệu A xuất hiện trong tác vụ t thì các mục dữ liệu trong B sẽ không xuất hiện trong tác vụ này và do vậy sup( A → B ) = sup(A B ) = sup(A) – sup(AB) ❵❛ Trong phần dưới đây sẽ trình bầy một dạng đặc biệt của luật kết hợp mẫu âm, đó là luật kết hợp với ràng buộc mục dữ liệu âm Cụ thể luận án đã nghiên cứu giải quyết bài toán sau đây: NC-CHARM-EXTEND(Nodes, ℑ, C): 3 for... theo cách tiếp cận của Apriori-Inverse Bảng 2.1: Kết quả thực hiện MCPSI và Apriori-Inverse trên CSDL giả định ✶✼ Các luật dạng này được gọi là luật Sporadic không tuyệt đối hai ngưỡng mờ và bài toán trên được gọi là bài toán phát hiện luật Sporadic không tuyệt đối hai ngưỡng mờ Phần này sẽ trình bầy giải pháp tìm các tập Sporadic không tuyệt đối mờ cho các luật Sporadic không tuyệt đối mờ từ CSDL định... vậy, khi cố định ngưỡng minSup và lựa chọn tham số maxSup có giá trị tăng dần thì số tập Sporadic tuyệt đối hai ngưỡng mờ cũng tăng, điều này là hoàn toàn phù hợp với quy luật phát hiện luật kết hợp Số tập Sporadic tuyệt đối hai ngưỡng mờ tìm được cũng sẽ thay đổi khi chọn hai ngưỡng độ hỗ trợ minSup và maxSup như nhau nhưng thay đổi tham số chồng lấp ✰ 3.3 Lu t kết hợp Sporadic không tuyệt đối hai... kết hợp Sporadic không tuyệt đối hai ngưỡng ❇❈❇❈1❈ Giới thiệu về luật kết hợp ❙poradic không tuyệt đối hai ngưỡng Trong phần này, chúng tôi phát triển giải pháp hiệu quả cho việc tìm các luật Sporadic không tuyệt đối được đề xuất trong [50] Cụ thể sẽ nghiên cứu xây dựng thuật toán tìm các tập Sporadic không tuyệt đối cho các luật kết hợp A → B sao cho: (2.2) conf ( A → B ) ≥ minConf,  minSup ≤ sup(A... liệu và được gọi là tập các mục dữ liệu dương Ký hiệu -ij là ký hiệu mục dữ liệu âm của mục dữ liệu ij và I ={-i1, -i2,…, -ij, …, -in} được gọi là tập các mục dữ liệu âm của I, tập B ⊆ I là ký hiệu tập mục dữ liệu âm của tập B ⊆ I Luật kết hợp mẫu âm đã được quan tâm trong một số công trình nghiên cứu và nó có dạng tổng quát như sau: A1 ∪ A2 → B1 ∪ B2 , ở đây A1, B1⊆ và A2 , B2 ⊆ I Chẳng hạn luật. .. thực hiện của thuật toán ử nghiệm trên C DL thực: Dữ liệu thử nghiệm thuật toán là 6 tệp dữ liệu lấy từ nguồn [100] Tệp ban đầu được chuyển sang dạng CSDL tác vụ Thông tin về các CSDL, kết quả thực hiện thuật toán MCPSI và thuật toán Apriori-Inverse được mô tả trong hình 2.2 ❚✽ ❙ Hình 2.2: Số tập Sporadic tuyệt đối và Sporadic tuyệt đối hai ngưỡng đóng trên các CSDL thực 2.2 Lu✿t kết hợp Sporadic không... tập ứng cử viên sinh ra từ Sk-1) do begin 9 if sup(xj) ≥ minSup 10 then Sk = Sk∪xj 11 end 12 end 13 return US k k Hình 3.1: Thuật toán MFPSI Kết quả thử nghiệm: Để đánh giá hiệu quả thực hiện của thuật toán MFPSI, chúng tôi tiến hành thực nghiệm đối với CSDL thực Census Income từ nguồn [100] 15 Thuật toán tìm các tập phổ biến đóng với ràng buộc mục dữ liệu âm được gọi là NC-CHARM Hình 2.4 thể hiện

Luận án tiến sĩ nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng (TT)

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan