ỨNG DỤNG NGHIÊN CỨU KHOA HỌC TRONG VIỆC CẢI TIẾN THUẬT TOÁN TÌM TẬP PHỔ BIẾN

19 490 2
ỨNG DỤNG NGHIÊN CỨU KHOA HỌC TRONG VIỆC CẢI TIẾN THUẬT TOÁN TÌM TẬP PHỔ BIẾN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm MỤC LỤC MỞ ĐẦU 2 PHẦN I 3 KHÁI QUÁT VỀ PHƯƠNG PHÁP LUẬN NGHIÊN CỨU KHOA HỌC 3 1. Khoa h cọ 3 1.1 Khoa h c là gì?ọ 3 1.2 Phân lo i khoa h cạ ọ 3 1.3 Tiêu chí nh n bi t b môn khoa h cậ ế ộ ọ 3 2. Nghiên c u khoa h cứ ọ 4 2.1 Ch c n ng c b n c a nghiên c u khoa h cứ ă ơ ả ủ ứ ọ 4 2.2 c đi m c a nghiên c u khoa h cĐặ ể ủ ứ ọ 5 2.3 Các lo i hình nghiên c u khoa h cạ ứ ọ 6 PHẦN II 7 ỨNG DỤNG NGHIÊN CỨU KHOA HỌC TRONG VIỆC CẢI TIẾN THUẬT TOÁN TÌM TẬP PHỔ BIẾN 7 1. Thu t toán tìm t p ph bi n theo ph ng pháp IT-tree [3]ậ ậ ổ ế ươ 7 1.1 C u trúc IT-tree (Itemset Tidset – tree) và các l p t ng đ ngấ ớ ươ ươ 7 1.2 Thu t toán phát sinh t p ph bi nậ ậ ổ ế 8 1.3. Minh h aọ 8 2. Gi m th i gian khai thácả ờ 9 2.1 Phép giao 10 2.2 Phép h pợ 11 2.3 Phép tr (dùng trong Diffset)ừ 12 3. Gi m không gian l u trả ư ữ 13 4. So sánh đánh giá k t quế ả 13 KẾT LUẬN 19 TÀI LIỆU THAM KHẢO 19 1. Học viên: Nguyễn Thị Thúy Loan – CH0401026 1/19 Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm MỞ ĐẦU Nghiên cứu khoa học là một việc không thể thiếu trong các trường Đại học, nhất là ở các bậc học Sau đại học. Phương pháp tiếp cận của nó giúp học viên định hướng được cách thức chọn lựa đề tài, cách phát triển đề tài sao cho phù hợp với mục đích nghiên cứu. Báo cáo này nhằm tìm kiếm một giải pháp trong việc ứng dụng phương pháp luận nghiên cứu khoa học vào trong tin học: nâng cao tính hiệu quả cho bài toán khai thác tập phổ biến. Em xin chân thành cảm ơn Thầy, GS. TSKH. Hoàng Văn Kiếm, người đã định hướng, giúp cho chúng em hoàn thành gần hết đoạn đường của mình. Chính nhờ Thầy chỉ dạy mà chúng em mới có đủ tự tin để hoàn tất phần còn lại: hoàn tất luận văn theo cách mà Thầy đã chỉ dạy trong môn Phương pháp luận Nghiên cứu Khoa học này. Học viên: Nguyễn Thị Thúy Loan – CH0401026 2/19 Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm PHẦN I KHÁI QUÁT VỀ PHƯƠNG PHÁP LUẬN NGHIÊN CỨU KHOA HỌC 1. Khoa học 1.1 Khoa học là gì? Khoa học được hiểu là “hệ thống các tri thức về mọi loại quy luật của vật chất và sự vận động của vật chất, những quy luật của tự nhiên, xã hội và tư duy”. Khoa học còn được là một hoạt động xã hội, nhằm tìm tòi phát hiện quy luật của sự vật hiện tượng và vận dụng các quy luật ấy để sáng tạo ra nguyên lý giải pháp tác động vào các sự vật hiện tượng, nhằm biến đổi trạng thái của chúng. Theo quan điểm triết học Mác, khoa học được hiểu là một hình thái ý thức xã hội. Khoa học phân biệt với các hình thái ý thức xã hội khác ở đối tượng và hình thức phản ánh và mang một chức năng xã hội riêng. 1.2 Phân loại khoa học Tùy theo mục đích sử dụng mà người ta đưa ra những cách tiếp cận phân loại khác nhau, các cách phân loại chỉ là tương đối:  Phân loại theo nguồn gốc hình thành khoa học.  Phân loại theo mục đích ứng dụng của khoa học.  Phân loại theo mức độ khái quát của khoa học.  Phân loại theo tính tương liên giữa các khoa học.  Phân loại theo kết quả hoạt động chủ quan của con người.  Phân loại theo cơ cấu của hệ thống tổ chức hay chương trình đào tạo.  Phân loại theo đối tượng nghiên cứu của khoa học. 1.3 Tiêu chí nhận biết bộ môn khoa học  Có một đối tượng nghiên cứu Học viên: Nguyễn Thị Thúy Loan – CH0401026 3/19 Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm  Có một hệ thống phương pháp luận  Có một hệ thống lý thuyết  Có mục đích ứng dụng  Có lịch sử nghiên cứu 2. Nghiên cứu khoa học Nghiên cứu khoa học nhằm mục đích thỏa mãn các nhu cầu về nhận thức và cải tạo thế giới:  Khám phá các thuộc tính, bản chất của sự vật hiện tượng.  Phát hiện các quy luật vận động của sự vật.  Vận dụng quy luật để sáng tạo giải pháp tác động vào sự vật. 2.1 Chức năng cơ bản của nghiên cứu khoa học Nghiên cứu khoa học nhằm vào hai mục đích cơ bản: nhận thức và cải tạo thế giới. Chúng được thực hiện thông qua những chức năng cụ thể sau:  Mô tả: Mô tả một sự vật là sự trình bày bằng ngôn ngữ hình ảnh chung nhất của sự vật, cấu trúc, trạng thái, sự vận động của sự vật. Có hai loại mô tả: mô tả định tính và mô tả định lượng.  Giải thích: Giải thích một sự vật là làm rõ nguyên nhân dẫn đến sự hình thành và quy luật chi phối quá trình vận động của sự vật. Mục đích của giải thích là đưa ra những thông tin về thuộc tính bản chất của sự vật để có thể nhận dạng không chỉ nhưng biểu hiện bên ngoài, mà còn cả những thuộc tính bên trong của sự vật. Nội dung của giải thích có thể bao gồm giải thích nguồn gốc, quan hệ, tác nhân, hậu quả, quy luật chung của sự vật.  Tiên đoán: Tiên đoán một sự vật là sự nhìn trước quá trình hình thành, sự tiêu vong, sự vận động và những thể hiện của sự vật trong tương lai. Học viên: Nguyễn Thị Thúy Loan – CH0401026 4/19 Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm  Sáng tạo: Sáng tạo là sự làm ra một sự vật mới chưa từng tồn tại. 2.2 Đặc điểm của nghiên cứu khoa học  Tính mới: Các nghiên cứu phải là các vấn đề mới mẻ. Khi đó mới có thể thúc đẩy sự phát triển của khoa học.  Tính tin cậy: Các nghiên cứu phải có độ tin cậy cao để áp dụng vào thực tiễn.  Tính thông tin: Tính thông tin là những thông tin về quy luật vận động của các sự vật hoặc hiện tượng, thông tin về quy trình công nghệ và các tham số đi kèm quy trình đó.  Tính khách quan: Tính khách quan vừa là một đặc điểm của nghiên cứu khoa học, vừa là tiêu chuẩn của người nghiên cứu khoa học.  Tính rũi ro: Một nghiên cứu khoa học hoàn toàn có tính rủi ro, nghĩa là người ta có thể không khám phá ra được điều gì sau một thời gian đầu tư nghiên cứu. Tuy nhiên, trong khoa học thất bại cũng có thể xem như một kết quả. Kết quả đó cũng cũng mang ý nghĩa về một kết luận của nghiên cứu khoa học, mà nội dung của là các giả thuyết đã đặt ra không được xác nhận về mặt khoa học.  Tính kế thừa: Tính kế thừa có một ý nghĩa quan trọng về mặt phương pháp luận nghiên cứu. Một công trình nghiên cứu khoa học không bao giờ là một chỗ hoàn toàn trống về kiến thức. Học viên: Nguyễn Thị Thúy Loan – CH0401026 5/19 Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm  Tính cá nhân: Cho dù một công trình nghiên cứu khoa học do một tập thể thực hiện thì vai trò cá nhân trong trong sáng tạo cũng mang tính quyết định. Tính cá nhân được thể hiện trong tư duy cá nhân và chủ kiến riêng của cá nhân.  Tính phi kinh tế: Lao động nghiên cứu khoa học rất khó định mức một cách chính xác như trong các lĩnh vực khác. Những thiết bị chuyên dụng cho nghiên cứu khoa học hầu như không thể khấu hao. 2.3 Các loại hình nghiên cứu khoa học  Nghiên cứu cơ bản: Nghiên cứu cơ bản là những nghiên cứu nhằm phát hiện về bản chất của và quy luật của các sự vật hoặc hiện tượng trong tự nhiên, xã hội, con người. Phát minh là sự phát hiện ra các những quy luật, nhũng tính chất hoặc những hiện tượng của thế giới vật chất tồn tại một cách khánh quan mà trước đó chưa ai biết, nhờ đó làm thay đổi cơ bản nhận thức con người. Nghiên cứu cơ bản được phân thành hai loại: o Nghiên cứu cơ bản thuần túy. Nó còn được gọi là nghiên cứu cơ bản tự do, hoặc nghiên cứu cơ bản không định hướng. o Nghiên cứu cơ bản định hướng. Nó được chia thành nghiên cứu nền tảng(background research) và nghiên cứu chuyên đề (thematic research).  Triển khai: Hoạt động triển khai còn được gọi là triển khai thực nghiệm hoặc triển khai thực nghiệm kỹ thuật. Nó được phân thành hai loại: triển khai trong phòng và triển khai bán đại trà. Học viên: Nguyễn Thị Thúy Loan – CH0401026 6/19 Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm PHẦN II ỨNG DỤNG NGHIÊN CỨU KHOA HỌC TRONG VIỆC CẢI TIẾN THUẬT TOÁN TÌM TẬP PHỔ BIẾN Tìm tập phổ biến là một giai đoạn quan trọng trong bài toán tìm luật kết hợp. Gần đây, có khá nhiều phương pháp được đề xuất nhằm làm tăng tính hiệu quả của việc tìm tập phổ biến đó là: (i) Giảm thời gian tìm tập phổ biến; (ii) (ii) Giảm không gian lưu trữ trong quá trình tìm tập phổ biến. Trong giới hạn của bài báo, tôi xin trình bày việc nâng cao tính hiệu quả của thuật toán tìm tập phổ biến theo phương pháp IT-tree [3]. 1. Thuật toán tìm tập phổ biến theo phương pháp IT-tree [3] 1.1 Cấu trúc IT-tree (Itemset Tidset – tree) và các lớp tương đương Cho I là tập các danh mục(Itemset) và X ⊆ I. Ta định nghĩa một hàm p(X,k) = X[1:k] gồm k phần tử đầu của X và một quan hệ tương đương dựa vào tiền tố θ k trên Itemset như sau: ),(),(,, kYpkXpYXIYX k =⇔≡⊆∀ θ . Nghĩa là, hai Itemset có cùng một lớp tương đương khi và chỉ khi chúng chia sẻ chung k phần tử đầu phổ biến. Như được trình bày trong hình 1, mỗi nút trong IT-tree đại diện cho một cặp Itemset-Tidset )(XtX × , thực tế là một lớp tiền tố. Tất các các nút con của nút X thuộc về lớp tương đương của nó bởi vì chúng chia sẻ cùng tiền tố X. Kí hiệu một lớp tương đương là [ ] { } n lllP , ,, 21 = , trong đó P là nút cha và mỗi l i là một mục dữ liệu đơn, đại diện cho nút Pl i ×t(Pl i ). Chẳng hạn, nút gốc của cây tương ứng với lớp []={A,C,D,T,W}, nút trái cùng của gốc là lớp [A] chứa tất cả các itemset chứa A là tiền tố, nghĩa là tập {C,D,T,W}. Như vậy, mỗi lớp thành viên đại diện cho một con của nút cha. Một lớp đại diện cho các mục dữ liệu mà các mục dữ liệu đó là tiền tố để có thể mở rộng thành các Học viên: Nguyễn Thị Thúy Loan – CH0401026 7/19 Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm lớp phổ biến mới. Rõ ràng, không có cây con nào của một tiền tố không phổ biến được xem xét. Sức mạnh của lớp tương đương là nó chia không gian tìm kiếm ban đầu thành các vấn đề nhỏ độc lập. Đối với mỗi nút gốc con của nút X, có thể xem nó như một vấn đề mới hoàn toàn, mỗi nút có thể sinh ra các mẫu dưới nó …. 1.2 Thuật toán phát sinh tập phổ biến Đầu vào: Lớp tương đương [P] ban đầu chứa tất cả các tập phổ biến 1- Itemset và ngưỡng phổ biến minSup. Kết quả: tập FI gồm tất cả các tập phổ biến của CSDL. Phương pháp thực hiện: Thuật toán phát sinh tập phổ biến thỏa ngưỡng minSup 1.3. Minh họa Ví dụ: xét CSDL Bảng 1: CSDL mẫu ⇒ Định dạng dữ liệu dọc Mã giao dịch Nội dung giao dịch Mã danh mục Các giao dịch có chứa danh mục 1 A, C, T, W A 1, 3, 4, 5 2 C, D, W C 1, 2, 3, 4, 5, 6 Học viên: Nguyễn Thị Thúy Loan – CH0401026 8/19 ENUMERATE_FREQUENT([P]) for all l i ∈ [P] do [P i ] = ∅ for all l j ∈ [P], with j > i do I = l j T = t( l i ) ∩ t( l j ) if |T| ≥ minSup then [P i ] = [P i ] ∪ {} ENUMERATE_FREQUENT([P i ]) Delete [P i ] Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm 3 A, C, T, W D 2, 4, 5, 6 4 A, C, D, W T 1, 3, 5, 6 5 A, C, D, T, W W 1, 2, 3, 4, 5 6 C, D, T Với minSup = 50% (3 mục dữ liệu). Ta có cây tìm kiếm minh họa cho quá trình tìm tập phổ biến như Hình 1. 2. Giảm thời gian khai thác Do thuật toán dựa vào lý thuyết tập hợp (Itemset, Tidset), vì vậy thuật toán cần có sự tối ưu về các phép toán trên tập hợp. Phương pháp IT-tree sử dụng cách tính phần giao, phần hợp giữa các tập Tidset, Itemset với nhau. Rõ ràng, nếu chúng ta lưu tập hợp theo thứ tự tùy ý thì độ phức tạp tính toán tương ứng trong cả 3 trường hợp trên là O(m×n) với Học viên: Nguyễn Thị Thúy Loan – CH0401026 9/19 Hình 1: Cây tìm kiếm tập FI thỏa ngưỡng minSup = 50% Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm m, n là lực lượng của hai tập hợp cần tính toán. Để làm giảm độ phức tạp tính toán, chúng ta có thể tổ chức tập hợp theo thứ tự tăng dần và điều này làm giảm đáng kể thời gian khai thác dữ liệu. Ta xét các phép toán cụ thể như sau: Gọi a, b là hai tập hợp cần tính toán với m = |a|, n = |b| và c là tập hợp kết quả, ta có các thuật toán ứng với hai cách tổ chức tập hợp trên như sau: 2.1 Phép giao Hình 2. Thuật toán tính phần giao hai tập hợp *Nhận xét: 1. Thuật toán tính phần giao của hai tập hợp có độ phức tạp là O(m×n) trong trường hợp tập hợp không được xếp thứ tự và O(m+n) trong trường hợp tập hợp có thứ tự. 2. Nếu a, b là hai tập hợp có thứ tự thì tập hợp c = a ∩ b cũng là tập hợp có thứ tự. Như vậy ta không cần sắp xếp lại tập hợp kết quả. Học viên: Nguyễn Thị Thúy Loan – CH0401026 10/19 ;1;1 ; ;1 ;1 )()( ;1;1 +=+= +=> +=< < ==< == jjii ctoaAdd else jjthenbaifelse iithenbaif donjandmiwhile ji i ji ji Hình 3. Thuật toán tính phần giao giữa 2 tập hợp có thứ tự tăng ; ; 1 ; 1 ctoaAddthentruefif truef thenbaif dontojfor falsef domtoifor i ji = = = = = = [...]... Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm CSDL: connect Học viên: Nguyễn Thị Thúy Loan – CH0401026 17/19 Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm CSDL: accidents Hình 8: So sánh thời gian tìm tập phổ biến giữa 3 phương pháp Mỗi CSDL có 2 hình theo thứ tự: Hình 1: Số lượng tập FI với minSup tương ứng Hình 2: So sánh thời gian tìm kiếm tập FI trên cây IT-tree sử dụng Tidset,... CSDL: chess Học viên: Nguyễn Thị Thúy Loan – CH0401026 13/19 Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm CSDL: mushroom Học viên: Nguyễn Thị Thúy Loan – CH0401026 14/19 Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm CSDL: pumsb Học viên: Nguyễn Thị Thúy Loan – CH0401026 15/19 Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm CSDL: pumsb* CSDL: retail Học viên: Nguyễn... Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm 2 Ứng với minSup càng nhỏ thì Diffset càng tỏ ra hiệu quả ( Tỉ lệ thời gian giữa Diffset và các phương pháp khác càng cao) KẾT LUẬN Trong quá trình học môn Phương pháp luận nghiên cứu khoa học, tác giả rất ấn tượng với phương pháp phát hiện vấn đề khoa học: tìm những kẻ hở, phát hiện những vấn đề mới” Chính vì vậy, tác giả đã cố gắng cải tiến và thực...Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm 3 Bằng việc áp dụng tập hợp có thứ tự, chúng ta đã giảm thiểu được thời gian tính phần giao của hai tập hợp Theo bảng 2.2, chẳng hạn nếu chúng ta muốn tính phần giao giữa hai tập hợp trong CSDL connect với minSup = 90%, độ dài trung bình của các Tidset là 62204 thì số lần so sánh tối đa giữa ai và bj trong hai cách tiếp cận tương ứng là 62204×62204... tăng Học viên: Nguyễn Thị Thúy Loan – CH0401026 11/19 Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm * Nhận xét: độ phức tạp tương ứng của hai phương pháp là O(m×n) và O(m+n) 2.3 Phép trừ (dùng trong Diffset) for i = 1 to m do if ai not exist in b then Add ai to c; Hình 6 Thuật toán tính phần khác nhau của tập hợp a so với tập hợp b i = 1; j = 1; while (i . GS.TSKH Hoàng Kiếm PHẦN II ỨNG DỤNG NGHIÊN CỨU KHOA HỌC TRONG VIỆC CẢI TIẾN THUẬT TOÁN TÌM TẬP PHỔ BIẾN Tìm tập phổ biến là một giai đoạn quan trọng trong bài toán tìm luật kết hợp. Gần đây,. lo i hình nghiên c u khoa h cạ ứ ọ 6 PHẦN II 7 ỨNG DỤNG NGHIÊN CỨU KHOA HỌC TRONG VIỆC CẢI TIẾN THUẬT TOÁN TÌM TẬP PHỔ BIẾN 7 1. Thu t toán tìm t p ph bi n theo ph ng pháp IT-tree [3]ậ ậ ổ. của việc tìm tập phổ biến đó là: (i) Giảm thời gian tìm tập phổ biến; (ii) (ii) Giảm không gian lưu trữ trong quá trình tìm tập phổ biến. Trong giới hạn của bài báo, tôi xin trình bày việc

Ngày đăng: 18/05/2015, 23:02

Từ khóa liên quan

Mục lục

  • MỞ ĐẦU

  • PHẦN I

  • KHÁI QUÁT VỀ PHƯƠNG PHÁP LUẬN NGHIÊN CỨU KHOA HỌC

  • PHẦN II

  • ỨNG DỤNG NGHIÊN CỨU KHOA HỌC TRONG VIỆC CẢI TIẾN THUẬT TOÁN TÌM TẬP PHỔ BIẾN

  • KẾT LUẬN

  • TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan