Nghiên cứu các phần tử ngoại lai luận văn thạc sĩ máy tính

89 608 0
Nghiên cứu các phần tử ngoại lai  luận văn thạc sĩ máy tính

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI • ••• TRẰN VIÊT CƯỜNG NGHIÊN CỨU CÁC PHẢN TỬ NGOẠI LAI LUẬN VĂN THẠC SĨ MÁY TÍNH HÀ NỘI, 2015 Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI • ••• TRẰN VIÊT CƯỜNG NGHIÊN CỨU CÁC PHẢN TỬ NGOẠI LAI Chuyên ngành: Khoa học Máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ MÁY TÍNH Người hướng dẫn khoa học: GS.TS. Vũ Đức Thi HẢ NỘI, 2015 LỜI CẢM ƠN Em xin chân thành gửi lời cảm ơn tới GS.TS Vũ Đức Thi, thầy nhiệt văn này. tình hướng dẫn giúp đỡ em trinh hoàn thành luận Em xin chân thành gửi lời cảm ơn tới thầy cô Viện CNTT thuộc Viện Khoa học Hàn lâm Việt Nam tận tình giảng dạy, bảo giúp đỡ em trình học tập trường thời gian hoàn thành luận văn này. Em xin chân thành gửi lời cảm ơn tới thầy cô phòng Sau Đại học, khoa CNTT thư viện trường ĐHSPHN2 tận tình giúp đỡ truyền đạt kiến thức quý giá trình học tập trình hoàn thành luận văn này. LỜI CAM ĐOAN Tôi xin cam đoan tất số liệu kết nghiên cứu luận văn hoàn toàn trung thực không trùng lặp với đề tài khác. Tôi xin cam đoan giúp đỡ cho việc thực luận văn cảm ơn thông tin trích dẫn luận văn rõ nguồn gốc. Tác giả luận văn Tràn Việt Cường MỤC LỤC 2.3.1 2.3.2 Thuật toán FindAllOutsM cho tập liệu nhớ BẢNG KÝ HIÊU CÁC CHỮ VIẾT TẮT Từviêt tăt KDD Tiêng Anh Nghĩa tiêng Việt Knowledgement Discovery in Database Khám phá tri thức sở liệu DB Distance Based Dựa khoảng cách LOF Local Outlier Factor Yêu tô ngoại lai cục MỞ ĐẦU 1. Lý chọn đề tài Trong sống đại ngày nay, ngày phải đối mặt với nhiều vấn đề cần giải như: Làm để phát thẻ rút tiền bất thường hệ thống ngân hàng, bất thường thị trường chứng khoán, tuyến đường bất ổn không hợp lý giao thông, ứng dụng hệ thống an ninh, dự báo thời tiết, lĩnh vực thể thao .vv. Tuy nhiên, với số lượng liệu tập trung lưu trữ sở liệu ngày lớn việc tìm kiếm phần tử ngoại lai trở nên cần thiết nhiều sống. Xuất phát từ yêu càu ý nghĩa thực tiễn đó, đồng thời mong muốn tìm hiểu nghiên cứu Yấn đề này, lựa chọn thực luận văn với đề tài “ N g h i ê n c ứ u c c p h ầ n t n g o i l a ỉ \ Đây lĩnh vực tương đối mới, hy vọng đề tài YỚi hướng dẫn GS.TS Vũ Đức Thi, góp ý chuyên gia giúp giải số toán thực tế phục vụ cho xã hội ngày phát triển công Công nghiệp hóa Hiện đại hóa đất nước. 2. Mục đích nghiên cứu - Cung cấp số giải thích mô tả không gian liệu mà xuất phàn tử ngoại lai. - Cung cấp số thông tin mối quan hệ phàn tử ngoại lai. - Đưa ứng dụng liên quan đến phàn tử ngoại lai nhằm giải vướng mắc thực tế. 3. Nhiệm vụ nghiên cứu - Tìm hiểu khái niệm khám phá tri thức khai thác liệu. - Tìm hiểu khái niệm phần tử ngoại lai theo cách nhìn địa phương toàn cục. - Tìm hiểu thuật toán tìm kiếm phần tử ngoại lai liệu lớn, nhiều chiều. - Kiểm tra, đánh giá thuật toán sở liệu thực tập liệu khách hàng Ngân hàng Nông nghiệp Phát triển Nông thôn Agribank. 4. Đối tượng phạm vỉ nghiền cứu - Nghiên cứu phàn tử ngoại lai, mối quan hệ phàn tử ngoại lai khai thác liệu ứng dụng phàn tử ngoại lai. - Tìm hiểu thuật toán Nested-Loop, thuật toán đánh giá theo ô đồng thời đánh giá độ phức tạp thuật toán việc tìm kiếm phần tử ngoại lai. 5. Phương pháp nghiên cứu - Tham khảo tài liệu có liên quan đến l ĩnh vực nghiên cứu phần tử ngoại lai việc khai thác xử lý liệu. - Tham khảo ý kiến chuyên gia, thầy hướng dẫn lĩnh vực nghiên cứu. - Lập kế hoạch, lên quy trình tiến độ thực đề tài. 6. Đóng góp mổi đề tài: - Hệ thống hóa sâu vào vấn đề nghiên cứu. - Có thể sử dụng kết nghiên cứu để phát triển thành ứng dụng giải số toán vướng mắc thực tế. NỘIDUNG a CHƯƠNG 1: KHÁM PHÁ TRI THỨC TRONG SỞ DỬ LIỆU VÀ PHẦN TỬ NGOẠI LAI Trong chương này, giới thiệu trình khám phá tri thức, khai thác liệu ứng dụng thực tế khai thác liệu có hỗ trợ kỹ thuật khai thác liệu (Data minning). Tiếp theo trình bày khái niệm phần tử ngoại lai, mối quan hệ lĩnh vực khai thác liệu lĩnh vực khám phá phần tử ngoại lai, cuối xin trình bày ứng dụng phần tử ngoại lai. 1.1Khám phá tri thức Hiện nay, với phát triển tiến ngày cao khoa học kỹ thuật, công nghệ thông tin nhu cầu thiết yếu người ngày tăng tạo nên thời đại bùng nổ thông tin lĩnh vực đời sống xã hội. Với lượng thông tin ngày nhiều ( c ó t h ể n ó i l “ k h ổ n g l ” ) phức tạp càn có kỹ thuật phương pháp khai thác liệu hiệu để lấy thông tin cần thiết cho công việc. Việc sử dụng số ngôn ngữ truy vấn nhằm lấy thông tin theo yêu cầu người sử dụng, hầu hết ngôn ngữ lấy liệu theo yêu cầu đơn giản, tầm thường, hay kiểu liệu đa phương tiện hệ thống hỗ trợ như: Dữ liệu âm thanh, hình ảnh, . Nhưng kết đáp ứng yêu cầu người sử dụng ngày cao phức tạp. Do đó, nhu cầu tìm kiếm tri thức sở liệu hình thành lĩnh vực Khám phá tri thức sở liệu; Khám phá tri thức toàn trình tìm kiếm tri thức từ liệu, bao gồm bước sau: - C h u ẩ n b ị d ữ l i ệ u : Dữ liệu tập trung vào sở liệu, kho lưu trữ liệu. Dữ liệu “chưa sạch” tức có liệu không phù hợp, nhiễu, sai xót liệu không đầy đủ thông tin. Trong bước liệu làm để loại bỏ liệu không liên quan, liệu không phù hợp, công việc tiến hành trước sau phát liệu “chưa sạch” (bị nhiễm bẩn). Sau liệu làm sạch, liệu bổ sung thông tin cần thiết, sau liệu biến đổi theo dạng phù hợp để thực trình khai thác liệu. - K h a i t h c d ữ l i ệ u : Khai thác liệu bước quan trọng trình khám phá tri thức, bước sử dụng kỹ thuật phương thức thông minh để xác định mẫu liệu theo yêu cầu người dùng. Khai thác liệu định nghĩa trình khai thác, khám phá thông tin hữu ích, chưa biết trước, tiềm ẩn không tàm thường từ tập liệu lớn. Khai thác liệu bao gồm: ♦ Tìm kiếm luật kết họp: Sử dụng luật đơn giản để biểu diễn tri thức. Tìm kiếm mối quan hệ có ích liệu. ♦ Phát phần tử ngoại lệ: Tìm kiếm xác định đối tượng liệu lỗi, bất thường phần tử ngoại lai. ♦ Nhận dạng phân lớp mẫu: Tìm kiếm, xác định mẫu theo yêu cầu, phân chia mẫu thành lớp nhằm phục vụ cho mục đích sử dụng. ♦ Dự báo: Xác định hàm hổi quy. Môi trường khám phá tri thức nhằm mục đích hỗ trợ trình khai thác liệu. Do đó, hai thuật ngữ “khai thác liệu” (Data Mining) “khám phá tri thức” (Knowledge Discovery) thường sử dụng để thay cho nhau. - Đ n h g i : Trong bước bao gồm bước nhỏ đánh giá mẫu biểu diễn tri thức. Đánh giá mẫu tìm mẫu quan tâm từ mẫu có bước khai thác liệu, sử dụng ngưỡng cần thiết để lọc mẫu cần khai thác. Biễu diễn tri thức trình cho phép người sử dụng tương tác Yới hệ thống nhiệm vụ truy vấn tìm kiếm liệu cụ thể, cung cấp thông tin nhằm mục đích trợ giúp việc tìm kiếm thực khai thác liệu chi tiết dựa liệu khai thác. Ngoài ra, biểu diễn tri thức cho phép người sử dụng trình duyệt lược đồ sở liệu cấu trúc liệu. Hình 1.1 Trình bày tổng thể quy trình khám phá tri thức sở liệu (KDD), không bao gồm khai thác liệu mà có bước khác để có kết quả. Các bước khai thác liệu thường tiêu tốn thời gian phức tạp qui trình, nhiên bước tiền xử lý hậu xử lý không đơn giản tiêu tốn nhiều thời gian so với thuật toán khai thác liệu. Chúng thực hàu hết bước hình 1.1 việc tìm kiếm phần tà ngoại lai DB. Một số bước tiền xử lý liên quan đến việc tìm giá trị khởi tạo hợp lý cho p D. Hậu xử lý thực chuyên gia. Nhưng lựa chọn thích hợp thực bước tiền xử lý người sử dụng máy giảm nhiều thời gian liên quan đến bước khai thác liệu giảm công việc thủ công phàn hậu xử lý. Bằng cách lựa chọn giá trị thích hợp cho p D, quy trình khám phá tri thức sở liệu (KDD) làm cho phần tử ngoại lai có nhiều ý nghĩa người sử dụng giảm thời gian xác định p D. Hình 1.1 Quỉ trình Khảm phá tri thức sở liệu 1.2Những ứng dụng sử dụng kỹ thuật khai thác liệu. Có nhiều ứng dụng lĩnh vực khác sử dụng kỹ thuật khai thác liệu nhằm hỗ trợ cho mục đích sử dụng. Ví dụ: Trong thương mại, tổ chức hay công ty họ sử dụng kỹ thuật khai thác liệu để tặng khuyến cho khách hàng dựa vào tần xuất mua hàng, số lượng hàng mua lần trước hay tần suất truy cập website, kiểu khách hàng. Trong công ty bảo hiểm, sử dụng kỹ thuật khai thác liệu để xác định lỗi trường hợp rủi ro xảy ra. Trong ngân hàng, người ta sử dụng kỹ thuật khai thác liệu để xác định rủi ro thường gặp thẻ tín dụng hay lỗi trình giao dịch. Các tổ chức chống tội phạm sử dụng kỹ thuật khai thác liệu để tìm kiếm, nhận dạng phát tội phạm. Các công cụ tìm kiếm thông tin, tìm kiếm Website áp dụng kỹ thuật thông minh để tìm kiếm thông tin, Website với độ xác cao theo yêu cầu người sử dụng giúp người dùng thuận tiện việc xử lý thông tin. Ngoài ra, kỹ thuật khai thác liệu áp dụng lĩnh vực khai thác phân tích thị trường chứng khoán, dự báo tỷ lệ thay đổi ngoại tệ, tìm kiếm gene chuỗi DNA, dự báo thời tiết, nhận dạng ảnh văn . 1.3 Phần tử ngoại lai. 1.3.1 Khái niệm phần tử ngoại lai Trong tập liệu thường tồn đối tượng liệu không tuân theo hình thức mô hình liệu chung, đối tượng liệu mà giá trị liệu xem nằm phạm vỉ không liên quan tới tập liệu lại. Những đối tượng có đặc tỉnh gọi phần tử ngoại lai. Có nhiều định nghĩa đưa để định nghĩa phần tử ngoại lai định nghĩa Bamet Levis: “ M ộ t p h ẩ n t n g o i l a i l m ộ t đ ố i t ợ n g x u ấ t h i ệ n k h ô n g n h ấ t q u n v i t ậ p d ữ l i ệ u c ò n l i ” . Với Hawkins mô tả định nghĩa trực quan phần tử ngoại lai “ M ộ t đ ố i t ợ n g mà lệch hướng nhiều với đối tượng khác dẫn đến n g h ỉ n g r ằ n g c h ú n g đ ợ c t o r a b i m ộ t k ỹ t h u ậ t k h c ” [10]. Nói cách khác, đối tượng không mô hình tạo sinh với tập liệu lại xem phần tử ngoại lai. Các phần tử ngoại lai lỗi thực lỗi phép đo gâp ra. Ví dụ việc hiển thị người có tuổi 1000 việc thiết lập mặc định c ù n g l ú c B c : T h ự c h i ệ n 4.2.2.3 K ết thực nghiệm: Bước đàu cài đặt thành công thuật toán Nested Loop thử nghiệm thuật toán số liệu khách hàng ngân hàng. Sau thực thuật toán ta có kết hình 4.8 bao gồm thông tin tìm kiếm phần tử ngoại lai (Số phần tử ngoại lai; thông tin chi tiết phần tử ngoại lai; thời gian xử lý thuật toán cách thức xử lý liệu). khối 4.2.2.4 Thông tín phần tử ngoạỉ laỉ tìm sau khỉ thực thuật toán Kếl thực D a n h s c h p h ầ n t n g o i l a i S ố p h ầ n t n g o i l a i : SoGocC ID MaKH 25000Ũ TenKH C SoTienPhẽDuyet ► 74 3- 160185357516Cao Mạnh Hùng 5000000000 84 31601Ũ776S975 Nguyỉn Quang Thư 5Ũ0Ũ00Ũ0ŨD 85 316Q149Ũ03680 cty CP TaXiĐai Nam 5ŨŨŨOOŨŨŨŨ 86 3160019489051 TạVãnVy. SOOŨOOOOOC 94 3-160022154409 Dương VănThụ ÕŨQŨQQ0QŨ0 Hình 4.9 Phần tử ngoại lai tìm 4.2.3 Đánh giá tốc độ thực hỉện ♦♦♦ Với sẻ B8580Ữ C 2031O ghi cổ định ỉà 1000, thay đổi số ghi thực xử ỉỷ mật thời điểm Ta đưa liệu với số ghi cố định 1000, thay đổi số ghi xử lý thời điểm. Khi thay đổi số ghi xử lý thời điểm đồng với nghĩa việc số khối liệu thay đổi tỷ lệ nghịch với tức ta tăng số ghi xử ỉý thời điểm đồng thời số khối liệu giảm. Sau thay đổi ta có kết bảng sau: STT Số ghỉ xử lỷ lần Số khối liệu Thòi gian thực hỉện (ms) 50 20 2000 100 10 500 150 300 200 200 250 100 Từ bảng liệu thu ta có biểu đồ hình sau: Biểu đầ so sánh thời gian thưc hiên thuât toán o ĩ I • 25 00 200 -Số ghi xử Ịý ìn -Số khối liệu 15 Thời gian thực 000 Hình 4.10 Biểu đồ so sánh thời gian thực thuật toán thay đổi số ghi xử lý thời điểm Nhìn vào biểu đồ ta thấy, số ghi xử lý tỷ lệ nghịch với số khối liệu thời gian thực thuật toán (do số ghi thực không đổi, 1000 ghi) nói có nghĩa số khối tỷ lệ thuận YỚi thời gian thực thuật toán. Như vậy, số ghi đưa vào thực thay đổi số ghi thực dẫn đến thay đổi số khối số khối thời gian xử lý thuật toán nhanh số lần so sánh hơn. ♦♦♦ Với sổ khối cổ định 4, thay đổi số lượng ghi Ta thay đổi số ghi liệu giữ số khối liệu 4. Sau thực ta thu bảng giá trị sau: STT Sô ghi Thời gian thực (ms) 100 200 50 500 100 1000 200 2000 300 Với sô liệu thu ta vẽ biêu đô sau: Biểu đồ thời gian thực khỉ thay đổi số ghi 200 ♦ số ghi — T h i gian thực (ms) 1500 100 500 Hình 4.11 Biểu đồ so sánh thời gian thực thuật toán Biểu đồ cho ta thấy số ghi tỷ lệ thuận với thời gian thực thuật toán nhiên thời gian thực thuật toán tăng chậm nhiều so với số ghi xử lý số khối giữ nguyên khối. KÉT LUẬN • Trên đây, luận văn tìm hiểu tổng quan lĩnh vực khám phá tri thức sở liệu, khai thác liệu, đồng thời giới thiệu đánh giá thuật toán tìm kiếm phần tà ngoại lai sở liệu lớn, nằm nhớ ngoài. Với phần tử ngoại lai theo cách nhìn toàn cục, luận văn giới thiệu trình bày thuật toán Nested Loop thuật toán đánh giá theo ô nhằm tìm kiếm, phát phần tử ngoại lai thực tập liệu lớn, nhiều chiều, nằm nhớ ngoài. Thuật toán Nested Loop thuật toán phân chia tập liệu thành khối liệu, sử dụng vòng lặp để tính toán khoảng cách, tìm kiếm phần tử ngoại lai khối, thuật toán Nested Loop có độ phức tạp 0(kN2) (với k chiều N cỡ liệu). Tuy nhiên, số lần đọc tập liệu vào nhớ thuật toán không bé n-2 đọc lại nhỏ n-1 lần đọc với n tổng số khối tập liệu, thuật toán Nested Loop nhiều thời gian đọc liệu. Thuật toán đánh giá theo ô, giới thiệu trình bày hai phiên thuật toán. Phiên mô tả thuật toán áp dụng cho tập liệu lớn, nằm nhớ phiên thứ hai cải tiến phiên đầu để thuật toán thực YỚi sở liệu nằm nhớ ngoài. Thuật toán đánh giá theo ô ánh xạ đối tượng tập liệu vào ô phù hợp, sau đánh giá ô mối quan hệ ô để tìm kiếm phần tử ngoại lai. Thuật toán giảm cách đáng kể công việc tính toán khoảng cách cặp điểm độ phức tạp thuật toán đánh giá theo ô tuyến tính YỚi N lại lũy thừa chiều liệu: 0(m ck k^+kN), (với m số ô, c số). Luận văn thuật toán thực nhiều lần đọc tập liệu từ nhớ vào nhớ trong. Ở chương luận văn giới thiệu khái niệm đặc trưng ngoại lai LOF theo cách nhìn địa phương, khái niệm nắm bắt xác ý nghĩa ngoại lai đối tượng tập liệu, với đối tượng nằm sâu vùng, giá trị LOF xấp xỉ với đối tượng khác, chương luận văn trình bày định lý xác định cận cận giá trị LOF liên quan tới việc có không đối tượng thuộc tập lân cận phụ thuộc tham số Minpts đến từ nhiều vùng. Ngoài ra, luận văn trình bày phụ thuộc giá trị LOF vào tham số Minpts đưa hướng dẫn thực tế cách lựa chọn miền giá trị Minpts đưa đánh giá việc xếp đối tượng theo giá trị LOF lớn chúng miền lựa chọn. Cuối đưa đánh giá độ phức tạp thuật toán tính giá trị LOF. Hướng phát triển đề tài Thứ cải tiến phát triển cách thực tính toán giá trị LOF: hướng phát triển quan tâm nghiên cứu cách thực LOF kết hợp với thuật toán phân vùng phân cấp, tức thuật toán cung cấp thông tin chi tiết phần tử ngoại lai từ vùng liên quan. Thứ hai phân cụm phần tử ngoại lai: Cho đến nay, phần tà ngoại lai báo cáo riêng rẽ không đặc biệt ý tới phần tử ngoại lai mà phân cụm ngoại lai, việc xác minh phân cụm phần tử ngoại lai dẫn đến kiểu khám phá tri thức quan trọng thực tế nhiều phần tử ngoại lai dùng chung đặc điểm tương cung cấp nhìn thấu đáo vào liệu. Thứ ba xử lý song song: Khi tìm kiếm phần tử ngoại lai mạnh nhất, nhiều thực thi thuật toán FindAllOutsD thực song song, triển khai song song giảm đáng kể tổng thời gian thực thuật toán đồng thời làm giảm bớt tắc nghẽn I/o, khối đĩa lần duyệt tập liệu truyền tới nhiều xử lý. TÀI LIỆU THAM KHẢO 1. Tiếng Việt [1] Nguyễn Văn Ba (1996), L ý t h u y ế t N g ô n n g ữ v t í n h t o n , NXB Đại học Quốc Gia Hà Nội. [2] Nguyễn Văn Ba (2002), N g ô n n g ữ h ì n h t h ứ c , NXB Khoa học Kỹ thuật. [3] Phan Đình Diệu (2000), L ý t h u y ế t v ề đ ộ p h ứ c t p t í n h t o n , Viện toán học. [4] Vũ Đức Thi (2010), Cơ sở Dữ liệu nâng cao. [5] Vũ Đức Thi (2012), “Một số Yấn đề tính toán liên quan đến sở liệu khai phá liệu”, T p c h ỉ K h o a h ọ c v C ô n g n g h ệ , (50), 679-703 [6] Nguyễn Bá Tường (2001), C s d ữ l i ệ u l ỷ t h u y ế t v t h ự c h n h , NXB Khoa học kỹ thuật Hà Nội. 2. Tiếng Anh [7] Breunig, M., Kreigel, H.-P., Ng, R., and Sander, J. (2000), LOF: Identifying density-based local outliers. In Proc.SIGMOD,pp. 93-104 [8] Cochran, w. (1963), S a m p l i n g Te c h n i q u e s , John Wiley & Sons, 2nd edition. [9] Draper, N. and Smith, H. (1996), Applied Regression Analysis, John Wiley &Sons. [10] Hawkins, D. (1980), I d e n t i f i c a t i o n o f O u t l i e r s , Chapman and Hall, London. [11] Johnon, R. and Wichem , D. (1992), A p p l i e d S t a t i s t i c a l A n a l y s i s , Prentice Hall, 3nd edition. Multivariate [...]... xác về phần tử ngoại lai, việc xác định các phần tử ngoại lai trong mỗi lĩnh vực là khác nhau, bởi vì ý nghĩa ngoại lai của các phần tử ngoại lai mang tính chất và đặc trưng của từng lĩnh vực áp dụng (có thể nhiễu của người này nhưng lại là tín hiệu tốt của người khác), nên rất khó có thể đưa ra được một định nghĩa hoàn chỉnh và chính xác về phần tử ngoại lai CHƯƠNG 2: MÔT SỐ THUÃT TOÁN TÌM KIẾM PHẦN... cả các tính chất trong phần 2.3.1 được sử dụng để trợ giúp cho việc xác định các phần tử ngoại lai và không ngoại lai trên cơ sở quan hệ ô - ô và hơn nữa trên cơ sở tính toán khoảng cách giữa các cặp đối tượng, điều này làm giảm thời gian thực hiện thuật toán một cách đáng kể bởi vì có thể loại bỏ một cách nhanh chóng số lượng lớn các đối tượng không phải là ngoại lai Đối với các ô không thỏa mãn các. .. một định nghĩa nào về phẩn tử ngoại lai nào được chấp nhận rộng rãi, các phần tử ngoại lai thường được xem là các điểm không thỏa mãn mô hình dữ liệu đang xét Việc phần tử ngoại lai có bị loại bỏ hay không còn phụ thuộc vào từng chương trình ứng dụng và quyết định bởi các chuyên gia 1.3.2 Những ứng dụng của phần tử ngoại lai 1 Đối với một số ứng dụng khám phá tri thức, thường các sự kiện hiếm có, khó... số các kỹ thuật phát hiện phần tử ngoại lai nhằm các mục đích sau: ♦ Cung cấp một số thông tin về mối quan hệ giữa các phàn tử ngoại lai ♦ Cung cấp một số giải thích hoặc mô tả về không gian dữ liệu mà trong đó xuất hiện phần tử ngoại lai Và một vấn đề khác chúng tôi cần quan tâm đó là việc liên quan tới ý nghĩa của các phàn tử ngoại lai Cho đến nay, chưa có một định nghĩa nào có thể định nghĩa một cách... không ngoại lai Ngược lại, sau khi tiến hành tính toán khoảng cách với tất cả các đối tượng thuộc L2(Cx,y) mà sl vẫn nhỏ hơn M thì thông báo p là ngoại lai Ta xét ví dụ về cách chọn cấu trúc ô được trình bày ở hình 2.2.a Các ô đỏ là các ô có số lượng lớn hơn 4 điểm, những ô đó không chứa phàn tử ngoại lai Hơn nữa, tất cả các ô liền kề tức là những ô thuộc vào LI cũng sẽ không chứa 2 phần tử ngoại lai. .. nếu có ít nhất p phần trăm các đối tượng trong T mà khoảng cách giữa chúng với o lớn hơn D Điều đó có nghĩa là lực lượng của tập hợp S(o) là nhỏ hơn hoặc bằng (100 - p)% cỡ của T Gọi M là số lượng lớn nhất các đối tượng thuộc S(o) mà một đối tượng ngoại lai có thể có Theo định nghĩa các phần tử ngoại lai dựa trên khoảng cách DB(p,D) thì M=(l - p)*N Việc tìm kiếm tất cả các phần tử ngoại lai sẽ được bắt... màu hồng Hình 2.2.b có thêm 3 ô màu hồng được các hình mũi tên chỉ tới Trong hình 2.2.C, ta thấy có một phần tử ngoại lai khả nghi bởi YÌ không có điểm nào nằm trong các ô thuộc Ll Hình 2.2.d cho biết rằng phần tử ngoại lai tiềm ẩn đó thực chất là phần tử ngoại lai bởi vì chỉ có 3 điểm nằm trong các ô thuộc vào L2 Trong đó L2 là vùng giới hạn bởi LI và các đoạn thẳng được gán nhãn L2 (xem hình vẽ)... một phần tử ngoại lai không phải là một đối tượng hợp lệ (có thể do nó được đánh giá và đưa vào không đúng) thì nó có thể được phát hiện, khắc phục và đánh giá bởi các chuyên gia Do đó, nó phụ thuộc vào từng ngữ cảnh các phần tà ngoại lai có thể được loại bỏ từ tập dữ liệu để làm tăng tính thuần nhất của tập dữ liệu còn lại Nói tóm lại, các phẩn tử ngoại lai là những đối tượng đủ khác với hầu hết các. .. công ty đã từng thử dự đoán giá trị các cổ phiếu được niêm yết dựa trên việc tìm kiếm các phần tử ngoại lai (ví dụ: Giả sử phần lớn giá các cổ phiếu ở một ngành đang lên cao ở một thị trường ảo và có các thị trường khác (trong cùng một ngành) mà giá cổ phiếu biến động đột ngột, các phẩn tử ngoại lai như thế nên được xác định và sau đó các nhà phân tích có thể dựa vào các nguyên nhân để giải thích sự quá... về phần tử ngoại lai CHƯƠNG 2: MÔT SỐ THUÃT TOÁN TÌM KIẾM PHẦN • • TỬ NGOAI LAI DƯA TRÊN KHOẢNG CÁCH • • Trong chương này chúng tôi sẽ trình bày khái niệm các phần tử ngoại lai theo cách nhìn toàn cục, đồng thời giới thiệu thuật toán Nested Loop và hai phiên bản của thuật toán đánh giá theo ô để tìm kiếm các phàn tử ngoại lai dựa trên các tập dữ liệu chính nhiều chiều nằm trong bộ nhớ trong và nằm trong . CƯỜNG NGHIÊN CỨU CÁC PHẢN TỬ NGOẠI LAI LUẬN VĂN THẠC SĨ MÁY TÍNH HÀ NỘI, 2015 Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI 2 • • • • TRẰN VIÊT CƯỜNG NGHIÊN CỨU CÁC PHẢN TỬ NGOẠI LAI Chuyên. đầy đủ và chính xác về phần tử ngoại lai, việc xác định các phần tử ngoại lai trong mỗi lĩnh vực là khác nhau, bởi vì ý nghĩa ngoại lai của các phần tử ngoại lai mang tính chất và đặc trưng. kiếm các phần tử ngoại lai. 5 5. Phương pháp nghiên cứu - Tham khảo các tài liệu có liên quan đến lĩnh vực nghiên cứu các phần tử ngoại lai trong việc khai thác và xử lý dữ liệu. - Tham khảo các

Ngày đăng: 10/09/2015, 15:53

Từ khóa liên quan

Mục lục

  • NGHIÊN CỨU CÁC PHẢN TỬ NGOẠI LAI

    • LUẬN VĂN THẠC SĨ MÁY TÍNH

    • NGHIÊN CỨU CÁC PHẢN TỬ NGOẠI LAI

      • LỜI CẢM ƠN

      • 1.3 Phần tử ngoại lai.

      • 1.3.1 Khái niệm phần tử ngoại lai

      • 1.3.2 Những ứng dụng của phần tử ngoại lai

      • 1.4 Mổỉ quan hệ giữa phần tử ngoại lai và khai thác dữ liệu.

      • CHƯƠNG 2: MÔT SỐ THUÃT TOÁN TÌM KIẾM PHẦN

      • TỬ NGOAI LAI DƯA TRÊN KHOẢNG CÁCH

        • 2.1 Định nghĩa các phần tử ngoại lai dựa trên khoảng cách

        • 2.2 Thuật toán Nested-Loop.

        • 2.2.1 Tư tưởng thuật toán.

        • 2.2.2 Mô tả thuật toán Nested Loop:

        • 2.2.4 Đánh giá độ phức tạp của thuật toán Nested Loop.

        • 2.3 Thuật toán đánh giá theo ô

        • 2.3.1 Các khái niệm và tính chất liên quan

        • 2.3.2 Thuật toán FindAlỉOutsM cho các tập dữ liệu trong bộ nhớ chính.

        • 2.3.2.1 Tư tưởng thuật toán.

        • Thuật toán FindAllOutsM:

        • 2.3.2.3 Đánh giá độ phức tạp thuật toán trong không gian hai chiều.

        • 2.3.2.4 Tổng quát cho trường hợp nhiều chiều.

        • 2.3.2.5 Đánh giá độ phức tạp trong không gian nhiều chiều.

Tài liệu cùng người dùng

Tài liệu liên quan