nghiên cứu sự phát triển của công nghệ cơ sở dữ liệu và khai phá dữ liệu

19 909 2
nghiên cứu sự phát triển của công nghệ cơ sở dữ liệu và khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN oOo BÁO CÁO ĐỀ ÁN MÔN HỌC PHƯƠNG PHÁP LUẬN NGHIÊN CỨU KHOA HỌC Đề tài : NGHIÊN CỨU SỰ PHÁT TRIỂN CỦA CÔNG NGHỆSỞ DỮ LIỆU KHAI PHÁ DỮ LIỆU Giảng viên hướng dẫn: GS.TSKH Hoàng Kiếm Học viên thực hiện: CH1101021 – Đỗ Văn Luyện Tp.Hồ Chí Minh ngày 13 tháng 04 năm 2012 GIỚI THIỆU ĐỀ TÀI. 3 1. Sự phát triển công nghệ sở dữ liệu tầm quan trọng của khai phá dữ liệu. 4 1.1 Sự phát triển công nghệ sở dữ liệu sự ra đời của công nghệ khai phá dữ liệu. 4 1.2 Tầm quan trọng của khai phá dữ liệu. 6 2. Khai thác dữ liệu là gì ? 8 2.1 Các bước để khai phá dữ liệu 8 2.2 Kiến trúc một hệ thống khai thác dữ liệu điển hình. 10 3. Kiểu dữ liệu khai thác trong khai thác dữ liệu. 13 3.1 Nguyên tắc. 13 3.2 Những thách thức khai thác dữ liệu trong các hệ thống lưu trữ điển hình. 13 4. Các nguyên tắc sáng tạo điển hình dùng trong phát triển công nghệ sở dữ liệu khai phá dữ liệu. 17 4.1 Nguyên tắc phân nhỏ 17 4.2 Nguyên tắc “tách khỏi ” 17 4.3 Nguyên tắc sao chép. 17 4.4 Nguyên tắc phản hồi. 18 4.5 Nguyên tắc kết hợp 18 5. Tổng kết 18 GIỚI THIỆU ĐỀ TÀI. Cùng với sự phát triển của khoa học kỹ thuật là sự bùng nổ của công nghệ dữ liệu mới như World Wide Web, data stream… đã đặt ra một yêu cầu cấp thiết cho các kỹ thuật mới công nghệ tự động để thể chuyển đổi một lượng lớn dữ liệu thành các thông tin hữu ích đưa ra các dự báo hữu ích cho người sử dụng, Khai thác dữ liệu ra đời nhằm giải quyết những vấn đề trên. Vì thông tin thể thay đổi liên tục rộng lớn nên đây là một ngành khoa học đỏi hỏi phải luôn nâng cấp tối ưu hóa tri thức hiện để thể phục vụ tốt hơn nhu cầu của người sử dụng. Trong bài tiểu luận này em xin được trình bày sự phát triển của công nghệ sở dữ liệu từ lúc hình thành cho đến ngày nay để thấy được vai trò của công nghệ khai phá dữ liệu là to lớn như thế nào. Tiếp đến em xin được kể ra những thách thức mà ngành khoa học này gặp phải trong quá trình nghiên cứu phát triển. Tại vì thời gian không cho em được nghiên cứu nhiều nghiên cứu sâu em xin chỉ trình kể ra những thách thức mà hiện nay các nhà khoa học đang gặp phải. Hiện nay có một số công ty lớn như Facebook, Google…đã đang giải quyết được một trong số các thách thức trong khai phá dữ liệu như là Search Engine Social Network họ cũng đã đang rất thành công trong lĩnh vực của mình. 1. Sự phát triển công nghệ sở dữ liệu tầm quan trọng của khai phá dữ liệu. 1.1 Sự phát triển công nghệ sở dữ liệu sự ra đời của công nghệ khai phá dữ liệu. Khai thác dữ liệu là một trong những ngành khoa học thu hút rất nhiều sự chú ý trong những năm gần đây, do một số lượng dữ liệu lớn cần thiết để chuyển các dữ liệu đó thành thông tin hữu ích. Các thông tin kiến thức thu được thể sử dụng trong các ứng dụng khác nhau từ phân tích thị trường, phát hiện gian lận, kiểm soát sản xuất khoa học thăm dò. Khai thác dữ liệu thể xem như là một kết quả của sự tiến hoá tự nhiên của công nghệ thông tin. Sự phát triển của công nghiệp sở dữ liệu cho ta biết tại sao khai phá dữ liệu đóng một vai trò quan trọng trong sự phát triển của nền công nghiệp công nghệ thông tin ngày nay. Kể từ khi công nghệ năm 1960, sở dữ liệu thông tin đã được phát triển từ hệ thông xử lý tập tin nguyên thuỷ. Việc nghiên cứu phát triển trong các hệ thống sở dữ liệu từ những năm 1970 đã một quá trình phát triển từ các hệ thống sở dữ liệu mạng lưới phân cấp tới sự phát triển của hệ thống sở dữ liệu quan hệ (nơi dữ liệu được lưu trữ trong các cấu trúc bảng quan hệ ), các công cụ mô hình hoá dữ liệu lập chỉ mục. Ngoài ra người sử dụng đã bước đầu sử dụng ngôn ngữ truy vấn để truy xuất dữ liệu một cách linh hoạt thuận tiện. Lúc này để các phương pháp xử lý giao dịch trực tuyến (OLTP) nơi truy vấn truy xuất dữ liệu được xem như một giao tác bản thì người dùng bắt đầu phải tối ưu hoá các xử lý truy vấn để các ứng dụng được sử dụng một cách hiệu quả. Data Collection and Database Creation ( 1960s and earlier) -Dữ liệu xử lý trên file thuần tuý Database Management System ( 1970s – 1980s) -Phát triển hệ thống sở dữ liệu : Dữ liệu được lưu trữ trong cấu trúc bảng quan hệ. - Phát triển công cụ mô hình hoá dữ liệu : Mô hình quan hệ giữa các đối tượng, thực thể… - Lập chỉ mục các phương pháp truy xuất dữ liệu : Cây B-Tree, bảng băm, … - Các ngôn ngữ truy vấn dữ liệu ( query languages) : SQL,…và tối ưu hoá xử lý truy vấn. - Phát triển hệ thống giao tiếp người dùng : User interfaces, forms, report… Advanced Database System (mid - 1980s - present) - Phát triển mô hình quan hệ đối tượng mở rộng, hướng đối tượng mở rộng và đối tượng quan hệ. - Phát triển sở dữ liệu theo đ ị nh hư ớ ng ứ ng d ụ ng Advanced Data Analysis : Data Warehousing and Data Mining (late 1980s - present) - Data warehousing OLAP - Khai phá dữ liệu tìm kiếm tri thức. - Phát triển các ứng dụng khai phá dữ liệu chuyên sâu : Web mining, text mining, time-series analysis…. Web-based database ( 1990s - present) - Phát triển dựa trên XML database. - Thông tin dữ liệu được tích hợp cùng nhau. New Generation of Integrated Data and Information Systems. ( present - future) Công nghệ sở dữ liệu từ những năm 1980 đã được đặc trưng bới sự áp dụng phổ biến các công nghệ quan hệ, các nghiên cứu độc lập sự phát triển hoạt động trên các hệ thống sở dữ liệu mới. Sự ra đời của các mô hình quan hệ mở rộng, hướng đối tượng các mô hình suy luận đã thúc đẩy sự phát triển của các hệ sở dữ liệu tiên tiến hơn như các hệ thống sở dữ liệu theo định hướng ứng dụng, bao gồm cả không gian, đa phương tiện, cảm biến sở dữ liệu khoa học kỹ thuật, sở tri thức các ứng dụng thông tin văn phòng phát triển mạnh mẽ trong thời kỳ này. Các vấn đề liên quan đến phân phối dữ liệu, chia sẻ dữ liệu đươc nghiên cứu rộng rãi. Lúc này hệ thống sở dữ liệu Internet dựa trên hệ thống thông tin World Wide Web (WWW) cũng đã xuất hiện đóng một vai trò quan trọng sự phát triển của ngành công nghiệp thông tin. 1.2 Tầm quan trọng của khai phá dữ liệu. Các tiến bộ vượt bậc trong công nghệ phần cứng máy tính đã dẫn đến nguồn cung cấp lớn các máy tính mạnh mẽ, dung lượng lưu trữ trong các thiết bị ngày càng lớn. Công nghệ này thúc đẩy sự phát triển ngành công nghiệp sở dữ liệu thông tin, làm cho một số lượng lớn các sở dữ liệu kho thông tin sẵn cho quản lý giao dịch, thông tin truy hồi phân tích dữ liệu. Dữ liệu thể được lưu trữ trong nhiều loại khác nhau của sở dữ liệu kho thông tin. Một kho lưu trữ nhiều nguồn dữ liệu không đồng nhất tổ chức theo một lược đồ thống nhất tại một trang web duy nhất để tạo điều kiện thuận lợi cho việc ra quyết định quản lý. Công nghệ dataWarehousing bao gồm dữ liệu, tích hợp làm sạch dữ liệu, phân tích dữ liệu trực tuyến (OLAP), kỹ thuật phân tích các chức năng, hợp nhất tập hợp cũng như khả năng xem xét thông tin ở nhiều ở nhiều góc khác nhau. Ngoài ra một lượng lớn dữ liệu thể được tích luỹ vượt quá kiến trúc sở dữ liệu kho dữ liệu. Ví dụ điển hình là các dòng data trong World Wide Web, nơi các dòng dữ liệu liên tục, trong các ứng dụng như các mạng cảm biến, phân tích định tuyến Router… thì phân tích sử dụng dữ liệu hiệu quả trở thành một nhiệm vụ đầy thử thách. Sự phong phú của dữ liệu cùng với sự cần thiết cho các công cụ phân tích dữ liệu mạnh mẽ, thu thập lưu trữ trong kho dữ liệu lớn rất nhiều các ứng dụng khác vượt xa khả năng của con người để hiểu cẩn phải một công cụ mạnh mẽ để làm những việc như vậy Kết quả là các dữ liệu thu thập trong các kho dữ liệu lớn trở thành những dữ liệu lưu trữ rất hiếm khi sử dụng truy cập. Do đó các quyết định quan trọng thường được thực hiện không dựa trên các dữ liệu thông tin phong phú được lưu trữ trong kho dữ liệu mà là những quyết định mang tính trực giác, đơn giản là vì các nhà sản xuất không đủ các công cụ trích xuất các kiến thức từ một kho dữ liệu lớn. => Công cụ khai thác dữ liệu được ra đời để thực hiện việc phân tích dữ liệu thể phát hiện ra cá mô hình dữ liệu quan trọng góp phần rất lớn trong sự phát triển của doanh nghiệp. 2. Khai thác dữ liệu là gì ? 2.1 Các bước để khai phá dữ liệu Nói một cách đơn giản khai thác dữ liệu dùng để “giải nén” hoặc “khai thác” kiến thức từ một số lượng lớn dữ liệu. Các bước để khai phá dữ liệu:  Làm sạch dữ liệu: loại bỏ những thành phần gây nhiễu, khó xác định quy luật).  Tích hợp dữ liệu : Dữ liệu thể được tích hợp từ nhiều nguồn khác nhau.  Lựa chọn dữ liệu : Chọn lựa dữ liệu liên quan đến quá trình phân tích được lấy từ sở dữ liệu.  Chuyển đổi dữ liệu: Dữ liệu được chuyển đổi thành các hình thức thích hợp với các hệ sở tri thức, sở dữ liệu khác nhau…  Khai thác dữ liệu: Các phương pháp thông minh được áp dụng để trích xuất ra các mẫu dữ liệu, các mô hình dữ liệu.  Đánh giá các mẫu, mô hình: Đánh giá mô hình đại diện cho kiến thức thu được.  Trình bày tri thức. Flat files Databases D ata Warehouse Patterns Knowledge Cleaning and integration Data mining Evaluation and Presentation Hai bước đầu là quá trình tiền xử lý cho việc khai phá dữ liệu. Khai phá dữ liệu cần phải được hỗ trợ từ người dùng các sở tri thức hiện có. Các mẫu, phát hiện mới được thể hiện cho người sử dụng được lưu trữ như là kiến thức mới trong sở tri thức. Khai thác dữ liệu lúc này chỉ là một bước trong toàn bộ quá trình, là một trong những bước cần thiết bởi vì nó phát hiện ra các mô hình ẩn để đánh giá. 2.2 Kiến trúc một hệ thống khai thác dữ liệu điển hình. DataMining với tên gọi của nó với nghĩa bản là phát hiện kiến thức. Tuy nhiên trong ngành công nghiệp, trong các công nghệ truyền thông trong nnghiên cứu sở dữ liệu khai thác dữ liệu đang dần phổ biến hơn so với thuật ngữ ban đầu. Rộng hơn thì DataMining là quá trình phát hiện kiến thức từ một lượng lớn dữ liệu được lưu trữ trong sở dữ liệu, kho dữ liệu hoặc kho lưu trữ các thông tin khác. Kiến trúc của một hệ thống khai thác dữ liệu điển hình các thành phần chính như sau :  sở dữ liệu, kho dữ liệu, World Wide Web, hoặc kho lưu trữ các thông tin khác: Trên các hệ thống dữ liệu này phải làm sạch dữ liệu (loại bỏ những thành phần gây nhiễu trong dữ liệu), sử dụng kỹ thuật tích hợp dữ liệu để thể sử dụng dữ liệu một cách hiệu quả.  Hệ quản trị sở dữ liệu hoặc máy chủ kho dữ liệu : nhiệm vụ trong việc lấy dữ liệu liên quan dựa trên yêu cầu khai thác dữ liệu của người dùng. [...]... nguyên tắc khai thác dữ liệu nên được áp dụng đối với bất kỳ loại kho dữ liệu, cũng như dữ liệu tạm thời chẳng hạn như dữ liệu dòng (data stream) Do đó phạm vi kiểm tra thường trên các quan hệ sở dữ liệu, kho dữ liệu, các dòng dữ liệu, World Wide Web…Hệ thống sở dữ liệu cao cấp bao gồm các đối tượng sở dữ liệu quan hệ sở dữ liệu theo định hướng ứng dụng cụ thể chẳng hạn như sở dữ liệu không... dữ liệu trên các kho dữ liệu  Các hệ thống thông tin dữ liệu nâng cao: Hệ thống sở dữ liệu quan hệ đã được sử dụng rộng rãi trong các ứng dụng (Applications) Với sự tiến bộ của công nghệ sở dữ liệu, các loại khác nhau của dữ liệu mới thông tin hệ thống tập tin gốc đã nổi lên đang phát triển để giải quyết yêu cầu của các ứng dụng mới Các ứng dụng sở dữ liệu mới bao gồm xử lý dữ liệu. .. nhỏ Phát triển công nghệsở dữ liệu được chia thành nhiều hướng phát triển khác nhau Mỗi hướng phát triển những vấn đề thách thức riêng Trong khai phá dữ liệu thì nguyên tắc này càng được thể hiện rõ ràng hơn Với từ những kiểu dữ liệu cụ thể người ta thể phân chia ra những hướng khai phá dữ liệu riêng Ví dụ như hệ thống khai phá dữ liệu thời gian thực (time series data), khai thác dữ liệu. .. Databases sở dữ liệu văn bản không cấu trúc sở dữ liệu văn bản cấu trúc như XML/HTML Việc phát triển khai thác dữ liệu văn bản cấu trúc thường được sử dụng thường xuyên thể được thực hiện bằng cách sử dụng hệ thống sở dữ liệu quan hệ sở dữ liệu đa phương tiện như lưu trữ hình ảnh, âm thanh, video Nhu cầu của người sử dụng trên sở dữ liệu này nhiều nên thách thức trong khai. .. sở dữ liệu chuỗi thời gian (time-series databases), cở sở dữ liệu văn bản, sở dữ liệu đa phương tiện 3.2 Những thách thức khai thác dữ liệu trong các hệ thống lưu trữ điển hình Những thách thức kỹ thuật khai thác thể khác nhau cho mỗi hệ thống lưu trữ  sở dữ liệu quan hệ : Hệ quản trị sở dữ liệu (DBMS) bao gồm tập dữ liệu liên quan đến nhau, được biết đến như là một sở dữ liệu, ... các ngành toán, lý để phát triển một toàn diện đồng bộ Trong khai phá dữ liệu thì một hệ thống thể được tích hợp để khai phá nhiều loại dữ liệu khác nhau từ người dùng như vậy nó sẽ phải kết hợp sở tri thức từ những nguồn dữ liệu này để hệ thống hoạt động một cách hiệu quả nhất 5 Tổng kết Đi cùng với sự phát triển của khoa học kỹ thuật thì sự phát triển của công nghệ dữ liệu đóng vai trò quan... Trong phát triển của công nghệsở dữ liệu thì mỗi công nghệ mới ra đời đều được kế thừa từ những công nghệ trước đó Công nghệ sau ra đời thường xu hướng tối ưu hơn, giải quyết những vấn đề mới phát sinh từ những vấn đề cũ Khi mà khai phá dữ liệu khác nhau từ những công nghệ khác nhau thì vẫn phải sử dụng lại những hệ thống sở tri thức (knowledge base) trước đó để làm nền tảng cho sự phát hiện,... thống sở dữ liệu suy luận Khai thác dữ liệu liên quan đến việc tích hợp các kỹ thuật lừ nhiều lĩnh vực như sở dữ liệu, công nghệ kho dữ liệu, số liệu thống kê, máy học, máy tính hiệu suất cao, nhận dạng mẫu, mạng neural, phân tích dữ liệu trực quan, thu hồi thông tin, hình ảnh xử lý tín hiệu phân tích các dữ liệu không gian thời gian 3 Kiểu dữ liệu khai thác trong khai thác dữ liệu 3.1... sự phát triển của một công nghệ thì nguyên tắc này đóng vai trò quan trọng để đánh giá chất lượng của một dòng sản phẩm đã được sinh ra Nhờ áp dụng nguyên tắc này mà công nghệ ngày càng hoàn thiện hơn phát hiện ra những thách thức mới cần phải xử lý 4.5 Nguyên tắc kết hợp Sự phát triển của công nghệsở dữ liệusự kết hợp của nhiều ngành khoa học khác nhau như ngành công nghiệp phần cứng, công. .. trúc dữ liệu hiệu quả khả năng mở rộng các phương pháp để xử lý cấu trúc đối tượng phức tạp Để đáp ứng những nhu cầu này thì hệ thống sở dữ liệu tiên tiến ứng dụng theo định hướng hệ thống sở dữ liệu cụ thể đã được phát triển bao gồm hệ thống sở dữ liệu quan hệ hướng đối tượng (object-relational database systems), hệ thống dữ liệu thời gian thực (time-series database systems), hệ thống . Sự phát triển công nghệ cơ sở dữ liệu và tầm quan trọng của khai phá dữ liệu. 4 1.1 Sự phát triển công nghệ cơ sở dữ liệu và sự ra đời của công nghệ khai. của khai phá dữ liệu. 1.1 Sự phát triển công nghệ cơ sở dữ liệu và sự ra đời của công nghệ khai phá dữ liệu. Khai thác dữ liệu là một trong những ngành

Ngày đăng: 09/03/2014, 01:43

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan