Tìm hiểu về Data Mining pps

5 342 2
Tìm hiểu về Data Mining pps

Đang tải... (xem toàn văn)

Thông tin tài liệu

Thành viên nhóm: 1. Lâm long hậu DTH082043 2. Dương văn phim DTH082056 3. Hồ hoài hận DTH0820 4. Nguyền chí tính DTH082060 5. Nguyễn quang sơn DTH072222 BÀI BÁO CÁO NHÓM NGHIÊN CỨU KHOA HỌC Tìm hiểu về Data Mining I.TÓM TẮT: Khai phá dữ liệu (Data mining) là một khái niệm ra ñời vào những năm cuối của thập kỷ 80. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn . Thật ra, khai phá dữ liệu liên quan ñến việc phân tích các dữ liệu và sử dụng các kỹ thuật ñể tìm ra các mẫu hình có tính chính quy trong tập dữ liệu. Hay nó còn là một quá trình trích xuất thông tin có mối quan hệ hoặc có mối tương quan nhất ñịnh từ một kho dữ liệu lớn (cực lớn) nhằm mục ñích dự ñoán các xu thế, các hành vi trong tương lai, hoặc tìm kiếm những tập thông tin hữu ích mà bình thường không thể nhận diện ñược. Ứng dụng của nó rất ña dạng và rộng tới, từ marketing, chống gian lận, giảm giá thành sản xuất, tăng doanh thu, phân tích hành vi sử dung người dùng internet ñể phục vụ ñúng nhu cầu, ñúng ñối tượng hay ứng dụng hỗ trợ ra quyết ñịnh, nghiên cứu khoa học ñến việc chống khủng bố v.v Các công cụ, kỹ thuật data mining có thể trả lời các câu hỏi mà các công cụ truyền thống ñòi hỏi rất nhiều thời gian cần thiết ñể có thể giải ñáp ñược (thậm chí các cách truyền thống không thể giải ñược). Nó có thể tìm thấy ñược những thông tin cực kỳ hữu ích mà rất dễ bị bỏ qua hoặc không xem xét ñến ñể có thể dự ñoán những xu thế/hành ñộng xảy ra trong tương lai. Quá trình khai phá dữ liệu là quá trình phát hiện mẫu trong ñó giải thuật khai phá dữ liệu tìm kiếm các mẫu ñáng quan tâm theo dạng xác ñịnh như các luật, cây phân lớp, hồi quy, phân nhóm, v.v… II.GIỚI THIỆU: Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực của ñời sống, kinh tế xã hội trong nhiều năm qua cũng ñồng nghĩa với lượng dữ liệu ñã ñược các cơ quan thu thập và lưu trữ ngày một tích luỹ nhiều lên. Họ lưu trữ các dữ liệu này vì cho rằng trong nó ẩn chứa những giá trị nhất ñịnh nào ñó. Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ của những dữ liệu này (khoảng từ 5% ñến 10%) là luôn ñược phân tích, số còn lại họ không biết sẽ phải làm gì hoặc có thể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ có cái gì ñó quan trọng ñã bị bỏ qua sau này có lúc cần ñến nó. Mặt khác, trong môi trường cạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc ñộ nhanh ñể trợ giúp việc ra quyết ñịnh và ngày càng có nhiều câu hỏi mang tính chất ñịnh tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ ñã có. Với những lý do như vậy, các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không ñáp ứng ñược thực tế ñã làm phát triển một khuynh hướng kỹ thuật mới ñó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu .Với những ưu ñiểm ñó, khai phá dữ liệu ñang ñược áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và ñời sống khác nhau: marketing, tài chính, ngân hàng và bảo hiểm, khoa học, y tế, an ninh, internet… Kỹ thuật phát hiện tri thức và khai phá dữ liệu ñã và ñang ñược nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương ñối còn mới mẻ tuy nhiên cũng ñang ñược nghiên cứu và dần ñưa vào ứng dụng. III. PHƯƠNG PHÁP NGHIÊN CỨU : Quá trình xử lý khai phá dữ liệu bắt ñầu bằng cách xác ñịnh chính xác vấn ñề cần giải quyết. Sau ñó sẽ xác ñịnh các dữ liệu liên quan dùng ñể xây dựng giải pháp. Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho giải thuật khai phá dữ liệu có thể hiểu ñược. Về lý thuyết thì có vẻ rất ñơn giản nhưng khi thực hiện thì ñây thực sự là một quá trình rất khó khăn, gặp phải nhiều vướng mắc như: các dữ liệu phải ñược sao ra nhiều bản, quản lý các tệp dữ liệu, phải lặp ñi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay ñổi),… Sẽ là quá cồng kềnh với một giải thuật khai phá dữ liệu nếu phải truy cập vào toàn bộ nội dung của cơ sở dữ liệu và làm những việc như trên. Mặt khác ñiều này cũng không cần thiết. Có rất nhiều các giải thuật khai phá dữ liệu thực hiện dựa trên những thống kê tóm tắt khá ñơn giản của cơ sở dữ liệu, khi mà toàn bộ thông tin trong cơ sở dữ liệu là quá dư thừa ñối với mục ñích của việc khai phá dữ liệu. cũng giống như các bạn hãy hình dung thử quá trình tìm kiếm của Google, nó tìm kiếm rất thông minh và nhanh chóng ñó là ưu ñiểm của quá trình xử lý này. Bước tiếp theo là chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc khai phá dữ liệu ñể tìm ñược các mẫu có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa ñó (thường thì ñược biểu diễn dưới dạng các luật xếp loại, cây quyết ñịnh, phát sinh luật, biểu thức hồi quy,…). Ta hãy hình dung nó ñược thực hiện tuần tự như sơ ñồ sau ñây : ðầu tiên nói ñến các phương pháp ta phải kể ñến những phương pháp sau : 1. Phương pháp quy nạp : Phương pháp quy nạp suy ra các thông tin ñược sinh ra từ cơ sở dữ liệu. Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không phải bắt ñầu với các tri thức ñã biết trước. Các thông tin mà phương pháp này ñem lại là các thông tin hay các tri thức cấp cao diễn tả về các ñối tượng trong cơ sở dữ liệu. Phương pháp này liên quan ñến việc tìm kiếm các mẫu trong cơ sở dữ liệu. Ngoài ra khi nói quy nạp thì phải nói ñến sử dụng cây quyết ñịnh và tạo luật. 2. Cây quyết ñịnh và luật : Cây quyết ñịnh: Cây quyết ñịnh là một mô tả tri thức dạng ñơn giản nhằm phân các ñối tượng dữ liệu thành một số lớp nhất ñịnh. Các nút của cây ñược gán nhãn là tên các thuộc tính, các cạnh ñược gán các giá trị có thể của các thuộc tính, các lá miêu tả các lớp khác nhau. Các ñối tượng ñược phân lớp theo các ñường ñi trên cây, qua các cạnh tương ứng với giá trị của thuộc tính của ñối tượng tới lá. Tạo luật: Các luật ñược tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa về mặt thống kê. Các luật có dạng Nếu P thì Q với P là mệnh ñề ñúng với phần dữ liệu trong cơ sở dữ liệu, Q là mệnh ñề dự ñoán. Ví dụ ta có một mẫu phát hiện ñược bằng phương pháp tạo luật: Nếu giá 1 cân táo thấp hơn 5000 ñồng thì số lượng táo bán ra sẽ tăng 5%. Những luật như thế này ñược sử dụng rất rộng rãi trong việc miêu tả tri thức trong hệ chuyên gia. Chúng có thuận lợi là dễ hiểu ñối với người sử dụng. Cho ñến nay, ñã có rất nhiều giải thuật suy diễn sử dụng các luật và cây quyết ñịnh ñược áp dụng trong máy học và trong thống kê. 3. Các phương pháp phân lớp và hồi quy phi tuyến: phương pháp này bao gồm một họ các kỹ thuật dự ñoán ñể làm cho các kết hợp tuyến tính và phi tuyến của các hàm cơ bản (hàm sygmoid, hàm spine, hàm mành, hàm ña thức) phù hợp với các kết hợp của các giá trị biến vào. Các phương pháp thuộc loại này như mạng neuron truyền thẳng, phương pháp mành thích nghi,… do các nhà khoa học (Freidman 1989, Cheng & Titterington 1994, Elder & Pregibon). 4. Mạng neuron: Mạng neuron là một tiếp cận tính toán mới liên quan ñến việc phát triển các cấu trúc toán học với khả năng lọc. Các phương pháp là kết quả của việc nghiên cứu mô hình học của hệ thống thần kinh con người. Mạng neuron có thể ñưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không chính xác và có thể ñược sử dụng ñể chiết xuất các mẫu và phát hiện ra các xu hướng quá phức tạp mà con người cũng như các kỹ thuật máy tính khác không thể phát hiện ñược.Khi ñề cập ñến khai thác dữ liệu, người ta thường ñề cập nhiều ñến mạng neuron. Tuy mạng neuron có một số hạn chế gây khó khăn trong việc áp dụng và triển khai nhưng nó cũng có những ưu ñiểm ñáng kể. Một trong số những ưu ñiểm phải kể ñến của mạng neuron là khả năng tạo ra các mô hình dự ñoán có ñộ chính xác cao, có thể áp dụng ñược cho rất nhiều loại bài toán khác nhau ñáp ứng ñược các nhiệm vụ ñặt ra của khai phá dữ liệu như phân lớp, phân nhóm, mô hình hoá, dự báo các sự kiện phụ thuộc vào thời gian,… Các yếu tố cần phải xác ñịnh khi thiết kế mạng neuron : - Mô hình mạng. - Mạng cần có bao nhiêu nút. - Khi nào thì việc học dừng ñể tránh bị quá tải. Ngoài ra còn các yếu tố quan trọng khác khi xây dựng mạng nueron. 5. Thuật giải di truyền: Giải thuật di truyền, nói theo nghĩa rộng là mô phỏng lại hệ thống tiến hoá trong tự nhiên, chính xác hơn ñó là các giải thuật chỉ ra tập các cá thể ñược hình thành, ñược ước lượng và biến ñổi như thế nào. Nó ñược sử dụng rất rộng rãi trong việc tối ưu hoá các kỹ thuật khai phá dữ liệu. Trên ñây chỉ là một số kỹ thuật phổ biến ñược sử dụng trong DataMining. Ngoài ra còn một số kỹ thuật nữa. mà nhóm chưa ñề cập tới. IV. KẾT QUẢ DỰ KIẾN : Nhờ sự ra ñời của DataMining mà ñã có nhiều mô hình thông minh ñã ra ñời như robot thông minh có khả năng tự ñộng dò tìm. Trong tương lai lĩnh vực Data Mining sẽ không còn mới mẽ ñối với việt nam, ñồng thời sẽ ra ñời hàng loạt các cổ máy siêu nhiên ở việt nam cũng như trên thế giới, nó có khả năng làm những ñiều mà chỉ có trong mơ con người mới làm ñược. V. KẾT LUẬN : Bài viết này mới chỉ là bước ñầu ñể chúng ta hiểu thêm về DataMining, thật ra thì nó vẫn còn khá sơ xài, còn khá chung chung chưa chi tiết lắm. Nhưng nó cũng ñủ ñể các bạn hiểu ñược một phần nào ñó về Data Mining và những ứng dụng tầm quan trọng của nó. Bên cạnh ñó, như ñã trình bày như trên chúng ta thấy có rất nhiều các phương pháp khai phá dữ liệu. Mỗi phương pháp có những ñặc ñiểm riêng phù hợp với một lớp các bài toán với các dạng dữ liệu và miền dữ liệu. với xu hướng phát triển không ngừng của thời ñại, ñể có một sản phẩm như mong muốn không phải là khó. Tuy nhiên ñể tồn tại ñược thì chúng ta cần có những sản phẩm có những tính năng thông minh làm thõa mãn nhu cầu của người dùng. Tất cả ñiều này chúng ta phải kể ñến công lao to lớn của Data Mining. Ngoài ra còn nói thêm, ở Việt nam chúng ta hầu như lĩnh vực này chưa ñược ứng dụng rộng rãi lắm. một lý do ñơn giản ñó là sản phẩm của chúng ta chưa có quy mô chưa lớn, lưu trữ còn nhỏ hẹp. Trong tương lai không xa Data Mining sẽ trở nên phổ biến ở Việt nam, và sẽ có những sản phẩm xứng tầm với các sản phẩm trên thế giới. VI. TÀI LIỆU THAM KHẢO : 1. http://en.wikipedia.org/wiki/Data_mining. 2. Ebook.edu.vn 3. Ddth.com 4. ứng dụng và khai thác dữ liệu của (ths Nguyễn hoàng Tú Anh). 5. Một số nguồn khác… . ñầu ñể chúng ta hiểu thêm về DataMining, thật ra thì nó vẫn còn khá sơ xài, còn khá chung chung chưa chi tiết lắm. Nhưng nó cũng ñủ ñể các bạn hiểu ñược một phần nào ñó về Data Mining và những. Nguyễn quang sơn DTH072222 BÀI BÁO CÁO NHÓM NGHIÊN CỨU KHOA HỌC Tìm hiểu về Data Mining I.TÓM TẮT: Khai phá dữ liệu (Data mining) là một khái niệm ra ñời vào những năm cuối của thập kỷ 80 kỹ thuật phổ biến ñược sử dụng trong DataMining. Ngoài ra còn một số kỹ thuật nữa. mà nhóm chưa ñề cập tới. IV. KẾT QUẢ DỰ KIẾN : Nhờ sự ra ñời của DataMining mà ñã có nhiều mô hình thông

Ngày đăng: 30/07/2014, 13:21

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan