NGHIÊN CỨU TÍNH BẢO MẬT VÀ KHAI PHÁ DỮ LIỆU LỚN BIG DATA MINING TRONG ĐIỆN TOÁN ĐÁM MÂY

31 1.6K 2
NGHIÊN CỨU TÍNH BẢO MẬT VÀ KHAI PHÁ DỮ LIỆU LỚN BIG DATA MINING TRONG ĐIỆN TOÁN ĐÁM MÂY

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Bài thu hoạch cuối kỳ: ĐIỆN TOÁN LƯỚI ĐÁM MÂY Đề tài: NGHIÊN CỨU TÍNH BẢO MẬT VÀ KHAI PHÁ DỮ LIỆU LỚN (BIG DATA MINING) TRONG ĐIỆN TOÁN ĐÁM MÂY Giảng viên phụ trách: PGS.TS. Nguyễn Phi Khứ Học viên: Phạm Thế Sơn MSHV: CH1301033 TP. HỒ CHÍ MINH – 6/2014 MỤC LỤC DANH MỤC HÌNH Điện Toán Lưới Và Đám Mây CHƯƠNG I: TỔNG QUAN Trình bày tổng quan về việc đặt vấn đề để nghiên cứu tìm hiểu tính bảo mật và khai phá dữ liệu lớn (Big Data Mining) trong Điện toán đám mây. Trình bày tình hình ứng dụng Điện toán đám mây trên thế gới và trong nước. I.1 Đặt vấn đề Ngày nay, đối với các công ty, doanh nghiệp, trường học, … (gọi chung là cơ quan/tổ chức), thì việc quản lý tốt, hiệu quả dữ liệu của riêng một tổ chức cũng như dữ liệu khách hàng, đối tác, học sinh – sinh viên là một trong những bài toán được ưu tiên hàng đầu và đang không ngừng gây khó khăn cho . Để có thể quản lý được nguồn dữ liệu đó, ban đầu các cơ quan, tổ chức phải đầu tư, tính toán rất nhiều loại chi phí như chi phí cho phần cứng, phần mềm, mạng, chi phí cho quản trị viên, chi phí bảo trì, sửa chữa, … Ngoài ra, còn phải tính toán khả năng mở rộng, nâng cấp thiết bị; phải kiểm soát việc bảo mật dữ liệu cũng như tính sẵn sàng cao của dữ liệu. Từ một bài toán điển hình như vậy, chúng tôi thấy được rằng nếu có một nơi tin cậy giúp các cơ quan/tổ chức quản lý tốt nguồn dữ liệu đó, thì sẽ không còn quan tâm đến cơ sở hạ tầng, công nghệ mà chỉ tập trung chính vào công việc hoạt động của đơn vị thì sẽ mang lại hiệu quả và lợi nhuận ngày càng cao hơn. Thuật ngữ “Cloud Computing” ra đời bắt nguồn từ một trong những hoàn cảnh như vậy. Công nghệ điện toán đám mây là một thành tựu khoa học tương đương thành tựu của các công nghệ tính toán nhưng nó khác ở chỗ: công nghệ đám mây còn là mô hình dịch vụ mới. Điện toán đám mây cung cấp phương tiện để chia sẻ phần cứng, phần mềm cơ sở hạ tầng lưu trữ, theo một gói phần mềm tiện dụng và phổ biến. Chúng ta có thể truy cập và sử dụng đến các dịch vụ CNTT tồn tại trong “đám mây”. Cấu trúc bên trong các “đám mây” là những cơ sở hạ tầng như phần cứng, phần mềm, mạng, phương thức lưu trữ, bảo trì, backup, v v , được duy trì để cung cấp các dịch vụ đảm bảo khả năng sẵn sàng cao. Phạm Thế Sơn – CH1301033 Điện Toán Lưới Và Đám Mây Dữ liệu và lưu trữ dữ liệu đối với một tổ chức là rất quan trọng và cần được bảo mật. Theo năm tháng, dữ liệu ngày một lớn dần đến một mức gọi là khổng lồ, vậy làm sao con người khai thác, phân tích, sử dụng nó một cách hợp lý là cả một vấn đề cần phải đặt ra và cần phải giải quyết. Do đó, thuật ngữ “Big Data Mining” ra đời bắt nguồn từ một trong những hoàn cảnh như vậy. I.2 Mục tiêu Điện toán đám mây đã chứng tỏ được tầm vóc và vai trò đối với mọi quy mô, và việc an toàn dữ liệu trên mây của một hệ thống luôn cần phải đảm bảo. Ở đây không phải là vấn đề quy mô mà là vấn đề của khối lượng bảo mật, cho biết điều quan trọng là giải pháp bảo mật nội bộ đạt tiêu chuẩn nào và điện toán đám mây có thể cung cấp một dịch vụ tương tự hay không. Vì vậy, mục tiêu thứ nhất của đề tài là nghiên cứu tìm hiểu một số phương pháp vấn đề bảo mật và mã hóa dữ liệu trong Điện toán đám mây. Hơn nữa, nếu chỉ đơn giản là sử dụng đám mây như một giải pháp sao lưu và không có ý định đặt các thông tin nhạy cảm trên mây thì cũng không nên tiết kiệm chi phí cho an ninh dữ liệu. Mã hóa dữ liệu trước khi di chuyển lên mây, mã hóa quá cảnh ở khu vực trung gian, và mã hóa đầu cuối là 3 lớp cơ bản để đảm bảo dữ liệu một cách chắc chắn. Điện toán đám mây (cloud computing) trong tương lai sẽ được ứng dụng để quản lý và xử lý các nguồn dữ liệu lớn, khổng lồ (Big Data), đây sẽ là xu thế mới đồng thời cũng là giải pháp cho các công ty, doanh nghiệp, trường học, …. Mỗi ngày có khoảng 2.5 exabyte (2.5 tỉ tỉ byte) dữ liệu được tạo ra, và con số này hoàn toàn chưa có dấu hiệu ngừng lại. Big Data dùng để chỉ các lượng thông tin cực lớn đó, chúng quá lớn đến nỗi các công ty không thể tự mình lưu trữ, kiểm soát hay phân tích, mà cần nhờ đến công nghệ điện toán đám mây. Vì vậy, mục tiêu thứ hai của đề tài là nghiên cứu tìm hiểu một số thuật toán khai thác dữ liệu lớn (Big Data Mining) trong Điện toán đám mây. Phạm Thế Sơn – CH1301033 Điện Toán Lưới Và Đám Mây I.3 Tình hình phát triển Điện toán đám mây trên thế giới và trong nước I.3.1 Tình hình phát triển trên thế giới Điện toán đám mây (Cloud computing) không còn là điều gì mới mẻ. Bắt nguồn từ điện toán lưới (grid computing) từ những năm 80, điện toán theo nhu cầu (Utility computing) và phần mềm dịch vụ (SaaS), Oracle là nhà tiên phong trong việc triển khai công nghệ này. Hiện nay, điện toán đám mây đang được phát triển và cung cấp bởi nhiều nhà cung cấp, trong đó có Amazon, Google, DataSynapse, Salesforce cũng như các nhà cung cấp truyền thống Microsoft, IBM, HP… Đã được rất nhiều người dùng cá nhân cho đến các công ty lớn như L’Oréal, General Electric, Ebay, Coca-cola… chấp nhận và sử dụng. I.3.2 Tình hình phát triển trong nước Tại Việt Nam, điện toán đám mây mới chỉ thực sự nở rộ trong các dịch vụ cá nhân như lưu trữ file, hạn chế lớn của phần mềm điện toán đám mây là yêu cầu kết nối Internet. Trong điều kiện cơ sở hạ tầng mạng còn chưa tốt như ở Việt Nam, đây thực sự là một thách thức không nhỏ. Ví dụ: ở trong nước, nếu một siêu thị sử dụng phần mềm bán hàng online (trực tuyến), khi không có mạng, nhân viên thu ngân sẽ không thể quét mã vạch để tìm kiếm thông tin giá hàng. Như vậy, kể cả khi có máy tính bỏ túi làm phương án dự phòng, hoạt động kinh doanh cũng sẽ bị đình trệ. IBM là doanh nghiệp tiên phong khai trương trung tâm điện toán đám mây tại Việt Nam vào tháng 9/2008 với khách hàng đầu tiên là là Công ty cổ phần công nghệ và truyền thông Việt Nam (VNTT). Sau đó, Microsoft là một trong những “đại gia” tiếp bước điện toán đám mây ở thị trường Việt Nam, nhưng hiện vẫn đang trong giai đoạn phát triển thử nghiệm (Nguồn: được trích từ website Thông tin Công nghệ, link: http://www.thongtincongnghe.com/article/23640). Phạm Thế Sơn – CH1301033 Điện Toán Lưới Và Đám Mây Tóm lại, về thực trạng ứng dụng điện toán đám mây ở các doanh nghiệp Việt Nam, có thể rút ra kết luận như sau: Hiện nay đã có một vài doanh nghiệp lớn tại Việt Nam đưa điện toán đám mây vào ứng dụng và hiệu suất kinh doanh được cải thiện đáng kể. Tuy nhiên số lượng là khá ít. Phần lớn vẫn chỉ dừng ở mức quan tâm và tìm hiểu. Phạm Thế Sơn – CH1301033 Điện Toán Lưới Và Đám Mây CHƯƠNG II: ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY Chương II trình bày về nguồn gốc của Điện toán lưới và đám mây, những mô hình nghiên cứu, phát triển ứng dụng Điện toán đám mây. II.1 Định nghĩa điện toán đám mây Điện toán đám mây là một giải pháp toàn diện cung cấp Công nghệ Thông tin như một dịch vụ. Nó là một giải pháp điện toán dựa trên Internet, ở đó cung cấp tài nguyên chia sẻ giống như dòng điện được phân phối trên lưới điện [1], [2]. Các máy tính trong các đám mây được cấu hình để làm việc cùng nhau và các ứng dụng khác nhau sử dụng sức mạnh điện toán tập hợp cứ như thể là chúng đang chạy trên một hệ thống duy nhất. Tính linh hoạt của điện toán đám mây là một chức năng phân phát tài nguyên theo yêu cầu. Điều này tạo điều kiện thuận lợi cho việc sử dụng các tài nguyên tích lũy của hệ thống, phủ nhận sự cần thiết phải chỉ định phần cứng cụ thể cho một nhiệm vụ. Trước điện toán đám mây, các trang web và các ứng dụng dựa trên máy chủ đã được thi hành trên một hệ thống cụ thể. Với sự ra đời của điện toán đám mây, các tài nguyên được sử dụng như một máy tính gộp ảo. Cấu hình hợp nhất này cung cấp một môi trường ở đó các ứng dụng thực hiện một cách độc lập mà không quan tâm đến bất kỳ cấu hình cụ thể nào [1], [2]. Tóm lại, Điện Toán Đám mây là mô hình dịch vụ trong đó các tài nguyên như: hardware, platform (OS, DB, Middleware,…), software được chuyển giao và sử dụng theo yêu cầu thông qua môi trường internet. II.2 Quá trình phát triển của Điện toán đám mây Điện toán đám mây là cuộc cách mạng lần 3 trong công nghiệp IT tiếp sau cuộc cách mạng PC thập kỷ 80 và Internet thập kỷ 90. Quá trình phát triển được thể hiện qua [Hình 1]. Phạm Thế Sơn – CH1301033 Điện Toán Lưới Và Đám Mây Hình 1: Mô tả quá trình phát triển của Điện Toán Đám mây II.3 Lợi ích của Điện toán đám mây Chi phí giảm: Điện toán đám mây có thể làm giảm cả chi phí vốn (CapEx) lẫn chi phí vận hành (OpEx) vì các tài nguyên chỉ được mua khi cần và chỉ phải trả tiền khi sử dụng. Giảm người điều hành ứng dụng: Việc sử dụng điện toán đám mây giải phóng đội ngũ nhân viên quý giá cho phép họ tập trung vào việc cung cấp giá trị hơn là duy trì phần cứng và phần mềm. Khả năng mở rộng vững mạnh: Điện toán đám mây cho phép khả năng điều chỉnh quy mô ngay lập tức hoặc tăng lên hoặc giảm xuống, bất cứ lúc nào mà không cần giao kết dài hạn. Tiết kiệm chi phí đầu tư: chi phí mua phần cứng, phần mềm. Tiết kiệm chi phí vận hành: trả theo mức độ sử dụng, giảm chi phí hỗ trợ, vận hành, bảo trì, giảm chi phí nhân công IT. Triển khai áp dụng nhanh hơn và linh hoạt trong việc mở rộng phạm vi ứng dụng. Phạm Thế Sơn – CH1301033 Điện Toán Lưới Và Đám Mây Truy cập dữ liệu và thông tin nhanh hơn và hiệu quả hơn. Chuẩn hóa và tự động hóa quy trình làm việc. Được cập nhật với các nâng cấp mới nhất. II.4 Quan ngại về vấn đề bảo mật của Điện toán đám mây - Việc bảo mật và khả năng đảm bảo tính riêng tư của dữ liệu (chiếm 69%): đây là mối quan ngại hàng đầu của khách hàng khi quyết định sử dụng các dịch vụ điện toán đám mây công cộng. - Chất lượng dịch vụ và năng lực của hệ thống (54%). - Sự nghi ngờ về khả năng thực sự tiết kiệm được chi phí so với mô hình triển khai truyển thống (53%). - Tính sẵn sàng của hệ thống khi triển khai trên mạng internet (52%): khi triển khai trên mạng thì sẽ có nhiều rủi ro dẫn đến việc gián đoạn đường truyền. - Khó khăn trong việc tích hợp với các hệ thống IT hiện có của doanh nghiệp (47%). II.5 Mô hình Điện toán đám mây Mô hình điện toán đám mây gồm có một mặt trước (front end) và một mặt sau (back end). Hai thành phần này được kết nối thông qua một mạng, trong đa số trường hợp là Internet. - Phần mặt trước là phương tiện chuyên chở qua đó người dùng tương tác với hệ thống; phần mặt sau chính là đám mây. Phần mặt trước gồm có một máy tính khách hoặc mạng máy tính của doanh nghiệp và các ứng dụng được sử dụng để truy cập vào đám mây. - Phần mặt sau cung cấp các ứng dụng, các máy tính, các máy chủ và lưu trữ dữ liệu để tạo ra đám mây của các dịch vụ. Mô hình Điện toán đám mây là mô hình điện toán với sự cân bằng động và các tài nguyên ảo hóa được cung cấp như dịch vụ trên mạng Internet. Trong Điện toán đám mây, người sử dụng truy cập các dịch vụ tính toán từ nhà cung cấp nào đó “trong đám mây” mà không cần phải có các kiến thức và kinh Phạm Thế Sơn – CH1301033 [...]... CH1301033 Điện Toán Lưới Và Đám Mây CHƯƠNG III: BẢO MẬT VÀ KHAI PHÁ DỮ LIỆU LỚN TRONG ĐIỆN TOÁN ĐÁM MÂY Trong Chương III, giới thiệu, trình bày về những vấn đề an toàn - bảo mật, và khai phá dữ liệu lớn (big data mining) trong Điện toán đám mây III.1 Bảo mật và An toàn trên điện toán đám mây III.1.1 Vấn đề an toàn liên quan đến kiến trúc của điện toán đám mây Một đám mây điện tử là một cụm máy tính kết... toàn, chi phí và hiệu năng của hệ thống Nhiều khía cạnh khác liên quan đến quản lí an toàn cũng như các cơ quan quản lí an toàn đám mây III.2 Khai phá dữ liệu lớn (Big Data Mining) trong Điện toán đám mây Dữ liệu lớn (Big Data) là một tính năng vốn có của công nghệ điện toán đám mây và cung cấp cơ hội chưa từng có khi sử dụng cả hai loại cơ sở dữ liệu truyền thống và mạng xã hội và dữ liệu của mạng... định trong cơ sở dữ liệu lớn Cây quyết định được đánh giá cao trong khai phá dữ liệu lớn vì chính xác trong phân lớp, có thể sử dụng truy vấn SQL để truy xuất cơ sở dữ liệu, không có giới hạn cho khối lượng dữ liệu đầu vào cũng như số lượng thuộc tính III.2. 3Khai phá dữ liệu lớn bằng phương pháp K-mean Thuật toán phân hoạch K-means do MacQuean đề xuất trong lĩnh vực thống kê năm 1967 Đây là thuật toán. .. triển Điện toán đám mây còn rất mới và còn tiềm năng phát triển và ứng dụng, vấn đề an toàn của đám mây cần được nghiên cứu tiếp tục để ngày càng trở nên an toàn hơn Mặt khác, sử dụng đám mây như thế nào cho có lợi, cân bằng giữa lợi ích và tính an toàn là sự tính toán của các nhà cung cấp Điện toán đám mây còn được phát triển lên đám mây di động (mobile cloud), như là: Apple iCloud, Amazon Cloud và dịch.. .Điện Toán Lưới Và Đám Mây nghiệm về công nghệ đó cũng như không quan tâm đến các cơ sở hạ tầng phục vụ công nghệ đó Hình 2: Mô hình Điện toán đám mây II.5.1 Các khối xây dựng của điện toán đám mây Khái niệm điện toán đám mây được xây dựng trên các tầng, mỗi tầng cung cấp một mức chức năng riêng Sự phân tầng này của các thành phần đám mây đã cung cấp một phương tiện cho các tầng của điện toán đám mây. .. chính là dữ liệu - lớn Dữ liệu lớn có ba đặc trưng cơ bản: dung lượng lớn, vận tốc lớn và tính đa dạng Phạm Thế Sơn – CH1301033 Điện Toán Lưới Và Đám Mây - Dữ liệu lớn không chỉ là thách thức dành cho tổ chức và doanh nghiệp; hơn thế, dữ liệu lớn là cơ hội để tìm kiếm những thông tin chiến lược từ những dạng dữ liệu mới, để bảo đảm rằng công việc kinh doanh bền vững, có hiệu quả hơn, và cũng là cơ hội để... có thuộc tính số và khám phá ra các cụm có dạng hình cầu, K-mean còn rất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu Phạm Thế Sơn – CH1301033 Điện Toán Lưới Và Đám Mây CHƯƠNG IV: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN IV.1 Kết luận Trong thời đại này, điện toán đám mây có thể cung cấp cho các tổ chức phương tiện và các phương pháp cần thiết để đảm bảo sự ổn định tài chính và dịch vụ chất lượng cao... các tài nguyên chia sẻ và gửi hóa đơn tính cước trên cơ sở tính toán việc sử dụng Phạm Thế Sơn – CH1301033 Điện Toán Lưới Và Đám Mây Các đám mây riêng tư: tồn tại bên trong tường lửa của công ty bạn và do tổ chức của bạn quản lý Chúng là các dịch vụ đám mây do bạn tạo ra và kiểm soát trong doanh nghiệp của mình Các đám mây riêng tư cũng cung cấp nhiều lợi ích tương tự như các đám mây công cộng, sự khác... nếu họ cho phép cập nhật tới cơ sở dữ liệu hoặc dữ liệu không có cấu trúc III.2.2 Khai phá dữ liệu bằng phân lớp dữ liệu III.2.2.1 Khái niệm sự phân lớp Phân lớp dữ liệu là gán các mẫu mới vào các lớp với độ chính xác cao nhất để dự đoán những nhãn phân lớp cho các bộ dữ liệu (mẫu) mới Đầu vào: - Một tập các mẫu dữ liệu huấn luyện, với một nhãn phân lớp cho mỗi mẫu dữ liệu Đầu ra: - Mô hình dự đoán (bộ... an toàn trên đám mây từ góc độ kiến trúc và dịch vụ của điện toán đám mây Phần này xin đề cập đến một số khía cạnh về quản lí, vốn không thể tách rời với kỹ thuật nhằm đảm bảo cho sự áp dụng chính sách bảo mật đúng đắn, cộng tác và có trách nhiệm giữa các bên có liên quan trong điện toán đám mây Nghiên cứu về quản lí an toàn trên đám mây là rất phức tạp vì nó liên quan đến số lượng lớn người có liên . Điện Toán Lưới Và Đám Mây CHƯƠNG III: BẢO MẬT VÀ KHAI PHÁ DỮ LIỆU LỚN TRONG ĐIỆN TOÁN ĐÁM MÂY Trong Chương III, giới thiệu, trình bày về những vấn đề an toàn - bảo mật, và khai phá dữ liệu lớn. HÌNH Điện Toán Lưới Và Đám Mây CHƯƠNG I: TỔNG QUAN Trình bày tổng quan về việc đặt vấn đề để nghiên cứu tìm hiểu tính bảo mật và khai phá dữ liệu lớn (Big Data Mining) trong Điện toán đám mây. . NGHỆ THÔNG TIN Bài thu hoạch cuối kỳ: ĐIỆN TOÁN LƯỚI ĐÁM MÂY Đề tài: NGHIÊN CỨU TÍNH BẢO MẬT VÀ KHAI PHÁ DỮ LIỆU LỚN (BIG DATA MINING) TRONG ĐIỆN TOÁN ĐÁM MÂY Giảng viên phụ trách: PGS.TS. Nguyễn

Ngày đăng: 19/05/2015, 21:14

Từ khóa liên quan

Mục lục

  • CHƯƠNG I: TỔNG QUAN

    • I.1 Đặt vấn đề

    • I.2 Mục tiêu

    • I.3 Tình hình phát triển Điện toán đám mây trên thế giới và trong nước

      • I.3.1 Tình hình phát triển trên thế giới

      • I.3.2 Tình hình phát triển trong nước

      • CHƯƠNG II: ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY

        • II.1 Định nghĩa điện toán đám mây

        • II.2 Quá trình phát triển của Điện toán đám mây

        • II.3 Lợi ích của Điện toán đám mây

        • II.4 Quan ngại về vấn đề bảo mật của Điện toán đám mây

        • II.5 Mô hình Điện toán đám mây

          • II.5.1 Các khối xây dựng của điện toán đám mây

            • II.5.1.1 Tầng cơ sở hạ tầng là nền tảng của đám mây

            • II.5.1.2 Tầng giữa là nền tảng hệ thống

            • II.5.1.3 Tầng trên cùng là tầng ứng dụng

            • II.5.2 Các cách hình thành đám mây

            • CHƯƠNG III: BẢO MẬT VÀ KHAI PHÁ DỮ LIỆU LỚN TRONG ĐIỆN TOÁN ĐÁM MÂY

              • III.1 Bảo mật và An toàn trên điện toán đám mây

                • III.1.1 Vấn đề an toàn liên quan đến kiến trúc của điện toán đám mây

                  • III.1.1.1 An ninh ở mức hạ tầng

                  • III.1.1.2 An ninh ở mức dịch vụ nền tảng

                  • III.1.1.3 An ninh ở mức dịch vụ phần mềm

                  • III.1.2 Vấn đề quản lí an toàn hệ thống

                  • III.2 Khai phá dữ liệu lớn (Big Data Mining) trong Điện toán đám mây

                    • III.2.1 Big Data

                    • III.2.2 Khai phá dữ liệu bằng phân lớp dữ liệu

                      • III.2.2.1 Khái niệm sự phân lớp

                      • III.2.2.2 Quá trình phân lớp

                      • III.2.2.3 Các kỹ thuật phân lớp

Tài liệu cùng người dùng

Tài liệu liên quan