tìm hiểu và đánh giá một số hệ thống hỗ trợ lưu trữ lớn

58 970 11
tìm hiểu và đánh giá một số hệ thống hỗ trợ lưu trữ lớn

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TÓM TẮT Nhu cầu cần mở rộng lưu trữ dữ liệu đang song hành với sự phát triển của công nghệ hiện nay. Để đáp ứng nhu cầu, các hệ thống hỗ trợ xử lý dữ liệu được ra đời và phát triển. Bằng phương pháp nghiên cứu và thực nghiệm, khóa luận trình bày về vấn đề mở rộng lưu trữ dữ liệu bằng các hệ thống file hỗ trợ xử lý dữ liệu lớn. Đầu tiên, khóa luận đưa ra vấn đề tại sao cần mở rộng lưu trữ dữ liệu, và lợi ích của việc dùng các hệ thống file để hỗ trợ việc xử lý lưu trữ. Tiếp theo đó, khóa luận giới thiệu một số hệ thống điển hình hiện nay; ở phần này, chúng ta sẽ thấy các hệ thống hỗ trợ đang được sử dụng trong nhiều mạng máy tính lớn và nổi tiếng trên thế giới . Phần cuối, khóa luận nghiên cứu và đánh giá một số hệ thống điển hình như GlusterFS, Global File System, Hadoop. Mỗi hệ thống sẽ đưa ra các thông tin về cài đặt, cấu hình, sử dụng và một số thông tin liên quan tới hệ thống. Phần đánh giá sẽ dựa trên kết quả thực nghiệm cài đặt và sử dụng hệ thống. i MỤC LỤC TÓM TẮT i MỤC LỤC ii LỜI MỞ ĐẦU iii KÍ HIỆU VIẾT TẮT v CHƯƠNG 1 vi GIỚI THIỆU vi CHƯƠNG 2 viii GIỚI THIỆU MỘT SỐ HỆ THỐNG LƯU TRỮ DỮ LIỆU LỚN HIỆN NAY viii CHƯƠNG 3. xi TÌM HIỂU MỘT SỐ HỆ THỐNG ĐIỂN HÌNH xi CHƯƠNG 4 xlv ĐÁNH GIÁ HIỆU NĂNG CÁC HỆ THỐNG xlv KẾT LUẬN xlviii PHỤ LỤC xlix TÀI LIỆU THAM KHẢO lviii ii LỜI MỞ ĐẦU Nhu cầu về lưu trữ dữ liệu của con người trên tất cả mọi mặt: ngân hàng, tài chính, bảo hiểm, viễn thông, vận tải,giải trí, kinh doanh trực tuyến, điện lực, khoa học, quân sự, quốc phòng… ngày càng lớn, và tăng nhanh một cách không giới hạn. Các phương tiện, thiết bị lưu trữ thông thường (đĩa từ, băng từ,…) dần không thể lưu trữ hết được khối dữ liệu khổng lồ của con người. Tất yếu con người phải nghĩ và nghiên cứu ra các phương pháp để lưu trữ dữ liệu đáp ứng nhu cầu của mình. Nguy cơ do các sự cố như: mất trộm, hỏa hoạn, động đất, lũ lụt… sẽ làm dữ liệu của chúng ta có thể bị mất. Đối với một số ngành như ngân hàng, tài chính, khoa học, an ninh, quốc phòng… thì việc mất dữ liệu gây thiệt hại lớn. Lần nữa, vấn đề dữ liệu, buộc con người phải tìm cách để có thể khôi phục được dữ liệu hay có thể đặt dữ liệu tại một nơi an toàn. Với các nhu cầu về lưu trữ dữ liệu; cùng với sự tò mò, ham mê nghiên cứu của con người, đã có nhiều phương pháp lưu trữ dữ liệu ra đời và phát triển như: tăng thiết bị lưu trữ, cải tiến thiết bị lưu trữ, các hệ thống file có khả năng mở rộng lưu trữ lớn, mô hình server-client… Trên thế giới, vấn đề về lưu trữ dữ liệu và an toàn dữ liệu được quan tâm một cách đặc biệt. Nhưng tại Việt Nam, các vấn đề này, mới chỉ dừng ở mức nêu vấn đề chứ chưa có một nghiên cứu, triển khai đáng kể nào. Khóa luận này, em xin trình bày nghiên cứu về một số hệ thống hỗ trợ xử lý dữ liệu lớn. Với hi vọng có thể ứng dụng vào một hệ thống thực sự trong tương lai. Khóa luận được trình bày theo bố cục: Chương 1 trình bày sự cần thiết và ý nghĩa của việc mở rộng lưu trữ dữ liệu. Chương 2 giới thiệu một số hệ thống lưu trữ dữ liệu lớn hiện nay như: Lustre, Goole File System, Global File System,…. Chương 3 tìm hiểu chi tiết về từng hệ thống. Do thời hạn về thời gian, nên khóa luận chỉ nghiên cứu 3 hệ thống điển hình là: Hadoop, Global File System, GlusterFS. Trong chương này, sẽ trình bày về ý nghĩa thực tiễn của từng hệ thống, cấu trúc cũng như cách vận hành hệ thống. iii Chương 4 đưa ra kết quả thực nghiệm và đánh giá các hệ thống tìm hiểu được ở chương 3. Em xin chân thành cảm ơn thầy giáo hướng dẫn TS.Nguyễn Trí Thành đã tận tình hướng dẫn, cho em những định hướng và ý kiến quý báu trong suốt quá trình làm khóa luận. Em xin chân thành cảm ơn tất cả các thầy cô giáo trong trường Đại học Công nghệ- ĐHQG Hà Nội, đã giảng dạy, giúp đỡ em trong suốt quá trình học tập tại trường. Hà Nội, ngày 22 tháng 5 năm 2009 Sinh viên Đào Thị Thảo. iv KÍ HIỆU VIẾT TẮT Từ viết tắt Từ gốc Nghĩa tiếng việt ACL Access Control List Danh sách điều khiển truy cập CLVM Cluster Logical Volume Manager Trình quản lý phân vùng logic của Cluster DLM Distributed Lock Manager Trình quản lý sự phân phối DN Doanh Nghiệp Doanh Nghiệp GFS Global File System Hệ thống file Global GlusterFS Gluster File System Hệ thống file gluster GNBD Global Network Block Device Thiết bị chặn mạng toàn cầu GPFS General Parallel File System Hệ thống file xử lý song song của IBM GULM Grand Unified Lock Manager Trình quản lý khóa Grand Unified HDF Hadoop Distributed File System Hệ thống file được phân tán Hadoop PVFS Parallel Virtual File System Hệ thống file ảo song song RDMA Remote Direct Memory Access Truy cập bộ nhớ định hướng từ xa SAN Storage Area Network Mạng vùng lưu trữ v CHƯƠNG 1. GIỚI THIỆU Các hoạt động của con người đặc biệt là các hoạt động kinh doanh của các doanh nghiệp (DN) ngày càng phát triển đi cùng sự phát triển của Thương Mại Điện Tử và các ứng dụng Multimedia đã làm cho nhu cầu lưu trữ ngày càng phát triển và cao hơn. Ngoài các phương thức sao lưu truyền thống như dùng Flashdisk, CD, DVD chỉ dành cho các dữ liệu có dung lượng nhỏ phù hợp cho người sử dụng cuối và gia đình nhỏ thì đối với yêu cầu lưu trữ dữ liệu có dung lượng lớn thì phải dùng đến các thiết bị phần cứng riêng biệt khác. Bên cạnh khả năng lưu trữ, DN cũng đòi hỏi khả năng sao lưu các dữ liệu quan trọng của họ tốt hơn nhằm đảm bảo dữ liệu luôn được bảo về an toàn, hiệu quả. Đặc biệt là đối với các trung tâm dữ liệu thường có các ứng dụng nghiệp vụ khác nhau chạy trên những nền tảng các hệ điều hành khác nhau như Windows, Linux, Unix,…luôn đòi hỏi mức độ lưu trữ, sao lưu có một độ tin cậy cao nhất. Lưu trữ, sao lưu trực tiếp hay thông qua hệ thống mạng LAN là những phương thức chủ yếu mà các DN hay dùng. Và lưu trữ như thế nào nhằm đảm bảo nguồn dữ liệu đó có thể được phục hổi nhanh chóng sau những sự cố như cháy nổ, động đất, khủng bố là yêu cầu mà các DN lớn luôn đòi hỏi nhằm đảm bảo cho hoạt động của mình. Vì vậy, sớm hay muộn thì các DN cũng sẽ có nhu cầu cần phải mở rộng dung lượng bộ nhớ để lưu giữ các loại dữ liệu của mình như: thư điện tử, tài liệu, cơ sở dữ liệu, đồ thị, các tệp dữ liệu ở dạng âm thanh, hình ảnh, hay các bảng tính…. (những nhân tố quyết định sự thành công của phần lớn các DN). Bên cạnh đó, những xu thế và yêu cầu phát triển mới cũng là yếu tố kích thích làm cho các DN luôn cảm thấy thiếu dung lượng nhớ cần thiết cho việc lưu trữ dữ liệu của mình và có nhu cầu cấp bách cần phải mở rộng dung lượng hệ thống lưu trữ dữ liệu. Ví dụ như: - Các quy định gần đây của chính phủ (như quy định Sarbanes-Oxley) đòi hỏi các DN phải duy trì và sao lưu rất nhiều loại dữ liệu mà rất có thể là họ sẽ xóa đi nếu như không có những quy định này. - Vì các lý do mang tính pháp lý, nhiều DN hiện nay phải tổ chức lưu trữ các tin nhắn và thư điện tử trong vòng 5 năm hoặc nhiều hơn nữa. vi - Khả năng xâm nhập, sự hoành hành của các loại virus máy tính và các phần mềm gián điệp (spyware) buộc các DN phải thực hiện sao lưu các dữ liệu của mình một cách ‘cảnh giác’ hơn và do đó đòi hỏi dung lượng lưu trữ dữ liệu lớn hơn nhiều. - Nhu cầu ngày càng cao của con người về việc lưu trữ các tệp đa phương tiện (Multimedia) có kích thước lớn như các tệp phim, video, và mong muốn nâng cao khả năng truy cập thông tin của người sử dụng cũng là yếu tố đẩy mạnh nhu cầu tìm kiếm các giải pháp hiện đại và hoàn thiện phục vụ cho mục tiêu lưu trữ dữ liệu. Không chỉ có các DN cần thiết phải mở rộng dung lượng lưu trữ, mà còn có các trung tâm nghiên cứu khoa học, bộ quốc phòng, ….cũng cần mở rộng dung lượng nhớ để lưu trữ khối dữ liệu khổng lồ của họ như NASA, FBI, Từ những yêu cầu cần thiết của con người về mở rộng dung lượng lưu trữ, đặt ra vấn đề cần nghiên cứu các giải pháp để mở rộng dung lượng nhớ. Hiện nay, có nhiều phương pháp để mở rộng dung lượng lưu trữ như: mở rộng thiết bị lưu trữ (các ổ đĩa lưu động, ổ cứng ngoài, thiết bị lưu trữ của NetGear, IOMEGA, Buffalo…), lưu trữ trên các hệ thống mạng trực tuyến, lưu trữ trên mạng máy tính… Các phương pháp đó mà kết hợp với các hệ thống file lưu trữ lớn thì mang lại kết quả cao hơn rất nhiều. Vì các hệ thống file lưu trữ không chỉ giúp cho việc tăng dung lượng nhớ gấp nhiều lần mà còn giúp cho việc tăng khả năng truy xuất dữ liệu. Đã có nhiều nghiên cứu về các giải pháp mở rộng dung lượng lưu trữ, nhưng vấn đề về các hệ thống file lưu trữ lớn, ở nước ta hiện nay, vẫn chưa được quan tâm, phổ biến. Vì vậy, khóa luận này, em chọn đề tài nghiên cứu về các hệ thống lưu trữ lớn. Chương 2, khóa luận giới thiệu về một số hệ thống đang được sử dụng hiện nay. vii CHƯƠNG 2. GIỚI THIỆU MỘT SỐ HỆ THỐNG LƯU TRỮ DỮ LIỆU LỚN HIỆN NAY 2.1. IBM General Parallel File System (GPFS) GPFS là một giải pháp quản lý file có thể mở rộng sự thực thi cao, nó cung cấp truy cập nhanh, tin cậy tới một tập hợp file dữ liệu từ một máy đơn tới hàng trăm hệ thống [11]. GPFS tích hợp vào trong môi trường bằng cách hợp lại lẫn lộn máy chủ và các thành phần lưu trữ để cung cấp một cái nhìn thông thường tới file dữ liệu doanh nghiệp. GPFS cung cấp quản lý lưu trữ trực tuyến, có thể mở rộng truy cập và tích hợp thông tin về vòng đời các công cụ có khả năng quản lý hàng petabyte dữ liệu và hàng tỷ file. Và GPFS được phát triển bởi IBM. 2.2. Parallel Virtual File System (PVFS) PVFS là hệ thống file song song mã nguồn mở. PVFS mang các khái niệm vào/ra song song tiên tiến tới các sản phẩm hệ thống song song [12]. Nó được thiết kế để mở rộng lưu trữ tới hàng petabytes và cung cấp tốc độ truy cập khoảng 100s của GB/s. Ngoài ra, PVFS còn được thiết kế để cung cấp sự thực thi cao cho các ứng dụng song song, nơi thực hiện cùng lúc, lượng vào/ra lớn và sự truy cập nhiều file là phổ biến. PVFS cung cấp chức năng phân phối vào/ra và metadata, và cho phép mở rộng tới hàng tera thiết bị đầu trên và hàng peta hệ thống. 2.3. Lustre (file system) Lustre là một đĩa hệ thống tập tin được chia sẻ, thường được sử dụng cho cụm máy tính có quy mô lớn [13]. Tên Lustre là do sự kết hợp từ của Linux và cluter. Nó nhằm tới cung cấp một hệ thống file cho các cụm hàng chục hàng ngàn các máy với khả năng lưu trữ hàng petabyte mà không có sự thỏa hiệp về tốc độ và bảo mật. Lustre hiện có sẵn dưới GNU GPL. Lustre được thiết kế và phát triển, bảo trì bởi Sun Microsystems. Các hệ thống file Lustre được sử dụng trong các cụm máy tính khác nhau từ các cụm làm việc nhỏ tới các cụm quy mô lớn và nhiều trang web. 15 của 30 supercomputer hàng đầu trên thế giới sử viii dụng hệ thống file Lustre, bao gồm cả supercomputer nhanh nhất thứ hai trên thế giới Blue Gene/L tại Lawrence Livermore National Laboratory (LLNL). Ngoài ra còn có các supercomputer tại Oak Ridge National Laboratory, Pacific Northwest National Laboratory và Nasa cũng sử dụng hệ thống file Lustre. Hệ thống file Lustre có thể hỗ trợ tới hàng chục hàng nghìn các hệ thống khách, lưu trữ hàng petabyte và hoạt động vào/ra lên tới hàng trăm gigabyte trên giây (BG/s). Các nhà kinh doanh bao gồm từ các nhà cung cấp dịch vụ Internet tới các tổ chức cơ quan tài chính lớn đều triển khai hệ thống Lustre cho các trung tâm dữ liệu của họ. 2.4. Google File System Google File System là một hệ thống file phân tán được mở rộng cho các ứng dụng đòi hỏi dữ liệu được phân tán lớn [14]. Nó cung cấp dung sai lỗi trong khi chạy trên các phần cứng giá rẻ nhưng có khả năng cho tốc độ thực thi nhanh tới một lượng lớn các client. Nó được triển khai rộng rãi trong Google, như là nền tảng lưu trữ cho các thế hệ và các quá trình xử lý dữ liệu được sử dụng bởi các dịch vụ của Google, cũng như nghiên cứu và phát triển các lỗ lực mong muốn có các tập hợp dữ liệu lớn. Cluster lớn nhất ngày nay của Google, cung cấp hàng trăm terabyte lưu trữ qua hàng nghìn ổ đĩa trên một nghìn máy, và đồng thời được truy cập bởi hàng trăm khách hàng. Trái ngược với nhiều hệ thống tập tin, Goolge File System không được thực hiện trong hạt nhân của hệ điều hành, nhưng thay vì đó nó được cung cấp như là một thư viện userspace. 2.5. Hadoop Hadoop là một nền tảng phần mềm mã nguồn mở, nó cho phép viết và chạy các chương trình xử lý số lượng lớn dữ liệu một cách dễ dàng. Hadoop được xây dựng như cở sở hạ tầng cho dự án của Nutch [2][3]. Nutch crawl web và xây dựng công cụ tìm kiếm chỉ mục cho các trang được crawl. Cả Hadoop và Nutch đều là thành phần của dự án Lucene và Apache. Hadoop đã được kiểm chứng trên các cụm với 2000 node. Hiện tại Hadoop đang được thiết kế với mục tiêu là các cụm có thể chứa 10 000 node. 2.6. GlusterFS GlusterFS là một hệ thống file cluter mã nguồn mở có khả năng mở rộng tới hàng peta-byte [1]. Nó gộp nhiều khối lưu trữ thống qua Infiniband RDMA hoặc kết nối ix TCP/IP trong một mạng hệ thống file song song lớn. Các khối lưu trữ có thể được tạo ra trong bất cứ phần cứng thương mại nào như máy chủ x86-64 với SATA-II RAID và Infiniband HBA. GlusterFS gộp nhiều đơn vị lưu trữ độc lập trong một server lưu trữ lớn để mở rộng hàng peta-byte và cho hàng nghìn khách hàng. Mỗi đơn vị lưu trữ có CPU, bộ nhớ, bus I/O, lưu trữ RAID và giao diện kết nối của chính nó. GlusterFS được thiết kế cho việc mở rộng tuyến tính để các cụm lưu trữ có kích thước rất lớn. 2.7. Global File System (Red Hat GFS) Red Hat GFS là hệ thống file cluster mã nguồn mở và trình quản lý phân vùng trên các máy chủ Red Hat Enterprise Linux được gắn tới mạng lưu trữ (Storage Area Network - SAN) [4]. Nó làm cho một cluster các máy chủ Linux có thể chia sẻ dữ liệu trong một vùng lưu trữ chung, cung cấp hình ảnh hệ thống file nhất quán giữa các máy chủ trong cụm. Red Hat GFS làm việc trên tất cả các máy chủ chuyên dụng và nền tảng lưu trữ được hỗ trợ bởi Red Hat. Red Hat GFS ngày nay được hỗ trợ bởi Oracle, EMC và NetApp. Do giới hạn về thời gian, nên khóa luận chỉ nghiên cứu một số hệ thống điển hình là: Hadoop, GlusterFS, Global File System. Đây cũng là nội dung được đề cập ở chương 3. x [...]... Trước khi cài đặt một hệ thống file GFS, thì hệ thống file đó phải tồn tại, phân vùng chứa hệ thống file đó phải được kích hoạt và các hỗ trợ clustering và các hệ thống locking xxx phải được bật Sau khi những yêu cầu đã được đáp ứng, có thể gắn kết GFS hệ thống tập tin như bất kỳ hệ thống tập tin Linux Để vận dụng các file ACL, phải gắn hệ thống file với tùy chọn –o acl Nếu một hệ thống file không được... đây: - Số lượng các hệ thống file - Xác định xem có bao nhiêu GFS để tạo ra hệ thống tập tin ban đầu - Tên hệ thống file - Xác định một tên duy nhất cho mỗi hệ thống tập tin Mỗi tập tin hệ thống tên là bắt buộc trong mẫu của một tham số biến - Nhật kí - Xác định số nhật kí của các hệ thống file GFS với mỗi máy cài đặt hệ thống file GFS cần phải có một nhật kí Chắc chắn rằng tài khoản đã được thêm vào... kiện cho một hệ thống file - Điều khiển vào/ra - Nhật kí dữ liệu - Cập nhật cấu hình - Hoãn hoạt động trên một hệ thống file - Hiển thị các thông tin GFS mở rộng và các thống kê xxvi - Sửa một hệ thống file 3.2.5 Cài đặt, cấu hình và sử dụng hệ thống 3.2.5.1 Cài đặt 3.2.5.1.1 Thông tin trước khi cài đặt GFS Trước khi cài đặt và thiết lập GFS, cần phải chú ý một số đặc điểm chính của các hệ thống file... 3.2.5.3.3 Umount hệ thống file Hệ thống file GFS có thể được gỡ ra tương tự như các hệ thống file Linux – sử dụng lệnh umount Chú ý: lệnh umount là một lệnh hệ thống của Linux Cấu trúc lệnh: umount MountPoint MountPoint: Chỉ định thư mục nơi hệ thống file GFS đã được gắn vào 3.2.5.3.4 Phát triển một hệ thống file Lệnh gfs_grow được sử dụng để mở rộng một hệ thống file GFS sau khi thiết bị nơi hệ thống file... hàng - Đơn giản hoá việc sao lưu và khôi phục thảm họa (chỉ có một hệ thống tập tin để sao lưu hoặc phục hồi) - Tối đa hóa việc sử dụng các nguồn tài nguyên lưu trữ, giảm thiểu chi phí quản lý lưu trữ - Quy mô các cụm liền mạch bằng cách thêm các máy chủ hoặc thiết bị lưu trữ trong khi hệ thống vẫn đang hoạt động - Thêm vào cụm máy chủ đơn giản bằng cách gắn nó vào hệ thống tập tin thông thường 3.2.2... trên hệ thống file đó thì sẽ bị mất hết dữ liệu mà không được hỏi ý kiến 3.2.7 Các ứng dụng của hệ thống GFS - Oracle: sử dụng GFS trong các giải pháp Oracle RAC - EMC: hỗ trợ GFS để phục vụ cho các hệ thống lưu trữ trên mạng EMC CLARIION(R), các giải pháp hệ thống lưu trữ EMC Celerra(R) iSCSI - NetApp: dùng GFS để hỗ trợ các giải pháp giao diện SAN 3.3 HỆ THỐNG GLUSTERFS 3.3.1 Tổng quan GlusterFS là hệ. .. trữ thống qua Infiniband RDMA hoặc kết nối TCP/IP trong một mạng hệ thống file song song lớn Các khối lưu trữ có thể được tạo ra trong bất cứ phần cứng thương mại nào như máy chủ x86-64 với SATA-II RAID và Infiniband HBA GlusterFS gộp nhiều đơn vị lưu trữ độc lập trong một server lưu trữ lớn để mở rộng hàng peta-byte và cho hàng nghìn khách hàng Mỗi đơn vị lưu trữ có CPU, bộ nhớ, bus I/O, lưu trữ RAID... cập vào tất cả các khối thiết bị lưu trữ như thế nào Các file dữ liệu khách và các hệ thống file có thể được chia sẻ với GFS trên từng máy khách xxv Hình 3.7 Mô hình hệ thống GFS với tiêu chí kinh tế và hiệu suất 3.2.4 Các chức năng của GFS GFS là một hệ thống file nguyên thủy có giao diện trực tiếp với lớp VFS của giao diện file nhân hệ thống Linux GFS là một hệ thống file cụm dùng để phân bố số lượng... trúc hệ thống GFS được thiết kế và triển khai phù hợp với các tiêu chí về hiệu quả hoạt động, mở rộng, và kinh tế Nếu theo tiêu chí hiệu suất và mở rộng cao, thì nên thiết kế hệ thống theo mô hình các ứng dụng truy cập trực tiếp vào nơi lưu trữ sau: Hình 3.5 Mô hình tăng hiệu suất và khả năng mở rộng của hệ thống GFS GFS với một SAN cung cấp sự thực thi file nhanh hơn cho các file chia sẻ và các hệ thống. .. GlusterFS là hệ thống file cụm, có thể chạy trên các phần cứng thương mại Nó cung cấp khả năng nhiều lần mở rộng và hiệu suất của việc lưu trữ Nó có kiến trúc theo module (thành phần), có thể xếp chồng (stackable) và nhân độc lập Chính kiến trúc này làm cho khách hàng dễ dàng cài đặt, quản lý và hỗ trợ trên các hệ điều hành khác nhau Nhiều hệ thống lưu trữ có thể được tạo thành nhóm với nhau, hỗ trợ hàng . vi CHƯƠNG 2 viii GIỚI THIỆU MỘT SỐ HỆ THỐNG LƯU TRỮ DỮ LIỆU LỚN HIỆN NAY viii CHƯƠNG 3. xi TÌM HIỂU MỘT SỐ HỆ THỐNG ĐIỂN HÌNH xi CHƯƠNG 4 xlv ĐÁNH GIÁ HIỆU NĂNG CÁC HỆ THỐNG xlv KẾT LUẬN xlviii PHỤ. cứu và đánh giá một số hệ thống điển hình như GlusterFS, Global File System, Hadoop. Mỗi hệ thống sẽ đưa ra các thông tin về cài đặt, cấu hình, sử dụng và một số thông tin liên quan tới hệ thống. . rộng lưu trữ dữ liệu bằng các hệ thống file hỗ trợ xử lý dữ liệu lớn. Đầu tiên, khóa luận đưa ra vấn đề tại sao cần mở rộng lưu trữ dữ liệu, và lợi ích của việc dùng các hệ thống file để hỗ trợ

Ngày đăng: 02/07/2014, 21:37

Từ khóa liên quan

Mục lục

  • TÓM TẮT

  • MỤC LỤC

  • LỜI MỞ ĐẦU

  • KÍ HIỆU VIẾT TẮT

  • CHƯƠNG 1.

  • GIỚI THIỆU

  • CHƯƠNG 2.

  • GIỚI THIỆU MỘT SỐ HỆ THỐNG LƯU TRỮ DỮ LIỆU LỚN HIỆN NAY

    • 2.1. IBM General Parallel File System (GPFS)

    • 2.2. Parallel Virtual File System (PVFS)

    • 2.3. Lustre (file system)

    • 2.4. Google File System

    • 2.5. Hadoop

    • 2.6. GlusterFS

    • 2.7. Global File System (Red Hat GFS)

    • CHƯƠNG 3.

    • TÌM HIỂU MỘT SỐ HỆ THỐNG ĐIỂN HÌNH

      • 3.1. HỆ THỐNG HADOOP

        • 3.1.1. Tổng quan

        • 3.1.2. Các tính năng nổi bật

        • 3.1.3. Hadoop Map/Reduce

          • 3.1.3.1. Lập trình theo mô hình và xử lý framework

          • 3.1.3.2. Cấu trúc của Map/Reduce

          • 3.1.4. Hadoop DFS

Tài liệu cùng người dùng

Tài liệu liên quan