Tìm hiểu nguồn mở greenstone và ứng dụng

184 779 3
Tìm hiểu nguồn mở greenstone và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tài liệu tham khảo công nghệ thông tin Tìm hiểu nguồn mở greenstone và ứng dụng

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ PHẦN MỀM NGUYỄN THÀNH QUY – LÊ HOÀNG NGỌC QUỲNH TÌM HIỂU NGUỒN MỞ GREENSTONE ỨNG DỤNG KHOÁ LUẬN CỬ NHÂN TIN HỌC TP. HCM, 2005 TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ PHẦN MỀM SINH VIÊN THỰC HIỆN NGUYỄN THÀNH QUY 0112195 LÊ HOÀNG NGỌC QUỲNH 0112471 TÌM HIỂU NGUỒN MỞ GREENSTONE ỨNG DỤNG KHOÁ LUẬN CỬ NHÂN TIN HỌC GIÁO VIÊN HƯỚNG DẪN ThS. NGUYỄN THỊ BÍCH NIÊN KHOÁ 2001 – 2005 i NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Thành phố Hồ Chí Minh, ngày tháng 07 năm 2005 Giáo viên hướng dẫn ii NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Thành phố Hồ Chí Minh, ngày tháng 07 năm 2005 Giáo viên phản biện iii LỜI CẢM ƠN Chúng em xin chân thành cảm ơn Khoa Công nghệ Thông tin, Thư viện Cao học Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh đã tạo điều kiện thuận lợi cho chúng em hoàn thành đề tài Tốt nghiệp này. Chúng em xin chân thành cảm ơn Th.S Nguyễn Thị Bích đã rất tận tình hướng dẫn, chỉ bảo chúng em trong suốt thời gian thực hiện đề tài vừa qua. Chúng em cũng xin chân thành cảm ơn tất cả các Thầy, các Cô trong Khoa đã tận tình giảng dạy, trang bị cho chúng em những kiến thức cần thiết, quý báu trong những năm tháng học tập tại Trường. Xin cảm ơn Thầy Trần Minh Triết, Thầy Nguyễn Đình Khương cũng như Thầy Cô các anh chị trong Phòng SeLab đã tạo điều kiện giúp đỡ chúng em thực hiện đề tài. Qua đây, chúng tôi cũng muốn bày tỏ lòng biết ơn của mình đến các giáo sư Đại học Waikato, New Zealand, đặc biệt là giáo sư I.H.Witten giảng viên Katherine Don. Xin cảm ơn sự giúp đỡ chân thành của bạn bè khắp thế giới. Xin cảm ơn sự giúp đỡ của các bạn, những người luôn bên cạnh giúp đỡ chúng tôi. cuối cùng, chúng con xin tỏ lòng biết ơn sâu sắc đến ông bà, bố mẹ, cả gia đình đã nuôi dưỡng, giáo dục luôn động viên để chúng con có ngày hôm nay. Mặc dù chúng em đã cố gắng hoàn thành Luận văn với tất cả sự nỗ lực của bản thân, nhưng chắc chắn Luận văn vẫn không thể tránh khỏi những thiếu sót nhất định, kính mong nhận được sự cảm thông chỉ bảo tận tình của Quý Thầy Cô các bạn. TP. HCM, tháng 7 năm 2005 Nhóm sinh viên thực hiện Thành Quy & Ngọc Quỳnh iv MỞ ĐẦU Sống trong kỷ nguyên của sự bùng nổ thông tin như hiện nay, một vấn đề quan trọng đặt ra là làm sao quản lý thông tin hiệu quả, khoa học nhất, để có thể tìm ra một vài thông tin hữu ích trong hàng ngàn, hàng triệu thông tin nhanh chóng, chính xác. Chúng ta đều biết, cách quản lý tài liệu truyền thống chủ yếu trên giấy có những hạn chế nhất định, không chỉ tốn kém không gian lưu trữ, mà còn chiếm nhiều thời gian khi muốn tìm kiếm thông tin. Ngoài ra còn khó bảo quản trong thời gian lâu dài dưới những điều kiện xấu, dễ hư hỏng, mất mát. Chưa kể việc khai thác sản xuất giấy làm ảnh hưởng tới môi trường sinh thái. Máy tính ra đời, giúp giải quyết rất nhiều vấn đề liên quan đến việc quản lý thông tin. Hình thức lưu trữ tài liệu dưới dạng điện tử ngày càng thông dụng hơn. Thử làm một ví dụ nhỏ để so sánh giữa hình thức lưu trữ trên giấy với trên máy tính, ở dạng điện tử. Mỗi hình thức lưu trữ có những ưu khuyết điểm riêng nhưng ở đây chỉ so sánh về không gian lưu trữ, thời gian tìm kiếm, truy xuất thông tin, mà không tính đến những yếu tố khác. Đơn vị dung lượng lưu trữ phổ biến hiện nay là Gigabyte. Một cuốn sách 200 trang lưu trên đĩa cần khoảng 1 megabyte. Như vậy một gigabyte có thể lưu trữ khoảng một ngàn cuốn sách điện tử. Trong khi đó, để lưu trữ một ngàn cuốn sách giấy truyền thống cần một kệ sách đầy từ sàn cho đến trần nhà, chưa kể tiền mặt bằng, tiền in ấn, phát hành! Khi mà yêu cầu thông tin đòi hỏi nhanh chóng, chính xác, tài liệu điện tử càng thể hiện những khả năng ưu việt của mình. Cảm thấy rất tâm đắc với những hệ thống quản lý dữ liệu như vậy, chúng em đã chọn đề tài “Tìm hiểu nguồn mở Greenstone Ứng dụng” để làm đề tài Tốt nghiệp, với mong muốn hiểu thêm về cách quản lý thông tin, từ đó mong muốn đóng góp phần nào vào việc xây dựng thư viện điện tử cho Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên, Thành phố Hồ Chí Minh. v NỘI DUNG Nội dung Luận văn được tổ chức thành 9 chương: Chương 1 – Tổng quan. Giới thiệu về thư viện điện tử Greenstone. Trong chương này sẽ trình bày lý do các mục tiêu khi thực hiện đề tài. Chương 2 – Các khái niệm cơ bản trong Greenstone. Mục đích của chương này là giải thích, làm sáng rõ những khái niệm quan trọng trong Greenstone. Chương 3 – Xây dựng bộ sưu tập. Tìm hiểu các quá trình thực thi của Greenstone để tạo nên một bộ sưu tập hoàn chỉnh. Chương 4 – Hiệu chỉnh giao diện của Greenstone. Khai thác khả năng tuỳ biến cao của Greenstone để thay đổi giao diện cho phù hợp với yêu cầu thực tế. Chương 5 – Hệ thống Web Greenstone. Đi sâu vào những khái niệm nâng cao của hệ thống Greenstone, tập trung vào phần xử lý trên web của hệ thống. Chương 6 – Xây dựng ứng dụng. Xây dựng thư viện số ITDL cho Khoa. Trong chương này sẽ xác định yêu cầu thực tế, xác định hai mô-đun chính của hệ thống: ITLib ITLibWeb. Chương 7 – ITLib – Mô-đun xử lý offline. Chương này phân tích thiết kế hệ thống ITLib với chức năng chính là tạo các bộ sưu tập. Chương 8 – ITLibWeb – Mô-đun xử lý online. Chương này sẽ phân tích, thiết kế hệ thống ITLibWeb với giao diện web, tạo thư viện số, giúp người dùng sử dụng các bộ sưu tập cũng như các chức năng, nghiệp vụ thư viện khác. Chương 9 – Đánh giá hướng phát triển. Chương cuối cùng của đề tài, tổng hợp lại về Greenstone, đánh giá lại hệ thống thư viện điện tử ITDL nêu những hướng phát triển hệ thống trong tương lai. Ngoài ra, các phần Phụ lục ở cuối Luận văn còn mở rộng các khía cạnh liên quan đến thư viện số, các thành phần cấu thành nên Greenstone (MG, GDBM…) các mô-đun hỗ trợ Greenstone. vi MỤC LỤC LỜI CẢM ƠN . iii MỞ ĐẦU . iv MỤC LỤC . vi DANH SÁCH HÌNH . xi DANH SÁCH BẢNG . xiv PHẦN 1. TÌM HIỀU NGUỒN MỞ GREENSTONE .1 CHƯƠNG 1. TỔNG QUAN .2 1.1. Thư viện thư viện số 3 1.1.1. Giới thiệu 3 1.1.2. Thư viện số 3 1.2. Thư viện số Greenstone 4 1.2.1. Giới thiệu 4 1.2.2. Tính năng 5 1.3. Mục đích của đề tài 6 CHƯƠNG 2. CÁC KHÁI NIỆM CƠ BẢN 7 2.1. Tài liệu 8 2.2. Bộ sưu tập .8 2.3. Tìm kiếm 8 2.4. Duyệt tài liệu 8 2.5. Metadata .10 2.6. Biên mục .11 2.7. Plugin 11 2.7.1. Giới thiệu 11 2.7.2. Danh sách các plugin 12 2.7.3. Các plugin xử lý tài liệu độc quyền 13 2.7.4. Gán thông tin metadata từ một tập tin tả 14 2.7.5. Chia cấu trúc tài liệu nguồn 16 2.8. Classifier .22 2.8.1. Giới thiệu 22 2.8.2. Phân loại 23 2.9. Định dạng cách hiển thị tài liệu 25 2.9.1. Giới thiệu 25 2.9.2. Định dạng danh sách tài liệu .25 2.9.3. Định dạng các thành phần của trang web hiển thị tài liệu 28 CHƯƠNG 3. XÂY DỰNG BỘ SƯU TẬP .30 3.1. Giới thiệu 31 3.2. Chương trình mkcol.pl .33 3.3. Chương trình import.pl .33 3.4. Chương trình buildcol.pl 35 3.5. Cấu trúc thư mục của Greenstone 37 3.6. Cấu trúc thư mục của một bộ sưu tập .38 3.7. Cấu trúc tài liệu theo định dạng XML 39 vii 3.8. Tập tin cấu hình bộ sưu tập 42 CHƯƠNG 4. HIỆU CHỈNH GIAO DIỆN GREENSTONE .45 4.1. Giới thiệu 46 4.2. Ảnh tiêu đề bộ sưu tập 48 4.3. Các nút duyệt trang .48 4.3.1. Cách hiển thị .48 4.3.2. Vị trí đặt các ảnh .51 4.4. Ảnh tiêu đề trang 52 4.5. Các nút duyệt tài liệu 53 4.5.1. Giới thiệu 53 4.5.2. Vị trí đặt các ảnh .53 4.5.3. Thêm nút mới 54 4.5.3.1. Tạo một nút mới dựa vào nút đã có .55 4.5.3.2. Tạo macro mới cho một nút 55 4.5.4. Xóa nút duyệt tài liệu 56 4.5.5. Thay đổi nút duyệt tài liệu 56 4.6. Hiển thị văn bản .56 4.6.1. Hiển thị loại CL list .56 4.6.2. Hiển thị nội dung 57 4.7. Override các macro 58 4.8. Thêm một trang mới .60 4.9. Hiển thị các bộ sưu tập .61 4.10. Macro chuẩn .62 4.11. Lưu ý .63 CHƯƠNG 5. HỆ THỐNG WEB GREENSTONE .64 5.1. Giới thiệu 65 5.2. Tổng quan về cơ chế xử lý .65 5.3. Chi tiết về cơ chế xử lý .67 5.4. Mã nguồn 69 5.4.1. Các lớp hàm cơ bản 70 5.4.2. Collection server .70 5.4.3. Receptionist .72 PHẦN 2. XÂY DỰNG ỨNG DỤNG .75 CHƯƠNG 6. XÂY DỰNG ỨNG DỤNG .76 6.1. Tổng quan .77 6.1.1. Phát biểu bài toán 77 6.1.2. Giới thiệu về ITDL (IT Digital Library) .77 6.2. Đối tượng sử dụng hệ thống .78 6.3. Các chức năng chính 78 6.3.1. Cung cấp thông tin luận văn .78 6.3.2. Chuẩn hoá tài liệu .78 6.3.3. Xây dựng bộ sưu tập .78 6.3.3.1. Xây dựng bộ sưu tập Luận văn 79 6.3.3.2. Xây dựng bộ sưu tập Sách .79 6.3.3.3. Xây dựng bộ sưu tập Tổng quát 79 viii 6.3.4. Tra cứu tài liệu 79 CHƯƠNG 7. ITLIBWEB 80 7.1. Xác định yêu cầu 81 7.1.1. Giới thiệu 81 7.1.2. Bảng chú giải 81 7.1.2.1. ITLib 81 7.1.2.2. Greenstone .82 7.1.2.3. Thanh vien Khoa (Thành viên Khoa) 82 7.1.3. Đặc tả bổ sung .82 7.1.3.1. Phạm vi 82 7.1.3.2. Tài liệu tham khảo .82 7.1.3.3. Chức năng 82 7.1.3.4. Tính khả dụng 82 7.1.3.5. Tính ổn định .83 7.1.3.6. Sự hỗ trợ 83 7.1.3.7. Tính bảo mật: .83 7.1.3.8. Các ràng buộc thiết kế .83 7.1.4. hình Use Case .83 7.1.4.1. hình 83 7.1.4.2. Danh sách các Actor 85 7.1.4.3. Danh sách các Use Case 85 7.1.4.4. Đặc tả các Use case chính .86 7.2. Phân tích các Use case chính 90 7.2.1. Use case “Dang nhap” (Đăng nhập) .90 7.2.1.1. Lược đồ tuần tự 90 7.2.1.2. Lược đồ cộng tác .92 7.2.1.3. VOPC .93 7.2.2. Use case “Nhap luan van” (Nhập luận văn) .94 7.2.2.1. Lược đồ tuần tự 94 7.2.2.2. Lược đồ cộng tác .97 7.2.2.3. VOPC .99 7.2.3. Use case “Tra cuu” (Tra cứu) .100 7.2.3.1. Lược đồ tuần tự 100 7.2.3.2. Lược đồ cộng tác .100 7.2.3.3. VOPC .102 7.2.4. Use case “Xem luan van” (Xem thông tin luận văn) 102 7.2.4.1. Lược đồ tuần tự 102 7.2.4.2. Lược đồ cộng tác .103 7.2.4.3. VOPC .104 7.3. Thiết kế .105 7.3.1. Lược đồ lớp tổng quát của hệ thống .105 7.3.2. Chi tiết một số lớp chính .107 7.3.2.1. Lớp đối tượng dùng chung 107 7.3.2.2. Lớp boundary .107 7.3.2.3. Lớp control 108 [...]... 142 xiv PHẦN 1 TÌM HIỀU NGUỒN MỞ GREENSTONE Trong phần này, chúng ta sẽ tìm hiểu thư viện số Greenstone, từ những khái niệm cơ bản, đến cấu trúc cơ chế xử lý của hệ thống Phần này sẽ giải thích tại sao Greenstone được rất nhiều thư viện trên thế giới lựa chọn như là một giải pháp xây dựng thư viện số đơn giản, hiệu quả, kinh tế nhất là khả năng tuỳ biến cao nhưng vẫn đáp ứng được các tiêu... quốc tế Rất tâm đắc với phương châm hoạt động của Greenstone, chúng em đã chọn tìm hiểu về hệ thống phần mềm này làm đề tài Tốt nghiệp của mình Hiểu rõ về Greenstoneứng dụng phần mềm này vào mục đích xây dựng một thư viện số, trước hết là phục vụ nhu cầu học tập giảng dạy trong Khoa Công nghệ Thông tin, Đại học KHTN Sau đó, nếu có thể, sẽ tham gia vào việc số hoá hệ thống thư viện hiện có Đây cũng... trúc dữ liệu để tìm kiếm trình duyệt; phần xử lý online, cho phép người dùng truy xuất, sử dụng các bộ sưu tập 1.2.2 Tính năng Sau đây là những điều tóm lược về những đặc trưng nổi bật, cũng là ưu thế của Greenstone - Truy cập qua trình duyệt web, cả ở chế độ cục bộ (local) từ xa (remote) - Chạy được trên nhiều hệ điều hành : Windows, Unix, Macintosh - Tìm kiếm toàn văn bản tìm kiếm theo... mềm, từ tháng 8/2000, UNESCO2 Human Info NGO3 đã tham gia phát triển hỗ trợ Đây là phần mềm mã nguồn mở được cung cấp trên http://www .greenstone. org theo thoả thuận đăng kí GNU General Public License Greenstone mang tính quốc tế Hiện nay Greenstone đã được sử dụng ở rất nhiều quốc gia, có giao diện các bộ sưu tập với nhiều ngôn ngữ Nhóm nghiên cứu nghĩ rằng, việc mở rộng, hỗ trợ cho mọi sinh... quá trình xây dựng bộ sưu tập Do nguồn vào có nhiều dạng tài liệu khác nhau (pdf, word, text…) nên cần plugin chuyển chúng về một dạng thống nhất là XML của Greenstone trích thông tin từ những tài liệu nguồn đưa vào tập tin XML này Ví dụ một plugin là HTMLPlug chuyển những trang HTML nguồn sang định dạng XML của Greenstone trích thông tin metadata của tài liệu nguồn, ví dụ phần tiêu đề của trang... viên sinh viên Đại học Waikato, New Zealand đã xây dựng phần mềm thư viện số Greenstone, giúp người dùng dễ dàng xây dựng phân phối các bộ sưu tập thư viện số Phần mềm Greenstone cung cấp một phương pháp mới để tổ chức xuất bản thông tin trên Internet qua CD-ROM Greenstone ban đầu là sản phẩm của dự án New Zealand Digital Library của trường đại học Waikato Sau đó, thấy được ý nghĩa tác dụng. .. tính năng để có thể tự cài đặt chạy độc lập - Các bộ sưu tập dễ dàng được mang chuyển, phân phối, chia sẻ - Theo phong cách WYSIWYG (What you see is what you get), dễ dùng, thuận tiện 1.3 Mục đích của đề tài Sau khi tìm hiểu về hệ thống những phần mềm thư viện số trong nước trên thế giới, Greenstone nổi bật lên với tính hiệu quả, dễ sử dụng, mã nguồn mở, dễ tùy biến mang tính chuẩn quốc tế Rất... tương ứng là WordPlug PDFPlug Các plugin này thực hiện 2 thao tác: 1 Chuyển tài liệu nguồn sang dạng html hay plain text 2 Sử dụng plugin HTMLPlug hay TEXTPlug chuyển kết quả ở bước 1 sang dạng XML của Greenstone Để chuyển tài liệu nguồn sang dạng html hay plain text, Greenstone dùng những chương trình có sẵn như pdftohtml, wvware trong thư mục greenstone\ bin\windows” Các plugin WordPlug PDFPlug... Chương 3: Ngôn ngữ lập trình AspectJ (Các nội dung trong chương 3) … Sau khi chèn các cặp thẻ vào tài liệu nguồn, tài liệu nguồn lúc này có nội dung như sau: Tìm hiểu PP LT hướng khía cạnh > Tìm hiểu PP LT hướng khía cạnh Lời cảm ơn ... duyệt tài liệu được phân cấp 2.5 Metadata Là thông tin tả cho một tài liệu trong bộ sưu tập, ví dụ tựa đề tài liệu, tên tác giả, ngày xuất bản… Greenstone dùng các thẻ XML để tả thông tin cho tài liệu, ví dụ: Tìm hiểu nguồn mở Greenstone Quy,Quỳnh Các thẻ này có thể: - Được nhúng trong tài liệu của bộ sưu tập, ví dụ các . như vậy, chúng em đã chọn đề tài Tìm hiểu nguồn mở Greenstone và Ứng dụng để làm đề tài Tốt nghiệp, với mong muốn hiểu thêm về cách quản lý thông tin,. THÀNH QUY 0112195 LÊ HOÀNG NGỌC QUỲNH 0112471 TÌM HIỂU NGUỒN MỞ GREENSTONE VÀ ỨNG DỤNG KHOÁ LUẬN CỬ NHÂN TIN HỌC GIÁO VIÊN HƯỚNG DẪN

Ngày đăng: 23/11/2012, 08:11

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan