Luận văn thạc sĩ dự án số hóa tài liệu lưu trữ trung tâm lưu trữ quốc gia III

75 1K 17
Luận văn thạc sĩ dự án số hóa tài liệu lưu trữ trung tâm lưu trữ quốc gia III

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN NGUYỄN THANH HIẾU DỰ ÁN SỐ HÓA TÀI LIỆU LƢU TRỮ TRUNG TÂM LƢU TRỮ QUỐC GIA III LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2015 I ĐẠI HỌC QUỐC GIA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN NGUYỄN THANH HIẾU DỰ ÁN SỐ HÓA TÀI LIỆU LƢU TRỮ TRUNG TÂM LƢU TRỮ QUỐC GIA III Ngành: Công nghệ thông tin Chuyên ngành: Quản lý hệ thống thông tin Mã số: Chuyên ngành đào tạo thí điểm LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS LÊ QUANG MINH Hà Nội - 2015 II ̀ LƠI CAM ĐOAN Tôi xin cam đoan công trình nghiên cƣ́u của riêng Các số liê ̣u, kế t luâ ̣n đƣơ ̣c đƣa luâ ̣n văn trung thƣ̣c, có nguồ n gố c rõ ràng Tác giả luâ ̣n văn Nguyễn Thanh Hiếu III ̀ LƠI CẢM ƠN Để hoàn thành đƣợc hoàn thành đƣợc công trình nghiên cứu này, sƣ̣ nỗ lƣ̣c của thân, tác giả còn nhâ ̣n đƣơ ̣c sƣ̣ giúp đỡ rấ t lớn tƣ̀ TS Lê Quang Minh ngƣời đã quan tâm, trách nhiệm nhiệt tình hƣớng dẫn, giúp đỡ, động viên tác giả quá trình thực nghiên cƣ́u của mình Tác giả xin gƣ̉i lời cảm ơn chân thành tới TS Lê Quang Minh Tác giả cũng xin trân trọng cảm ơn các thầy, cô Viện Cộng nghệ thông tin – Đại học Quốc Gia Hà Nội, lãnh đạo cán nhân viên Trung tâm Lƣu trữ Quốc gia III các bạn lớp Cao học CIO2 giúp đỡ tác giả suốt thời gian học tập nghiên cứu luận văn của mình Để đạt đƣợc nhƣ̃ng kết nghiên cứu tố t tƣơng lai, tác giả mong tiế p tục nhận đƣợc hƣớng dẫn, giúp đỡ của các nhà chuyên môn, của các thầy cô Viện Công nghệ thông tin – Đại học Quốc Gia Hà Nội phƣơng pháp luận, cách thức tiếp cận khoa học hợp lý Tác giả luâ ̣n văn Nguyễn Thanh Hiếu MỤC LỤC PHẦN MỞ ĐẦU .4 CHƢƠNG 1: HIỆN TRẠNG TÀI LIỆU LƢU TRỮ ĐANG BẢO QUẢN TẠI TRUNG TÂM LƢU TRỮ QUỐC GIA III 10 1.1 Trung tâm Lƣu trữ Quốc gia III .10 1.2 Cơ cấu tổ chức chức nhiệm vụ 10 1.3 Tình hình tài liệu lƣu trữ Trung tâm Lƣu trữ Quốc gia III 12 1.3.1 Nội dung thành phần tài liệu lƣu trữ Trung tâm 12 1.3.2 Hình thức tài liệu lƣu trữ Trung tâm 17 1.3.3 Tình trạng vật lý của tài liệu lƣu trữ Trung tâm 17 1.3.4 Giá trị của tài liệu lƣu trữ Trung tâm 18 1.4 Nhận xét chung 20 CHƢƠNG 2: NGHIỆP VỤ SỐ HÓA TÀI LIỆU LƢU TRỮ .23 2.1 Một số khái niệm, thuật ngữ số hóa tài liệu lƣu trữ 23 2.1.1 Một số khái niệm 23 2.1.2 Một số thuật ngữ chuyên môn ảnh số, máy quét máy tính 27 2.2 Mục tiêu áp dụng kỹ thuật số hóa tài liệu lƣu trữ 28 2.3 Những ƣu điểm hạn chế của kỹ thuật số hóa tài liệu lƣu trữ 33 2.3.1 Ƣu điểm .33 2.3.2 Hạn chế 34 2.4 Kỹ thuật số hóa tài liệu 35 2.4.1 Một số thiết bị chuyển đổi: máy scan, máy chụp ảnh số 35 2.4.2 Thuộc tính của tài liệu .36 2.4.3 Kỹ thuật quét tài liệu 37 2.4.4 Những yếu tố tác động đến chất lƣợng ảnh số 37 2.5 Nhận dạng ký tự quang học (OCR) 42 2.5.1 Giới thiệu nhận dạng ký tự quang học 42 2.5.2 Mô hình tổng quát của hệ nhận dạng chữ 43 2.6 Xây dựng siêu liệu cho tài liệu đƣợc số hóa .44 2.6.1 Tạo lập metadata .44 2.6.2 Lựa chọn chuẩn liệu đặc tả 45 2.6.3 Đề xuất metadata cho tài liệu đƣợc số hóa 48 CHƢƠNG 3: DỰ ÁN SỐ HÓA TÀI LIỆU LƢU TRỮ TRUNG TÂM LƢU TRỮ QUỐC GIA III .51 3.1 Cơ sở lý luận bối cảnh hình thành dự án .51 3.1.1 Hệ thống văn quản lý nhà nƣớc công tác lƣu trữ 51 3.1.2 Tình hình triển khai thực các dự án số hóa nƣớc 52 3.2 Mục tiêu của dự án 52 3.2.1 Mục tiêu chung 52 3.2.2 Mục tiêu cụ thể 53 3.3 Nội dung triển khai giải pháp thực 53 3.3.1 Giải pháp quy trình số hóa 53 3.3.2 Giải pháp hệ thống công nghệ thực số hóa .57 3.4 Dự toán kinh phí cho dự án 64 3.4.1 Tổng dự toán .64 3.4.2 Kinh phí số hóa tài liệu lƣu trữ hành .64 3.4.3 Kinh phí đầu tƣ trang thiết bị các hệ thống phần mềm ứng dụng .64 3.4.4 Kinh phí đầu tƣ xây dựng phần mềm ứng dụng 65 KẾT LUẬN 67 TÀI LIỆU THAM KHẢO .69 DANH MỤC HÌNH VẼ Hình 1.1: Cơ cấu tổ chức Trung tâm Lƣu trữ Quốc gia III 10 Hình 2.1: Quy trình số hóa tài liệu lƣu trữ vật mang tin giấy .27 Hình 2.2: Mô hình các loại hình tài liệu lƣu trữ đƣợc đồng với định dạng số phƣơng pháp số hóa .29 Hình 2.3: Mô hình quản lý khai thác tập trung hệ thống sở liệu số hóa của các loại hình tài liệu lƣu trữ 31 Hình 2.4: Mô hình kết nối các hệ thống sở liệu số hóa của các quan lƣu trữ các cấp các quan khác 32 Hình 2.5: Sơ đồ tổng quát hệ thống nhận dạng chữ 43 Hình 3.1: Quy trình số hóa tài liệu 55 Hình 3.2: Sơ đồ kiến trúc giải pháp tổng thể 60 Hình 3.3: Sơ đồ tạo danh mục tài liệu mẫu 61 Hình 3.4: Sơ đồ việc số hóa trích rút thông tin, lập mục tự động .62 Hình 3.5: Sơ đồ hệ thống quản lý văn 63 PHẦN MỞ ĐẦU Đặt vấn đề Trung tâm Lƣu trữ Quốc gia III đƣợc thành lập theo định số 118/TCCBTC ngày 10 tháng năm 1995 của Bộ trƣởng - Trƣởng ban Tổ chức Cán Chính Phủ (nay Nội vụ) Một nhiệm vụ quan trọng của trung tâm sƣu tầm, bổ sung; bảo quản an toàn tổ chức sử dụng tài liệu, tƣ liệu lƣu trữ của các quan, tổ chức Trung ƣơng; các nhân vật lịch sử, cá nhân, gia đình, dòng họ tiêu biểu của nƣớc Việt Nam dân chủ cộng hòa Cộng hòa xã hội chủ nghĩa Việt Nam có trụ sở đóng lãnh thổ từ tỉnh Quảng Bình trở phía Bắc; quan, tổ chức cấp kỳ, cấp liên khu, cấp khu của nƣớc Việt Nam dân chủ cộng hoà từ năm 1945 đến năm 1976; hồ sơ địa giới hành chính, đồ địa giới mốc địa giới hành các cấp theo quy định của pháp luật Tài liệu Lƣu trữ quốc gia phục vụ có hiệu các nhu cầu nghiên cứu, góp phần thiết thực vào việc khôi phục nhiều công trình quan trọng sau chiến tranh, cũng nhƣ cho nghiệp xây dựng, bảo vệ phát triển kinh tế văn hoá xã hội của đất nƣớc Hiện nay, phát triển nhanh chóng của công nghệ thông tin hỗ trợ đắc lực cho nhu cầu truyền tin khai thác thông tin liệu của nhân loại Trong đó, hệ thống Internet đƣợc ngƣời quan tâm sử dụng nhiều nhờ tính thông dụng việc giao tiếp, tìm kiếm đọc thông tin tính ƣu việt của các phần mềm ứng dụng quản lý, số hóa tài liệu Do yêu cầu của quá trình hội nhập diễn mạnh mẽ, việc công khai minh bạch các văn bản, sách của nhà nƣớc đến đối tƣợng trở thành vấn đề bắt buộc Đặc biệt việc nâng cao chất lƣợng thông tin phục vụ nhu cầu nghiên cứu định đầu tƣ, sản xuất cho các nhà đầu tƣ nƣớc lĩnh vực quản lý nhà nƣớc, kinh tế, văn hóa, xã hội, lịch sử truyền thống cũng nhƣ nhu cầu tra cứu tài liệu khoa học phải đƣợc trọng Một nguồn thông tin đƣợc ngƣời quan tâm nhiều thông tin từ tài liệu lƣu trữ Mặt khác theo thời gian, lƣợng tài liệu lƣu trữ tăng lên, dƣới góc độ quản lý nhà nƣớc, việc bảo quản sử dụng có hiệu giá trị tài liệu lƣu trữ có ý nghĩa quan trọng kinh tế, xã hội, lịch sử của quốc gia địa phƣơng Vì vậy, song song với chƣơng trình cung cấp thông tin không thụ động thông qua hệ thống Internet (Trang Web điện tử) hệ thống thông tin viễn thông thì việc ứng dụng các công nghệ, kĩ thuật đại vào bảo quản lâu dài các tài liệu có giá trị để dần thay cho phƣơng pháp bảo quản truyền thống trở thành nhiệm vụ cấp bách của công tác lƣu trữ Số hóa tài liệu lƣu trữ biện pháp tối ƣu, giúp giải việc lƣu trữ, truy xuất, chia sẻ hay tìm kiếm thông tin dễ dàng Cắt giảm chi phí tối đa cho việc quản lý không gian lƣu trữ Ngoài số hóa tài liệu giúp có thể chỉnh sửa tái sử dụng tài liệu, linh hoạt việc chuyển đổi sang các dạng tài liệu số khác Quá trình số hóa tài liệu đƣợc khá lâu giới Và đến nay, hầu hết thƣ viện lớn các quan lƣu trữ giới thực song song hai loại hình truyền thống số hóa Với hệ thống lƣu trữ số hóa điện tử, tài liệu lƣu trữ phát huy tối đa hiệu việc phục vụ cho lợi ích phát triển kinh tế, văn hóa giáo dục truyền thống lịch sử cho hệ trẻ Nhận thức đƣợc vấn đề trên, tác giả lựa chọn đề tài “Dự án số hóa tài liệu lưu trữ Trung tâm Lưu trữ Quốc gia III” làm đề tài nghiên cứu cho luận văn tốt nghiệp của mình Mục tiêu nhiệm vụ nghiên cứu Mục tiêu của đề tài nghiên cứu đề xuất giải pháp để xây dựng dự án số hóa khối tài liệu lƣu trữ hành bảo quản Trung tâm Lƣu trữ Quốc gia III Để có thể thực mục tiêu, nhiệm vụ nghiên cứu của đề tài bao gồm: - Tiến hành khảo sát thực tế tình hình tài liệu lƣu trữ bảo quản Trung tâm Lƣu trữ Quốc gia III - Nghiên cứu, tổng hợp sở lý luận, kinh nghiệm số hóa tài liệu lƣu trữ với mục đích bảo quản tổ chức khai thác sử dụng tài liệu lƣu trữ của các nƣớc có lƣu trữ tiến nhƣ: Mỹ, Nga, Úc Trên sở đó khái quát cách hệ thống, lựa chọn hợp lý vận dụng sáng tạo vào hoàn cảnh thực tế của Trung tâm Lƣu trữ Quốc gia III làm tảng suốt quá trình nghiên cứu luận văn - Trên sở đó đề xuất các giải pháp nhằm xây dựng dự án số hóa khối tài liệu lƣu trữ hành bảo quản Trung tâm Lƣu trữ Quốc gia III đảm bảo theo mục tiêu đề Đối tƣợng phạm vi nghiên cứu a Đối tƣợng nghiên cứu của đề tài - Các phông tài liệu lƣu trữ bảo quản Trung tâm Lƣu trữ Quốc gia III - Các tài liệu nƣớc liên quan đến việc thực dự án số hóa ngành lƣu trữ nhƣ: tài liệu tiêu chuẩn, báo cáo thực dự án, cẩm nang thực quản lý dự án số hóa… - Các phƣơng pháp, công nghệ, quy trình số hóa tài liệu b Phạm vi nghiên cứu của đề tài - Đối với tài liệu lƣu trữ: Đề tài tập trung nghiên cứu việc số hóa khối tài liệu lƣu trữ hành vật mang tin giấy bảo quản Trung tâm Lƣu trữ Quốc gia III tài liệu lƣu trữ chiếm số lƣợng nhiều các loại hình bảo quản Trung tâm Các loại hình tài liệu lƣu trữ vật mang tin khác nhƣ: phim, ảnh, ghi âm, băng, tài liệu xây dựng bản, tài liệu khoa học kỹ thuật… không thuộc phạm vi nghiên cứu của đề tài - Đối với phƣơng pháp số hóa: chủ yếu tập trung nghiên cứu sử dụng phƣơng pháp số hóa hệ thống quản lý tự động số hóa tài liệu (ITISCANNER) để triển khai số hóa, còn các hệ thống, thiết bị số hóa khác không đƣợc đề cập chi tiết đề tài Lịch sử nghiên cứu Công nghệ kỹ thuật số hóa hình thành vào cuối kỷ XX phát triển nhanh vào đầu kỷ XXI Công nghệ kỹ thuật số nói chung, kỹ thuật số hóa nói riêng mở kỷ nguyên tiến của nhân loại, thời đại kỹ thuật số Những ƣu điểm bật của nó làm cho kỹ thuật nhanh chóng phổ biến toàn giới, nhiều nƣớc nghiên cứu tiến hành dự án số hóa tài liệu với quy mô khác Trong số đó phải kể đến số nƣớc tiêu biểu với quy mô lớn nhƣ: Mỹ, Nga, Đức, Trung Quốc, Úc… Lĩnh vực tiêu biểu đầu việc áp dụng công nghệ thƣ viện, bảo tàng lƣu trữ với mục tiêu bảo quản, bảo hiểm tài liệu nguyên bản, sách, phim, ảnh, ghi âm… tình trạng bị xuống cấp, có yêu cầu sử dụng cao… tăng cƣờng, tạo điều kiện cho việc khai thác sử dụng, chia sẻ nguồn thông tin cách nhanh chóng, hiệu Tại nƣớc ta, nhiều dự án số hóa đƣợc tiến hành tiêu biểu ngành lƣu trữ, thƣ viện phim điện ảnh Về lĩnh vực lƣu trữ, số dự án cấp quốc gia đƣợc tiến hành nhƣ: dự án số hóa tài liệu châu mộc Triều Nguyễn năm 1993-2003, Đề án bảo hiểm tài liệu lƣu trữ Quốc gia, các Trung tâm lƣu trữ Quốc gia khác có dự án số hóa tài liệu lƣu trữ nhằm mục đích bảo hiểm, tăng cƣờng việc tổ chức khai thác sử dụng, số lƣu trữ tỉnh, huyện cũng bắt đầu thực dự án số hóa tài liệu lƣu trữ Nhiều văn quy phạm pháp luật hƣớng dẫn nghiệp vụ đƣợc ban hành nhƣ: Luật lƣu trữ, Nghị định số 01/2013/NĐ-CP ngày 03/01/2013 của Chính phủ quy định chi tiết thi hành số điều của Luật lƣu trữ… Ngoài còn có nhiều viết tạp chí chuyên ngành cũng đề cập đến vấn đề số hóa nhƣng phần lớn mang tính chất giới thiệu, chƣa sâu vấn đề triển khai cụ thể Trong lĩnh vực thƣ viện, các quan quản lý, quan nghiệp… có xu hƣớng triển khai xây dựng thƣ viện điện tử, đó việc số hóa nguồn tài liệu, sách, ấn phẩm… nội dung quan trọng để chuyển đổi từ hình 57 tất các phiên hình ảnh của tài liệu đƣợc lƣu trữ, có các phiên master của tài liệu lƣu trữ dƣới dạng tập tin TIFF đƣợc lƣu trữ bảo quản Việc lƣu trữ phiên master của tài liệu lƣu trữ giúp cho việc chuyển đổi chúng thành định dạng theo yêu cầu có thể thực dễ dàng sau Tổ chức khai thác sử dụng Toàn các liệu đƣợc quản lý cách nghiêm ngặt với các biện pháp quản lý kỹ thuật nhằm đảm bảo tính xác thực, độ tin cậy, tính nguyên vẹn truy cập của nguồn thông tin hệ thống sở liệu Hệ thống sở liệu đƣợc hỗ trợ với các công cụ hữu ích đƣợc thiết kế, xây dựng phù hợp để tổ chức khai thác sử dụng với hình thức số nhƣ: công cụ tra cứu-tìm kiếm tự động, trang thông tin điện tử (website), hệ thống an ninh mạng, hệ thống mạng nội bộ, mạng diện rộng… 3.3.2 Giải pháp hệ thống công nghệ thực số hóa Hệ thống ITISCANNER kết của kết hợp các công nghệ số hóa hàng đầu nhƣ: - Công nghệ nhận dạng tiếng việt của ABBYY có kết xác 90%, với đầu vào các files ảnh, đầu các files text đƣợc nhận dạng - Công nghệ xử lý tiếng việt hàng đầu Việt Nam của Viện CNTT nhƣ soát lỗi giúp độ xác của kết sau nhận dạng lên tới 95% - Công nghệ tự động tách lập mục, lấy các thông tin cần thiết từ file, keywords, các thuộc tính chung của file nhƣ ngày tháng, tên văn bản, số, các bên tham gia ký kết, nội dung tóm tắt của văn với tất các loại văn (có cấu trúc không có cấu trúc) - Cùng hệ thống quản trị tài liệu ứng dụng các công nghệ bảo mật nhất, dễ dàng chuyển liệu thƣ viện giao diện plug-in cho Sharepoint 3.3.2.1 Hiệu kinh tế yếu tố cạnh tranh Hiệu kinh tế - Quy trình hoá các quá trình tác nghiệp - Cải thiện suất, hiệu công việc - Quản lý kiểm soát tốt các thông tin của tổ chức - Phản hồi với “tốc độ điện tử” - Rút ngắn thời gian 58 - Tăng thoả mãn của khách hàng - Tiết kiệm Yếu tố cạnh tranh chất lƣợng giá thành sản phẩm Hệ thống ITISCANNER sản phẩm tổng thể bao gồm việc số hóa tự động quản trị tài liệu, với việc sử dụng các công nghệ tiên tiến hàng đầu giới Việt Nam, hệ thống thực không có đối thủ cạnh tranh chất lƣợng ý tƣởng Giá trung bình trang tài liệu vào khoảng 3.000-5.000 đồng, với hệ thống ITISCANNER, trung tâm phải đầu tƣ chi phí ban đầu, sau đó trang số hóa rơi vào từ 1.500-2.000 đồng, đó hệ thống DMS quản trị, giúp cho việc quản lý tài liệu đƣợc dễ dàng, giảm thiểu đƣợc các chi phí nhân công vì ITISCANNER hoàn toàn tự động số hóa tài liệu đƣa vào hệ thống quản trị Ví dụ: Để số hóa 1000 trang tài liệu bạn cần trả 3.000 x 1.000 = 3.000.000 đồng Khi sử dụng hệ thống ITISCANNER bạn cần trả 2.000.000 đồng Chi phí giảm 1/3, số trang cần số hóa lên tới hàng triệu thì thực số tiết kiệm ấn tƣợng 3.3.2.2 Công nghệ sử dụng hệ thống Hệ thống ITISCANNER kết tinh các tính tốt từ lõi nhận dạng ABBYY khả quản lý, lập mục, tách bộ, trích xuất thông tin cách thông minh Hệ thống có chức scan tài liệu nhận các files tài liệu có sẵn sau đó nhận dạng tiếng Việt, soát lỗi tự động lập mục, lấy các thông tin cần thiết từ file, keywords, các thuộc tính chung của file nhƣ ngày tháng, tên văn bản, số, các bên tham gia ký kết, nội dung tóm tắt của văn Kết đƣợc tự động lƣu vào sở liệu phục vụ cho việc xây dựng hệ thống quản lý sau Hệ thống có khả làm việc tự động với tất các loại tài liệu nhƣ hợp đồng, định, công văn, hóa đơn… Công nghệ nhận dạng tiếng Việt Hệ thống tích hợp công nghệ nhận dạng (chữ in, chữ viết tay, đánh dấu, mã vạch) đoạt nhiều giải thƣởng của ABBYY có khả nhận dạng 190 ngôn ngữ, bao gồm tiếng Việt, với độ xác 90% ABBYY hãng công nghệ toàn cầu có trụ sở: Moscow, Russia, 1000 nhân viên Sản phẩm có mặt 141 nƣớc giới, có 20 triệu ngƣời dùng xử lý tỉ trang/năm Các ứng dụng của ABBYY việt Nam: - Bộ Ngoại giao; - Báo Nhân dân; 59 - Trung tâm Thông tin thƣ viện ĐHQG Hà Nội; - Cục Sở hữu trí tuệ; - Công ty Chứng khoán VNDirect… Xử lý tiếng Việt Một ƣu khác của hệ thống ITISCANNER việc xử lý tiếng Việt Tiêu biểu phần mềm soát lỗi tả, có chức bắt tới 92% lỗi tả tiếng Việt Soát lỗi tả có thể đƣợc áp dụng cho kết quản sau nhận dạng tiếng việt ABBYY để nâng cao chất lƣợng Kinh nghiệm của nhiều nƣớc giới (Hàn quốc, Trung quốc, Nhật bản, Thái Lan, Nga,…) cho thấy các công ty địa với đầu tƣ hƣớng công nghệ khai thác đƣợc mạnh xử lý ngôn ngữ địa có thể cạnh tranh trực tiếp với các công ty đa quốc gia Nhƣ vậy, xử lý tiếng Việt ƣu cạnh tranh của Viện CNTT Công nghệ tách lập mục Hệ thống cho phép ngƣời dùng có thể lựa chọn trích rút thông tin cách thiết lập form tài liệu mẫu các vùng cần lấy thông tin cho việc đánh mục Ở chế độ “bán thông minh” hệ thống không yêu cầu ngƣời dùng phải fix vùng cần lấy thông tin (nhƣ chế độ trên) cách vật lý chuột mà cho phép ngƣời dùng định vùng cần lấy thông tin của tài liệu trang định các thông tin cần lấy thuộc thể loại nào: số công văn; ngày tháng hay ngƣời gửi …Sau ngƣời dùng thiết lập thì hệ thống tập trung xử lý trang tài liệu đó lấy kiểu thông tin ngƣời dùng định Đặc biệt hệ thống có chế độ tự động xử lý thông minh Với tính tự động xử lý thông minh cho phép hệ thống tự trích rút các thông tin cần thiết theo cấu hình các loại thông tin cần lấy để phục vụ cho việc đánh mục Ví dụ: ngƣời dùng thiết lập mục dựa vào thông tin số ngày tháng của công văn, hệ thống tự động phân tích văn sau nhận dạng để lấy các thông tin tƣơng ứng mà không cần ngƣời dùng phải rõ vùng (về mặt vị trí) cần lấy thông tin 3.3.2.3 Kiến trúc hệ thống 60 Hình 3.2: Sơ đồ kiến trúc giải pháp tổng thể - Các máy client truy cập vào hệ thống thông qua Domain Controllers - Sau đó truyền các files dạng ảnh tới máy chủ ITISCANNER nhận dạng (ABBYY) lập mục - Dữ liệu sau đó đƣợc lƣu vào sở liệu (Công việc đƣợc thực LAN.) - Clien có thể truy cập vào hệ CSDL thông qua hệ thống quản lý văn DMS (trên web) để thực các công việc nhƣ tìm kiếm, chỉnh sửa (Quá trình có thể thực LAN/WAN) Domain Controllers (Active Directory) Máy chủ Domain Controllers (Active Directory): có nhiệm vụ chứng thực các tài khoản đăng nhập vào hệ thống qua các dịch vụ website, ftp, CSDL webservice Dùng để phân quyền quản lý quyền truy cập đến hệ thống Server số hóa, soát lỗi, trích rút thông tin lập mục (ITISCANNER) 61 Nhận dạng tài liệu, xử lý tiếng việt bao gồm việc soát lỗi tách lập mục tự động tài liệu - Tạo danh mục tài liệu mẫu cho dự án Hình 3.3: Sơ đồ tạo danh mục tài liệu mẫu o Quét các tài liệu import các file tài liệu đƣợc quét từ trƣớc vào để làm danh mục tài liệu mẫu o Thiết lập cấu hình, tạo các tài liệu mẫu, các quy tắc đặt tên file, đánh mục… o Hoặc chọn các mẫu tài liệu có sẵn thƣ viện tài liệu mẫu của hệ thống o Lƣu danh mục tài liệu mẫu, các quy tắc đặt tên file, đánh mục các cấu hình khác cho dự án - Số hóa, trích rút thông tin lập mục tự động 62 Hình 3.4: Sơ đồ việc số hóa trích rút thông tin, lập mục tự động o Ngƣời dùng quét các văn từ máy scan import các văn đƣợc quét từ trƣớc Kế của bƣớc các văn đƣợc số hóa mức dƣới dạng các ảnh 63 o Các văn dạng ảnh (chụp) đƣợc lƣu vào sở liệu nhƣ phiên gốc của tài liệu để phục vụ cho hệ thống quản lý văn Đồng thời hệ thống ITISCANNER kích hoạt các engine FineReader FlexiCapture của ABBYY thông qua các API để nhận dạng các văn dƣới dạng ảnh thu văn dạng text o Phân tích văn tìm kiếm mẫu tƣơng ứng danh mục tài liệu mẫu đƣợc thiết lập cho dự án Nếu tìm thấy mẫu tƣơng ứng thì trích rút thông tin theo mẫu o Nếu không tìm thấy mẫu tƣơng ứng danh mục tài liệu mẫu, hệ thống đƣa thông báo yêu cầu ngƣời dùng tạo tài liệu mẫu dựa tài liệu đƣa vào danh mục tài liệu mẫu của dự án o Trích rút thông tin theo mẫu đƣợc thiết lập tƣơng ứng o Đặt tên file, lập mục tự động theo cấu trúc đƣợc thiết lập cho dự án o Lƣu vào sở liệu của hệ thống Hệ thống quản lý tài liệu (DMS) Hình 3.5: Sơ đồ hệ thống quản lý văn - Cho phép tìm kiếm theo các tiêu chí khác trả kết tìm kiếm 64 3.4 Xem tài liệu, biên tập chỉnh sửa các metadata của tài liệu (từ khóa, tóm tắt nội dung…) Đƣợc xây dựng theo hƣớng mở để đảm bảo số yêu cầu sau nhƣ: tính bảo mật (tài liệu đọc đƣợc sử dụng hệ thống), trao đổi files… Dự toán kinh phí cho dự án 3.4.1 Tổng dự toán STT Hạng mục Giá thành (đồng) Chi phí số hóa tài liệu lƣu trữ hành 40.000.000.000 Kinh phí đầu tƣ trang thiết bị các hệ thống phần 1.164.000.000 mềm ứng dụng Kinh phí đầu tƣ xây dựng phần mềm ứng dụng 1.836.000.000 ITISCANNER Chi phí khác: Bao gồm chi phí quản lý, phát 500.000.000 triển kế hoạch, nghiệm thu, hội nghị, hội thảo, công tác phí Tổng 43.500.000.000 3.4.2 Kinh phí số hóa tài liệu lưu trữ hành - Số trang hồ sơ, tài liệu lƣu trữ cần quét: 5000 m giá tài liệu tƣơng đƣơng 20.000.000 trang tài liệu - Theo giá trung bình thị trƣờng, với đơn giá trang tài liệu trung bình khoảng 5.000 đ, thì với số lƣợng tài liệu lớn của Trung tâm, số tiền để thực số hóa lớn nhƣ sau: 20.000.000 trang x 5.000 đ = 100.000.000.000 đồng - Trong đó sử dụng hệ thống ITISCANNER với đơn giá tính 2.000 đồng/trang chi phí để số hóa tiết kiệm tới 60.000.000.000 đồng 20.000.000 trang x 2.000 đ = 40.000.000.000 đồng 3.4.3 Kinh phí đầu tư trang thiết bị hệ thống phần mềm ứng dụng STT Danh mục đầu tƣ thiết bị phần mềm hệ thống I Hệ thống DMS Máy chủ Thiết bị mạng Máy trạm Phần mềm MS SQL, Sharepoint, Lotus Domino II Hệ thống ITISCANNER Máy chủ quản lý sở liệu Số lƣợng Đơn giá (1.000 đồng) 10 50.000 40.000 14.000 7.000 Thành tiền (1.000 đồng) 300.000 100.000 40.000 140.000 21.000 50.000 864.000 100.000 65 Tủ đĩa lƣu trữ thông tin hồ sơ, tài liệu Máy chủ cài đặt phần mềm ứng dụng Phần mềm quét ảnh xử lý lƣu trữ hồ sơ tài liệu Hệ thống lƣu liệu Máy tính trạm Máy quét Lƣu điện KVA cho máy chủ Lƣu điện 500 VA cho máy tính trạm 72.000 144.000 50.000 100.000 24.000 48.000 10 10 10 24.000 14.000 14.000 22.000 10.000 48.000 140.000 140.000 44.000 100.000 Tổng 1.164.000 3.4.4 Kinh phí đầu tư xây dựng phần mềm ứng dụng STT Chức I Hệ thống DMS Nhập file Tìm kiếm Quản lý ngƣời dùng Quản lý nội dung Quản lý công việc Quản lý biểu mẫu Quản lý tài khoản cổng giao tiếp Quản lý tài liệu cổng giao tiếp Thiết kế sở liệu 10 Chuyển liệu vào Sharepoint 11 Các chức hệ thống 12 Thiết kế, viết tài liệu 13 Quản lý dự án 14 Kiểm thử 15 Hỗ trợ Khoa học công nghệ II Hệ thống ITISCANNER Nhập liệu Nhận dạng Đánh mục Mô tả Tìm kiếm theo các tiêu chí, quản lý phiên Đăng nhập, tài khoản, phân quyền Danh mục, tiêu chí tìm kiếm, hình thức phân phối Phân công, theo dõi , nhắc việc, điều tuyến Thêm, xóa, xem, update Khóa cứng, tài khoản ngƣời dùng Xem, up, down, xóa, thêm Thiết kế các bảng, chuẩn liệu cho dự án Chuyển liệu thƣ viện giao diện plug-in cho Sharepoint Giá thành (1.000 đồng) 770.000 10.000 38.000 12.000 20.000 62.000 11.000 48.000 31.000 40.000 48.000 18.000 52.000 57.000 50.000 70.000 Giao tiếp với scanner, preview, set up tham số quét Giao tiếp xử lý ABBYY Đánh mục tự động, thiết kế 1066.000 88.000 75.000 122.000 66 Soát lỗi Hƣớng dẫn sử dụng Quốc tế hóa Quản lý ngƣời dùng Chuyển liệu sang ECM Thiết kế sở liệu 10 11 12 13 Tổng Thiết kế, viết tài liệu Quản lý dự án Kiểm thử Hỗ trợ Khoa học công nghệ quy tắc đánh mục Chỉnh sửa lỗi nhận dạng, nâng cao chất lƣợng của ABBYY Các tài liệu hƣớng dẫn, tra cứu dẫn Bao gồm khóa cứng, quản lý hạn sử dụng 70.000 82.000 16.000 55.000 52.000 Sharepoint Lotus Domino Thiết kế các bảng chuẩn liệu 98.000 60.000 80.000 198.000 70.000 1.836.000 TIỂU KẾT CHƢƠNG Chƣơng tập trung trình bày kết nghiên cứu, khảo sát để triển khai dự án số hóa tài liệu lƣu trữ bảo quản Trung tậm Lƣu trữ Quốc gia III Đƣa các giải pháp nhằm thực theo mục tiêu của đề tài, đƣa đƣợc quy trình kỹ thuật số hóa, các giải pháp kỹ thuật, dự toán kinh phí cho dự án Tuy nhiên, còn có nhiều vấn đề cần đƣợc tiếp tục nghiên cứu, giải nhƣ: quy định của pháp luật vấn đề số hóa, nguồn kinh phí cụ thể, quy trình công việc cho toàn dự án số hóa từ vấn đề quản lý đến kiểm soát chất lƣợng Do phần lớn công việc số hóa liên quan đến vấn đề kỹ thuật nhiều hơn, phần nội dung kỹ thuật trình bày, nêu cách chi tiết luận văn vì tính phức tạp, đa dạng của các tình khác của chúng Cuối cùng, mong giải pháp nêu đóng góp việc định hƣớng cho quan quản lý nhà nƣớc có thẩm quyền nói chung, Trung tâm Lƣu trữ Quốc gia III nói riêng có cách nhìn cách toàn diện, khách quan để tổ chức triển khai số hóa tài liệu lƣu trữ đạt hiệu cao, mang lại lợi ích thiết thực cho toàn xã hội 67 KẾT LUẬN Sự tiến của nhân loại khoa học – công nghệ, đó xuất phát triển mạnh mẽ của công nghệ số hóa tài liệu mang lại hội lĩnh vực lƣu trữ, thƣ viện bảo tàng để tăng cƣờng khả bảo quản tài liệu gốc tiếp cận nguồn thông tin cách thuận lợi, nhanh chóng, vƣợt qua giới hạn thời gian không gian chƣa có lịch sử của loại ngƣời Trung tâm Lƣu trữ Quốc gia III cũng chuẩn bị triển khai việc áp dụng công nghệ số hóa vào tài liệu lƣu trữ bảo quản Trung tâm nhằm đạt đƣợc các mục tiêu chung đó Mục tiêu của đề tài nhằm nghiên cứu đề xuất các giải pháp để triển khai dự án số hóa khối tài liệu lƣu trữ hành bảo quản Trung tâm Lƣu trữ Quốc gia III hệ thống ITISCANNER Kết nghiên cứu của luận văn có thể khái quát nhƣ sau: - Nghiên cứu, tổng hợp sở lý luận, kinh nghiệm, phân tích mục đích mô hình áp dụng kỹ thuật số hóa tài liệu lƣu trữ, ƣu điểm-nhƣợc điểm tổng quan kỹ thuật số hóa tài liệu lƣu trữ Đây vừa tảng lý luận vừa luận chứng khả áp dụng công nghệ số hóa để triển khai dự án số hóa tài liệu lƣu trữ bảo quản Trung tâm Lƣu trữ Quốc gia III - Để đảm bảo việc triển khai dự án số hóa tài liệu lƣu trữ có tính khả thi hiệu cao, tiến hành khảo sát thực tế khối tài liệu lƣu trữ bảo quản Trung tâm Lƣu trữ Quốc gia III đƣa liệu các vấn đề nhƣ: số lƣợng, thời gian, đặc điểm, tình trạng vật lý mức độ hƣ hỏng của tài liệu lƣu trữ… Trên sở đó, đánh giá khả áp dụng công nghệ số hóa khối tài liệu lƣu trữ - Đề xuất các giải pháp quy trình số hóa, công nghệ sử dụng, dự toán kinh phí để thực dự án số hóa tài liệu lƣu trữ bảo quản Trung tâm Lƣu trữ Quốc gia III Từ kết trên, giải mục tiêu nhiệm vụ của đề tài đề ra, đồng thời định hƣớng vấn đề cần đƣợc tiếp tục nghiên cứu giải với các đề tài khác thời gian tới Hy vọng với những kết nghiên cứu đạt đƣợc đóng góp thiết thực cho việc triển khai số hóa tài liệu lƣu trữ bảo quản Trung tâm Lƣu trữ Quốc gia III dự kiến tiến hành tƣơng lai đạt đƣợc kết tốt Đồng thời, góp phần việc bảo vệ, kéo dài tuổi thọ tài liệu lƣu trữ gốc phát huy giá trị của tài liệu lƣu trữ công xây dựng bảo vệ đất nƣớc Tôi hiểu vấn đề đề cập luận văn còn số vấn đề chƣa đƣợc trình bày, phân tích, giải thấu đáo phải tiếp tục nghiên cứu cặn kẽ 68 Tôi mong nhận đƣợc bảo, góp ý của các nhà khoa học, các bạn đồng nghiệp để luận văn của đƣợc hoàn thiện 69 TÀI LIỆU THAM KHẢO Tiếng Việt Đào Xuân Chúc – Nguyễn Văn Hàm – Vƣơng Định Quyền – Nguyễn Văn Thâm (1990), Lý luận thực tiễn công tác lưu trữ, NXB Đại học Giáo dục chuyên nghiệp, Hà Nội Cục văn thƣ Lƣu trữ nhà nƣớc (2012), Các công trình nghiên cứu khoa học Cục văn thư Lưu trữ nhà nước 1962-2012, Hà Nội Nguyễn Cảnh Đƣơng (2008), khái niệm, vai trò tầm quan trọng siêu liệu quản lý tài liệu điện tử, Tạp chí Văn thƣ Lƣu trữ Việt Nam, số Cảnh Đƣơng - Đức Mạnh (2008), Bàn khái niệm tài liệu điện tử, Tạp chí Văn thƣ Lƣu trữ Việt Nam, số Nguyễn Thị Hà (2010), Nghiên cứu xây dựng giải pháp chuyển liệu số hóa máy quét thông dụng sang microfilm qua máy ghi phim Kodak I9610, Đề tài khoa học cấp Bộ Nguyễn Thị Hà (2013), Nghiên cứu giải pháp số hóa tài liệu lưu trữ giấy quý, có tình trạng mờ chữ để lập bảo hiểm, Đề tài khoa học cấp Bộ Hƣớng dẫn số 169/HD-VTLTNN ngày 10 tháng năm 2010 của Cục Văn thƣ Lƣu trữ Nhà nƣớc xây dựng sở liệu lƣu trữ Kỷ yếu Hội thảo khoa học SARBICA (2009), Số hóa tài liệu lưu trữ -chia sẻ kinh nghiệm, Hà Nội Luật Lƣu trữ số: 01/2011/QH13 ban hành ngày 11/11/2011 10 Lê Thị Mùi (2007), Bàn phương pháp bảo vệ sở liệu chiến lược bảo quản tài liệu điện tử, Tạp chí Văn thƣ Lƣu trữ Việt Nam, số 11 Lê Thị Mùi (2009), Siêu liệu vai trò lưu trữ điện tử, Tạp chí Văn thƣ Lƣu trữ Việt Nam, số 12 Nghị định số 01/2013/NĐ-CP ngày 03 tháng 01 năm 2013 của Chính phủ quy định chi tiết thi hành số điều của Luật Lƣu trữ 13 TS Nguyễn Lệ Nhung (2009), Vài nét khái niệm “tài liệu”, “tài liệu điện tử”, đăng trang tin điện tử http://www.archives.gov.vn/content/Lists/Tin%20nghin%20cu%20trao%20i/Di spForm.aspx?ID=17 70 14 Lƣu Văn Phòng (2009), Những vấn đề số hóa tài liệu lưu trữ, Tạp chí Văn thƣ Lƣu trữ Việt Nam, số 10 15 Quyết định số 176/QĐ-VTLTNN ngày 21/10/2011 của Cục Văn thƣ Lƣu trữ nhà nƣớc ban hành quy trình hƣớng dẫn thực quy trình số hóa tài liệu lƣu trữ để lập bảo hiểm sử dụng 16 Quyết định số 310/QĐ-VTLTNN ngày 21 tháng 12 năm 2012 của Cục Văn thƣ Lƣu trữ Nhà nƣớc ban hành quy trình tạo lập sở liệu tài liệu lƣu trữ 17 Ths.Nguyễn Thùy Trang, Kinh nghiệm Lưu trữ nước số hóa tài liệu lưu trữ, Bài đăng trang thông tin điện tử www.archives.gov.vn 18 Tiêu chuẩn Quốc tế ISO 15489-1:2001 15489-2:2001 (2005), thông tin tư liệu – quản lý hồ sơ, Hà Nội Tiếng Anh Anne R Kenney and Stephen Chapman, Department of Preservation and Conservation Cornell University (1995), Digital Resolution Requirements for Replacing Text-Based Material: Methods for Benchmarking Image Quality, Washington, DC http://www.clir.org/pubs/reports/pub53 Ahmed, Fazluddin, (2009), Digitization as a Means of Preservation of Manuscripts: Case study of Osmania University Library, University Library, Osmania University, Andhra Pradesh www.inflibnet.ac.in/caliber2009/CaliberPDF/12.pdf The commission on Preservation and Access (1995), Tutorial - Digital Resolution Requirements for replacing text-based material: Methods for Benchmarking Image Quality Cornell University Library (2003), Moving Theory into Practice Digital Imaging Tutorial http://www.library.cornell.edu/preservation/tutorial/contents.html Canadian Council of Archives (2002), Digitization and Archives, Ottawa http://www.cdncouncilarchives.ca/public_free.htm Canada, Department of Canadian Heritage (2001) “Standards and Guidelines for Digitization Projects for Canadian Culture Online Program” Ottawa http://www.pch.gc.ca/ccop-pcce/pubs/ccoppcceguide_e.pdf 71 Daniel D.Whitney (2002), Scanning Archival Material, Orangevale, CA 95662 www.enginehistory.org/Scanning%20Documents.pdf Eugui, Leire Arrula (2012), Master thesis: Case studies on digitization and metadata creation and management https://oda.hio.no/jspui/handle/10642/1275 10 International Records Management Trust (2009), Training in Electronic Records Management, London 11 Jeremy, P DeGracia (2009), The digitization dicision: Factors to consider when converting material to digital format, California, U.S.A http://www.librarystudentjournal.org/index.php/lsj/article/view/82/244 12 Michael Roperk (1999), The Management of Public Sector Records: Principles and Context, International Records Management Trust, UK.North Carolina Exploring Cultural Heritage Online (NC ECHO), Guidelines for Digitization, North Carolina http://digitalpreservation.ncdcr.gov/17 13 Sitts, Maxine K (2000), Handbook for Digital Projects: A Management Tool for Preservation and Access, Andover, Northeast Document Conservation Center, Massachusetts www.nedcc.org/assets/media/documents/dman.pdf 14 Steven Puglia, Jeffrey Reed, and Erin Rhodes, (2004), Technical Guidelines for Digitizing Archival Materials for Electronic Access: Creation of Production Master files – Raster Images, National Archives and Records Administration of US http://www.digitizationguidelines.gov/guidelines/digitizetechnical.html Các trang web tham khảo chủ yếu đƣợc sử dụng luận văn: http://www.archives.gov http://www.archives.gov.vn http://www.archives.org.uk http://www.nationalarchives.gov.uk http://www.vanthuluutru.com

Ngày đăng: 07/07/2016, 22:37

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan