Phương pháp luận và nghiên cứu khoa học _đề tài_ xây dựng và phát triển phần mềm dịch thuật qua hình ảnh hỗ trợ ngôn ngữ tiếng việt chạy trên hệ điều hành windows phone

10 1.2K 2
Phương pháp luận và nghiên cứu khoa học  _đề tài_ xây dựng và phát triển phần mềm dịch thuật qua hình ảnh hỗ trợ ngôn ngữ tiếng việt chạy trên hệ điều hành windows phone

Đang tải... (xem toàn văn)

Thông tin tài liệu

Phương pháp luận và nghiên cứu khoa học đề tài xây dựng và phát triển phần mềm dịch thuật qua hình ảnh hỗ trợ ngôn ngữ tiếng việt chạy trên hệ điều hành windows phone

HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG Khoa Công Nghệ Thông Tin ------oOo------ BÀI TIỂU LUẬN MÔN PHƢƠNG PHÁP LUẬN NGHIÊN CỨU KHOA HỌC Đề tài: Xây dựng phát triển phần mềm dịch thuật qua hình ảnh hỗ trợ ngôn ngữ Tiếng Việt chạy trên hệ điều hành Windows Phone. Giáo viên hƣớng dẫn: Đặng Hoài Bắc Hà Nội – Tháng 5 năm 2013 Đề tài: Xây dựng phát triển phần mềm dịch thuật qua hình ảnh hỗ trợ ngôn ngữ Tiếng Việt chạy trên hệ điều hành Windows Phone NỘI DUNG BÁO CÁO: I. Đặt vấn đề II. Giới thiệu chung III. Giới thiệu các công nghệ sử dụng IV. Chi tiết chức năng phần mềm V. Kết luận VI. Phụ lục: các link tài liệu tham khảo I. ĐẶT VẤN ĐỀ Bạn là người đi du lịch nước ngoài mà lại không giỏi tiếng bản xứ, bạn là người muốn học tốt ngoại ngữ hay đơn giản là bạn chỉ muốn hiểu dòng chữ nước ngoài trên một bảng hiệu quảng cáo nào đó… với những vấn đề như vậy bạn cần một cuốn từ điển hay một chiếc Smartphone với những phần mềm dịch thuật thông thường, nhưng việc tra cứu như vậy vẫn rất mất thời gian vì bạn phải tìm trong từ điển hay gõ lại dòng chữ vào chiếc smartphone của mình. Chính vì vậy mục tiêu nghiên cứu của đề tài này là phát triển phần mềm dịch thuật thông qua hình ảnh, điều đó có nghĩa là những đoạn văn bản có trong hình ảnh bạn chụp lại sẽ được dịch lại qua một ngôn ngữ lựa chọn. Ý tưởng này đã được Apple Google phát triển trên những hệ điều hành của mình là iOS Adroid. Còn Windows phone thì sao? Người dùng smartphone chạy Windows phone vẫn chưa có được một phần mềm tương tự. Vậy đề tài này hướng tới mục tiêu nghiên cứu phần mềm hữu ích này trên hệ điều hành Windows phone. Ảnh minh họa II. GIỚI THIỆU CHUNG 1. MỤC ĐÍCH Mục tiêu của đề tài là xây dựng một phần mềm giúp làm đơn giản hóa công việc phiên dịch từ một ngôn ngữ này qua ngôn ngữ khác. Yêu cầu của phần mềm là gọn nhẹ, giao diện dễ sử dụng hoạt động chính xác, nhanh chóng. 2. MÔI TRƢỜNG HOẠT ĐỘNG Phần mềm chạy trên các smartphone hay tablet chạy hệ điều hành Windows phone. 3. CÁC CHỨC NĂNG a. Chức năng chính Dịch các từ, cụm từ, đoạn văn bản có trong hình ảnh do camera của chính thiết bị chụp lại Dịch các từ, cụm từ, đoạn văn bản có trong hình ảnh chụp màn hình của thiết bị hay hình ảnh từ nguồn khác(sao chép từ smartphone, máy tính khác, hay hình ảnh khi duyệt web…) b. Chức năng khác Dịch trực tuyến: dịch các từ, cụm từ đoạn văn bản trong các tác vụ khác khi sử dụng Smartphone như trong khi cài đặt phần mềm, trong khi duyệt web… Dịch các từ, cụm từ đoạn văn bản dược gõ vào từ bàn phím trong trường hợp văn bản viết tay hay phông chữ không chuẩn để có thể dịch thông qua hình ảnh. III. GIỚI THIỆU CÁC CÔNG NGHỆ ĐƢỢC SỬ DỤNG 1. TESSERACT(PHẦN MỀM LỌC TEXT) Tesseract là một phần mềm miễn phí nhận dạng ký tự quang học cho các hệ điều hành khác nhau. Phát triển như là phần mềm độc quyền tại Hewlett-Packard từ năm 1985 đến năm 1995, nó có rất ít công việc thực hiện trên nó trong thập niên tiếp theo. Sau đó nó đã được phát hành như mã nguồn mở vào năm 2005 bởi Hewlett Packard UNLV . Tesseract phát triển đã được tài trợ bởi Google từ năm 2006. [ 3 ] Nó được phát hành theo giấy phép Apache. Tesseract được coi là một trong những phần mềm miễn phí OCR chính xác nhất hiện nay. Vai trò của tesseract? Tesseract là một phần mềm lọc text, nghĩa là tách phần văn bản có trong hình ảnh. Phần mềm này sẽ có nhiệm vụ là lọc lấy các kí tự văn bản có trong hình ảnh mà ta cần dịch. Sau đó phần văn bản lọc được này sẽ chuyển qua để phiên dịchphần mềm tiếp theo. Các phiên bản ban đầu của Tesseract chỉ có thể nhận ra văn bản tiếng Anh. Qua quá trình phát triển, hiện nay Tesseract có thể hiểu được tiếng Ả Rập, tiếng Anh, Bungari, Catalan, Séc, Trung Quốc (giản thể truyền thống), Đan Mạch, Đức (tiêu chuẩn Fraktur kịch bản), Hy Lạp, Phần Lan, Pháp, tiếng Do Thái, Croatia, Hungary, Indonesia, Ý, Nhật Bản, Hàn Quốc, Latvia, Lithuania, Hà Lan, Na Uy, Ba Lan, Bồ Đào Nha, Rumani, Nga, Slovakia (tiêu chuẩn Fraktur kịch bản), Slovenia, Tây Ban Nha, Serbia, Thụy Điển, tiếng Tagalog, Thái, Thổ Nhĩ Kỳ, Ukraina Việt Nam. Nếu Tesseract được sử dụng để xử lý văn bản từ phải sang trái như tiếng Ả Rập hay tiếng Do Thái, các kết quả được sắp xếp như thể đó là văn bản trái sang phải. 2. GOOGLE TRANSLATE(PHẦN MỀM DỊCH) Google Dịch thuật (hay Google Translate) là một công cụ dịch thuật trực tuyến được Google cung cấp. Nó dùng để dịch tự động một đoạn ngắn, hoặc nguyên một trang web sang ngôn ngữ khác, đối với tài liệu có kích thước lớn người dùng cần tải lên cả tài liệu để dịch. Google Dịch ra đời hoàn thiện hơn hẳn những công cụ dịch thuật sơ khai lúc bấy giờ. Các công cụ dịch thuật cơ bản như kim từ điển thường chỉ dịch nghĩa các từ đơn hoặc các nhóm từ đơn giản. Trong khi đó, Google Dich cho phép dịch toàn bộ đoạn văn bản giữa các ngôn ngữ với nhau. Điều này rất hữu ích với người dùng. Ngoài việc tiết kiệm thời gian cho người dùng, Google Dich còn là công cụ dịch thuật tương đối chính xác linh hoạt khi dịch câu văn. IV. CHI TIẾT CHỨC NĂNG PHẦN MỀM 1. CHỨC NĂNG CHÍNH Dịch từ, cụm từ, doạn văn bản có trong hình ảnh được chọn(ảnh do camera máy tự chụp hoặc ảnh từ nguồn khác) Bƣớc 1: Lọc văn bản Hình ảnh được chọn sẽ qua giai đoạn lọc text do phần mềm tesseract đảm nhận Bƣớc 2: Dịch Các đoạn văn bản đã được lọc ra từ hình ảnh ở Bước 1 sẽ đưa vào quá trình biên dịch của công cụ Google Translate. Bƣớc 3: Hiển thị Đoạn văn bản sau khi đã được dịch lại thifsex được in ra màn hình với giao diện của phần mềm. 2. CÁC CHỨC NĂNG KHÁC a. Dịch trực tuyến Trong quá trình sử dụng máy ta có thể tiếp xúc với những từ tiếng nước ngoài ví dụ như: trong khi cài dặt phần mềm, khi lướt web đọc báo… ta cần dịch nhanh cụm từ. quá trình biên dịch đễ dàng qua các bước Bƣớc 1: Bôi đen từ hay đoạn văn bản cần dịch Bƣớc 2: Đoạn văn bản được chuyển qua công cụ Google Translate dịch sang ngôn ngữ đã chọn. Bƣớc 3: Hiển thị đoạn văn bản đã dịch ra màn hình trong giao diện của phần mềm. b. Chức năng dịch cơ bản Đối với những đoạn văn bản viết tay hay văn bản viết với phông chữ cách điệuphần mềm lọc text tesseract không lọc được thì ta cần phải sử dụng phương pháp truyền thống là gõ lại đoạn văn bản vào phần mềm dịch. Bƣớc 1: nhận diện đoạn văn bản mà người sử dụng gõ vào ô địa chỉ cho từ cần dịch Bƣớc 2: Chuyển đoạn văn bản vào công cụ Google translate Bƣớc 3: Hiển thị đoạn văn bản đã được dịch ra màn hình trong giao diện của phàn mềm 3. HỖ TRỢ TỐI ĐA TIẾNG VIỆT Với một số ngôn ngữ không thể dịch trƣc tiếp ra Tiếng Việt thì ta phải làm sao? Để tối ưu hóa phần mềm thì việc biên dịch giữa các ngôn ngữ khác nhau phải được hỗ trợ đầy đủ(không chỉ trong phạm vi Tiếng Việt). một số ngôn ngữ phức tạp mà không thể dịch hay chưa hỗ trợ dịch sang một ngôn ngữ khác nào đó. Đây không phải là một vấn đề lớn. Để dịch từ ngôn ngữ A sang B mà chưa hỗ trợ dịch trực tiếp thì: Bƣớc 1: Dịch ngôn ngữ A sang tiếng Anh Bƣớc 2: Lưu đoạn văn bản vừ dịch được vào bộ nhớ tạm thời(được khởi tạo trong phần mềm) Bƣớc 3: Từ trong bộ nhớ tạm thời, đoạn văn bản được dịch sang ngôn ngữ B Bƣớc 4: hiển thị ra màn hình Bƣớc 5: Xóa dữ liệu trong bộ nhớ tạm thời để tiết kiệm tài nguyên. 4. ĐẶC ĐIỂM PHẦN MỀM Dung lượng thấp, nhẹ Đễ dàng khởi động: Nhanh chóng, thao tác khởi động đơn giản Giao diện đơn giản, thân thiện Ảnh minh họa V. KẾT LUẬN Trong thời buổi khoa học công nghệ ngày càng phát triển, ngày nay điện thoại thông minh được sử dụng rất phổ biến. Với một phần mềm biên dịch tương đối toàn diện như vậy là không thể thiếu. Tuy nhiên trong quá trình xây dựng cũng sẽ gặp rất nhiều khó khăn. Mặt khác, hiện nay trên thị trường smartphone thì thị phần người sử dụng smartphone chạy Windows phone không cao nên giá trị thương mại của phần mềm sẽ không cao. Mặc dù vậy đây cũng là một môi trường đầy hứa hẹn trong tương lai. VI. PHỤ LỤC Nguồn tham khảo: http://www.baomoi.com/Ung-dung-dich-anh-cua-sinh-vien-Viet-len- Apple-Store/76/9291601.epi http://en.wikipedia.org/wiki/Tesseract_%28software%29 http://www.baomoi.com/Google-Translate-cho-phep-dich-thong-qua- hinh-anh/76/9093527.epi http://vi.wikipedia.org/

Ngày đăng: 12/11/2013, 19:13

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan