Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt

121 506 0
Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN CÔNG NGHỆ THƠNG TIN 18 Hồng Quốc Việt, Hà Nội BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ TIẾNG VIỆT Thời gian thực hiện: 2001- 6/2004 Chủ nhiệm đề tài: GS.TSKH Bạch Hưng Khang HÀ NƠI, 12/2004 Bản quyền 2004 thuộc Viện Cơng nghệ thơng tin Đơn xin chép tồn phần tài liệu phải gửi đến Viện trưởng Viện Công nghệ thông tin trừ trường hợp sử dụng với mục đích nghiên cứu VIỆN KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM VIỆN CƠNG NGHỆ THƠNG TIN 18 Hồng Quốc Việt, Hà Nội BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ TIẾNG VIỆT Thời gian thực hiện: 2001- 6/2004 Chủ nhiệm đề tài: GS.TSKH Bạch Hưng Khang HÀ NỘI, 12/2004 Tài liệu chuẩn bị sở kết thực Đề tài cấp Nhà nước mã số KC01-03 DANH SÁCH NHỮNG NGƯỜI THỰC HIỆN CHÍNH TT Họ tên Bạch Hưng Khang Ngô Cao Sơn Lương Chi Mai Ngô Quốc Tạo Lê Khánh Hùng Chức vụ, học vị GS.TSKH NCVCC KS TS NCVC PGS TS NCVC TS Vũ Kim Bảng TS GS TSKH Thạc sĩ Hồ Tú Bảo Nguyễn Thị Minh Huyền Đàm Hiếu Dũng KS 10 Ngô Hồng Huy KS Đơn vị cơng tác Viện CNTT Nhiệm vụ thuộc đề tài Chủ nhiệm đề tài Viện CNTT Viện CNTT Viện CNTT Thư ký Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Viện NCUDCN Trung tâm Ngữ âm học thực nghiệm Viện CNTT ĐHKHTN Hà nội Trung tâm kỹ thuật thơng Viện CNTT Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Trưởng nhóm Đơn vị phối hợp Hoạt động tổ chức phối hợp tham gia thực dự án TT Tên tổ chức Trung tâm Ngữ âm học thực nghiệm, Viện Ngôn ngữ học, Trung tâm khoa học xã hội nhân văn Địa 22 Lý Thái Tổ Trug tâm nghiên cứu ứng dụng quang điện tử, Viện nghiên cứu ứng dụng công nghệ Khoa Tốn – Cơ – Tin học, Bộ mơn Tin học, ĐHKHTN Hà nội Trung tâm kỹ thuật thông – TTXVN C6 Thanh xuân bắc, Hà nội Nguyễn Trãi, Hà nội Lý Thường Kiệt Hoạt động/đóng góp cho đề tài Xây dựng CSDL ngữ âm, phân tich đặc trưng ngôn ngữ, ngữ âm, điệu cho tiếng Việt: - Phân tích phổ âm vị khó - Nghiên cứu cấu trúc nguyên âm - Nghiên cứu cấu trúc âm tiếng Việt, tổng hợp giọng nói Nghiên cứu phát triển phương pháp dịch tự động Việt - Anh Nghiên cứu phương pháp dóng hàng văn song ngữ Pháp - Việt / Việt – Pháp Xây dựng công nghệ Coding ngữ nghĩa âm Nhóm nghiên cứu triển khai Công ty NetNam GS John-Paul Hosom, CSLU- Center of Spoken Language Understanding, OGI, USA GS Hansjoerg Mixdorff, University of Applied Science, Berlin GS Hiroya Fujisaki, Frontier Informatics, School of Frontier Science, University of Tokyo Tích hợp cơng nghệ tổng hợp 18 Đường Hồng Quốc nhận dạng tiếng Việt với dịch vụ số INTERNET Việt hệ hai ứng dụng Cung cấp công cụ phương Cascade pháp nhận dạng HMM Building 20000 N.W ANN, CSDL tiếng Việt qua mạng điện thoại Walker Road Beaverton, OR 97006 Steinstr 27 Phương pháp mơ hình Fujisaki cho ngơn ngữ có A, 12307 điệu Berlin Germany Phương pháp mô hình 7-3-1 Fujisaki cho ngơn ngữ có Hongo Bunkyo-ku, điệu Tokyo 113003 Japan TÓM TẮT Kể từ hệ máy tính điện tử (MTĐT) đầu tiên, giới nghiên cứu công nghệ ý thức muốn phát huy khả xử lý MTĐT phải tìm cách để máy người giao tiếp với ngơn ngữ tự nhiên Trong có nhiều vấn đề khác cần giải số vấn đề mấu chốt giao tiếp người máy xử lý ngôn ngữ tự nhiên, tổng hợp, nhận dạng tiếng nói, chữ viết, dịch tự động Sau gần nửa kỷ nghiên cứu thử nghiệm, có số phần mềm thương phẩm, chủ yếu cho tiếng Anh Đối với tiếng Việt ngơn ngữ đơn âm có điệu cịn chưa có nhiều nghiên cứu kết Mục đích đề tài nghiên cứu khảo sát xây dựng phương pháp hiệu cho tổng hợp, nhận dạng xử lý ngơn ngữ tiếng Việt Ba nội dung quan hệ chặt chẽ với nghiên cứu đề tài KC01-03 là: Nhận dạng tổng hợp tiếng Việt Nhận dạng chữ Việt in viết tay có hạn chế Xử lý ngơn ngữ tự nhiên tiếng Việt (các giải pháp xử lý ngôn ngữ tự nhiên tiếng Việt, nhằm tới mục đích dịch tự động) Các nội dung đề tài tập trung vào nghiên cứu đặc thù ngữ âm, điệu, văn phạm tiếng Việt; kế thừa, phát triển công cụ tổng hợp, nhận dạng, phân tích văn phạm, dịch tự động để áp dụng hiệu cho tiếng Việt Đề tài vừa phát triển số giải pháp, phương pháp công cụ bản, vừa bước tạo số sản phẩm thiết thực phục vụ cho ứng dụng Mỗi nhánh đề tài có sản phẩm phần mềm phần mềm tổng hợp tiếng Việt VnVoice 2.0, phần mềm nhận dạng lệnh VnCommand, phần mềm viết tả phụ thuộc giọng đọc VnDictator; phần mềm nhận dạng chữ Việt in VnDOCR 3.0; phần mềm nhận dạng phiếu điều tra MarkRead 2.0 có modul tích hợp chữ viết tay hạn chế; phần mềm dịch tự động Việt – Anh EVTRAN 2.5 Ngoài sản phẩm nói cịn có kết dạng công cụ phục vụ cho nghiên cứu tiếng Việt phương pháp công nghệ xây dựng CSDL ngữ âm tiếng Việt, dóng hàng song ngữ, mơ hình từ điển điện tử cho xử lý ngôn ngữ tự nhiên Đề tài đóng góp nghiên cứu cơng bố tạp chí, hội nghị nước,làm phong phú thêm mặt lý thuyết cho tổng hợp nhận dạng ngôn ngữ đơn âm đa điệu, mảng chưa có thật nhiều kết giới MỤC LỤC Lời mở đầu Nội dung báo cáo 2.1 Tổng quan tình hình nghiên cứu nước 2.2 Những nội dung thực .10 2.2.1 Kết nghiên cứu Tổng hợp Nhận dạng tiếng Việt 10 2.2.1.1 Các kết nghiên cứu .10 Khảo sát ngữ âm tiếng Việt 10 Tổng hợp tiếng Việt 11 Nhận dạng tiếng Việt 12 2.2.1.2 Sản phẩm phần mềm 17 Hệ thống Tổng hợp tiếng nói VnVoice 2.0 .17 Chương trình nhận dạng lệnh VnCommand 18 Chương trình đọc tả VnDictator .18 Chương trình xây dựng công nghệ coding ngữ nghĩa âm .19 2.2.1.3 Về triển khai ứng dụng 20 Ứng dụng tổng hợp tiếng nói 20 2.2.2 Nghiên cứu phát triển kỹ thuật nhận dạng chữ in viết tay tiếng Việt .20 Nhận dạng chữ Việt in VnDOCR 3.0 22 Nhận dạng chữ viết tay có hạn chế 22 2.2.3 Nghiên cứu phát triển kỹ thuật xử lý ngôn ngữ tự nhiên tiếng Việt 24 2.2.3.1 Dịch tự độngViệt – Anh 24 2.2.3.2 Dóng hàng văn song ngữ Pháp-Việt 26 2.2.3.2 Mơ hình từ điển điện tử .28 2.3 Tổng quát hoá đánh giá kết thu 28 2.4 Kết luận kiến nghị 29 2.5 Tài liệu tham khảo 31 LỜI MỞ ĐẦU Nhận dạng xử lý ngơn ngữ nói viết tiếng Việt nhu cầu thiết yếu phát triển ứng dụng công nghệ thông tin Việt nam Giới nghiên cứu công nghiệp giới theo đuổi nghiên cứu công nghệ từ hàng chục năm qua, gần thu nhiều thành tựu quan trọng Khác với sản phẩm khác công nghệ thông tin, sản phẩm tiếng nói, chữ viết ngơn ngữ Việt khơng thể mua từ nước ngồi, người Việt làm sở tiếp thu thành tựu khoa học công nghệ giới theo đuổi thực lâu dài Những năm qua khn khổ chương trình trọng điểm nhà nước, số kết nghiên cứu sản phẩm nhận dạng xử lý tiếng Việt - tập trung cho nhận dạng chữ Việt in - thành công bắt đầu sử dụng rộng rãi Đề tài nhằm theo đuổi nghiên cứu phát triển phải thực lâu dài tiếng Việt máy tính với triển khai số phương hướng Mục tiêu đề tài nghiên cứu làm chủ phương pháp, kỹ thuật tiên tiến số lĩnh vực trí tuệ nhân tạo lý thuyết nhận dạng giới để xây dựng phương pháp hiệu cho nhận dạng tiếng nói, chữ viết, xử lý ngôn ngữ tự nhiên tiếng Việt Đề tài vừa tiếp tục xây dựng phương pháp công cụ vừa bước tạo số sản phẩm thiết thực nhằm giải số toán cấp bách phát triển ứng dụng công nghệ thông tin Việt nam Ba nội dung quan hệ chặt chẽ với nghiên cứu đề tài là: Nhận dạng tổng hợp tiếng Việt Nhận dạng chữ Việt in viết tay Xử lý ngôn ngữ tự nhiên tiếng Việt NỘI DUNG CHÍNH CỦA BÁO CÁO 2.1 Tổng quan tình hình nghiên cứu ngồi nước Ba lĩnh vực (1) nhận dạng tổng hợp tiếng nói, (2) nhận dạng chữ, (3) xử lý ngôn ngữ tự nhiên có liên quan mật thiết với nhau, tảng cho phát triển ứng dụng công nghệ thông tin quốc gia Nhận dạng tiếng nói nhằm chuyển thơng tin từ tiếng nói người vào máy tính, tổng hợp tiếng nói nhằm tự động tạo tiếng người nói máy tính Cùng với phát triển nhanh chóng cơng nghệ thơng tin nói chung mạng Internet nói riêng, nhận dạng tổng hợp tiếng nói ngày trở nên xu hướng tất yếu cho máy tính kỉ 21 Trong vòng 50 năm qua, nhiều thuật toán đề xuất triển khai hệ tự động nhận dạng tổng hợp tiếng nói Trên giới có nhiều phần mềm thương mại dành cho tiếng Anh IBM ViaVoice, Dragon Naturally Speaking, L&H Voice Xpress Những phần mềm cung cấp chức chủ yếu như: nhập văn vào máy, đọc văn thành lời, duyệt Web giọng nói Gần hãng Microsoft cơng bố việc tích hợp VUI (Voice User Interface) thay cho GUI (Graphic User Interface) truyền thống vào phiên hệ điều hành Windows hệ với mật danh Whistler Kết có ý nghĩa lớn giao tiếp người-máy: thay giao tiếp với máy tính qua biểu tượng cửa sổ, máy tính tương lai giao tiếp với người mệnh lệnh đơn giản Nhận dạng tổng hợp tiếng nói có vai trị quan trọng việc phát triển hệ thông tin di động hệ thứ (3G), với tính ưu việt tập trung máy điện thoại di động mà dịch vụ điển hình hệ thống thơng điệp hợp (Unified Messaging System - UMS) Sản phẩm bo mạch Dialogic tích hợp cơng nghệ tổng hợp nhận dạng tiếng nói qua điện thoại cho nhiều ngơn ngữ hệ Latinh Ngồi ra, ứng dụng điển hình mang tính chất kinh điển từ trước tới nhận dạng tiếng phục vụ cho điều khiển giọng nói bảo mật, cho tự động hố văn phịng, ứng dụng rộng rãi viễn thơng, bảo tồn văn hố, hỗ trợ người khuyết tật Về lĩnh vực nhận dạng chữ, phần mềm thương phẩm nhận dạng chữ in cho ngôn ngữ hệ Latinh Slavơ đạt chất lượng nhận dạng cao, ví dụ OMNIPAGE 11.0 Caere (Mỹ), Fine Reader 7.0 ABBYY (Nga), Yonde OCR Aisoft KanjiScan (Nhật) Để đạt tới phiên với chất lượng cao vậy, từ 10 năm nay, hãng phần mềm phải liên tục cho phát triển hoàn thiện chức nhận dạng tiền hậu xử lý Nhưng chữ viết tay trực tuyến gián tiếp, chất lượng nhận dạng thấp nhiều phương pháp nhận dạng chữ viết tay có hạn chế Vì tạp chí chuyên ngành nhận dạng, chủ đề đề cập đến nhiều với cách tiếp cận khác nhau, đề cập tới phương pháp cải tiến để tăng chất lượng nhận dạng, tách cắt chữ, kết hợp với ngữ nghĩa ngôn ngữ cụ thể Xử lý ngôn ngữ tự nhiên lĩnh vực nhằm làm cho máy tính hiểu sử dụng ngôn ngữ tự nhiên người (cả ngơn ngữ nói ngơn ngữ viết), bao gồm hệ dịch tự động, tìm kiếm thơng tin, tổng hợp văn tự động, tính tốn ngôn ngữ, v.v Dịch văn từ ngôn ngữ qua ngơn ngữ khác máy tính mơ ước từ buổi đầu công nghệ thông tin Với thành tựu nghiên cứu xử lý ngôn ngữ tự nhiên năm 60, với tiến nhanh chóng kỹ thuật tính tốn, việc dịch tự động ngôn ngữ tự nhiên bước ứng dụng Hiện giới có nhiều hệ dịch máy thương phẩm với chất lượng chấp nhận (SYSTRAN, GLOBALINK, STYLUS, IBM, ) Các cặp ngôn ngữ thực chủ yếu ngôn ngữ Âu châu (bao gồm Anh-Pháp, PhápAnh, Anh-Đức, Anh-Tây ban nha, Anh-Nga, Anh-Nhật, Nhật-Anh, v.v số sản phẩm dịch chiều khác) Các sản phẩm dịch tự động sử dụng phổ biến từ phần mềm cho hệ máy lớn, trạm làm việc máy tính cá nhân đến thiết bị dịch tự động chuyên dụng cầm tay Trên giới chưa có thương phẩm biên dịch Anh-Việt hay Việt-Anh Tình hình nghiên cứu nước: Nghiên cứu nhận dạng ứng dụng tiến hành nước ta từ sớm Các chương trình trọng điểm quốc gia tin học, CNTT từ năm 1981 đến có nội dung nghiên cứu nhận dạng Đặc biệt từ năm 1991 đến nay, chương trình khoa học cơng nghệ KC-01 (giai đoạn 1991-1995, 1996-2000), vấn đề Nhận dạng xử lý thơng tin hình ảnh quan tâm nội dung nghiên cứu đề tài KC-01-10, KC-01-07 Các đề tài nghiệm thu đánh giá xuất sắc Tuy nhiên giai đoạn tập trung nỗ lực vào vấn đề nhận dạng chữ (sản phẩm VnDOCR 1.0 2.0) phần dịch tự động (sản phẩm EVETRAN 1.0), nhận dạng tổng hợp tiếng nói nghiên cứu thử nghiệm Mặc dù giới có bước tiến dài lĩnh vực nhận dạng-tổng hợp tiếng nói, xử lý ngơn ngữ tự nhiên, Việt nam vấn đề quan tâm chưa nhiều người nghiên cứu Trong nhu cầu giao tiếp với máy tính tiếng Việt ngày cấp thiết lúc sử dụng phần mềm nhận dạng tổng hợp tiếng nói với ngơn ngữ tiếng Anh Nhận dạng, tổng hợp tiếng nói Việt, nhận dạng chữ viết Việt, máy hiểu ngôn ngữ Việt không cần nghiên cứu kỹ thuật chung, mà cịn phải dựa đặc trưng ngơn ngữ tiếng Việt Đã có bước ban đầu số sở có tiến hành nghiên cứu lĩnh vực này: - Phịng Nhận dạng Cơng nghệ Tri thức, Viện Công nghệ Thông tin, Trung tâm MICA, Đại học Bách khoa, Hà nội Nhóm nghiên cứu Bộ mơn Khoa học Máy tính, Khoa CNTT, ĐHBK Hà Nội, Nhóm nghiên cứu Khoa Cơng nghệ Thơng tin, Trường Đại học Khoa học Tự nhiên, TP Hồ Chí Minh, Cơng ty CDIT, Tổng Cơng ty Bưu Viễn thông Việt nam Softext, Viện ứng dụng công nghệ cịn số cơng trình cá nhân làm đề tài thạc sĩ tiến sĩ Về nhận dạng tổng hợp tiếng Việt: Trước hết vấn đề khó, địi hỏi phải có tập trung nghiên cứu thời gian dài Trong thời gian qua, nghiên cứu tản mạn, kết tập trung chủ yếu vào thử nghiệm bước đầu tổng hợp tiếng Việt dựa số kỹ thuật bản, giải ứng dụng điều khiển giọng nói với lượng từ vựng nhỏ để triển khai nhanh, để minh họa thực tế chưa khai thác đặc điểm riêng ngữ âm tiếng Việt Trong đề tài KC01-10, nội dung tổng hợp nhận dạng tiếng Việt tiến hành nghiên cứu hai năm cuối (1999-2000) Vì chưa có sản phẩm có khả ứng dụng rộng rãi chẳng hạn cho ứng dụng văn phòng hay ứng dụng viễn thơng Về nhận dạng chữ Việt: Phịng Nhận dạng Công nghệ tri thức Viện CNTT bước đầu thành công lĩnh vực nhận dạng chữ Việt in, phát triển phần mềm Nhận dạng VnDOCR 2.0 thương mại hoá rộng rãi thị trường Cũng sản phẩm phần mềm nào, VnDOCR cần hoàn thiện để giải yêu cầu cao chất lượng nhận dạng văn đầu vào xấu hơn, tài liệu cũ, v.v Ngồi ra, khoa Cơng nghệ Thơng tin trường đại học Bách khoa Hà nội, Đại học Quốc gia, Đại học KHTN TP Hồ Chí Minh cho sinh viên làm luận văn cao học cử nhân nhận dạng chữ, dạng tiếp cận kiến thức, chưa thành dạng thương phẩm Sản phẩm Image Scan Công ty CadPro có giới thiệu bước đầu thị trường Ngồi vấn đề nhận dạng chữ viết tay tiếng Việt cần đặt để giải cho tốn cụ thể Về xử lý ngơn ngữ tự nhiên tiếng Việt: Các nghiên cứu hướng nhiều vào dịch tự động Sản phẩm phần mềm EVTRAN (Phịng thí nghiệm Cơng nghệ Phần mềm máy tính, Trung tâm Cơng nghệ vi điện tử Tin học) biên dịch tự động Anh Việt có mặt thị trường Hiện có phiên EVTRAN 2.0 với nhiều tính trợ lý ngôn ngữ thuận tiện Đây thương phẩm dịch tự động Anh-Việt EVTRAN phát triển mười năm (bắt đầu từ năm 1990) Sản phẩm góp phần hỗ trợ người việc đọc hiểu văn tiếng Anh biên dịch sang tiếng Việt Tuy nhiên chưa có hệ dịch cho chiều ngược lại (Việt- Anh) Cũng hấu hết sản phẩm dịch tự động giới, vấn đề q khó, EVTRAN cịn phải theo đuổi lâu dài để dần hoàn thiện Điều đáng ý cần trọng đến nghiên cứu công cụ sở xử lý ngôn ngữ tự nhiên tiếng Việt, từ điển điện tử, phân tích hiểu tiếng Việt máy tính 2.2 Những nội dung thực 2.2.1 Kết Tổng hợp Nhận dạng tiếng Việt Khảo sát ngữ âm tiếng Việt Để tiến hành nghiên cứu tổng hợp nhận dạng tiếng Việt, đề tài ban đầu phải tập trung vào nghiên cứu khía cạnh ngữ âm tiếng Việt Tiếng Việt ngơn ngữ đơn âm (monosyllable) có điệu (tonal) Tiếng Việt có theo truyền thống (thanh không, hỏi, ngã, nặng, sắc, huyền), theo ngữ âm học, có khoảng 6.700 âm tiết có nghĩa (trong số 19.000 âm tiết có thể) Âm tiết tiếng Việt mang điệu cấu trúc ổn định Cấu trúc tổng quát âm tiết tiếng Việt trình bày sau Thanh điệu Âm đầu Phần vần Âm đệm Âm Âm cuối Cấu trúc tổng quát âm tiết tiếng Việt (C1)(w)V(C2) Trong C1 phụ âm đầu, (w) âm đệm, V âm C2 âm cuối Âm đầu thường phụ âm, gọi phụ âm đầu Âm đệm nằm âm đầu âm làm thay đổi âm sắc âm tiết Âm ln ln có mặt âm tiết có chức qui định âm sắc chủ yếu âm tiết Âm ln ngun âm Âm cuối 10 nước để cải thiện khâu tự động hố văn phịng Hiện nay, vấn đề thi trắc nghiệm kỳ thi tuyển sinh trường đại học, tiến tới trường phổ thông dần trở nên phổ biến điều tra xã hội học sử dụng kiểu trắc nghiệm ngày nhiều Các phần mềm nhận dạng phiếu điều tra dạng đánh dấu có tích hợp nhận dạng chữ Việt viết tay với thiết bị máy quét chuyên dụng làm giảm đáng kể thời gian nhập phiếu, tổng hợp phiếu, đảm bảo tăng độ xác nhập liệu - Vói kết quảvề xử lý ngơn ngữ tự nhiên Phần mềm dịch Việt – Anh triển khai thương phẩm hỗ trợ người nước xem hiêủ văn tiếng Việt người Việt cần dịch sang tiếng Anh Kết nghiên cứu tích hợp với sản phẩm EVTRAN để thành dịch Anh – Việt, Việt – Anh Văn phạm phụ thuộc phạm vi cơng cụ hình thức để biểu đạt ngữ nghĩa hữu dụng linh hoạt Mô hình ứng dụng nghiên cứu xử lý ngơn ngữ tự nhiên nói chung Phần mềm công cụ để sở sản xuất (trung tâm từ điển, cơng ty) nạp từ tạo từ điển từ điển dễ dàng tích hợp vào ứng liên quan ngơn ngữ tiếng Việt - - 19 Các tác động kết nghiên cứu (ngoài tác động nêu mục 18 đây) Bồi dưỡng, đào tạo cán KH&CN Trong năm đề tài dự kiến tham gia vào công tác đào tạo chuyên gia có chất lượng cao, cán chủ chốt đề tài tham gia giảng dạy trường đai học hướng dẫn luận án tốt nghiệp Con số dự kiến hướng dẫn: 20 cử nhân, kỹ sư 10 cao học tiến sĩ Một số người đào tạo lại cơng tác Phịng thí nghiệm trọng điểm Đối với lĩnh vực khoa học có liên quan: Đề tài giúp vận dụng kỹ thuật Tin học cách tổng hợp & toàn diện Ngoài sản phẩm phầm mềm hữư dụng cho ứng dụng văn phịng, truyền thơng, điều khiển với lợi ích kinh tế cao dự án cịn giúp hình thành hướng nghiên cứu lý thuyết chuyên sâu ứng dụng xử lý nhận dạng tiếng nói, chữ viết với xử lý ngôn ngữ tự nhiên Đối với kinh tế - xã hội: Xử lý tiếng Việt nhu cầu thiếu ứng dụng CNTT vào thực tế Việt Nam Với sản phẩm đề tài chương trình tổng hợp nhận dạng tiếng Việt, chương trình nhận dạng chữ Việt hoạt động tin cậy, phần mềm dịch tự động, áp dụng cho lĩnh vực liên quan đến tương tác người-máy, ứng dụng tự động hoá văn phòng Việt Nam ngày mở rộng Internet mơi trường tính tốn phân tán, nhu cầu phần mềm mà đề án phát triển ngày cao Các hệ chương trình dùng hữu ích lĩnh vực liên quan đến hoạt động xã hội có sử dụng máy tính, sử dụng công nghệ truyền thông, chẳng hạn điều khiển tự động, khai phá liệu, trợ giúp tự động hố văn phịng, khai thác hiệu Internet Để phát huy mạnh đáp ứng nhu cầu thiết thực quan chủ trì đề tài sở nghiên cứu triển khai, mục tiêu ứng dụng 22 nói trên, đề tài đáp ứng kịp thời cho việc nghiên cứu phát triển hướng công nghệ cao cho Công nghệ Thông tin nói chung cho Cơng nghiệp Phần mềm nói riêng đất nước IV Các tổ chức/cá nhân tham gia thực đề tài 20 TT Hoạt động tổ chức phối hợp tham gia thực đề tài (Ghi tất tổ chức phối hợp thực đề tài phần nội dung công việc tham gia đề tài) Tên tổ chức Địa Hoạt động/đóng góp cho đề tài Trung tâm Ngữ âm 22 Lý TháI Tổ Xây dựng CSDL ngữ âm, phân tich học thực nghiệm, đặc trưng ngôn ngữ, ngữ âm, điệu Viện Ngôn ngữ học, cho tiếng Việt: Trung tâm khoa học xã hội nhân văn - Phân tích phổ âm vị khó - Nghiên cứu cấu trúc nguyên âm - Nghiên cứu cấu trúc âm tiếng Việt, tổng hợp giọng nói Nhóm nghiên cứu Đường Hồng Tích hợp cơng nghệ tổng hợp nhận triển khai Công Quốc Việt dạng tiếng Việt với dịch vụ số ty NetNam INTERNET hệ hai ứng dụng Trung tâm kỹ thuật thông – TTXVN Trung tâm Công nghệ Vi điện tử Tin học Phịng thí nghiệm Phương pháp luận Sáng tạo tri thức, Viện Khoa học Cơng nghệ tiên tiến, Nhật Khoa Tốn-Cơ-Tin học, Đại học Khoa học tự nhiên Hà nội 23 Lý Thường Kiệt C6, Thanh Xuân Bắc, Hà nội Xây dựng công nghệ Coding ngữ nghĩa âm Nghiên cứu phát triển Phần mềm Dịch tự động Việt - Anh Tatsunokuchi, Ishikawa, Japan Xây dựng kho văn tiếng Việt Từ điển điện tử khai thác sở liệu văn 340 đường Nguyễn Trãi, Thanh Xuân, Hà nội Dóng hàng văn đa ngữ song song 21 22 TT A B 24 Liên kết với sản xuất đời sống (Ghi rõ đơn vị sản xuất người sử dụng kết nghiên cứu tham gia vào q trình thực nêu rõ nội dung cơng việc thực đề tài) - Công ty NetNam hợp tác triển khai thử nghiệm, ứng dụng kết nghiên cứu tổng hợp nhận dạng tiếng Việt với dịch vụ số Internet, ví dụ hệ thống thơng điệp hợp nhất, hệ thống thơng tin, hệ thống phát triển có cổng tiếng nói (Voice Portal) Web có cổng tiếng nói, điểm thương mại điện tử (e-comerce) có tiếng nói nhằm diễn giải thơng tin, nhận dạng câu hỏi khách hàng, trả lời tự động - Văn phịng Trung ương Đảng, Văn phịng Chính phủ đã, tiếp tục triển khai có phản hồi sử dụng phần mềm nhận dạng chữ, dịch văn tự động nhằm nâng cao chất lượng sản phẩm Trong tương lai, ứng dụng nhận dạng chữ, ứng dụng hận dạng tiếng ứng dụng sở - Đối với TTXVN, công nghệ phân tích tổng hợp hai chiều âm văn giữ vai trò then chốt để phát huy kho liệu điện tử TTXVN nâng tính khả thi đề án thơng tin Đa phương tiện 10 năm tới Trung tâm kỹ thuật thông tham gia đề tài nhằm xúc tiến đẩy nhanh trình thực - Ứng dụng biên dịch văn thuộc lĩnh vực trị – xã hội Học viện trị quốc gia Đội ngũ cán thực đề tài (Ghi người có đóng góp thuộc tất tổ chức chủ trì tham gia đề tài, khơng 10 người) Họ tên Chủ nhiệm đề tài Bạch Hưng Khang GS, TSKH, NCVCC Cán tham gia nghiên cứu Lương Chi Mai TS, NCVC (Phó Chủ nhiệm đề tài) Ngô Quốc Tạo TS, NCVC Lê Khánh Hùng, TS Vũ Kim Bảng, TS (Giám đốc Trung tâm) Hồ Tú Bảo GS, TSKH Đàm Hiếu Dũng, KS, (Phó GĐ Trung tâm) Ngơ Hồng Huy KS Cơ quan cơng tác Viện Công nghệ Thông tin Số tháng làm việc cho đề tài tháng / năm Viện Công nghệ Thông tin 12 tháng / năm Viện Công nghệ Thông tin 12 tháng / năm Phịng phần mềm, Trung tâm Cơng nghệ Vi điện tử Tin học Trung tâm Ngữ âm học thực nghiệm, Viện ngôn ngữ học Viện Khoa học Công nghệ tiên tiến Nhật Trung tâm kỹ thuật thông – TTXVN 12 tháng / năm Viện Công nghệ Thông tin 10 tháng / năm tháng / năm 10 tháng / năm 12 tháng / năm Ngô Thành Trung KS Nguyễn Thị Minh Huyền, Thạc sĩ Viện Công nghệ Thông tin 12 tháng / năm Khoa Toán-Cơ-Tin học, Đại học 12 tháng / năm Khoa học tự nhiên Hà nội V Kinh phí thực đề tài nguồn kinh phí (giải trình chi tiết xin xem phụ lục kèm theo) 23 Kinh phí thực đề tài phân theo khoản chi (cho tồn năm) TT Nguồn kinh phí Tổng số Trong Th khốn chun mơn Thiết bị, máy móc Xây dựng, sửa chữa nhỏ Chi khác Tổng kinh phí Nguyên,vật liệu, lượng 5.000 1450 97 3078 6.6 368.4 Trong đó: Ngân sách SNKH (Chương trình KC01) 2.000 1450 97 78 6.6 368.4 3.000 0 Các nguồn vốn khác 3.000 - Phịng Thí nghiệm trọng điểm Hà Thủ trưởng Cơ quan chủ trì đề tài nội, ngày 01 tháng 10 năm 2001 Chủ nhiệm đề tài (Họ, tên chữ ký) Bạch Hưng Khang 25 26 Phụ lục Dự tốn kinh phí đề tài (cho năm) TT Nội dung khoản chi Kinh phí KC01 1450.0 Th khốn chun mơn Ngun, vật liệu, lượng 97.0 Thiết bị, máy móc chuyên dùng 78.0 Xây dựng, sửa chữa nhỏ Chi khác Phịng thí nghiệm trọng điểm 97.0 3000 3078.0 6.6 6.6 368.4 Tổng cộng 27 Đơn vị : triệu đồng Tổng số Kinh phí 1450.0 368.4 2000 5000 Giải trình khoản chi (Triệu đồng) Khoản Th khốn chun mơn (1450 triệu đồng) TT Nội dung th khốn Tổng hợp Nhận dạng tiếng nói 1.1 Xây dựng CSDL ngữ âm, phân tích đặc trưng âm tiếng Việt Thiết kế mẫu bảng âm vị tổng hợp tiếng Việt Phân tích điệu tiếng Việt dạng tĩnh ngữ lưu Xây dựng CSDL câu: văn âm đặc trưng cho tiếng Việt (Tạo lập CSDL mẫu câu để tạo tham số huấn luyện cho mơ hình mức : âm tiết âm vị - âm học) Thiết kế âm vị cho nhận dạng từ với số lượng không hạn chế Hệ thống tổng hợp tiếng nói (từ văn chữ in tiếng Việt thành tiếng nói) Thiết kế cơng nghệ Microsoft, ngơn ngữ lập trình Visual C++ 6.0 Windows Khai thác thư viện tổng hợp tiếng Anh SDK (Speech Developer Kit) Chương trình tổng hợp tiếng Việt Modul đọc văn viết mã tiếng Việt khác VNI, Unicode, TCVN-3, VIQR Modul đọc khuôn dạng phi từ biểu thức số, ngày tháng, điện tử, tiền Việt Nam, đơn vị đo lường, xâu viết tắt thông dụng Modul xử lý văn thông minh: phát tự động cụm từ nhóm từ khố Modul phát tự động cụm từ tiếng Anh văn hỗn hợp Việt – Anh Chương trình tích hợp modul tổng hợp tiếng phân tích trang văn thành modul tổng hợp tiếng nói Chương trình tích hợp giao diện nhúng tiếng nói cho phần mềm thiết bị 10 Modul tích hợp hệ thống thông điệp hợp (Unified Mesaging System) 1.2 28 Kinh phí KC01 Phịng thí nghiệm trọng điểm 615 Tổng kinh phí 615 80 80 +20 ++20 20 20 +20 20 20 20 185 185 15 15 15 15 20 +20 20 20 +20 20 +20 20 +20 20 +15 15 +20 20 +20 20 1.3 29 Phần mềm Nhận dạng lệnh ứng dụng điều khiển Thiết kế công nghệ Microsoft, ngôn ngữ lập trình Visual C++ 6.0 Windows Khai thác thư viện nhúng tiếng nói SDK Xây dựng thử nghiệm chương trình nhận dạng lệnh với khoảng số lượng từ 50 Xây dựng module nhận dạng lệnh độc lập người nói Nghiên cứu xây dựng thuật tốn nhận dạng lệnh thời gian thực Kết hợp module thành hệ thống nhận dạng lệnh mi trường văn phịng có độ ồn với số lượng từ vựng nhỏ 100 Chương trình điều khiển lệnh trình duyệt Microsoft Word, Internet Explorer Khai thác ứng dụng nhúng chip DSP (Digtal Signal Processor) 150 150 +20 20 +10 20 10 20 +20 20 ++20 20 +20 20 20 20 +20 20 1.4 30 Chương trình thử nghiệm đọc tả (speech-totext) Thiết kế cơng nghệ Microsoft, ngơn ngữ lập trình Visual C++ 6.0 Windows Khai thác thư viện nhúng tiếng nói SDK (Speech Developer Kit) Xây dựng chương trình HMM liên tục với phép trộn Gauss Khai thác sử dụng thư viện Markov ẩn (HTK) CSLU Xây dựng module nhận dạng từ với toàn từ điển tiếng Việt độc lập người nói Xây dựng module nhận dạng từ với toàn từ điển tiếng Việt với điệu Xây dựng module nhận dạng từ với toàn từ điển tiếng Việt phụ âm đầu Xây dựng module nhận dạng từ với toàn từ điển tiếng Việt phần vần Nghiên cứu để xử lý tốc độ, tín hiệu tiếng nói vào thời gian thực 10 Tích hợp thành hệ thống phụ thuộc người nói với tốc độ đọc chậm rãi, rõ ràng (giọng phát viên Hà nội) nhận dạng từ với toàn từ điển tiếng Việt (nhận dạng điệu, phụ âm đầu phần vần) 200 200 20 20 +20 20 +20 20 +20 20 20 20 +20 20 +20 20 20 20 +20 20 +20 20 Nhận dạng chữ Việt in viết tay 375 2.1 Phần mềm thương phẩm nhận dạng phiếu điều tra, nhập liệu tự động có tích hợp nhận dạng chữ Việt viết tay, phiên beta 1.0 Chương trình học mẫu chũ Việt viết tay Chương trình học mẫu số viết tay Chương trình nhận dạng chữ Việt viết tay có hạn chế (trong mẫu phiếu điều tra) Chương trình nhận dạng chữ số viết tay có hạn chế (trong mẫu phiếu điều tra) Chương trình hiệu chỉnh kết nhận dạng chữ Việt viết tay 10 Tích hợp chương trình nhận dạng chữ số thành module tổng hợp 11 Chương trình nâng cao chất lượng ảnh phiếu điều tra 12 Chương trình hiệu chỉnh trang văn theo mẫu góc quay so với phiếu mẫu 13 Chương trình hiệu chỉnh trang văn theo mẫu độ dịch lề so với phiếu mẫu 14 Chương trình phát đối tượng chứa dấu trang mẫu tự động 15 Chương trình phát đối tượng chứa chữ trang mẫu tự động 16 Chương trình nhận dạng dấu chứa dấu (trong phiếu cần nhận dạng) 17 Chương trình nhận dạng câu hỏi có nhiều phương án lựa chọn dạng LIST(chọn câu trả lời), 18 Chương trình nhận dạng câu hỏi có nhiều phương án lựa chọn dạng MULTIPLE 19 Chương trình nhận dạng câu hỏi có nhiều phương án lựa chọn dạng BOOL(có/khơng) GRID(ghép trả lời LIST thành xâu) 20 Tích hợp modul thành hệ thống MarkRead 300 300 +20 +20 +20 20 20 20 +20 20 +20 20 +20 20 +20 20 +20 20 +15 15 +20 20 +20 20 +20 20 15 15 +15 15 +15 15 +20 20 2.2 31 Nâng cấp phần mềm thương phẩm nhận dạng chữ in tiếng Việt thành phiên 3.0 Nâng cấp độ xác nhận dạng chữ Việt in với phơng chữ có tài liệu, sách báo, văn hành (đã qua photocopy) Nâng cấp chất lượng nhận dạng sau kiểm tra phân tích câu, phân tích ngữ nghĩa Chương trình nhận dạng tự động trang (phân tích trang) tài liệu với tài liệu có cấu trúc phức tạp Chương trình nhận dạng tự động bảng biểu 75 ++20 0 375 75 20 +20 20 +15 15 +20 20 460 Xử lý ngôn ngữ tự nhiên 460 3.1 Phần mềm dịch tự động Việt – Anh Xây dựng mơ hình văn phạm phụ thuộc phạm vi áp dụng mơ hình văn phạm phụ thuộc phạm vi phân tích ngữ nghĩa tiếng Việt áp dụng mơ hình văn phạm phụ thuộc phạm vi phân tích ngữ dụng tiếng Việt Xây dựng sở tri thức dịch Việt – Anh Xây dựng hệ thống từ loại tiếng Việt Kho mẫu câu tiếng Việt Bộ qui tắc từ vựng tiếng Việt Xây dựng qui tắc tổng hợp từ vựng tiếng Anh Phát triển mơ hình Văn phạm Phụ thuộc Phạm vi để phân tích ngữ nghĩa ứng dụng vào dịch máy 10 Phát triển kỹ thuật tăng tốc độ phân tích văn phạm ngữ nghĩa 11 Phát triển giải thuật phân tích cú pháp ứng dụng văn phạm phụ thuộc phạm vi 12 Bộ quy tắc văn phạm tiếng Việt 13 module biên dịch Việt-Anh 14 Bộ quy tắc ngữ nghĩa Việt-Anh 15 Tích hợp môdul thành phần mềm biên dịch văn Việt-Anh 300 20 20 300 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 32 3.2 3.3 33 Phần mềm dóng hàng văn song ngữ Pháp – Việt Chương trình dóng hàng có khả đạt đến mức từ Chương trình dóng hàng có khả đạt đến mức ngữ đoạn văn song ngữ Pháp-Việt, chương trình thực dóng hàng bán tự động (có can thiệp người sử dụng) để tìm tương đương dịch mức từ vựng tập văn song ngữ mã hoá theo định dạng XML (có gắn thẻ đến mức câu) Xây dựng công cụ xử lý tự động văn tiếng Việt chương trình gán nhãn từ loại tự động (phục vụ cho việc nghiên cứu từ vựng), Xây dựng cơng cụ phân tích cú pháp câu tiếng Việt, v.v., Mơ hình hệ thử nghiệm từ điển điện tử tiếng Việt bao gồm: Mơ hình từ điển từ vựng thông thường tiếng Việt, tiếng Anh từ điển thuật ngữ chun ngành Mơ hình từ điển khái niệm: gồm từ điển phân loại khái niệm từ điển miêu tả khái niệm Mơ hình từ điển đồng hiện: từ điển đồng tiếng Việt từ điển đồng tiếng Anh Mơ hình từ điển song ngữ: Việt-Anh AnhViệt 85 85 +20 20 10 10 +20 20 +20 20 15 15 75 75 +0 20 15 15 +20 20 20 20 Khoản Nguyên vật liệu, lượng (97 triệu đồng) TT 2.1 2.2 2.3 Nội dung Nguyên, vật liệu Mực in Lazer, đĩa Dụng cụ, phụ tùng Linh kiện, phụ tùng thay cho máy tính, mạng, chuột Năng lượng, nhiên liệu - Than - Điện Đơn vị đo Hộp Số lượng Kinh phí KC01 Phịng thí nghiệm trọng điểm Thành tiền 7.0 7.0 8.4 8.4 40.0 40.0 3.6 3.6 38.0 kW/h Đơn giá 38.0 97.0 97.0 - Xăng, dầu - Nhiên liệu khác 2.4 Nước 2.5 m3 Mua sách, tài liệu, số liệu, phần mềm Cộng 34 Khoản Thiết bị, máy móc chuyên dùng (3078 triệu đồng) TT Nội dung 3.1 Mua thiết bị công nghệ (dùng kinh phí Phịng thí nghiệm trọng điểm, danh sách thiết bị phê duyệt) - Máy tính - Các thiết bị ngữ âm chuyên dụng phân tích âm, phân tích phổ - Các thiết bị nghe, ghi, microphone - Hệ thống thiết bị tổng hợp, chip chuyên dụng, adaptor phần mềm: Phân tích pitch, voicing - Bộ công cụ cho speech telephony application Mua Phần mềm, phàn mềm cơng cụ (dùng kinh phí Phịng thí nghiệm trọng điểm) Th thiết bị Vận chuyển lắp đặt 3.2 3.3 3.4 3.5 3.6 Máy tính cá nhân cho nhóm Ngồi phịng thí nghiệm trọng điểm Máy tính xách tay cho tồn đề tài Đơn vị đo Đơn giá Kinh phí KC01 Phịng thí nghiệm trọng điểm 2.600 Thành tiền 2.600 320 320 80 80 Chiếc 8.0 48 48 Chiếc 30.0 30 30 Cộng 35 Số lượng 78 3000 3078 Khoản Xây dựng, sửa chữa nhỏ (6,6 triệu đồng) TT Nội dung Kinh phí KC01 Phịng thí nghiệm trọng điểm 4.0 4.3 Chi phí xây dựng m2 nhà xưởng, PTN Chi phí sửa chữa m2 nhà xưởng, PTN Chi phí lắp đặt hệ thống điện, hệ thống nước 4.4 Chi phí khác 2.6 6.6 4.1 4.2 0 Cộng Khoản Chi khác (368,4 triệu đồng) TT 4.1 4.3 4.4 Nội dung Kinh phí KC01 Phịng thí nghiệm trọng điểm Xácđịnh tuyển chọn đề tài - Xây dựng đề cương tổng quát Tổng kết nghiệm thu - Nghiệm thu trung gian, đánh giá chyên gia khảo nghiệm kết - Chi phí nghiệm thu cấp sở - Chi phí kiểm tra, nghiệm thu chinhthức 3.0 20.0 4.0 5.0 0 20.0 284.0 0 5.0 5.0 5.4 17.0 0 368.4 Chi khác - Hội thảo - Đào tạo cán ngắn hạn + Hưóng Nhận dạng tiếng nói: người thực tâp tháng Trung quốc (2002 2003) + Hướng xử lý ngôn ngữ tự nhiên: người Pháp 4.5 4.6 - ấn loát tài liệu, văn phịng phẩm - chi phí khác Thù lao chủ nhiệm đề tài Quản lý đề tài, dự án (3 năm) - Chi phí giao dịch, điện thoại Cộng 36 ... HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN CÔNG NGHỆ THƠNG TIN 18 Hồng Quốc Việt, Hà Nội BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ TIẾNG... với nghiên cứu đề tài KC01-03 là: Nhận dạng tổng hợp tiếng Việt Nhận dạng chữ Việt in viết tay có hạn chế Xử lý ngôn ngữ tự nhiên tiếng Việt (các giải pháp xử lý ngôn ngữ tự nhiên tiếng Việt, ... tổng hợp tiếng nói với ngơn ngữ tiếng Anh Nhận dạng, tổng hợp tiếng nói Việt, nhận dạng chữ viết Việt, máy hiểu ngôn ngữ Việt không cần nghiên cứu kỹ thuật chung, mà phải dựa đặc trưng ngơn ngữ

Ngày đăng: 15/05/2014, 10:33

Từ khóa liên quan

Mục lục

  • Bai tom tat

  • Mo dau

  • Tong quan

  • Ket qua nghien cuu

    • 1. Tong hop va nhan dang tieng Viet

    • 2. Nghien cuu phat trien ky thuat nhan dang chu in va chu viet tay tieng Viet

    • 3. Nghien cuu phat trien cac ky thuat xu ly ngon ngu tu nhien tieng Viet

    • Danh gia ket qua

    • Ket luan va kien nghi

    • Phu luc

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan