tổng hợp tiếng việt chất lượng tốt

90 382 0
tổng hợp tiếng việt chất lượng tốt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

tổng hợp tiếng việt chất lượng tốt

TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang LỜI NÓI ĐẦU Máy tính đóng vai trò quan trọng thiếu sống đại. Ngày nay, hầu hết lĩnh vực như: khí, kinh tế, điện tử, giao thông liên lạc, . có tham gia máy tính. Máy tính trở thành công cụ hữu hiệu người xử lý thông tin. Cùng với phát triển nhanh chóng máy tính, hình thức trao đổi, giao tiếp thông tin người máy tính trở nên đa dạng. Hiện việc trao đổi thông tin phổ biến người máy thông qua giao tiếp bàn phím, chuột, cảm biến, hình, máy in, Tuy nhiên, phương pháp trao đổi thông tin đánh giá cao gần gũi người giao tiếp người máy tiếng nói. Để đạt yêu cầu đòi hỏi kết hợp nhiều ngành nghiên cứu ngôn ngữ học, xử lý tiếng nói ngành liên quan, . vấn đề tổng hợp tiếng nói vấn đề cần nghiên cứu đề cập luận văn này. Tổng hợp tiếng nói biết đến nghiên cứu rộng rãi giới. Những kết thu khả quan, điều làm tiền đề quan trọng cho phát triển ứng dụng trình giao tiếp người máy. Trên giới có nhiều ngôn ngữ tổng hợp thành công với chất lượng tốt tiếng Anh, tiếng Pháp,… Ở Việt Nam, vấn đề xử lý tiếng nói trọng nghiên cứu thời gian gần đây, thu số kết đáng khích lệ. Với mục đích góp phần vào phát triển tổng hợp tiếng Việt, kế thừa phát huy nghiên cứu trước đó, chọn đề tài ”Tổng hợp tiếng Việt chất lượng tốt”. Với mong muốn tổng hợp từ tiếng Việt với chất lượng gần tiếng nói tự nhiên nhất, đề tài đề xuất phương án thực tổng hợp tiếng Việt chất lượng tốt bao gồm việc xây dựng sở liệu tiếng Việt cho đảm bảo chất lượng tổng hợp tốt. Nội dung báo cáo chia làm chương: Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang  Chương I: Tổng quan. Nội dung chương nhằm phân tích, đánh giá công trình nghiên cứu có tác giả nước liên quan đến đề tài, vấn đề tồn nội dung, vấn đề mà đề tài tập trung nghiên cứu giải quyết.  Chương II: Lý thuyết xử lý tiếng nói. Những vấn đề lĩnh vực xử lý tiếng nói, đặc trưng tín hiệu tiếng nói cấu trúc ngữ âm tiếng Việt trình bày chương này.  Chương III: Tổng hợp tiếng nói. Trình bày tổng quan tổng hợp tiếng nói, phương pháp khác tổng hợp tiếng nói, đồng thời đưa đánh giá hiệu phương pháp đó.  Chương IV: Đề xuất xây dựng tổng hợp tiếng Việt chất lượng tốt. Dựa nghiên cứu lý thuyết chương trước, chương tập trung nội dung đề tài bao gồm: xây dựng sở liệu, số đề xuất áp dụng tổng hợp tiếng Việt nhằm nâng cao chất lượng tổng hợp.  Chương V: Đánh giá kết hướng phát triển Mặc dù cố gắng song luận văn tránh khỏi có thiếu sót. Vì vậy, mong hội đồng quý Thầy, Cô góp ý. Cuối xin gửi lời cảm ơn chân thành tới toàn thể hội đồng bảo vệ, lớp KTMT-K50 Thầy, Cô giáo khoa Công nghệ thông tin, đặc biệt Thầy môn Kỹ thuật máy tính tạo điều tốt cho thời gian học tập nghiên cứu môn. Tôi xin gởi lời cảm ơn đặc biệt tới TS. Trịnh Văn Loan người tận tình giúp đỡ, hướng dẫn hoàn thành luận văn này. Nhân đây, xin gởi lời cảm ơn tới nhà trường, Khoa Công nghệ Thông tin Đại học Nha Trang người vợ thân yêu tạo điều kiện thuận lợi cho suốt khóa học này. Hà Nội, ngày 02 tháng 10 năm 2009 Thực đề tài Đinh Đồng Lưỡng Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang CHƯƠNG 1: KHÁI QUÁT VỀ CÁC NGHIÊN CỨU TỔNG HỢP TIẾNG VIỆT 1.1 Tổng quan xử lý ngôn ngữ tiếng Việt Gần đây, vấn đề xử lý ngôn ngữ xử lý tiếng Việt nhà khoa học hàng đầu lĩnh vực công nghệ thông tin nước quan tâm. Các sản phẩm tiêu biểu xử lý tiếng Việt như: gõ tiếng việt Vietkey, từ điển AnhViệt, Việt-Anh, hay phần mềm dịch song ngữ EVTRAN, phần mềm nhận dạng chữ Việt vnDOC,… sản phẩm người sử dụng biết đến. Tuy nhiên, công cụ hỗ trợ lĩnh vực giao tiếp người máy nhận dạng tổng hợp tiếng Việt với kết hạn chế. Có nhiều lý do, lý có nghiên cứu sở, tảng có thường nghiên cứu ngắn hạn, đơn lẻ dạng đề tài tốt nghiệp, thạc sĩ trường đại học, thiếu kế thừa thiếu trang thiết bị. Kết quả, chưa có sở liệu chuẩn đầy đủ cho vấn đề liên quan đến xử lý ngôn ngữ tiếng Việt, mà vấn đề nước phát triển từ lâu cộng đồng quốc tế xác định thiếu xử lý ngôn ngữ. Hiện tại, số sản phẩm thực dừng lại mức mô hình, thử nghiệm tiến hành tập ngữ liệu nhỏ, chưa đầy đủ. Hơn nữa, nỗ lực chưa liên kết với nhau, thiếu tính chia sẻ kế thừa, hợp tác theo lộ trình có kế hoạch. Nếu hình dung công đoạn vấn đề xử lý ngôn ngữ đánh số từ A đến Z, hầu hết sản phẩm làm cho người dùng cuối khoảng từ R, S,… trở đi, mà muốn có kết tốt giai đoạn thiết phải cần tới kết tất bước từ A đến P, Q. Như vậy, muốn có sản phẩm phải làm tất công đoạn từ A đến P, Q đến Z không khẳng định chắn sản phẩm R, S,…, Z làm đủ tốt. Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 1.2 Các nghiên cứu tổng hợp tiếng Việt Ở nước, kể đến tập thể có kết nghiên cứu tổng hợp tiếng Việt Viện Công nghệ Thông tin, Khoa Công nghệ Thông tin Trung tâm nghiên cứu quốc tế Thông tin đa phương tiện, truyền thông ứng dụng (MICA) - Đại học Bách khoa Hà Nội kết số trường Đại học đề tài tốt nghiệp, thạc sĩ hay tiến sĩ mang tính chất nghiên cứu tìm hiểu. Nghiên cứu xử lý ngôn ngữ theo đuổi từ lâu số tập thể Đại học Bách khoa Hà Nội, Đại học Khoa học Tự nhiên thành phố Hồ Chí Minh, Đại học Bách khoa Đà Nẵng, Trường Đại học Công nghệ, Viện Ứng dụng Công nghệ, Viện Công nghệ Thông tin, Công ty Lạc Việt,… Đề tài cấp Nhà nước “Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt” giai đoạn 2001-2004 chương trình quốc gia KC-01. Ở nước ngoài, kể tới nhóm nghiên cứu Canada tiến sĩ Lê Tang Hồ với phần mềm tổng hợp tiếng Việt có tên Vietvoice, số nghiên cứu cán nghiên cứu sinh Việt Nam Viện Khoa học Công nghệ Tiên tiến Nhật (JAIST). Xử lý ngôn ngữ tiếng Việt nói chung tổng hợp tiếng nói tiếng Việt nói riêng vấn đề làm tốt người Việt chúng ta. Hiện nay, có số sản phẩm tổng hợp tiếng Việt VietVoice, vnVoice, VieTTS hay VnSpeech người Việt số người Việt Nam nước làm có kết bước đầu. Tuy nhiên, vấn đề nâng cao chất lượng tổng hợp sản phẩm cho người dùng đích cuối mà ta cần hướng tới. Qua nhiều năm nghiên cứu, tìm hiểu tổng hợp, đồng thời mong muốn góp phần xây dựng hệ tổng hợp tiếng Việt, muốn hướng tới hệ tổng hợp tiếng Việt chất lượng tốt vấn đề chất lượng điệu đưa lên hàng đầu. Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VỀ XỬ LÝ TIẾNG NÓI 2.1. Quá trình phát âm Tiếng nói phương tiện trao đổi thông tin người. Tiếng nói tạo từ trình tư người trung khu thần kinh điều khiển hệ thống phát âm làm việc tạo âm thanh. Tiếng nói phân biệt với âm khác đặc tính âm học có nguồn gốc từ chế tạo tiếng nói. Về chất, tiếng nói dao động sóng âm có mang theo thông tin. Các dao động tạo thành áp lực đến hệ thống thích giác, hệ thống thích giác phát hiện, phân tích chuyển kết đến trung khu thần kinh. Lúc trung khu thần kinh, thông tin tái tạo lại dạng tư logic mà người hiểu được. Tín hiệu tiếng nói tạo thành chuỗi âm vị liên tiếp. Sự xếp âm vị chi phối quy tắc ngôn ngữ. Việc nghiên cứu cách chi tiết quy tắc khía cạnh khác bên tiếng nói thuộc chuyên ngành ngôn ngữ. Việc phân loại âm vị tiếng nói thuộc chuyên ngành ngữ âm học. Khi nghiên cứu mô hình toán học chế tạo tiếng nói, việc nghiên cứu âm vị cần thiết. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. Hốc mũi Vòm miệng Ổ Vòm miệng mềm Đầu lưỡi Thân lưỡi Lưỡi gà Cơ miệng Yết hầu Nắp đóng quản Dây giả Dây Thanh quản Thực quản Khí quản Hình 2.1 – Cơ quan phát âm Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang Khi phát âm, không khí đẩy từ phổi qua khí quản, luồng không khí chuyển động làm cho dây rung kết hợp với hình dạng tuyến âm, môi, lưỡi . đóng vai trò cộng hưởng lọc tạo âm khác nhau. Người ta mô hình hóa toàn trình phát âm mô hình toán học khác nhau. 2.2. Đặc tính âm học tiếng nói 2.2.1. Âm hữu âm vô 2.2.1.1. Âm hữu Âm hữu tạo từ dây bị căng đồng thời, chúng rung động chế độ dãn, không khí tăng lên làm môn mở sau môn xẹp xuống không khí chạy qua. Do cộng hưởng dây thanh, sóng âm tạo có dạng tuần hoàn gần tuần hoàn. Phổ âm hữu có nhiều thành phần hài giá trị bội số tần số cộng hưởng, gọi tần số (pitch). 2.2.1.2. Âm vô Khi tạo âm vô dây không cộng hưởng. Âm vô có hai loại âm xát âm tắc. Âm xát (ví dụ âm s) tạo có co thắt vài điểm tuyến âm. Không khí qua điểm co thắt chuyển thành chuyển động hỗn loạn tạo nên kích thích giống nhiễu ngẫu nhiên. Thông thường điểm co thắt xảy gần miệng nên cộng hưởng tuyến âm ảnh hưởng đến đặc tính âm xát tạo ra. Âm tắc (ví dụ âm p) tạo tuyến âm đóng số điểm làm cho áp suất không khí tăng lên sau giải phóng đột ngột. Sự giải phóng đột ngột tạo kích thích thời tuyến âm. Sự kích thích có Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang thể xảy với cộng hưởng không cộng hưởng dây tương ứng với âm tắc hữu vô thanh. 2.2.2. Âm vị Tín hiệu tiếng nói tín hiệu tương tự biểu diễn cho thông tin mặt ngôn ngữ mô tả âm vị khác nhau. Như vậy, âm vị đơn vị nhỏ ngôn ngữ. Tuỳ theo ngôn ngữ cụ thể mà số lượng âm vị nhiều hay (thông thường số lượng âm vị vào khoảng 50). Các âm vị chia thành hai loại: nguyên âm phụ âm. 2.2.3. Nguyên âm Nguyên âm âm hữu tạo cộng hưởng dây dòng khí môn đẩy lên. Khoang miệng tạo lập thành nhiều hình dạng định tạo thành nguyên âm khác nhau. Số lượng nguyên âm phụ thuộc vào ngôn ngữ định. 2.2.4. Phụ âm Phụ âm tạo dòng khí hỗn loạn phát gần điểm co thắt đường dẫn âm cách phát âm tạo thành. Phụ âm có đặc tính hữu hay vô tuỳ thuộc vào việc dây có dao động để tạo nên cộng hưởng hay không. Dòng không khí chỗ đóng vòm miệng tạo phụ âm tắc. Phụ âm xát phát từ chỗ co thắt lớn nhất. 2.2.5. Các đặc tính khác 2.2.5.1. Tỷ suất thời gian Trong nói chuyện, khoảng thời gian nói khoảng thời gian nghỉ xen kẽ nhau. Tỷ lệ % thời gian nói tổng số thời gian nói nghỉ gọi tỷ suất thời gian. Giá trị biến đổi tuỳ thuộc vào tốc độ nói từ ta phân loại thành nói nhanh, nói chậm hay nói bình thường. Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 2.2.5.2. Hàm lượng thời gian ngắn Hàm lượng thời gian ngắn tiếng nói tính cách chia tín hiệu tiếng nói thành nhiều khung, khung chứa N mẫu. Các khung đưa qua cửa sổ có dạng hàm sau: W n  W n    0 Với  n  N Với n  N Hàm lượng ngắn mẫu thứ m tính theo công thức sau: N 1 E m   xn  m   W n  n 0 Thông thường có ba dạng cửa sổ sử dụng cửa sổ Hamming, cửa sổ Hanning cửa sổ chữ nhật. Hàm lượng thời gian ngắn âm hữu thường lớn so với âm vô thanh. 2.2.5.3. Tần số Dạng sóng tiếng nói gồm hai phần: Phần gần giống nhiễu (trong biên độ biến đổi ngẫu nhiên) phần có tính chu kỳ (trong tín hiệu lặp lại gần tuần hoàn). Phần tín hiệu có tính chu kỳ chứa thành phần tần số có dạng điều hòa. Tần số thấp tần số tần số dao động dây thanh. Đối với người nói khác nhau, tần số khác nhau. Dưới số giá trị tần số tương ứng với giới tính tuổi: Bảng 2.1: Giá trị tần số F0 phụ thuộc người nói Giá trị tần số Người nói 80 – 200 Hz Nam giới 150 – 450 Hz Phụ nữ 200 – 600 Hz Trẻ em Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 2.2.5.4. Formant Với phổ tín hiệu tiếng nói, đỉnh có biên độ lớn xét khoảng (cực đại địa phương) tương ứng với formant. Ngoài tần số, formant xác định biên độ dải thông. Về mặt vật lý formant tương ứng với tần số cộng hưởng tuyến âm. Trong xử lý tiếng nói tổng hợp tiếng nói, để mô tuyến âm người ta phải xác định tham số formant loại âm vị, việc đánh giá, ước lượng formant có ý nghĩa quan trọng. Tần số formant biến đổi khoảng rộng phụ thuộc vào giới tính người nói phụ thuộc vào dạng âm vị tương ứng với formant đó. Đồng thời, formant phụ thuộc âm vị trước sau đó. Về cấu trúc tự nhiên, tần số formant có liên hệ chặt chẽ với hình dạng kích thước tuyến âm. Thông thường phổ tín hiệu tiếng nói có khoảng formant có formant ảnh hưởng quan trọng đến đặc tính âm vị, formant lại có ảnh hưởng song ít. Tần số formant đặc trưng cho nguyên âm biến đổi tuỳ thuộc vào người nói điều kiện phát âm định. Mặc dù phạm vi tần số formant tương ứng với nguyên âm trùm lên vị trí formant không đổi xê dịch formant song song. 2.3. Biểu diễn tín hiệu tiếng nói Như ta biết tín hiệu với đặc điểm riêng biểu diễn miền thời gian miền tần số, kết hợp thời gian tần số. Tín hiệu tiếng nói xét miền thời gian coi tín hiệu biến đổi ta xét khoảng thời gian đủ ngắn (5-100ms), điều có nghĩa tín hiệu tiếng nói coi ổn định khoảng thời gian ngắn. Tuy nhiên, xét Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 10 khoảng thời gian dài (0,5s) tín hiệu tiếng nói lại không ổn định hay thay đổi theo âm khác phát âm người nói. Để thực phân tích tín hiệu tiếng nói nhằm tìm đặc trưng riêng cho đoạn tín hiệu ứng với âm khác nhau, trước hết cần có phương pháp để biểu diễn tín hiệu tiếng nói. Sau số phương pháp thường dùng. 2.3.1. Tín hiệu tiếng nói miền thời gian Hình 2.2 – Biểu diễn tín hiệu tiếng nói miền thời gian Trên miền thời gian tín hiệu tiếng nói biểu diễn đồ thị biên độ thời điểm t khác ví dụ cho hình 2.2. Trong tự nhiên đồ thị liên tục, nhiên tín hiệu tiếng nói xử lý máy tính số hoá nghĩa rời rạc mặt thời gian tần số. 2.3.2. Tín hiệu tiếng nói miền tần số Chúng ta biết tín hiệu tiếng nói không bao gồm thành phần tần số mà gồm nhiều thành phần tần số khác nhau, tần số lớn lên tới 10 kHz, mức độ tham gia thành tần số khác nhau. Dạng biểu diễn tín hiệu tiếng nói miền thời gian không chứa đủ thông tin để phân tích thành phần tín hiệu tần số khác nhau, lý người ta cần đến dạng biểu diễn tín hiệu tiếng nói miền tần số, hay gọi phổ tín hiệu. Ví dụ phổ tín hiệu tiếng nói cho hình 2.3. Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 75 hợp tiếng Việt 721 tổ hợp. Chẳng hạn loại bỏ tổ hợp tiếng Việt như: àt, ảt, ãt, àp, ảp, ãp, ă, ăi, â, âo,… Tổng cộng có 1015 tổ hợp xây dựng số tổ hợp kết hợp với ký tự cần thiết tạo thành danh sách âm tiết cần thu. Trong số âm tiết phải thu có số âm tiết có phát âm trùng nhau. Vì vậy, thực thu âm ta phải thu 976 âm tiết. 4.2. Kịch thu Khi có danh sách đầy đủ âm tiết cần thiết, việc xây dựng kịch thu nhằm đảm bảo đơn vị âm thu cho kết tốt nhất. Đối với tổ hợp âm cuối, thực ghép thêm âm /n/ /t/ vào đầu âm này. Thí dụ, để có tổ hợp âm cuối ưỡng, oan dùng cho tổ hợp ta ghi âm âm tiết tưỡng, toan nưỡng, noan. Cách làm giúp trình tách âm tiết đơn vị âm thực tự động bán tự động. Để giảm tới mức thấp tượng đồng cấu âm âm tiết, danh sách âm tiết cần thu hiển thị cách độc lập hình máy tính. Tại thời điểm cho phép âm tiết cần thu hiển thị thời gian hiển thị âm tiết 1s. 4.3. Thu âm Thiết bị thu dụng cụ CSL Model 4500(Computerized Speech Lab, Model 4500) KayPENTAX chuyên dùng để thu phân tích tiếng nói. Môi trường thu cách ly với tiếng ồn bên phòng thu. Quá trình thu âm thực phòng thu Phòng Thí nghiệm Thiết kế Điện tử , Trường Đại học Bách khoa Hà Nội. Tín hiệu thu lấy mẫu tần số 16000Hz 16 bit cho mẫu. Người phát âm đọc đều, rõ ràng dứt khoát âm tiết cần thu. Với tốc độ nói trung bình 250ms cho âm tiết, tổng thời gian thu liên tục kéo dài 244000ms (tức 244s). Bước đầu, tiến hành ghi âm cho ba giọng: giọng nam, giọng nữ giọng trẻ em. Thời gian thu 976 âm tiết liên tục 20 phút (tính thời gian nghỉ âm tiết). Tổng dung lượng 1015 âm tiết 10MB cho giọng. Đây sở liệu xây dựng để phục vụ cho mục đích nghiên cứu. Với ứng dụng thực tế, sau tách lấy đơn vị âm đầu đơn vị âm cuối dùng cho tổng hợp, phần lại cắt bỏ. Khi dung lượng giảm khoảng 5,8MB. Theo kết tính toán, tỷ số tín hiệu nhiễu sở liệu xây dựng trung bình 21dB. Đây kết tốt chấp nhận được. Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 76 5. Kết luận Trên đây, trình bày phương pháp xây dựng sở liệu phục vụ cho tổng hợp tiếng Việt chất lượng tốt. Các kết tổng hợp bước đầu cho thấy chất lượng tiếng nói tổng hợp khả quan. Có thể thấy rằng, việc xây dựng sở liệu theo phương pháp tạo điều kiện thuận lợi để thực tổng hợp tiếng Việt giọng địa phương. Ngoài ra, sở liệu xây dựng sử dụng tốt cho ứng dụng tổng hợp khác, đặc biệt tổng hợp tiếng Việt phương pháp ghép nối. Tài liệu tham khảo [1] Trần Đỗ Đạt, Eric Castelli, Trịnh Văn Loan, Lê Việt Bắc. Building a large Vietnamese Speech Database. Tạp chí Khoa học Công nghệ (ISBN 08683980) Vol 46/47, February 2004, pp 13-17. [2] Trần Đỗ Đạt, Eric Castelli, Serignat Jean-Francois, Lê Xuân Hùng, Trịnh Văn Loan. Influence of F0 on Vietnamese syllable perception. Proc. of Interspeech 2005, Lisbon, pp 1697-1700, 2006. [3] Trần Đỗ Đạt, Eric Castelli, Serignat Jean-Francois, Trịnh Văn Loan, Lê Xuân Hùng. Linear F0 Contour Model for Vietnamese Tones and Vietnamese Syllable Synthesis with TD-PSOLA. Proc. TAL 2006, La Rochelle, April 2006. [4] Lã Thế Vinh, TRịnh Văn Loan, “Vietnamese Recognition and Synthesis with T-engine Embedded System”, Proceeding of the 2nd Asia Pacific International Conference on Information Science and Technology, Hanoi, December 2007 pp133-137. [5] Nguyen Thanh Kien, Nguyen Duc Thang, Le Thai Hoa, Trinh Van Loan,”DSP-based Embedded System for Text to Speech Synthesis of Vietnamese”, Proceeding of the 2nd Asia Pacific International Conference on Information Science and Technology, Hanoi, December 2007 pp 215-219. [6] Hansjörg Mixdorff, Nguyen Hung Bach, Hiroya Fujisaki , Mai Chi Luong, “Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese”, EuroSpeech 2003 – GENEVA. [7] Nguyễn Hữu Quỳnh, Ngữ Pháp Tiếng Việt; Nhà xuất từ điển Bách Khoa, tr.11-86, HN, 2001. Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 77 PHỤ LỤC C – Bài báo “TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT” Tác giả: Ts. Trịnh Văn Loan, Đinh Đồng Lưỡng Bài báo dự kiến gửi đăng tạp chí “Công nghệ thông tin truyền thông”. Tóm tắt Tiếng Việt ngôn ngữ đơn âm tiết có điệu. Dựa vào đặc trưng này, đề xuất cách tiếp cận tổng hợp tiếng Việt, yếu tố chất lượng tổng hợp điệu đưa lên hàng đầu trình xây dựng sở liệu tổng hợp. Hơn nữa, để nâng cao chất lượng tổng hợp phương pháp ghép nối, đề xuất cách làm trơn tham số tín hiệu tiếng nói tổng hợp vị trí ghép nối. Trong đó, phương pháp làm trơn phổ vị trí ghép nối đề xuất tiếng Việt. Từ khóa: chất lượng tốt, trơn phổ, cân biên độ, cần F0, sở liệu tiếng Việt, tổng hợp ghép nối,… Astract Vietnamese is a monosyllabic and tonal language. Based on these characteristics, we propose a new approach to synthesize Vietnamese in which quality of tone synthesis is mainly interest in building Vietnamese database and synthesis. Furthermore, in order to enhance quality of synthesized Vietnamese using concatenation method, we present algorithms to reduce discontinuities of parameters at concatenation point. One of them, the algorithm proposed by our to smooth spectrum is new method for Vietnamese. Keyword: good quality synthesis of Vietnamese, smoothing spectrum, balancing energy, balancing pitch, Vietnamese databases, concatenation synthesis,… 1. Giới thiệu Gần đây, xử lý ngôn ngữ tiếng Việt nói chung tổng hợp tiếng Việt nói riêng nhà khoa học hàng đầu lĩnh vực công nghệ thông tin nước quan tâm. Hiện nay, có số sản phẩm tổng hợp tiếng Việt vnVoice, VietVoice, VieTTS hay VnSpeech kết nghiên cứu Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 78 người Việt số người Việt Nam nước ngoài. Song nhiều lý mà sản phẩm chưa sử dụng phổ biến, lý có nghiên cứu sở, tảng tiếng Việt có thường nghiên cứu ngắn hạn, đơn lẻ dạng đề tài, thiếu kế thừa thiếu trang thiết bị. Chính thế, vấn đề nâng cao chất lượng tổng hợp tiếng Việt mục tiêu mà ta cần hướng tới. Theo chúng tôi, để tổng hợp tiếng Việt chất lượng tốt thiết phải tổng hợp điệu cho gần với tiếng nói tự nhiên tốt. Nói cách khác, tham số tín hiệu tiếng nói tổng hợp xấp xỉ với tham số tín hiệu tiếng nói tự nhiên. Từ ý tưởng này, xây dựng sở liệu phương pháp tổng hợp đảm bảo mục đích đề tổng hợp tiếng Việt chất lượng tốt. 2. Xây dựng sở liệu Xây dựng sở liệu bước quan trọng trình xây dựng tổng hợp tiếng Việt chất lượng tốt. Để xây dựng sở liệu tốt, hai vấn đề lớn quan tâm. Đó sở liệu xây dựng cho phép tổng hợp điệu giống với tiếng nói tự nhiên chất lượng tín hiệu tiếng nói ghi âm sở liệu phải tốt. Ngoài ra, cần giải vấn đề xây dựng ngữ liệu đầy đủ thỏa mãn theo yêu cầu đề ra, chọn giọng để thu tổ chức kịch thu. Theo kết [1] có 1015 đơn vị âm cần thu. Trong đó, đơn vị âm thu âm tiết lưu thành tập tin riêng có định dạng *.wav. Sau thu âm, cần tách đơn vị âm âm tiết ghi âm tương ứng. Việc có ảnh hưởng trực tiếp đến chất lượng tiếng nói tổng hợp. Chính vậy, từ thu âm, phải tính đến vấn đề xây dựng kịch chi tiết cho dễ dàng thực việc tách đơn vị âm cách dễ dàng nhất. Thí dụ, đơn vị âm đầu, chọn âm tiết bắt đầu ”t” “n” thu. Sỡ dĩ chọn âm t thời gian phát âm t âm tiết Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 79 ngắn, nên tách ta dễ dàng ước lượng phần tín hiệu âm âm tiết cần thu. Còn phụ âm “n” ta dễ nhận phần tín hiệu âm “n” nên việc tách trở lên dễ dàng đảm bảo tính xác cao. Hơn nữa, sở liệu xây dựng nhằm mục đích cho nghiên cứu, nên thông tin điểm cắt đơn vị âm âm tiết ghi âm xác định lưu tập tin khác định dạng sẵn (* .pim), tập tin ghi âm tương ứng ban đầu bảo toàn nguyên vẹn. Chính điều mà thông tin điểm cắt sau xác định điều chỉnh lại cần nhằm nâng cao chất lượng tiếng nói tổng hợp. Cơ sở liệu xây dựng gồm đơn vị âm đầu đơn vị âm cuối với tổng 1015 đơn vị âm, tương ứng với 1015 tập tin ghi âm (*.wav) 1015 tập tin liệu(*.pim) chứa thông tin điểm cắt, thông tin F0, số điểm cực trị, … 3. Xây dựng tổng hợp tiếng Việt chất lượng tốt Các phương pháp tổng hợp tiếng nói chia thành hai hướng: tổng hợp tiếng nói trực tiếp tổng hợp tiếng nói dựa mô hình. Chúng chọn phương pháp tổng hợp dựa đơn vị âm ghi âm trực tiếp từ tiếng nói, âm tiết tổng hợp ghép hai đơn vị âm mà đặt tên đơn vị âm đầu đơn vị âm cuối. Đây phương pháp cho chất lượng tiếng nói tổng hợp tự nhiên. 3.1. Tổng hợp phương pháp ghép nối Quá trình tổng hợp ghép nối thực theo hình 1. Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 80 Bắt đầu Xác định đơn vị âm để tổng hợp Đọc tín hiệu đơn vị âm từ sở liệu Xác định điểm ghép đơn vị âm đầu với đơn vị âm cuối Ghép đơn vị âm đầu đơn vị âm cuối tạo thành âm tiết Kết thúc Hình – Lưu đồ thuật giải tổng hợp phương pháp ghép nối 3.2. Các đề xuất cân tham số vị trí ghép nối Tổng hợp tiếng nói phương pháp ghép nối từ đơn vị âm không đồng (non-uniform unit) vấn đề thực từ sớm. Song tồn vấn đề mang tính thời thu hút quan tâm, việc xử lý tín hiệu điểm ghép nối. Bằng nghiên cứu đánh giá ảnh hưởng tham số đến chất lượng tiếng Việt tổng hợp phương pháp ghép nối, số tham số có ảnh hưởng như: biên độ, tần số F0 phổ (hay formant). Các tham số dễ dàng nhận ta quan sát tín hiệu miền thời gian tần số hình hình 3. Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Hình 2: Tín hiệu tiếng nói tự nhiên từ ‘tải’ (A) Biểu diễn miền thời gian (D) Biểu diễn formant (E) Biểu diễn F0 Trang 81 Hình 3: Tín hiệu tiếng nói từ ‘tải’ sau ghép đơn vị âm đầu đơn vị âm cuối. (B) Đoạn tín hiệu đơn vị âm đầu (B) Đoạn tín hiệu đơn vị âm cuối Hình cho thấy gián đoạn không liên tục tham số biên độ, phổ tần số F0 so với tín hiệu gốc hình 2. Hiện nay, có nhiều công trình nghiên cứu vấn đề giới, nhiên với ngôn ngữ lại có đặc trưng riêng, nên chúng cần có cách giải khác nhau. Vì vậy, phần này, xin trình bày đề xuất cân biên độ, tần số phổ tiếng Việt. a. Cân biên độ Để cân biên độ có nhiều cách để thực hiện, nhiên việc cân phải đảm bảo đoạn tín hiệu tiếng nói sau cân có thay đổi so với tín hiệu gốc ban đầu. Dựa sở đó, ý tưởng cân biên độ đơn vị âm đầu theo đơn vị âm cuối. Sở dĩ chọn đơn vị âm đầu đoạn tín hiệu âm đầu thường ngắn so với đơn vị âm cuối, nên cân chúng bị ảnh hưởng hơn. Các bước thực sau: Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 82 Bước 1: Tìm giá trị biên độ lớn đơn vị âm đầu đơn vị âm cuối. Bước 2: Tính hệ số tương ứng cách lấy giá trị lớn đơn vị âm cuối chia giá trị lớn đơn vị âm đầu. Bước 3: Tính lại giá trị mẫu đơn vị âm đầu cách nhân với hệ số tính bước 2. Hình tín hiệu tổng hợp từ “tải”. Hình 4a tín hiệu biểu diễn miền thời gian từ tổng hợp chưa cân biên độ, biên độ đơn vị âm đầu lớn so với đơn vị âm cuối. Tuy nhiên, sau cân biên độ đơn vị âm đầu theo đơn vị âm cuối chệnh lệnh không đáng kể, hình 4b. (b) (a) (b) (a) Hình 4– Tín hiệu tiếng nói tổng hợp từ ‘tải’ (a). Chưa cân biên độ. (b). Đã cân biên độ b. Cân tần số F0 Đối với tiếng Việt, thay đổi tần số F0 làm thay đổi điệu, ngữ điệu nhiều thông tin quan trọng khác tiếng nói tổng hợp. Chính vậy, việc cân tham số F0 điều quan quan trọng nhằm nâng cao chất lượng tiếng Việt tổng hợp. Nhiều giải pháp đưa để cân tần số F0 vị trí ghép nối thuật giải “shift only”, “residual resampling”, “multiplex window processing” báo [2],[5]. Tuy nhiên, ý tưởng làm thay đổi giá trị F0 đoạn nguyên âm bên đơn vị âm đầu theo giá trị F0 bên đơn vị âm cuối. Phương pháp thực thuật giải PSOLA. Giải pháp bước thực sau: Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 83 Bước 1: Xác định tần số đoạn nguyên âm đơn vị âm đầu đơn vị âm cuối ta gọi tương ứng F01 F02 Bước 2: Thay đổi tần số F01 đoạn tín hiệu nguyên âm bên đơn vị âm đầu theo tần số F02 bên đơn vị âm cuối thuật giải PSOLA. Hình kết cân tần số F0 từ ‘tải’. Đường (a) F0 từ tổng hợp chưa thực cân F0. Đường (b) F0 từ ‘tải’ sau áp dụng thuật giải để cân F0. Hình – Tần số F0 từ ‘tải’ tổng hợp (a). Chưa cân F0. (b). Đã cân F0 b. Làm trơn phổ Quá trình làm trơn phổ vị trí ghép nối thực cho, cân phổ đoạn tín hiệu nguyên âm bên đơn vị âm đầu theo phổ phần nguyên âm bên đơn vị âm cuối phương pháp LPC. Mục đích tạo tín hiệu mang phần thông tin đoạn tín hiệu ban đầu, song thông tin phổ điều khiển để gần giống với phổ đoạn tín hiệu thuộc nguyên âm đơn vị âm cuối. Quá trình tiến hành theo bước sau: Tìm hệ số LPC(sử dụng thuật giải Levinson-Durbin) đoạn tín hiệu hữu thuộc đơn vị âm đầu (ở ký hiệu ai1) hệ số LPC đoạn tín hiệu nguyên âm thuộc đơn vị âm cuối (ở ký hiệu ai2). Sau đó, tham số ai1 sử dụng để tính tín hiệu kích thích cho tuyến âm. Còn hệ số ai2 sử dụng làm tham số tuyến âm tổng hợp. Chi tiết xem hình Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 84 + (a) (b) Tính hệ số tiên đoán LPC: ai1 i=1 P (P=8 14) Tính tính hiệu kích thích: p en   y n   ~ y n   yn    a1 k  yn  k  k 1 Tính hệ số tiên đoán LPC: ai2 i=1 P (P=8 14) Tổng hợp tín hiệu: y1 p y1 (n)  e(n)   a k  y1 n  k  k 1 ( c) Hình – Qui trình làm cân phổ vị trí ghép nối (a). Đoạn tín hiệu nguyên âm thuộc đơn vị âm đầu (b). Đoạn tín hiệu nguyên âm thuộc đơn vị âm cuối (c ). Đoạn tín hiệu tổng hợp phương pháp LPC Hình kết làm trơn phổ (formants) lại vùng ghép nối từ “của”. Hình 7(A) phổ từ trước thực làm trơn phổ. Hình 7(B) phổ từ sau thực cân phổ. Hình – Kết cân phổ từ ‘cần’ (A) trước (B) sau cân Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 85 Hình – Đường bao phổ đoạn tín hiệu từ “tải” (a). Đường bao phổ đoạn tín hiệu thuộc đơn vị âm cuối từ. (b). Đường bao phổ đoạn tín hiệu trước cân phổ từ. (c). Đường bao phổ đoạn tín hiệu sau cân phổ từ. Hình cho thấy chênh lệnh đường bao phổ đoạn tín hiệu gốc thuộc đơn vị âm đầu ứng với đường (a) so với đường bao phổ đoạn tín hiệu thuộc đơn vị âm cuối ứng với đường (b) lớn, đặc biệt vùng I, vùng II vùng III. Tuy nhiên, sau sử dụng thuật toán làm trơn phổ, chênh lệnh giảm đáng kể. Đường bao phổ đoạn tín hiệu sau sử dụng thuật giải làm trơn phổ ứng với đường (c). 4. Đánh giá kết chất lượng tiếng Việt tổng hợp Chúng đề nghị 30 người nghe đánh giá chất lượng tiếng Việt tổng hơp. Trong 20 từ đưa ra, việc đánh giá chất lượng tổng hợp tốt tỏ vượt trội phía từ cải thiện. Đặc biệt từ “tải” 100% người nghe chọn từ sau cải tiến có chất lượng tốt hơn, có số từ khác có kết tương tự cao từ “đến”, “cần”, “cuộc”, “đại”, “đối”,… Có số từ “tử”, “với” số người đánh giá cho từ chưa cải thiện có chất lượng tốt cao, song số so với số người Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 86 đánh giá cho từ cải thiện tốt hơn. Nguyên nhân người nghe không tập trung, chưa có phân tích tinh tế nghe, chí bị ảnh hưởng thứ tự phát âm nghe(thường từ phát sau đánh giá nhỉnh chất lượng chúng không khác nhiều). Chính lý mà số từ có khác không nhiều chọn cho từ chưa cải tiến chọn đáp án chất lượng giống nhau. Hình – Kết đánh giá chất lượng 20 từ trước sau cải thiện Bảng kết đánh giá chất lượng 20 từ tổng hợp theo phương pháp MOS. Kết từ tính điểm trung bình cộng 30 người nghe. Kết cho thấy, giá trị trung bình 30 người nghe 20 từ có giá trị lớn 4. Bảng – Kết đánh giá chất lượng 20 từ tiếng nói tổng hợp Từ Điểm TB cộng (30 người nghe) Từ Điểm TB cộng (30 người nghe) Tải 4.467 Đóng 4.1 Đến 4.433 Cuộc 4.566 Hội 4.267 Đại Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 4.5 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang Cần 4.7 Tể 4.467 Giới 4.467 Tử 4.466 Tiến 4.667 Tăng 4.267 Giầy 4.4 Với 4.6 Bao 4.3 Của 4.633 Dưới 4.567 Phòng Tính 4.533 Đối 87 4.633 Trong trình thử nghiệm kết tổng hợp, từ chọn để đánh giá theo bảng từ theo cảm nhận chủ quan chúng tôi, nên ưu tiên đánh giá chất lượng cả. Điều có nghĩa là, có từ mà chất lượng trước sau cải thiện tốt nhau, trước cải thiện chất lượng tốt vậy, không thiết phải ưu tiên đưa vào danh sách từ cần đánh giá. Những từ đưa vào đánh giá từ có chênh lệnh mặt tham số tương đối lớn vị trí ghép nối trước cải thiện chất lượng. Chính vậy, kết bước đầu cho thấy, đề xuất sử dụng nhằm cân tham số tín hiệu tiếng nói vị trí ghép nối tốt, chất lượng tiếng Việt từ tổng hợp giống với tiếng nói tự nhiên. 5. Kết luận Chúng đề xuất phương pháp xây dựng tổng hợp tiếng Việt chất lượng tốt phương pháp ghép nối. Trong có đề xuất nhằm nâng cao chất lượng tiếng Việt tổng hợp cách làm trơn tham số biên độ, tần số F0 phổ tín hiệu tiếng nói tổng hợp ví trị ghép nối. Những kết đánh giá bước đầu cho thấy, đề xuất sử dụng nhằm cân tham số tín hiệu tiếng nói vị trí ghép nối tốt, đồng thời kết cho thấy chất lượng từ tổng hợp đạt mức tự nhiên cao. Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 88 Tài liệu tham khảo [1]. Trịnh Văn Loan, Đinh Đồng Lưỡng, Phạm Thị Kim Ngoan, “Xây dựng sở liệu cho tổng hợp tiếng Việt chất lượng tốt”, Hội nghị: Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông , Biên Hòa 2009. [2]. Baris Bozkurt, Thierry Dutoit, Romain Prudon, Christophe D’Alessandro, Vincent , “Improving quality of mbrola synthesis for non-uniform units synthesis “, Park, B-7000 Mons, Belgium. [3]. Trần Đỗ Đạt, Eric Castelli, Serignat Jean-Francois, Lê Xuân Hùng, Trịnh Văn Loan. “Influence of F0 on Vietnamese syllable perception”. Proc. of Interspeech 2005, Lisbon, pp 1697-1700, 2006. [4]. Trần Đỗ Đạt, Eric Castelli, Serignat Jean-Francois, Trịnh Văn Loan, Lê Xuân Hùng. “Linear F0 Contour Model for Vietnamese Tones and Vietnamese Syllable Synthesis with TD-PSOLA”. Proc. TAL 2006, La Rochelle, April 2006. [5]. M. Edgington and A. Lowry,”Residual-Based Speech Modification Algorithms for Text-to-Speech Synthesis”, BT Laboratories, Martlesham Heath, IPSWICH, IP5 7RE, U.K. [6]. Hansjörg Mixdorff, Nguyen Hung Bach, Hiroya Fujisaki, Mai Chi Luong, “Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese”, EuroSpeech 2003 – GENEVA. [7]. Nguyen Thanh Kien, Nguyen Duc Thang, Le Thai Hoa, Trinh Van Loan,”DSP-based Embedded System for Text to Speech Synthesis of Vietnamese”, Proceeding of the 2nd Asia Pacific International Conference on Information Science and Technology, Hanoi, December 2007 pp 215-219. [8]. Trần Đỗ Đạt, Eric Castelli, Trịnh Văn Loan, Lê Việt Bắc, “Building a large Vietnamese Speech Database”. Tạp chí Khoa học Công nghệ (ISBN 08683980) Vol 46/47, February 2004, pp 13-17. Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 89 [9]. Lê Trung Dũng, “Xây dựng công cụ khảo sát ảnh hưởng tham số đến chất lượng tiếng nói tổng hợp tiếng Việt dùng TD-PSOLA” , Luận văn Cao học, Đại học Bách khoa, năm 2007. [10]. Lã Thế Vinh “Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760” Luận văn cao học, Đại học Bách khoa, năm 2007. [11]. Lã Thế Vinh, Trịnh Văn Loan, “Vietnamese Recognition and Synthesis with T-engine Embedded System”, Proceeding of the 2nd Asia Pacific International Conference on Information Science and Technology, Hanoi, December 2007 pp133-137. [12]. Thierry Dutoit "An Introduction to Text-to-Speech Synthesis" 1997 [13]. Xuedong Huang, Alejandro Acero, Hsiao-Wuen Hon,” PH Spoken Language Processing - A Guide to Theory, Algorithm and System Developmen” October 2000. [14]. Phần mềm: Praat, WaveSufer, WASP, Adobe Audition 1.5. [15]. URL: http://ngonngu.net Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 90 Tóm tắt luận văn Đề tài “Tổng hợp tiếng Việt chất lượng tốt” thực học viên Đinh Đồng Lưỡng hướng dẫn TS.Trịnh Văn Loan, đặt nhiệm vụ nhằm xây dựng tổng hợp tiếng Việt chất lượng tốt với cách tiếp cận tổng hợp tiếng Việt, yếu tố chất lượng tổng hợp điệu đưa lên hàng đầu. Nội dung luận văn bao gồm phần chính: Xây dựng sở liệu cho tổng hợp tiếng Việt chất lượng tốt: - Xây dựng danh sách đơn vị âm đầu đơn vị âm cuối - Xây dựng kịch thu - Chọn giọng thu âm Xây dựng tổng hợp tiếng Việt chất lượng tốt. - Xây dựng tổng hợp tiếng Việt phương pháp ghép nối - Xây dựng số giải thuật đề xuất nhằm nâng cao chất lượng tiếng Việt tống hợp vị trí ghép nối + Cân tần số F0 + Cân biên độ + Cân phổ Kết thực đề tài cho thấy chất lượng tiếng Việt tổng hợp tự nhiên. Từ khoá: sở liệu tiếng Việt, chất lượng tốt, điệu, ghép nối. Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 [...]... Hình 3.4 – Mô hình tổng hợp tiếng nói Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 Tiếng nói TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 29 3.3.1 Tổng hợp mức cao Tổng hợp mức cao là giai đoạn đầu của quá trình tổng hợp, giai đoạn chuyển đổi các văn bản thành các đơn vị tiếng nói (ví dụ như đơn vị âm) Văn bản được nhập hoặc sao chép vào, sau đó qua tổng hợp mức thấp sẽ thành tiếng nói Tổng hợp mức cao gồm... lý tiếng nói Ứng dụng xử lý tiếng nói Lưu trữ và truyền số liệu Tổng hợp tiếng nói Định danh và xác nhận người nói Nhận dạng tiếng nói Tăng cường chất lượng tiếng nói Hình 2.10 – Một số ứng dụng xử lý tiếng nói Trong các ứng dụng này có 2 ứng dụng quan trọng nhất là: Tổng hợp tiếng nói và xử lý tiếng nói Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 18 2.5.1 Tổng. .. để mã hoá tiếng nói nhưng phương pháp này cũng có thể dùng cho tổng hợp 3.3 Mô hình tổng hợp tiếng nói từ văn bản Một nhu cầu rất quan trọng trong lĩnh vực tổng hợp tiếng nói là tổng hợp tiếng nói từ văn bản (Text To Speech – TTS) Quá trình này được chia làm hai mức xử lý:  High Level Synthesis: Tổng hợp mức cao  Low Level Synthesis: Tổng hợp mức thấp Văn bản (Text) Tổng hợp mức cao Tổng hợp mức thấp... CHẤT LƯỢNG TỐT Trang 18 2.5.1 Tổng hợp tiếng nói Tổng hợp tiếng nói là tạo tiếng nói xuất phát từ biểu diễn ngữ âm của lời nói Các phương pháp tổng hợp tiếng nói hiện nay được chia thành hai nhóm: tổng hợp tiếng nói trực tiếp và tổng hợp tiếng nói dựa trên mô hình 2.5.1.1 Tổng hợp trực tiếp Đây là phương pháp tổng hợp dựa trên các đơn vị âm đã được ghi âm trực tiếp từ tiếng nói Trong đó đơn vị âm có thể... 2.5: Hệ thống âm cuối tiếng Việt 1 2 3 4 5 6 7 8 m n ng/nh p t c/ch i/y o/u Tiếng Việt có 6 thanh điệu: thanh ngang, sắc, huyền, hỏi, nặng và ngã Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 23 CHƯƠNG 3: CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI 3.1 Dẫn nhập Trong vài thập niên gần đây, các bộ tổng hợp tiếng nói cho các ngôn ngữ trên thế giới có chất lượng ngày càng cao... XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 20 2.6 Một số đặc điểm ngữ âm tiếng Việt Tiếng Việt là ngôn ngữ đơn âm tiết và có thanh điệu Với tiếng Việt, các từ không biến đổi hình thái, không biến đổi đuôi từ để biểu thị các phạm trù ngữ pháp Cấu tạo không dùng phụ tố (tiền tố, trung tố và hậu tố) và dùng rất ít hình vị Tiếng Việt có tối đa 2 vạn tiếng để tạo thành các hình vị Tiếng Việt là ngôn... trúc song song cần nhiều thông tin để điều khiển hơn Tổng hợp formant là một phương pháp tổng hợp cho chất lượng chấp nhận được nhưng nếu yêu cầu chất lượng cao thì phương pháp này chưa đáp ứng được Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 25 Tiếng nói Kích thích Hình 3.2 – Cấu trúc cơ bản của một bộ tổng hợp formant song song 3.2.3 Phương pháp LPC Phương pháp... pháp tổng hợp Formant Phương pháp tổng hợp formant (formant synthesis) yêu cầu phải tổng hợp được tối thiểu 3 formant để hiểu được tiếng nói, và để có được tiếng nói chất lượng cao thì cần tới 5 formant Tiếng nói được tạo ra từ các bộ tổng hợp formant với thành phần chính là các bộ cộng hưởng Tuỳ theo cách bố trí các bộ cộng hưởng mà ta có bộ tổng hợp formant là nối tiếp hay song song a Bộ tổng hợp. .. chất lượng khá tốt, khó khăn lớn nhất là giảm kích thước dữ liệu Khó khăn này, như đã trình bày, có thể khắc phục bằng cách tổng hợp tiếng nói từ những đơn vị nhỏ hơn từ Với mục đích nghiên cứu việc tổng hợp tiếng Việt và dựa trên những đặc điểm của các phương pháp tổng hợp, trong luận văn này chúng tôi sẽ sử dụng phương pháp tổng hợp bằng ghép nối cho tiếng Việt và môt số giải pháp nhằm nâng cao chất. .. hoặc câu Quá trình tổng hợp theo phương pháp này được thực hiện bằng cách ghép các đơn vị âm lại tạo nên từ, câu Đối với phương pháp tổng hợp trực tiếp, quá trình phân loại dựa theo đơn vị ghi âm dùng để ghép 2.5.1.2 Tổng hợp dựa trên mô hình Đối với phương pháp này, có ba phương pháp tổng hợp phổ biến đó là: tổng hợp bằng mô phỏng bộ máy phát âm, tổng hợp dựa vào formant và tổng hợp bằng phương pháp . của tổng hợp tiếng Việt, kế thừa và phát huy những nghiên cứu trước đó, tôi chọn đề tài Tổng hợp tiếng Việt chất lượng tốt . Với mong muốn có thể tổng hợp được các từ tiếng Việt với chất lượng. cứu, tìm hiểu về tổng hợp, đồng thời mong muốn góp một phần xây dựng hệ tổng hợp tiếng Việt, chúng tôi muốn hướng tới hệ tổng hợp tiếng Việt chất lượng tốt trong đó vấn đề chất lượng thanh điệu. Lưỡng TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 3 CHƯƠNG 1: KHÁI QUÁT VỀ CÁC NGHIÊN CỨU TỔNG HỢP TIẾNG VIỆT 1.1 Tổng quan về xử lý ngôn ngữ tiếng

Ngày đăng: 19/09/2015, 10:44

Tài liệu cùng người dùng

Tài liệu liên quan