Luận án tiến sĩ nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng việt theo phương thức phát âm (tt)

12 340 0
Luận án tiến sĩ nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng việt theo phương thức phát âm (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

trường hợp sử dụng mô hình GMM để nhận dạng phương ngữ tiếng Việt, tham số formant dải thông tương ứng kết hợp với biến thể F0 làm tăng độ xác nhận dạng lên 1,4% so với có đặc trưng MFCC F0 Bên cạnh đó, để nâng cao hiệu nhận dạng phương ngữ tiếng Việt, luận án khuyến nghị sử dụng biến thể F0 chuẩn hóa F0 theo trung bình F0 trường hợp kết hợp với MFCC Còn trường hợp sử dụng formant dải thông tương ứng, cần sử dụng F0 chuẩn hóa theo trung bình độ lệch chuẩn F0 Cùng với mô hình GMM, luận án nghiên cứu nhận dạng phương ngữ với số phân lớp khác SVM (SMO), MultilayerPerceptrol, IBk, JRip, PART Từ nghiên cứu này, luận án phân lớp MultilayerPerceptrol cho kết nhận dạng tốt phương ngữ tiếng Việt với tập 384 tham số đặc trưng tín hiệu tiếng nói (4) Luận án nghiên cứu mô hình HMM nhận dạng tự động tiếng Việt nói ngữ liệu có phương ngữ kết cho thấy vai trò tích cực việc xác định phương ngữ trước nhận dạng nội dung tiếng nói Nghiên cứu tiến hành theo hai trường hợp Trường hợp thứ nhất: nhận dạng nội dung tiếng Việt nói ngữ liệu có phương ngữ không dùng thông tin phương ngữ Trường hợp thứ hai: nhận dạng nội dung tiếng Việt nói ngữ liệu có phương ngữ dùng thông tin phương ngữ Kết nghiên cứu cho thấy, trường hợp nhận dạng có thông tin phương ngữ, tỷ lệ lỗi từ tương đối giảm 27,9%, tương đương với độ xác nhận dạng tăng lên cách đáng kể Đây lần mô hình HMM sử dụng nhận dạng tự động tiếng Việt nói ngữ liệu có phương ngữ (5) Tổng hợp kết nghiên cứu, luận án đề xuất mô hình mạnh để nhận dạng tiếng Việt nói ngôn ngữphương ngữ đa dạng cần tiến hành nhận dạng phương ngữ trước nhận dạng nội dung nhằm thực nâng cao hiệu cho hệ thống nhận dạng tiếng Việt nói Định hướng phát triển: Từ kết nghiên cứu thực hiện, luận án đề xuất kiến nghị sau nhằm mở rộng hướng nghiên cứu có: (1) Bổ sung phương ngữ khác tiếng Việt vào ngữ liệu VDSPEC (2) Nghiên cứu đặc trưng theo phương thức phát âm phương ngữ tiếng Việt bổ sung (3) Xây dựng mô hình nhận dạng tiếng Việt theo hướng ngày hoàn thiện nhằm phù hợp với tính đa dạng phương ngữ tiếng Việt 24 MỞ ĐẦU Lý chọn đề tài Ngày nay, với phát triển mạnh mẽ máy tính, ứng dụng máy tính lĩnh vực sống làm nảy sinh nhiều yêu cầu nhằm đơn giản hoá trình sử dụng, tăng hiệu khai thác máy tính ứng dụng máy tính Trong đó, xử lý tiếng nói nói chung nhận dạng tiếng nói nói riêng vấn đề quan tâm nghiên cứu, phát triển ứng dụng nhằm nâng cao hiệu sử dụng máy tính phục vụ người sống Trên giới có nhiều nghiên cứu nhận dạng tiếng nói Không dừng lại nghiên cứu mà nhận dạng tiếng nói triển khai sản phẩm ứng dụng Đối với nhận dạng tiếng Việt, có nhiều nghiên cứu đạt kết định để triển khai thành sản phẩm ứng dụng thực tế nhiều mặt hạn chế, đặc biệt độ xác, chất lượng nhận dạng Ngoài khó khăn nhận dạng tiếng nói nói chung, nhận dạng tiếng Việt nói gặp trở ngại lớn phải kể đến vấn đề phương ngữ tiếng Việt Tiếng Việt có nhiều phương ngữ khác Sự khác biệt phương ngữ gây không khó khăn cho người giao tiếp với phương ngữ khác Sự khác biệt ảnh hưởng tới hệ thống nhận dạng tiếng Việt nói, làm giảm hiệu nhận dạng Chính vậy, cần thiết phải nghiên cứu vấn đề nhận dạng tiếng Việt nói theo vùng phương ngữ khác nhằm tìm giải pháp kỹ thuật nâng cao hiệu nhận dạng tiếng Việt nói Trước tiến hành nhận dạng nội dung tiếng nói, xác định tiếng nói thuộc phương ngữ sử dụng mô hình nhận dạng xây dựng phù hợp với phương ngữ nhằm cải thiện hiệu hệ thống nhận dạng Từ lý nêu trên, luận án lựa chọn đề tài nghiên cứu “Tự động nhận dạng tiếng nói phát âm liên tục cho phương ngữ tiếng Việt theo phương thức phát âm” để nghiên cứu sâu vấn đề xử lý nhận dạng tiếng Việt nói, giải số hạn chế nhận dạng tiếng Việt nói liên quan đến phương ngữ góp phần phát triển ứng dụng công nghệ thông tin cho người Việt sản phẩm ứng dụng công nghệ thông tin sử dụng tiếng Việt dịch tự động, giao tiếp tương tác người-máy Mục tiêu nghiên cứu luận án Mục tiêu luận án Nghiên cứu nhận dạng tiếng Việt nói cho vùng phương ngữ chính, đánh giá ảnh hưởng phương ngữ đến hiệu hệ thống nhận dạng đề xuất giải pháp kỹ thuật nhận dạng phương ngữ áp dụng vào hệ thống nhận dạng tiếng Việt nói nhằm nâng cao hiệu nhận dạng Nhiệm vụ nghiên cứu luận án Để đạt mục tiêu đề ra, luận án cần thực nhiệm vụ sau: Nghiên cứu đặc điểm phương ngữ tiếng Việt, đánh giá ảnh hưởng phương ngữ tới hệ thống nhận dạng tự động tiếng Việt nói, xây dựng ngữ liệu phương ngữ tiếng Việt phục vụ cho nghiên cứu nhận dạng phương ngữ tiếng Việt nhận dạng tiếng Việt nói, nghiên cứu, đề xuất mô hình hệ thống nhận dạng tự động, tham số phù hợp để nhận dạng phương ngữ tiếng Việt mô hình hệ thống nhận dạng tự động tiếng Việt nói theo phương ngữ tiếng Việt Đối tượng phạm vi nghiên cứu luận án Đối tượng nghiên cứu trọng tâm luận án nhận dạng phương ngữ tiếng Việt Từ kết nhận dạng phương ngữ, xây dựng mô hình nhận dạng tiếng Việt nói theo phương ngữ Mô hình sử dụng thông tin phương ngữ nhằm cải thiện hiệu hệ thống nhận dạng tiếng Việt nói Việc nghiên cứu phương ngữ tiếng Việt chủ yếu tập trung theo hướng xử lý tín hiệu mà không sử dụng yếu tố từ địa phương Phương ngữ tiếng Việt phong phú Về mặt địa lý, xét theo phương thức phát âm, phương ngữ thay đổi theo làng, xã Tuy nhiên phạm vi nghiên cứu luận án, thời gian có hạn, luận án giới hạn nghiên cứu nhận dạng ba phương ngữ phổ biến tiếng Việt theo phương thức phát âm phương ngữ Bắc (lấy giọng Hà Nội làm đại diện), phương ngữ Trung (lấy giọng Huế làm đại diện) phương ngữ Nam (lấy giọng Thành phố Hồ Chí Minh làm đại diện) Trong hệ thống nhận dạng tiếng Việt nói, nhận dạng phương ngữ xem bước tiền xử lý nên cần tiến hành trước nhận dạng nội dung, nghĩa thời điểm chưa biết nội dung tiếng nói Vì vậy, thao tác hệ thống nhận dạng phương ngữ không cần thiết phải khai thác thông tin từ địa phương mà chủ yếu khai thác thông tin phương thức phát âm phương ngữ Điều làm cho việc Bắc, Trung, Nam khuôn khổ luận án Luận án thực nghiên cứu nhận dạng phương ngữ tiếng Việt, đề xuất tham số bao gồm 13 hệ số MFCC kết hợp với biến thể F0 phù hợp với mô hình nhận dạng GMM Kết nhận dạng cải thiện kết hợp tham số formant, dải thông tương ứng biến thể F0 Bên cạnh đó, luận án thực nghiên cứu số phân lớp SVM (SMO), IBk, JRip, MultilayerPerceptron, PART nhận dạng phương ngữ tiếng Việt Kết nghiên cứu cho thấy phân lớp nhận dạng hiệu phương ngữ tiếng Việt Trên sở kết nghiên cứu, luận án đề xuất mô hình nhận dạng tiếng Việt nóinhận dạng phương ngữ Trong mô hình này, tiếng nói nhận dạng phương ngữ trước nhận dạng nội dung Thông tin phương ngữ giúp hệ thống nhận dạng lựa chọn mô hình huấn luyện phù hợp với phương ngữ nhằm đạt hiệu nhận dạng tốt so với trường hợp thông tin phương ngữ Đóng góp khoa học luận án: Các kết nghiên cứu đóng góp khoa học luận án sau: (1) Luận án xây dựng ngữ liệu tiếng Việt VDSPEC dùng cho nghiên cứu nhận dạng phương ngữ tiếng Việt nhận dạng tiếng Việt nói Đây ngữ liệu phục vụ cho nghiên cứu ba phương ngữ tiếng Việt mà đại diện giọng Hà Nội cho phương ngữ Bắc, giọng Huế cho phương ngữ Trung giọng Thành phố Hồ Chí Minh cho phương ngữ Nam Ngữ liệu tiếng Việt VDSPEC ghi âm trực tiếp từ người nói theo văn chuẩn bị sẵn tổ chức theo chủ đề (2) Kết nghiên cứu đặc điểm phương ngữ tiếng Việt theo phương diện xử lý tín hiệu, yếu tố phương ngữ ảnh hưởng tới hiệu hệ thống nhận dạng tiếng Việt nói đóng góp luận án Luận án sâu phân tích đặc điểm phương thức phát âm ba phương ngữ đại điện Bắc, Trung Nam Kết nghiên cứu khác biệt phương thức phát âm theo phương diện xử lý tín hiệu, đặc biệt phương thức phát âm khác điệu mũi hóa khác phương ngữ (3) Một đóng góp luận án nhận dạng phương ngữ tiếng Việt sử dụng mô hình GMM với việc đề xuất lựa chọn tham số thích hợp cho mô hình bao gồm số thành phần Gauss, đặc trưng MFCC, tần số F0, biến thể F0, formant dải thông tương ứng Kết nghiên cứu cho thấy, 23 thông tin phương ngữ với lỗi từ trường hợp tốt 9,37% Sử dụng mô hình nhận dạng tiếng Việt nói đề xuất, kết cho thấy hiệu hệ thống nhận dạng tiếng Việt nói cải thiện đáng kể có thông tin phương ngữ Tỷ lệ lỗi từ tương đối giảm 27,9% KẾT LUẬN VÀ KIẾN NGHỊ Kết luận: Luận án hoàn thành nội dung nghiên cứu, đáp ứng mục tiêu đặt ban đầu "Nghiên cứu nhận dạng tiếng Việt nói cho vùng phương ngữ chính, đánh giá ảnh hưởng phương ngữ đến hiệu hệ thống nhận dạng, đề xuất giải pháp kỹ thuật nhận dạng phương ngữ áp dụng vào hệ thống nhận dạng tiếng Việt nói nhằm nâng cao hiệu nhận dạng" Tiếng Việtphương ngữ đa dạng, phong phú Các nghiên cứu phương ngữ tiếng Việt thực song chủ yếu theo phương diện ngôn ngữ Nghiên cứu theo phương diện xử lý tín hiệu phương ngữ tiếng Việt công bố Phương ngữ tiếng Việt phân chia thành nhiều vùng khác Theo ý kiến đa phần nhà nghiên cứu phương ngữ tiếng Việt, phân chia phương ngữ tiếng Việt làm ba vùng phương ngữ Bắc, phương ngữ Trung phương ngữ Nam Sự phân chia mang tính tương đối khác phương ngữ xuất làng xã liền kề thay đổi theo vị trí địa lý Luận án tiến hành nghiên cứu khác biệt ba phương ngữ tiếng Việt theo phương thức phát âm, ứng dụng hệ thống nhận dạng tự động tiếng Việt nói nhằm cải thiện hiệu nhận dạng hệ thống Để thực nghiên cứu nhận dạng phương ngữ, cần thiết phải có ngữ liệu phương ngữ đáp ứng cho yêu cầu chuyên biệt Luận án tiến hành xây dựng ngữ liệu phương ngữ tiếng Việt VDSPEC dùng cho nghiên cứu nhận dạng phương ngữ nhận dạng tiếng Việt nói Bộ ngữ liệu VDSPEC ghi âm trực tiếp từ người nói theo văn chuẩn bị từ trước phân chia theo chủ đề Tiếng nói ghi âm từ ba giọng Hà Nội, Huế, Thành phố Hồ Chí Minh đại diện cho ba vùng phương ngữ phương ngữ Bắc, phương ngữ Trung phương ngữ Nam Các phân tích ngữ liệu VDSPEC khác biệt quy luật biến thiên tần số F0 cho điệu mũi hóa phương ngữ Trung, Nam Những khác biệt sử dụng làm sở để phân biệt ba phương ngữ 22 nhận dạng phương ngữ hoạt động linh hoạt mà không phụ thuộc vào nội dung cần nhận dạng Các thử nghiệm nhận dạng phương ngữluận án tiến hành dựa ngữ liệu với số lượng từ vựng hạn chế để từ xác định đặc trưng phương ngữ đồng thời đề xuất mô hình nhận dạng phương ngữ nhằm nâng cao chất lượng hệ thống nhận dạng tiếng Việt nói Ý nghĩa khoa học thực tiễn luận án Nội dung nghiên cứu, kết dự kiến đạt luận ánđóng góp đáng kể cho mở rộng nghiên cứu phương ngữ tiếng Việt, đặc biệt phương diện xử lý tín hiệu Từ kết nhận dạng phương ngữ, đề xuất mô hình nhận dạng tiếng Việt nói theo phương ngữ nhằm cải thiện hiệu hệ thống nhận dạng tiếng Việt nói, góp phần hoàn thiện khả nhận dạng hệ thống nhận dạng tự động tiếng Việt nói Phương pháp nghiên cứu Phương pháp nghiên cứu luận án kết hợp nghiên cứu lý thuyết với nghiên cứu thực nghiệm Về lý thuyết: luận án nghiên cứu tổng quan phương ngữ tiếng Việt, mô hình nhận dạng phương ngữ số ngôn ngữ giới, mô hình nhận dạng tiếng nói dựa tài liệu, công trình khoa học công bố, sách báo, giáo trình liên quan Về thực nghiệm: luận án xây dựng ngữ liệu tiếng Việt phục vụ cho nghiên cứu nhận dạng phương ngữ tiếng Việt nhận dạng nội dung tiếng Việt nói; thực nghiên cứu, thử nghiệm nhận dạng phương ngữ tiếng Việt, xây dựng thử nghiệm mô hình nhận dạng phương ngữ nhận dạng tiếng Việt nói theo phương ngữ Kết nghiên cứu, đóng góp luận án Kết nghiên cứu đóng góp luận án tập trung vào điểm sau: Phân tích đặc điểm phương ngữ tiếng Việt, khác biệt phương ngữ tiếng Việt theo phương diện phát âm mặt xử lý tín hiệu, xây dựng ngữ liệu tiếng Việt phục vụ cho nghiên cứu nhận dạng phương ngữ tiếng Việt nghiên cứu khác nhận dạng tiếng Việt nói; tiến hành số nghiên cứu, thử nghiệm, phân tích đặc điểm phương ngữ tiếng Việt, đề xuất mô hình nhận dạng phương ngữ tiếng Việt với tham số phù hợp cho mô hình nhận dạng phương ngữ tiếng Việt mô hình nhận dạng tiếng Việt nói dùng thông tin phương ngữ nhằm cải thiện hiệu hệ thống nhận dạng Nội dung luận án Nội dung luận án trình bày chương sau: Chương 1: Tổng quan nhận dạng tiếng nói nhận dạng phương ngữ; Chương 2: Xây dựng ngữ liệu cho nghiên cứu nhận dạng phương ngữ tiếng Việt Chương đề cập nghiên cứu tổng quan phương ngữ tiếng Việt, phương pháp xây dựng ngữ liệu dùng cho nghiên cứu nhận dạng phương ngữ tiếng Việt kết phân tích đạt số đặc trưng phương ngữ tiếng Việt dựa ngữ liệu xây dựng Chương 3: Nhận dạng phương ngữ tiếng Việt Nội dung chương tập trung vào nghiên cứu mô hình nhận dạng phương ngữ tiếng Việt, việc lựa chọn tham số ứng dụng cho mô hình trình bày kết thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng mô hình tham số đề xuất Chương 4: Cải thiện hiệu nhận dạng tiếng Việt với thông tin phương ngữ Chương trình bày mô hình nhận dạng tiếng Việt nói dựa HMM sử dụng thông tin phương ngữ nhằm cải thiện hiệu nhận dạng Cuối cùng, phần Kết luận tổng hợp kết nghiên cứu đạt được, hướng mở rộng nghiên cứu, phát triển đề tài đóng góp khoa học luận án TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓINHẬN DẠNG PHƯƠNG NGỮ 1.1 Nhận dạng tiếng nói 1.1.1 Tổng quan nhận dạng tiếng nói Nhiệm vụ hệ thống nhận dạng tiếng nói làm cho hệ thống hiểu tiếng nói người Nhờ hệ thống này, tiếng nói chuyển đổi tự động thành văn bản, tự động điều khiển trình khác [178] 1.1.2 Lịch sử phát triển tiến nghiên cứu nhận dạng tiếng nói Nhận dạng tiếng nói đạt nhiều tiến năm qua Có nhiều mô hình nhận dạng đề xuất Trong đó, mô hình HMM Hình 4.11: Sơ đồ hệ thống nhận dạng tiếng Việt nói sử dụng thông tin phương ngữ 4.2.2 Nhận dạng tiếng Việt nói có thông tin phương ngữ Nghiên cứu thực ngữ liệu VDSPEC sử dụng thông tin phương ngữ Việc huấn luyện mô hình âm học tiến hành độc lập cho phương ngữ Nhận dạng nội dung thực sở biết thông tin phương ngữ Kết nhận dạng tốt với tỷ lệ lỗi từ trung bình 6,76% cho phương pháp huấn luyện tri3b Phương pháp huấn luyện cho kết nhận dạng tốt chưa có thông tin phương ngữ (9,37%) Tỷ lỗi từ có thông tin phương ngữ giảm 2,61% so với chưa có thông tin phương ngữ Tỷ lệ lỗi từ tương đối (relative word error rate) giảm 27,9% Điều tương đương với độ xác nhận dạng tăng lên cách đáng kể 4.3 Kết chương Kết sử dụng HMM nhận dạng tiếng Việt nói chưa sử dụng 21 với tảng nhiều thay đổi việc mô hình hóa, kỹ thuật cài đặt cụ thể liên tục cải tiến Vì thế, HMM giữ vị trí quan trọng hệ thống nhận dạng tiếng nói Bên cạnh đó, kỹ thuật phân tích tham số đạt bước tiến quan trọng Các thuật toán tìm kiếm cải tiến giúp giải mã thực nhiệm vụ tìm kiếm, cho lời giải hiệu 1.1.3 Các thách thức nhận dạng tiếng nói Thách thức lớn nhận dạng tự động tiếng nói xử lý biến đổi tiếng nói Tiếng nói phát âm bị biến đổi nhiều yếu tố khác nhau, thân người nói, môi trường tác động Thách thức lớn khác nhận dạng tự động tiếng nói phải giải toán nhận dạng nhầm, mà hệ thống thường phải đối mặt với thực tế tiếng nói cần nhận dạng không hoàn toàn theo với tiếng nói huấn luyện Hình 4.9: Mô hình nhận dạng tự động tiếng nói 4.1.2.2 Bộ công cụ nhận dạng Kaldi Kaldi công cụ nhận dạng tiếng nói mã nguồn mở trường đại học Johns Hopkins xây dựng từ năm 2009 4.1.2.3 Kaldi nhận dạng tiếng Việt nói theo ba phương ngữ Nghiên cứu dùng Kaldi nhận dạng phương ngữ tiếng Việt ngữ liệu VDSPEC, chưa dùng thông tin phương ngữ Thử nghiệm nhận dạng tiến hành phương pháp đánh giá chéo (5:1) Kết nhận dạng tốt ứng với phương pháp huấn luyện tri3b tỷ lệ lỗi từ 9,37% 4.2 Cải thiện hiệu nhận dạng tiếng Việt nói thông qua sử dụng thông tin phương ngữ 4.2.1 Mô hình nhận dạng tiếng Việt nói với việc sử dụng thông tin phương ngữ Luận án đề xuất mô hình nhận dạng tiếng Việt nói mô tả sơ đồ Hình 4.11 Tiếng nói trước nhận dạng đưa qua bước tiền xử lý nhận dạng phương ngữ Hệ thống kết nhận dạng phương ngữ để có điều chỉnh lựa chọn mô hình thích hợp 1.1.4 Phân loại nhận dạng tiếng nói Các hệ thống nhận dạng tự động tiếng nói phân loại theo cách khác tùy thuộc tiêu chí sử dụng phân loại dựa phụ thuộc người nói, đặc điểm liên tục hay rời rạc tiếng nói cần nhận dạng, độ lớn từ vựng Theo tiêu chí phụ thuộc vào người nói, hệ thống nhận dạng tiếng nói chia làm loại gồm hệ thống nhận dạng tiếng nói phụ thuộc người nói, hệ thống nhận dạng tiếng nói độc lập người nói hệ thống nhận dạng tiếng nói thích nghi người nói Các hệ thống nhận dạng tiếng nói phân loại dựa đặc điểm tiếng nói huấn luyện nhận dạng gồm bốn loại sau: hệ thống nhận dạng tiếng nói theo từ rời rạc không liên kết nghĩa với nhau, hệ thống nhận dạng tiếng nóitừ rời rạc liên kết nghĩa với nhau, hệ thống nhận dạng tiếng nói liên tục, hệ thống nhận dạng tiếng nói tự nhiên Hệ thống nhận dạng tiếng nói phân loại theo số lượng từ vựng Theo cách này, hệ thống nhận dạng tiếng nói chia thành loại bao gồm hệ thống nhận dạng với từ vựng ít, hệ thống nhận dạng tiếng nói với từ vựng trung bình hệ thống nhận dạng tiếng nói với từ vựng lớn 1.2 Nhận dạng phương ngữ Nhận dạng phương ngữ dựa tín hiệu tiếng nói lĩnh vực 20 xử lý tín hiệu tiếng nói thu hút nhiều nhà khoa học tham gia Phương pháp tiếp cận nhận dạng phương ngữ giống phương pháp dùng nhận dạng ngôn ngữ 1.2.1 Các mô hình nhận dạng phương ngữ 1.2.1.1 Mô hình ràng buộc âm vị Với ngôn ngữ, từ cấu thành từ tập âm vị Các mô hình nhận dạng dựa ràng buộc âm vị (Phonotactic Modeling) xây dựng nhận dạng âm vị Bộ nhận dạng âm vị tiến hành phân tích tiếng nói cần nhận dạng thành âm vị 1.2.1.2 Mô hình âm học Cách tiếp cận khác để nhận dạng phương ngữ thay cho cách tiếp cận dựa mô hình ràng buộc âm vị sử dụng mô hình âm học (Acoustic Modeling) Cách tiếp cận sử dụng mô hình nhận dạng khác có mô hình hỗn hợp Gauss (Gaussian Mixture Model – GMM), SVM, ANN… Các mô hình dùng tham số đặc trưng tiếng nói cần nhận dạng phổ, ngôn điệu, tần số bản, 1.2.2 Nhận dạng phương ngữ theo phương diện khác 1.2.2.1 Theo phương diện ngôn ngữ học Nghiên cứu nhận dạng phương ngữ sớm Những ghi nhận kể đến khảo sát để nhận dạng vùng phương ngữ George Wenker vào đầu năm 1877 Việc nhận dạng phương ngữ dựa nguyên âm, phụ âm, từ vựng, hệ thống từ, đặc trưng âm học, âm vị, 1.2.2.2 Theo phương diện phương pháp nhận dạng Nhiều phương pháp sử dụng nhận dạng ngôn ngữ sử dụng cho nhận dạng phương ngữ kể đến số phương pháp GMM, HMM, SVM (Support Vector Machines), NN (Neural Networks), DNN (Deep Neural Networks) 1.3 Nghiên cứu nhận dạng tiếng nói nhận dạng phương ngữ tiếng Việt nhận dạng cho hệ thống nhận dạng phương ngữ tiếng Việt Lựa chọn kết hợp tham số MFCC bao gồm 13 hệ số với thông tin F0 cho kết nhận dạng tốt mô hình GMM Bên cạnh đó, thử nghiệm cho thấy kết hợp tham số bao gồm formant, dải thông tương ứng tham số F0 cho kết nhận dạng tốt Ngoài mô hình GMM, kết thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng phân lớp SVM (SMO), MultilayerPerceptron, IBk, JRip, PART cho thấy phân lớp ứng dụng hiệu nhận dạng phương ngữ tiếng Việt CẢI THIỆN HIỆU NĂNG NHẬN DẠNG TIẾNG VIỆT VỚI THÔNG TIN VỀ PHƯƠNG NGỮ 4.1 HMM nhận dạng tiếng Việt nói 4.1.1 Mô hình HMM HMM xuất phát từ trình chuỗi Markov Andrey Andreyevich Markov nhà toán học Nga đề xuất vào năm 1906 Năm 1913, Markov áp dụng lý thuyết để tính toán xác suất xuất từ tác phẩm “Eugene Onegin” Puskin [23] Trong năm 60 kỷ trước, L.E Baum cộng có công trình nghiên cứu mặt lý thuyết HMM [93] vào năm 70, HMM J.K Baker CMU [76], F Jelinek cộng IBM ứng dụng để xử lý tiếng nói đặc biệt nhận dạng tiếng nói [48] 4.1.2 HMM nhận dạng tiếng Việt nói theo ba phương ngữ 4.1.2.1 Hệ thống nhận dạng tự động tiếng nói Mô hình hệ thống nhận dạng tự động tiếng nói thể Hình 4.9 Hệ thống nhận dạng bao gồm giai đoạn là: huấn luyện mô hình nhận dạng Nghiên cứu nhận dạng tiếng Việt nói số nhà nghiên 19 phương ngữ 99,5% (cao so với trường hợp k=1 Điều cho thấy kết nhận dạng có tăng tăng số láng giềng gần 3.4 Nhận dạng phương ngữ tiếng Việt với phân lớp MultilayerPerceptron 3.4.1 Bộ phân lớp MultilayerPerceptron Với Weka [69], MultilayerPerceptron phân lớp sử dụng mạng nơ-ron lan truyền ngược lỗi để huấn luyện 3.4.2 MultilayerPerceptron nhận dạng phương ngữ tiếng Việt Nghiên cứu sử dụng 384 tham số trình bày mục 3.2.3 Kết nhận dạng trung bıǹ h cả phương ngữ 99,5% Bộ phân lớp cho tỷ lệ nhận dạng cao 3.5 JRip nhận dạng phương ngữ tiếng Việt 3.5.1 Bộ phân lớp JRip JRip là thuật giải RIPPER (Repeated Incremental Pruning to Produce Error Reduction) để suy diễn luật cách hiệu nhanh William W Cohen đề xuất, phiên tối ưu hóa IREP [30] cứu nước thực số nghiên cứu nhận dạng từ rời rạc, số lượng từ vựng hạn chế [31, 120] Nghiên cứu hệ thống nhận dạng số phát âm liên tục tiếng Việt thực [121] Gần đây, có nghiên cứu nhận dạng tiếng Việt phát âm liên tục độc lập người nói có số lượng từ vựng lớn [115, 116, 117, 118], Nghiên cứu [156] nhận dạng tiếng nói liên tục tiếng Việt vốn từ vựng lớn, sử dụng công cụ HTK sở liệu âm thu từ đài phát VOV Hệ thống nhận dạng tiếng Việt nói thực hệ nhúng hoạt động thời gian thực [4] Về phương diện ngôn ngữ, tiếng Việt phương ngữ tiếng Việt có nhiều nghiên cứu tổng hợp công trình tác giả Hoàng Thị Châu [2], tác giả khác Hoàng Phê [1], Nguyễn Kim Thản, Nguyễn Trọng Báu, Nguyễn Văn Tu [5], Mai Ngọc Chừ, Vũ Đức Nghiệu, Hoàng Trọng Phiến [3], Trần Thị Ngọc Lang [162], Võ Xuân Trang [171] Tuy nhiên, nghiên cứu phương ngữ tiếng Việt theo phương diện xử lý tín hiệu hạn chế 1.4 Một số mô hình nhận dạng 3.5.2 Nhận dạng phương ngữ tiếng Việt với JRip 1.4.1 Mô hình GMM JRip sử dụng 384 tham số Tỷ lê ̣ nhâ ̣n da ̣ng trung bıǹ h phương ngữ 93,3% 3.6 Nhận dạng phương ngữ tiếng Việt với PART Mô hình hỗn hợp Gauss đa thể (multi-variate) GMM biết đến mô hình có khả phân lớp tốt sử dụng nghiên cứu nhận dạng người nói [80], định danh phương ngữ tiếng Anh [159], tiếng Trung [102], tiếng Thái [149], tiếng Hindi [146], nhận dạng ngôn ngữ [25, 160] Một mô hình hỗn hợp Gauss đa thể tổng có trọng số M thành phần mật độ Gauss biểu thức (1.3): 3.6.1 Bộ phân lớp PART Bộ phân lớp PART dùng để có luật từ định riêng phần xây dựng cách sử dụng J4.8 J4.8 cài đặt mã nguồn mở Java thuật giải C4.5 thuật giải dùng để tạo định Ross Quinlan phát triển [133] ( | )= ( | , ) (1.3) 3.6.2 Kết dùng PART nhận dạng phương ngữ tiếng Việt Bộ 384 tham số sử dụng cho PART trường hợp SMO, IBk, MultilayerPerceptron JRip Tỷ lê ̣ nhâ ̣n da ̣ng đúng trung bı̀nh phương ngữ đa ̣t 93% 3.7 Kết chương Mô hình GMM có khả ứng dụng tốt vào nhận dạng phương ngữ tiếng Việt Thành phần F0 có ý nghĩa việc nâng cao hiệu 18 Trong (1.3), X véc tơ liệu (chứa tham số đối tượng cần biểu diễn), πi, i=1, , M trọng số hỗn hợp ( | , ) hàm mật độ Gauss thành phần 1.4.2 Bộ phân lớp SVM SVM (Suport Vector Machine) phân lớp nhị phân phi tuyến có khả đoán nhận liệu véc tơ vào x thuộc lớp (khi đầu mong muốn y = +1) thuộc lớp (y = -1) Thuật giải phân lớp lần đề xuất năm 1992 [21] 1.4.3 Mạng nơ ron nhân tạo Mạng nơ-ron nhân tạo (Artificial Neural Network – ANN) thường gọi tắt mạng nơ-ron (Neural network) mô hình toán học hay hệ thống xử lý thông tin xây dựng dựa sở tổng quát hóa mô hình toán học nơ-ron thần kinh sinh học theo chế làm việc não người 1.5 Kết chương Nhận dạng tiếng nói nói chung tiếng Việt nói nói riêng nhiều nhà khoa học nước nghiên cứu công bố kết Các nghiên cứu phương ngữ tiếng Việt thực nhiều song chủ yếu phương diện ngôn ngữ học Về phương diện xử lý tín hiệu, nghiên cứu phương ngữ tiếng Việt công bố Mặt khác, phương ngữ tiếng Việt lại đa dạng phong phú Việc định danh phương ngữ cho hệ thống nhận dạng tiếng Việt nâng cao hiệu hệ thống nhận dạng XÂY DỰNG BỘ NGỮ LIỆU CHO NGHIÊN CỨU NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT 2.1 Tổng quan phương ngữ tiếng Việt 2.1.1 Phương ngữ phân vùng phương ngữ tiếng Việt Phương ngữ tiếng Việt phân chia thành vùng Việc phân vùng phương ngữ tiếng Việt nhiều nhà nghiên cứu đề cập đến có ý kiến khác cách phân chia Số đông nhà nghiên cứu cho tiếng Việt chia làm vùng phương ngữ phương ngữ Bắc (các tỉnh phía Bắc đến Thanh Hóa), phương ngữ Trung (từ Thanh Hóa vào đến Đèo Hải Vân) phương ngữ Nam (từ Đèo Hải Vân vào tỉnh thành phía Nam) Việc phân chia vùng phương ngữ mang tính tương đối Đây là dữ liê ̣u thố ng kê của mỗi file tiếng nói Với mỗi file tiế ng nói tương ứng với 384 tham số trích chọn 3.2.2.3 Dùng đầy đủ 384 tham số đặc trưng Ngữ liệu phương ngữ dùng cho nhận dạng chia theo phương pháp đánh giá chéo với tỷ lệ 1:10 Thời gian huấn luyện mô hình hết 148,13 giây Tỷ lê ̣ nhâ ̣n da ̣ng trung bı̀nh phương ngữ là 96,9% 3.2.2.4 Trường hợp không có thông tin liên quan trực tiếp F0 Trong trường hợp này, 12 ̣ số liên quan trực tiếp F0 được loa ̣i khỏi tâ ̣p 384 tham số đặc trưng Tỷ lê ̣ nhâ ̣n da ̣ng trung bı̀nh phương ngữ 96,7% Kết thấ p so với trường hợp có sử du ̣ng F0 mục 3.2.3.3 3.2.2.5 Trường hợp chı̉ dùng tham số liên quan trực tiếp F0 Đây trường hợp chı̉ cho ̣n 12 tham số đặc trưng liên quan trực tiếp F0 để huấ n luyê ̣n và nhận dạng Tỷ lệ nhận dạng trung bı̀nh phương ngữ 52,2% Kết cho thấy thông tin F0 giúp ích cho nhận dạng phương ngữ 3.2.2.6 Chı̉ dùng tham số đặc trưng liên quan trực tiếp MFCC Thử nghiê ̣m này chı̉ cho ̣n 12 tham số liên quan trực tiếp với MFCC Tỷ lê ̣ nhâ ̣n da ̣ng đúng trung bình 75,8% cho ba phương ngữ Kết cho thấy tham số đặc trưng cho MFCC đóng vai trò quan trọng nhận dạng phương ngữ 3.3 IBk nhận dạng phương ngữ tiếng Việt 3.3.1 Bộ phân lớp IBk Bộ phân lớp IBk dẫn xuất phân lớp IBL (Instance Based Learning) IBk là phân lớp k láng giềng gần (Lazy k-NearestNeighbor Classifier) [176] với số láng giềng cố định [22] sử dụng độ đo khoảng cách 3.3.2 Kết nhận dạng phương ngữ tiếng Việt sử dụng IBk Sử dụng 384 tham số đặc trưng thực 3.2 Phương pháp đánh giá chéo với tỷ lệ 1:10 áp dụng cho ngữ liệu VDSPEC Có hai giá trị k = k = sử dụng Với trường hợp k = 1, tỷ lê ̣ nhâ ̣n da ̣ng trung bı̀nh cho phương ngữ 99,1% Kế t quả thử nghiệm nhận dạng với k = có tỷ lê ̣ nhâ ̣n da ̣ng đúng trung bı̀nh cho 17 dụng MFCC (58,6%) Các thử nghiệm cho thấy số lượng hệ số MFCC chọn 13 mô hình GMM thích hợp dùng cho nhận dạng phương ngữ tiếng Việt có tỷ lệ nhận dạng cao 3.1.4 Thử nghiệm nhận dạng phương ngữ tiếng Việt trường hợp kết hợp formant, dải thông tương ứng tham số F0 Các tham số đưa vào mô hình GMM với số thành phần Gauss 20 bao gồm: formant, dải thông tương ứng, F0 giá trị chuẩn hóa từ F0 Tỷ lệ nhận dạng cao đạt 72,2% kết hợp với F0sbMSD(t) Tỷ lệ nhận dạng cao so với tỷ lệ nhận dạng cao (70,8%) đạt trường hợp kết hợp sử dụng tham số MFCC F0 chuẩn hóa theo trung bình (F0sbM(t)) trình bày phần 3.1.5 Ảnh hưởng số lượng thành phần Gauss hiệu nhận dạng phương ngữ tiếng Việt Để khảo sát ảnh hưởng số lượng thành phần Gauss hiệu nhận dạng phương ngữ tiếng Việt, số lượng hệ số MFCC 13 kết hợp với tham số F0 chuẩn hóa theo trung bình F0 (F0sbM(t)) lựa chọn Số lượng thành phần Gauss (M) thay đổi từ 20 (baseline) đến 4096 Nhìn chung, kết cho thấy tăng M hiệu nhận dạng tăng theo Tỷ lệ nhận dạng cao đạt 75,1% M 2048 3.2 SVM nhận dạng phương ngữ tiếng Việt 3.2.1 Bộ phân lớp SMO SMO (Sequential Minimal Optimization Algorithm) thuật giải tối ưu hóa cực tiểu dùng để giải toán quy hoạch toàn phương (Quadratic Programming - QP) phát sinh huấn luyện SVM [85] SMO phân giải toán PQ tổng thể thành toán [130] 3.2.2 Thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO 3.2.2.1 Bộ phân lớp SMO Weka Công cu ̣ dùng thử nghiê ̣m là Weka Weka gồm tập hợp thuật giải học máy dùng cho khai phá liệu Đại học Waikato, New Zealand phát triển có phân lớp SMO [116] 3.2.2.2 Trích chọn đặc trưng Dữ liê ̣u dùng cho huấ n luyện và nhận dạng được trı́ch cho ̣n đă ̣c trưng bao gồ m 384 ̣ số công cu ̣ OpenSMILE [46] thực 16 2.1.2 Đặc điểm ngữ âm ba vùng phương ngữ tiếng Việt 2.1.2.1 Phương ngữ Bắc Phương ngữ Bắc (PNB) có số đặc điểm sau [2]: có đủ điệu, đối lập đôi âm vực âm điệu; có 20 phụ âm đầu; Có đủ âm cuối ghi tả 2.1.2.2 Phương ngữ Trung Phương ngữ Trung (PNT) có số đặc điểm chính: có điệu, điệu so với PNB; Có 23 phụ âm đầu, PNB phụ âm uốn lưỡi ghi tả s, r, tr 2.1.2.3 Phương ngữ Nam Các đặc điểm PNN bao gồm: có điệu, ngã trở thành hỏi; Có 23 phụ âm đầu 2.1.3 Sự khác biệt từ vựng ngữ nghĩa ba vùng phương ngữ tiếng Việt Ngoài khác biệt ngữ âm, phương ngữ tiếng Việt khác biệt lớn từ vựng-ngữ nghĩa [2] Trong PNN có nhiều từ vay mượn từ tiếng Chăm, tiếng Khơme Trong PNB có nhiều từ vay mượn từ tiếng Thái Có từ Hán-Việt sử dụng PNB PNN lại dùng từ Việt ngược lại 2.2 Cấu trúc âm tiết, âm vị phương ngữ tiếng Việt 2.2.1 Âm tiết âm vị tiếng Việt 2.2.1.1 Âm tiết Tiếng Việt ngôn ngữ đơn âm tiết [2, 3] Mỗi âm tiết phát âm tách rời thể chữ viết Âm tiết tiếng Việt có số đặc điểm: Có tính độc lập cao, có khả biểu ý nghĩa, có cấu trúc chặt chẽ 2.2.1.2 Âm vị Tiếng Việt có năm hệ thống âm vị: hệ thống âm đầu, hệ thống âm đệm, hệ thống âm chính, hệ thống âm cuối hệ thống điệu 2.2.2 Âm đệm cách kết hợp âm đệm phương ngữ 2.2.2.1 Âm đệm kết hợp với phụ âm trước Trong PNB PNT âm đệm /-w-/ kết hợp với hầu hết phụ âm đầu trừ phụ âm môi Trong PNN, âm đệm /-w-/ có tác động mạnh đến phụ âm hầu mạc đứng trước 2.2.2.2 Âm đệm kết hợp với nguyên âm sau Do khuynh hướng dị hóa, âm đệm /-w-/ không kết hợp với nguyên âm tròn môi (u, ô, o, uô) Trong PNB, ảnh hưởng mạnh xu hướng dị hóa, âm đệm /-w-/ không kết hợp với nguyên âm [ư] [ươ] Trong PNT (các tỉnh Nghệ-Tĩnh, Bình-Trị-Thiên), kết hợp /w/ với â thay kết hợp /w/ với Ở PNN âm -wmất đi, Nói khác đi, PNN âm đệm -w- 2.3 Phụ âm đầu phương ngữ tiếng Việt 2.3.1 Hệ thống phụ âm đầu 2.3.1.1 Hệ thống phụ âm đầu PNB Hệ thống phụ âm đầu (theo chuẩn tả) xuất nhiều phương ngữ tỉnh đồng Bắc Bộ Thái Bình, Nam Định, Ninh Bình không tiêu biểu cho toàn PNB 2.3.1.2 Hệ thống phụ âm đầu PNT PNT có hệ thống phụ âm đầu phong phú, gần xuất đủ phụ âm (theo chuẩn tả) 2.3.1.3 Hệ thống phụ âm đầu PNN Sự khác biệt chủ yếu hệ thống phụ âm đầu PNN so với phương ngữ khác ngạc hóa số phụ âm [2] Do ảnh hưởng yếu tố ngạc hóa PNN nên phụ âm Bj, Dj, Zj bị biến thành j NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT 3.1 Nhận dạng phương ngữ tiếng Việt với GMM 3.1.1 Công cụ thử nghiệm nhận dạng phương ngữ ALIZE ALIZE phát triển dựa mô hình GMM thích hợp cho nhận dạng người nói (định danh người nói) nhận dạng phương ngữ 3.1.2 Lựa chọn số lượng hệ số MFCC Để tìm số tham số MFCC tốt cho nhận dạng, thử nghiệm tiến hành với số hệ số MFCC tăng dần từ đến 19 toàn ngữ liệu VDSPEC, không phân biệt giới tính Kết nghiên cứu cho thấy giá trị MFCC = 11 MFCC = 13 thể ưu điểm cân điểm số phương ngữ đồng thời có điểm số trung bình cao Vì số hệ số MFCC=11 MFCC=13 chọn cho thử nghiệm 3.1.3 Thử nghiệm nhận dạng phương ngữ tiếng Việt trường hợp kết hợp MFCC với tham số F0 Thanh điệu âm tiết tiếng Việt thành phần đặc biệt, bao trùm lên toàn âm tiết thành phần vần âm tiết Đây đơn vị siêu đoạn [2] Trong tiếng Việt, điệu Trong thử nghiệm này, tham số MFCC kết hợp với tần số F0, LogF0(t) biến thể F0, LogF0(t) bao gồm: đạo hàm F0 (diffF0(t)), chuẩn hóa F0 theo xu hướng lên xuống F0 câu (cdF0(t)), chuẩn hóa F0 theo giá trị trung bình F0 cho câu (F0sbM(t)), chuẩn hóa F0 theo trung bình độ lệch chuẩn F0 (F0sbMSD(t)), đạo hàm LogF0(t) (diffLogF0(t)), chuẩn hóa LogF0(t) theo giá trị LogF0(t) max LogF0(t) cho câu (LogF0sbMM(t)), chuẩn hóa LogF0(t) theo trung bình LogF0(t) câu (LogF0sbM(t)), chuẩn hóa theo LogF0(t) theo trung bình độ lệch chuẩn LogF0(t) (LogF0sbMSD(t)) Thử nghiệm thực theo phương pháp đánh giá chéo (cross-validation) tỷ lệ 1:5 Dữ liệu dùng cho thử nghiệm độc lập với liệu dùng huấn luyện mô hình Bộ tham số bao gồm hệ số MFCC, F0 giá trị chuẩn hóa từ F0 sử dụng cho thử nghiệm nhận dạng dùng mô hình GMM dựa công cụ ALIZE Kết cho thấy, trường hợp số hệ số MFCC 13, tỷ lệ nhận dạng cao đạt 70,8% kết hợp MFCC với F0 chuẩn hóa theo trung bình F0 (F0sbM(t)) Như vậy, kết hợp MFCC với biến thể F0, tỷ lệ nhận dạng tăng lên 12,2% so với trường hợp sử 10 15 2.3.2 So sánh hệ thống phụ âm đầu ba phương ngữ BắcTrung-Nam Từ phân tích trên, khác biệt hệ thống phụ âm đầu ba phương ngữ PNB, PNT PNN thể dãy phụ âm tiền ngạc, phụ âm bật hơi, phụ âm xát hữu 2.4 Hệ thống điệu biến thể phương ngữ tiếng Việt thiên F0 rộng so với hai phương ngữ lại 2.7.2 Phân tích thống kê phân bố F0 điệu Dữ liệu phân tích thống kê phân bố F0 điệu biểu diễn đồ thị boxplot Kết cho thấy chiều hướng phạm vi biến thiên F0 giọng Huế có xu hướng ngược lại so với giọng Hà Nội Trừ ngã, xu hướng biến thiên F0 giọng Thành phố Hồ Chí Minh gần với giọng Hà Nội Thanh ngã giọng Thành phố Hồ Chí Minh có xu hướng biến thiên F0 lên giống hỏi giọng Hà Nội Các kết luận tương đồng với cảm nhận thực tế phương thức phát âm khác cho điệu ba phương ngữ 2.7.3 Phân tích liệu dùng LDA 2.7.3.1 Bộ phân lớp LDA Phép chiếu LDA (Linear Discriminant Analysis) thực biến đổi tuyến tính phi tuyến, nhằm tối ưu theo tiêu chí cho: cực đại hóa phương sai, bảo toàn khoảng cách, cực đại hóa cách biệt lớp 2.7.3.2 Đánh giá tượng mũi hóa phương ngữ Trong phương thức phát âm số từ PNT PNN có tượng mũi hóa Ví dụ, cách nói giọng Thành phố Hồ Chí Minh, từ “nhanh” phát âm thành “nhăn”, “thành” phát âm thành “thằn”, “tích” phát âm thành “tứt”, hay từ “chính” phát âm “chứn”… Thử nghiệm phân lớp số từ thuộc nhóm từ bị mũi hóa PNT PNN cho thấy có khác biệt rõ ràng 2.8 Kết chương Phương ngữ tiếng Việt phong phú đa dạng Có thể chia phương ngữ tiếng Việt thành ba vùng Bắc, Trung Nam Luận án xây dựng ngữ liệu phương ngữ tiếng Việt VDSPEC đáp ứng yêu cầu chuyên biệt cho nghiên cứu phương ngữ tiếng Việt Các phân tích biến thiên tần số F0 cho thấy khác biệt đáng kể phương ngữ điệu Bên cạnh đó, mũi hóa số từ phương thức phát âm phương ngữ tạo khác biệt rõ ràng vùng phương ngữ tiếng Việt 14 đặc điểm phân biệt phương ngữ, thổ ngữ [2] Người ta thường dựa vào điệu người nói để phân biệt nhận phương ngữ miền Mỗi phương ngữ, thổ ngữ đặc biệt có hệ thống điệu riêng 2.4.1 Hệ thống điệu Hà Nội Thanh ngang: có âm điệu phẳng, cường độ không thay đổi, thuộc âm vực trung bình lời nói Thanh huyền: âm điệu xuống, có âm vực thấp, cường độ không đổi Thanh ngã: có âm điệu biến thiên theo hai chiều: xuống lên hình chữ V với nhánh lên cao gấp đôi nhánh xuống Thanh hỏi: có âm điệu biến thiên theo hai chiều xuống lên không chia làm hai đoạn rõ rệt ngã Thanh sắc: bắt đầu độ cao thấp ngang, ngang xuống đoạn đầu vút lên cao Thanh nặng: khởi đầu độ cao huyền, có âm điệu ngang hay hạ dần huyền đến khoảng 1/3 điệu xuống với độ dốc lớn kết thúc tắc hầu 2.4.2 Hệ thống điệu Nghệ - Tĩnh Huế Hệ thống điệu tỉnh xem tiêu biểu cho điệu PNT Với tỉnh Nghệ An, Hà Tĩnh, ngã trùng với nặng Song Huế, ngã lại trùng với hỏi Nếu xem cách tổng thể, tỉnh có hệ thống năm điệu bao gồm: ngang, huyền, sắc, nặng hỏi (không có ngã) 2.4.3 Hệ thống điệu Đà Nẵng Thành phố Hồ Chí Minh Hệ thống điệu tỉnh giống tiêu biểu cho điệu PNN đồng thời có điểm tương đồng với điệu PNB 2.4.4 Một số nhận xét hệ thống điệu phương ngữ Hệ thống điệu ba phương ngữ Bắc, Trung Nam có nhiều điểm khác biệt số lượng biến thiên tần số Sự khác biệt sử dụng làm yếu tố để phân biệt phương ngữ hệ thống nhận dạng phương ngữ tiếng Việt 2.5 Ảnh hưởng phương ngữ tới nhận dạng tiếng nói Sự tồn phương ngữ ngôn ngữ thách thức lớn cho hệ thống xử lý ngôn ngữ tự nhiên nói chung [71] 11 hệ thống nhận dạng tiếng nói Chính vậy, việc nghiên cứu phương ngữ, giải vấn đề liên quan đến phương ngữ nhận dạng tiếng nói cần thiết để giúp nâng cao chất lượng hệ thống nhận dạng tiếng nói 2.6 Ngữ liệu phương ngữ giới xây dựng ngữ liệu dùng cho nhận dạng phương ngữ tiếng Việt Trên giới có số ngữ liệu cho phương ngữ tiếng Anh [17], tiếng Ả rập [50], tiếng Trung [78], tiếng Hindi [146], tiếng Thái [149],… Đối với tiếng Việt, có số ngữ liệu xây dựng VNSPEECHCORPUS [165], VOV (Voice of Vietnamese) Corpus [155] VNBN (United Broadcast News corpus) [172] Ngữ liệu phương ngữ cần thiết cho nghiên cứu nhận dạng phương ngữ tiếng Việt Các ngữ liệu tiếng Việt có chưa đáp ứng đầy đủ yêu cầu cần thiết cho nghiên cứu nhận dạng phương ngữ Do vậy, luận án tiến hành xây dựng ngữ liệu phương ngữ tiếng Việt VDSPEC (Vietnamese Dialect Speech Corpus) dùng cho nghiên cứu nhận dạng phương ngữ nội dung tiếng Việt nói Bộ ngữ liệu VDSPEC xây dựng cho ba phương ngữ Phương ngữ Bắc đại diện giọng Hà Nội, phương ngữ Trung đại diện giọng Huế phương ngữ Nam lấy giọng Thành phố Hồ Chí Minh làm đại diện 2.6.1 Phương pháp xây dựng ngữ liệu phương ngữ tiếng Việt VDSPEC xây dựng phương pháp ghi âm trực tiếp người nói để đảm bảo tính chủ động chất lượng tiếng nói tốt 2.6.2 Chuẩn bị chuẩn hóa văn Dữ liệu tiếng nói ghi âm thông qua việc người nói đọc văn chuẩn bị sẵn Văn tổ chức thành chủ đề Sự xuất điệu văn chuẩn bị cân với (mỗi gồm 717 từ); bao phủ âm tiết tiếng Việt chất lượng cao Micro dùng ghi âm loại chuyên dụng phù hợp với ghi âm tiếng nói 2.6.3.2 Lựa chọn người nói Để ghi âm giọng đặc trưng cho phương ngữ, người nói chọn cho có giọng gốc địa phương Tuổi trung bình người nói 21 Tổng số người lựa chọn ghi âm 150 Trong đó, phương ngữ có 50 người nói bao gồm 25 giọng nam 25 giọng nữ 2.6.3.3 Phần mềm hỗ trợ ghi âm Phần mềm hỗ trợ ghi âm xây dựng dựa ngôn ngữ kịch TCL/TK 2.6.3.4 Môi trường ghi âm Việc ghi âm tiến hành phòng riêng có độ ồn thấp, tỷ số tín hiệu nhiễu xấp xỉ 35 dB 2.6.3.5 Định dạng ghi âm Tiếng nói ghi theo chuẩn PCM, không nén, tần số lấy mẫu 16 kHz, 16 bit mẫu, ghi kênh (mono) 2.6.3.6 Tổ chức lưu liệu Các tập tin tiếng nói đặt tên thống theo định dạng Tên tập tin chứa đựng thông tin người nói, chủ đề đoạn văn tương ứng 2.6.4 Kết ghi âm đặc tính VDSPEC Trong trình ghi âm, người nói yêu cầu đọc đủ 25 câu Tổng số câu ghi âm VDSPEC 18750 câu (tương ứng 150 người nói x 125 câu, không kể chủ đề Cơ bản) với dung lượng lưu trữ 4,84 GB tổng cộng thời lượng 45,12 tiếng nói 2.7 Phân tích số đặc trưng phương ngữ tiếng Việt ngữ liệu VDSPEC 2.7.1 Biến thiên tần số F0 theo điệu ba phương ngữ 2.6.3.1 Thiết bị ghi âm Quá trình ghi âm thực máy tính có card âm Khảo sát biến thiên F0 tiếng nói phương ngữ Bắc, phương ngữ Trung phương ngữ Nam tiến hành dựa ngữ liệu VDSPEC Kết khảo sát biến thiên tần số F0 điệu tiếng Việt cho thấy có khác biệt đáng kể phương ngữ Nhìn chung, sáu điệu, phương ngữ Bắc có phạm vi biến 12 13 2.6.3 Ghi âm ... lý tiếng nói đặc biệt nhận dạng tiếng nói [48] 4.1.2 HMM nhận dạng tiếng Việt nói theo ba phương ngữ 4.1.2.1 Hệ thống nhận dạng tự động tiếng nói Mô hình hệ thống nhận dạng tự động tiếng nói. .. ảnh hưởng phương ngữ tới hệ thống nhận dạng tự động tiếng Việt nói, xây dựng ngữ liệu phương ngữ tiếng Việt phục vụ cho nghiên cứu nhận dạng phương ngữ tiếng Việt nhận dạng tiếng Việt nói, nghiên... thống nhận dạng tự động, tham số phù hợp để nhận dạng phương ngữ tiếng Việt mô hình hệ thống nhận dạng tự động tiếng Việt nói theo phương ngữ tiếng Việt Đối tượng phạm vi nghiên cứu luận án Đối

Ngày đăng: 18/05/2017, 15:43

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan