Nhận dạng tiếng nói tiếng việt dùng mạng nơron triển khai trên KIT ARM

85 518 0
Nhận dạng tiếng nói tiếng việt dùng mạng nơron triển khai trên KIT ARM

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường TÓM TT Đề tài này đã được thực hiện tại Trường đại học SPKT TpHCM từ ngày 1 tháng 9 năm 2010 đến ngày 28 tháng 2 năm 2011. Kỳ vọng của đề tài là xây dựng chương trình nhận dạng tiếng nói Tiếng Việt lên Kit xử lý 32 bit họ ARM- LM3S2965 thông qua việc xây dựng chương trình nhận dạng tiếng nói Tiếng Việt, khai thác tính năng của Kit ARM, xây dựng bo mạch thu âm, giao tiếp và nhúng chương trình nhận dạng tiếng nói Tiếng Việt lên Kit LM3S2965. Trước tiên, đề tài nghiên cứu lý thuyết đặc trưng cơ bản và lấy mẫu tín hiệu tiếng nói Tiếng Việt từ các đề tài, bài báo và chọn ra một phương pháp rút trích đặc trưng tín hiệu tiếng nói thông dụng. Sau đó, dùng các mẫu đặc trưng đã được rút trích để huấn luyện trọng số mạng nơron và dùng mạng nơron đã được huấn luyện này để nhận dạng tiếng nói Tiếng Việt. Đề tài đã thiết kế và thi công mạch thu âm giao tiếp với Kit LM3S2965, nghiên cứu khai thác một số tính năng của Kit LM3S2965, xây dựng chương trình nhận dạng tiếng nói Tiếng Việt được thực hiện trên máy tính cá nhân và sau cùng là xây dựng chương trình nhận dạng tiếng nói Tiếng Việt trên Kit LM3S2965 để điều khiển cánh tay Robot 5 bậc tự do. Bộ từ vựng cần nhận dạng là các từ dùng để điều khiển Robot như “Kẹp”, “Nhả”, “Tiến”, “Lùi”, “Trái”, “Phải”, “Nâng”, “Hạ”, “Dừng” được phát ra từ tác giả trong điều kiện tiếng ồn thấp. Kết quả của chương trình nhận dạng tiếng nói Tiếng Việt được thực hiện trên máy tính cá nhân đã đạt được độ chính xác khá tốt (≈90%). Kết quả của chương trình nhận dạng tiếng nói Tiếng Việt triển khai trên Kit LM3S2965 có độ chính xác thấp do một số hạn chế trong nghiên cứu và khai thác tính năng Kit LM3S2965. Mặc dù vậy, đề tài cũng mở ra định hướng nghiên cứu mới để kết quả được tốt hơn. HVTH: Phan Văn Đầy i Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường ABSTRACT The topic had been being done at University Of Technical Education HCM City from September 1, 2010 to February 28, 2011. The topic’s expectations is to develop a Vietnamese speech recognition program in a 32-bit ARM processor motherboard, LM3S2965, one of motherboards has many advantages in embedded applications. In addition, the topic performed the Vietnamese speech recognition programming on a personal computer for the purpose of the orientation for on the LM3S2965 motherboard programming. The Vietnamese speech recognition is carried out mainly by the neural network. That is, the result of identification is determined from a combination of the analysis of the neural network applied to typical Vietnamese voice. Algorithm used to train the neural network is the back propagation algorithm. MFCC (Mel-scale Frequency Cepstral) is used to extract speech signal characteristic. The topics is limited only to identify the words used to control a robotic arm, such as “Clamp”, “Release”, “Go”, “Back”, “Left”, “Right”, “Lift”, “Lower” and “Stop”. They are identified discretely in a low noise conditions and pronounced from the author, who provided the samples used to train the neural network. The result of Vietnamese speech recognition performed on a personal computer achieved a good precision (approximately 90%). However, the Vietnamese speech recognition program done on the motherboard achieved a limited result. The reason is that the topic couldn’t check a sampled signal on the motherboard quickly. However, the topic opened a research direction, which will be able to bring a better result. HVTH: Phan Văn Đầy ii Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường MC LC Trang tựa Trang Quyết định giao đề tài Lý lịch cá nhân Lời cam đoan Cảm tạ Tóm tắt i Abstract ii Mục lục iii Danh sách các chữ viết tắt vi Danh sách các hình vii Danh sách các bảng ix Lời mở đầu 1 Chương 1. Đặc trưng tiếng nói Tiếng Việt 4 1.1. Tổng quan về tiếng nói 4 1.2. Các đặc điểm cơ bản của Tiếng Việt 5 1.2.1 Ngữ âm Tiếng Việt 5 1.2.2. Thanh điệu Tiếng Việt 6 1.2.3. Cấu trúc âm tiết Tiếng Việt 8 Chương 2. Hệ thống nhận dạng tiếng nói Tiếng Việt 9 2.1. Tổng quan về hệ thống nhận dạng tiếng nói 9 2.2. Các yếu tố ảnh hưởng đến hệ thống nhận dạng tiếng nói 10 2.3. Nhận dạng độc lập và phụ thuộc người nói 10 2.4. Lưu đồ giải thuật nhận dạng tiếng nói dừng mạng nơron 11 2.5. Lấy mẫu tín hiệu 12 2.5.1. Lọc thông thấp chống chồng phổ 12 2.5.2. Lấy mẫu tín hiệu tiếng nói 12 2.5.3. Chia khung (frame) tín hiệu 12 2.6. Tách tín hiệu ra khỏi nền 13 HVTH: Phan Văn Đầy iii Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường 2.6.1. Phương pháp xác định điểm đầu, điểm cuối dùng năng lượng thời gian ngắn 14 2.6.2. Phương pháp xác định điểm đầu, điểm cuối dùng tỉ lệ biên độ tín hiệu qua điểm Zero 15 2.7. Phương pháp trích đặc trưng MFCC (Mel-scale Frequency Cepstral Coefficient). 15 2.7.1. Lọc cửa sổ 16 2.7.2. Biến đổi Fourier rời rạc (DFT) 17 2.7.3. Lọc tần số theo thang tần số Mel 17 2.7.4. Lấy logarit tín hiệu thang Mel 19 2.7.5. Biến đổi Fourier ngược (IFFT) 19 Chương 3: Mạng nơron nhân tạo 21 3.1. Khái niệm về mạng nơron nhân tạo 21 3.2. Cấu trúc mạng nơron nhân tạo 24 3.2.1. Mạng nơron kết nối đầy đủ 24 3.2.2. Mạng nơron phân lớp 24 3.2.3. Mạng nơron truyền thẳng 25 3.3 Huấn luyện mạng nơron theo giải thuật lan truyền ngược 25 3.3.1. Tính toán ngõ ra nút mạng nơron theo hướng tới 28 3.3.2. Cập nhật trọng số mạng nơron theo luật delta 28 3.3.3. Giải thuật huấn luyện mạng nơron theo giải thuật lan truyền ngược 30 Chương 4: Bộ Kit LM3S2965 32 4.1. Đặc tả bộ Kit LM3S2965 32 4.2. Cấu trúc Kit LM3S2965 33 4.2.1. Lõi ARM cortex M3 34 4.2.2. Bộ chuyển đổi tương tự - số (ADC) 35 4.2.3. Khối hiển thị OLED 35 4.3. Một số hàm thư viện của Kit LM3S2965 36 HVTH: Phan Văn Đầy iv Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường 4.3.1. Hàm cho bộ ADC 36 4.3.2. Hàm cho màn hình OLED 37 4.3.3. Hàm cho điều khiển hệ thống 38 4.3.4. Hàm cho bộ nhớ Flash 39 4.3.5. Hàm đa dụng 40 Chương 5. Thiết kế hệ thống nhận dạng tiếng nói Tiếng Việt 41 5.1. Thiết kế mạch thu âm 42 5.1.1. Khối mạch tiền khuếch đại micro tự điều chỉnh độ lợi 43 5.1.2. Khối mạch lọc thông dãy 47 5.1.3. Khối mạch giao tiếp ADC 53 5.2. Thiết kế chương trình lấy mẫu tín hiệu 56 5.2.1. Lấy mẫu tín hiệu cho chương trình nhận dạng chạy trên PC 56 5.2.2. Lấy mẫu tín hiệu cho chương trình nhận dạng chạy trên Kit LM3S2965 57 5.3. Thiết kế chương trình trích đặc trưng tín hiệu tiếng nói Tiếng Việt 58 5.4. Thiết kế cấu trúc mạng nơron 61 5.5. Thiết kế giao diện chương trình chạy trên Kit LM3S2965 62 Chương 6. Kết quả đạt được và hướng phát triển 63 6.1. Kết quả đạt được của chương trình chạy trên PC 63 6.2. Kết quả đạt được của chương trình chạy trên Kit LM3S2965 66 6.3. Hạn chế của đề tài và hướng phát triển 68 6.2.1. Đối với chương trình nhận dạng trên máy tính cá nhân 68 6.3.2. Đối với chương trình nhận dạng chạy trên Kit LM3S2965 68 Tài liệu tham khảo 70 HVTH: Phan Văn Đầy v Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường DANH SÁCH CÁC CH VIT TT ADC (Analog to Digital Converter) : Bộ biến đổi tương tự - số AGC (Automatic Gain Control) : Điều khiển độ lợi tự động ARM (Advanced RISC Machine) : Máy RISC tiên tiến DAC (Digital to Analog Converter) : Bộ đổi số sang tương tự DFT (Discrete Fourier Transform) : Biến đổi Fourier rời rạc FBA (Flux Balance Analysis) : Phân tích cân bằng thông lượng FET (Field Effect Transistor) : Transitor trường ứng FFT (Fast Fourier Transform) : Biến đổi Fourier nhanh FIFO (First In, First Out) : Vào trước ra trước IDFT (Inverse Discrete Fourier Transform) : Biến đổi ngược Fourier rời rạc IFFT (Inverse Fast Fourier Transform) : Biến đổi ngược Fourier nhanh KSPS (Kilo Samples Per Second) : Nghìn mẫu trên giây LPC (Linear Prediction Cepstral Coefficients) : Hệ số phổ đặc trưng dự đoán tuyến tính. MSPS (Mega Samples Per Second) : Triệu mẫu trên giây MFCC (Mel-scale Frequency Cepstral Coefficient) : Hệ số phổ đặc trưng thang tần số Mel OLED (Organic Light Emission Diode ) : Điốt phát sáng Organic OP-AMP (Operational Amplifier) : Bộ khuếch đại thuật toán PC (Personal Computer) : Máy tính cá nhân RISC (Reduced Instruction Set Computing) : Tính toán với tập lệnh rút gọn SRAM (Static Random Access Memory) : Bộ nhớ tĩnh truy xuất ngẫu nhiên USB (Universal Serial Bus) : Bus nối tiếp đa dụng HVTH: Phan Văn Đầy vi Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường DANH SÁCH CÁC HÌNH Hình Trang Hình 1.1: Đồ thị cường độ quá trình phát âm của âm tiết “xanh xanh”. 8 Hình 2.1: Lưu đồ giải thuật hệ thống nhận dạng tiếng nói dùng mạng nơron. 11 Hình 2.2: Đồ thị dạng sóng tín hiệu trong thời gian dài 13 Hình 2.3: Đồ thị dạng sóng tín hiệu trong thời gian ngắn. 13 Hình 2.4: Lưu đồ giải thuật xác định điểm đầu, điểm cuối dùng phương pháp so sánh năng lượng thời gian ngắn 14 Hình 2.5: Lưu đồ trích đặc trưng tiếng nói bằng giải thuật MFCC. 16 Hình 2.6: Đồ thị biểu diễn quan hệ giữa tần số Mel va Hertz. 18 Hình 2.7: Đồ thị dãy bộ lọc Mel dạng tam giác gồm 27 bộ lọc con 19 Hình 3.1: Sơ đồ minh họa một nơron sinh học 21 Hình 3.2: Mô hình của một mạng nơron nhân tạo tổng quát 22 Hình 3.3: Đồ thị hàm nấc 22 Hình 3.4: Đồ thị hàm dốc 23 Hình 3.5: Đồ thị hàm Sigmoid 23 Hình 3.6: Minh họa sơ đồ mạng nơron kết nối đầy đủ 24 Hình 3.7: Minh họa cho mạng nơron phân lớp 24 Hình 3.8: Minh họa cho mạng nơron truyền thẳng 25 Hình 3.9: Minh hoạt cấu trúc mạng nơron một lớp ẩn 26 Hình3.10: Cấu trúc mạng nơron với nút ra thứ k, nút ẩn thứ j và nút vào thứ i 28 Hình 3.11 Lưu đồ giải thuật huấn luyện mạng lan truyền ngược. 30 Hình 4.1: Sơ đồ khối của LM3S2965 33 Hình 4.2: Sơ đồ khối lõi ARM cortex M3 34 Hình 4.3: Sơ đồ khối của khối bộ ADC 35 Hình 4.4: Màn hình OLED 36 HVTH: Phan Văn Đầy vii Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường Hình 5.1: Sơ đồ khối hệ thống nhận dạng tiếng nói 41 Hình 5.2: Sơ đồ khối mạch thu âm. 42 Hình 5.3: Sơ đồ mạch nguyên lý của electret microphone. 43 Hình 5.4: Sơ đồ khối mạch AGC cơ bản. 43 Hình 5.5: Sơ đồ mạch nguyên lý mạch khuếch đại có độ lợi thay đổi theo điện trở ngõ vào Rq 44 Hình 5.6: Sơ đồ mạch nguyên lý mạch khuếch đại có độ lợi thay đổi theo điện trở ngõ vào R q 46 Hình 5.7: Sơ đồ nguyên lý khối mạch tách biên độ, lọc và khuếch đại . tín hiệu điều khiển độ lợi. 47 Hình 5.8: Cấu trúc tổng quát mạch lọc Sallen-Key bậc hai 48 Hình 5.9: Sơ đồ khối vẽ lại của mạch hình 5.8 49 Hình 5.10: Sơ đồ nguyên lý mạch lọc thông thấp Sallen-Key 50 Hình 5.11: Sơ đồ nguyên lý mạch lọc thông cao Sallen-Key 51 Hình 5.12: Sơ đồ nguyên lý mạch lọc thông dãy 52 Hình 5.13: Sơ đồ nguyên lý mạch khuếch đại có thể điều chỉnh độ lợi. 52 Hình 5.14: Sơ đồ nguyên lý nguồn tín hiệu hoạt động chế độ đơn cực 53 Hình 5.15: Sơ đồ nguyên lý nguồn tín hiệu hoạt động chế độ vi sai 53 Hình 5.16: Sơ đồ nguyên lý liên lạc tín hiệu dùng biến áp 54 Hình 5.17: Sơ đồ nguyên lý mạch đệm tín hiệu 54 Hình 5.18: Sơ đồ nguyên lý mạch đảo tín hiệu 55 Hình 5.19: Sơ đồ mạch thu âm, lọc và giao tiếp ADC hoàn chỉnh 55 Hình 5.20: Lưu đồ giải thuật lấy mẫu tín hiệu dùng cho chương trình chạy trên máy tính cá nhân. 56 Hình 5.21: Lưu đồ giải thuật xác định một frame tín hiệu là tiếng hay nhiễu. 57 Hình 5.22: Lưu đồ giải thuật lấy mẫu tín hiệu dùng cho chương trình chạy trên Kit LM3S2965 58 Hình 5.23: Sơ đồ bướm tính FFT phân chia theo thời gian 60 HVTH: Phan Văn Đầy viii Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường Hình 5.23: Sơ đồ bướm tính FFT phân chia theo thời gian 60 Hình 6.1: Giao diện chính của chương trình 63 Hình 6.2: Giao diện thu âm và lưu trữ mẫu dung để huấn luyện mạng nơron 64 Hình 6.3: Giao diện để kiểm tra lại các mẫu đã được lưu 64 Hình 6.4: Giao diện công cụ huấn luyện mạng nơron có sẳn của Matlab 7.7 65 Hình 6.5: Giao diện ghi âm, phân tích và hiển thị kết quả nhận dạng 65 Hình 6.6: Hình ảnh bộ Kit ARM-LM3S2965 66 Hình 6.7: Hình ảnh bo mạch thu âm, giao tiếp Kit 67 DANH SÁCH CÁC BNG Bng Trang Bảng 3.1: Cấu trúc tổng quát âm tiết Tiếng Việt 8 Bảng 5.1: Mô tả cách đảo bit cho việc tính FFT 8 điểm 60 HVTH: Phan Văn Đầy ix Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường LI M ĐU ARM(Advanced RISC Machine) là họ máy tính có kiến trúc RISC tiên tiến, (kiến trúc tính toán với tập lệnh rút gọn tiên tiến). Kit LM3S2965 là Kit xử lý 32 bit họ ARM có nhiều tính năng thuận lợi cho việc nghiên cứu như: - Có kiến trúc RISC với tập lệnh rút gọn và hầu hết các lệnh được thực hiện trong một chu kỳ máy với kiến trúc xử lý song song. - Được thiết kế chủ yếu cho các ứng dụng nhúng, có kích thước nhỏ, giảm hao phí năng lượng. - Được thiết kế để tích hợp vào các sản phẩm khác, có các thiết bị ngoại vi tùy chọn để giao tiếp theo nhu cầu chức năng của hệ thống. - Có tập lệnh hỗ trợ lập trình bằng ngôn ngữ ASM, ngôn ngữ C và C++ với nhiều phần mềm lập trình nhúng như Keil uVision, IAR Embedded Workbench, CodeSourcery Sourcery G++, … - Có vùng nhớ SRAM 64 KB dùng chứa Code lập trình, flash 256KB dùng để dùng làm bộ nhớ trong và có thể được cấu hình sử dụng như bộ nhớ lưu trữ. Vì vậy đề tài chọn việc nghiên cứu Kit LM3S2965 với kỳ vọng là có thể khai thác tính năng của Kit để thực hiện công việc nhận dạng tiếng nói Tiếng Việt với từ vựng là các từ dùng để điều khiển cánh tay Robot: “Kẹp”, “Nhả”, “Tiến”, “Lùi”, “Trái”, “Phải”, “Nâng”, “Hạ”, “Dừng”. Mục tiêu cần hướng tới của đề tài là thực hiện nhận dạng các từ lệnh điều khiển cánh tay Robot vừa nêu trên Kit LM3S2965 để điều khiể cánh tay Robot 5 bậc tự do. Tiếng nói người là loại tín hiệu khá phức tạp, luôn thay đổi theo không gian, thời gian,…Để hiểu được tiếng nói, bộ não con người phải trải qua quá trình học và xử lý rất phức tạp. Mạng nơron nhân tạo là hệ thống mô phỏng một số tính chất của não người (mạng nơron sinh học). Nó có khả năng học quan hệ giữa các biến đầu vào và đầu ra khi dữ liệu đầu vào không có qui luật hoặc qui luật không rõ ràng. Vì vậy đề tài chọn mạng nơron nhân tạo làm công cụ chính để học các đặc trưng tiếng nói và dùng cấu trúc mạng nơron nhân tạo đã được học để nhận dạng tiếng nói với kỳ vọng là nâng cao được độ chính xác của kết quả nhận dạng tiếng nói . Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp mẫu tín hiệu tiếng nói ghi được dựa vào thông tin của các mẫu đã được lưu Lời mở đầu HVTH: Phan Văn Đầy 1 [...]... ng nói Ti ng Vi t dùng m ng nơron Có nhiều loại công cụ có thể dùng cho hệ thống nhận dạng tiếng nói Tiếng Việt Một trong những công cụ đó là mạng nơron Bắt đầu Thu tín hiệu từ thiết bị thu âm Tách tín hiệu khỏi nền Trích đặc trưng tín hiệu S Nhận dạng? Lưu mẫu đặc trưng Đ Huấn luyện và lưu trọng số mạng Nhận dạng và trả kết quả Hình 2.1: Lưu đồ giải thuật hệ thống nhận dạng tiếng nói dùng mạng nơron. .. việc phát triển rộng các ứng dụng kết quả nhận dạng tiếng nói Tiếng Việt vào các lĩnh vực khoa học kỹ thuật, đặc biệt trong lĩnh vực điều khiển Đề tài này tập trung nghiên cứu việc nhận dạng tiếng nói dùng mạng noron trên máy tính cá nhân được viết bằng ngôn ngữ Matlab để làm cơ sở định hướng và triển khai nhúng chương trình nhận dạng tiếng nói Tiếng Việt trên Kit LM3S2965, được viết bằng ngôn ngữ C... được triển khai trên điện thoại di động Hệ thống nhận dạng phụ thuộc người nói được dùng riêng để nhận dạng tiếng nói của người huấn luyện Ví dụ: Hệ thống nhận dạng điều khiển thiết bị dùng riêng Bộ nhận dạng này cho hiệu quả cao hơn so với bộ nhận dạng độc lập người nói mà được sử dụng để huấn luyện và nhận dạng bởi nhiều người Mặc dù chính xác hơn, bất lợi rõ ràng của hệ thống phụ thuộc người nói. .. kết quả nhận dạng có độ chính xác chưa cao và chỉ ứng dụng cho những nhiệm vụ tương đối đơn giản và phạm vi bị hạn chế Các hệ thống nhận dạng tiếng nói hiện nay có thể chia thành 3 loại sau : − Hệ thống nhận dạng nhỏ với bộ từ vựng nhận dạng nhỏ (khoảng 10÷100 từ) − Hệ thống nhận dạng rời rạc nhận dạng các từ được đọc rời rạc, bộ từ vựng vượt 1000 từ − Hệ nhận dạng liên tục nhận dạng được tiếng nói liên... các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm tiết Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã được học và lưu trữ trong bộ nhớ Khó khăn cơ bản của nhận dạng tiếng nói là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác... thuật Phương pháp nhận dạng dùng mạng thần kinh nhân tạo tỏ ra khá hiệu quả trong việc tăng độ chính xác của nhận dạng Các mẫu tín hiệu tiếng nói của nhiều người ở nhiều vùng, môi trường khác nhau sẽ được tập hợp để hệ thống học các đặc trưng cơ bản của tiếng nói Việc nhúng thành công các chương trình nhận dạng tiếng nói Tiếng Việt vào các Kit xử lý nhỏ gọn có ý nghĩa lớn trong việc phát triển rộng các... dãy các ký hiệu ngữ âm • Nhận dạng tiếng nói của con người còn là một quá trình nhận thức Thông tin về ngữ nghĩa và suy đoán có giá trị trong quá trình nhận dạng tiếng nói, nhất là khi thông tin về âm học là không rõ ràng Các thành tựu trong lĩnh vực nhận dạng tiếng nói được áp dụng trong rất nhiều lĩnh vực, đặc biệt là trong lĩnh vực điều khiển học Nhận dạng và xử lý tiếng nói đã được ứng dụng rộng... theo thời gian Các hệ thống nhận dạng sẽ phân biệt tiếng này hày hay tiếng kia dựa trên các đặc trưng riêng này của mỗi tiếng Quá trình trích đặc trưng giọng nói là quá trình cô đọng tín hiệu tiếng nói thành các thông số đặc tính Việc này ngoài việc giảm nhẹ công việc nhận dạng mà còn tăng sự chính xác cho hệ thống nhận dạng 1.1 Tổng quan về ti ng nói : Giao tiếp bằng tiếng nói là phương cách nhanh và... nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản: • Tín hiệu tiếng nói có thể được biểu diễn bởi các giá trị phổ khi xét tín hiệu một khung thời gian ngắn Ta có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói • Thông tin tiếng nói có thể được biểu diễn dưới dạng chữ viết và tiếng nói là phát âm của chữ viết,... độ nói, ngữ cảnh và môi trường âm học khác nhau Việc xác định những thông tin biến thiên nào của tiếng nói là có ích đối với nhận dạng tiếng nói là rất quan trọng Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói Các nghiên cứu về nhận dạng tiếng . chương trình nhận dạng tiếng nói Tiếng Việt lên Kit xử lý 32 bit họ ARM- LM3S2965 thông qua việc xây dựng chương trình nhận dạng tiếng nói Tiếng Việt, khai thác tính năng của Kit ARM, xây dựng. thống nhận dạng tiếng nói Tiếng Việt 9 2.1. Tổng quan về hệ thống nhận dạng tiếng nói 9 2.2. Các yếu tố ảnh hưởng đến hệ thống nhận dạng tiếng nói 10 2.3. Nhận dạng độc lập và phụ thuộc người nói. trưng tiếng nói Tiếng Việt 4 1.1. Tổng quan về tiếng nói 4 1.2. Các đặc điểm cơ bản của Tiếng Việt 5 1.2.1 Ngữ âm Tiếng Việt 5 1.2.2. Thanh điệu Tiếng Việt 6 1.2.3. Cấu trúc âm tiết Tiếng Việt

Ngày đăng: 22/08/2015, 18:46

Tài liệu cùng người dùng

Tài liệu liên quan