Nhận dạng tiếng nói tiếng việt dùng mạng nơron triển khai trên kit ARM

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ PHAN VĂN ĐẦY NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT DÙNG MẠNG NƠRON TRIỂN KHAI TRÊN KIT ARM S K C 0 9 NGÀNH: KỸ THUẬT ĐIỆN TỬ- 605270 S KC 0 Tp Hồ Chí Minh, 2012 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ PHAN VĂN ĐẦY NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT DÙNG MẠNG NƠRON TRIỂN KHAI TRÊN KIT ARM NGÀNH: KỸ THUẬT ĐIỆN TỬ- 605270 Tp Hồ Chí Minh, tháng 04/2011 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ PHAN VĂN ĐẦY NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT DÙNG MẠNG NƠRON TRIỂN KHAI TRÊN KIT ARM NGÀNH: KỸ THUẬT ĐIỆN TỬ - 605270 Hướng dẫn khoa học: PGS.TS LÊ TIẾN THƯỜNG Tp Hồ Chí Minh, tháng 4/2011 BỘ GIÁO DỤC & ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc PHIẾU XÁC NHẬN Tên đền tài: Nhận dạng tiếng nói Tiếng Việt dùng mạng nơron triển khai Kit ARM Họ & tên tác giả: Phan Văn Đầy Ngành: Kỹ thuật điện tử Khóa: 2009A Họ & tên người hướng dẫn (học hàm, học vị): PGS TS Lê Tiến Thường Cơ quan công tác: Trường đại học Bách Khoa thành phố Hồ Chí Minh Tp Hồ Chí Minh, ngày tháng năm 2011 Chủ nhiệm ngành Giảng viên hướng dẫn (Ký & ghi rõ họ tên) (Ký & ghi rõ họ tên) TS Ngô Văn Thuyên PGS.TS Lê Tiến Thường LÝ LỊCH KHOA HỌC (Dùng cho nghiên cứu sinh & học viên cao học) I LÝ LỊCH SƠ LƯỢC: Họ & tên: Phan văn Đầy Giới tính: Nam Ngày, tháng, năm sinh: 16/11/1976 Nơi sinh: Đồng Tháp Quê quán: Đồng Tháp Dân tộc: Kinh Chức vụ, đơn vị công tác trước học tập, nghiên cứu: Giảng viên Khoa Công nghệ thông tin Trường đại học Đồng Tháp Chỗ riêng địa liên lạc: 128/6, ấp Tân Thạnh, xã Phong Hòa, huyện Lại Vung, tỉnh Đồng Tháp Điện thoại quan: 0673.881623 Điện thoại nhà riêng: 0673.628162 Fax: 0673.881623 E-mail: Daydhdt@gmail.com II QUÁ TRÌNH ĐÀO TẠO: Đại học: Hệ đào tạo: Chính qui Thời gian đào tạo từ 09/1995 đến 04/2000 Nơi học (trường, thành phố): Trường đại học Cần Thơ, thành phố Cần Thơ Ngành học: Điện tử Tên đồ án, luận án : Phân tích tín hiệu âm miền tần số Ngày & nơi bảo vệ đồ án, luận án thi tốt nghiệp: Tháng 05 năm 2000 Người hướng dẫn: CN Đoàn Hòa Minh Thạc sĩ: Hệ đào tạo: Chính quy Thời gian đào tạo từ 02/2009 đến 02/2011 Nơi học (trường, thành phố): Trường đại học sư phạm kỹ thuật thành phố Hồ Chí Minh Ngành học: Kỹ thuật điện tử Tên luận văn: Nhận dạng tiếng nói Tiếng Việt dùng mạng nơron triển khai Kit ARM Ngày & nơi bảo vệ luận văn: Tháng năm 2011 Trường đại học sư phạm kỹ thuật thành phố Hồ Chí Minh Người hướng dẫn: PGS TS Lê Tiến Thường Trình độ ngoại ngữ: Anh văn Toefl IPT 470 điểm III QUÁ TRÌNH CÔNG TÁC CHUYÊN MÔN KỂ TỪ KHI TỐT NGHIỆP ĐẠI HỌC: Thời gian Nơi công tác Từ 8/2000 Khoa Công nghệ thông tin Trường Kỹ sư bảo trì sửa chữa phần đến 6/2006 đại học Cần Thơ cứng máy vi tính Từ 6/2006 Giảng viên Khoa Công nghệ thông Giảng dạy môn Kỹ thuật số tin Trường đại học Đồng Tháp Điện tử đến Công việc đảm nhiệm IV CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ: Chưa có XÁC NHẬN CỦA CƠ QUAN CỬ ĐI HỌC (Ký tên, đóng dấu) Ngày 29 tháng năm 2011 Người khai ký tên Phan văn Đầy LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Tp Hồ Chí Minh, ngày 29 tháng năm 2011 (Ký tên ghi rõ họ tên) Phan Văn Đầy LỜI CẢM ƠN Tôi xin gởi lời cảm ơn chân thành đến PGS.TS Lê Tiến Thường, người tận tình hướng dẫn, giúp đỡ suốt trình thực luận văn tạo điều kiện để hoàn thành luận văn Xin gởi lời cảm ơn đến Thầy Cô dạy thời gian qua Tôi xin cảm ơn bạn đồng môn đồng nghiệp quan tâm, chia suốt trình học làm luận văn Xin cảm ơn gia đình dành cho tình thương yêu hỗ trợ tốt Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường TÓM TẮT Đề tài thực Trường đại học SPKT TpHCM từ ngày tháng năm 2010 đến ngày 28 tháng năm 2011 Kỳ vọng đề tài xây dựng chương trình nhận dạng tiếng nói Tiếng Việt lên Kit xử lý 32 bit họ ARMLM3S2965 thông qua việc xây dựng chương trình nhận dạng tiếng nói Tiếng Việt, khai thác tính Kit ARM, xây dựng bo mạch thu âm, giao tiếp nhúng chương trình nhận dạng tiếng nói Tiếng Việt lên Kit LM3S2965 Trước tiên, đề tài nghiên cứu lý thuyết đặc trưng lấy mẫu tín hiệu tiếng nói Tiếng Việt từ đề tài, báo chọn phương pháp rút trích đặc trưng tín hiệu tiếng nói thông dụng Sau đó, dùng mẫu đặc trưng rút trích để huấn luyện trọng số mạng nơron dùng mạng nơron huấn luyện để nhận dạng tiếng nói Tiếng Việt Đề tài thiết kế thi công mạch thu âm giao tiếp với Kit LM3S2965, nghiên cứu khai thác số tính Kit LM3S2965, xây dựng chương trình nhận dạng tiếng nói Tiếng Việt thực máy tính cá nhân sau xây dựng chương trình nhận dạng tiếng nói Tiếng Việt Kit LM3S2965 để điều khiển cánh tay Robot bậc tự Bộ từ vựng cần nhận dạng từ dùng để điều khiển Robot “Kẹp”, “Nhả”, “Tiến”, “Lùi”, “Trái”, “Phải”, “Nâng”, “Hạ”, “Dừng” phát từ tác giả điều kiện tiếng ồn thấp Kết chương trình nhận dạng tiếng nói Tiếng Việt thực máy tính cá nhân đạt độ xác tốt (≈90%) Kết chương trình nhận dạng tiếng nói Tiếng Việt triển khai Kit LM3S2965 có độ xác thấp số hạn chế nghiên cứu khai thác tính Kit LM3S2965 Mặc dù vậy, đề tài mở định hướng nghiên cứu để kết tốt i HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường ABSTRACT The topic had been being done at University Of Technical Education HCM City from September 1, 2010 to February 28, 2011 The topic’s expectations is to develop a Vietnamese speech recognition program in a 32-bit ARM processor motherboard, LM3S2965, one of motherboards has many advantages in embedded applications In addition, the topic performed the Vietnamese speech recognition programming on a personal computer for the purpose of the orientation for on the LM3S2965 motherboard programming The Vietnamese speech recognition is carried out mainly by the neural network That is, the result of identification is determined from a combination of the analysis of the neural network applied to typical Vietnamese voice Algorithm used to train the neural network is the back propagation algorithm MFCC (Mel-scale Frequency Cepstral) is used to extract speech signal characteristic The topics is limited only to identify the words used to control a robotic arm, such as “Clamp”, “Release”, “Go”, “Back”, “Left”, “Right”, “Lift”, “Lower” and “Stop” They are identified discretely in a low noise conditions and pronounced from the author, who provided the samples used to train the neural network The result of Vietnamese speech recognition performed on a personal computer achieved a good precision (approximately 90%) However, the Vietnamese speech recognition program done on the motherboard achieved a limited result The reason is that the topic couldn’t check a sampled signal on the motherboard quickly However, the topic opened a research direction, which will be able to bring a better result ii HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường MỤC LỤC Trang tựa Trang Quyết định giao đề tài Lý lịch cá nhân Lời cam đoan Cảm tạ Tóm tắt i Abstract ii Mục lục iii Danh sách chữ viết tắt vi Danh sách hình vii Danh sách bảng ix Lời mở đầu Chương Đặc trưng tiếng nói Tiếng Việt 1.1 Tổng quan tiếng nói 1.2 Các đặc điểm Tiếng Việt 1.2.1 Ngữ âm Tiếng Việt 1.2.2 Thanh điệu Tiếng Việt 1.2.3 Cấu trúc âm tiết Tiếng Việt Chương Hệ thống nhận dạng tiếng nói Tiếng Việt 2.1 Tổng quan hệ thống nhận dạng tiếng nói 2.2 Các yếu tố ảnh hưởng đến hệ thống nhận dạng tiếng nói 10 2.3 Nhận dạng độc lập phụ thuộc người nói 10 2.4 Lưu đồ giải thuật nhận dạng tiếng nói dừng mạng nơron 11 2.5 Lấy mẫu tín hiệu 12 2.5.1 Lọc thông thấp chống chồng phổ 12 2.5.2 Lấy mẫu tín hiệu tiếng nói 12 2.5.3 Chia khung (frame) tín hiệu 12 2.6 Tách tín hiệu khỏi 13 iii HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường 2.6.1 Phương pháp xác định điểm đầu, điểm cuối dùng lượng thời gian ngắn 14 2.6.2 Phương pháp xác định điểm đầu, điểm cuối dùng tỉ lệ biên độ tín hiệu qua điểm Zero 15 2.7 Phương pháp trích đặc trưng MFCC (Mel-scale Frequency Cepstral Coefficient) 15 2.7.1 Lọc cửa sổ 16 2.7.2 Biến đổi Fourier rời rạc (DFT) 17 2.7.3 Lọc tần số theo thang tần số Mel 17 2.7.4 Lấy logarit tín hiệu thang Mel 19 2.7.5 Biến đổi Fourier ngược (IFFT) 19 Chương 3: Mạng nơron nhân tạo 21 3.1 Khái niệm mạng nơron nhân tạo 21 3.2 Cấu trúc mạng nơron nhân tạo 24 3.2.1 Mạng nơron kết nối đầy đủ 24 3.2.2 Mạng nơron phân lớp 24 3.2.3 Mạng nơron truyền thẳng 25 3.3 Huấn luyện mạng nơron theo giải thuật lan truyền ngược 25 3.3.1 Tính toán ngõ nút mạng nơron theo hướng tới 28 3.3.2 Cập nhật trọng số mạng nơron theo luật delta 28 3.3.3 Giải thuật huấn luyện mạng nơron theo giải thuật lan truyền ngược 30 Chương 4: Bộ Kit LM3S2965 32 4.1 Đặc tả Kit LM3S2965 32 4.2 Cấu trúc Kit LM3S2965 33 4.2.1 Lõi ARM cortex M3 34 4.2.2 Bộ chuyển đổi tương tự - số (ADC) 35 4.2.3 Khối hiển thị OLED 35 4.3 Một số hàm thư viện Kit LM3S2965 36 iv HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường 4.3.1 Hàm cho ADC 36 4.3.2 Hàm cho hình OLED 37 4.3.3 Hàm cho điều khiển hệ thống 38 4.3.4 Hàm cho nhớ Flash 39 4.3.5 Hàm đa dụng 40 Chương Thiết kế hệ thống nhận dạng tiếng nói Tiếng Việt 41 5.1 Thiết kế mạch thu âm 42 5.1.1 Khối mạch tiền khuếch đại micro tự điều chỉnh độ lợi 43 5.1.2 Khối mạch lọc thông dãy 47 5.1.3 Khối mạch giao tiếp ADC 53 5.2 Thiết kế chương trình lấy mẫu tín hiệu 56 5.2.1 Lấy mẫu tín hiệu cho chương trình nhận dạng chạy PC 56 5.2.2 Lấy mẫu tín hiệu cho chương trình nhận dạng chạy Kit LM3S2965 57 5.3 Thiết kế chương trình trích đặc trưng tín hiệu tiếng nói Tiếng Việt 58 5.4 Thiết kế cấu trúc mạng nơron 61 5.5 Thiết kế giao diện chương trình chạy Kit LM3S2965 62 Chương Kết đạt hướng phát triển 63 6.1 Kết đạt chương trình chạy PC 63 6.2 Kết đạt chương trình chạy Kit LM3S2965 66 6.3 Hạn chế đề tài hướng phát triển 68 6.2.1 Đối với chương trình nhận dạng máy tính cá nhân 68 6.3.2 Đối với chương trình nhận dạng chạy Kit LM3S2965 68 Tài liệu tham khảo 70 v HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường DANH SÁCH CÁC CHỮ VIẾT TẮT ADC (Analog to Digital Converter) : Bộ biến đổi tương tự - số AGC (Automatic Gain Control) : Điều khiển độ lợi tự động ARM (Advanced RISC Machine) : Máy RISC tiên tiến DAC (Digital to Analog Converter) : Bộ đổi số sang tương tự DFT (Discrete Fourier Transform) : Biến đổi Fourier rời rạc FBA (Flux Balance Analysis) : Phân tích cân thông lượng FET (Field Effect Transistor) : Transitor trường ứng FFT (Fast Fourier Transform) : Biến đổi Fourier nhanh FIFO (First In, First Out) : Vào trước trước IDFT (Inverse Discrete Fourier Transform) : Biến đổi ngược Fourier rời rạc IFFT (Inverse Fast Fourier Transform) : Biến đổi ngược Fourier nhanh KSPS (Kilo Samples Per Second) : Nghìn mẫu giây LPC (Linear Prediction Cepstral Coefficients) : Hệ số phổ đặc trưng dự đoán tuyến tính MSPS (Mega Samples Per Second) : Triệu mẫu giây MFCC (Mel-scale Frequency Cepstral Coefficient) : Hệ số phổ đặc trưng thang tần số Mel OLED (Organic Light Emission Diode ) : Điốt phát sáng Organic OP-AMP (Operational Amplifier) : Bộ khuếch đại thuật toán PC (Personal Computer) : Máy tính cá nhân RISC (Reduced Instruction Set Computing) : Tính toán với tập lệnh rút gọn SRAM (Static Random Access Memory) : Bộ nhớ tĩnh truy xuất ngẫu nhiên USB (Universal Serial Bus) : Bus nối tiếp đa dụng vi HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường DANH SÁCH CÁC HÌNH Hình Trang Hình 1.1: Đồ thị cường độ trình phát âm âm tiết “xanh xanh” Hình 2.1: Lưu đồ giải thuật hệ thống nhận dạng tiếng nói dùng mạng nơron 11 Hình 2.2: Đồ thị dạng sóng tín hiệu thời gian dài 13 Hình 2.3: Đồ thị dạng sóng tín hiệu thời gian ngắn 13 Hình 2.4: Lưu đồ giải thuật xác định điểm đầu, điểm cuối dùng phương pháp so sánh lượng thời gian ngắn 14 Hình 2.5: Lưu đồ trích đặc trưng tiếng nói giải thuật MFCC 16 Hình 2.6: Đồ thị biểu diễn quan hệ tần số Mel va Hertz 18 Hình 2.7: Đồ thị dãy lọc Mel dạng tam giác gồm 27 lọc 19 Hình 3.1: Sơ đồ minh họa nơron sinh học 21 Hình 3.2: Mô hình mạng nơron nhân tạo tổng quát 22 Hình 3.3: Đồ thị hàm nấc 22 Hình 3.4: Đồ thị hàm dốc 23 Hình 3.5: Đồ thị hàm Sigmoid 23 Hình 3.6: Minh họa sơ đồ mạng nơron kết nối đầy đủ 24 Hình 3.7: Minh họa cho mạng nơron phân lớp 24 Hình 3.8: Minh họa cho mạng nơron truyền thẳng 25 Hình 3.9: Minh hoạt cấu trúc mạng nơron lớp ẩn 26 Hình3.10: Cấu trúc mạng nơron với nút thứ k, nút ẩn thứ j nút vào thứ i 28 Hình 3.11 Lưu đồ giải thuật huấn luyện mạng lan truyền ngược 30 Hình 4.1: Sơ đồ khối LM3S2965 33 Hình 4.2: Sơ đồ khối lõi ARM cortex M3 34 Hình 4.3: Sơ đồ khối khối ADC 35 Hình 4.4: Màn hình OLED 36 vii HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường Hình 5.1: Sơ đồ khối hệ thống nhận dạng tiếng nói 41 Hình 5.2: Sơ đồ khối mạch thu âm 42 Hình 5.3: Sơ đồ mạch nguyên lý electret microphone 43 Hình 5.4: Sơ đồ khối mạch AGC 43 Hình 5.5: Sơ đồ mạch nguyên lý mạch khuếch đại có độ lợi thay đổi theo điện trở ngõ vào Rq 44 Hình 5.6: Sơ đồ mạch nguyên lý mạch khuếch đại có độ lợi thay đổi theo điện trở ngõ vào Rq 46 Hình 5.7: Sơ đồ nguyên lý khối mạch tách biên độ, lọc khuếch đại tín hiệu điều khiển độ lợi 47 Hình 5.8: Cấu trúc tổng quát mạch lọc Sallen-Key bậc hai 48 Hình 5.9: Sơ đồ khối vẽ lại mạch hình 5.8 49 Hình 5.10: Sơ đồ nguyên lý mạch lọc thông thấp Sallen-Key 50 Hình 5.11: Sơ đồ nguyên lý mạch lọc thông cao Sallen-Key 51 Hình 5.12: Sơ đồ nguyên lý mạch lọc thông dãy 52 Hình 5.13: Sơ đồ nguyên lý mạch khuếch đại điều chỉnh độ lợi 52 Hình 5.14: Sơ đồ nguyên lý nguồn tín hiệu hoạt động chế độ đơn cực 53 Hình 5.15: Sơ đồ nguyên lý nguồn tín hiệu hoạt động chế độ vi sai 53 Hình 5.16: Sơ đồ nguyên lý liên lạc tín hiệu dùng biến áp 54 Hình 5.17: Sơ đồ nguyên lý mạch đệm tín hiệu 54 Hình 5.18: Sơ đồ nguyên lý mạch đảo tín hiệu 55 Hình 5.19: Sơ đồ mạch thu âm, lọc giao tiếp ADC hoàn chỉnh 55 Hình 5.20: Lưu đồ giải thuật lấy mẫu tín hiệu dùng cho chương trình chạy máy tính cá nhân 56 Hình 5.21: Lưu đồ giải thuật xác định frame tín hiệu tiếng hay nhiễu 57 Hình 5.22: Lưu đồ giải thuật lấy mẫu tín hiệu dùng cho chương trình chạy Kit LM3S2965 58 Hình 5.23: Sơ đồ bướm tính FFT phân chia theo thời gian 60 viii HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường Hình 5.23: Sơ đồ bướm tính FFT phân chia theo thời gian 60 Hình 6.1: Giao diện chương trình 63 Hình 6.2: Giao diện thu âm lưu trữ mẫu dung để huấn luyện mạng nơron 64 Hình 6.3: Giao diện để kiểm tra lại mẫu lưu 64 Hình 6.4: Giao diện công cụ huấn luyện mạng nơron có sẳn Matlab 7.7 65 Hình 6.5: Giao diện ghi âm, phân tích hiển thị kết nhận dạng 65 Hình 6.6: Hình ảnh Kit ARM-LM3S2965 66 Hình 6.7: Hình ảnh bo mạch thu âm, giao tiếp Kit 67 DANH SÁCH CÁC BẢNG Bảng Trang Bảng 3.1: Cấu trúc tổng quát âm tiết Tiếng Việt Bảng 5.1: Mô tả cách đảo bit cho việc tính FFT điểm 60 ix HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường LỜI MỞ ĐẦU ARM(Advanced RISC Machine) họ máy tính có kiến trúc RISC tiên tiến, (kiến trúc tính toán với tập lệnh rút gọn tiên tiến) Kit LM3S2965 Kit xử lý 32 bit họ ARM có nhiều tính thuận lợi cho việc nghiên cứu như: - Có kiến trúc RISC với tập lệnh rút gọn hầu hết lệnh thực chu kỳ máy với kiến trúc xử lý song song - Được thiết kế chủ yếu cho ứng dụng nhúng, có kích thước nhỏ, giảm hao phí lượng - Được thiết kế để tích hợp vào sản phẩm khác, có thiết bị ngoại vi tùy chọn để giao nhu cầu chức hệ thống - Có tập lệnh hỗ trợ lập trình ngôn ngữ ASM, ngôn ngữ C C++ với nhiều phần mềm lập trình nhúng Keil uVision, IAR Embedded Workbench, CodeSourcery Sourcery G++, … - Có vùng nhớ SRAM 64 KB dùng chứa Code lập trình, flash 256KB dùng để dùng làm nhớ cấu hình sử dụng nhớ lưu trữ Vì đề tài chọn việc nghiên cứu Kit LM3S2965 với kỳ vọng khai thác tính Kit để thực công việc nhận dạng tiếng nói Tiếng Việt với từ vựng từ dùng để điều khiển cánh tay Robot: “Kẹp”, “Nhả”, “Tiến”, “Lùi”, “Trái”, “Phải”, “Nâng”, “Hạ”, “Dừng” Mục tiêu cần hướng tới đề tài thực nhận dạng từ lệnh điều khiển cánh tay Robot vừa nêu Kit LM3S2965 để điều khiể cánh tay Robot bậc tự Tiếng nói người loại tín hiệu phức tạp, thay đổi theo không gian, thời gian,…Để hiểu tiếng nói, não người phải trải qua trình học xử lý phức tạp Mạng nơron nhân tạo hệ thống mô số tính chất não người (mạng nơron sinh học) Nó có khả học quan hệ biến đầu vào đầu liệu đầu vào qui luật qui luật không rõ ràng Vì đề tài chọn mạng nơron nhân tạo làm công cụ để học đặc trưng tiếng nói dùng cấu trúc mạng nơron nhân tạo học để nhận dạng tiếng nói với kỳ vọng nâng cao độ xác kết nhận dạng tiếng nói Nhận dạng tiếng nói trình nhận dạng mẫu, với mục đích phân lớp mẫu tín hiệu tiếng nói ghi dựa vào thông tin mẫu lưu Lời mở đầu HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường trước Các mẫu đơn vị nhận dạng, chúng từ, âm tiết Nếu mẫu bất biến không thay đổi công việc nhận dạng tiếng nói trở nên đơn giản cách so sánh liệu tiếng nói cần nhận dạng với mẫu học lưu trữ nhớ Khó khăn nhận dạng tiếng nói tiếng nói biến thiên theo thời gian có khác biệt lớn tiếng nói người nói khác nhau, tốc độ nói, ngữ cảnh môi trường âm học khác Việc xác định thông tin biến thiên tiếng nói có ích nhận dạng tiếng nói quan trọng Đây nhiệm vụ khó khăn mà với kỹ thuật xác suất thống kê mạnh khó khăn việc tổng quát hoá từ mẫu tiếng nói biến thiên quan trọng cần thiết nhận dạng tiếng nói Các nghiên cứu nhận dạng tiếng nói dựa ba nguyên tắc bản: • Tín hiệu tiếng nói biểu diễn giá trị phổ xét tín hiệu khung thời gian ngắn Ta trích đặc điểm tiếng nói từ khoảng thời gian ngắn dùng đặc điểm làm liệu để nhận dạng tiếng nói • Thông tin tiếng nói biểu diễn dạng chữ viết tiếng nói phát âm chữ viết, dãy ký hiệu ngữ âm Do ý nghĩa từ phát âm bảo toàn phát âm từ thành dãy ký hiệu ngữ âm Nhận dạng tiếng nói người trình nhận thức Thông tin ngữ nghĩa suy đoán có giá trị trình nhận dạng tiếng nói, thông tin âm học không rõ ràng • Các thành tựu lĩnh vực nhận dạng tiếng nói áp dụng nhiều lĩnh vực, đặc biệt lĩnh vực điều khiển học Nhận dạng xử lý tiếng nói ứng dụng rộng rãi lĩnh vực như: quay số tiếng nói điện thoại di động, điều khiển robot với từ vựng nhỏ… Tuy nhiên, việc giao tiếp người máy phải thông qua thiết bị xuất nhập chuẩn Để ngày tự nhiên hóa việc giao tiếp điều khiển máy móc, vấn đề nghiên cứu phương pháp nhận dạng tiếng nói đặt Đã có số phần mềm đời nhận dạng tiếng Anh tương đối tốt Via voice IBM, spoken toolkit trung tâm hiểu biết ngông ngữ tiêng nói CSLU (Central of Spoken Laguage Understanding) Tuy nhiên Tiếng Việt chưa có hệ thống nhận dạng hoàn chỉnh xây dựng Vấn đề quan tâm nghiên cứu năm gần Năm 2004, phần mềm Vspeech nhóm BK02 đại học bách khoa Thành phố Hồ Chí Minh mang đến khả giao tiếp máy tính tiếng nói Cho đến nay, có thêm số công trình nghiên cứu lĩnh vực với nhiều hướng tiếp cận khác nhau, song Lời mở đầu HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường kết đạt khiêm tốn chưa ứng dụng nhiều kỹ thuật Phương pháp nhận dạng dùng mạng thần kinh nhân tạo tỏ hiệu việc tăng độ xác nhận dạng Các mẫu tín hiệu tiếng nói nhiều người nhiều vùng, môi trường khác tập hợp để hệ thống học đặc trưng tiếng nói Việc nhúng thành công chương trình nhận dạng tiếng nói Tiếng Việt vào Kit xử lý nhỏ gọn có ý nghĩa lớn việc phát triển rộng ứng dụng kết nhận dạng tiếng nói Tiếng Việt vào lĩnh vực khoa học kỹ thuật, đặc biệt lĩnh vực điều khiển Đề tài tập trung nghiên cứu việc nhận dạng tiếng nói dùng mạng noron máy tính cá nhân viết ngôn ngữ Matlab để làm sở định hướng triển khai nhúng chương trình nhận dạng tiếng nói Tiếng Việt Kit LM3S2965, viết ngôn ngữ C Phương pháp nghiên cứu tìm hiểu thông tin qua tư liệu có liên quan, tổng hợp, chọn phương pháp thực triển khai ý tưởng lập trình, thiết kế hệ thống Thiết kế lập trình công đoạn, sau tổng hợp điều chỉnh dần công đoạn hoàn chỉnh Cơ sở lý thuyết có liên quan bao gồm lý thuyết ngữ âm Tiếng Việt, lý thuyết mạng nơron nhân tạo, phương pháp trích đặc trưng nhận dạng tiếng nói Các lý thuyết tìm thấy chủ yếu đề tài luận văn tốt nghiệp báo Phần mềm dùng đề tài bao gồm: Phần mềm ngôn ngữ lập trình Matlab 7.7, phần mềm vẽ mạch Multisim 9.0, phần mềm lập trình nhúng IAR Embedded Workbench Các phần mềm chạy hệ điều hành Window XP Phần cứng dùng đề tài Kit LM3S2965 hãng Luminary Micro, cánh tay Robot bậc tự do, máy tính cá nhân board mạch thu âm giao tiếp mạch thu âm với Kit LM3S2965, mạch giao tiếp bo mạch LM3S2965 cánh tay Robot bậc tự tác giả thiết kế Lời mở đầu HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường Chương ĐẶC TRƯNG TIẾNG NÓI TIẾNG VIỆT Tín hiệu tiếng nói xem tín hiệu ngẫu nhiên xác định xác biên độ tần số tiếng nói nói Tuy nhiên tiếng (của ngôn ngữ) lại chứa thành phần đặc trưng riêng Việc tách đặc trưng tiếng nói trình quan trọng hệ thống nhận dạng giọng nói Việc nhận dạng thực trực tiếp từ nguyên vẹn tín hiệu gốc vừa lấy mẫu thành phần có dung lượng lớn dễ thay đổi theo thời gian Các hệ thống nhận dạng phân biệt tiếng hày hay tiếng dựa đặc trưng riêng tiếng Quá trình trích đặc trưng giọng nói trình cô đọng tín hiệu tiếng nói thành thông số đặc tính Việc việc giảm nhẹ công việc nhận dạng mà tăng xác cho hệ thống nhận dạng 1.1 Tổng quan tiếng nói : Giao tiếp tiếng nói phương cách nhanh hiệu Tuy nhiên trình nghe hiểu tiếng nói đơn giản Nó thực hoàn hảo với cấu trúc phức tạp não người Đó trình xử lý phức tạp với với quan có cấu trúc đặc biệt thể Tín hiệu tiếng nói chứa thông tin thoại có tần số tập trung khoảng từ 300Hz đến 3,5KHz Đây khoảng tần số chứa lượng chủ yếu tín hiệu tiếng nói Một đặc điểm đáng ý tín hiệu tiếng nói biến đổi chậm theo thời gian Nghĩa ta xét tín hiệu tiếng nói khoảng thời gian ngắn có tính chất gần không đổi Chương 1: Đặc trưng tiếng nói Tiếng Việt HVTH: Phan Văn Đầy [...]... trưng tiếng nói Tiếng Việt 4 1.1 Tổng quan về tiếng nói 4 1.2 Các đặc điểm cơ bản của Tiếng Việt 5 1.2.1 Ngữ âm Tiếng Việt 5 1.2.2 Thanh điệu Tiếng Việt 6 1.2.3 Cấu trúc âm tiết Tiếng Việt 8 Chương 2 Hệ thống nhận dạng tiếng nói Tiếng Việt 9 2.1 Tổng quan về hệ thống nhận dạng tiếng nói 9 2.2 Các yếu tố ảnh hưởng đến hệ thống nhận dạng tiếng nói 10... hoặc qui luật không rõ ràng Vì vậy đề tài chọn mạng nơron nhân tạo làm công cụ chính để học các đặc trưng tiếng nói và dùng cấu trúc mạng nơron nhân tạo đã được học để nhận dạng tiếng nói với kỳ vọng là nâng cao được độ chính xác của kết quả nhận dạng tiếng nói Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp mẫu tín hiệu tiếng nói ghi được dựa vào thông tin của các mẫu đã... việc phát triển rộng các ứng dụng kết quả nhận dạng tiếng nói Tiếng Việt vào các lĩnh vực khoa học kỹ thuật, đặc biệt trong lĩnh vực điều khiển Đề tài này tập trung nghiên cứu việc nhận dạng tiếng nói dùng mạng noron trên máy tính cá nhân được viết bằng ngôn ngữ Matlab để làm cơ sở định hướng và triển khai nhúng chương trình nhận dạng tiếng nói Tiếng Việt trên Kit LM3S2965, được viết bằng ngôn ngữ C... các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm tiết Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã được học và lưu trữ trong bộ nhớ Khó khăn cơ bản của nhận dạng tiếng nói là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác... thuật Phương pháp nhận dạng dùng mạng thần kinh nhân tạo tỏ ra khá hiệu quả trong việc tăng độ chính xác của nhận dạng Các mẫu tín hiệu tiếng nói của nhiều người ở nhiều vùng, môi trường khác nhau sẽ được tập hợp để hệ thống học các đặc trưng cơ bản của tiếng nói Việc nhúng thành công các chương trình nhận dạng tiếng nói Tiếng Việt vào các Kit xử lý nhỏ gọn có ý nghĩa lớn trong việc phát triển rộng các... Chương 3: Mạng nơron nhân tạo 21 3.1 Khái niệm về mạng nơron nhân tạo 21 3.2 Cấu trúc mạng nơron nhân tạo 24 3.2.1 Mạng nơron kết nối đầy đủ 24 3.2.2 Mạng nơron phân lớp 24 3.2.3 Mạng nơron truyền thẳng 25 3.3 Huấn luyện mạng nơron theo giải thuật lan truyền ngược 25 3.3.1 Tính toán ngõ ra nút mạng nơron theo hướng tới 28 3.3.2 Cập nhật trọng số mạng nơron theo... dãy các ký hiệu ngữ âm Nhận dạng tiếng nói của con người còn là một quá trình nhận thức Thông tin về ngữ nghĩa và suy đoán có giá trị trong quá trình nhận dạng tiếng nói, nhất là khi thông tin về âm học là không rõ ràng • Các thành tựu trong lĩnh vực nhận dạng tiếng nói được áp dụng trong rất nhiều lĩnh vực, đặc biệt là trong lĩnh vực điều khiển học Nhận dạng và xử lý tiếng nói đã được ứng dụng rộng... PGS.TS.Lê Tiến Thường Chương 1 ĐẶC TRƯNG TIẾNG NÓI TIẾNG VIỆT Tín hiệu tiếng nói có thể xem như tín hiệu ngẫu nhiên vì không thể xác định chính xác biên độ và tần số của tiếng nói sẽ nói Tuy nhiên trong mỗi tiếng (của cùng một ngôn ngữ) lại chứa những thành phần đặc trưng riêng Việc tách đặc trưng tiếng nói là quá trình quan trọng trong hệ thống nhận dạng giọng nói Việc nhận dạng không thể thực hiện trực tiếp... theo thời gian Các hệ thống nhận dạng sẽ phân biệt tiếng này hày hay tiếng kia dựa trên các đặc trưng riêng này của mỗi tiếng Quá trình trích đặc trưng giọng nói là quá trình cô đọng tín hiệu tiếng nói thành các thông số đặc tính Việc này ngoài việc giảm nhẹ công việc nhận dạng mà còn tăng sự chính xác cho hệ thống nhận dạng 1.1 Tổng quan về tiếng nói : Giao tiếp bằng tiếng nói là phương cách nhanh và... nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản: • Tín hiệu tiếng nói có thể được biểu diễn bởi các giá trị phổ khi xét tín hiệu một khung thời gian ngắn Ta có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói • Thông tin tiếng nói có thể được biểu diễn dưới dạng chữ viết và tiếng nói là phát âm của chữ viết,