Nghiên cứu thiết kế chế tạo thiết, hệ thống tự động hoá thông minh sử dụng tương tác người máy bằng tiếng nói trong điều khiển

254 643 0
Nghiên cứu thiết kế chế tạo  thiết, hệ thống tự động hoá thông minh sử dụng tương tác người máy bằng tiếng nói trong điều khiển

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ KHOA HỌC VÀ CÔNG NGHỆ BỘ GIÁO DỤC VÀ ĐÀO TẠO CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC03 BÁO CÁO TỔNG HỢP KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI NGHIÊN CỨU THIẾT KẾ CHẾ TẠO CÁC THIẾT BỊ VÀ HỆ THỐNG TỰ ĐỘNG HÓA THÔNG MINH SỬ DỤNG TƯƠNG TÁC NGƯỜI MÁY BẰNG TIẾNG NÓI TRONG ĐIỀU KHIỂN MÃ SỐ: KC.03.15/06-10 Cơ quan chủ trì đề tài/dự án: Trường Đại học Bách Khoa Hà Nội Chủ nhiệm đề tài/dự án: GS. TS. Phạm Thị Ngọc Yến Hà N ội - 2010 BỘ KHOA HỌC VÀ CÔNG NGHỆ BỘ GIÁO DỤC VÀ ĐÀO TẠO CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC03 BÁO CÁO TỔNG HỢP KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI NGHIÊN CỨU THIẾT KẾ CHẾ TẠO CÁC THIẾT BỊ VÀ HỆ THỐNG TỰ ĐỘNG HÓA THÔNG MINH SỬ DỤNG TƯƠNG TÁC NGƯỜI MÁY BẰNG TIẾNG NÓI TRONG ĐIỀU KHIỂN MÃ SỐ: KC.03.15/06-10 Chủ nhiệm đề tài: Cơ quan chủ trì đề tài: GS.TS. Phạm Thị Ngọc Yến Ban chủ nhiệm chương trình Bộ Khoa học và Công nghệ Nội - 2010 1 MỤC LỤC DANH MỤC CÁC BẢNG 8 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 10 DANH MỤC CÁC TỪ VIẾT TẮT 17 Chương 1. Mở đầu 19 1.1 Các thông tin chung về đề tài 19 1.2 Các vấn đề chung 20 1.2.1 Đánh giá sự phát triển của hệ thống thiết bị tự động hóa sử dụng giao tiếp người máy bằng tiếng nói trên thế giới và Việt nam 20 1.2.2 Sản phẩm KHCN của đề tài 24 Tài liệu tham khảo 27 Chương 2. Thiết kế, xây dựng hệ thống giám sát điều khiển sử dụng giao tiếp người máy bằng tiếng nói 30 2.1 Nghiên cứu tương tác ngườimáy 30 2.1.1 Phân tích đặc tính của con người đối với bài toán điều khiển 30 2.1.2 Các mô hình của tài nguyên tương tác của con người 31 2.1.3 Các mô hình xử lý, ra quyết định và thực thi của con người, các yêu cầu về thông tin của người vận hành 35 2.1.4 Nghiên cứu các yêu cầu đặc trưng về ergonomie của bài toán ứng dụng trung tâm 43 2.2 Sơ đồ kiến trúc liên kết các khối cấu thành của lớp tương tác người-máy trên các hệ thống giám sát điều khiển 55 2.2.1 Xây dựng giải pháp tích hợp và tổ chức các khối chức năng phần cứng cấu thành 55 2 2.2.2 Xây dựng giải pháp tích hợp và tổ chức các khối chức năng phần mềm cấu thành 63 2.3 Khối giao tiếp thu thập tín hiệu và truyền tin 67 2.3.1 Khối giao tiếp người máy bằng tiếng nói 67 2.3.2 Khối thu thập tín hiệu âm thanh 71 2.3.3 Các phương thức truyền số liệu 73 2.3.4 Mô đun phần cứng tích hợp các khối giao tiếp, thu thập dữ liệu, truyền tin kết nói với máy tính trung tâm. 76 2.4 Khối xử lý trung tâm 76 2.4.1 Mô đun trích chọn thông tin 76 2.4.2 Mô đun nhận dạng câu lệnh 85 2.4.3 Mô đun phản hồi thông tin bằng tiếng nói 98 2.4.4 Mô đun lọc nhiễu và nâng cao tín hiệu 113 2.4.5 Hệ chuyên gia phân tích xử lý câu lệnh 119 2.5 Phòng thông minh điều khiển bằng tiếng nói 129 2.5.1 Phân tích thiết kế phòng thông minh điều khiển bằng tiếng nói 129 2.5.2 Kịch bản triển khai điều khiển các thiết bị trong phòng thông minh 130 2.5.3 Điều khiển cửa bằng tiếng nói 132 2.5.4 Điều khiển điều hòa bằng tiếng nói 133 2.5.5 Điều khiển vô tuyến bằng tiếng nói 134 2.5.6 Điều khiển đèn bằng tiếng nói 134 2.5.7 Điều khiển camera bằng tiếng nói 135 2.5.8 Thử nghiệm/Đánh giá hệ thống 135 3 2.6 Hệ thống giám sát điều khiển tính toán đường đáy, hiệu chỉnh trận địa pháo phòng không và tự động nạp tham số cự ly mục tiêu bằng tiếng nói. 136 2.6.1 Giới thiệu chung 136 2.6.2 Các thuật toán 137 2.6.3 Thiết kế hệ thống 144 2.6.4 Phương pháp tương tác 146 2.6.5 Chỉ tiêu kỹ thuật của hệ thống 148 2.6.6 Ưu điểm nổi trội của phương pháp so với các phương pháp khác . 149 Tài liệu tham khảo 152 Chương 3. Thiết kế, xây dựng các thiết bị sử dụng tương tác người máy bằng tiếng nói trên hệ thống nhúng 161 3.1 Đặc điểm chung của thiết bị sử dụng tương tác người máy bằng tiếng nói trên hệ thống nhúng 161 3.2 Cấu trúc hệ thống 161 3.3 Khối giao tiếp, thu thập dữ liệu và truyền tin 163 3.3.1 Tương tác người máy bằng tiếng nói trong các ứng dụng nhúng 163 3.3.2 Mô đun thu thập dữ liệu 166 3.3.3 Các mô đun truyền tin 166 3.4 Khối xử lý trung tâm trên các vỉ phát triển vi xử lý 170 3.4.1 Mô đun xử lý tín hiệu và trích chọn đặc trưng 170 3.4.2 Triển khai và thích nghi các mô-đun nhận dạng từ đơn âm tiết và đa âm tiết 171 4 3.4.3 Mô đun tổng hợp tiếng Việt phục vụ bài toán tương tác người máy bằng tiếng nói 173 3.5 Mô đun quản lý CSDL tiếng nói trên DSP 179 3.5.1 Phân tích, phân nhóm CSDL theo kích thước và theo các yếu tố đặc thù của các tương tác người máy trong các ứng dụng nhúng 179 3.5.2 Thiết kế, xây dựng không gian bộ nhớ quản lý lưu trữ cơ sở dữ liệu trên ứng dụng nhúng 180 3.6 Rô bốt BIOLOID điều khiển bằng tiếng nói 183 3.6.1 Giới thiệu chung 183 3.6.2 Sơ đồ điều khiển 185 3.6.3 Nguyên lý hoạt động 187 3.6.4 Phương pháp tương tác 189 3.6.5 Chỉ tiêu kỹ thuật 190 3.6.6 Thử nghiệm/Đánh giá 190 3.7 Điều khiển quạt bằng tiếng nói. 191 3.7.1 Sơ đồ điều khiển 191 3.7.2 Nguyên lý hoạt động 193 3.7.3 Phương pháp tương tác 196 3.7.4 Chỉ tiêu kỹ thuật 197 3.7.5 Thử nghiệm/Đánh giá 197 Tài liệu tham khảo 198 Chương 4. Phần mềm quản lý cơ sở dữ liệu tiếng nói 200 4.1 Giới thiệu chung về quá trình xây dựng CSDL 200 4.2 Các vướng mắc trong quá trình thu thập cơ sở nhập liệu (CSNL) 200 5 4.3 Các yêu cầu quản lý CSNL 201 4.3.1 Yêu cầu về môi trường 202 4.3.2 Yêu cầu về kiến trúc hệ thống 202 4.4 Mô tả chi tiết các chức năng chính 204 4.4.1 Tìm kiếm dữ liệu 204 4.4.2 Thêm các dữ liệu vào một ngữ liệu, thêm một ngữ liệu mới vào CSNL 205 4.4.3 Sửa dữ liệu trong CSNL 206 4.4.4 Xóa ngữ liệu trong CSNL 206 4.4.5 Hiển thị dữ liệu 207 4.5 Giao diện mẫu chương trình 208 4.6 Thiết kế hệ thống 210 4.6.1 Mô hình của hệ thống 210 4.6.2 Thiết kế sơ bộ các chức năng của hệ thống 211 4.6.3 Cơ sở dữ liệu 213 4.7 Kết quả thực hiện 214 4.8 Kiểm thử và đánh giá 215 4.9 Hướng phát triển 215 Chương 5. Định hướng phát triển hệ thống trong môi trường tương tác thực có nhiễu 216 5.1 Giới thiệu 216 5.2 Phương pháp sử dụng mảng microphone 217 5.2.1 Phương pháp sử dụng kỹ thuật tạo chùm (beamforming) 218 6 5.2.2 Phương pháp sử dụng kỹ thuật che thời gian- tần số (time-frequency masking) 219 5.2.3 Phương pháp sử dụng kỹ thuật tách nguồn mù (Blind source separation) 220 5.2.4 Phương pháp sử dụng kỹ thuật phân tích dựa trên mô hình thính giác CASA (Computational Auditory Scene Analysis) 221 5.3 Phương pháp chuẩn hóa vec-tơ đặc trưng 221 5.3.1 Phương pháp chuẩn hoá trung bình hệ số giả phổ CMN (Cepstral Mean Normalization) 222 5.3.2 Chuẩn hóa phương sai hệ số giả phổ CVN (Cepstral variance normalization) 223 5.3.3 Chuẩn hóa biểu đồ giả phổ CHN (Cepstral Histogram Normalization) 223 5.3.4 Xác định tiếng nói VAD (Voice Activity Detection) 224 5.4 Phương pháp thích nghi mô hình âm học 225 5.4.1 Huấn luyện lại mô hình 225 5.4.2 Phương pháp chuỗi vec-tơ Tay-lo VTS (Vector Taylor Series) 226 5.4.3 Phương pháp MLLR (Maximum Likelihood Linear Regression) . 227 5.4.4 Phương pháp kết hợp mô hình song song PMC (Parallel Model Combination) 228 Chương 6. Đánh giá kết quả thực hiện 230 6.1 Kết quả thực hiện 230 6.1.1 Về sản phẩm 230 6.1.2 Về tài liệu khoa học 231 7 6.1.3 Về đào tạo 231 6.2 Đánh giá hiệu quả của đề tài 231 6.2.1 Hiệu quả kinh tế 231 6.2.2 Hiệu quả xã hội 232 6.2.3 Hiệu quả về khoa học công nghệ 232 6.3 Đánh giá tính mới, tính sáng tạo của đề tài 234 6.3.1 Tính mới của đề tài 234 6.3.2 Tính sáng tạo 234 6.4 Đánh giá mức độ hoàn thành của đề tài 234 6.4.1 Về sản phẩm 234 6.4.2 Về kinh phí 234 Lời cảm ơn 236 8 DANH MỤC CÁC BẢNG Bảng 2-1: Đặc tính kỹ thuật của microphone AKG Perception 400 72 Bảng 2-2: Các thông số của mạch chuẩn hóa 73 Bảng 2-3: so sánh đặc tính cơ bản các phương thức truyền tin không dây Bluetooth, Zigbee,Wifi 75 Bảng 2-4: Các từ trong CSDL điều khiển 101 Bảng 2-6: Các loại đơn vị âm trong tiếng Việt 103 Bảng 2-7: Tỉ sổ tín hiệu trên nhiễu phân đoạn cải thiện được của 3 phương pháp: trừ phổ, MMSE và OMLSA ở 0dB 118 Bảng 2-8: Tỉ sổ tín hiệu trên nhiễu phân đoạn cải thiện được của 3 phương pháp: trừ phổ, MMSE và OMLSA ở 5dB 118 Bảng 2-8: Tương tác ngườimáy điều khiển mở cửa 132 Bảng 2-10: Hệ thống tương tác người-máy điều khiển điều hòa 133 Bảng 2-11: Hệ thống tương tác người-máy điều khiển vô tuyến 134 Bảng 2-12: Hệ thống tác người-máy điều khiển đèn chiếu sáng 135 Bảng 2-13: Hệ thống tương tác người-máy điều khiển camera 135 Bảng 3-3: Phân nhóm CSDL theo tài nguyên sử dụng 179 Bảng 3-4: Các đặc tính của động cơ AX-12 183 Bảng 3-5: Các đặc tính của cảm biến AX-S1 185 Bảng 3-6: Tập lệnh điều khiển robot 189 Bảng 3-5: Các câu lệnh điều khiển quạt 193 Bảng 3-6: GPIO của các chân cổng mở rộng 194 Bảng 4-1: Bảng account 213 Bảng 4-2: Bảng CSDL 213 [...]... trang thiết bị điều khiển giám sát bằng tiếng nói sẽ là một xu hướng phát triển tất yếu trong xã hội hiện đại sau này Chính vì vậy việc nghiên cứu chế tạo các thiết bị giao tiếp bằng tiếng nói là những yêu cầu đòi hỏi cấp thiết đối với các nhà khoa học Đề tài Nghiên cứu thiết kế chế tạo các thiết bị và hệ thống tự động hoá thông minh sử dụng tương 23 tác người- máy bằng tiếng nói trong điều khiển nằm trong. .. Tivi UHF Ultra high frequency VĐK Vi điều khiển Piecewise 18 Linear Compensation for Chương 1 M đ u 1.1 Các thông tin chung v đ tài Tên đề tài: Nghiên cứu thiết kế chế tạo các thiết bị và hệ thống tự động hoá thông minh sử dụng tương tác người- máy bằng tiếng nói trong điều khiển Thuộc chương trình KHCN cấp Nhà nước : Nghiên cứu khoa học và phát triển công nghệ Tự động hóa, Mã số chương trình : KC.03... này tương đương với các hệ thống nhận dạng trên thế giới 25 Sản phẩm ứng dụng: Rô bôt điều khiển bằng tiếng nói có khả năng tự vận hành hoặc vận hành bởi người điều khiển, có khả năng tương tác hai chiều (nghe/nhận/thực hiện lệnh và trả lời) với người điều khiển bằng tiếng nói tiếng Việt Quạt điều khiển bằng tiếng nói có khả năng tương tác hai chiều (nghe/nhận/thực hiện lệnh và trả lời) với người điều. .. giới , các hệ thống tương tác người máy bằng tiếng nói được phát triển trong nhiều lĩnh vực khác nhau: - Trong quân sự: tương tác người máy bằng tiếng nói được sử dụng trong các chương trình nhằm nâng cao khả năng tương tác của phi công trong điều khiển máy bay chiến đấu, máy bay trực thăng của quân đội Mỹ [Weinstein 1990], Pháp, Anh [Internet01], Thuỵ Điển [Englund 2004] Trong các ứng dụng này, các... khiển hoả lực Hệ thống giám sát điều khiển tính toán đường đáy, hiệu chỉnh trận địa pháo phòng không và tự động nạp tham số cự ly mục tiêu bằng tiếng nói có ưu điểm nổi bật tiết kiệm được từ 4 đế 6 phút thời gian triển khai mới trận địa 1.2.2.2 Các thiết bị sử dụng tương tác người máy bằng tiếng nói trên hệ thống nhúng Cho phép tích hợp vào các ứng dụng nhúng để thực hiện tương tác người máy bằng tiếng. .. tiếp bằng tiếng nói được sử dụng để thực hiện các chức năng: thiết lập các tần số vô tuyến, ra lệnh hệ thống lái tự động, giám sát màn hình điều khiển thiết lập toạ độ và các tham số vũ khí chiến đấu Ngoài ra, trong các hệ thống huấn luyện ảo được sử dụng trong quân đội Mỹ, Pháp, hệ thống tương tác kết hợp cả hai công nghệ nhận dạng và tổng hợp tiếng đóng vai trò như một đối tác ảo (pseudo) tương tác. .. với người được huấn luyện - Trong hệ thống thông tin liên lạc, các ứng dụng của công nghệ nhận dạng tiếng nói tự động đã ngày càng phổ biến, với các dịch vụ quay số bằng tiếng nói, các máy trả lời điều khiển bằng tiếng nói [Junqua 2004] [Internet02] - Trong công nghiệp, công nghệ nhận dạng tiếng được tích hợp trong những rô bốt điều khiển công nghiệp [Pires 2005] (Hình 1-1), những rô bốt thông minh. .. đề tài 1.2.2.1 Hệ thống giám sát điều khiển sử dụng giao tiếp người máy bằng tiếng nói Cho phép tích hợp vào các trung tâm điều khiển giám sát trong các ứng dụng trung tâm để thực hiện tương tác người máy bằng tiếng nói Các tính năng kỹ thuật chủ yếu: Nhận dạng xử lý khoảng 100 câu lệnh bằng tiếng nói bao gồm các từ đơn, từ ghép và các câu điều khiển - Độ chính xác của nhận dạng 90% trong môi trường... hướng đang quan tâm của công nghệ nhận dạng tiếng nói [Internet 03] 20 Hình 1-1: Điều khiển robot bằng tiếng nói giao tiếp bằng micro đeo tai [Pires 2005] Ngoài ra, có nhiều lĩnh vực khác sử dụng công nghệ xử lý tiếng nói nói chung và công nghệ nhận dạng nói riêng được sử dụng từ mức độ thấp tới mức độ cao NASA ứng dụng công nghệ nhận dạng tiếng nói trong các phòng điều khiển đặt trên trạm vũ trụ ISS,... chuyển trong dự án “Những khả năng tiên tiến trong các hệ thống giao tiếp ngôn ngữ tự nhiên hội thoại bằng tiếng nói (Advanced Capabilities for Spoken Dialogue- natural language Interface Systems) [Hockey 2008] Trong hệ thống điều khiển ô tô của hãng Ford, công nghệ nhận dạng tiếng nói được ứng dụng nhằm trợ giúp người lái điều khiển, giám sát một số chức năng bằng tiếng nói Ngoài ra công nghệ nhận . Thiết kế, xây dựng các thiết bị sử dụng tương tác người máy bằng tiếng nói trên hệ thống nhúng 161 3.1 Đặc điểm chung của thiết bị sử dụng tương tác người máy bằng tiếng nói trên hệ thống. MMSE và OMLSA ở 5dB 118 Bảng 2-8: Tương tác người – máy điều khiển mở cửa 132 Bảng 2-10: Hệ thống tương tác người- máy điều khiển điều hòa 133 Bảng 2-11: Hệ thống tương tác người- máy điều khiển. Phân tích thiết kế phòng thông minh điều khiển bằng tiếng nói 129 2.5.2 Kịch bản triển khai điều khiển các thiết bị trong phòng thông minh 130 2.5.3 Điều khiển cửa bằng tiếng nói 132

Ngày đăng: 24/05/2014, 00:18

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan