Tài liệu Cơ sở dữ liệu audio video ảnh docx

14 568 2
Tài liệu Cơ sở dữ liệu audio video ảnh docx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

International Research Center MICA Multimedia, Information, Communication & Applications UMI 2954 Hanoi University of Technology 1 Dai Co Viet - Hanoi - Vietnam Cơ sở dữ liệu audio Le Thi Lan MICA MICA 2010 2 Ngữ cảnh  Cơ sở dữ liệu tiếng nói 2 Broadcast News Podcasts Academic Lectures Nhận dạng tiếng nói Tìm kiếm văn bản tiếng nói MICA 2010 3 Nhận dạng tiếng nói  Đưa ra câu gần giống nhất với đầu vào O  O được xem như một dãy quan sát  O = o 1 ,o 2 ,o 3 ,…,o t  Xác định dãy các từ W = w 1 ,w 2 ,w 3 ,…,w n )|(maxarg ˆ OWPW LW∈ = )()|(maxarg ˆ WPWOPW LW∈ = )( )()|( maxarg ˆ OP WPWOP W LW∈ = Luật Bayes Luật vàng MICA 2010 4 Kiến trúc của hệ thống nhận dạng tiếng nói Feature Extraction Decoding Acoustic Model Pronunciation Model Language Model Speech Signals Word Sequence Network Construction Speech DB Text Corpora HMM Estimation G2P LM Estimation )()|(maxarg ˆ WPWOPW LW∈ = W O MICA 2010 5 Trích chọn đặc trưng  Đặc trưng MFCC - The Mel-Frequency Cepstrum Coefficients (MFCC)  Kích thước của cửa sổ : 25ms / Tốc độ : 10ms Preemphasis/ Hamming Window FFT (Fast Fourier Transform) Mel-scale filter bank log|.| DCT (Discrete Cosine Transform) MFCC (12-Dimension) X(n) 25 ms 10ms . . . a1 a2 a3 MICA 2010 6 Tìm kiếm văn bản nói  Mục tiêu:  Cho phép tìm kiếm trên văn bản nói như văn bản bình thường  Tìm kiếm với độ chính xác cao  Cho phép duyệt kết quả trả về  Tìm nhanh đoạn mà người dùng muốn nghe hoặc xem  Tìm kiếm:  Đoạn văn bản chứa nội dung nói  Bản tóm tắt của tài liệu nói  Các thông tin khác  Người nói  Các thông tin siêu dữ liệu  … MICA 2010 7 Đoạn văn bản chứa nội dung nói  Thủ công:  Tốn kém  nhiều lỗi  Theo nghiên cứu của MIT  Đoạn văn bản chuẩn bị thủ công 10% khác so với nội dung thực sự Misspelled words Furui  Frewey Makhoul  McCool Tukey  Tuki Eigen  igan Gaussian  galsian cepstrum  capstrum Substitution errors Fourier  for your Kullback  callback a priori  old prairie resonant  resident affricates  aggregates palatal  powerful MICA 2010 8 Gán ngữ nghĩa  Con người thực hiện gán ngữ nghĩa trong thời gian gấp từ 10 đến 50 lần thời gian thực  Ghi lại toàn bộ nội dung đoạn âm thanh  Xác định người nói, thay đổi người nói  Xác định các sự kiện không người nói và nhiễu nền  Phân đoạn và tóm tắt nội dung MICA 2010 9 Gán ngữ nghĩa  Mục tiêu: Tự động sinh ngữ nghĩa cho các đoạn âm thanh  Ghi lại nội dung (Từ đã được nói)  Xác định người nói và thời gian  Phân đoạn (theo chủ đề)  Tóm tắt  Chỉ số hóa  Tìm kiếm MICA 2010 10 Tìm kiếm  Tập hợp N tài liệu  “lớn” N: 10k-1M tài liệu  “bé” N: < 1-10k tài liệu  Câu truy vấn:  Tập trật tự các từ trong từ vựng  Hạn chế ở việc tìm theo từ khóa, các hình thức khác cũng thể thực hiện:  Đoạn tiếng nói/âm thanh truy vấn [...]... bản tiếng nói khác  Phát hiện các từ (thuật ngữ ) được nói trong một cơ sở dữ liệu không đồng nhất STD (Spoken Term Detection) TREC STD Documents Broadcast News BN, Switchboard, Meeting Languages English English, Arabic, Mandarin Query Long Short (few words) System Output Ranked Relevant documents Location of the query in the audio Decision Score indicating how likely the term exists “Actual” decision . Technology 1 Dai Co Viet - Hanoi - Vietnam Cơ sở dữ liệu audio Le Thi Lan MICA MICA 2010 2 Ngữ cảnh  Cơ sở dữ liệu tiếng nói 2 Broadcast News Podcasts.  Tìm kiếm MICA 2010 10 Tìm kiếm  Tập hợp N tài liệu  “lớn” N: 10k-1M tài liệu  “bé” N: < 1-10k tài liệu  Câu truy vấn:  Tập có trật tự các từ

Ngày đăng: 24/12/2013, 18:15

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan