Bài giảng cơ sở dữ liệu chỉ mục và tìm kiếm âm thanh

45 1.2K 10
Bài giảng cơ sở dữ liệu chỉ mục và tìm kiếm âm thanh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài CHỈ MỤC VÀ TÌM KIẾM ÂM THANH PGS.TS. Đặng Văn Đức dvduc@ioit.ac.vn Hà Nội - 2005/14 Nội dung       Giới thiệu tìm kiếm âm Các thuộc tính đặc trưng âm Phân lớp âm Nhận dạng tìm kiếm tiếng nói Chỉ số hóa tìm kiếm âm nhạc Chỉ mục tìm kiếm thông tin đa phương tiện sử dụng quan hệ âm media khác  Kết luận 1. Giới thiệu  Nhắc lại kiến trúc CSDL đa phương tiện User Query Answer Multimedia Query Engine Document Index Image Index Audio Index Video Index Giới thiệu  Nhắc lại loại liệu đa phương tiện image io d au text Once upon a time, there was a little . video Giới thiệu  Nhắc lại biểu diễn tín hiệu số âm Continuous sound pressure wave Microphone Discrete digital samples 00111010101111100001101011 Giới thiệu  Nhắc lại tiến trình tìm kiếm liệu đa phương tiện On-line Off-line Câu truy vấn Âm Xử lý Xử lý Đại diện Âm truy vấn Đại diện Âm Đối sánh (tính toán mức độ tương đồng) Âm truy vấn Đánh giá mức độ thích hợp phản hồi Các tiệm cận tìm kiếm liệu âm  Tính chất chung liệu âm   Dung lượng khổng lồ Có chiều thời gian  Con người phân biệt âm     Loại âm thanh: Tiếng nói, âm nhạc, nhiễu . Tốc độ: Nhanh, chậm Tâm trạng: Buồn, vui . Có thể xác định mức độ tương tự hai đoạn âm  Tìm kiếm âm theo tiêu đề tên tệp  Phụ thuộc chủ quan mô tả âm -> không thỏa mãn yêu cầu cụ thể người sử dụng  Tìm kiếm âm theo nội dung   Giải pháp đơn giản đối sánh giá trị mẫu -> không khả thi Trên sở đối sánh đặc trưng trích chọn từ âm Tiệm cận tìm kiếm liệu âm  Phần lớn ứng dụng có tìm kiếm âm theo tên tệp  Không thỏa mãn người sử dụng  Tiệm cận tổng quát tìm kiếm âm theo nội dung   Phân lớp âm thành vài loại chung tiếng nói, âm nhạc nhiễu. Các loại âm khác xử lý mục theo cách khác nhau.   Ví dụ âm tiếng nói áp dụng kỹ thuật nhận dạng tiếng nói sau tìm kiếm âm thông qua tìm kiếm văn Tìm kiếm đoạn âm sở tính tương đồng đặc trưng câu truy vấn đặc trưng CSDL. Trích trọn đặc trưng âm  Sự cần thiết trích chọn đặc trưng âm  Tín hiệu miền thời gian chứa đựng nhiều liệu dư thừa việc phân lớp âm  Việc sử dụng đặc trưng phù hợp mấu chốt việc phân lớp âm phục vụ tìm kiếm  Các đặc trưng tốt làm đơn giản hóa việc thiết kế môđun phân lớp âm MMDBMS  Vậy, sử dụng đặc trưng âm nào? 2. Thuộc tính đặc trưng âm  Hai loại biểu diễn tín hiệu âm   Trong miền thời gian (thời gian - biên độ) Trong miền tần số (tần số - âm lượng).  Các đặc trưng chủ yếu âm trích chọn từ hai loại biểu diễn này.  Biểu diễn miền thời gian hay thời gian - biên độ   Kỹ thuật trình diễn tín hiệu bản: tín hiệu biểu diễn biên độ biến đổi theo thời gian Tính chất    Im lặng (câm) biểu diễn giá trị Giá trị tín hiệu âm hay dương phụ thuộc vào áp suất âm cao hay thấp áp suất cân im lặng. Với 16 bít mã hóa mẫu audio: Giá trị tín hiệu khoảng từ 32767 đến -32767. Ảnh phổ  Ảnh phổ quan hệ ba biến: Nội dung tần số, thời gian biên độ.  Trong 2D thành phần tần số tín hiệu độ xám, cường độ lớn biểu diễn độ xám cao hơn.   Có thể xác định tính xuất vài thành phần tần số từ ảnh phổ tín hiệu. Ảnh phổ âm nhạc tiếng nói. Thí dụ: Phổ ảnh phổ 1. Hai ảnh phổ 0.3 giây đầu 0.3 giây cuối đoạn âm thanh. 2. Ảnh phổ: Thời gian theo trục x, tần số theo trục y, mầu ảnh cường độ âm theo dB (xanh – yếu, đỏ - mạnh) 3. Điều hòa xuất đường thẳng nằm ngang. 4. Năng lượng điều hòa tăng, âm to hơn. 2.4 Đặc trưng âm MFCC  MFCC (Mel Frequency Cepstral Coefficients) hệ số biểu diễn phổ phổ (spectrum-of-a-spectrum) đoạn âm thanh.  Các hệ số ceptral c(k) cách thuận tiện cho việc mô hình hóa phân bổ lượng phổ  Các hệ số ceptral tính toán cho khoảng thời gian ngắn tín hiệu âm thanh.  Hệ số ceptral sử dụng MMDBMS (tìm kiếm âm thanh) nhận dạng tiếng nói. Đặc trưng âm MFCC  Tính toán hệ số MFCC window DFT Audio Log Lọc Mel IDFT Mel-scaled Ceptrum Các bước tính MFCC     Nhấn mạnh tín hiệu (pre-emphasis): Sử dụng lọc số để tăng cường tín hiệu số cao (>1KHz). Tiếng nói suy giảm tai người nhạy cảm tần số cao. Lập cửa sổ tín hiệu (20-30 ms), vùng gối lên 10-12 ms. Biến đổi Fourier rời rạc cửa sổ tín hiệu. Lọc theo thang tần số Mel (Mel-frequency bandpass filter): Mô tính phi tuyến phản ứng tai người thành phần tần số khác (1Khz - loga). Mel ( f ) = 2595. log10 (1 +    f ) 700 Tính loga giá trị lượng (logarit of filter energies): “Nén” giá trị lượng miền giá trị hẹp hơn. Biến đổi Fourier ngược để sinh cepstrum: Làm giảm tương quan giá trị gần nhau. Các hệ số MFCC biên độ phổ kết quả. Đặc trưng âm MFCC  Mel đơn vị độ cao âm (pitch)  Một cặp âm cảm nhận có độ cao giá trị mel chúng nhau.  Mel-scale: Xấp xỉ tuyến tính kHz, loga kHz. 3. Phân lớp âm  Các tính chất tiếng nói âm nhạc Features Bandwidth Speech – kHz Music – 20 kHz Spectral centroid Low High Silence ratio High Low Zero-crossing More variable Less variable Regular bit None Yes HZCRR High Low Phân lớp âm  Các nhóm âm    Tiếng nói Âm nhạc Nhiễu  Phương pháp phân lớp   Phân lớp bước cho tiếng nói âm nhạc. Phân lớp sở véctơ đặc trưng hay sở hệ số MFCC, LPCC, PLP… Audio High centroid? No Music Speech plus music High silence ratio? Yes Yes No Music Speech plus solo music High ZCR variability? Yes Speech No Solo music 4. Nhận dạng tiếng nói  ASR (Automatic Speech Recognition) thực chuyển đổi tín hiệu tiếng nói thành văn bản.  Bản chất ASR vấn đề đối sánh mẫu:   Hệ thống ASR huấn luyện tập mô hình hay véctơ đặc trưng đơn vị tiếng nói. Trong trình nhận dạng, so sánh véctơ đặc trưng tiếng nói vào với véctơ đặc trưng thu thập trình huấn luyện để xác định đơn vị tiếng nói đầu ra.  Đơn vị xử lý sở  Âm vị (Phoneme): Đơn vị âm có ý nghĩa.  ASR đòi hỏi sử dụng tri thức ngôn ngữ   Từ điển từ vựng Ngữ pháp chuỗi từ  Véctơ đặc trưng hay sử dụng: MFCC Mô hình nhận dạng tiếng nói Tiếng nói huấn luyện Tiền xử lý trích chọn đặc trưng Véctơ đặc trưng Mô hình hóa ngữ âm Các từ tương ứng với tiếng nói huấn luyện Tiến trình huấn luyện Tiến trình tìm kiếm Các mô hình âm vị Từ điển ngữ pháp CSDL nhận dạng Tiếng nói vào Tiền xử lý trích chọn đặc trưng Véctơ đặc trưng Tìm kiếm đối sánh Dãy từ Nhận dạng tiếng nói  Khó khăn     Các đặc trưng tần số, độ dài biên độ âm vị tiếng nói phụ thuộc vào người nói, thời gian nói Nhiễu môi trường Khó tách âm vị từ tiếng nói liên tục Các thành phần tần số âm vị thay đổi theo vị trí từ phụ âm xung quanh.  Các kỹ thuật mô hình toán học áp dụng    Căn chỉnh thời gian động (Dynamic Time Warping - DTW ) Mô hình Markov ẩn (Hidden Markov Model - HMM) Mạng nơron nhân tạo (Artificial Neural Networks - ANN) 5. Chỉ số hóa tìm kiếm âm nhạc  Hai loại liệu âm nhạc   Cấu trúc Trên sở mẫu  Âm nhạc cấu trúc     Được biểu diễn tập lệnh hay thuật toán. Khuôn mẫu tệp MIDI Chuẩn: MPEG-4 Structured Audio Tìm kiếm âm sở đối sánh xác, không cần trích chọn đặc trưng từ tín hiệu âm  Âm nhạc sở mẫu  Tìm kiếm âm sở tập đặc trưng trích chọn   Âm lượng, độ cao, độ trong, băng thông hòa âm Biểu diễn độ cao nốt nhạc bới xâu ký tự, sau thực tìm kiếm tương tự. 5. Quan hệ âm với media khác  Âm xuất phận tài liệu hay video  Kỹ thuật mục tìm kiếm  Sử dụng tri thức để hiểu nội dung media khác   Phân đoạn tiếng nói để mục tìm kiếm video tương ứng. Sử dụng quan hệ media để tìm kiếm thông tin đa phương tiện   Câu truy vấn hình thành sở media đơn giản có ý nghĩa nhất. Hệ thống tìm kiếm trình diễn thông tin khác liên quan. 6. Kết luận  Các tiệm cận phân lớp âm  Các kỹ thuật trích chọn đặc trưng âm  Áp dụng nhận dạng tiếng nói vào mục tìm kiếm âm  Tìm kiếm âm nhạc  Tìm kiếm âm hỗ trợ tìm kiếm video. Câu hỏi ôn tập  Tại không thực tế so sánh khoảng cách hai tệp âm tính tổng khác mẫu tương ứng hai tệp này?  Mô tả tiệm cận tổng quát mục tìm kiếm âm sở nội dung.  Mô tả qui trình tổng quát phân biệt âm nhạc tiếng nói.  Có thể phân biệt tín hiệu âm nhạc hay tiếng nói dựa phổ nó?  Liệt kê đặc trưng âm sử dụng MMDBMS mà anh/chị biết. Câu hỏi? [...]... khoảng 0,15 âm nhạc có HZCRR nhỏ hơn 0,1 (IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL 10, NO 7, OCT 2002) Short time Energy and Zero-crossing rate Đặc trưng âm thanh trong miền thời gian  Tỷ lệ câm (Silence Ratio)    Tỷ lệ câm chỉ ra kích thước đoạn âm thanh câm Chú ý hai ngưỡng câm: biên độ và thời gian Tỷ lệ câm được tính bằng tỷ lệ giữa tổng chu kỳ câm và tổng độ dài của đoạn âm thanh 2.2...2.1 Đặc trưng âm thanh trong miền thời gian Biên độ x(n) Thời gian (ms) Đặc trưng âm thanh trong miền thời gian  Năng lượng trung bình (Average Energy)   Năng lượng trung bình chỉ ra mức độ to-nhỏ của âm thanh Cách tính năng lượng trung bình E của đoạn âm thanh: N −1 E= x ( n) 2 ∑ n =0 N N – Tổng số mẫu trong đoạn âm thanh x(n) - giá trị của mẫu n Đặc trưng âm thanh trong miền thời gian... càng cao và bước sóng càng ngắn High Pitch Low Pitch Đặc trưng âm thanh trong miền tần số  Điều hòa (Harmonicity)   Trong âm thanh gọi là điều hòa khi các thành phần phổ là số lần nguyên của tần số thấp nhất (tần số cơ bản) Thí dụ: f, 2f, 3f Âm nhạc thường điều hòa hơn âm thanh khác 2.3 Ảnh phổ  Biểu diễn biên độ-thời gian và biên độ-tần số là hai cách biểu diễn đơn giản của tín hiệu âm thanh ... giá trị gần nhau Các hệ số MFCC là các biên độ của phổ kết quả Đặc trưng âm thanh MFCC  Mel là đơn vị độ cao âm thanh (pitch)  Một cặp âm thanh cảm nhận có độ cao như nhau nếu giá trị mel của chúng như nhau  Mel-scale: Xấp xỉ tuyến tính dưới 1 kHz, và loga trên 1 kHz 3 Phân lớp âm thanh  Các tính chất chính của tiếng nói và âm nhạc Features Bandwidth Speech 0 – 7 kHz Music 0 – 20 kHz Spectral centroid... thời gian ngắn của tín hiệu âm thanh  Hệ số ceptral được sử dụng trong MMDBMS (tìm kiếm âm thanh) và trong nhận dạng tiếng nói Đặc trưng âm thanh MFCC  Tính toán các hệ số MFCC window DFT Audio Log Lọc Mel IDFT Mel-scaled Ceptrum Các bước tính MFCC     Nhấn mạnh tín hiệu (pre-emphasis): Sử dụng bộ lọc số để tăng cường tín hiệu tại tấn số cao (>1KHz) Tiếng nói suy giảm và tai người ít nhạy cảm hơn... trung bình trong cửa sổ 1s âm thanh Tiếng nói có LSTER trong khoảng 0,15 đến 0,5 Âm nhạc có LSTER có giá trị thấp hơn 0,15 Đặc trưng âm thanh trong miền thời gian  Tốc độ vượt qua 0 (Zero Crossing Rate - ZCR)   Chỉ ra tần số biến đổi dấu tín hiệu hay tổng số lần tín hiệu thay đổi dấu của đoạn âm thanh (tần số trung bình của tín hiệu) Tính tốc độ vượt qua 0 của đoạn âm thanh ZCR: N ZCR = ∑ | sgn... theo trục x, tần số theo trục y, mầu ảnh chỉ ra cường độ âm thanh theo dB (xanh – yếu, đỏ - mạnh) 3 Điều hòa xuất hiện như các đường thẳng nằm ngang 4 Năng lượng của mỗi điều hòa đều tăng, do vậy âm thanh càng to hơn 2.4 Đặc trưng âm thanh MFCC  MFCC (Mel Frequency Cepstral Coefficients) là các hệ số biểu diễn phổ của phổ (spectrum-of-a-spectrum) của đoạn âm thanh  Các hệ số ceptral c(k) là cách thuận... Đặc trưng âm thanh trong miền tần số  Băng thông (Bandwidth)    Băng thông chỉ ra dải tần số của âm thanh Tín hiệu nhạc thường có băng thông cao hơn tín hiệu tiếng nói Cách tính:   Hiệu của tần số cao nhất và tần số thấp nhất của các thành phần phổ khác 0 Thành phần phổ khác 0 là thành phần có giá trị ít nhất là 3dB trên mức câm  Cao độ (Pitch)   Thuộc tính cảm nhận các tần số âm thanh còn... phổ  Ảnh phổ chỉ ra quan hệ giữa ba biến: Nội dung tần số, thời gian và biên độ  Trong 2D thành phần tần số của tín hiệu được chỉ ra bằng độ xám, cường độ lớn hơn biểu diễn bởi độ xám cao hơn   Có thể xác định tính xuất hiện đều của một vài thành phần tần số từ ảnh phổ tín hiệu Ảnh phổ âm nhạc đều hơn tiếng nói Thí dụ: Phổ và ảnh phổ 1 Hai ảnh phổ 0.3 giây đầu và 0.3 giây cuối đoạn âm thanh 2 Ảnh... tổng chu kỳ câm và tổng độ dài của đoạn âm thanh 2.2 Đặc trưng âm thanh trong miền tần số  Biểu diễn âm thanh trong miền thời gian không thể hiện được các thành phần tần số và phân bổ tần số của tín hiệu âm thanh  Biểu diễn tín hiệu trong miền tần số bằng biến đổi Fourier  Tín hiệu được biểu diễn như sự biến đổi của biên độ theo tần số (chỉ ra năng lượng tại các tần số khác nhau)  Biểu diễn miền . thi  Trên cơ sở đối sánh các đặc trưng trích chọn từ âm thanh 7/45 dvduc-2005/1 4Bài 5: Chỉ mục và tìm kiếm âm thanh Tiệm cận tìm kiếm dữ liệu âm thanh  Phần lớn các ứng dụng đang có là tìm kiếm âm thanh. trưng âm thanh nào? dvduc-2005/1 4Bài 5: Chỉ mục và tìm kiếm âm thanh9 /45 dvduc-2005/1 4Bài 5: Chỉ mục và tìm kiếm âm thanh 2. Thuộc tính và đặc trưng âm thanh  Hai loại chính biểu diễn tín hiệu âm. 2005/14 CHỈ MỤC VÀ TÌM KIẾM ÂM THANH Bài 5 PGS.TS. Đặng Văn Đức dvduc@ioit.ac.vn dvduc-2005/1 4Bài 5: Chỉ mục và tìm kiếm âm thanh Nội dung  Giới thiệu về tìm kiếm âm thanh  Các thuộc tính và đặc

Ngày đăng: 27/09/2015, 08:13

Từ khóa liên quan

Mục lục

  • Slide 1

  • Nội dung

  • 1. Giới thiệu

  • Giới thiệu

  • Giới thiệu

  • Giới thiệu

  • Các tiệm cận tìm kiếm dữ liệu âm thanh

  • Tiệm cận tìm kiếm dữ liệu âm thanh

  • Trích trọn đặc trưng âm thanh

  • 2. Thuộc tính và đặc trưng âm thanh

  • 2.1 Đặc trưng âm thanh trong miền thời gian

  • Đặc trưng âm thanh trong miền thời gian

  • Đặc trưng âm thanh trong miền thời gian

  • Đặc trưng âm thanh trong miền thời gian

  • Đặc trưng âm thanh trong miền thời gian

  • Đặc trưng âm thanh trong miền thời gian

  • Đặc trưng âm thanh trong miền thời gian

  • Đặc trưng âm thanh trong miền thời gian

  • Short time Energy and Zero-crossing rate

  • Đặc trưng âm thanh trong miền thời gian

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan