Kỹ thuật điều xung mã PCM trong mã hoá giọng nói

16 1K 2
Kỹ thuật điều xung mã PCM trong mã hoá giọng nói

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tìm hiểu về kỹ thuật điều xung mã PCM trong mã hoá giọng nói

KỸ THUẬT ĐIỀU XUNG PCM TRONG HÓA GIỌNG NÓI I. Giới thiệu chung : Tiếng nói là phương tiện chủ yếu con người sử dụng để liên lạc và giao tiếp hằng ngày. Ngày nay khi các phương tiện truyền thông phát triển và số người sử dụng các phương tiện liên lạc tăng lên thì hoá tiếng nói được nghiên cứu và ứng dụng rộng rãi trong các cuộc gọi điện thoại truyền thống, gọi qua mạng di dộng, qua mạng Internet, qua vệ tinh, v.v . Mặc dù với sự phát triển của công nghệ truyền thông qua cáp quang đã làm cho băng thông không còn là vấn đề lớn trong giá thành của các cuộc gọi truyền thống. Tuy nhiên, băng thông trong các cuộc gọi đường dài, các cuộc gọi quốc tế, các cuộc gọi qua vệ tinh hay các cuộc gọi di động thì cần phải duy trì băng thông ở một mức nhất định. Vì vậy việc hoá tiếng nói là rất cần thiết, giúp giảm thiểu số lượng tín hiệu cần truyền đi trên đường truyền nhưng vẫn đảm bảo chất lượng của cuộc gọi. 1. Quá trình phát âm của con người : Mô hình cơ học cơ quan phát âm của con người Khi không khí bị ép từ phổi lên đi qua các dây thanh âm dao động (theo sự điều khiển của não bộ) và đi dọc theo cơ quan phát âm sẽ tạo ra tiếng nói. Sự dao động của các dây thanh âm tạo ra sự đóng mở tương tự như một cánh cửa (thanh môn). Sự đóng mở này sẽ làm cho luồng không khí từ phổi đi lên bị ngắt quãng khác nhau, làm cho tiếng nói tạo ra cũng khác nhau. Ngoài sự tác động của các dây thanh âm, tiếng nói tạo ra còn phụ thuộc vào sự thay đổi của cơ quan phát âm gồm: vòm họng, lưỡi, miệng, khoang mũi và mũi. Với mô hình cơ học như trên, có thể biểu diễn cơ quan phát âm bằng một mô hình gần đúng gồm các hình trụ có độ dài bằng nhau nhưng có đường kính khác nhau . Mô hình dạng ống của cơ quan phát âm người Chính hình dáng này đã tạo ra sự cộng hưởng âm thanh và các tần số cộng hưởng này gọi là các tần số formant. Các tần số này tạo ra các âm vị khác nhau tuỳ theo hình dáng cơ quan phát âm. Mô hình này có thể được biểu diễn một cách chính xác bằng một tập hợp các phương trình toán học [5]. Trong quá trình phát âm người ta thấy rằng hình dáng cơ quan phát âm thay đổi rất chậm , do đó trong một khoảng thời gian ngắn (trong một âm vị) có thể xem như sự thay đổi là không đáng kể. Vì vậy ta có thể biểu diễn cơ quan phát âm bằng một hệ thống tuyến tính bất biến theo thời gian; có nghĩa là suốt trong một âm vị, các tham số của hệ thống này sẽ gần như không đổi nhưng chúng sẽ thay đổi rất lớn từ âm vị này sang âm vị khác. 2. Các tính chất cơ bản của tiếng nói: Trong kỹ thuật hoá tiếng nói, dựa vào sự dao động của các dây thanh âm người ta chia tiếng nói ra thành hai loại âm chính sau đây: + Âm hữu thanh (voiced sound): âm hữu thanh được tạo ra khi các dây thanh âm dao động đóng mở làm ngắt quãng luồng không khí và sự ngắt quãng này được xem gần như là tuần hoàn tác động lên cơ quan phát âm. Theo thực nghiệm chu kì tuần hoàn này khoảng từ 2 -20ms. Do đó với âm hữu thanh, tín hiệu kích thích được mô hình hoá là các xung tuần hoàn. + Âm vô thanh (unvoiced sound): âm vô thanh được tạo ra khi luồng không khí đi qua thanh môn tác động lên cơ quan phát âm không theo một qui luật nào cả (không tuần hoàn). Do đó với âm vô thanh, tín hiệu kích thích được mô hình hoá tương tự như một nhiễu. + Formant là tần số cộng hưởng cơ bản của cơ quan phát âm,nó phụ thuộc vào cỡ,hình dạng của toàn bộ cơ quan phát âm. Năng lượng của những tần số này được tăng cường do có sự phản xạ đồng thời của các thành phần khác,còn năng lượng ở những thành phần tần số khác có khuynh hướng suy giảm đặc biệt là tại các tần số triệt tiêu ,năng lượng bị làm nhụt. Quan sát trên máy phân tích phổ tần số cộng hưởng formant xuất hiện như một cái bướu Dạng sóng âm của tiếng nói Ngôn ngữ khác nhau trên thế giới chỉ là sự khác nhau giữa các tần số formant cho nên để xây dựng một hệ thống hóa tham số nguồn hiệu quả thì cần phải gắn cả yếu tố dân tộc ,ngôn ngữ vào đó. Phân tích bản chất quá trình phát âm không những giúp việc hóa tín hiệu tiếng nói còn đóng vai trò quan trọng trong quá trình tổng hợp tiếng nói , và nhận dạng tiếng nói.Cả ba lĩnh vực công nghệ này đều đang được Việt Nam rất quan tâm. 3. Sự phân tầng bộ hóa giọng nói: Mô hình phân tầng bộ hóa tiếng nói hoá dạng sóng: người ta chia hoá dạng sóng ra làm hai loại chínhTrong miền thời gian: hoá điều biến xung (PCM), điều biến xung sai lệch (DPCM) và điều biến xung sai lệch thích nghi (ADPCM).Trong miền tần số: hoá băng con SBC (subband coding) và hoá biến đổi thích nghi ATC (Adaptive Transform Coding). hoá nguồn sử dụng mô hình quá trình tạo ra nguồn tín hiệu và khai thác các thông số của mô hình này để hoá tín hiệu. Những thông số của mô hình sẽ được truyền đến bộ giải mã. Đối với tiếng nói, các bộ hoá nguồn được gọi là vocoder hoạt động dựa trên mô hình cơ quan phát âm như đã nói ở trên và được kích thích với một nguồn nhiễu trắng đối với các đoạn tiếng nói vô thanh hoặc được kích thích bằng một dãy xung có chu kì bằng chu kì pitch đối với đoạn tiếng nói hữu thanh. Do đó thông tin được gởi đến bộ giải là các thông số kỹ thuật của bộ lọc, một thông tin chỉ định đoạn tiếng nói là hữu thanh hay vô thanh, sự thay đổi cần thiết của tín hiệu kích thích và chu kì pitch nếu đó là đoạn tiếng nói hữu thanh. Có nhiều kỹ thuật để hoá nguồn như: hoá kênh, hoá formant, hoá tham số và hoá đồng hình. Tuy nhiên, hiện nay chủ yếu tập trung vào nghiên cứu và phát triển các bộ hoá tham số như hoá dự đoán tuyến tính kích thích bằng hai trạng thái (mã hoá LPC), hoá dự đoán tuyến tính có sự kích thích kết hợp MELP và hoá dự đoán tuyến tính kích thích bằng tín hiệu sau dự đoán RELP. Các bộ hoá tham số này thường dùng cho điện thoại qua vệ tinh và trong quân đội. Ngoài ra còn có hóa lai, hóa lai có nhiều phương pháp nhưng phương pháp phổ biến nhất là hoá phân tích bằng cách tổng hợp AbS (Analysis-by-Synthesis). Bộ hoá này cũng sử dụng mô hình cơ quan phát âm của người giống như hoá nguồn. Tuy nhiên, thay vì sử dụng các mô hình tín hiệu kích thích đơn giản như hoá nguồn thì ở đây tín hiệu kích thích được chọn sao cho cố gắng đạt được dạng sóng tiếng nói tái tạo càng giống với dạng sóng tiếng nói ban đầu càng tốt. Đây chính là đặc tính phân biệt sự khác nhau giữa các bộ hoá kiểu AbS. Thuật toán tìm ra dạng sóng kích thích này quyết định tới độ phức tạp của bộ hoá. Chất lượng tiếng nói so với tốc độ bit của các bộ hóa II. hóa điều biến xung PCM : hóa là quá trình biến đổi các giá trị rời rạc thành các tương ứng . Nhìn chung,việc lấy mẫu liên quan tới quá trình biến đổi các tín hiệu liên tục thành các tín hiệu rời rạc của trường thời gian gọi là PAM(điều chế biên độ xung). Việc hóa là quá trình lượng tử hóa các giá trị mẫu này thành các giá trị rời rạc của trường biên độ và sau đó biến đổi chúng thành nhị phân hay các ghép kênh. Khi truyền thông tin ,nhiều xung được yêu cầu cho mỗi giá trị lấy mẫu và vì thế độ rộng dải tần số cần thiết cho truyền dẫn phải được mở rộng. Đồng thời xuyên âm,tạp âm nhiệt, được sinh ra trong lúc tiến hành lấy mẫu và hóa. Việc giải là quá trình khôi phục các tín hiệu đã hóa thành các tín hiệu PAM được lượng tử hóa. Mặt khác quá trình lượng tử hóa,nén và hóa các tín hiệu PAM được gọi là quá trình hóa và quá trình chuyển đổi các tín hiệu PAM thành D/A,sau đó, lọc chúng sau khi giãn để đưa về tiếng nói ban đầu gọi là quá trình giải mã. Cấu hình cơ sở của hệ thống truyền dẫn PCM đối với việc thay đổi các tín hiệu tương tự thành các tín hiệu xung để truyền dẫn được th hin hỡnh di. Trc tiờn cỏc tớn hiu u vo c ly mu mt cỏch tun t ,sau ú c lng t húa húa thnh cỏc giỏ tr ri rc trờn trc biờn .Cỏc giỏ tr lng t húa c trng bi cỏc mó nh phõn. Cỏc mó nh phõn ny c mó húa thnh cỏc dng mó thớch hp tựy theo c tớnh ca ng truyn dn. Thiết bị đầu cuối hoá chuyển đổi các tín hiệu thông tin nh tiếng nói thành các tín hiệu số nh PCM. Khi các tín hiệu thông tin là các tín hiệu tơng tự, việc chuyển đổi A/D đợc tiến hành và việc chuyển đổi D/D đc tiến hành ở trờng hợp của các tín hiệu số. Đôi khi, quá trình nén và hoá băng tần rộng đợc tiến hành bằng cách triệt sự d thừa trong quá trình tiến hành chuyển đổi A/D hoặc D/D). 1. Uniform PCM (PCM u): Vi mt b lng t dựng N bit t mó,min giỏ tr lng t c chia thnh 2 N mc, mi t mó N bit tng ng vi 1 giỏ tr. Khong cỏch gia cỏc mc gi l bc lng t. Cỏc giỏ tr lng t cỏch u nhau. Bc lng t phi c chn sao cho nh cú th ti thiu nhiu lng t nhng phi ln min giỏ tr ca c b lng t l thớch hp.Nu N khụng ln thỡ vic ct xộn tớn hiu vt qua min giỏ tr s xy ra nhiều hơn. Và chất lượng không phụ thuộc vào bước lượng tử còn phụ thuộc vào độ của tín hiệu lấy mẫu.Thông thường để đảm bảo chất lượng tiếng nói cần N cỡ 11 bit trở lên. Điều này làm tốc độ bit lớn nên PCM đều ít được sử dụng trong thực tế.Ta sẽ không đi sâu vào tìm hiểu cách hóa này sẽ tìm hiểu về PCM đối số( logarithm PCM). 2. Logarithm PCM ( PCM đối số): Mục tiêu của phương pháp này là duy trì một tỷ số SNR ít thay đổi trong phạm vi giá trị biên độ. Là một quá trình nén ,làm giảm miền giá trị đầu vào một cách đáng kể ,sau đó để giải nén là một quá trình mũ hóa để tái tạo lại tín hiệu nguyên thủy ban đầu. Quy trình : a. Lấy mẫu : Nguyên tắc cơ bản của điều xung là quá trình chuyển đổi các tín hiệu liên tục như tiếng nói thành tín hiệu số rời rạc và sau đó tái tạo chúng lại thành thông tin ban đầu. Để tiến hành việc này ,các phần tử thông tin được rút ra từ các tín hiệu tương tự một cách tuần tự. Quá trình này được gọi là công việc lấy mẫu Theo thuyết lấy mẫu của Shannon,các tín hiệu ban đầu có thể được khôi phục khi tiến hành công việc lấy mẫu trên các phần tử tín hiệu được truyền đi ở chu kỳ hai lần nhan hơn tần số cao nhất. Nói cách khác ,khi độ rộng dải tần của tín hiệu được truyền đi gọi là BW,tỷ lệ lấy mẫu tới hạn là tỷ lệ Nyquitst trở thành Rmax = 2 x BW. Các tín hiệu xung lấy mẫu là tín hiệu dạng sóng chu kỳ k,là tng cỏc tớn hiu súng hi cú ng bao hm s sin i vi cỏc tn s. b. Lng t húa : PAM vi biờn tng t chuyn i thnh cỏc tớn hiu s l cỏc tớn hiu ri rc sau khi i qua quỏ trỡnh lng t húa. Khi ch th biờn ca ting núi liờn tc vi s lng hn ch,nú c c trng vi dng súng xp x ca bc. Tp õm lng t NQ = Q S tn ti gia dng súng ban u (S) v dng súng lng t (Q), nu bc nh tp õm lng t c gim i nhng s lng bc u cn thit cho lng t ton b di tớn hiu u vo tr nờn rng hn. Vỡ th s lng cỏc dóy s mó húa tng lờn. Tp õm to ra khi biờn ca cỏc tớn hiu u vo vt qua dóy lng t gi l tp õm quỏ ti hay tp õm bóo hũa. S/NQ c s dng nh mt n v ỏnh giỏ nhng u im v nhc im ca phng phỏp PCM. Khi s lng cỏc dóy s mó húa trờn mi mu tng lờn 1 bit,S/NQ c m rng thờm 6dB. c. S nộn v gión : Nh phơng pháp tiến hành hoá hoặc giải mã, đờng, không phải đờng và đánh giá có thể đợc lựa chọn theo các kiểu của nguồn thông tin. đờng là một quá trình triệt số lợng tạp âm lợng tử sinh ra trên thông tin đợc gửi đi bất chấp mức đầu vào. Nó đợc sử dụng trong một hệ thống ở đó giá trị tuyệt đối của số lợng tạp âm là tới hạn hơn S/NQ. không phải là đờng đợc sử dụng rộng dãi trong một hệ thống ở đó S/N của hệ thống thu đợc quan trọng hơn số lợng tuyệt đối của tạp âm nh tiếng nói. Khi bớc lợng tử là một hằng số, S/N thay đổi theo mức tín hiệu. Chất lợng gọi trở nên xấu hơn khi mức tín hiệu thấp. Vì thế đối với các tín hiệu mức thấp, bớc lợng tử đợc giảm và đối với các tín hiệu mức cao nó đợc tăng để ít hoặc nhiều cân bằng S/N với mức tín hiệu đầu vào. Những vấn đề trên đợc tiến hành bằng cách nén biên độ. Một cách lý tởng, đối với các tín hiệu mức thấp đờng cong nén . gian: mã hoá điều biến xung mã (PCM) , điều biến xung mã sai lệch (DPCM) và điều biến xung mã sai lệch thích nghi (ADPCM) .Trong miền tần số: mã hoá băng. pitch nếu đó là đoạn tiếng nói hữu thanh. Có nhiều kỹ thuật để mã hoá nguồn như: mã hoá kênh, mã hoá formant, mã hoá tham số và mã hoá đồng hình. Tuy nhiên,

Ngày đăng: 22/08/2013, 02:00

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan