Báo cáo khoa học: "mã tín hiệu điện thoại" ppt

4 140 1
Báo cáo khoa học: "mã tín hiệu điện thoại" ppt

Đang tải... (xem toàn văn)

Thông tin tài liệu

mã tín hiệu điện thoại KS. đào thanh toản Bộ môn Kỹ thuật Điện tử - ĐH GTVT Tóm tắt: Mã hoá PCM truyền thống tốc độ bít l 64Kbps l phơng pháp mã hoá đợc sử dụng từ lâu, đây l phơng pháp có chất lợng mã hoá cao song băng tần truyền dẫn lại lớn. Mã hoá tham số nguồn hiện nay đã đến giai đoạn hon thiện về mặt kỹ thuật với tốc độ bit rất thấp khoảng từ 4 đến13 Kbps đã v đang ứng dụng cho các dịch vụ viễn thông hiện đại nh VoIP, thông tin di động, đIện thoại internet, iPAS Bi báo nghiên cứu nguyên lý của mã hoá tham số nguồn dựa trên tính chất của tín hiệu tiếng nói v phơng pháp lợng tử hoá vector. Summary: The conventional coding method PCM - 64 Kbps has long been in use. It has high coding quality but its transmission bandwidth is great. The source parameter vocoder is perfect in terms of technology with very low bit speed of 4 to 13 Kbps, which is being applied in advanced telecoms services, such as VoIP, mobile information, Internet Telephony, iPAS The newspaper presents the principles of source parameter coding based on characteristics of voice signal and vector quantification method. 1. Mô hình cơ quan phát âm v các tính chất của tín hiệu tiếng nói Quá trình phát âm đợc mô hình hoá là một mạch cộng hởng có tần số cộng hởng khác nhau, đợc kích thích bằng chuỗi xung tuần hoàn hay nguồn nhiễu ngẫu nhiên (hình 1). Hàm truyền mạch lọc: H(z) = = p 1k k k za1 G (1) G - tham số khuếch đại của bộ lọc; a k - các tham số của bộ lọc; P - bậc của bộ lọc thông thờng giá trị này là 10 (GSM, LD-CELP). Bộ lọc này còn có tên là bộ lọc dự đoán tuyến tính LPC[1,3]. Tín hiệu tiếng nói có một số tính chất có thể khai thác đợc khi tiến hành mã hoá tín hiệu nh sau: - Tính chất quan trọng nhất mà tất cả các bộ mã hoá khai thác đó là tính chất dải tần hạn chế:16 Hz - 20 kHz [1]. Một độ rộng dải tần giới hạn có nghĩa là nó có thể đợc rời rạc hoá về mặt thời gian với một tốc độ giới hạn và đợc khôi phục lại hoàn toàn đầy đủ từ các mẫu của nó với điều kiện thoả mãn điều kiện lấy mẫu Nyquiet, áp dụng cho phơng pháp mã hoá vùng thời gian (PCM, ADPCM). - Tính chất thờng dùng nhất là sự phân bố xác suất không đều của biên độ tiếng nói, có sự tự tơng quan giữa các mẫu liên tiếp, bản chất không phẳng của phổ tín hiệu tiếng nói sự tồn tại của các thành phần âm kêu (voiced) và âm không kêu (unvoiced) và tính chất tựa tuần hoàn của các tín hiệu tiếng nói, áp dụng cho phơng pháp mã hoá tham số nguồn (CELP) [1], [2]. Phân tích bản chất của quá trình phát âm không những giúp cho việc mã hoá tín hiệu tiếng nói mà còn đóng vai trò quan trọng trong quá trình tổng hợp tiếng nói, và nhận dạng tiếng nói. Cả ba lĩnh vực công nghệ này đang đợc các nhà khoa học rất quan tâm. 2. Phân loại Bộ mã hoá tiếng nói đợc phân thành hai loại lớn: bộ mã hoá dạng sóng và bộ mã hoá tham số nguồn. Bộ mã hoá dạng sóng nhằm tạo ra dạng sóng thời gian của tín hiệu tiếng nói càng giống với tín hiệu ban đầu càng tốt nh PCM (điều chế xung mã), ADPCM (PCM vi sai thích nghi ), chúng đợc thiết kế độc lập với nguồn tín hiệu (có nghĩa là có thể áp dụng cho cả loại tín hiệu khác) nên chất lợng không phụ thuộc nhiều vào nguồn tín hiệu. u điểm là chất lợng ổn định với phạm vi rộng của các đặc trng tiếng nói và các môi trờng có độ ồn khác nhau. Tuy nhiên băng tần truyền dẫn lại lớn, cho nên sẽ không khả thi trong môi trờng mạng viễn thông có giới hạn về băng tần. Phơng pháp mã hoá tham số nguồn: đây là phơng pháp mã hoá dựa trên bản chất của tín hiệu tiếng nói, các phơng pháp hay dùng: LD-CELP, CS-ACELP, Q-CELP. Nhìn chung các phơng pháp này đạt đợc hiệu quả về mặt băng tần tuy nhiên chất lợng của chúng phụ thuộc nhiều vào ngời nói, và các bộ vi xử lý phảI có tốc độ thì mới thực hiện đợc, kỹ thuật mã hoá vẫn đang trong quá trình hoàn thiện. Còn mã hoá tham số nguồn, các bộ mã hoá và giải mã có cùng chung một quyển sách mã (codebook) đã xác định trớc, đợc đánh chỉ số (giống nh có một quyển từ điển) chữa thông tin đơn vị gọi là các vector, một vector bao gồm: tín hiệu ngẫu nhiên (nhiễu trắng) (unvoiced), chuỗi xung (voiced), thông tin về cao độ của âm (pitch), thông tin về các tham số bộ lọc (tham số a 3. Phơng pháp mã hoá tham số nguồn Các hệ thống xử lý tín hiệu tiếng nói nói chung gồm các quá trình chính: Số hoá -> xử lý tín hiệu số -> bit truyền Phơng pháp lợng tử hoá truyền thống nh PCM: rời rạc hoá với tần số 8 kHz, sau đó lợng tử với mỗi mẫu 8 bit theo các luật nén giãn A hay i ), thông tin về biên độ (G) các thông tin này có đợc là nhờ quá trình luyện tập, thống kê với nhiều ngời và nhiều ngôn ngữ khác nhau, vector giống nh một từ trong quyển từ điển [4], [5]. Trong mỗi khoảng lợng tử hoá, bộ mã hoá tìm trong sổ mã (codebook) của nó một mã, mà mã này cho cảm nhận tốt nhất hoà hợp với âm Cơ vòng Miệng Buồng cộng hởng Thanh quản Bức xạ Loa Khuếch đại: G Cộng hởng Nguồn nhiễu ngẫu nhiên Bộ dao động tích thoát Nguồn âm Nguồn không âm răng Qúa trình phát âm Mô phỏng quá trình pháp âm Địa chỉ đợc số hoá và truyền đi Hình 1. Mô hình cơ quan phát âm v một mẫu âm thanh: "A" giai đoạn kết thúc âm thu đợc từ chơng trình nghiên cứu của tác giả. thanh, khi dùng nh một bộ kích thích đầu vào của bộ lọc dự đoán tuyến tính LPC (Linear Prediction Code), chỉ số sổ mã khi có hoà hợp tốt nhất, thì chỉ số của vector này sẽ đợc mã hoá và phát đi. Phía thu căn cứ vào các chỉ số này để "lấy" ra các tham số của vector tơng ứng và đa đến bộ tổng hợp để tạo ra tín hiệu hồi phục (hình 2). Các phơng pháp mã hoá tham số nguồn khác có điểm khác chính là phơng pháp tìm vector trong sổ mã. Để tìm các giá trị tối u, ta thực hiện việc tìm giá trị đó sao cho sai số trung bình bình phơng MSE (Mean Square Error) là nhỏ nhất (cực tiểu hoá). Có nhiều đề xuất cho giải thuật tìm giá trị tối u này nh sử dụng phơng thức tự tơng quan, phơng thức đồng phơng sai tuy nhiên phơng thức tự tơng quan với giải thuật Levinson - Durbin hay đợc dùng hơn cả vì nó phù hợp với phơng pháp lập trình cấu trúc. Nội dung nh sau: Ma trận của tham số phỏng đoán tuyến tính LPC có dạng: ( = p 1k nk kiRa ) = R n (i) (2) với i = 1, , p Khởi tạo: E 0 = R(0) (3) k = (4) 1i 1i 1j 1i j E/)ji(Ra)i(R = với i = 1, , p i i a = k i (5) = - k i j a 1i j a i 1i ji a (6) E i = ( ) 1i2 i Ek1 (7) quá trình trên lặp đi lặp lại cho đến khi: a j = với j =1, , p (8) p j a (Xem tiếp trang 72) R(i) = , tơng quan của mẫu phỏng đoán và mẫu cần mã hoá. = N in )in(S)n(S Kết quả phép tính tìm đợc a k của (1). Lý do băng tần giảm đợc bởi khung thời gian quan sát tín hiệu của nó thờng từ (10 - 30) ms, khác với PCM là 10 -3 ms, số bit lập mã trung bình một mẫu thấp hơn phơng pháp vùng thời gian nhiều lần nh GSM, QCELP (13 Kbps): 260/160 = 1,625 bít/mẫu < 8bit/mẫu (PCM). 4. Phơng pháp thực hiện Dạng tín hiệu rời rạc t Một vectơ j Hình 2. Mô hình hoá của lợng tử hoá vector. Địa chỉ đợc số hoá và truyền đi i Nh đã phân tích mã hoá tốc độ thấp có ứng dụng trong rất nhiều dịch vụ viễn thông, chúng đợc chia làm hai mảng lớn. Với các đầu cuối của thiết bị cầm tay, xử lý tín hiệu tiếng nói do một chip đảm nhận, sổ mã sẽ đợc nạp vào bộ nhớ chỉ đọc (ROM) của vi xử lý, thuật toán phức tạp và ý nghĩa thực tiễn của truyền tiếng nói là thời gian thực cho nên các chip phải đạt tốc độ nào đó mới thực hiện đợc thông thờng khoảng (10 - 30) MIPS (đơn vị triệu phép tính trên giây). Với các hệ thống đi cùng các ứng dụng khác nh đồ gia dụng nối mạng, máy tính tín hiệu tiếng nói đợc số hoá nhờ cạc âm thanh hay thiết bị giao tiếp, và thuật toán thực hiện chủ yếu bằng phần mềm dựa trên các hàm hệ thống của hệ điều hành nh hệ điều hành Window đã co sẵn hàm cho nén theo chuẩn GSM, hoặc cũng có thể xây dựng các modul riêng tạo thành chơng trình ứng dụng cụ thể. Hiện nay trên mạng có rất nhiều các mhóm làm việc chuyên về xử lý tín hiệu tiếng nói nh Tổ chức Freely speak, Nhóm làm việc của microsoft, nhóm làm việc của ITU-T, các sản phẩm đợc dùng phổ biến hiện nay, tất cả đều miễn phí sử dụng: Yahoo messenger (www.messenger.yahoo.com) IP telephony(www.iptelphone.com), Freelyspeak(www.freelyspeak.org). 5. Kết luận Với sự phát triển mạnh của công nghệ chế tạo phần cứng xử lý tín hiệu số nói chung và xử lý tín hiệu tiếng nói riêng cũng đạt đợc rất nhiều thành tựu, giúp cho thực hiện đợc các thuật toán tinh vi phức tạp. Kết quả này không những thực hiện đợc cho các thiết bị đầu cuối đa năng mà còn góp phần quyết định cho các lý thuyết viễn thông đi vào thực tế chẳng hạn nh điện thoại di động thế hệ thứ ba (3G), điện thoại IP đa dịch vụ qua vệ tinh, hệ thống thông tin truy nhập cá nhân (iPAS) Gần đây ngời ta còn chú ý nhiều đến việc áp dụng kỹ thuật phân tích Walets vào lĩnh vực xử lý tín hiệu số trong đó có tín hiệu tiếng nói (các phơng thức đã trình bày chỉ là áp dụng các biến đổi Furier truyền thống), góp phần hoàn thiện cho kỹ thuật mã hoá này, tốc độ mã hoá ngày càng thấp hơn và chất lợng ngày càng tốt hơn. Tài liệu tham khảo [1]. R. W Schafer & L. R. Rabiner Digital Processing of Speech Signals. ISBN Editor,1976. [2]. Biing Hwang Juang. Fundamentals of Speech Recognition. ISBN Editor,1990. [3]. www.lab-bells.com [4]. www.itu-t.int [5]. www.eee.wasshington.eduĂ . tuyến tính LPC[1,3]. Tín hiệu tiếng nói có một số tính chất có thể khai thác đợc khi tiến hành mã hoá tín hiệu nh sau: - Tính chất quan trọng nhất mà tất cả các bộ mã hoá khai thác đó là tính. thời gian của tín hiệu tiếng nói càng giống với tín hiệu ban đầu càng tốt nh PCM (điều chế xung mã), ADPCM (PCM vi sai thích nghi ), chúng đợc thiết kế độc lập với nguồn tín hiệu (có nghĩa. thông hiện đại nh VoIP, thông tin di động, đIện thoại internet, iPAS Bi báo nghiên cứu nguyên lý của mã hoá tham số nguồn dựa trên tính chất của tín hiệu tiếng nói v phơng pháp lợng tử hoá vector.

Ngày đăng: 06/08/2014, 05:21

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan