Tiểu luận môn xử lý số nâng cao Nén tín hiệu tiếng nói bằng phương pháp mã hóa băng con

32 575 2
Tiểu luận môn xử lý số nâng cao Nén tín hiệu tiếng nói bằng phương pháp mã hóa băng con

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tiểu luận môn xử lý số nâng cao Nén tín hiệu tiếng nói bằng phương pháp mã hóa băng con. Chương 1 : Cơ sở lý thuyết nén tín hiệu Chương 2 : Nén và xử lý số tín hiệu tiếng nói Chương 3 : Nén tín hiệu tiếng nói bằng phương pháp mã hóa băng con

Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh Mục Lục 3.5. Thiết kế mạch lọc 29 3.5 1 Lấy mẫu dới 30 3.4.2 Lấy mẫu trên 33 3.6. Kết luận 34 Lời nói đầu Hiện nay, việc số hoá các hệ thống thông tin liên lạc đã và đang đợc thực hiện mạnh mẽ ở trên thế giới cũng nh ở Việt nam. Chính vì vậy mà xử lý tín hiệu và lọc số đã trở thành một lĩnh vực khoa học khá quan trọng. Nó đợc phát triển nhanh chóng bởi sự ra đời các vi mạch điện tử cỡ lớn VLSI làm nền tảng cho sự phát triển của phần cứng số chuyên dụng giá thành rẻ, kích thớc nhỏ gọn, tốc độ tính toán cao, mềm dẻo linh hoạt, đáng chú ý là các chip chuyên cho xử lý số tín hiệu. ứng dụng của lĩnh vực khoa học này là rất to lớn, nh xử lý tiếng nói, xử lý ảnh, Từ lâu, lĩnh vực nén tín hiệu tiếng nói đã đợc các nhà khoa học rất quan tâm nghiên cứu để ứng dụng cho mục đích quân sự, sau này phát triển cho cả các mục đích chung khác. Những kiến thức cơ bản về xử tín hiệu và lọc số là rất cần thiết để tiếp cận với ngành khoa học này. Nội dung của tiểu luận sẽ đề cập đến vấn đề nén tín hiệu tiếng nói và ứng dụng xử lý số để nén tín hiệu tiếng nói, bao gồm các phần sau: Chơng1: Cơ sở lý thuyết nén tín hiệu Chơng 2: Nén và xử lý số tín hiệu tiếng nói. Chơng 3: Nén tín hiệu tiếng nói bằng phơng pháp mã hoá băng con Em xin chân thành cảm ơn thầy giáo TS.Nguyễn Ngọc Minh đã nhiệt tình, tận tụy giúp đỡ nhóm em hoàn thành tiểu luận này. SVTH: Nhúm 12 Lp: M12CQTE 02B - I - Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh Chơng I. Cơ sở lý thuyết nén tín hiệu 1.1 Giới thiệu: Trong một vài thập kỷ qua sự phát triển của khoa học và kỹ thuật truyền tin thực sự là một cuộc cách mạng đối với phơng tiện truyền thông. Đáng kể nhất là các mạng internet, mạng viễn thông di động, và truyền thông video. Trong thực tế sẽ không mô tả đợc các hình ảnh, cha nói gì đến audio và video hay các website nếu chúng ta không có các thuật toán nén dữ liệu. Các mạng điện thoại tế bào không thể không nén khi số lợng đầu cuối tăng, tín hiệu truyền hính số không thể thiếu quá trình nén, thực hiện một cuộc liên lạc đờng dài cũng cần nén, rồi các dịch vụ tuyền hình vệ tinh, đều cần nén. Trong một thời gian khá dài kỹ thuật nén dữ liệu chỉ nhận đợc sự quan tâm của một nhóm nhỏ các nhà khoa học và kỹ s, ngày nay là một lĩnh vực rất quan trọng và đợc đông đảo mọi ngời quan tâm. Nh vậy, nén dữ liệu là gì? và tại sao lại thực sự cần thiết? Ta đã quen nghe JPEG ( Joint Photographic Expert Group) và MPEG ( Moving Picture Expert Group ), đó là các chuẩn nén ảnh tĩnh ( picture ) và ảnh động ( video ). Các thuật toán nén dữ liệu đợc sử dụng trong các chuẩn này đều giảm số các bít yêu cầu đối với một bức ảnh hay một chuỗi các ảnh. Tóm lại, nén dữ liệu là một nghệ thuật hay một khoa học đa ra dạng thông tin cô đọng. Chúng ta tạo ra dạng cô đọng này bằng cách nhận dạng và sử dụng các cấu trúc tồn tại trong dữ liệu. Dữ liệu có thể là ký tự trong một file text, dãy số của các mẫu trong tín hiệu tiếng nói hay các tín hiệu dạng sóng của ảnh, hoặc chuỗi các số đợc sinh ra từ các nguồn khác Lý do cần nén dữ liệu rất nhiều và cũng rất nhiều thông tin sinh ra ở dạng số theo các byte dữ liệu. Số các byte yêu cầu để cho dữ liệu xử lý là rất lớn. Ví dụ, để có đợc các số trong một giây tín hiệu video mà không có nén, chúng ta cần hơn 20Mbyte ( hay 160Mbit ). Nếu xét thời gian xử lý trong vài giây ta sẽ hiểu tại sao cần nén. Sự phát triển bùng nổ của dữ liệu đòi hỏi phải đợc truyền và đợc lu giữ, tại sao không tập trung phát triển các kỹ thuật truyền và lu giữ? Điều này vẫn đang xảy ra, nhng cha đủ. Đã có rất nhiều tiến bộ quan trọng cho phép truyền thông tin đợc truyền vàlu giữ với dung lợng lớn không có nén nh CD-ROM, hệ thống cáp quang, ADSL (Đờng thuê bao số không đối xứng), modem Với các công nghệ mới, hai nội dung lu giữ và truyền có khả năng tăng lên đáng kể, dù quá trình truyền dữ liệu chịu rất nhiều tác động không mong muốn, khả năng cải tiến chậm hơn so vớilu dữ liệu. Tuy vậy sự nhảy vọt về công nghệ mới trong lu giữ dữ liệu cũng chỉ là một mặt của vấn đề. Thực tế cho thấy sự đầu t về công nghệ mới cho cơ sở vật chất tốn kém hơn gia công và nén tín hiệu để dùng trên cơ sở hạ tầng cũ. 1.2. Các kỹ thuật nén: SVTH: Nhúm 12 Lp: M12CQTE 02B - 1 - Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh Kỹ thuật nén và thuật toán nén. Trên thực tế thuộc về hai thuật toán. Đó là thuật toán nén đầu vào là X và đa ra yêu cầu một số bít nào đó, và một thuật toán khôi phục lại, hoạt động trên cơ sở tín hiệu đã đợc nén để khôi phục lại Y. Ta qui ớc gọi hai thuật toán này là thuật toán nén. Dựa trên các yêu cầu về khôi phục dữ liệu. Các sơ đồ nén có thể chia ra làm hai loại, đó là các sơ đồ nén không tiêu hao, theo đó Y giống hệt X và các sơ đồ nén tiêu hao, mức nén cao hơn nhiều so với nén không tiêu hao (lossless) nhng Y khác X. 1.2.1. Kỹ thuật nén không tiêu hao: Các kỹ thuật nén không tiêu hao, có hàm ý là không mất thông tin. Nếu nh dữ liệu đã đợc nén, thì ở phía thu có thể khôi phục chính xác dữ liệu gốc. Các kỹ thuật nén này sử dụng cho các ứng dụng cần khôi phục chính xác so với tín hiệu gốc ban đầu. Nén văn bản, là thí dụ điển hình của nén không tiêu hao. Sau khi khôi phục văn bản thu đợc phải giống hệt văn bản gốc, nh vậy chỉ cần một khá biệt nhỏ cũng có thể dẫn đến kết quả sai hẳn về ý nghĩa của câu. Nhiều loại dữ liệu đòi hỏi khắt khe đối với dữ liệu khôi phục và dữ liệu gốc. Có rất nhiều ứng dụng yêu cầu nén khôi phục chính xác nguyên gốc. Song cũng có một số ứng dụng chỉ có các yêu cầu đơn giản là nén đợc nhiều dữ liệu. Đó là kỹ thuật nén có tiêu hao. 1.2.2. Kỹ thuật nén có tiêu hao: Các kỹ thuật nén có tiêu hao đòi hỏi mất một số thông tin, dữ liệu đã đợc nén bằng kỹ thuật tiêu hao thì không thể khôi phục hay xây dựng lại đợc chính xác. Sự sai lệch này coi nh phải chấp nhận khi khôi phục lại. Nén có tiêu hao có thể đạt đợc tỷ lệ nén cao hơn rất nhiều so với nén không tiêu hao . Trong nhiều ứng dụng, sự sai lệch giữa dữ liệu gốc và dữ liệu khôi phục là không quá phải quan tâm. Ví dụ khi lu dữ và truyền tiếng nói, giá trị chính xác của mỗi frame tín hiệu tiếng nói là không cần thiết. Giả sử có mất một lợng tín hiệu thông tin đáng kể trong mỗi mẫu tín hiệu tiếng nói thì chất lợng tiếng nói sau khi khôi phục vẫn có thể chấp nhận đợc do sự nhạy cảm đặc biệt của tai ngời . Nếu nh chất lợng tiếng nói sau khôi phục nghe đợc nh trong điện thoại, thì việc mất tín hiệu thông tin là có thể bỏ qua. Tuy nhiên khi yêu cầu chất lợng tiếng nói sau khôi phục hoàn hảo, thì lợng thông tin bị mất phải thấp. Khi xem lại một đoạn Video nhận đợc, thực tế nó khác với bản gốc, nhng không quan trọng lắm, miễn là sự khác nhau đó không gây cảm giác khó chịu. Do đó video đợc sử dụng kỹ thuật nén có tiêu hao. SVTH: Nhúm 12 Lp: M12CQTE 02B - 2 - Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh Nếu xây dựng đợc lu đồ nén, cần đánh giá khả năng thực hiện. Vì phạm vi các ứng dụng rất khác nhau. 1.3. Đánh giá khả năng thực hiện: Một thuật toán nén có thể đợc đánh giá theo một nhiều phơng pháp khác nhau. Có thể đánh giá độ phức tạp của thuật toán nén, yêu cầu bộ nhớ để thực hiện thuật toán, chu kỳ máy để thực hiện thuật toán, tỷ lệ nén, dữ liệu sau khôi phục so với dữ liệu gốc . Một cách rất logic đánh giá thuật toán nén là xét tỷ lệ các bit yêu cầu của dữ liệu trớc và sau khi nén. Tỷ lệ này đợc gọi là tỷ lệ nén. Một cách khác để mô tả khả năng nén là đa ra số bít yêu cầu trung bình cho một mẫu. Tham số mô tả này gọi là tốc độ, ví dụ tín hiệu tiếng nói đợc lấy mẫu ở tần số 8khz, mỗi mẫu cần dùng là 4 bit để mã, thì tốc độ là 32kbps. Trên đây là tính u việt của kỹ thuật nén dữ liệu nói chung. Trong hai xu hớng nén cơ bản thấy qua các cách đánh giá khả năng thực hiện thuật toán nén. Trong Chơng sau sẽ đề cập đến các phơng pháp nén tiếng nói chung và các phơng pháp mã hoá tiếng nói. 1.4. Kết luận: Trong chơng này đã khái quát tầm quan trọng của nén dữ liệu, các kỹ thuật nén cơ bản và cách đánh giá khả năng thực hiện mộtlu đồ nén. CHƯƠNG 2. nén và xử lý số tín hiệu tiếng nói 2.1. Nén tín hiệu tiếng nói 2.1.1 Giới thiệu chung Trong các hệ thống liên lạc (analog và digital) vấn đề hạn chế phổ tần tín hiệu là rất đáng quan tâm. Nó hiệu quả trong xử lý, lu trữ và truyền dẫn tín hiệu. Sự phát triển của công nghệ tích hợp IC đã cho ra đời các vi mạch cỡ rất lớn VLSI và xử lý tín hiệu số DSP làm xu hớng phát triển của các hệ thống thông tin là số hoá, chúng thực hiện một quá trình biến đổi tín hiệu từ nguồn tin liên tục (nh tiếng nói, hình ảnh, âm nhạc, ) thành chuỗi tín hiệu số, chuỗi tín hiệu số này dễ xử lý theo các thuật toán khác nhau, góp phần nâng cao chất lợng tín hiệu và hiệu quả sử dụng phổ tần trong truyền dẫn. Sau khi xử lý, lọc, truyền dẫn, hệ thống thông tin số sẽ chuyển đổi ngợc tín hiệu sang tơng tự để phù hợp với tín hiệu tự nhiên. SVTH: Nhúm 12 Lp: M12CQTE 02B - 3 - Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh Hình 2.1 Minh hoạ hệ thống mã hoá tiếng nói. Các bộ nén phổ tín hiệu tiếng nói bao gồm đầy đủ các bớc trên. Cơ bản của một bộ nén tín hiệu tiếng nói là tỷ lệ giữa tốc độ bit đợc truyền đi và chất lợng tiếng nói đạt đợc. Tuỳ theo từng ứng dụng cụ thể mà điều chỉnh tốc độ bít thấp nhất nhng tiếng nói vẫn phải đạt chất lợng theo yêu cầu. Hình 2.2 minh hoạ mối quan hệ này Ta biết là giới hạn phổ tần tín hiệu tiếng nói là 200 3400Hz, theo tiêu chuẩn Nyquist thì tần số lấy mẫu là 8KHz và nh vậy khi số hoá tín hiệu thì phổ tần sẽ mở rộng. (Theo CCITT dùng bộ mã PCM 8 bit, tốc độ sẽ là 64000bps). Khi nén tín hiệu tiếng nói các mẫu sẽ đợc thể hiện bằng một số ít bít có thể. Khi khôi phục lại chất lợng tiếng nói tơng tự nh không mã hoặc gần nh thế. [3,4]. Để đơn giản các kỹ thuật nén tín hiệu tiếng nói có thể chia ra làm ba loại: SVTH: Nhúm 12 Lp: M12CQTE 02B - 4 - Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh (Hình 2.3) là: các bộ mã hoá dạng sóng ( Waveform Codes ), các bộ mã nguồn ( source codes ) và các bộ mã hoá lai ( hybrid codes ). Hình 2.3. Phân loại các phơng pháp mã hoá tiếng nói Trong Chơng này sẽ tổng hợp một số phơng pháp trong kỹ thuật nén và mã hoá tiếng nói này. Các bộ mã dạng sóng đợc dùng Khi cần chất lợng tiếng nói rất tốt và không cần tốc độ bít thấp. Các bộ mã nguồn ( source codes ) có thể đạt đợc tốc độ bít rất thấp, tiếng nói đạt đợc bằng cách tổng hợp các âm ( hữu thanh và vô thanh). Các bộ mã hoá lai là sự kết hợp của hai kỹ thuật mã hoá dạng sóng và mã hóa nguồn, chất lợng tiếng nói là tốt và tốc độ bít trung bình. Trong các kỹ thuật nén lại có rất nhiều phơng pháp khác nhau để thực hiện, chẳng hạn trong kỹ thuật mã hoá dạng sóng có các phơng pháp nh : PCM_ điều chế xung mã, DM_ điều chế delta, DPCM_ điều chế xung mã vi phân, ADPCM_ điều chế xung mã vi phân thích nghi, Kỹ thuật mã nguồn có các phơng pháp Vocoder, mã dự đoán tuyến tính, Chơng này sẽ giới thiệu các phơng pháp cụ thể mà hiệu quả nén và chất lợng tiếng nói là chấp nhận đợc nh Vocoder, mã dự đoán tuyến tính, lợng tử hoá vector, 2.2. Một số phơng pháp nén cơ bản: 2.2.1 Các phơng pháp mã hoá dạng sóng Đối với các phơng pháp mã hoá dạng sóng, Không nhất thiết phải biết tín hiệu cần mã đợc sinh ra nh thế nào, khi khôi phục lại tín hiệu dạng sóng có thể đạt gần nh tín hiệu gốc ban đầu. Về lý thuyết tín hiệu này là độc lập, và chúng có thể làm việc với cả các SVTH: Nhúm 12 Lp: M12CQTE 02B - 5 - Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh tín hiệu không phải là tín hiệu tiếng nói. Nói chung đó là những phơng pháp mã đơn giản, chất lợng tiếng nói tốt khi tốc độ khoảng trên 16kbps. Khi tốc độ dữ liệu yêu cầu thấp hơn mức này thì khi khôi phục lại chất lợng tiếng nói suy giảm rất nhanh ( nh hình 2.2) Dạng đơn giản nhất của mã hoá dạng sóng là điều chế xung mã, tín hiệu dạng sóng đầu vào đợc lấy mẫu, lợng tử. Với tiếng nói dải tần hẹp, giới hạn là 4kHz, tần số lấy mẫu là 8kHz. Nếu sử dụng lợng tử hoá tuyến tính, tiếng nói đạt chất lợng tốt cần khoảng 12 bit cho mỗi mẫu, Khi đó tốc độ bit ra là 96kbit/s. Tốc độ bít này có thể giảm xuống đáng kể bằng cách lợng tử không đều cho các mẫu theo tín hiệu, tuy nhiên đây là một việc làm rất khó, trong thực tế ngời ta có giải pháp lấy xấp xỉ. Trong mã hoá tiếng nói gần đúng, thờng dùng lợng tử hoá logarit. Lợng tử hoá logarit là lợng tử hoá đều các tín hiệu đợc nén, nh thế sẽ đạt tỷ lệ S/N là một hằng số, với 8 bit/mẫu tốc độ đạt đợc là 64kbps và khi khôi phục, sự sai khác với tín hiệu nguyên thuỷ hầu nh không phân biệt đợc. Các luât nén logarit đợc chuẩn hoá từ những năm 1960, nhng cho đến nay vẫn đợc dùng. ở Mỹ dùng theo luật , trong khi đó ở Châu Âu dùng luật A Theo CCITT : A= 87,6, =255 hoặc 100 Phơng pháp trên có u điểm là đơn giản, tiếng nói khôi phục đạt chất lợng cao, tuy vậy yêu cầu tốc độ bít vừa phải, và dễ nhạy cảm lỗi đờng truyền. [4] Một kỹ thuật chung hay đợc sử dụng trong mã hoá tiếng nói là dự đoán trớc giá trị của mẫu tiếp theo từ các mẫu trớc. Điều này là thực hiện đợc dựa vào độ tơng quan giữa các mẫu tiếng nói là khá lớn, sai lệch giữa hai mẫu kề nhau khá nhỏ so với giá trị của từng SVTH: Nhúm 12 Lp: M12CQTE 02B - 6 - Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh mẫu [4]. Khi dự đoán này là hợp lý thì sai lệch tín hiệu giữa các mẫu dự đoán và các mẫu tín hiệu thực tế sẽ có sự khác nhau thấp hơn các mẫu tín hiệu nguyên thuỷ. Do đó thay vì mã hoá các giá trị mẫu của tín hiệu tiếng nói vào ta chỉ cần mã sai lệch giữa các mẫu với một số ít bit hơn tín hiệu tiếng nói nguyên thuỷ. Đây chính là nguyên tắc cơ bản của điều chế xung mã vi sai DPCM_ Differential Pulse Code Modulation. Sơ đồ khối cách điều chế DPCM với bộ dự đoán nh hình vẽ 2.4 Hình 2.4: Sơ đồ khối điều chế xung mã vi sai có dự đoán Các phơng pháp mã trên có thể đợc cảI tiến nếu các quá trình dự doán và lợng tử đợc thực hiện một cách thích nghi để chúng thay đổi thích hợp với đặc điểm của tín tiệu tiếng nói cần mã. Đó là phơng pháp ADPCM_ điều chế xung mã vi sai thích nghi. Vào giữa năm 1980, CCITT đã chuẩn hoá tốc độ của bộ mã ADPCM là 32kbps, với tốc độ này chất lợng tiếng nói đạt rất gần với bộ mã Tất cả các phơng pháp mã hoá dạng sóng đợc mô tả trên có thể đợc thực hiện trên miền thời gian. Trong miền tần số cũng có thể thực hiện và nó có đôi chút thuận lợi. Ví dụ nh trong cách mã hoá băng con ( SBC _ SubBand Coding ) tín hiệu tiếng nói đầu vào đ- ợc chia thành một số băng tần (gọi là các băng con), mỗi băng tần con đợc mã độc lập bằng các bộ mã nh ADPCM. ở bên thu, các tín hiệu băng con đợc giải mã và kết hợp lại sau đó lọc và khôi phục lại tín hiệu tiếng nói. Lợi ích của việc chia băng này là nhiễu ở mỗi băng con là độc lập, và chỉ đợc mã trong băng đó. Do đó có thể cấp phát nhiều bit hơn cho các băng con mà cảm thấy là quan trọng để nhiễu trong các vùng băng tần này thấp, trong khi ở các băng tần khác chúng ta có thể cho phép mức độ nhiễu là cao hơn, vì nhiễu ở các vùng băng tần này ít quan trọng. Trong tơng lai cách tổ chức cấp phát bit thích nghi nh vậy có thể sẽ đợc sử dụng để khai thác ý tởng này. Trong các hệ thống truyền thông, các thuật toán mã băng con cho chất lợng tiếng nói đạt chuông ở dải tốc độ 16 32kbps. Do việc cần các bộ lọc để chia tín hiệu tiếng nói thành các băng con, nên SVTH: Nhúm 12 Lp: M12CQTE 02B - 7 - Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh chúng phức tạp hơn các phơng pháp DPCM và gây ra độ trễ lớn hơn. Tuy nhiên độ phức tạp và độ trễ đó vẫn có mức độ thấp khi so sánh với hầu hết các phơng pháp mã hoá lai. Ngoài ra trong miền tần số, có các kỹ thuật mã hoá dạng sóng khác nh ATC_ Mã biến đổi thích nghi, sử dụng biến đổi nhanh ( ví dụ nh DCT_ biến đổi cosin rời rạc, KLT_ biến đổi Kalmal, Walsh Hadamark Transform, DFT _biến đổi rời rạc nhanh ) để chuyển các khối ( hay các frame ), tín hiệu tiếng nói thành các số cụ thể của các băng tần. Mục tiêu trong việc lựa chọn chuyển tín hiệu từ miền thời gian sang miền tần số nhằm giành đợc các đoạn phổ không tơng quan. Để đạt đợc hiệu quả khi mã, số các bit đợc dùng để mã mỗi một hệ số chuyển đổi, phải cấp phát nhiều hơn cho các đoạn phổ quan trọng, và ngợc lại là cấp phát ít bít hơn cho các đoạn phổ kém quan trọng. Thêm vào đó, bằng cách sử dụng việc cấp phát động trong việc phân chia số bít trong các hệ số của phổ, ta có thể thích nghi theo sự thay đổi có thống kê của tín hiệu tiếng nói. Chất lợng tiếng nói cơ bản có thể đạt đợc ở tốc độ bít thấp hơn 16kbps. 2.2.2 Các phơng pháp mã hoá nguồn âm ( source codes ) Các phơng pháp mã hoá nguồn âm hoạt động trên cơ sở phân tích bộ máy phát âm của con ngời và quá trình tạo ra âm thanh tiếng nói, từ đó rút ra các tham số tín hiệu bên mã, sau đó đợc gửi tới bên giải mã. Các phơng pháp mã hoá nguồn âm đợc gọi là các ph- ơng pháp vocoder làm việc nh sau: Bộ máy phát âm đợc mô tả nh là một bộ lọc biến đổi theo thời gian mà đợc kích thích bởi nguồn nhiễu trắng đối với đoạn âm vô thanh ( unvoice ), hoặc là một chuỗi các xung độc lập, chuỗi xung này đợc quyết định bởi chu kỳ pitch đối với âm hữu thanh ( voice ). Thông tin này phải đợc gửi tới bên giải mã để bộ lọc định rõ đâu là vô thanh, đâu là hữu thanh, nhất thiết phải thay đổi tín hiệu kích thích và chu kỳ pitch của âm thoại, cứ khoảng 10 20ms lại phải cập nhật theo sự thay đổi tự nhiên của tiếng nói. Các tham số kiểu này có thể đợc xác định theo một số cách, dùng các kỹ thuật xử lý trong miền thời gian hay miền tần số. Cũng nh vậy, các tham số có thể đợc mã hoá và truyền đi theo nhiều cách khác nhau. Các phơng pháp Vocoder chủ yếu hoạt động ở khoảng tốc độ 2400bps hoặc thấp hơn. 2.2.2.1. Phơng pháp Vocoder: Không giống nh các phơng pháp dạng sóng, các phơng pháp vocoder sẽ làm suy yếu các tín hiệu không phải là hữu thanh và dựa vào đặc trng của tiếng nói để phân tích nó, chủ yếu nh là dựa vào kiểu hệ nguồn phát âm. Thử nghe một ngời phát âm một vần, sau đó nghe ngời khác phát âm lại. Ta thấy ngời giọng cao (high-pitch), ngời giọng thấp ( low-pitch), ngời nói rõ , ngời luyến nhng ta vẫn hiểu đợc nội dung. Phơng pháp SVTH: Nhúm 12 Lp: M12CQTE 02B - 8 - Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh Vocoder phân tích phổ tiếng nói thành các tham số đặc trng ( các tham số của mô hình tạo tiếng nói ), sau đó các tham số này để tổng hợp thành tín hiệu hữu thanh có đầy đủ nội dung nh ban đầu mà tai ngời có thể hiểu đợc. Tuy nhiên kết qủa của dạng sóng tín hiệu sau khi tổng hợp có thể không đợc nh tín hiệu lúc đầu. Hình 2.5: Hai nguồn âm tạo ra tiếng nói Đánh giá về phơng pháp vocoder thì hiệu quả phổ tần tốt ( tốc độ bit 2,4-9,6kbps ), tuy nhiên chất lợng tiếng nói còn nhiều hạn chế và chỉ thích hợp cho các ứng dụng trong an ninh và quân sự. Tuy nhiên trong những năm gần đây, công nghệ DSP phát triển, các thuật toán mới cũng dựa vào phơng pháp này, tất cả sử dụng các phép cộng, phép nhân để xử lý chuỗi các giá trị số liệu và các hệ số , Có rất nhiều kiểu vocoder khác nhau nh Vocoder kênh, H Vocoder homomorphic, Vocoder pha. Tuy nhiên tất cả đều chia tín hiệu ra thành đoạn ngắn để xử lý ta gọi đó là các cửa sổ. [1,2] 2.2.2.2 Phơng pháp vocoder kênh: Phơng pháp vocoder kênh sử dụng các bộ hạn băng nanalog để phân tích tín hiệu tiếng nói thành các băng con khoảng 100 300Hz, độ rộng của các băng con qua các bộ lọc đợc thiết kế tăng dần tỷ lệ thích hợp với phản ứng của tai con ngời, số lợng các băng con đợc chia khoảng 16- 20 cho một băng tiếng nói 0-4000Hz, tơng ứng với nó là từng ấy các bộ lọc FIR, các bộ lọc băng dải hẹp hơn dùng cho các băng tần thấp, các bộ lọc băng dải rộng hơn dùng cho các băng tần cao. Đầu ra của các băng con đợc đa vào các bộ sửa và lọc thông thấp nhằm xác định đờng bao. Độ rộng băng của các bộ lọc thông thấp đợc lựa chọn phù hợp với thời gian biến đổi theo đặc điểm của bộ máy phát âm, Ví dụ nh độ lớn của phổ thay đổi ở tốc độ 50Hz ( mỗi giá trị mẫu là 20ms) thì độ rộng bộ lọc thông thấp đợc chọn trong dải 20 - 25Hz. Khi đó đầu ra của nó có thể đợc lấy mẫu ở tốc độ 50Hz, đợc lợng tử và truyền tới nơi nhận. SVTH: Nhúm 12 Lp: M12CQTE 02B - 9 - [...]... tham số của tín hiệu tiếng nói theo phơng pháp tự tơng quan Trong chơng 3 báo cáo đi vào tìm hiểu và nghiên cứu cụ thể phơng pháp mã hoá băng con, tìm hiểu các mạch lọc băng, cách lấy mẫu lên, lấy mẫu xuống, Chơng 3 Nén tín hiệu tiếng nói bằng phơng pháp Mã hoá băng con 3.1 Giới thiệu chung Dới đây là cách tiếp cận về nén tín hiệu theo phơng pháp mã hoá băng con (SBC _ SubBand Coding) Mã băng con đợc... lý và nh vậy đợc gọi là xử lý tín hiệu số hay DSP (Digital Signal Processing) Bộ xử lý số ở đây thờng đợc thiết kế đặc biệt chuyên cho các thuật toán xử lý tín hiệu số 2.3.1.2 Lợi ích của xử lý tín hiệu số: có rất nhiều thuận lợi khi dùng xử lý tín hiệu số nói chung Các thuận lợi của xử lý tín hiệu số nh sau: - Dễ chơng trình hoá - Độ ổn định cao - Tính lặp lại cao - Dễ dàng thực hiện các thuật toán... làm giảm đáng kể số các phép tính nhân trong quá trình tính toán 2.4 Kết luận: Trong chơng này đã giới thiệu khái quát đợc một số thuật toán nén tín hiệu tiếng, SVTH: Nhúm 12 - 19 - Lp: M12CQTE 02B Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh đánh giá đợc những u điểm của tín hiệu số cũng nh hệ thống xử lý tín hiệu số, đa ra mô hình lý tởng và mô hình số tạo tín hiệu tiếng nói Từ đó sẽ phân... phơng pháp CELP một bộ lọc pitch là vô cùng quan trọng Khối tính trọng số sai số đợc dùng sắp xếp phổ của sai số tín hiệu để làm giảm tiếng ồn chủ quan của sai số này (phổ trơn) Vì sai số tín hiệu ở trong các vùng tần số (formant) mà nơi nào tín hiệu tiếng nói có năng lợng cao nó sẽ bị che đi ít nhất một phần bởi tiếng nói Bộ lọc trọng số nâng tạp âm trong các vùng tần số mà ở đó nội dung tiếng nói thấp... thống nén tiếng nói, truyền thông, nén ảnh, nó đợc biết đến nh một phơng pháp đơn giản và kinh tế về phần cứng yêu cầu về băng thông nhỏ, ít chịu ảnh hởng lỗi đờng truyền, chất lợng lợng tiếng nói tốt, , Với các ứng dụng yêu cầu tốc độ bit là trung bình Trong phơng pháp mã băng con tín hiệu tiếng nói đợc chia thành một số băng con ( thờng từ 4-8 băng con ) bởi các bộ lọc băng Mỗi băng con đó đợc mã theo... các bộ lọc lý tởng, thì nhận đợc kết quả không rõ ràng (dẫn đến méo) 3.6 Kết luận Chơng này tìm hiểu và trình bầy phơngng pháp mã hoá băng con để nén tín hiệu tiếng nói, cũng nh các bộ lọc băng đi kèm Xây dựng các thuật toán giúp mã hóa băng con để có thể sử dụng băng con một cách tối u nhât Mã băng con đợc sử dụng trong rất nhiều ứng dụng, nh trong các hệ thống nén tiếng nói, truyền thông, nén ảnh,... dự doán ngắn hạn bậc 10, các tham số LPC đợc tính toán theo phơng pháp tơng quan SVTH: Nhúm 12 - 17 - Lp: M12CQTE 02B Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh Hình 2.11 Thuật toán phơng pháp CELP 2.3 Xử lý số tín hiệu tiếng nói 2.3.1 Các đặc trng của xử lý tín hiệu số 2.3.1.1 Xử lý tín hiệu số ( DSP ) là gì: Trong môi trờng quanh ta có rất nhiều tín hiệu mà ta có thể cảm nhận đợc, nh... thấp hay nói cách khác phần lớn tạp âm nhận đợc trong bộ mã sinh ra từ các vùng tần số ở đó mức tín hiệu thấp Do đó tối thiểu hoá trọng số sai số là tập trung năng l ợng của sai số tín hiệu ở các vùng tần số ở đó tiếng nói có năng lợng cao Do đó sai số tín hiệu sẽ bị che đi ( một phần hay toàn phần) bởi tiếng nói Nh vậy việc tìm ra trọng số sai số là hết sức có ý nghĩa trong việc khôi phục tiếng nói cho... tín hiệu có trong thực tế là các tín hiệu biến thiên liên tục, các tín hiệu kiểu này gọi chung là tín hiệu Analog Cũng theo cách của con ngời, nhng chúng ta dùng các sensor để chuyển thành các tín hiệu điện, nhng phải đổi chúng thành các số, quá trình này gọi là chuyển từ tơng tự ( analog ) sang số ( digital) hay A/D Sau đó đầu ra đợc đa qua bộ tính toán số để xử lý và nh vậy đợc gọi là xử lý tín hiệu. .. thống vocoder pha 2.2.2.4 Phơng pháp mã dự đoán tuyến tính (LPC): Giả sử có tín hiệu liên tục theo thời gian s(t), để áp dụng phơng pháp xử lý số tín hiệu, s(t) cần phải rời rạc với tần số lấy mẫu là F s thoả mãn định lý lấy mẫu của Shannon Nh vậy tín hiệu s(t) chỉ lấy các giá trị rời rạc tại các điểm theo thời gian có chu kỳ T= 1/Fs Kết quả của phép rời rạc này là chuỗi tín hiệu {s(nT)}, trong đó n= 1, . gồm các phần sau: Chơng1: Cơ sở lý thuyết nén tín hiệu Chơng 2: Nén và xử lý số tín hiệu tiếng nói. Chơng 3: Nén tín hiệu tiếng nói bằng phơng pháp mã hoá băng con Em xin chân thành cảm ơn thầy. cho các thuật toán xử lý tín hiệu số. 2.3.1.2. Lợi ích của xử lý tín hiệu số: có rất nhiều thuận lợi khi dùng xử lý tín hiệu số nói chung. Các thuận lợi của xử lý tín hiệu số nh sau: - Dễ chơng. Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh Hình 2.11 Thuật toán phơng pháp CELP 2.3. Xử lý số tín hiệu tiếng nói 2.3.1 Các đặc trng của xử lý tín hiệu số 2.3.1.1. Xử lý tín hiệu số ( DSP

Ngày đăng: 22/09/2014, 23:12

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan