NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT SỬ DỤNG MÔ HÌNH MARKOV ẨN

21st Computer Science Seminar SE1-T3-1 MỤC LỤC Trang MỤC LỤC 1 PHẦN I: ĐẶT VẤN ĐỀ 2 PHẦN II: NỘI DUNG 3 I. LÝ THUYẾT CHUNG 3 1. Lý thuyết về tiếng nói 3 2. Một số đặc điểm ngữ âm tiếng Vi ệ t 3 3. Lý thuyết về âm vị 5 3.1. Định nghĩa âm vị 5 3.2. Chức năng của âm vị 6 3.3. Tách âm vị và xác định âm vị trên chuỗi sóng âm 6 II. MÔ HÌNH MARKOR ẨN VÀ NHẬN DẠNG TIẾNG NÓI 8 1. Giới thiệu về mô hình Markov ẩn: 8 2. Ba vấn đề thiết yếu của HMM 8 2.1 Tìm chuổi chuyển trạng thái tốt nhất – Thuật toán Viterbi : 9 2.2 Ước lượng tham số xác xuất cho HMM – Thuật toán Baum-Welch 10 3. Tiền xử lý tín hiệu : 12 3.1 Cải thiện tín hiệu – bộ lọc Wiener: 13 3.2 Cắt khung tín hiệu : 13 3.3 Phân tích Fourier – biến đổi Fourier rời rạc: 15 3.4 Xác định phổ Mel 15 3.5 Biến đổi Cosine rời rạc trên tần số Mel (Discrete Cosine Transform): 16 TÀI LIỆU THAM KHẢO 17 21st Computer Science Seminar SE1-T3-2 PHẦN I: ĐẶT VẤN ĐỀ Nhận dạng tiếng nói đã phát triển rất mạnh mẽ trong những năm gần đây của thế kỷ trước. Đặc biệt năm 1997, IBM và Dragon System cùng nhau tung ra sản phẩm nhận dạng tiếng nói của mình. Những sản phẩm này gây tiếng vang lớn và có thể xem như cột mốc cho quá trình nghiên cứu nhận dạng tiếng nói. Qua việc học tập môn học Lý Thuyết Nhận Dạng, chúng em đã được tiếp cận với những kiến thức lý thuyết cũng như các ứng dụng thực tế của nó. Nhận dạng tiếng nói Tiếng Việt hiện nay là một lĩnh vực đang được nghiên cứu bởi các nhà khoa học và cũng đã đạt được một số kết quả nhất định. Để nhận dạng được Tiếng Việt thì ta có thể sử dụng nhiều mô hình nhưng mô hình được ứng dụng nhiều và cho kết quả tốt là mô hình Hidden Markov (HMM). Để có thể hiểu thật rõ về mô hình HMM chúng em xin chọn đề tài “NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT SỬ DỤNG MÔ HÌNH MARKOV ẨN”. Xin chân thành cám ơn Tiến sĩ Nguễn Đăng Bình đã truyền đạt kiến thức cũng như có những ý kiến quý báu giúp chúng em hoàn thành tiểu luận này. Tuy đã rất cố gắng song bài viết không tránh khỏi những thiếu sót. Chúng em rất mong nhận được sự đóng góp ý kiến của quý thầy/cô và các anh chị cùng lớp để bài viết hoàn thiện hơn. Chúng em xin chân thành cám ơn. 21st Computer Science Seminar SE1-T3-3 PHẦN II: NỘI DUNG I. LÝ THUYẾT CHUNG 1. Lý thuyết về tiếng nói Mục đích của tiếng nói là truyền thông tin. Có một số đặc trưng cho việc truyền tiếng nói. Theo lý thuyết thông tin, tiếng nói có thể biểu diển dưới dạng nội dung thông báo hoặc thông tin. Một cách đặc trưng khác là tiếng nói biễu diễn dưới dạng tín hiệu mang thông tin thông báo. Mặc dù các quan điểm lý thuyết của thông tin đống vai trò chủ đạo trong các hệ thống truyền tin phức tạp, ta sẽ thấy là biễu diễn tiếng nói dựa trên dạng sóng hoặc mô hình tham số được sử dụng chính trong các ứng dụng thực tế. Để xét quá trình thông tin tiếng nói, đầu tiên nên coi thông báo như một dạng trừu tượng nào đó trong đầu người nói. Qua quá trình phúc tạp tạo âm, thông tin trong thông báo này được chuyển trực tiếp thành tín hiệu âm học. Thông tin thông báo có thể được biểu diễn dưới một số dạng khác nhau trong quá trình tạo tiếng nói. Chẳng hạn, thông tin thông báo lúc đầu được chuyển thành tập hợp các tín hiệu thần kinh điều khiển có chế phát âm (đó là chuyển động của lưỡi, môi, dây thanh âm…). Bộ máy phát âm chuyển động tương ứng với các tín hiệu thần kinh này để tạo ra dãy các điệu bộ, mà kết quả cuối cùng là dạng sóng âm chứa thông tin trong thông báo gốc. Thông tin được thông báo bằng tiếng nói về bản chất là rời rạc, có thể biểu diễn bởi việc dán các phần tử ở một tập hợp hữu hạn các ký hiệu. Các ký hiệu mà mỗi âm có thể được phân loại ra gọi là các âm vị (phoneme). Mỗi ngôn ngữ có tập hợp các âm vị riêng của nó, con số mẫu mực là khoảng từ 30 đến 50. Ví dụ tiếng Anh có thể biểu diễn bằng khoảng 42 âm vị, tiếng Việt khoảng 33 âm vị ( 12 nguyên âm : a, ă, â, o, u… và 21 phụ âm: k, l, m, ph …). Trong lý thuyết thông tin người ta còn xét tốc độ truyền thông tin. Với tiếng nói, lưu ý đến các giới hạn vật lý của tốc độ chuyển động của bộ máy phát âm, đánh giá thô của tốc độ thông tin là con người tạo ra tiếng nói với tốc độ trung bình khoảng 10 âm vị trong 1 giây. Nếu mỗi âm vị biễu diễn bằng một số nhị phân thì mã số 6 bit là quá đủ để biểu diễn tất cả các âm vị tiếng Anh. Với tốc độ trung bình khoảng 10 âm vị trên giây và bỏ qua tương tác giữa cặp âm vị liền kề, ta có ước lượng 60 bit/giây cho tốc độ thông tin trung bình của tiếng nói. Nói cách khác là lượng viết ra của tiếng nói chứa thông tin tương đương với 60 bit/giây ở tốc độ nói chuẩn. Dĩ nhiên, cận dưới của nội dung thông tin xác thực trong tiếng nói được coi là cao hơn tốc độ này. Ước lượng trên không tín đến các nhân tố như trạng thái của người nói, tốc độ nói, âm hưởng của tiếng nói,v. v… 2. Một số đặc điểm ngữ âm tiếng Vi ệ t Một đặc điểm dễ thấy là tiếng Việt là ngôn ngữ đơn âm (monosyllable - mỗi từ đơn chỉ có một âm tiết), không biến hình (cách đọc, cách ghi âm không thay đổi trong bất cứ tình huống ngữ pháp nào). Tiếng Việt hoàn toàn khác với các ngôn ngữ Ấn-Âu như tiếng Anh, tiếng Pháp là các ngôn ngữ đa âm, biến hình. 21st Computer Science Seminar SE1-T3-4 Nhìn về mặt ghi âm: âm tiết tiếng Việt có cấu tạo chung là: phụ âm-vần. Ví dụ âm tin có phụ âm t, vần in. Phụ âm là một âm vị và âm vị này liên kết rất lỏng lẻo với phần còn lại của âm tiết (hiện tượng nói lái). Vần trong tiếng Việt lại được cấu tạo từ các âm vị nhỏ hơn, trong đó có một âm vị chính là nguyên âm. Hình sau là phổ tín hiệu của âm tiết “ba”. Chúng ta có thể quan sát và phân biệt rõ miền nhiễu nền, miền phổ của phụ âm b và nguyên âm a (miền đậm hơn là có mật độ năng lượng lớn hơn). Quan sát phổ các âm tiết tương tự chúng ta có thể rút ra kết luận: các phụ âm và nguyên âm đều phân biệt với nhau rất rõ qua sự phân bố năng l ượng tại các miền tần số, ví dụ: phụ âm ở tần số thấp, năng lượng nhỏ, nguyên âm có năng lượng lớn ở cả vùng tần số cao. Vùng không có tín hiệu tiếng nói (nhiễu nền và khoảng lặng) có năng l ượng thấp và chỉ tập trung ở các tần số rất thấp. Các nguyên âm có tần phổ (spectrum) khác nhau khá rõ. Hình sau minh hoạ sự khác nhau về phổ của 5 nguyên âm cơ bản. Miền đậm là miền có mật độ năng lượng cao. 21st Computer Science Seminar SE1-T3-5 Theo tác giả Đoàn Thiện Thuật , xét về mặt ngữ âm-âm vị học âm tiết tiếng Việt có lược đồ như sau: Thanh điệu Âm đầu Vần Âm đệm Âm chính Âm cuối Lược đồ cho thấy âm tiết tiếng Việt có cấu trúc rõ ràng, ổn định. L ược đồ còn cho thấy tiếng Việt là ngôn ngữ có thanh điệu. Hệ thống thanh điệu gồm 6 thanh: bằng, huyền, sắc, hỏi, ngã, nặng. Thanh điệu trong âm tiết là âm vị siêu đoạn tính (thể hiển trên toàn bộ âm tiết). Do đó đặc trưng về thanh điệu thể hiện trong tín hiệu tiếng nói không rõ nét như các thành phần khác của âm tiết. Sự khác biệt về cách phát âm tiếng Việt rất rõ rệt theo giới, lứa tuổi và đặc biệt là theo vị trí địa lí (giọng miền Bắc, miền Trung và miền Nam khác nhau rất nhiều). 3. Lý thuyết về âm vị 3.1. Định nghĩa âm vị Có nhiều cách đ ị nh nghĩa âm vị khác nhau: Theo cuốn Ngữ âm học tiếng Việt hiện đại, NXBGD 1972, nhóm tác giả Cù Đình Tú thì âm vị là “đơn vị nhỏ nhất của ngữ âm có mang chức năng phân biệt nghĩa và nhận diện từ”. 21st Computer Science Seminar SE1-T3-6 Theo cuốn ngữ âm tiếng Việt của Đoàn Thiện Thuật thì âm vị là “tổng thể các nét khu biệt, được xuất hiện đồng thời (được con người tri giác theo trật tự trước sau) và có chức năng khu biệt vỏ âm thanh của từ hoặc hình vị”. Theo Giáo sư Cao Xuân Hạo, những cách đ ị nh nghĩa trên còn có những chổ chưa thỏa đáng: “ m ang tính chất ấn tượng chủ nghĩa, có sự lầm lẫn về cách tri giác tính đồng thời, kế tiếp” … và theo ông thì âm vị là “đơn vị khu biệt âm thanh nhỏ nhất có thể tham gia vào thế đối lập âm vị học về trật tự thời gian”, hoặc âm vị là đơn vị âm vị học tuyến tính nhỏ nhất. Theo Đinh Lê Thư và Nguyễn Văn Huệ, “người ta thường định nghĩa âm vị là đơn vị nhỏ nhất của cơ cấu âm thanh ngôn ngữ, dùng để cấu tạo và phân biệt hình thức ngữ âm của những đơn vị có nghĩa của ngôn ngữ từ và hình vị. Ví dụ: các từ tôi và đôi, ta và đa trong tiếng Việt phân biệt nhau bởi các âm vị /t/ và /đ/. Nếu thay âm vị này bằng một âm vị khác trong cùng một âm tiết sẽ làm cho âm tiết đó thay đổi về nghĩa hoặc mất nghĩa. Ví dụ, ta có từ “toàn”, nếu thay âm vị /t/ bằng âm vị /h/, thì sẽ được “hoàn” có nghĩa khác”. 3.2. Chức năng của âm vị Các âm vị trên nguyên tắc nhất định phải có sự khác nhau, ít nhất là về một đặc trưng nào đó. Chính nhờ sự khác biệt này mà các âm vị có thể tạo ra sự khác biệt về hình thức âm thanh của hình vị và từ, tạo nên những tín hiệu khác biệt đối với sự cảm thụ của con ngư ờ i. Theo đó, âm vị có 2 chức năng cơ bản: chức năng khu biệt vỏ âm thanh của hình vị và từ, và chức năng cấu tạo nên những thành tố của đơn vị có nghĩa. 3.3. Tách âm vị và xác định âm vị trên chuỗi sóng âm Số lượng từ trong mỗi ngôn ngữ đều rất lớn. Xây dựng hệ nhận dạng theo từ có khả năng phân biệt số lượng từ đó quả là một thách thức. Thay vào đó, người ta nghĩ ra cách xây dựng hệ nhận dạng dựa trên hướng tiếp cận âm vị. Theo đó , chỉ cần nhận dạng khoảng vài chục âm vị sẽ có thể nhận dạng được toàn bộ từ của một ngôn ngữ (Theo thống kê, số âm vị trong một ngôn ngữ dao động từ khoảng 20 đến 60). Và đây cũng chính là hướng tiếp cận đúng đắn cho nhận dạng tiếng nói tiếng Việt. Tuy nhiên, người ta lại gặp khó khăn khác, đó là tách âm vị và xác định âm vị trên chuỗi sóng âm: Cho một dãy tín hiệu tiếng nói đã thu sẵn. Nhiệm vụ của chúng ta là tìm ranh giới của tất cả các âm vị và cho biết âm vị đó là âm vị g ị . Chưa nói đến khả năng thực hiện công việc đó bằng máy, ngay cả con người vẫn có thể bị nhầm lẫn khi tách âm vị bằng tay do ranh giới giữa các âm vị thư ờ ng mập mờ và hay chồng lấp lên nhau. Cả khi 2 âm vị thuộc 2 âm tiết khác nhau, nếu đứng kế nhau vẫn có thể xảy ra sự chồng lấp. Vì vậy, công việc tách âm vị trên chuỗi sóng âm chỉ mang tính tương đối. Những thuận lợi và khó khăn đối với nhận dạng tiếng nói tiếng Việt Thuận lợi Những đặc điểm ngữ âm tiếng Việt cho thấy nhận dạng tiếng nói tiếng Việt có một số thuận lợi sau: 21st Computer Science Seminar SE1-T3-7  Tiếng Việt là ngôn ngữ đơn âm, số lượng âm tiết không quá lớn. Điều này sẽ giúp hệ nhận dạng xác định ranh giới các âm tiết dễ dàng hơn nhiều. Đối với hệ nhận dạng các ngôn ngữ Ấn-Âu (tiếng Anh, tiếng Pháp ) xác định ranh giới âm tiết (endpoint detection) là vấn đề rất khó và ảnh hưởng lớn đến kết quả nhận dạng.  Tiếng Việt là ngôn ngữ không biến hình từ. Âm tiết tiếng Việt ổn định, có cấu trúc rõ ràng. Đặc biệt không có 2 âm tiết nào đọc giống nhau mà viết khác nhau. Điều này sẽ dễ dàng cho việc xây dựng các mô hình âm tiết trong nhận dạng; đồng thời việc chuyển từ phiên âm sang từ vựng (lexical decoding) sẽ đơn giản hơn so với các ngôn ngữ Ấn-Âu. Việc chuyển từ phiên âm sang từ vựng cũng là một vấn đề khó khăn trong nhận dạng các ngôn ngữ Ấ n-Âu. Khó khăn Ngoài những thuận lợi trên, nhận dạng tiếng nói tiếng Việt cũng gặp rất nhiều khó khăn như sau:  Tiếng Việt là ngôn ngữ có thanh đ i ệ u (6 thanh). Thanh điệu là âm vị siêu đoạn tính, đặc trưng về thanh điệu thể hiện trong tín hiệu tiếng nói không rõ nét như các thành phần khác của âm tiết.  Cách phát âm tiếng Việt thay đổi nhiều theo vị trí địa lí. Giọng đ ị a phư ơng trong tiếng Việt rất đa dạng (mỗi miền có một giọng đặc t rư ng).  Hệ thống ngữ pháp, ngữ nghĩa tiếng Việt rất phức tạp, rất khó để áp dụng vào hệ nhận dạng với mục đích tăng hiệu năng nhận dạng. Hệ thống phiên âm cũng chưa thống nhất.  Các nghiên cứu về nhận dạng tiếng Việt cũng chưa nhiều và ít phổ biến. Đặc biệt khó khăn lớn nhất là hiện nay chưa có một bộ dữ liệu chuẩn cho việc huấn luyện và kiểm tra các hệ thống nhận dạng tiếng Việt. 21st Computer Science Seminar SE1-T3-8 II. MÔ HÌNH MARKOR ẨN VÀ NHẬN DẠNG TIẾNG NÓI 1. Giới thiệu về mô hình Markov ẩn: Mô hình Markov ẩn (Hidden Markov Model _ HMM) là một mô hình thống kê trong đó hệ thống được mô hình hóa là một quá trình Markov với các tham số không biết trước và nhiệm vụ là xác định các tham số ẩn từ các tham số quan sát được. Khác với chuỗi Markov, Mô hình HMM có các đặc điểm sau:  Từ 1 trạng thái có thể phát sinh ra hơn một sự kiện (còn gọi là quan sát).  Chuỗi quan sát là hàm xác suất của trạng thái.  Có thể tính toán xác suất của các chuỗi trạng thái khác nhau từ một chuỗi quan sát. Vậy Mô hình HMM phát sinh ra các quan sát. Khi ở trạng thái Xi, có xác suất. P(o1) để phát sinh sự kiện 1, xác suất P(o2) để phát sinh sự kiện 2, Các thành phần cơ bản của mô hình HMM: •N là số trạng thái của mô hình, ký hiệu trạng thái ở thời điểm t là q t và o t là quan sát tại thời điểm t. •M là số lượng các quan sát phân biệt. Các ký hiệu quan sát tương ứng với tín hiệu mà hệ thống đang mô tả. Ta ký hiệu tập các quan sát là V ={v1, v2, v3, ,vM}, đối với tín hiệu tiếng nói, vi là (đặc trưng thứ i) mã của vector đặc trưng. •A = {aij} là ma trận phân phối xác suất chuyển trạng thái, với aij là xác suất chuyển từ trạng thái i ở thời điểm t sang trạng thái j ở thời điểm t+1. Aij = P{qt = j | qt-1 = i} , với 1≤ i, j ≤ N •B = {bj(k)} là ma trận phân phối xác suất các ký hiệu quan sát, trong đó bj(k) là xác suất nhận được ký hiệu quan sát vk ở trạng thái j: Bj(k) = P{ot = vk | qt = j} ,với 1 ≤ k ≤ M, j = 1, 2, N •π = {πi} là ma trận phân phối trạng thái ban đầu trong đó πi là xác suất của mô hình ở trạng thái i tại thời điểm ban đầu t =1: πi = P{q1 = i} 1 ≤ i ≤ N . Như vậy để mô tả đầy đủ một mô hình HMM cần phải có số trạng thái N, tập V gồm M ký hiệu quan sát, ma trận xác suất chuyển trạng thái A, ma trận xác suất các ký hiệu quan sát được B và ma trận xác suất trạng thái ban đầu π, đồng thời mô hình HMM cũng tuân theo các ràng buộc thống kê: Để thuận tiện, ta dùng ký hiệu λ = (A, B, π) chỉ tập tham số của mô hình, tập tham số này xác định một giá trị xác suất cho dãy quan sát O là P(O | λ). 2. Ba vấn đề thiết yếu của HMM 21st Computer Science Seminar SE1-T3-9 Giả sử cho một HMMs λ=(A, B) và chuỗi quan sát O= O 1 , O 2 ,…, O n Tất cả các ứng dụng dựa trên mô hình Markov ẩn sẽ phải giải quyết 3 vấn đề cơ bản sau: i. Vấn đề tính toán: Làm sao để tính được P(O|λ) (xác suất của việc xuất hiện chuỗi quan sát O trong mô hình HMMs) với khối lượng tính toán tối thiểu. ii.Vấn đề ước lượng tham số cho HMM: Vấn đề này được đặt ra trong quá trình huấn luyện. Chúng ta sẽ xác định được các mô hình λ dựa vào dữ liệu huấn luyện. Làm sao xác đình được các tham số của mô hình HMM λ=(A,B) sao cho P(O|S,λ) (hoặc P(O,S|λ) là lớn nhất. iii. Vấn đề Decoding(nhận dạng): Cho một mô hình HMM λ đã được huấn luyện. Làm sao tình được chuỗi trạng thái S= s 1 , s 2 ,…, s T tương ứng với chuỗi quan sát O P(O,S|λ), sao cho xác suất của chuỗi trạng thái của chuỗi quan sát O trùng với chuỗi S là lớn nhất. 2.1 Tìm chuổi chuyển trạng thái tốt nhất – Thuật toán Viterbi : Trong bài toán 3, nếu cho trước chuỗi quan sát O = (o1, o2, ,oT) và mô hình λ= (A, B, π), ta cần xác định chuỗi trạng thái Q = {q1, q2, , qT} tương ứng là phù hợp nhất, đây chính là chuỗi chuyển trạng thái tốt nhất, điều này có nghĩa là phải tính: Q* = arg max P(Q | O, λ ) = arg max P(Q, O | λ ) Có một số điều kiện có thể cho việc tìm kiếm chuỗi trạng thái phù hợp nhất. Nó chọn các trạng thái riêng lẻ phù hợp nhất tại thời điểm khi một ký hiệu quan sát được phát ra. Thuật toán Viterbi dùng cho nhận dạng tiếng nói. Đặt λ t(i) là xác suất của mô hình phát ra ký hiệu quan sát ot là trạng thái thứ i của chuỗi quan sát O. λ t(i) = P(qt = qi | O) Nó dễ dàng nhận được: λ t (i) = αt(i) βt(i) / P( O ), với i =1, , N , t =1, , T Sau đó tại mỗi thời điểm, chúng ta có thể chọn trạng thái q t mà nó làm cực đại λ t (i). qt = arg max {λ t(i)} Thuật toán Viterbi: Thuật toán Viterbi vận hành trên một đồ thị HMM để chọn chuỗi trạng thái mà nó phù hợp cao nhất với chuỗi quan sát được, thuật toán Viterbi tránh được sự tìm kiếm trên một không gian lớn và làm giảm chi phí tính toán. Đặt δ t(i) là xác suất lớn nhất của chuỗi trạng thái có chiều dài t mà kết thúc ở trạng thái thứ i và sinh ra sinh ra quan sát đầu tiên t. δ t(i) = max{P(q1, q2, , qt-1 ; o1, o2, , ot | qt = qi ).} Thuật toán Viterbi là thuật toán qui hoạch động có các bước sau: 21st Computer Science Seminar SE1-T3- 10 Bước 1_Khởi tạo: δ1(i) = pi bi(o1) ψ1(i) = 0 , i =1, , N Bước 2_Lặp lại: For t = 1 to T-1 δt (j) = max i [δt - 1(i) aij] b j (ot) ψt(j) = arg max i [δt - 1(i) aij] Endfor Bước 3_Kết thúc: P* = max i [δT(i )] Q * T = arg max i [δT(i )] Bước 4_Kết quả, ta được chuỗi trạng thái quay lui: Q * t = ψ t+1 (Q * t+1 ), với t = T-1, T-2, … , 1 2.2 Ước lượng tham số xác xuất cho HMM – Thuật toán Baum-Welch Bài toán 2 của mô hình HMM là làm sao hiệu chỉnh tham số của mô hình λ = (A, B, π) để cực đại hóa xác suất P(O | λ) sinh ra O. Để giải quyết bài toán 2 chúng ta cần một phương pháp hiệu chỉnh các tham số lambda để tối đa hóa khả năng của tập huấn luyện. Hiện tại chưa có cách nào xác định các giá trị trong mô hình để có được xác suất chuỗi quan sát tối đa, mà chúng ta chỉ có thể ước lượng được một cực đại cục bộ bằng cách dùng thuật toán Baum- Welch (hay còn gọi là thuật toán Forward-Backward). Thuật toán Baum-Welch được dùng nhằm hạn chế sự “bùng nổ” tính toán và bảo đảm sự hội tụ cục bộ được dùng trong huấn luyện. Bài toán 2, làm sao hiệu chỉnh tham số của mô hình. Thuật toán Baum-Welch: Bước 1: Xác suất duyệt qua 1 cạnh: từ trạng thái i tại thời điểm t đến trạng thái j tại thời điểm t + 1. [...]... mỗi tín hiệu tiếng nói ở đầu vào sẽ được chuyển đổi theo thứ tự trên thành một vector ngữ âm Vector ngữ âm được sử dụng trong rất nhiều công nghệ nhận dạng tiếng nói như Dynamic Time Warpping (DTW), Hidden Makov Modeling (HMM), Vector Quantization(VQ) Ở đây, sử dụng mô hình HMM, các hệ số là các số thực đặc trưng cho tông và cao độ tiếng nói, đóng vai trò như một chuổi trạng thái trong mô hình HMM 21st... theo mô hình bộ máy phát âm của con người Nhóm này sử dụng phương pháp dự báo tuyến tính để có được các đặc trưng Nhóm 2: Các đặc trưng âm học khác nhau về cao độ, âm điệu, dấu, vị trí nhấn,…, nhóm này thích hợp với nhận dạng tiếng nói khi đang nói, xử lý thanh điệu, tâm trạng người nói, … Nhóm 3: Đặc trưng trích ra dựa vào phương pháp phân tích cepstral và phổ âm (spectral) Phương pháp phổ biến được sử. .. hiệu tiếng nói, nhằm mục đích làm sạch tín hiệu để có những thông tin cần thiết cho hệ thống nhận dạng tiếng nói Các giai đoạn của qui trình tiền xử lý được sắp xếp thứ tự như sau: • Giai đoạn làm nổi tín hiệu (Pre – Emphasis) Thực hiện bộ lọc để làm nổi tín hiệu, loại bỏ các tín hiệu không cần thiết, loại bỏ các nhiễu và giữ lại tín hiệu quan trọng của tiếng nói Giai đoạn này sử dụng các bộ lọc điển hình. .. tín hiệu tiếng nói đầu vào nên bị loại bỏ Toàn bộ quá trình xử lý Frontend trên còn được gọi là block MFCCs Công thức biến đổi Cosine rời rạc sau đây được áp dụng để tìm ra hệ số của tần số Mel: Với n= 0, 1, , L – 1, C là các hệ số phổ Mel Tập hợp các hệ số tần số Mel Cepstrum trên được gọi là một vector ngữ âm (vector acoustic) Các vector ngữ âm này được sử dụng để biểu diễn và nhận dạng tiếng nói Vì... Transform): Với biến đổi Fourier ta sử dụng cả hàm sine và cosine để mô tả tín hiệu, còn với biến đổi cosine ta chỉ dùng hàm cosine cho mô tả Giai đoạn cuối cùng của tiền xử lý tiếng nói, chúng ta áp dụng biến đổi cosine rời rạc để xác định phổ Mel (Mel Cepstrum) Có nghĩa là chúng ta sẽ chuyển đổi giá trị logarithm của phổ Mel từ miền tần số quay ngược về miền thời gian sử dụng biến đổi Cosine rời rạc Kết... để xác định các hệ số đặc trưng cho tín hiệu tiếng nói Các hệ số này được gọi là Mel Frequency Cepstrum Coefficients – MFCC • Biến đổi Cosine rời rạc trên tần số Mel 21st Computer Science Seminar SE1-T312 Biểu diễn tín hiệu tiếng nói từ tín hiệu liên tục sang tín hiệu rời rạc Quá trình tiền xử lý là không thể bỏ qua và sẽ nâng cao đáng kể chất lượng nhận dạng 3.1 Cải thiện tín hiệu – bộ lọc Wiener:... bằng cách thực hiện biến đổi Fourier rời rạc Tín hiệu tiếng nói trong thế giới thực ở dạng sóng liên tục theo chu kỳ, sóng này là tổng hợp của các sóng đường hình sin rời rạc có tần số, biên độ khác nhau, và pha của tín hiệu hình sin có tần số f tương ứng với biểu diễn đặc tính tần số, vì vậy tín hiệu có thể dùng để tổng hợp trở lại các tín hiệu hình sin ban đầu thông qua biến đổi Fourier Có 4 loại... hiệu tiếng nói thu được vốn có kích thước lớn, máy tính không thể xử lý nhận dạng trên mốt khối lượng dữ liệu như vậy Để giải quyết vấn đề này, người ta chỉ rút trích ra và xử lý những thông tin cần thiết nhất từ dãy tín hiệu thu được Các thông tin được trích ra được gọi là đặc trưng của tín hiệu gốc, các đặc trưng này có thể chia thành nhiều nhóm khác nhau: Nhóm 1: Các đặc trưng trích ra nhờ mô phỏng... Fequency) là một tần số tuyến tính nằm trong khoảng dưới 1000 21st Computer Science Seminar SE1-T315 Hz và một tần số logarithmic trên 1000 Hz Phần lớn năng lượng của tín hiệu tiếng nói nằm ở khoảng tần số thấp (dưới 1000Hz) Sử dụng công thức sắp xỉ (Young et al, 1997) dưới đây để tính Mel cho một tần số f cho trước: Sau khi chuyển đổi sang tần số Mel, phổ tín hiệu chứa ít thông tin hơn, chỉ giữ lại... khung chính là số mẫu thu được trong thời gian khảo sát (vào khoảng 25ms) Một ngữ âm được hình thành từ nhiều khung và các khung này có thể nằm chồng lên nhau Tuy nhiên, vùng chồng lấp giữa các khung không được vượt quá 75% diện tích khung để đảm bảo tính chính xác Mục đích việc cắt khung tín hiệu do tiếng nói có dạng 21st Computer Science Seminar SE1-T313 sóng và liên tục theo thời gian, để thực hiện . nhận dạng tiếng nói tiếng Việt Thuận lợi Những đặc điểm ngữ âm tiếng Việt cho thấy nhận dạng tiếng nói tiếng Việt có một số thuận lợi sau: 21st Computer Science Seminar SE1-T3-7  Tiếng. chuẩn cho việc huấn luyện và kiểm tra các hệ thống nhận dạng tiếng Việt. 21st Computer Science Seminar SE1-T3-8 II. MÔ HÌNH MARKOR ẨN VÀ NHẬN DẠNG TIẾNG NÓI 1. Giới thiệu về mô hình Markov. nhận dạng được Tiếng Việt thì ta có thể sử dụng nhiều mô hình nhưng mô hình được ứng dụng nhiều và cho kết quả tốt là mô hình Hidden Markov (HMM). Để có thể hiểu thật rõ về mô hình HMM chúng em

NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT SỬ DỤNG MÔ HÌNH MARKOV ẨN

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan