ỨNG DỤNG CỦA LÝ THUYẾT TẬP THÔ TRONG BÀI TOÁN XỬ LÝ TIẾNG NÓI

26 647 1
ỨNG DỤNG CỦA LÝ THUYẾT TẬP THÔ TRONG BÀI TOÁN XỬ LÝ TIẾNG NÓI

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1.Giới thiệu Lý thuyết tập thô (rough set theory) lần đầu tiên được đề xuất bởi Z. Pawlak và nhanh chóng được xem như một công cụ xử lý các thông tin mơ hồ và không chắc chắn. Phương pháp này đóng vai trò hết sức quan trọng trong lĩnh vực trí tuệ nhận tạo và các ngành khoa học khác liên quan đến nhận thức, đặc biệt là lĩnh vực máy học, thu nhận tri thức, phân tích quyết định, phát hiện và khám phá tri thức từ cơ sở dữ liệu, các hệ chuyên gia, các hệ hỗ trợ quyết định, lập luận dựa trên quy nạp và nhận dạng. Lý thuyết tập thô dựa trên giả thiết rằng để định nghĩa một tập hợp, chúng ta cần phải có thông tin về mọi đối tượng trong tập vũ trụ. Ví dụ, nếu các đối tượng là những bệnh nhân bị một bệnh nhất định thì các triệu chứng của bệnh tạo thành thông tin về bệnh nhân. Như vậy tập thô có quan điểm hoàn toàn khác với quan điểm truyền thống của tập hợp, trong đó mọi tập hợp đều được định nghĩa duy nhất bởi các phần tử của nó mà không cần biết bất kỳ thông tin nào về các phần tử của tập hợp. Rõ ràng, có thể tồn tại một số đối tượng giống nhau ở một số thông tin nào đó, và ta nói chúng có quan hệ bất khả phân biệt với nhau. Đây chính là quan hệ mấu chốt và là điểm xuất phát của lý thuyết tập thô : biên giới của tập thô là không rõ ràng, và để xác định nó chúng ta phải đi xấp xỉ nó bằng các tập hợp khác nhằm mục đích cuối cùng là trả lời được (tất nhiên càng chính xác càng tốt) rằng một đối tượng nào đó có thuộc tập hợp hay không. Lý thuyết tập thô với cách tiếp cận như vậy đã được ứng dụng trong rất nhiều lĩnh vực của đời sống xã hội.

LỜI MỞ ĐẦU Lý thuyết tập thô Balan Zdzilaw Pawlak đề xuất vào đầu năm 80 kỷ 19 Nó cung cấp công cụ để phân tích, suy diễn liệu không xác để phát mối quan hệ đối tượng tiềm ẩn liệu Một hướng tiếp cận tính không chắn không xác liệu Ngay từ đời, lý thuyết tập thô thu hút nhiều quan tâm ngày áp dụng rộng rãi nhiều lĩnh vực khác khoa học máy tính Lý thuyết tập thô sở quan trọng cho lĩnh vực trí tuệ nhân tạo khoa học nhận thức, đặc biệt có ý nghĩa lĩnh vực học máy, phát tri thức, phân tích định, phương pháp suy diễn nhận dạng mẫu Tập thô có đóng góp quan trọng lĩnh vực hệ chuyên gia, hệ hỗ trợ định khai phá liệu, Web ngữ nghĩa… Dưới hướng dẫn giảng viên: Ths: An Văn Minh nhóm 16 chúng em tìm hiểu đề tài “ỨNG DỤNG CỦA LÝ THUYẾT TẬP THÔ TRONG BÀI TOÁN XỬ LÝ TIẾNG NÓI” Do thời gian, luợng kiến thức tài liệu tìm kiếm hạn chế nên làm nhóm nhiều thiếu sót mong thầy bạn góp ý để làm chúng em đuợc hoàn chỉnh MỤC LỤC Chương I:Cơ sở lý thuyết 1.Giới thiệu Lý thuyết tập thô (rough set theory) lần đề xuất Z Pawlak nhanh chóng xem công cụ xử lý thông tin mơ hồ không chắn Phương pháp đóng vai trò quan trọng lĩnh vực trí tuệ nhận tạo ngành khoa học khác liên quan đến nhận thức, đặc biệt lĩnh vực máy học, thu nhận tri thức, phân tích định, phát khám phá tri thức từ sở liệu, hệ chuyên gia, hệ hỗ trợ định, lập luận dựa quy nạp nhận dạng Lý thuyết tập thô dựa giả thiết để định nghĩa tập hợp, cần phải có thông tin đối tượng tập vũ trụ Ví dụ, đối tượng bệnh nhân bị bệnh định triệu chứng bệnh tạo thành thông tin bệnh nhân Như tập thô có quan điểm hoàn toàn khác với quan điểm truyền thống tập hợp, tập hợp định nghĩa phần tử mà không cần biết thông tin phần tử tập hợp Rõ ràng, tồn số đối tượng giống số thông tin đó, ta nói chúng có quan hệ bất khả phân biệt với Đây quan hệ mấu chốt điểm xuất phát lý thuyết tập thô : biên giới tập thô không rõ ràng, để xác định phải xấp xỉ tập hợp khác nhằm mục đích cuối trả lời (tất nhiên xác tốt) đối tượng có thuộc tập hợp hay không Lý thuyết tập thô với cách tiếp cận ứng dụng nhiều lĩnh vực đời sống xã hội 2.Các Khái Niệm Cơ Bản 2.1 Hệ Thông Tin Một tập liệu thể dạng bảng, dòng thể cho trường hợp, kiện, bệnh nhân hay đơn giản đối tượng Mỗi cột bảng thể thuộc tính (là giá trị, quan sát, đặc điểm, …) “đo lường” cho đối tượng Ngoài giá trị thuộc tính cung cấp chuyên gia hay người sử dụng Một bảng gọi hệ thông tin Một cách hình thức, hệ thông tin cặp A = (U, A) U tập hữu hạn không rỗng đối tượng gọi tập vũ trụ, A tập hữu hạn không rỗng thuộc tính cho a : U → Va với a ∈ A Tập Va gọi tập giá trị thuộc tính a Ví dụ 1: Bảng liệu Bảng 1dưới cho ta ví dụ hệ thông tin Ngà y D1 D2 D3 D4 D5 D6 D7 D8 D9 Thời Tiết Nhiệt Độ Độ Ẩm Gió Nắng Mưa Nắng Nhiều Mây Nắng Mưa Nhiều Mây Nắng Mưa Nóng Lạnh Dễ Chịu Dễ Chịu Nóng Lạnh Dễ Chịu Dễ Chịu Lạnh Cao Trung Bình Trung Bình Thấp Cao Thấp Cao Trung Bình Cao Mạnh Mạnh Nhẹ Nhẹ Mạnh Mạnh Nhẹ Mạnh Mạnh Bảng 1: hệ thông tin 2.2 Hệ Quyết Định Tập vũ trụ phân chia thành tập đối tượng tập thuộc tính phân biệt gọi tập thuộc tính định Nói cách khác tập vũ trụ phân lớp thuộc tính định Hệ thông tin trường hợp gọi hệ định Như hệ định hệ thông tin có dạng A = (U, C ∪ D) A = C ∪ D, C D gọi tập thuộc tính điều kiện tập thuộc tính định hệ thông tin Ví dụ : Bảng thể hệ định, tập thuộc tính điều kiện giống Bảng thuộc tính định {Mùa } thêm vào nhận hai giá trị kết xuất “Xuân”, “Hạ”, “Thu”, “Đông” Ngà y D1 D2 D3 D4 D5 D6 D7 D8 D9 Thời Tiết Nhiệt Độ Độ Ẩm Gió Mùa Nắng Mưa Nắng Nhiều Mây Nắng Mưa Nhiều Mây Nắng Mưa Nóng Lạnh Dễ Chịu Dễ Chịu Nóng Lạnh Dễ Chịu Dễ Chịu Lạnh Cao Trung Bình Trung Bình Thấp Cao Thấp Cao Trung Bình Cao Mạnh Mạnh Nhẹ Nhẹ Mạnh Mạnh Nhẹ Mạnh Mạnh Hạ Đông Thu Xuân Hạ Đông Xuân Thu Đông Bảng 2: hệ định 2.3 Quan Hệ Bất Khả Phân Biệt 2.3.1 dư thừa thông tin Một hệ định (hay bảng định) thể tri thức đối tượng giới thực Tuy nhiên nhiều trường hợp bảng tinh giảm tồn hai khả dư thừa thông tin sau : Nhiều đối tượng giống nhau, hay phân biệt thể lặp lại nhiều lần Một số thuộc tính dư thừa, theo nghĩa bỏ thuộc tính thông tin bảng định cung cấp mà quan tâm không bị mát Ví dụ : Trong bảng Bảng 1, quan tâm tới tập thuộc tính {Nhiệt độ, Thời tiết, Độ ẩm} đối tượng ta có nhận xét : bỏ thuộc tính “Độ ẩm” mà thuộc tính “Nhiệt độ” , “Thời tiết” nhận hai giá trị “Nóng”, “Nắng” nói giá trị thuộc tính “Độ ẩm” “Cao” Ngà y D1 D2 D3 D4 D5 D6 D7 D8 D9 Thời Tiết Nhiệt Độ Độ Ẩm Gió Nắng Mưa Nắng Nhiều Mây Nắng Mưa Nhiều Mây Nắng Mưa Nóng Lạnh Dễ Chịu Dễ Chịu Nóng Lạnh Dễ Chịu Dễ Chịu Lạnh Cao Trung Bình Trung Bình Thấp Cao Thấp Cao Trung Bình Cao Mạnh Mạnh Nhẹ Nhẹ Mạnh Mạnh Nhẹ Mạnh Mạnh Bảng 1: hệ thông tin 2.3.2 Quan Hệ Tương Đương-Lớp Tương Đương Chúng ta bắt đầu xem xét vấn đề dư thừa thông tin nói qua khái niệm quan hệ tương đương Một quan hệ hai R ⊆ XxX gọi quan hệ tương đương : R quan hệ phản xạ : xRx, ∀x ∈ X R quan hệ đối xứng : xRy ⇒ yRx, ∀x, y ∈ X R quan hệ bắc cầu : xRy yRz ⇒ xRz, ∀x, y, z ∈ X Một quan hệ tương đương R phân hoạch tập đối tượng thành lớp tương đương, lớp tương đương đối tượng x tập tất đối tượng có quan hệ R với x Tiếp theo, xét hệ thông tin A = (U, A) Khi tập thuộc tính B ⊆ A tạo tương ứng quan hệ tương đương IND A : IND A (B) = {( x, x' ) ∈ U | ∀a ∈ B, a( x) = a( x' )} IND A (B) gọi quan hệ B -bất khả phân biệt Nếu ( x, x' ) ∈ IND A (B) đối tượng x x' phân biệt với qua tập thuộc tính B Với đối tượng x ∈ U, lớp tương đương x quan hệ IND A (B) kí hiệu [ x] Nếu không bị nhầm lẫn ta viết IND(B) thay cho IND A (B) Cuối cùng, quan hệ B -bất khả phân biệt phân hoạch tập đối tượng U thành lớp tương đương mà ta kí hiệu U | IND( B) Ví dụ : Tập thuộc tính {Thời tiết,Nhiệt dộ,,Độ ẩm} Bảng phân tập đối tượng {1,2, ,9} thành tập lớp tương đương sau : U | IND( B) = {{1,5}, {2 }, {3,8}, {4},{7},{6},{9} } Ta thấy, chẳng hạn, đối tượng đối tượng thuộc lớp tương đương nên chúng không phân biệt với qua tập thuộc tính {Thời tiết, Nhiệt độ, Độ ẩm} 2.3.3 Thuật toán xác định lớp tương đương Vào: Tập đối tượng B Tập thuộc tính O Ra: Tập lớp tương đương L Thuật toán : Bước 1: L = ∅ Bước 2: Nếu O = ∅ Thì : Thực bước Ngược lại : Thực bước Hết Bước 3: Xét x ∈ O P = {x} O = O \ {x} Với phần tử y ∈ O : Nếu x y phân biệt qua tập thuộc tính B Thì : P = P ∪ {y} O = O \ {y} Hết Hết với L = L ∪ {P} Bước 4: Thực bước Bước 5: Kết thúc 2.4 Xấp xỉ tập hợp Như nói, quan hệ tương đương cho ta phân hoạch đối tượng tập vũ trụ Các lớp tương đương sử dụng để tạo nên tập tập vũ trụ Các tập thường chứa đối tượng có giá trị tập thuộc tính định Trong trường hợp ta nói khái niệm, hay tập giá trị tập thuộc tính định, mô tả cách rõ ràng thông qua tập giá trị tập thuộc tính điều kiện Để làm rõ ý tưởng quan trọng ta xem ví dụ Ví dụ : Xét hệ định điều tra vấn đề da cháy nắng sau đây: STT Trọng Lượng Nhẹ Nhẹ Nặng Trung Bình Dùng Thuốc Có Có Không Không Kết Quả Không cháy nắng Không cháy nắng Cháy nắng Không cháy nắng Bảng 3: Một hệ định điều tra vấn đề da cháy nắng Trong hệ định trên, thuộc tính Kết thuộc tính định hai thuộc tính thuộc tính điều kiện Tập thuộc tính điều kiện C = {Trọng lượng, Dùng thuốc} phân hoạch tập đối tượng thành lớp tương đương : U|IND(C)={{1,2},{3},{4}} Nhận xét tất đối tượng thuộc lớp tương đương có giá trị thuộc tính định Do ta mô tả thuộc tính định sau : Kết không cháy nắng trọng lượng nhẹ có dùng thuốc trọng lượng trung bình không dùng thuốc Kết cháy nắng trọng lượng nặng không dùng thuốc Ta nói hai khái niệm Cháy nắng Không cháy nắng thuộc tính Kết định nghĩa rõ ràng qua thuộc tính Trọng lượng Dùng thuốc Tuy lúc định nghĩa khái niệm cách rõ ràng Ta có khái niệm sau: Cho hệ thông tin A = (U, A), tập thuộc tính B ⊆ A, tập đối tượng X ⊆ U Chúng ta xấp xỉ tập hợp X cách sử dụng thuộc tính B từ việc xây dựng tập hợp B -xấp xỉ B -xấp xỉ định nghĩa sau : B -xấp xỉ tập X : BX- ={x |[x]B ⊆ X} B -xấp xỉ tập X : BX+ = {x |[x]B ∩ X ≠∅} Tập hợp BX- tập đối tượng U mà sử dụng thuộc tính B ta biết chắn chúng phần tử X Tập hợp BX+là tập đối tượng U mà sử dụng thuộc tính B ta nói chúng phần tử X Tập hợp BNB (X) = BX+ \BX- gọi B -biên tập X chứa đối tượng mà sử dụng thuộc tính B ta xác định chúng có thuộc tập X hay không 10 Nếu k = ta nói D phụ thuộc hoàn toàn vào C, ngược lại k < ta nói D phụ thuộc phần vào C với độ phụ thuộc k Có thể nhận thấy D phụ thuộc hoàn toàn vào C IND(C) ⊆ IND(D) Điều có nghĩa phân hoạch tạo tập thuộc tính C mịn phân hoạch tạo D 2.6 Rút gọn thuộc tính Trong phần 2.3 chúng đề cập đến hai khả dư thừa hệ thông tin, : Các đối tượng giống theo tập thuộc tính quan tâm lặp lại nhiều lần Một số thuộc tính bỏ mà thông tin quan tâm bảng định cung cấp không bị mát Với trường hợp thứ nhất, khái niệm lớp tương đương hiển nhiên cho ta tiếp cận tự nhiên việc tinh giảm thông tin cần lưu trữ hệ thông tin : cần sử dụng đối tượng để đại diện cho lớp tương đương Trong phần nghiên cứu tiếp cận cho loại dư thừa thông tin thứ hai, giữ lại thuộc tính bảo toàn quan hệ bất khả phân biệt, bảo toàn khả xấp xỉ tập hợp hệ thông tin Xét hệ thông tin A = (U, A) hai tập thuộc tính P, Q ⊆ A Thuộc tính a ∈ P gọi bỏ (dispensible) P IND(P) = IND(P −{a}), ngược lại ta nói a bỏ (indispensible) P Rõ ràng thuộc tính bỏ không làm tăng / giảm khả phân loại có / mặt thuộc tính P Tập tất thuộc tính bỏ P gọi lõi (core) P, ký hiệu CORE(P) Lưu ý lõi tập rỗng, tập P với lực lượng card (P) − giữ nguyên khả phân loại P 12 Khi loại khỏi P số thuộc tính bỏ ta tập rút gọn P Nói cách khác, rút gọn tập thuộc tính P tập thuộc tính B ⊆ P giữ nguyên khả phân loại P, hay IND(B) = IND(P) Dễ dàng thấy rằng, lõi P tập thuộc tính bỏ P nên tất rút gọn P chứa tập thuộc tính lõi Một rút gọn B tập thuộc tính P gọi rút gọn hoàn toàn với tập thuộc tính B'⊂ B, B ' không rút gọn P Như rút gọn hoàn toàn tập thuộc tính nhỏ tất rút gọn có P ký hiệu RED(P) Tính chất : Tập thuộc tính lõi P giao tất rút gọn hoàn toàn P, tức CORE(P) = ∩ RED(P) POS{P− a}(Q), ngược lại Q - bỏ (Q-indispensible) Tập tất thuộc tính Q - bỏ P gọi Q - lõi tương đối (Q - relative core) Thuộc tính a gọi Q - bỏ (Q - dispensible) P POSP(Q) = P hay Q - lõi (Q - core) P ký hiệu COREQ (P) Tập thuộc tính B ⊆ P gọi Q - rút gọn (Q - reduct) P POSB (Q) = POSP (Q) Một tập Q - rút gọn B P Q - rút gọn hoàn toàn với tập thuộc tính B'⊂ B, B ' không Q - rút gọn P Như vậy, Q rút gọn hoàn toàn P tập thuộc tính nhỏ tất Q - rút gọn P ký hiệu REDQ (P) Tính chất : Tập thuộc tính Q - lõi P giao tất tập thuộc tính Q -rút gọn tương đối P , tức : COREQ(P) = ∩ REDQ(P) 13 2.7 Ma trận phân biệt Định nghĩa : Xét hệ thông tin Σ = (U, A) giả sử B ⊆ A Ta định nghĩa ma trận B phân biệt được, kí hiệu M(B), ma trận đối xứng cấp n× n mà phần tử xác định sau: cij = { } a ∈ B : a(xi ) ≠ a(x j ) , i, j = 1,n Mỗi phần tử ma trận cij tập hợp thuộc tính để phân biệt hai đối tượng xi xj 14 Chương II: Ứng dụng lý thuyết tập thô toán xử lý tiếng nói 1.Tổng quan Âm dạng tín hiệu tương tự, để lưu trữ máy tính làm máy tính hiểu phải số hóa Dữ liệu âm co hai dạng âm nén âm không nén Âm dạng nén có hai loại nén có mát nén mát Để chuyển âm từ dạng tương tự dạng số, âm cần lấy mẫu Trong xử lý tín hiệu lấy mẫu chuyển đổi tín hiệu liên tục thành tín hiệu rời rạc Có thể hiểu đơn giản biến dổi sóng âm thành chuỗi mẫu, mẫu chứa giá trị tập hợp giá trị trục thời gian Vector đặc trưng xử lý tiếng nói Tiếng nói thu vốn có kích thước khán lớn, máy tính cá nhân gần không đủ nhớ cho trình xậy dựng mô nhận dạng lượng liệu lớn Để giải vấn đề người ta tríc rút thông tin cần thiết từ dãy tín hiệu mà ta thu Các tín hiệu gọi đặc trưng tín hiệu gốc hay tín hiệu âm Các đặc trưng nayfphair thỏa mãn điều kiện sau: - Nhỏ nhiều lần so với tín hiệu gốc Có khả diễn đạt thông tin tiếng nói ban đầu Ít thay đổi theo môi trường, độ ồn Có nhiều đặc chưng, ta chia làm ba nhóm đặc chưng chính: 15 Đặc trưng trích nhờ mô máy phát âm người Các đặc trưng nhóm sử dụng phương pháp dự báo tuyến tính để rút đặc trưng Các đặc trưng nhóm như: - COR: đưa bới Box Jenkins năm 1976 LPC: đưa Atal Itakura năm 1970 Đặc trưng trích nhờ kha cảm nhận thính giác người Các đặc trưng nhóm sử dụng phương pháp phân tích cepstral(phép biến đổi fourier phổ lượng tín hiệu) Các đặc trưng nhóm như: - LSP: đưa Fumitada Itakura năm 1970 MFCC: đưa bới Bridle Brow năm 1970 Đặc trưng dựa âm học cao độ, ngữ điệu, dấu nhấn, thíc hợp cho nhận dạng ngôn ngữ nói Các đặc trưng nhóm sử dụng cho nhận dạng âm tiết mà đa phần hai nhóm đầu Lấy mẫu Hàm lấy mẫu cầu nối hệ thống rời rạc hệ thống liên tục Nó gọi là: hàm Dirac Delta, hàm sàng lọc,… Đối với máy tính, lấy mẫu đơn giản theo chu kỳ thời gian (đối với tín hiệu âm dạng tương tự), chu kỳ không gian (đối với tín hiệu ảnh dạng tương tự) ta đo tín hiệu lần Quá trình tạo chuỗi số biểu diễn cho tín hiệu, xử lý máy tính 16 Hình 1: Ví dụ lấy mẫu tín hiệu f(t) miền thời gian 4.lọc tín hiệu Bộ lọc số có vai trò quan trọng xử lý tiếng nói, chúng dùng với mục đích chính: Tách tín hiệu cần thiết: Các tín hiệu ban đầu thường chứa đựng nhiễu tín hiệu không mong muốn khác, nhiễu làm giảm đáng kể chất lượng tín hiệu cần phải tách riêng tín hiệu cần thiết Ví dụ: Đối với âm thu, tín hiệu âm thường chứa thêm tếng ồn môi trường, chẳng hạn tếng ồ quạt trần thổi vào micro; ảnh chụp điểm lốm đốm ảnh cũ quét vào… Khôi phục tín hiệu bị biến dạng: Có số trường hợp nguyên nhân (thường nguyên nhân liên quan đến thiết bị) tạo tín hiệu vào bị méo mó Vì cần phải chỉnh lại để tăng chất lượng tín hiệu số Ví dụ: Các micro cũ cho tín hiệu âm không tốt; “con mắt” (forcus len) máy quét bị mờ làm cho ảnh quét bị mờ theo Trong thực tế kỹ thuật, có hai lọc tuyến tính dùng để lọc tín hiệu: 17 Bộ lọc đáp ứng xung hữu hạn (Finite Impulse Response – FIR): hệ có tín hiệu phụ thuộc vào tín hiệu vào nên hệ gọi mạch không truy hồi hay mạch không đệ qui (non-recursive) Bộ lọc đáp ứng xung vô hạn (Infinite Impulse Response – IIR): hệ xử lý có đáp ứng xung có độ dài vô hạn hay đáp ứng xung vô hạn Tín hiệu phụ thuộc vào tín hiệu vào mà phụ thuộc vào khứ tín hiệu ra, chúng gọi mạch có truy hồi hay đệ qui rút trích đặc trưng Đối với hệ nhận dạng tiếng, việc rút trích vector đặc trưng tiếng nói cần thiết Điều giúp giảm thiểu số lượng liệu việc huấn luyện nhận dạng, dẫn đến số lượng công việc tính toán hệ giảm đáng kể Bên cạnh đó, việc rút trích đặc trưng làm rõ khác biệt tiếng so với tiếng khác, làm mờ khác biệt hai lần phát âm khác tiếng Bước thực phân tích phổ (spectral analysis) nhằm xác định thông tin quan trọng, đặc trưng, ổn định tín hiệu tiếng nói, tối thiểu hóa ảnh hưởng nhiễu; xúc cảm, trạng thái, cách phát âm người nói; giảm khối lượng liệu cần xử lý 18 Sơ đồ rút trích đặc trưng tổng quát: Hình 2: Sơ đồ rút trích vector đặc trưng tổng quát Các bước rút trích đặc trưng: Bước 1:làm rõ tín hiệu Bước 2:phân khung Bước 3:lấy cửa sổ Bước 4:phân tích đặc trưng Bước 5: đưa vector đặc trưng 19 Sơ đồ bước rút trích đặc trưng: Hình 3: Sơ đồ rút trích đặc trưng chi tiết 6.trích trọn đặc trưng MFCC MFCC phương pháp trích đặc trưng dựa đặc điểm cảm thụ tần số âm tai người: tuyến tính tần số nhỏ 1kHz phi tuyến tần số 1kHz (theo thang tần số Mel, theo Hz) 20 Đối với phương pháp MFCC, việc tính đặc trưng có sơ đồ sau: Hình 2.17 Các bước tính đặc trưng MFCC 21 6.1 Tiền nhấn (Pre-emphasis): Chúng ta biết phổ tiếng nói hữu có khuynh hướng suy giảm toàn -6 dB/octave tần số tăng lên Điều khuynh hướng suy giảm -12 dB/octave nguồn kích âm hữu tăng lên +6 dB/octave phát âm miệng Do cần phải bù +6 dB/octave toàn băng tần Điều gọi pre-emphasis tín hiệu Trong xử lý tín hiệu số, dùng lọc thông cao có tần số cắt dB tần số phạm vi từ 100 Hz đến 1k Hz Phương trình sai phân: y(n) = x(n) -a*x(n) Trong y(n) mẫu lọc pre-emphasis, x(n) mẫu vào tại, x(n-1) mẫu vào trước a số thường chọn 0.9 Lấy biến z phương trình trên: Y(z)=X(z) -az-1X(z)=(1 -az-1)X(z) Trong z-1 toán tử trễ mẫu đơn vị Suy hàm truyền H(z) lọc: �(�)=�(�)�(�)=1−��−1 6.2 Cửa sổ hóa (Windowing): Đầu tiên tín hiệu tiếng nói x(n) chia thành frame (có thực chồng phủ phần lên -overlap) để T frame x’t(n) Công việc cửa sổ hoá thực cách nhân tín hiệu tiếng nói với hàm cửa sổ Gọi phương trình cửa sổ hóa w(n) (0≤ n ≤ N-1; N: số mẫu frame tín hiệu), tín hiệu sau cửa sổ hóa Xt(n): Xt(n) =x’t(n).w(n) Hàm cửa sổ thường dựng hàm cửa sổ Hamming: �(�)=0.54−0.46cos(2���);�=0 �−1 22 6.3.Biến đổi Fourier nhanh (Fast Fourier Transform -FFT): Phổ tín hiệu sau nhân với cửa sổ Hamming sử dụng phép biến đổi Fourier nhanh Ta thu biên độ phổ chứa thông tin có ích tín hiệu tiếng nói Biến đổi Fourier nhanh -FFT (Fast Fourier Transform) thuật toán hiệu để tính DFT chuỗi số Ưu điểm chỗ nhiều tính toán lặp lại tính tuần hoàn số hạng Fourier �−�2���� Dạng DFT là: �(�)=Σ�(�).�−�2�����−1� 6.4 Lọc qua lọc Mel-scale : Các nghiên cứu hệ thống thính giác người cho thấy, tai người có cảm nhận độ lớn tần số không theo thang tuyến tính Các đặc trưng phổ tần số tiếng nói tai người tiếp nhận ngõ dãy lọc Tần số trung tâm lọc không phân bố tuyến tính dọc theo trục tần số Thành phần phổ kHz thường tập trung nhiều lọc chứa nhiều thông tin âm Ở tần số thấp lọc băng hẹp sử dụng để tăng độ phân giải tần số để có tần số họa tần vốn ổn định, tần số cao lọc thông băng rộng sử dụng để thu thành phần tần số cao vốn biến động nhanh Với nỗ lực nhằm mô tả xác tiếp nhận tần số tai người, thang tần số xây dựng -thang tần số Mel dựa sở thực nghiệm cảm nhận nghe người Tần số kHz chọn 1000 Mel Mối quan hệ thang tần số thực (vật lý) thang tần số Mel (sinh lý) cho công thức: ����=2595log10(1+���700) với FMel tần số sinh lý, đơn vị Mel; FHz đơn vị tần số thực, đơn vị Hz Tần số trung tâm lọc thứ m xác định bởi: fm = fm-1 + Δfm 23 Trong đó: - fm tần số trung tâm lọc thứ m fm-1 tần số trung tâm lọc thứ m -1 Δfm băng thông lọc thứ m Δfm xác định: Với khoảng tần số kHz, fm chọn cho có khoảng 10 lọc phân bố cách khoảng Với khoảng tần số 1kHz, fm thường tính : fm = 1.2* fm -1 Kết sau cho phổ tín hiệu Xt(k) qua lọc ta thu Yt(m) 6.5 Tính log lượng phổ: Sau qua lọc Mel, phổ tín hiệu Yt(m) tính Log10 theo: log{|Yt(m)|2} 6.6 Biến đổi Cosine rời rạc: Bước cuối để thu hệ số MFCC lấy biến đổi Cosine rời rạc kết cho (2.65): ��(�)(�)=Σlog{|��(�)|2}cos(�(�−12)��)��=1 Thông thường số điểm rời rạc k biến đổi ngược chọn ≤ k ≤ 12 Các hệ số MFCC số điểm rời rạc này, ta có 1-12 hệ số MFCC 24 TỔNG KẾT Trên dây nhóm 16 chúng em tìm hiểu ứng dụng lý thuyết tập thô toán xử lý tiếng nói qua việc trích rút vector đặc trưng phương pháp MFCC Do thời gian có hạn việc tìm kiếm tài liệu việc ứng dụng lý thuyết tập thô vào toán nhận dạng gặp nhiều hạn chế nên tập lớn nhóm em nhiều thiếu sót, mong nhận đóng góp từ thầy bạn lớp để tập lớn chúng em hoàn thiện Em xin chân thành cảm ơn! 25 Tài liệu tham khảo Lý thuyết tập thô ứng dụng Luận văn “nhận dạng tiếng nói” th.s Huỳnh Thanh Giầu Luận văn tốt nghiệp “tiếp cận lý thuyết tập thô Z.Pawlak.” Luận văn “nhận dạng tiếng nói việt tìm hiểu ứng dụng” Nguyễn Hồng Quang 26 [...]... ứng dụng lý thuyết tập thô vào bài toán nhận dạng còn gặp nhiều hạn chế nên bài tập lớn của nhóm em còn nhiều thiếu sót, mong nhận được sự đóng góp từ thầy và các bạn trong lớp để bài tập lớn của chúng em được hoàn thiện hơn Em xin chân thành cảm ơn! 25 Tài liệu tham khảo Lý thuyết tập thô và ứng dụng Luận văn “nhận dạng tiếng nói của th.s Huỳnh Thanh Giầu Luận văn tốt nghiệp “tiếp cận lý thuyết tập. .. MFCC là lấy biến đổi Cosine rời rạc của kết quả cho bởi (2.65): ��(�)(�)=Σlog{|��(�)|2}cos(�(�−12)��)��=1 Thông thường số điểm rời rạc k của biến đổi ngược này được chọn 1 ≤ k ≤ 12 Các hệ số MFCC chính là số điểm rời rạc này, ta có thể có 1-12 hệ số MFCC 24 TỔNG KẾT Trên dây nhóm 16 chúng em đã tìm hiểu về ứng dụng của lý thuyết tập thô trong bài toán xử lý tiếng nói qua việc trích rút vector đặc trưng.. .Tập hợp U \ BX được gọi là B -ngoài của tập X , gồm những đối tượng mà sử dụng tập thuộc tính B ta biết chắc chắn chúng không thuộc tập X Một tập hợp được gọi là thô nếu đường biên của nó là không rỗng, ngược lại ta nói tập này là rõ Lưu ý rằng do khái niệm biên của một tập đối tượng gắn liền với một tập thuộc tính nào đó nên khái niệm thô hay rõ ở đây cũng gắn liền với tập thuộc tính đó Trong. .. năng phân loại của P 12 Khi loại ra khỏi P một số thuộc tính có thể bỏ được thì ta được một tập rút gọn của P Nói cách khác, rút gọn của một tập thuộc tính P là tập thuộc tính B ⊆ P giữ nguyên khả năng phân loại của P, hay IND(B) = IND(P) Dễ dàng thấy rằng, vì lõi của P là tập các thuộc tính không thể bỏ được của P nên tất cả các rút gọn của P đều chứa tập thuộc tính lõi Một rút gọn B của tập thuộc tính... xứng cấp n× n mà mỗi phần tử của nó được xác định như sau: cij = { } a ∈ B : a(xi ) ≠ a(x j ) , i, j = 1,n Mỗi phần tử của ma trận cij là tập hợp các thuộc tính để phân biệt hai đối tượng xi và xj 14 Chương II: Ứng dụng của lý thuyết tập thô trong bài toán xử lý tiếng nói 1.Tổng quan Âm thanh là dạng tín hiệu tương tự, nhưng để có thể lưu trữ trên máy tính cũng như làm máy tính có thể hiểu được nó thì... lượng công việc tính toán trong hệ giảm đáng kể Bên cạnh đó, việc rút trích đặc trưng còn làm rõ sự khác biệt của tiếng này so với tiếng khác, làm mờ đi sự khác biệt của cùng hai lần phát âm khác nhau của cùng một tiếng Bước này thực hiện các phân tích phổ (spectral analysis) nhằm xác định các thông tin quan trọng, đặc trưng, ổn định của tín hiệu tiếng nói, tối thiểu hóa ảnh hưởng của nhiễu; xúc cảm,... dispensible) trong P nếu POSP(Q) = của P hay Q - lõi (Q - core) của P và được ký hiệu là COREQ (P) Tập thuộc tính B ⊆ P được gọi là Q - rút gọn (Q - reduct) của P khi và chỉ khi POSB (Q) = POSP (Q) Một tập Q - rút gọn B của P là Q - rút gọn hoàn toàn nếu với mọi tập thuộc tính B'⊂ B, B ' không là Q - rút gọn của P Như vậy, Q rút gọn hoàn toàn của P là tập thuộc tính nhỏ nhất trong tất cả các Q - rút gọn của. .. tính trong C Nói cách khác, D phụ thuộc hoàn toàn vào C nếu tồn tại một ánh xạ từ các giá trị của tập C tới các giá trị của tập D Khái niệm phụ thuộc thuộc tính được thể hiện dưới dạng hình thức như sau: Cho C và D là các tập con của tập thuộc tính A Ta nói D phụ thuộc C với độ phụ thuộc k (0 ≤ k ≤1), kí hiệu C ⇒k D nếu : k=ảnh long gõ được gọi là C -vùng dương của D Đây là tập các đối tượng của U... trong việc tinh giảm thông tin cần lưu trữ trong một hệ thông tin : chỉ cần sử dụng một đối tượng để đại diện cho mỗi lớp tương đương Trong phần này chúng ta nghiên cứu tiếp cận cho loại dư thừa thông tin thứ hai, đó là chỉ giữ lại những thuộc tính bảo toàn quan hệ bất khả phân biệt, và do đó bảo toàn khả năng xấp xỉ tập hợp trong một hệ thông tin Xét hệ thông tin A = (U, A) và hai tập thuộc tính P, Q... mọi tập thuộc tính B'⊂ B, B ' không là rút gọn của P Như vậy rút gọn hoàn toàn là tập thuộc tính nhỏ nhất trong tất cả các rút gọn có thể có của P và được ký hiệu là RED(P) Tính chất : Tập thuộc tính lõi của P là giao của tất cả các rút gọn hoàn toàn của P, tức là CORE(P) = ∩ RED(P) POS{P− a}(Q), ngược lại là Q - không thể bỏ được (Q-indispensible) Tập tất cả các thuộc tính Q - không thể bỏ được trong

Ngày đăng: 06/04/2016, 11:39

Từ khóa liên quan

Mục lục

  • LỜI MỞ ĐẦU

  • MỤC LỤC

  • Chương I:Cơ sở lý thuyết

    • 1.Giới thiệu

    • 2.Các Khái Niệm Cơ Bản

      • 2.1 Hệ Thông Tin

      • 2.2 Hệ Quyết Định.

        • 2.3 Quan Hệ Bất Khả Phân Biệt

          • 2.3.1 sự dư thừa thông tin

          • 2.3.2 Quan Hệ Tương Đương-Lớp Tương Đương

          • 2.3.3. Thuật toán xác định lớp tương đương

          • 2.4 Xấp xỉ tập hợp

          • 2.5 Sư phụ thuộc giữa các tập thộc tính

          • 2.6 Rút gọn thuộc tính.

            • 2.7 Ma trận phân biệt.

            • Chương II: Ứng dụng của lý thuyết tập thô trong bài toán xử lý tiếng nói.

              • 1.Tổng quan.

              • 2. Vector đặc trưng trong xử lý tiếng nói

              • 3. Lấy mẫu.

              • 4.lọc tín hiệu.

              • 5. rút trích đặc trưng.

              • 6.trích trọn đặc trưng MFCC.

                • 6.1. Tiền nhấn (Pre-emphasis):

                • 6.2. Cửa sổ hóa (Windowing):

                • 6.3.Biến đổi Fourier nhanh (Fast Fourier Transform -FFT):

                • 6.4. Lọc qua bộ lọc Mel-scale :

                • 6.5. Tính log năng lượng phổ:

                  • 6.6. Biến đổi Cosine rời rạc:

Tài liệu cùng người dùng

Tài liệu liên quan