Về giải thuật k means suy rộng và thử nghiệm nhập điểm tiếng nói tiếng việt

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Hoàng Thị Lan Phương VỀ GIẢI THUẬT K-MEANS SUY RỘNG VÀ THỬ NGHIỆM NHẬP ĐIỂM TIẾNG NÓI TIẾNG VIỆT Chuyên ngành: Truyền liệu Mạng máy tính Mã số: 60.48.15 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – 2012 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS TS Nguyễn Quang Hoan ……………………… Phản biện 1: …………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Giải thuật phân chùm K-Means giải thuật đánh giá cao khai phá liệu (Data Mining) Nó áp dụng toán thực tế lĩnh vực nhận dạng mẫu, phân tích phân loại, xử lý ảnh Tuy nhiên, giải thuật K-Means có nhũng hạn chế định tập liệu đầu vào số chiều chúng lớn Từ đó, có đề xuất nhằm tăng tính hiệu giải thuật K-Means, gọi K-Means suy rộng Trong phạm vi đề tài tập trung nghiên cứu giải thuật K-Means, vấn đề liên quan cải tiến giải thuật K-Means suy rộng Từ ứng dụng cho liệu nhận dạng tiếng nói Luận văn khơng có tham vọng giải tồn vấn đề nhận dạng tiếng nói mà đưa cách tiếp cận sở cải tiến hạn chế giải thuật K-Means kinh điển sử dụng KD-tree giải thuật lọc nhận dạng tín hiệu Từ áp dụng để nhập điểm mơn học tiếng nói tiếng việt, cụ thể điểm từ đến 10 Kết nghiên cứu thực nội dung đề tài thể luận văn với nội dung sau: Ngồi phần Mở đầu Kết luận, nội dung chia làm chương: Chương 1: Giới thiệu giải thuật K-Means Chương 2: Giải thuật K-Means suy rộng Chương 3: Ứng dụng giải thuật K-Means suy rộng cho nhận dạng liệu tiếng nói tiếng việt Chương 4: Phân tích, thiết kế, cài đặt hệ thống thử nghiệm Chương - GIỚI THIỆU GIẢI THUẬT K-MEANS Thuật toán K-Means clustering giải thuật học không giám sát thông dụng phân nhóm liệu Với mục tiêu chia tập gồm n đối tượng sở liệu thành k vùng (k n nguyên, dương) cho đối tượng vùng có khoảng cách bé cịn đối tượng khác vùng có khoảng cách lớn nhiều Về nguyên lý, có n đối tượng, đối tượng có m thuộc tính, ta phân chia đối tượng thành k nhóm dựa thuộc tính đối tượng việc áp dụng thuật tốn Giải thuật K-Means phân nhóm liệu dựa khoảng cách Euclidean nhỏ đối tượng đến phần tử trung tâm nhóm Phần tử trung tâm nhóm xác định giá trị trung bình phần tử nhóm 1.1 Các khái niệm 1.1.1 Khoảng cách Euclidean Ta giả sử: ai=(xi1, xi2, xim) cj=(xj1, xj2, xjm) - đối tượng thứ i cần phân phân loại, (i=1 n) - phần tử trung tâm nhóm j (j=1 k) Khoảng cách Euclidean từ đối tượng đến cj (phần tử trung tâm nhóm j) tính tốn dựa cơng thức: m δ ji   (x is  x js ) ( 1.2) s 1 Trong đó: ji - khoảng cách Euclidean từ đến cj xis - thuộc tính thứ s đối tượng xjs - thuộc tính thứ s phần tử trung tâm cj 1.1.2 Phần tử trung tâm k phần tử trung tâm (k nhóm) ban đầu chọn ngẫu nhiên, sau lần nhóm đối tượng vào nhóm, phần tử trung tâm tính tốn lại Clusteri = {a1, a2 at} – Nhóm thứ i i=1 k, k số số nhóm cần phân chùm ; j= m, m số thuộc tính t - số phần tử có nhóm thứ I; xsj - thuộc tính thứ j phần tử s s=1 t t x cij - toạ độ thứ j phần tử trung tâm nhóm i; cij  sj s 1 t 1.2 Giải thuật K-Means Đầu tiên, ta xác định số lượng K nhóm giả thiết trọng tâm hay tâm nhóm Thuật tốn k means thực sau : - Khởi tạo k phần tử trung tâm cách ngẫu nhiên - Thực ba bước sau hội tụ, tức tất đối tượng phân loại khơng cịn cịn thay đổi đối tượng đến nhóm: Bước 1: Xác định khoảng cách Euclidean đối tượng đến phần tử trọng tâm Bước 2: Nhóm đối tượng vào cluster dựa khoảng cách nhỏ đối tượng với phần tử trọng tâm Bước 3: Tính tốn lại phần tử trọng tâm nhóm dựa vào đối tượng nhóm 1.3 Sự hội tụ độ phức tạp giải thuật K-Means Nếu số phần tử liệu cần phân nhóm số nhóm cần phân ta gán phần tử liệu tâm nhóm, nhóm có phần tử Nếu số lượng phần tử liệu mà lớn số nhóm cần phân, phần tử, ta tính khoảng cách tới tất tâm lấy khoảng cách nhỏ Phần tử coi thuộc nhóm khoảng cách từ tới tâm nhóm nhỏ Toạ độ trọng tâm nhóm điều chỉnh lại dựa liệu vừa cập nhật Sau ta gán tất liệu vào tâm Quá trình lặp lại khơng có thay đổi liệu tới nhóm khác Thuật tốn chứng minh hội tụ Độ phức tạp giải thuật K-Means: Số ô nhớ cần dùng để lưu trữ đối tượng O(mn) m số đối tượng n số chiều (hay số thuộc tính) đối tượng Giải thuật K-Means có độ phức tạp theo thời gian O(nkl), n số lượng mẫu , k số nhóm l số lượng vịng lặp tạo thuật toán hội tụ Thường, k l cố định thuật tốn có độ phức tạp theo thời gian theo đường thẳng tuyến tính 1.4 Kết luận chương Giải thuật K-Means giải thuật kinh điển ứng dụng nhiều thuật toán tiếng sử dụng nhiều hướng tiếp cận phân nhóm phân hoạch Tuy nhiên , giải thuật K-Mean có hạn chế sau: - Số lượng nhóm k phải xác định cứng trước việc xác định không dễ - Điều kiện khởi tạo có ảnh hưởng lớn đến kết Điều kiện khởi tạo khác cho kết phân nhóm khác Điều dẫn đến hội tụ tới điểm cực tiểu địa phương - Không xác định mức độ ảnh hưởng thuộc tính đến q trình tạo nhóm - Khi điểm số chiều điểm tập liệu lớn, giải thuật thực với số lượng lớn vịng lặp Điều khiến việc thực giải thuật KMeans khó khả thi Để khắc phục hạn chế nêu trên, phương pháp xem xét sử dụng cấu trúc liệu dạng đa chiều, gọi KD (KD-Tree) để lưu trữ tập hữu hạn điểm không gian d chiều làm tăng hiệu xử lý giải thuật K-Means CHƯƠNG - GIẢI THUẬT K-MEANS SUY RỘNG Để cải tiến hiệu giải thuật K-Means, có nhiều phương pháp đưa phương pháp ngẫu nhiên CLARAN, CLARANS hay phương pháp nhằm tăng hiệu hoạt động thuật toán với liệu lớn BDSCAN hay ScaleKM[12] Trong giải thuật phân nhóm K-Means, ta đưa tập n điểm liệu không gian d chiều Rd số k nguyên dương Vấn đề giải thuật phải xác định tập k điểm Rd Trong chương ta nghiên cứu cải tiến khác giải thuận KMeans Lloy đề xuất (ta gọi giải thuật K-Means suy rộng) Giải thuật cịn có tên giải thuật lọc (Filtering Algorithm) Giải thuật sử dụng cấu trúc liệu nhị phân k chiều (K-Dimensional Tree) – cấu trúc liệu phân vùng cho tập hợp điểm không gian k chiều Các điểm liệu cần phân nhóm giải thuật KMeans đưa vào cấu trúc KD-Tree 7 2.1 Các khái niệm liên quan 2.1.1 Cây KD-Tree Cây KD-Tree sử dụng giải thuật lọc Lloyd có đặc điểm sau:  Là nhị phân  Mỗi nút biểu diễn tập điểm cần phân nhóm, tập gọi Ơ (Cell) lưu giữ: o Siêu chữ nhật (Hyper-Rectangle) nhỏ bao tất điểm tập o Vector tổng tất điểm tập o Số lượng điểm tập  Một Ô chứa nhiều điểm  Nút gốc chứa siêu chữ nhật bao tập liệu chứa toàn điểm cần phân nhóm  Mỗi nút cây: Ô chia thành siêu chữ nhật (tạo trái phải kd) siêu phẳng chia tách Có nhiều cách chọn siêu phẳng chia tách Ta chia cách trực giao tới cạnh dài Ô qua trọng tâm điểm Ô Ở ta sử dụng phương pháp chia để tạo siêu chữ nhật có tên Sliding-Midpoint.[4,8] 2.1.2 Phương pháp chia tách Sliding-Midpoint Nội dụng phương pháp tóm tắt sau: Đầu tiên, thực phép chia điểm siêu phẳng chia tách qua tâm Ơ vng góc với cạnh dài Ơ Nếu điểm liệu nằm phía siêu phẳng siêu phẳng trì Tuy nhiên, tất điểm nằm phía siêu phẳng chia tách thực “trượt” mặt phẳng cắt phía điểm gặp điểm liệu Trong không gian k chiều, phép chia thực trực giao với toạ độ thứ i, tất điểm liệu có toạ độ thứ i mà lớn toạ độ thứ i mặt phẳng chia mặt phẳng chia dịch chuyển toạ độ thứ i toạ độ thứ i nhỏ số điểm liệu Gọi điểm p1 Sau đó, điểm p1 nằm nửa Ô, tất điểm liệu lại nằm nửa lại Ô Thực luật đối xứng tất điểm Ơ có toạ độ thứ i nhỏ toạ độ thứ i mặt phằng chia[8] 8 2.2 Giải thuật lọc Giải thuật Lloyd dựa quan sát đơn giản thay tối ưu cho tâm nhóm trọng tâm (Centroid) nhóm tương ứng Giả sử, cho tập Z chứa k tâm Với tâm zZ, gọi V(z) lân cận nó, V(z) tập điểm liệu mà z lân cận gần Mỗi giai đoạn giải thuật thực chuyển tất điểm tâm z tới trọng tâm tập V(z) sau cập nhật lại V(z) việc tính lại khoảng cách từ điểm tới tâm gần Các bước lặp lại điều kiện hội tụ đạt Giải thuật hội tụ tới điểm cực tiểu địa phương sai số 2.3 Độ phức tạp giải thuật Nội dung phần trình bày cách phân tích thời gian tiêu hao giai đoạn giải thuật lọc Cách phân tích trường hợp xấu theo truyền thống khơng cịn thích hợp với trường hợp đây, nguyên tắc, giải thuật gặp phải đoạn kịch mà chuyển thành tìm kiếm mạnh mẽ Độ phức tạp thời gian giải thuật Lọc không tăng theo đường thẳng số lượng điểm số lượng nhóm trường hợp giải thuật K-Means truyền thống Giải thuật phù hợp số lượng điểm tâm lớn Số lượng nút mở rộng vòng lặp K-Means giải thuật lọc 0(nk2/2) Với  phân tách nhóm Do vậy, độ phức tạp thời gian K-Means giảm nhanh  tăng Điều trái ngược với độ phức tạp 0(nk) vòng lặp K-Means đơn vòng lặp giải thuật K-Means truyền thống với cấp độ phân tách 2.4 Kết luận chương Trong chương ta nghiên cứu cải tiến khác giải thuận K-Means Lloy đề xuất (ta gọi giải thuật K-Means suy rộng) Giải thuật sử dụng cấu trúc liệu nhị phân k chiều (K-Dimensional Tree) Theo nghiên cứu Jim Z.A Lai Yi – Ching Liaw áp dụng giải thuật vào việc phân nhóm mẫu ảnh kết luận giải thuật tăng hiệu rõ rệt so với giải thuật K-Means truyền thống, cụ thể thời gian tính toán giảm từ 5,9 ->39,8% Dựa việc xem xét này, ta có sở để xem xét việc áp dụng giải thuật vào toán nhận dạng tiếng nói với ứng dụng cụ thể nhập điểm môn học, chi tiết việc áp dụng thuật tốn trình bày chương chương 10 CHƯƠNG - ỨNG DỤNG GIẢI THUẬT K-MEANS SUY RỘNG CHO NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT 3.1 Khái quát tiếng Việt Tiếng Việt tiếng đơn âm có ranh giới cố định, mang điệu, có cấu trúc đơn giản, có âm tiết trùng với hình vị, đơn vị nhỏ có tổ chức mang ý nghĩa ngữ pháp Tiếng Việt có điệu là: huyền, sắc, hỏi, ngã, nặng không dấu Mỗi tham gia vào việc cấu tạo từ tạo nghĩa cho từ Âm tiết tiếng Việt dạng đầy đủ bao gồm thành phần có mức độ độc lập khác âm đầu, âm âm cuối Trong ngun âm điệu hạt nhân âm tiết Từ cụm từ đơn vị cấu tạo nên câu[3] 3.1.1 Đơn vị cho hệ thống nhận dạng tiếng nói tiếng Việt Trong tất ngơn ngữ, từ đơn vị nhỏ tiếng nói từ mục tiêu hệ thống nhận dạng tiếng nói Ngồi ra, mơ hình âm vị mơ hình âm đầu + vần đơn vị sử dụng hệ thống nhận dạng tiếng Việt dựa cấu tạo thành phần tiếng Việt Tuy nhiên phạm vi luận văn tập trung xem xét đơn vị nhận dạng từ 3.1.2 Đặc điểm âm tiết toán nhận dạng Trong tiếng Việt ranh giới âm tiết trùng với ranh giới hình vị Đây đặc điểm quan trọng tiến hành trích chọn đặc trưng âm tiết Tuy nhiên chọn mơ hình âm tiết gặp khó khăn lớn số lượng âm tiết tiếng Việt nhiều hạn chế khả nhận dạng hệ thống.[3] 3.2 Xử lý tiếng nói đặc trưng liệu tiếng nói 3.2.1 Các đặc trưng tiếng nói Tiếng nói có đặc trưng sau:  Là tín hiệu dạng dao động, thay đổi theo thời gian  Tiếng nói từ nhiều người nói người nói lần khác có tín hiệu khác 11  Có đoạn tín hiệu tiếng nói xuất chu kỳ bản, gọi chu kỳ pitch, có đoạn khơng xuất chu kỳ tín hiệu có dạng nhiễu (hình 3.2)  Tần số tiếng nói thường cộng hưởng chế phát âm người 3.2.2 Các thông số tín hiệu tiếng nói Tần số bản: tần số thường ký hiệu F0, gọi Pitch Đây thuộc tính tín hiệu tiếng nói Formant: Các đỉnh formant ký hiệu F1, F2, F3, 3.2.3 Một số cách biểu diễn tín hiệu tiếng nói Biểu đồ dao động hay dạng sóng – WavForm : Biểu diễn phổ biến tín hiệu tiếng nói biểu đồ dao động, dạng wavform Phổ: Phổ cho hình ảnh phân bố tần số biên độ tức thời theo thời gian Ảnh phổ : Là hình thức biểu diễn phổ mặt thời gian Trong phạm vi luận văn thực biểu diễn tín hiệu tiếng nói dạng sóng 3.2.4 Các vấn đề xử lý tiếng nói Ở ta xét vấn đề xử lý tiếng nói miền thời gian (Time-Domain) Cụ thể theo hướng nghiên cứu phương pháp xử lý miền thời gian bao gồm tỷ lệ Zero – Crossing trung bình, lượng Các phương pháp xử lý miền thời gian tỏ hiệu u cầu khối lượng tính tốn đơn giản cung cấp nhiều thông tin quan trọng để dự đốn đặc trưng tiếng nói  Các tham số âm học: Tham số tín hiệu tiếng nói phân làm hai lớp: tham số âm học tham số cấu âm Trong phạm vi nghiên cứu xét đến tham số âm học tín hiệu tiếng nói Do cấu trúc phức tạp tín hiệu tiếng nói cho phép phân tham số âm học thành nhiều nhóm tham số là:  Phương pháp xác định tham số lọc: Vấn đề xác định điểm bắt đầu điểm kết thúc tiếng nói nhiễu vấn đề quan trọng xử lý tiếng nói Các kỹ thuật dùng để xác định điểm bắt 12 đầu điểm kết cuối tiếng nói dùng để khử đoạn khó tính tốn cách đánh dấu phần tương ứng với tiếng nói để đưa vào xử lý Việc phân biệt tiếng nói với nhiễu quan trọng không đơn giản Ngoại trừ trường hợp ghi âm chất lượng cao, tỷ lệ tín hiệu nhiễu cao, lượng thấp tiếng nói vượt qua ngưỡng nhiễu nên việc xác định trở nên đơn giản Thuật toán đề cập phần dựa hai phép đo miền thời gian: hàm lượng tỷ lệ Zero-Crossing Thuật tốn trình bày sau: Hàm lượng tỷ lệ Zero-Crossing tính cho đoạn 10ms Cả hai hàm tính tốn tồn đoạn ghi với tỷ lệ 100 lần/sec Giả sử 10ms khơng có tín hiệu, tỷ lệ Zero-Crossing tương ứng với nhiễu nên gọi IZTC ngưỡng lượng gọi ITL Tới đoạn tín hiệu tiếp theo, dùng ngưỡng ITU có giá trị lớn ITL vài lần để xác định điểm N1 N2 Như ta có hai điểm N1 N2 đảm bảo nằm đoạn có tín hiệu Bước tiến hành dịch chuyển N1 N2 sang hai phía, đồng thời dùng ngưỡng IZTC xác định để so sánh tỷ lệ Zero-Crossing, tỷ lệ Zero-Crossing vượt hai lần ngưỡng N1, N2 di chuyển hướng cũ Cứ tiến hành lượng nhỏ lượng ngưỡng tỷ lệ Zero-Crossing nhỏ ZeroCrossing ngưỡng  Cấu trúc file *.wav: Một cấu trúc đơn giản nhất, việc lưu trữ liệu âm tập tin dạng wav Tập tin dạng wav tập tin lưu trữ liệu dạng wavform, liệu thu âm lưu trữ trực tiếp vào tập tin, nên tốc độ mã giải mã liệu dạng nhanh 3.2.5 Tiền xử lý tín hiệu tiếng nói Tín hiệu tiếng nói thu được, trước đưa vào trích chọn đặc trưng phải thực tiền xử lý nhằm hạn chế sai số nhiễu gây  Xác định đường mức khơng Tiếng nói hay âm tín hiệu dao động, giả sử giá trị tín hiệu nhận từ đến L-1, im lặng tín hiệu nhận giá trị L/2, ví dụ mẫu bít có L=256 mức khơng 128, giá trị giá trị không Thực tế thu âm, soundcard thực số hoá âm mức khơng khơng giá trị nói Để xác định đường mức không thực sau: 13 Bước 1: Lấy mức thu soundcard Bước 2: Đặt mức thu giá trị thấp (tín hiệu thu nhỏ nhất) Bước 3: Thu đoạn liệu ngắn (khoảng giây) Bước 4: Tính Histogram H (H[k] số mẫu có giá trị biên độ k) Bước 5: Tìm dãy H phần tử H[max] có giá trị lớn Đường mức khơng max Khi xác định đường mức không, giá trị tín hiệu tiếng nói dao động xung quanh đường mức khơng  Chuẩn hố biên độ Các tín hiệu từ nói thu vào máy tính có cường độ (biên độ tín hiệu so với đường mức không) khác nhau, để thuận tiện cho việc trích rút đặc trưng, khâu tiền xử lý chỉnh biên độ tín hiệu từ mức, giá trị lớn biên độ so với đường mức không Bước 1: Đặt L=2 bitsamp, bitsamp số bít mẫu Bước 2: Tính biến độ lớn max so với mức khơng Bước 3: Chuyển giá trị tín hiệu theo mức khơng s(n)=s(n)- (Mức khơng) Bước 4: Tính hệ số điều k  L max Bước 5: Nhân tín hiệu với hệ số k s(n)=s(n)*k+ (Mức khơng)  Chuẩn hố thời gian Các tín hiệu từ nói thu vào máy tính có tổng số mẫu khác nhau, để thuận tiện cho việc trích rút nhận dạng đặc trưng, ta tính tốn lại tổng số mẫu phương pháp chuẩn hố thời gian Cơng việc thực theo kỹ thuật chỉnh thời gian tuyến tính: Bước 1: Tính M tổng số mẫu tín hiệu đầu vào Bước 2: Đặt N tổng số mẫu tín hiệu đầu Bước 3: Tính giá trị mẫu tín hiệu y(i) đầu ra: M  y(i)  x * i , N  i  1, N 3.3 Ứng dụng giải thuật K-Means cho liệu tiếng nói 14 3.3.1 Mơ hình tốn Hình: Mơ hình tốn  Yêu cầu toán - Áp dụng giải thuật K-Means suy rộng để phân chùm khúc liệu tiếng nói người - Nhận dạng hữu hạn âm tiết chữ số {không, một, hai, ba, bốn, năm, sáu, bảy, tám, chín, mười} người phục vụ cho ứng dụng nhập điểm môn học  Phạm vi toán - Chỉ áp dụng với liệu tiếng nói người - Số âm tiết hữu hạn {không, một, hai, ba, bốn, năm, sáu, bảy, tám, chín, mười} - Yêu cầu liệu đầu vào tệp liệu dạng file *.wav với tần số lấy mẫu 11025Hz, độ phân giải 8bit, Mono Được ghi âm chế độ bình thường (nhiễu tự nhiên, khơng q lớn)  Kết cần đạt được: Từ kết việc phân chùm khúc liệu, nhận dạng âm tiết số đếm từ đến 10 người Kết sau áp dụng vào nhận dạng chuỗi từ liên tiếp để nhập điểm môn học 3.3.2 Phân chùm khúc liệu tiếng nói Phân tích tiếng nói nhằm tách tham số đặc trưng cho tính chất tín hiệu tiếng nói Các tham số ứng dụng nhận dạng Quá trình phân tích nhằm trích rút đặc trưng số dạng sau:  Năng lượng độ lớn trung bình thời gian ngắn  Tỷ lệ Zero-Crossing  Tần số Pitch Dữ liệu đầu vào khúc hình sin liệu tiếng nói trích rút từ tệp liệu *.wav Mỗi khúc liệu có p thành phần ta coi vector p chiều Các khúc có số chiều khác 15  Chuẩn hoá liệu đầu vào Từ kiểm nghiệm thực tế ta thấy khúc liệu tiếng nói có số chiều thay đổi khoảng từ 90 đến 130 Với xác suất xuất nhiều với số chiều 95 Vì vậy, chuẩn hoá số chiều khúc liệu 95 chiều  Sử dụng giải thuật K-Means để phân chùm khúc liệu Giải thuật K-Means áp dụng với số liệu n vector p chiều, số nhóm cần phân chùm k 3.4 Kết luận chương Nội dung chương trình bày tổng thể khái niệm liên quan đến đặc trưng tiếng nói tiếng việt, vấn đề liên quan đến tiếng nói xử lý tiếng nói làm sở cho xử lý liệu tiếng nói tiếng việt áp dụng ứng dụng nhận dạng/phân mẫu Cuối nội dung ứng dụng giải thuật K-Means suy rộng cho toán nhận dạng tiếng nói tiếng Việt với số lượng âm hữu hạn áp dụng vào tốn nhập điểm mơn học ( điểm số từ đến 10) Phần chương trình ứng dụng cụ thể giải thuật vào toán trình bày chương 16 CHƯƠNG - PHÂN TÍCH, THIẾT KẾ, CÀI ĐẶT HỆ THỐNG Hệ thống thử nghiệm triển khai chạy môi trường Windows Hệ quản trị sở liệu Foxpro Version 7.0 Ngôn ngữ lựa chọn để cài đặt chương trình Visual Basic 6.0 Cơng cụ hỗ trợ DirectX8.0 Windows 4.1 Phân tích thiết kế 4.1.1 Mơ hình thiết kế hệ thống Dữ liệu tiếng nói Module cắt khúc liệu, trích chọn đặc trưng Module chuẩn hóa liệu tiếng nói Module phân chùm KMeans CODE BOOK File liệu điểm nhập Module Tách từ, cắt khúc liệu, chuẩn hóa Module nhận dạng nhập điểm File điểm chi tiết nhập sau nhận dạng Hình: Mơ hình tốn 4.1.2 Mơ hình quan hệ Bảng 4: Mơ hình quan hệ 17 4.1.3 Mơ tả thuật tốn phân chùm input: Các khúc hình sin output: phân thành chùm hệ số tương quan Lưu đồ thuật tốn 18 Hình: Lược đồ phân chùm mức 19 Hình: Lược đồ nhận dạng chung 4.1.4 Tạo “codebook” Sau kết thúc trình phân chùm, khúc liệu đầu vào phân làm k chùm với k tâm tương ứng Ta tiến hành đánh số cho k chùm lưu vào bảng gọi bảng codebook Codebook chứa k vector tâm (95 chiều) tương ứng với k chùm số (Book Id) codebook 4.1.5 Tạo “bộ mã từ” Sau có bảng codebook, ta tiến hành thay khúc liệu tệp wav “Book Id” tương ứng với tâm chùm chứa khúc liệu Đồng thời tính chùm thống trị 4.1.6 Quá trình nhận dạng từ đơn Lược đồ trình nhận dạng từ tương đương với điểm trình bày hình 4.6 mô tả theo bước sau: 20 B1: chọn tệp *.wav điểm cần nhận dạng (cụ thể số từ đến 10) Điểm cần nhận dạng phải ghi âm với thông số giống thông số ghi âm từ mẫu B2: Tiến hành cắt khúc; chuẩn hoá số chiều khúc liệu tập cần nhận dạng B3: Với khúc tập liệu cần nhận dạng, tính hstq khúc với tâm lưu CodeBook tìm giá trị max Ta ký hiệu: hstq(i,j) hstq khúc thứ i với tâm có Book Id j Khi đó, Ta thay khúc thứ i tâm có Book Id j hstq(i,j) lớn Quá trình tương đương với việc ta thay khúc liệu cần nhận dạng tâm codebook “gần” với Sau thay xong, ta tìm chùm thống trị từ cần nhận dạng (vd: chùm thống trị) B4: Tiến hành so sánh tìm từ có “bộ từ mã” có số lượng lớn chùm thống trị giống với chùm thống trị từ cần nhận dạng Nếu số tỉ lệ chùm thống trị giống nhau/số chùm thống trị>50% ta kết luận nhận dạng từ tỷ lệ nhận dạng Nếu không thi đưa kết luận không nhận dạng từ 4.1.7 Quá trình nhập liệu điểm nhận dạng nhiều từ Lược đồ mô tả chức nhập điểm môn học từ liệu bao gồm nhiều từ đơn mô tả theo bước sau: B1: Chọn tệp *.wav bao gồm nhiều điểm nhiều học sinh cần qua nhận dạng để nhập điểm File liệu phải ghi âm với thông số giống thông số ghi âm từ mẫu Dữ liệu sau tách thành từ/điểm riêng lẻ đưa vào nhận dạng từ đơn q trình mơ tả mục 4.1.6 B2: Chọn file liệu điểm cần nhập điểm môn học tương ứng Kết nhận dạng từ bước ghi vào file điểm môn học bước 4.2 Cài đặt hệ thống thử nghiệm 4.2.1 Một số module Bảng: Một số module STT Thủ tục / Hàm Cmdchuanhoa I/O Input: khúc hình sin Output: khúc hình sin chuẩn hóa chiều =95, ghi vào csdl Ý nghĩa Tiền xử lý khúc hình sin, chuẩn hóa chiều, ghi vào csdl 21 Input: khúc hình sin chuẩn hóa Output: phân K chùm khúc hình sin kMeanCluster, Tinhsub Hesotuongquan Input: K chùm sub Output: hệ số tương quan điểm với tâm chùm Kiểm tra hệ số tương quan Dist() Tính khoảng cách Euclidean Input: vector(khúc) tâm Output: khoảng từ vector đến Phân chùm khúc tâm distE() Input: vector(khúc) tâm Tính hệ số tương Output: hệ số tương quan vector quan hai điểm với tâm Laybiendo Input: vector (khúc) Output: biên độ max vector(khúc) Tính biên độ Max khúc(vector) thaytam95 Input: vector (khúc) Output: thay tâm chùm vào khúc(vector) 95 chiều Thay khúc phân chùm tâm 95 chiều thaytam_nchie Input: vector (khúc) Thay khúc u Output: thay tâm chùm vào khúc(vector) với số chiều gốc phân chùm tâm với số chiều gốc khúc gốc strim_tang Input: vector (khúc) Output: Tăng số chiều Tăng số chiều khúc 10 strim_giam Input: vector (khúc) Output: Gỉam số chiều Gỉam số chiều khúc 11 Cmdcodebook Input: tâm sau thay cho vector (khúc) Output: mã tâm đưa vào Mã tâm sau thay cho khúc hinh sin gốc ghi codebook vào codebook Input: file âm liệu điểm cần nhập qua nhận dạng Output: kết điểm nhập sau nhận dạng Nhập điểm môn học sau nhận dạng điểm 12 Cmdnhapdiem 4.2.2 Các chức chương trình - Cắt khúc liệu từ tệp liệu dạng *.wav: cho phép cắt khúc nhiều tệp wav lúc Kết cắt khúc lưu tệp “chunks.txt” 22 - Phân chùm khúc liệu từ tệp chunks.txt; chuẩn hoá phân chùm Chương trình cho phép chọn k ban đầu - Tạo bảng code book; mã từ - Nhập điểm từ file liệu đưa vào 4.2.3 Giao diện chương trình Hình Menu Chính Hình Các menu chi tiết chức nhập điểm * Kết đạt được: 23  File âm liệu điểm đưa vào mẫu bao gồm chuỗi điểm sau: 108-6-9  Kết liệu nhập điểm sau q trình nhận dạng là: 10-8-6-9 Trong từ số có tỷ lệ xếp khúc nhỏ kết nhận dạng  Tỷ lệ nhận dạng với liệu nhập điểm cho mẫu là: 100% Ngoài thử với file liệu đưa vào từ đơn, kết nhận dạng đạt từ 80%->90% Dưới kết với tập liệu thử tập liệu đầu vào nhiều từ khác: Bảng 4.4 Một số kết nhập điểm theo file stt Input Output Tỷ lệ File liệu điểm đọc liên tục, giá Kết điểm sau nhận dạng là: 60% trị: 10 3 File liệu điểm đọc liên tục, giá Kết điểm sau nhận dạng là: 87% trị sau: 10 9 10 10 9 10 9 10 10 9 File liệu 30 điểm đọc liên tục, Kết điểm sau nhận dạng là: 90% giá trị sau: 2 1 2 1 2 7 2 1 6712121121212112567 21212112267 4.3 Kết luận chương Như vậy, nội dung chương trình bày thiết kế hệ thống thử nghiệm nhận dạng tiếng nói Một số chức hệ thống nhằm mơ tả cụ thể bước xử lý nhận dạng liệu tốn Tỷ lệ nhận dạng xác hệ thống đánh giá tốt ( 80%->90%) Tuy nhiên với từ có âm tiết gần giống mười, hai năm, ba bảy kết nhận dạng có bị sai lệch Do từ phải tiếp tục đào tạo để có đủ tập tâm đặc trưng phân biệt với từ điểm gần giống khác Một vấn đề khác ảnh hưởng đến hiệu nhận dạng hệ thống tiếng nói ghi âm môi trường thực nên nhiễu cao Định hướng thời gian tới, tác giả tiếp tục nghiên cứu cải thiện kết thực hệ thống thử nghiệm KẾT LUẬN VÀ KIẾN NGHỊ Luận văn giới thiệu nội dung giải thuật K-Means; tìm hiểu giải thuật K-Means suy rộng áp dụng thử nghiệm vào ứng dụng nhập điểm số thông qua nhận dạng tiếng nói 24 Trong chương trình thử nghiệm phân chùm liệu khúc hình sin có sử dụng giải thuật phân nhóm K-Means kết hợp giải thuật Lọc, cấu trúc KD-tree cho kết phân chùm tốt Tỷ lệ nhận dạng từ khoảng 80->90% Việc phát chùm thống trị từ tỷ lệ dãy dài so với từ mẫu đưa khả nhận dạng từ (điểm số) đưa vào Nhưng với liệu số nhóm cần phân chùm lớn thời gian thực tăng theo 0(nk2/2) Với  phân tách nhóm Do vậy, độ phức tạp thời gian K-Means giảm nhanh  tăng, n số lượng mẫu, k số nhóm Do có hạn chế định thời gian kiến thức thân nên hệ thống thử nghiệm dừng lại việc nhập liệu điểm số với đầu vào file gồm nhiều điểm cần nhập Từ kết nghiên cứu, phân tích thử nghiệm cho thấy khả ứng dụng thực tế Mặc dù kết đạt luận văn lớn hướng việc ứng dụng để nhận dạng, mã hoá tổng hợp tiếng nói Các hướng phát triển định hướng nghiên cứu luận văn xin đề xuất sau:  Mở rộng phạm vi áp dụng tốn nhận dạng nhập điểm trực tiếp từ giọng nói người theo thời gian thực  Nghiên cứu mở rộng hướng triển khai, phạm vi áp dụng toán vào nhập điểm tự động qua mạng cho hệ thống quản lý điểm trường học, học viện tự động nhập điểm qua điện thoại di động Tôi mong nhận ý kiến đóng góp từ phía thầy cơ, bạn để tơi hồn thiện kiến thức cho thân, phục vụ trình học tập, nghiên cứu sau 25 ... thử nghiệm K? ??T LUẬN VÀ KIẾN NGHỊ Luận văn giới thiệu nội dung giải thuật K- Means; tìm hiểu giải thuật K- Means suy rộng áp dụng thử nghiệm vào ứng dụng nhập điểm số thông qua nhận dạng tiếng nói. .. K? ??t luận, nội dung chia làm chương: Chương 1: Giới thiệu giải thuật K- Means Chương 2: Giải thuật K- Means suy rộng Chương 3: Ứng dụng giải thuật K- Means suy rộng cho nhận dạng liệu tiếng nói tiếng. .. đến tiếng nói xử lý tiếng nói làm sở cho xử lý liệu tiếng nói tiếng việt áp dụng ứng dụng nhận dạng/phân mẫu Cuối nội dung ứng dụng giải thuật K- Means suy rộng cho toán nhận dạng tiếng nói tiếng

Về giải thuật k means suy rộng và thử nghiệm nhập điểm tiếng nói tiếng việt

Thông tin tài liệu

Hình ảnh liên quan

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan