Tài liệu Cơ sở nhận dạng tiếng nói pdf

Thông tin tài liệu

Lĩnh vực Công nghệ thông tin Cơ sở nhận dạng tiếng nói ThS.Đoàn Phan Long Khoa Quốc tế -Đào tạo sau đại học Túm tt: Tự động nhận dạng tiếng nói là một lĩnh vực nghiên cứu quan trọng để phát triển và đa các ứng dụng tự động vào nhiều Ngành. Ngoài các yếu tố về công nghệ nhận dạng tiếng nói, thì do tiếng nói của mỗi dân tộc có những đặc thù riêng, đòi hỏi phải đợc phân tích và tìm ra các công nghệ áp dụng phù hợp. ở Việt nam, việc nghiên cứu và phát triển các hệ thống nhận dạng tiếng nói còn đang ở bớc đầu với rất ít các kết quả đợc công bố. Bài báo này nhằm mục tiêu tổng hợp các nghiên cứu công nghệ đã và đang đợc áp dụng trong các hệ thống nhận dạng tiếng nói. 1. Lời nói đầu Thời gian trớc đây, việc nhận biết tiếng nói chỉ đợc thể hiện trong các bộ phim viễn tởng nh thuyền trởng Spok điều khiển con tàu vũ trụ Enterprise, những mệnh lệnh và những ý tởng của thuyền trởng đợc máy tính nhận dạng, thu nhận và viết vào bộ nhớ. Huyền thoại về bộ máy tính HAL trong phim 2001 cuộc phiêu lu trong vũ trụ còn có khả năng cao hơn là nhận dạng lời nói từ sự cử động của môi. Hiện tại, khả năng này vẫn cha thực sự đáp ứng, xong trong những năm gần đây, những hệ thống nhận dạng tiếng nói đã có những bớc phát triển đáng kể và trong chừng mực nào đó, bên cạnh bàn phím và con chuột, những phần mềm nhận dạng tiếng nói đã đóng vai trò là bộ phận nhập dữ liệu rất tốt vào các máy PC. Đây là bộ phận nhập văn bản và dữ liệu cũng nh để điều khiển máy PC thực hiện những thao tác mà ngời sử dụng đòi hỏi. Những hãng công nghệ lớn nh IBM và Phillip có thị phần cao và uy tín, trong nhiều năm đã đầu t đáng kể để dần hoàn chỉnh công nghệ nhận dạng nhằm đa ra thị trờng những thế hệ máy mới có tích hợp công nghệ nhận dạng tiếng nói. Song song với các hãng này, những công ty mới nh Dragon System, Lernout & Hauspie cũng đẩy nhanh quá trình đầu t nghiên cứu của mình. 2. Cơ sở nhận dạng tiếng nói Tiếng nói là công cụ truyền đạt thông tin quan trọng nhất của con ngời. Đối với chúng ta, tiếng nói là cái gì đó rất tự nhiên, do vậy bình thờng chúng ta cũng không để ý xem quá trình nhận dạng tiếng nói diễn ra nh thế nào, tại sao ta lại có thể hiểu đợc các từ, các câu một cách rất đơn giản nh vậy. Nếu máy tính cũng có thể hiểu đợc tiếng nói tự nhiên của con ngời thì không những đơn giản rất nhiều cho quá trình trao đổi ngời - máy mà máy tính còn có thể áp dụng đợc vào nhiều lĩnh vực khác. Những nghiên cứu cơ bản trong lĩnh vực nhận dạng tiếng nói của thập kỷ qua đã góp phần đa công nghệ nhận dạng có những phát triển đáng kể trong các lĩnh vực sử lý văn bản, viễn thông, cơ sở dữ liệu cũng nh quá trình giao tiếp với hệ thống chuyên gia. Quá trình phát triển của các giải pháp nhận dạng tiếng nói đợc tham gia bởi: - Công nghệ máy tính và lập trình - Ngữ âm - Ngôn ngữ học - Nhận dạng mẫu - Trí tuệ nhân tạo Học viện Công nghệ BCVT Hội nghị Khoa học lần thứ 5 Những hệ thống tự động nhận dạng tiếng nói luôn cố gắng mô phỏng lại quá trình nhận dạng tiếng nói của con ngời. Bên cạnh bàn phím và chuột thì Microphone là khả năng mới để nhập dữ liệu và giao tiếp với máy PC. 3. Lịch sử của công nghệ nhận dạng tiếng nói Nhận dạng tiếng nói tự động đã có lịch sử khoảng 40 năm nay. Những nhân tố quan trọng giúp cho sự phát triển của công nghệ nhận dạng này có thể kể đến nh sự phát triển của các hệ thống phân tích phổ âm thanh (1946) thể hiện dới dạng trực quan các tín hiệu âm, Lý thuyết tạo âm thanh tiếng nói của con ngời (1948) và tất nhiên phải kể đến sự xuất hiện và phát triển của các hệ thống máy tính số thơng mại đầu tiên trên thế giới (1958). Hệ thống nhận dạng tiếng nói đầu tiên có khả năng nhận dạng từ rời rạc và phụ thuộc ngời nói để phân tích và nhận dạng các chữ số hoặc các từ đơn âm sử dụng đặc tính miền thời gian và các ngân hàng bộ lọc tơng tự. Tơng tự nh vậy, với phơng pháp âm học, hệ thống nhận dạng âm vị phụ thuộc ngời nói và không phụ thuộc ngời nói đợc thiết kế mặc dù mới cho đợc các kết quả còn rất khiêm tốn. Trong thập kỷ 70, với sự phát triển của các thuật toán phân tích tín hiệu (mô hình dự đoán tuyến tính, so sánh mẫu theo thời gian) công nghệ nhận dạng tiếng nói đợc tiếp tục phát triển mạnh mẽ. Với các phơng pháp này các hệ thống nhận dạng với số lợng từ rất lớn không phụ thuộc ngời nói đã đợc thực thi. Trong những năm 60 của thế kỷ 20, nhiều phòng thí nghiệm của nhiều hãng lớn đã đợc đầu t để nghiên cứu phát triển các hệ thống nhận dạng tiếng nói của các ngôn ngữ khác nhau. Đến đầu những năm 80 khả năng về hiểu biết cũng nh về kỹ thuật đã cho phép các nhà nghiên cứu xây dựng các hệ thống nhận dạng đợc hàng trăm các từ rời rạc. Sau đó công nghệ nhận dạng đã có những bớc phát triển vô cùng nhanh chóng. 4. Các vấn đề kỹ thuật Nhận dạng tiếng nói là vấn đề đợc bàn luận và đã đợc các nhà nghiên cứu phân loại thành các hệ thống nhận dạng khác nhau cho những mục đích sử dụng khác nhau. Hình dới đây mô tả một cái nhìn khái quát về sự phân loại các hệ thống nhận dạng tiếng nói, trong đó các hệ thống nhận dạng tiếng nói đợc phân thành hai nhóm riêng biệt. Một nhóm chuyên đợc sử dụng với mục đích điều khiển thiết bị thông qua tiếng nói và một nhóm chuyên xử lý từ tiếng nói sang văn bản (Speech to Text) Hình 1: Phân loại các hệ thống nhận dạng tiếng nói Học viện Công nghệ BCVT Phát âm từ rời rạc Phát âm từ rời rạc Phát âm liên tục Telephone banking Tìm dữ liệu qua thoại Điều khiển thiết bị Phát âm liên tục Nhận dạng ng:ời nói Thời gian thực Có tiếp xúc với PC Điều khiển, ra lệnh Nhận dạng tiếng nói Văn bản Không tiếp xúc với PC Không thời gian thực Lĩnh vực Công nghệ thông tin 4.1. Nhận dạng tiếng nói để điều khiển và ra lệnh cho thiết bị Trong các hệ thống điều khiển thờng sử dụng một th viện từ rất hạn chế, bởi vì để điều khiển một thiết bị đòi hỏi số lợng các lệnh rất hữu hạn và không cần một kết nối trực tiếp đến hệ thống máy tính nhận dạng tiếng nói. Nh vậy để nhập dữ liệu gián tiếp ngời ta có thể sử dụng qua nhiều môi trờng nh đờng thoại, microphone ví dụ trong ứng dụng Telephone Banking mà hệ thống Infogate của Trung tâm Công nghệ Thông tin CDIT đang áp dụng trên mạng sử dụng nhập dữ liệu ví dụ qua bàn phím máy điện thoại để vấn tin và tạo các giao dịch tiền tệ và tiến tới sau này có thể thông qua giọng nói, tiếng nói để điều khiển các giao dịch. Điều khiển thiết bị thông qua tiếng nói kết nối trực tiếp tới máy tính phải kể đến trớc hết đó là các hệ thống điều khiển thông qua các lệnh bằng tiếng nói để điều khiển các hệ thống máy móc làm việc theo ý của ngời sử dụng. 4.2. Nhận dạng tiếng nói để xử lý văn bản Quá trình nhận dạng tiếng nói là quá trình mà hệ thống chuyển đổi các từ đợc nói thành văn bản viết hay cụ thể hơn là chuyển đổi từ các tín hiệu âm tần do ngời nói phát âm thành các từ đợc viết thành văn bản. Những hệ thống này về nguyên tắc phải có vốn từ rất lớn để có khả năng đạt đợc kết quả nhận dạng tiếng nói nh mong muốn. Một số hệ thống có thể nhận dạng theo thời gian thực, một số hệ thống khác lại làm việc ở chế độ xử lý lần lợt (Batch Job). Trong chế độ thời gian thực, kết quả là văn bản đợc thể hiện trên màn hình máy tính ngay sau khi nói. Một tiêu chuẩn nữa để phân biệt công nghệ đó là câu hỏi liệu hệ thống có nhận dạng tiếng nói đợc không khi ngời nói phát âm liên tục từ này tiếp nối từ kia nh ta phát âm bình th- ờng hay ngời nói phải phát âm từng từ rời rạc? 4.3. Hệ thống nhận dạng tiếng nói rời rạc Từ lâu nhiều nhà nghiên cứu đã chế tạo ra các hệ thống nhận dạng tiếng nói theo nguyên tắc phát âm từ rời rạc. Những hệ thống nhận dạng có vốn từ hạn chế khoảng 1.000 từ không phù hợp cho các môi trờng nh văn phòng làm việc, bệnh viện, các công sở lý do rất đơn giản là trong những môi trờng trên các hệ thống nhận dạng đòi hỏi phải có khả năng làm việc với số lợng từ rất nhiều tối thiểu phải trên dới 60.000 từ, phụ thuộc ngữ cảnh và phải không phụ thuộc ngời nói. 4.4. Hệ thống nhận dạng tiếng nói liên tục Trong quá trình ngời nói phát âm liên tục, các từ đợc phát âm từ nọ nối tiếp từ kia không có giai đoạn nghỉ giữa chừng. Đối với con ngời thì quá trình nhận biết các từ đợc phát âm này rất đơn giản, xong đối với máy móc thì độ phức tạp so với phát âm rời rạc tăng lên nhiều lần do phải nhận biết và tách các từ này ra. Trong câu đợc phát âm liên tục ta rất khó nhận biết đợc điểm bắt đầu và điểm kết thúc của một từ, trong khi phát âm rời rạc ta thấy rất rõ đoạn nghỉ ngắt quãng giữa hai từ cạnh nhau. Hệ thống nhận dạng phải quyết định rất nhanh điểm nào là điểm kết thúc của từ và nh vậy với câu đợc phát âm liên tục máy tính đòi hỏi thời gian tính toán lớn hơn rất nhiều lần so với từ đợc phát âm rời rạc. Điều này còn đặc biệt khó với nhiều ngôn ngữ nh ngôn ngữ tiếng Anh đòi hỏi có sự phát âm từ nọ có đuôi nối tiếp sang từ kia. Nhờ sự phát triển nhanh chóng của công nghệ tin học và máy tính đặc biệt là tốc độ và khả năng tính toán của các máy tính cá nhân, ngày nay trong phòng thí nghiệm đã có những hệ thống có khả năng nhận dạng tiếng nói phát âm liên tục. Học viện Công nghệ BCVT Hội nghị Khoa học lần thứ 5 4.5. Nhận dạng từ rời rạc và nhận dạng tiếng nói liên tục Có nhiều định nghĩa và giả thiết về sự phân biệt khác nhau giữa hai khái niệm nhận dạng từ rời rạc và nhận dạng tiếng nói liên tục, nên ở đây có thêm sự giải thích rõ hơn về hai khái niệm này. Các tín hiệu âm thanh đợc Microphone thu nhận, sau khi đợc hệ thống nhận dạng xử lý sẽ đ- ợc chuyển đổi thành dạng văn bản. Mối liên hệ giữa tín hiệu âm và văn bản là các mẫu tín hiệu tạo ra. Một mẫu tín hiệu có sự thống nhất chặt chẽ giữa tín hiệu âm và văn bản và đợc một th viện âm lu trữ và đợc dùng để so sánh với nhiều phơng pháp khác nhau. Mỗi phần tử âm thanh đợc tơng ứng với một mẫu tín hiệu đợc gọi là nhận dạng từ rời rạc. 4.6. Phụ thuộc ngời nói, không phụ thuộc ngời nói Hệ thống nhận dạng không phụ thuộc ngời nói có khả năng làm công việc nhận dạng với bất kỳ ngời nói nào mà không cần có giai đoạn luyện. Đối với hệ thống nhận dạng để xử lý văn bản thì vấn đề độc lập với ngời nói đợc dựa vào vốn từ hay cả hệ thống. Đối với các hệ thống nhận dạng không có th viện từ độc lập với ngời nói (Cơ sở dữ liệu của một số ít giọng nói) thì ngời sử dụng trớc tiên phải xây dựng cho mình một cơ sở dữ liệu âm của mình. Với mỗi từ mà ngời sử dụng phát âm và muốn đợc hệ thống nhận dạng phải có một từ mẫu trong th viện của mình. Nếu th viện mẫu có đủ số lợng từ cần thiết thì chất lợng và kết quả nhận dạng của hệ thống sẽ tăng lên, sai số sẽ giảm xuống. Xong bù lại ngời sử dụng phải có thời gian đủ lớn để cho quá trình chuẩn bị tức là luyện cho máy hiểu đợc âm, giọng của mình. Phơng pháp luyện nh thế này hiện đợc sử dụng rất ít. Thay vào đó là phơng pháp tách âm vị và so sánh với mẫu các âm vị với lý do là số lợng các âm vị trong mỗi ngôn ngữ rất hữu hạn. Với bất kỳ phơng pháp so sánh gì thì việc xây dựng một th viện mẫu cho mỗi ngời sử dụng là rất có ý nghĩa, bởi vì hệ thống còn phải quen với cách nói, giọng nói, ngôn ngữ vùng của ngời sử dụng nó. Hãy thử tởng tợng xem liệu có hệ thống nhận dạng nào có khả năng không cần giai đoạn luyện mà làm việc đợc ngay với một ngời Hà nôi, TP Hồ chí Minh, Thanh hoá hoặc Nghệ an không. Điều này còn gây nhiều khó khăn cho chính bản thân con ngời bởi vì tuỳ thuộc vào cách nói, giọng nói, vốn từ, ngôn từ của từng vùng trong một đất nớc. 4.7. Vấn đề về ngôn ngữ học Khó khăn lớn nhất trong quá trình nhận dạng tiếng nói là cùng một từ nhng không bao giờ có thể đợc phát âm hoàn toàn giống nhau ngay với cả cùng một ngời nói. Ngoài ra các biến thanh âm cũng còn bị phụ thuộc vào trạng thái vật lý và tâm lý của ngời nói cũng nh do các ảnh hởng của ngữ cảnh, tính chất của Microphone và môi trờng cũng là các tác nhân ảnh h- ởng đến giọng nói Nhiễu của môi trờng xung quanh cũng làm cho tần số của từ đợc phát âm thay đổi rất nhiều và làm cho hệ thống rất khó nhận dạng và thậm chí còn không thể làm việc đợc. Ngoài các ảnh hởng liên quan đến âm thanh thì vẻ mặt, điệu bộ của ngời nói chuyện cũng đợc truyền tải rất nhiều thông tin mà hệ thống nhận dạng không có khả năng chuyển đổi và đây cũng là hạn chế rất lớn của các hệ thống. Một lợi thế của khả năng nhận biết tiếng nói của con ngời là ngoài việc nhận dạng đợc các từ phát âm, con ngời còn có thể hiểu đuợc nội dung mà ngời nói chuyện với mình truyền tải. Trong tâm lý học ngời ta gọi hiện tợng này là Cocktail-Party-Effect. Trong một bữa tiệc, do tiếng ồn ngời ta rất khó có thể hiểu đợc cụ thể từng từ trong từng câu mà ngời nói chuyện với mình nói, xong ngời nghe vẫn có thể hiểu đợc ngời nói chuyện với mình nói gì vì họ biết là ngời đối diện đang nói về vấn đề gì. 4.8. Vốn từ cần thiết Trong khi tiếng Anh để nói chuyện đợc với nhau ngời ta chỉ cần một kho vốn từ khoảng 800 từ thì tiếng Đức phải cần khoảng 4.000 từ và tiếng Việt cần khoảng 4.000 5.000 từ. Đối với các nhà khoa học và nhà văn vốn từ của họ phải lớn hơn gấp 6 đến 7 lần để có thể diễn Học viện Công nghệ BCVT Lĩnh vực Công nghệ thông tin đạt đợc hết ý nghĩ của mình. Trong tiếng Việt còn có nhiều vấn đề hơn so với tiếng Anh, tiếng Đức ví dụ nh thanh âm (Huyền, hỏi, ngã, nặng, không dấu). 4.9. Từ đồng âm Một vấn đề nữa trong nhận dạng tiếng nói là vấn đề đồng âm. Từ đồng âm là các từ đợc phát âm hoàn toàn giống nhau hoặc gần giống nhau, nhng tuỳ thuộc ngữ cảnh thì nó đợc hiểu và viết khác nhau. Trong tiếng Việt trờng hợp này thờng xảy ra ít hơn so với các ngôn ngữ châu Âu khác nếu ngời phát âm phát âm thật chuẩn xác ví dụ các từ Chúc với Trúc Dụi với Rụi 5. Các phơng pháp nhận dạng đợc áp dụng phổ biến 5.1. So sánh mẫu bằng phơng pháp lập trình động (Dynamic Program) Khi so sánh tín hiệu thu ngời ta thờng phải so sánh với tất cả các mẫu, điều này sẽ làm tốn rất nhiều thời gian tính toán. Để giảm thời gian tính toán và qua đó tăng tốc độ xử lý nhận dạng ngời ta có thể sử dụng phơng pháp lập trình động. ở phơng pháp nhận dạng mẫu này các từ cần nhận dạng sẽ đợc so sánh với các mẫu đợc lu trữ trong hệ thống và thực hiện việc so sánh hai mẫu tín hiệu này để tìm ra mẫu có sai số là nhỏ nhất. Bởi vì tín hiệu âm thanh đợc tạo ra tại các thời điểm khác nhau không bao giờ là giống nhau hoàn toàn. Nó luôn có sự sai khác do một số yếu tố về trọng âm, ngữ điệu, tốc độ, Vì vậy cần phải thực hiện so sánh hai mẫu theo các thuật toán biến dạng nhằm giảm thiểu sai số . Thuật toán DTW (Dynamic Time Warping) có thể coi là thuật toán hiệu quả nhất cho việc ứng dụng so sánh hai mẫu tín hiệu có chiều dài khác nhau và cho sai số nhỏ nhất. Thuật toán này sử dụng phơng pháp đệ quy, ví dụ nh các chơng trình con (Procedure) đợc tự động gọi ra nhng với các thông số (parameter) khác nhau và tìm các sai số so với các tín hiệu mẫu. Mẫu nào có sai số so với tín hiệu cần so sánh nhỏ nhất thì mẫu đó chính là mẫu cần tìm. 5.2. Nhận dạng với phơng pháp Markov ẩn HMM (Hidden Markov-Modell) Hệ thống nhận dạng từ rời rạc dựa trên HMM có sơ đồ khối nh hình 2 dới đây. Từ đợc nhận dạng đợc chia thành chuỗi thời gian của T khung và đợc phân tích sử dụng một số thuật toán phân tích nh biến đổi Fourier nhanh (FFT), phân tích mã hoá dự báo tuyến tính (LPC). Sau b- ớc này ta có một chuỗi mẫu quan sát O t , t=1, 2, , T. Chuỗi O t đợc lợng tử hoá vector sử dụng một sách mã codebook bao gồm một tập đại diện của M mẫu tiếng nói. Sau đó hệ thống so sánh độ tơng ứng của mẫu từ đầu vào cha biết với W mô hình từ. Từ đầu vào đợc nhận dạng bằng cách lấy từ giống với nó nhất trong từ điển của hệ thống Về mặt toán học, mỗi mô hình từ M i , i=1, 2, , W đợc xác định bởi một tập tham số [, A, B]. Gọi { } Pr / i t i O M là xác xuất nhận đợc chuỗi quan sát O t với mô hình M i . Từ đợc nhận dạng RW đợc xác định từ công thức: { } 1,2, max Pr / = = i t i i w RW Arg O M . Trong đó Argmax cho kết quả là chỉ số i của mô hình M i có xác xuất { } Pr / i t i O M cao nhất. Để tính giá trị { } Pr / i O M cần xét tất cả các chuỗi trạng thái có thể tạo ra chuỗi quan sát và sau đó xác định chuỗi trạng thái nào có xác xuất cao nhât. Tuy nhiên nếu phải xét tất cả thì sẽ không thực tiễn vì phải xét với số lợng rất lớn các chuỗi trạng thái. Để giảm thiểu khối l- ợng tính toán có thể dùng các phơng pháp đệ quy với hai thuật toán là Baul-Welch và Viterbi. Học viện Công nghệ BCVT Phân tích và xác định các tham số Lợng tử hoá Vector So sánh độ tơng ứng với các HMM Nguyên tắc lựa chọn Các mô hình HMM đ:ợc l:u trữ Tiếng nói đầu vào Từ đợc nhận dạng Hội nghị Khoa học lần thứ 5 Hình 2: Hệ thống nhận dạng tiếng nói sử dụng HMM 5.3. Nhận dạng từ sử dụng mạng Nơ ron Công nghệ nhận dạng tiếng nói chủ yếu sử dụng phơng pháp nhận dạng mẫu và mạng Nơ-ron là một trong những công cụ nhận dạng mẫu có hiệu quả, do vậy nhiều hệ thống đã ứng dụng mạng nơ-ron vào việc nhận dạng tiếng nói. Mạng nơ-ron cấu trúc Perceptron nhiều lớp nh hình 3 đợc sử dụng nhiều trong các hệ thống nhận dạng. Perceptron là loại đơn giản nhất của các mạng liên kết tiến (là mạng không có liên kết giữa các khối xử lý trong cùng một lớp và không có các liên kết giữa các khối xử lý ở lớp ra quay ngợc về lớp vào) sử dụng thuật toán học có giám sát. Một mạng Perceptron bao gồm nhiều đơn vị xử lý đợc sắp xếp thành các lớp. Mạng này đợc huấn luyện theo quy tắc Delta hoặc các biến thể của nó. Các khối xử lý đợc xắp xếp thành các lớp bao gồm 1 lớp vào một khối xử lý ở một lớp ẩn và 1 lớp ra. Các liên kết có trọng số khác nhau kết nối mỗi một khối xử lý ở một lớp nào đó tới tất cả các khối xử lý ở lớp lân cận. Hình 3: Mạng Perceptron. (a) Perceptron 1 lớp, (b) Perceptron nhiều lớp mạng Nơ-ron loại này đợc huấn luyện bằng cách nhập một vector mẫu ở lớp đầu vào và tính toán các đầu ra. Sau đó, đầu ra đợc so sánh với các mẫu đầu ra mong muốn. Sai số giữa đầu ra thực tế với đầu ra mong muốn đợc tính và phản hồi qua mạng tới mỗi phần tử. Trọng số đầu vào của mỗi phần tử đợc điều chỉnh để tối thiểu hoá sai số. Quá trình này đợc lặp lại đến khi đầu ra thực tế lệch với đầu ra mong muốn trong phạm vi sai số xác định trớc. Có rất nhiều cặp mẫu đầu vào, đầu ra đợc đa qua mạng và quá trình nêu trên đợc lặp lại cho mỗi cặp đầu vào, đầu ra. Việc nhận dạng chính là nhập mẫu tiếng nói cha biết ở nút đầu vào của mạng đã đợc huấn luyên và tính toán giá trị của các nút đầu ra để xác định mẫu tiếng nói đó. Học viện Công nghệ BCVT Lớp vào Lớp ra Lớp vào Lớp ra Lớp ẩn (a) (b) Lĩnh vực Công nghệ thông tin 5.4. Khuynh hớng ứng dụng trí tuệ nhân tạo (Artificial Intelligence AI) trong nhận dạng tiếng nói ý tởng cơ bản của việc ứng dụng trí tuệ nhân tạo vào nhận dạng tiếng nói là thu thập kiến thức từ các nguồn kiến thức khác nhau để giải quyết các vấn đề đặt ra. ví dụ: ứng dụng trí tuệ nhân tạo để làm công đoạn phân đoạn và gán nhãn tiếng nói cần có sự tổng hợp về các kiến thức âm học, ngữ âm học, từ vựng học, cú pháp học, ngữ nghĩa và kiến thức thực tế. - Kiến thức âm học: Là kiến thức về đặc trng của âm thanh (các đơn vị ngữ âm) đợc phát ra trên cơ sở các số đo về phổ tín hiệu và các đặc tính hữu thanh hoặc vô thanh - Kiến thức về từ vựng: Là những nguyên tắc do từ điển đặt ra để kết hợp các âm thanh thành từ và ngợc lại chia nhỏ từ thành âm thanh. - Kiến thức về cú pháp: Là sự kết hợp các từ thành các cụm từ hoặc câu đúng ngữ pháp - Kiến thức về ngữ nghĩa: Là sự hiểu biết về ngữ cảnh sao cho các câu hoặc cụm từ phù hợp với mục tiêu định nói và phù hợp với các câu trớc. - Kiến thức thực tế: Là khả năng suy luận logic cần thiết để làm rõ ý dựa trên những cách thức thông thờng mà từ đợc dùng. Có nhiều cách khác nhau để tổng hợp các nguồn kiến thức vào trong hệ thống nhận dạng tiếng nói. Phơng pháp thông dụng nhất là xử lý từ dới lên. Theo cách này, các tiến trình xử lý đợc triển khai tuần tự từ thấp lên cao. Tiến trình phân tích tín hiệu đầu vào, tìm đặc tính, phân đoạn, gán nhãn đợc triển khai đầu tiên, sau đó là các tiến trình phân lớp âm thanh, xác định từ, câu . Mỗi tiến trình xử lý đòi hỏi một nguồn kiến thức và các nguồn kiến thức này đợc tích luỹ dần qua các quá trình xử lý thực tế giống nh kiến thức của con ngời. 5.5. Mô hình hai từ và ba từ (Bi- và Trigramme) Để hệ thống có khả năng làm việc với độ chính xác cao hơn, bên cạnh phơng pháp nhận dạng theo mô hình Markov ẩn ngời ta còn có thể tích hợp vào hệ thống một phơng pháp thống kê. Thông qua mô hình hai từ cũng nh ba từ đợc thống kê tích luỹ trong quá trình tính toán nhận dạng nhiều lần, tiến trình kiểm tra ngữ cảnh đợc thiết lập. Phơng pháp này còn có lợi thế là hệ thống nhớ đợc ngữ cảnh mà ngời nói quen dùng. Hệ thống càng hoạt động lâu với một ng- ời, sẽ ngày càng quen với cách nói của ngời đó và qua đó độ chính xác ngày càng cao. Trong quá trình hệ thống nhận dạng làm việc với mô hình thống kê hai chữ thì cứ hai chữ trong câu đợc so sánh với nhau. Nếu trớc đó hai từ này cũng đã tồn tại trong các câu trớc đó trong bộ nhớ thống kê thì từ đã đợc nhận dạng đó đợc xác định là chính xác. Tơng tự nh vậy với mô hình thống kê 3 từ . Các hệ thống nhận dạng của các hãng nh Dragon, Phillips và Lernout&houspie đều đợc áp dụng phơng pháp thống kê hai từ. Hãng IBM áp dụng phơng pháp thống kê 3 từ theo bản quyền của hãng. Phơng pháp thống kê 3 từ hiển nhiên cho kết quả có độ chính xác cao hơn phơng pháp thống kê 2 từ. Một nhợc điểm của phơng pháp này là tốc độ tính toán chậm hơn. Với phơng pháp thống kê 3 từ hệ thống có tốc độ xử lý chậm hơn rất nhiều so với 2 từ vì phơng pháp thống kê 3 từ có độ phức tạp lớn hơn 2 từ rất nhiều lần. 6. Kết luận Cho đến nay, các hệ thống nhận dạng tiếng nói mặc dù đã đợc nhiều hãng đầu t nghiên cứu nhiều năm, xong vẫn còn nhiều hạn chế nh sau và do đó cha đủ để áp dụng trong nhiều lĩnh vực: - Hệ thống tai nghe và microphone vẫn phải bắt buộc sử dụng và phải áp dụng các công nghệ lọc nhiễu. - Hệ thống vẫn bắt buộc phải qua quá trình luyện do giọng nói và kiểu nói của mỗi ng- ời. Học viện Công nghệ BCVT Hội nghị Khoa học lần thứ 5 - Độ chính xác của tất cả các hệ thống nhận dạng vẫn chỉ đạt đợc ở mức trên dới 90%. Tài liệu tham khảo [1]. Fundamentals of speech recognition. Lawrence Rabiner . Biing Hwang Juang 1999. [2]. Distortion measures for speech processing. R. M Gray, A. Buzo, A.H.Gray, Jr., and Y. Matsuyama 1980. [3]. Xây dựng chơng trình nhận dạng nguyên âm tiếng Việt bằng mạng Nơ-ron nhân tạo, Luận văn tốt nghiệp cao học, Hà nội, 1998. Học viện Công nghệ BCVT . Công nghệ thông tin Cơ sở nhận dạng tiếng nói ThS.Đoàn Phan Long Khoa Quốc tế -Đào tạo sau đại học Túm tt: Tự động nhận dạng tiếng nói là một lĩnh vực. cứu của mình. 2. Cơ sở nhận dạng tiếng nói Tiếng nói là công cụ truyền đạt thông tin quan trọng nhất của con ngời. Đối với chúng ta, tiếng nói là cái gì

Ngày đăng: 16/01/2014, 17:20

Xem thêm: Tài liệu Cơ sở nhận dạng tiếng nói pdf