Ứng dụng hệ chuyên gia trong xây dựng chương trình đọc văn bản tiếng việt có ngữ điệu

64 407 0
Ứng dụng hệ chuyên gia trong xây dựng chương trình đọc văn bản tiếng việt có ngữ điệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC MỤC LỤC MỞ ĐẦU Chương TỔNG QUAN VỀ TEXT TO SPEECH 1.1 Lịch sử tổng hợp tiếng nói 1.2 Cấu trúc âm tiếng Việt 1.2.1 Các khái niệm 1.2.2 Các đặc tính tiếng Việt 1.2.3 Hệ thống ngữ âm tiếng Việt 1.3 Đặc trưng âm tố 10 1.3.1 Ðặc trưng vật lí .10 1.3.2 Ðặc trưng sinh lí 11 1.3.3 Ðặc trưng xã hội 13 1.4 Các phương pháp tổng hợp tiếng nói 14 1.4.1 Phương pháp tổng hợp trực tiếp 15 1.4.2 Phương pháp tổng hợp Formant 19 1.4.2 Các phương pháp tổng hợp khác 22 Chương TỔNG QUAN VỀ HỆ CHUYÊN GIA 24 2.1 Các khái niệm hệ chuyên gia 24 2.2 Cấu trúc hệ chuyên gia 25 2.2.1 Cơ sở tri thức 26 2.2.2 Bộ nhớ làm việc .26 2.2.3 Mô tơ suy luận .26 2.2.4 Phương tiện giải thích 27 2.2.5 Giao diện 27 2.3 Xây dựng hệ chuyên gia 28 2.4 Tri thức cách thể tri thức 30 2.4.1 Các dạng tri thức 31 2.4.2 Kỹ thuật thể tri thức .32 2.5 Những ứng dụng hệ chuyên gia 43 Chương PHÂN TÍCH VÀ THIẾT KẾ BÀI TOÁN 44 3.1 Giới thiệu toán 44 3.2 Kỹ thuật đề xuất 45 3.3 Thiết kế chương trình 46 Chương XÂY DỰNG CHƯƠNG TRÌNH 51 KẾT LUẬN 55 TÀI LIỆU THAM KHẢO .57 PHỤ LỤC .58 MỞ ĐẦU Trong trình toàn cầu hoá giới nay, rào cản khoảng cách địa lý, khác biệt văn hoá dần bị xoá bỏ Trong cuốn: “Thế giới phẳng” Thomas L Friedman có đề cập tới nhân tố quan trọng, phát triển bùng nổ ngành công nghệ thông tin Tuy nhiên tiến khoa học công nghệ nhằm vào mục đích phục vụ cho đời sống người ngày thoải mái tiện nghi hơn, ngành công nghệ thông tin không nằm mục tiêu Và biết, hình ảnh âm dễ nhớ dễ hiểu chữ viết, hình thức thể khác Với ý tưởng vậy, chương trình tổng hợp tiếng nói xây dựng để người tiếp nhận thông tin cách nhanh chóng dễ dàng Công nghệ Ngôn ngữ (hay Xử lý ngôn ngữ tự nhiên) lĩnh vực công nghệ thông tin (với lịch sử phát triển khoảng 50 năm) quan tâm nghiên cứu phạm vi toàn giới Một số nội dung Công nghệ Ngôn ngữ: Dịch tự động ngôn ngữ tự nhiên, Nhận dạng ký tự (chữ viết tay chữ in), Nhận dạng tổng hợp tiếng nói (công nghệ tiếng nói), tìm kiếm văn toàn văn, Hiểu ngôn ngữ, khai phá liệu văn bản, tóm tắt nội dung văn Thời gian gần đây, có nhiều chương trình tổng hợp tiếng nói sử dụng nhiều phương pháp khác nhau, với mục đích nghiên cứu, tìm hiểu nhằm nắm rõ vấn đề này, định chọn đề tài: ”Ứng dụng hệ chuyên gia xây dựng chương trình đọc văn tiếng Việt có ngữ điệu” Đây đề tài tương đối khó, liên quan đến lĩnh vực Hệ chuyên gia thu thập tri thức.Tuy có cố gắng nhiều thời gian thực hiện, không tránh khỏi sai sót, mong có góp ý của thày cô bạn bè Chương TỔNG QUAN VỀ TEXT TO SPEECH Tổng hợp giọng nói việc tạo giọng nói người từ đầu vào văn hay mã hóa việc phát âm Hệ thống thực việc gọi máy tổng hợp giọng nói, hệ thống phần mềm phần cứng Hệ thống gọi văn bản-sang-tiếng nói (text-to-speech, TTS); hệ thống tổng hợp giọng nói có đầu vào văn (nhiều hệ thống thu nhận mã hóa cách phát âm, ví dụ mã IPA, đầu vào) Các hệ thống có nhiều ứng dụng Ví dụ hệ thống giúp người khiếm thị nghe máy đọc văn bản; đặc biệt văn xử lý máy tính Hệ thống lắp đặt phần mềm xử lý văn hay trình duyệt mạng 1.1 Lịch sử tổng hợp tiếng nói Từ lâu trước kỹ thuật xử lý tín hiệu thiết bị điện tử đại đời, nhà nghiên cứu giọng nói cố gắng xây dựng máy móc bắt chước giọng nói người Các ví dụ máy chế tạo Gerbert Aurillac (1003), Albertus Magnus (1198–1280), Roger Bacon (1214–1294) Năm 1779, nhà khoa học người Đan Mạch Christian Kratzenstein, lúc làm việc Viện Hàn lâm Khoa học Nga, xây dựng mô hình bắt chước giọng nói người với năm nguyên âm ([a], [e], [I], [o] [u]) Máy sau cải tiến thành 'Máy Phát âm Cơ khí-Âm học' Wolfgang von Kempelen Wien, Áo, mô tả báo năm 1791 mang tựa đề Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine (“phương pháp tạo giọng nói mô tả máy thực việc này”, J B Degen, Wien) Máy tạo mô hình lưỡi môi, cho phép tạo phụ âm thêm vào cho nguyên âm Năm 1837 Charles Wheatstone tạo 'máy nói' dựa thiết kế von Kempelen, đến năm 1857 M Faber chế tạo máy 'Euphonia' Máy Wheatstone lại cải tiến năm 1923 Paget Những năm 1930, Phòng thí nghiệm Bell tạo máy VOCODER, máy phân tích tổng hợp giọng nói điều khiển bàn phím, mô tả phát âm rõ ràng Homer Dudley cải tiến cỗ máy thành VODER, trưng bày Triển lãm Thế giới New York 1939 Các máy tổng hợp giọng nói kỹ thuật điện tử, giai đoạn này, có giọng nói không tự nhiên khó nghe Tuy nhiên, chất lượng tổng hợp giọng nói ngày cải tiến, ngày giọng phát âm nhiều hệ thống có chất lượng tương đương giọng nói người thật Các hệ thống tổng hợp giọng nói tạo vào năm 1950 hệ thống hoàn chỉnh đời vào năm 1968 Năm 1961, nhà vật lý học John Larry Kelly, Jr dùng máy tính IBM 704 để tổng hợp giọng nói, kiện đáng nhớ lịch sử phòng thí nghiệm Bell Máy ghi âm tổng hợp giọng nói Kelly tạo hát Daisy Bell, với âm nhạc phụ họa Max Mathews Vào lúc trình diễn, Arthur C Clarke thăm bạn đồng nghiệp John Pierce khu thí nghiệm Bell Murray Hill Clarke bị ấn tượng mạnh trình diễn máy phát âm dùng hình ảnh tiểu thuyết kịch phim ông 2001: A Space Odyssey, máy tính HAL 9000 hát hát bị nhà du hành vũ trụ Dave Bowman đặt vào trạng thái ngủ Công nghệ tổng hợp giọng nói tiến hóa nhanh kể từ Hiện có hàng trăm hệ thống tổng hợp giọng nói, thương mại tự Tuy đạt thành tựu tổng hợp giọng nói kỹ thuật điện tử, nghiên cứu tiến hành để tạo tổng hợp giọng nói học, mô quản người, dùng robot dạng người Các tổng hợp giọng nói điện tử bị giới hạn chất lượng loa, phận cuối tạo âm thanh, dù tín hiệu điện tử có hoàn hảo Có hy vọng quản khí tạo giọng nói chuẩn loa thông thường Tại Việt Nam, công việc nghiên cứu xử lý tiếng nói tiếng Việt (hiện thời trọng tâm tổng hợp tiếng Việt) bắt đầu Phòng Công nghệ Phần mềm từ năm 1998 đến xây dựng hệ TTS tiếng Việt dựa tiếng nói tổng hợp luật VNSPEECH Thời kỳ đầu thử nghiệm phương pháp Tổng hợp tiếng nói ghép nối Ý tưởng phương pháp ghi âm tiếng nói người sau phát lại Ưu điểm phương pháp ban đầu dễ triển khai, tiếng nói tạo tiếng người Tuy nhiên, phương pháp có hạn chế liệu lớn, chi phí tốn thêm giọng nói tham số đặc trưng điều khiển hạn chế Từ năm 2000 bắt đầu chuyển sang phương pháp Tổng hợp tiếng nói luật dựa sở tìm hiểu chất, đặc trưng tiếng nói, quy luật để tạo tiếng nói người Phương pháp tổng hợp gọi tổng hợp formant, có ưu điểm kích thước toàn hệ thống nhỏ gọn không yêu cầu liệu mà gồm quy tắc, tham số tiếng nói điều khiển dễ dàng, không giới hạn, thuận tiện cần tạo thêm giọng Tuy nhiên, “thử sai” trình lâu dài để hoàn thiện chất lượng tiếng nói Vnspeech phần mềm Việt Nam tổng hợp tiếng Việt luật từ thành phần đặc trưng ngữ âm tiếng Việt, tự động đọc không hạn chế văn tiếng Việt 1.2 Cấu trúc âm tiếng Việt Theo tìm hiểu lần thực tập trước, sau nêu lại số vấn đề cần quan tâm cấu trúc ngữ âm tiếng Việt, có liên quan tới đề tài nghiên cứu 1.2.1 Các khái niệm Chuỗi lời nói người phân chia thành nhiều đoạn nhỏ câu, cụm từ, từ,… cuối âm tiết Âm tiết đơn vị phát âm nhỏ nhất, không phân chia dù nói chậm đến đâu (mà giữ ý nghĩa âm tiết đó) Mỗi âm tiết bao gồm nhiều yếu tố ngữ âm tạo thành yếu tố ngữ âm phát âm lúc để tạo nên âm tiết Bên cạnh đó, người ta xem âm tiết bao gồm nhiều yếu tố đoạn tính – yếu tố có giới hạn phân đoạn âm tiết phụ âm, nguyên âm âm đệm – yếu tố siêu đoạn tính – yếu tố giới hạn âm tiết ngữ điệu, điệu Đặc điểm riêng âm tiết tiếng Việt đơn âm mang điệu 1.2.2 Các đặc tính tiếng Việt Âm tiết tiếng Việt tương đối cách biệt: tiếng Việt âm từ câu phát âm tách biệt nhau, nghĩa từ phát âm hoàn toàn độc lập, tượng đọc nối tiếng Anh Tiếng Việt tương đối quán cách phát âm cách viết : nguyên tắc chữ viết tiếng Việt ký âm, nghĩa đọc viết Nhưng sau nghiên cứu tiếng Việt số bất đồng hệ thống chữ viết, vậy, nhìn chung tiếng Việt quán đọc viết Hiện tượng môi hóa : tiếng Việt có số âm môi ô, u Các phụ âm đứng trước âm bị tượng biến đổi sóng âm, gọi tượng môi hóa Ví dụ : từ bu, tô phụ âm b, t phát âm khác so với đứng từ khác 1.2.3 Hệ thống ngữ âm tiếng Việt Thanh Điệu Phần vần Âm Đầu Âm đệm Âm Âm cuối Hình 1- Cấu trúc âm tiết tiếng Việt Một âm tiết tiếng Việt gồm phần : + Thanh điệu : yếu tố có mặt âm tiết tiếng Việt + Âm đầu : yếu tố mở đầu âm tiết, thường độc lập với phần lại + Phần vần : gồm phần : - Âm đệm : bán nguyên âm chiếm vị trí trung gian phụ âm đầu phần vần Có thể có hay không âm tiết Tiếng Việt có hai âm đệm [o] [u] phát âm tương đối giống - Âm : nguyên âm (đơn hay đôi), có mặt âm tiết, giữ vai trò đỉnh âm - Âm cuối : phụ âm hay bán nguyên âm để kết thúc âm tiết Tiếng Việt có hai bán nguyên âm cuối [i] [u] Thanh điệu: Có điệu : ngang, huyền, sắc, hỏi, ngã, nặng Trong âm tiết, điệu không ảnh hưởng đến phụ âm đầu Thanh điệu thể rõ cuối âm tiết Trong âm tiết âm cuối kết thúc phụ âm cuối vang hay bán nguyên âm đặc trưng âm điệu thể rõ ràng (VD : la, là, l, lã, lá, lạ) Còn âm tiết kết thúc phụ âm cuối tắc, vô (p,t,c) điệu khó thể (VD : cáp, cạp , càp, cp, cãp) Phụ âm : + Phụ âm đầu âm tiết Trong tiếng Việt có số phụ âm viết khác có cách đọc Ví dụ: - c,k,q : phát âm /k/ - g, gh : phát âm /g/ - ng, ngh : phát âm /ng/ + Phụ âm "q" không xuất riêng lẻ mà kèm với âm đệm "u" để tạo phụ âm "qu" đọc /kw/ + Các phụ âm "g" "gh", "ng" "ngh" đối lập bổ sung tức nguyên âm không kết hợp với phụ âm kết hợp với phụ âm + Các phụ âm có cách biểu diễn nhất, tách rời Ví dụ: "gi", "gh", "ng", ghép lại âm ký tự riêng biệt mà phi phát âm cách + Phụ âm làm phụ âm cuối phát âm hoàn toàn với lúc làm phụ âm đầu Có phụ âm vừa làm phụ âm đầu vừa làm phụ âm cuối {c, ch, m, n, ng, nh, p, t} chia làm loại : + Loại vang (hữu thanh): m, n, nh, phụ âm làm âm cuối nguyên âm đứng trước phát âm bình thường, không bị nén hay ngắt lại + Loại tắc (vô thanh) : p, t, c Khi phụ âm làm âm cuối nguyên âm đứng trước phát âm bị nén hay ngắt lại b c ch d đ g gi gh h k kh l m m nh ng ngh p ph q qu r s t th tr x v Hình 1- Bảng phụ âm tiếng Việt Nguyên âm : Là thành phần thiếu tiếng Việt Nó dùng làm âm Khi làm âm chính, kết hợp với âm đệm âm cuối (có thể không có) tạo nên phần vần làm đỉnh âm tiết Có hai loại nguyên âm đơn nguyên âm đôi Nguyên âm đơn Nguyên âm đôi a i ia ă o y iê â ô ươ e ưa ê u uô Hình 1-3 Bảng nguyên âm tiếng Việt 1.3 Đặc trưng âm tố 1.3.1 Ðặc trưng vật lí Âm thanh, chất sóng âm tạo từ dao động vật thể truyền môi trường truyền âm định Âm lời nói, tương tự, sóng âm tạo từ dao động phận máy phát âm truyền môi trường truyền âm (thường không khí) Những sóng âm truyền đến tai người nghe, đập vào màng nhĩ, tạo rung động để người nghe nhận biết lời nói Chúng có đặc trưng xác định yếu tố sau đây: + Ðộ cao (hauteur /pitch): tần số dao động dây và/hoặc phận khác máy phát âm định Tần số dao động (số chu kì dao động giây) lớn âm cao ngược lại Ðơn vị để đo độ cao âm Hertz (viết tắt Hz) Tai người nghe âm có tần số dao động từ 16 đến 20.000 Hz Âm vực dùng lời nói hẹp nhiều Trong lời nói người, độ cao âm yếu tố tạo nên điệu, ngữ điệu trọng âm + Ðộ mạnh (intensité/intensity): biên độ dao động vật thể định Biên độ dao động trị số lớn mà dao động đạt tới nửa chu 10 kì Biên độ dao động lớn, âm vang to ngược lại Ðơn vị đo độ mạnh âm décibel (viết tắt dB) Trong lời nói người, độ mạnh âm yếu tố tạo nên âm lượng âm trọng âm từ + Ðộ dài (durée/length): thời gian dao động vật thể định Ðộ dài âm tạo nên tương phản phận lời nói, yếu tố tạo nên trọng âm, tạo nên nguyên âm đối lập độ dài Hai từ "tang" "tăng" tiếng Việt có đối lập âm a dài (trong "tang") âm a ngắn (trong "tăng") + Âm sắc (timbre): phụ thuộc vào độ cao, độ dài độ mạnh tham gia bổ sung vào thành phần kết cấu âm Ðây vẻ riêng biệt âm Âm sắc định bởi: thể chất vật thể dao động, tính chất phức hợp tượng cộng hưởng âm phương pháp làm cho vật thể dao động Một âm có độ cao, độ mạnh, độ dài phát từ dây tơ khác với từ dây đồng; từ ống sáo to dài, khác với từ ống sáo nhỏ, ngắn; từ việc gẩy khác với từ việc gõ, búng, cọ xát thổi Âm sắc sắc thái riêng âm Âm sắc định vật thể dao động theo chu kì đặn hay không đặn; dao động theo chu kì đặn tạo âm vang (sonants), chu kì không đặn tạo âm ồn hay âm có nhiều tiếng động (non - sonants bruyants) Các đặc trưng vật lí nói làm nên chất âm học âm tố, gọi đặc trưng âm học âm lời nói Ngữ âm học âm học (phonétique acoustique/Acoustic phonetics) chuyên nghiên cứu đặc trưng âm học 1.3.2 Ðặc trưng sinh lí Âm lời nói phát từ máy phát âm Tìm hiểu mặt sinh lí âm lời nói, tất phải xem xét cấu tạo máy phát âm chế tạo âm lời nói máy a Bộ máy phát âm gồm: + Các quan tạo lượng cho hoạt động phát âm phổi, khí quản + Các quan tạo lập, khuếch đại phát âm phận hầu, khoang hầu, khoang miệng khoang mũi Thanh hầu khoang nói cộng minh trường (hộp cộng hưởng) chứa nhiều phận 11 mà vận động chúng có tác dụng tạo nên âm với âm sắc khác b Cơ chế tạo âm thanh: Ðể phát âm, điều khiển hệ thần kinh, nói chung không khí từ phổi đẩy qua khí quản, vào hầu thoát qua cộng minh trường phía hầu để thoát Có thể thấy hai trường hợp Trường hợp 1, không khí thoát làm rung dây với tần số đểï tạo nên âm với điệu định Âm nhỏ, uốn nắn, khuếch đại nhờ cộng minh trường (thanh hầu, khoang hầu, khoang miệng, khoang mũi) để trở thành âm lời nói Trong trường hợp này, ta có âm hữu (sons sonores/voiced sounds) Nếu dây có chu kì rung đặn, ta có âm chứa nhiều tiếng Ngôn ngữ học gọi âm loại âm vang Các nguyên âm phụ âm mũi, phụ âm bên, phụ âm rung âm vang Trường hợp nói thào, không khí từ phổi mạnh dây xa rung động nhẹ; ngôn ngữ học gọi âm thào âm giọng thở (sons soufflés/breathed sounds) Trường hợp hai, không khí thoát không làm rung dây lượng khí cọ xát, lách qua phá vỡ chỗ cản tạo phận hoạt động máy phát âm để tạo âm, khoang hầu, khoang miệng, khoang mũi cộng hưởng, khuếch đại thành âm lời nói Ngoài cộng minh trường hầu chứa dây thanh, cộng minh trường lại có tác dụng khống chế số tần số tăng cường số tần số khác tạo nên hòa âm Việc không khí cọ xát bật phá chỗ cản tạo nên dao động có chu kì không đặn làm thành tiếng động (tiếng ồn) Những âm có tiếng động, tham gia tiếng gọi âm vô (sons sourds/ voiceless sounds) Tóm lại, để phát âm, bắt buộc phải có không khí đẩy ra, tạo lượng phát âm; phải có hoạt động cấu âm quan máy phát âm Khi phát âm, nói chung luồng đẩy từ phổi Tuy nhiên, số ngôn ngữ, có âm phát từ khoang hầu từ mạc Khi luồng phát từ khoang hầu, hầu từ vị trí bình thường nhấc lên cao hạ xuống thấp có tác dụng tạo âm; luồng 12 Nhấn nút Convert Now… chọn thông số cho Attributes là: 44100 KHz; 16 bit; Mono Hình 5- Định dạng file âm Giao diện chương trình hình sau: Hình 5-4 Giao diện chương trình 52 Hình 5- Quản lý luật Hình 5- Quản lý từ điển 53 Hình 5- Mở File liệu Chú thích: 1: Nút Play, sau thực việc nhập liệu xong nhấn nút để thực thi chương trình 2: Nút Stop, ngưng chương trình chương trình thực thi(hiện chức xây dựng) 3: Nút Pause, tạm dừng chương trình chương trình thực thi(hiện chức xây dựng) 4: Xem danh sách luật có liệu, có số chức như: thêm, xoá, sửa 5: Xem danh sách từ từ điển, thêm, xoá, sửa từ điển 6: Vùng nhập văn làm liệu đầu vào cho chương trình, bắt buộc phải thực 7: Trạng thái chương trình, ready có nghĩa chương trình sẵn sàng thực thi 54 KẾT LUẬN I Những kết đạt Sau thời gian tìm hiểu nghiên cứu, đạt kết sau: Tìm hiểu nắm vững phương pháp tổng hợp tiếng nói thông dụng Có hai công nghệ dùng tổng hợp ghép nối (ghép từ, ghép âm tiết ) tổng hợp cộng hưởng tần số (tổng hợp formant); có số công nghệ khác (tổng hợp mô phát âm) Ngoài ra, phương pháp tổng hợp giọng nói kèm theo “Ngôn ngữ đánh dấu cho tổng hợp giọng nói” phù hợp với chuẩn XML như: JSML, SSML, W3C Tìm hiểu tiếng Việt, đặc trưng tiếng Việt hệ thống ngữ âm tiếng Việt, từ định hướng phương pháp tổng hợp tiếng nói áp dụng đồ án Có kiến thức Hệ chuyên gia, mô hình hệ chuyên gia, bước phát triển hệ chuyên gia Và xây dựng chương trình mô hệ chuyên gia Trong khuân khổ đồ án lần này, đưa vài luật đơn giản dễ hiểu để đưa thay đổi ngữ điệu cho phù hợp II Vấn đề tồn Trong trình tìm hiểu bắt tay vào thực nghiệm, có gặp phải số khó khăn chủ quan lẫn khách quan Vì kết đạt hạn chế lớn Đó vấn đề tri thức chuyên gia thân hạn hẹp, khuôn khổ chương trình bị hạn chế nhiều Hơn nữa, việc xây dựng chương trình tổng hợp giọng nói có ứng dụng hệ chuyên gia để thay đổi ngữ điệu dừng lại mức thể hai giọng chính: giọng bình thường giọng nhấn mạnh (trong ngữ điệu bao gồm yếu tố yếu tố: độ cao, độ mạnh, độ dài, âm sắc ) Cơ sở liệu từ chương trình nhỏ, hạn chế lớn nhấp phương pháp tổng hợp tiếng nói theo phương pháp ghép âm (khối lượng liệu yêu cầu lưu trữ lớn) Điều kiện thu thập liệu (phòng thu, mic, kỹ thuật xử lý âm ) 55 Một vấn đề không nhắc đến, ngôn ngữ lập trình Visual C++ không hỗ trợ cách đầy đủ UNICODE (chuẩn chuyên gia tin học khuyến cáo nên sử dụng), chương trình phải sử dụng font chữ byte cũ TCVN3 Và khả hạn chế ngôn ngữ lập trình này, thời gian nghiên cứu chưa lâu nên nhiều khuyết điểm ý tưởng chưa thực III Hướng phát triển Qua đợt nghiên cứu, tìm hiểu vào thực tiễn đề tài này, thu nhiều kinh nghiệm quý báu bổ ích Đó kiến thức hệ chuyên gia, phương pháp tổng hợp tiếng nói thông dụng Ngoài ra, trình xây dựng hệ chuyên gia, tiếp cận tri thức tiếng Việt ngữ âm tiếng Việt Sau thời gian thực tiễn, xây dựng chương trình mô hệ chuyên gia việc tạo ngữ điệu cho tiếng nói tổng hợp Theo tìm hiểu, Việt Nam có nhiều chương trình tổng hợp tiếng nói ứng dụng tiếng nói, chương trình áp dụng hệ chuyên gia vấn đề ngữ điệu Đây hướng mẻ có triển vọng Hướng phát triển chương trình tới, tham khảo hợp tác với Lê Hồng Phương việc phân tích văn tiếng Việt thành từ (từ đơn từ phức) có nghĩa Tôi tìm hiểu phần mềm vnToolKit gồm ứng dụng sau: vnTokenizer: Tự động tách đơn vị từ (lexical unit) tiếng Việt vnTagger: Tự động gán nhãn từ loại cho đơn vị từ tiếng Việt vnLEditor: Xây dựng cú pháp tiếng Việt, sử dụng chuột bàn phím hình đồ hoạ vnLTAG: Phân tích cú pháp tiếng Việt, sử dụng mô hình LTAG - văn phạm kết nối (Lexicalized Tree-Adjoining Grammar) Cuối cùng, xin gửi lời chân thành cảm ơn đến thày giáo, Ths Vũ Thành Vinh nhiệt tình bảo giúp đỡ trình thực đề tài 56 TÀI LIỆU THAM KHẢO [1] Đặng Văn Đức- Lê Quốc Hưng , Lập trình Windows Visual C++, NXB Giáo Dục (2001) Hà Nội [2] Đoàn Đình Dân, Sử dụng tiếng Việt UNICODE Visual C++6.0, Tạp chí Thế giới vi tính Tr.110 (Số 2/2005) [3] Đỗ Trung Tuấn, Hệ chuyên gia, NXB Giáo Dục (1999) Hà Nội [4] Hoàng Ngọc Hùng, Từ loại tiếng Việt, http://diendan.edu.net.vn (2007) [5] Hồ Tất Thành, Sử dụng Tiếng Việt Unicode với VisualC/C++, Thế giới vi tính Tr.114 (Số 4/2005) [6] Nhiều tác giả, Từ vựng học từ vựng tiếng Việt, ngonngu.net [7] Nhiều tác giả, Từ điển tiếng Việt, http://vdict.com (2003- 2006) [8] Nhiều tác giả, Tổng hợp giọng nói, http://vi.wikipedia.org [9] Nguyễn Đình Tê, Tự học lập trình MFC qua ví dụ, NXB Minh Khai, (2004) Hà Nội [10] Nguyễn Văn Hoàng nhóm Elicom, Visual C++6.0, NXB Thống kê, (2002) Hà Nội [11] Phạm Ngô Công, Phạm Ngọc Nam, Phạm Tuấn Lượng, Tự học lập trình Visual C++ 6.0 từ đến nâng cao, NXB Thống Kê, (2002) Hà Nội [12] Michael J.Young, Mastering Visual C++ 6, Sybex INC (1998) [13] Nhiều tác giả, Sams Teach Yourself Database Programming with Visual C++ in 21 Days, Macmillan Computer Publishing (1999) [14] Nhiều tác giả, Desktop Applications with Microsoft Visual C++ 6.0, Microsoft Corporation (1999) [15] Nhiều tác giả, Sams Teach Yourself Visual C++ in 21 Days, Macmillan Computer Publishing 57 PHỤ LỤC Một số đoạn mã nguồn chương trình // Xử lý văn bản, xoá ký tự đặc biệt CString CTonghopView::Chuan_hoa(CString string) { CString temp = string; CString ktdb = "`~@#$%^&*"; temp.Remove('\r'); temp.Replace('\n',' '); int i=0; while (i!=temp.GetLength()) { if ((temp[i]==' ') && temp[i+1]==' ') { temp.Delete(i+1,1); i ; } if (ktdb.Find(temp[i]) != -1) { temp.Delete(i,1); i ; } i++; } return temp; } //Tách đoạn văn thành từ đơn CString CTonghopView::ExtractFirstWord(CString string) { int vitri; space=' '; vitri=string.FindOneOf(space); 58 if (vitri == -1) { return string; } return string.Left(vitri); } void CTonghopView::TachTu(CString string) { CString temp = string; CString word; space=' '; int i = 0; while ((danhsach[i] != "") && (iMoveFirst(); while (!m_pSet->IsEOF()) { if (mahoa[i] == m_pSet->m_fdauvao) { daura[i] = "stress"; break; } //////////////////// if ((mahoa[i]+'+'+mahoa[i+1]) == m_pSet->m_fdauvao) { vitri = m_pSet->m_fdaura.FindOneOf(mahoa[i]); if (vitri != -1) { daura[i] = "stress"; } else daura[i+1] = "stress"; break; } //////////////////// c.Format(_T("%d"),i); if ((mahoa[i]+ '=' + c) == m_pSet->m_fdauvao) { daura[i] = "stress"; // AfxMessageBox(daura[i]); break; } 63 //////////////////// if ((mahoa[i] != m_pSet->m_fdauvao) && ((mahoa[i]+'+'+mahoa[i+1]) != m_pSet->m_fdauvao) && ((mahoa[i]+ '=' + c) != m_pSet->m_fdauvao)) { daura[i] = "normal"; } m_pSet->MoveNext(); } // AfxMessageBox(daura[i]); i++; } //////////////////// Xet Cac Loai Cau //////////////// i = 0; m_pSet->MoveFirst(); while (!m_pSet->IsEOF()) { if (loaicau == m_pSet->m_fdauvao) { i = 0; while (mahoa[i] != "") { c.Format(_T("%d"),i); vitri = m_pSet->m_fdaura.FindOneOf(c); if (vitri != -1) { daura[i] = "stress"; // AfxMessageBox(daura[i]); } i++; 64 } ////////////////////// i = 0; c = "last"; vitri = m_pSet->m_fdaura.FindOneOf(c); if (vitri != -1) { while (mahoa[i] != "") { if (mahoa[i+1] == "") { daura[i] = "stress"; // AfxMessageBox(daura[i]); break; } i++; } break; } ////////////////////// i = 0; c = "first"; vitri = m_pSet->m_fdaura.FindOneOf(c); if (vitri != -1) { daura[0] = "stress"; // AfxMessageBox(daura[i]); } ////////////////////// i = 0; while (mahoa[i] != "") { 65 vitri = m_pSet->m_fdaura.FindOneOf(mahoa[i]); if (vitri != -1) { daura[i] = "stress"; // AfxMessageBox(daura[i]); } i++; } break; } m_pSet->MoveNext(); } } 66 [...]... hệ chuyên gia dùng thuật ngữ xử lý và xây dựng hệ thống là công nghệ tri thức Công nghệ tri thức mở rộng các dữ liệu bằng kĩ thuật suy luận và mở rộng công nghệ phần mềm trong các lĩnh vực ứng dụng Không như việc xây dựng chương trình bình thường, việc phát triển hệ chuyên gia cần độ tương tác người máy cao Người thiết kế xây dựng từng bước hệ thống, thử nó, thay đổi tri thức hệ thống Quá trình này... VỀ HỆ CHUYÊN GIA 2.1 Các khái niệm về hệ chuyên gia Hệ chuyên gia, còn gọi là hệ thống dựa tri trức, là một chương trình máy tính chứa một số tri thức đặc thù của một hoặc nhiều chuyên gia con người về một chủ đề cụ thể nào đó Các chương trình thuộc loại này đã được phát triển từ các thập kỷ 1960 và 1970, và trở thành ứng dụng thương mại từ thập kỷ 1980 Dạng phổ biến nhất của hệ chuyên gia là một chương. .. triển hệ thống lẫn người dùng Người phát triển có thể dùng nó để phát hiện chỗ sai trong tri thức của hệ thống trong khi người dùng sẽ thuận lợi và dễ dàng thấu hiểu lập luận của hệ thống Một hệ chuyên gia có thể giải thích tại sao nó đặt ra một câu hỏi Khi tham vấn chuyên gia, sự tương tác có nghĩa quan trọng ở chỗ nó giúp hệ chuyên gia cởi mở, thân thiện, có tác dụng gợi mở tri thức chuyên gia Người... yêu cầu mới của chuyên gia 2.2 Cấu trúc một hệ chuyên gia Trong lĩnh vực hệ chuyên gia, các chuyên gia chú trọng vào tri thức của vấn đề Loại tri thức này được gọi là tri thức lĩnh vực, được chuyên gia lưu trữ trong bộ nhớ vĩnh cửu Lúc cho lời khuyên, chuyên gia cần thu thập các sự kiện về lĩnh vực, lưu nó trong bộ nhớ tạm thời Chuyên gia lập luận về vấn đề bằng cách kết hợp các sự kiện trong bộ nhớ tạm... thức ở trong bộ nhớ vĩnh cửu Dùng quá trình này, chuyên gia suy luận thông tin mới về vấn đề và đi đến kết luận Chúng ta có thể hiểu cấu trúc của một hệ chuyên gia qua mô hình sau: Phương tiện giải thích Người sử dụng Bộ nhớ làm việc Giao diện người dùng Mô tơ suy luận Cơ sở tri thức Hình 2- 1 Cấu trúc đơn giản của một hệ chuyên gia 25 2.2.1 Cơ sở tri thức Trong hệ chuyên gia, các tri thức chuyên gia. .. Xây dựng hệ chuyên gia Chương trình bình thường quan tâm đến dữ liệu của bài toán để tìm cách xử lý và đi đến kết quả Còn hệ chuyên gia thì quan tâm đến tri thức của vấn đề Hệ chuyên gia hỏi, tổ chức và nghiên cứu tri thức để hiểu vấn đề Nó cũng xây dựng và thử hệ thống để hiểu thêm về các tri thức Giải pháp cuối cùng là thể hiện tự nhiên và thể hiện phù hợp các hiểu biết đó Những nhà thiết kế hệ chuyên. .. việc hàng ngày, sự thay đổi hành vi của chương trình yêu cầu họ phải biết cách cài đặt chương trình Nói cách khác, chuyên gia phải là một lập trình viên chuyên nghiệp Hạn chế này được giải quyết khi các chuyên gia tiếp cận sử dụng các hệ CSTT Trong các hệ CSTT, tri thức được biểu diễn tường minh chứ không nằm ở dạng ẩn như trong các chương trình truyền thống Do vậy có thể thay đổi các CSTT, sau đó các... việc phát triển hệ chuyên gia Tri thức cần thiết cho cả vấn đề và những phương tiện dùng cho thiết kế hệ chuyên gia Việc thu thập tri thức được xem là khâu quan trọng trong việc phát triển hệ chuyên gia Bước này đòi hỏi người thu thập tri thức gặp gỡ chuyên gia, định ra các khái niệm chính và các phương pháp giải tổng quát mà chuyên gia đã dùng Một số thông tin thuận lợi cho hệ chuyên gia sẽ còn được... vụ tách biệt mà là quá trình kế tiếp trong đề án hệ chuyên gia Sau mỗi lần trao đổi với chuyên gia, có thể hệ thống được bổ sung thêm vài chi tiết Các phép thử cũng tác động làm thay đổi tri thức hệ thống Đối tượng chính của việc thử hệ thống là kiểm chứng cấu trúc tổng thể và tri thức của hệ thống Trong suốt quá trình thử, người thiết kế làm việc chặt chẽ không chỉ với chuyên gia mà còn với người dùng... Vì thế mỗi ngôn ngữ có một hệ thống âm vị riêng , khác nhau cả về mặt số lượng âm vị cũng như về giá trị của từng âm vị Thí dụ, trong tiếng Anh, có âm vị "i" đối lập với âm vị "i dài (sit [sit] ( seat [si:t]) Trong khi ở tiếng Pháp, tiếng Việt, hai âm ấy chỉ là hai cách phát âm khác nhau của cùng một âm vị /i/ Tương tự, trong tiếng Việt có âm vị "tờ" (/t/), âm vị đờ" (/d/), nhưng trong tiếng Hán, "tờ"

Ngày đăng: 02/08/2016, 22:01

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan