Báo cáo nghiên cứu khoa học " THUẬT TOÁN KIỂM TRA ÂM TIẾT TIẾNG VIỆT DỰA TRÊN LUẬT CẤU TẠO ÂM TIẾT " potx

13 779 0
Báo cáo nghiên cứu khoa học " THUẬT TOÁN KIỂM TRA ÂM TIẾT TIẾNG VIỆT DỰA TRÊN LUẬT CẤU TẠO ÂM TIẾT " potx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

THUẬT TOÁN KIỂM TRA ÂM TIẾT TIẾNG VIỆT DỰA TRÊN LUẬT CẤU TẠO ÂM TIẾT Nguyễn Gia Định, Trần Thanh Lương Trường Đại học Khoa học, Đại học Huế GIỚI THIỆU Trong thời đại ngày nhu cầu giao tiếp văn ngày nhiều Các văn thường in từ máy tính thơng qua phần mềm soạn thảo văn như: MS Word, Word Perfect cần phải đúng, xác hiệu Để làm phải kiểm tra tả, ngữ pháp văn trước in gửi Tuy nhiên, văn lớn việc kiểm tra người thực nhiều thời gian công việc nhàm chán Vì nhiều ngun nhân, có ngun nhân tâm lý làm người kiểm tra không kiểm tra hết văn bản, kiểm tra xong văn khơng đảm bảo văn tồn Sai sót lớn văn thường lỗi tả khơng cố ý (tức lỗi đánh máy nhầm) Xuất phát từ yều cầu mà phần mềm MS Word có chức kiểm tra tả ngữ pháp tiếng Anh mức độ tương đối định Việc kiểm tra lỗi tả diễn dễ dàng MS Word, với lỗi ngữ pháp chưa hồn toàn Vấn đề kiểm tra ngữ pháp ngôn ngữ tự nhiên vấn đề khó nghiên cứu nhà khoa học, hãng phần mềm lớn giới Đối với tiếng Việt xuất phần mềm kiểm tra tả, phần mềm Vietkey Office, phần mềm kiểm tra lỗi tả dựa tập từ vựng có sẵn từ điển Vì khả mở phần mềm khơng có, tức khơng có khả học 37 từ từ văn tả Hơn sử dụng chế lưu từ vựng từ điển nên phải lưu trữ lượng lớn từ vựng Đó hạn chế phần mềm Vietkey Office Trong báo báo này, đưa phương pháp dùng để kiểm tra lỗi tả tiếng Việt Đó kiểm tra tả dựa luật cấu tạo âm tiết tiếng Việt Trong phần 2, giới thiệu cấu trúc âm tiết theo cách tiếp cận hướng ngôn ngữ; theo cách tiếp cận hướng tổ hợp âm; Phần phần so sánh hai cách tiếp cận Cuối thuật toán, tổ chức, cài đặt số nhận xét 38 PHÂN TÍCH CẤU TRÚC ÂM TIẾT 2.1 Âm tiết Âm tiết đơn vị phát âm nhỏ mà cho dù ta có phát âm chậm đến khơng thể tách thành phần nhỏ 2.2 Cấu trúc âm tiết thành phần: (Cách tiếp cận theo hướng ngôn ngữ) Theo ngôn ngữ học âm tiết tiếng Việt cấu tạo từ năm thành phần sau: - Âm đầu - Âm đệm - Âm - Âm cuối - Thanh điệu Chúng ta viết cấu trúc âm tiết theo cách tiếp cận thành phần sau: Âm tiết = [Âm đầu][Âm đệm][Âm cuối][Thanh điệu] Trong thành phần nằm cặp dấu bắt buộc phải có, thành phần nằm cặp dấu [ ] có khơng Ví dụ: 39 Âm tiết Các thành phần cấu tạo thành âm tiết Âm đầu Âm đệm o Âm ă Âm cuối h c Thanh điệu Âm đầu Âm đệm khơng có Âm Âm cuối hai h khơng có Thanh điệu khơng có O Âm đầu khơng có 40 Âm đệm khơng có Âm o Âm cuối khơng có Thanh điệu khơng có Đây cách tiếp cận tốt việc phân tích ngơn ngữ tiếng Việt Tuy nhiên, cách tiếp cận khó khăn việc kiểm tra lỗi tả máy tính Vì vậy, đưa cách tiếp cận ngắn gọn để dễ dàng cho việc kiểm tra tả máy tính 2.3 Cấu trúc âm tiết ba thành phần: (Cách tiếp cận theo hướng tổ hợp âm) Chúng ta phân tích âm tiết thành ba thành phần sau: - Âm đầu - Tổ hợp âm - Âm cuối Cấu trúc âm tiết theo cách tiếp cận thành phần viết lại sau: Âm tiết = [Âm đầu][Âm cuối] 41 Trong thành phần nằm cặp dấu bắt buộc phải có, thành phần nằm cặp dấu [ ] có khơng Ví dụ: Âm tiết Các thành phần cấu tạo thành âm tiết Âm đầu c h Tổ hợp âm Âm cuối khơng có Âm đầu O oặ Âm đầu Hai Tổ hợp âm Âm cuối h khơng có Tổ hợp âm o Âm cuối khơng có 42 Âm đầu gồm có 27 loại sau: b, c, ch, d, đ, g, gh, h, k, kh, l, m, n, ng, ngh, nh, p, ph, q, r, s, t, th, tr, v, x, none Tổ hợp âm có số lượng lớn, tổ hợp âm cập nhật q trinh học văn chương trình Ví dụ số tổ hợp âm là: a, ai, au, ay, e, eo, i, ia, iai, iày, iá, iáo Âm cuối gồm có loại sau: c, ch, m, n, ng, nh, p, t, none Trong đó: none có nghĩa âm khuyết Trong cấu trúc âm tiết thành phần tổ hợp âm thành phần bắt buộc phải có, thành phần cấu tạo nên âm tiết Dựa cấu trúc âm tiết thành phần thấy tổ hợp âm ghép với số âm đầu số âm cuối định, điều minh họa sau: Âm đầu b Tổ hợp âm 15 ngh ươ 43 Âm cuối c 2.c 16 nh ch ch 17 p m d 18 ph n đ 19 q ng g 20 r nh gh 21 s p h 22 t t k 23 th none 10 kh 24 tr 11 l 25 v 12 m 26 x 13 n 27 none 44 14 ng Những âm đầu, tổ hợp âm giữa, âm cuối tô đậm ghép với để tạo thành âm tiết: chẳng hạn như: chươm, chươn, chương, cươm, cươn, chương, gươm, gươn, gương SO SÁNH HAI DẠNG CẤU TRÚC ÂM TIẾT Hai dạng cấu trúc âm tiết có số khác phương diện tiếp cận, dạng cấu trúc âm tiết thành phần tổ hợp dạng cấu trúc âm tiết thành phần Hay dạng cấu trúc âm tiết thành phần khai triển dạng cấu trúc âm tiết thành phần Chúng ta thấy tương ứng hai dạng cấu trúc sau: Cấu trúc âm tiết thành phần Cấu trúc âm tiết thành phần Âm đầu Âm đầu Âm đệm Tổ hợp âm Âm Thanh điệu Âm cuối Âm cuối 45 Như vậy, Tổ hợp âm cấu trúc âm tiết thành phần thực chất ba thành phần Âm đệm, Âm chính, Thanh điệu cấu trúc âm tiết thành phần ghép lại TỔ CHỨC, CÀI ĐẶT VÀ NHẬN XÉT 4.1 Tổ chức lưu trữ luật âm tiết: Dựa phân tích âm tiết thành phần, tổ chức lưu trữ từ điển luật theo Tổ hợp âm file liệu sau: Structure CT_AM Tong_Am_Dau : LongInt To_Hop_Am_Giua : String(3) Tong_Am_Cuoi : LongInt End Structure Trong đó: Tong_Am_Dau giá trị tổng Âm đầu với tổ hợp âm Tong_Am_Cuoi giá trị tổng Âm cuối với tổ hợp âm Lưu cấu trúc âm (có xếp) thành từ điển cấu trúc âm để sau kiểm tra âm tiết từ điển 4.2 Thuật toán kiểm tra âm tiết có hay khơng 46 Đầu vào: Một âm tiết Đầu ra: Âm tiết tả hay không Phương pháp: Tách âm tiết làm phần: âm đầu, tổ hợp âm giữa, âm cuối chuyển thành cấu trúc âm tiết X, tương ứng theo âm đầu, tổ hợp âm âm cuối Tìm tổ hợp âm từ điển theo phương pháp tìm kiếm nhị phân Nếu tìm thấy tiếp tục bước 4, khơng nhảy đến bước Ta lấy cấu trúc âm tiết CTAM tương ứng từ điển Kiểm tra xem âm đầu, âm cuối X có trong cấu trúc âm tiết CTAM hay khơng Nếu có thi kết luận âm tiết đúng, nhảy đến bước Nếu không tiếp tục bước 6 Kết luận âm tiết sai Kết thúc Việc kiểm tra toàn âm tiết văn việc kiểm tra tất âm tiết có từ điển hay không Với phương pháp kiểm tra tất âm tiết văn có tả hay khơng 4.3 Nhận xét: 47 - Phương pháp tiết kiệm không gian lưu trữ từ điển, số cấu trúc lưu trữ số tổ hợp âm tiếng Việt, số lượng không nhiều (khoảng 700 cấu trúc) - Do số lượng cấu trúc âm tiết nhỏ nên việc tìm kiếm nhanh, với phương pháp tìm kiếm nhị phân thi tốc độ tìm kiếm log2(n) (n số cấu trúc âm tiết) TÀI LIỆU THAM KHẢO Hoàng Phê (chủ biên), Từ điển tiếng Việt, Nhà xuất Giáo dục, Hà Nội (1994) Đoàn Thiện Thuật, Ngữ âm tiếng Việt, Nhà xuất Đại học Trung học chuyên nghiệp Hà Nội (1980) Nguyễn Quốc Dũng, Ngữ pháp tiếng Việt, Trung tâm Đào tạo Từ xa, Huế (1995) Bùi Tất Tươm (chủ biên), Cơ sở ngôn ngữ học tiếng Việt, Nhà xuất Giáo dục Hà Nội (1997) Phan Thị Tươi Trình biên dịch, Nhà xuất Đại học Quốc gia, Tp Hồ Chí Minh, (2001) Jeffrey D Ullman, (Trần Đức Quang dịch), Chương trình dịch, Tập 1,2, Nhà xuất Thống kê (2000) 48 THE ALGORITHM FOR CHECKING THE VIETNAMESE SYLLABLES BASED ON THE CONSTRUCTING LAWS OF SYLLABLES Nguyen Gia Đinh, Tran Thanh Luong College of Sciences, Hue University SUMMARY In this paper, we introduce a new method to check the spelling mistakes in Vietnamese This method is based on the constructing laws of syllables 49 ... tổng Âm cuối với tổ hợp âm Lưu cấu trúc âm (có xếp) thành từ điển cấu trúc âm để sau kiểm tra âm tiết từ điển 4.2 Thuật toán kiểm tra âm tiết có hay khơng 46 Đầu vào: Một âm tiết Đầu ra: Âm tiết. .. Vietkey Office Trong báo báo này, đưa phương pháp dùng để kiểm tra lỗi tả tiếng Việt Đó kiểm tra tả dựa luật cấu tạo âm tiết tiếng Việt Trong phần 2, giới thiệu cấu trúc âm tiết theo cách tiếp... hai dạng cấu trúc sau: Cấu trúc âm tiết thành phần Cấu trúc âm tiết thành phần Âm đầu Âm đầu Âm đệm Tổ hợp âm Âm Thanh điệu Âm cuối Âm cuối 45 Như vậy, Tổ hợp âm cấu trúc âm tiết thành phần thực

Ngày đăng: 19/06/2014, 09:20

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan