XÂY DỰNG CƠ SỞ TRI THỨC CHỮ NHIỀU BẬC ĐỆ QUY VÀ KHO THÀNH TỐ CƠ BẢN CỦA CHỮ NÔM

12 287 0
XÂY DỰNG CƠ SỞ TRI THỨC CHỮ NHIỀU BẬC ĐỆ QUY VÀ KHO THÀNH TỐ CƠ BẢN CỦA CHỮ NÔM

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

NHÁP XÂY DỰNG CƠ SỞ TRI THỨC CHỮ NHIỀU BẬC ĐỆ QUY VÀ KHO THÀNH TỐ CƠ BẢN CỦA CHỮ NÔM Ngô Thanh Giang & Tô Trọng Đức Ngô Thanh Nhàn & Ngô Trung Việt Nhóm Nôm Na, Hà Nội Hội nghị Quốc tế chữ Nôm Tháng năm 2006, Huế Giới thiệu Chữ Hán-Nôm sử dụng rộng rãi vùng Đông Á giới nhờ phát triển ngành công nghệ thông tin, mạng Internet chuẩn mã chữ quốc tế Unicode ISO/IEC 10646 Chữ Nôm nhờ gia nhập cộng đồng mạng thông tin máy tính Tuy nhiên, thông lệ quốc tế chữ Hán-Nôm nhiều điểm chưa xác tự đạng Cụ thể, chữ Hán-Nôm bị coi chữ “cái” (character), từ cách phân tích nội chữ Hán-Nôm phải dùng phương pháp số nét theo cách Tự điển Khang Hi năm 1710-1716 Do đó, kho chữ “cái” Hán-Nôm chuẩn quốc tế lên đến 50.000.1 Đó điều kỳ lạ Ai biết chữ Hán-Nôm ghi âm tiết, tạo thành phận giống hình dáng Tự điển Khang Hi bắt đầu công tác phân tích tìm 214 (mà phương Tây dịch sai thành radical) Tự điển Khang Hi coi bước cách mạng mặt phân tích chữ Hán theo phận tự dạng nội chữ, cho phép người ta thứ tự vào bảng (tự điển) theo quy trình mà truy tìm Nhưng việc dùng cách đếm số nét (không phải phận tự dạng nội tại) làm phức tạp thêm cho việc tìm chữ văn hay tự điển—không người thành thạo chữ Hán-Nôm nhìn mặt chữ lại nghĩ đến số nét Trong viết bàn tới quy trình xây dựng thống hóa sở tri thức chữ Hán Nôm (sau gọi CSTTC) Gọi sở tri thức vì, việc kho chữ tập hợp 20.213 chữ Nôm với 37.714 mục từ nguồn khác nhau, CSTTC Hán Nôm lưu giữ thông tin tự đạng hữu ích cho thao tác công nghệ thông tin, ngôn ngữ học (từ vựng lịch sử, từ vựng học, ngữ nghĩa học), văn học, giải nghĩa Việt-Anh, v.v Việc thống hoàn thiện CSTTC tiến hành quy trình mới: Thành tố với tư cách thành phần cấu tạo theo bậc cho tự dạng chữ Hán-Nôm Cho đến người ta tìm khoảng 5.000 chữ Giáp cốt văn có lẽ nhiều chữ chưa tìm Tự điển Đông Hán, Shuowen jiezi, Xu Shen soạn, có 9.353 chữ Khang Hy tự điển soạn thời nhà Thanh có 46.964 chữ Hán ngữ đại tự điển, Nhóm nhà xuất bàn Hubei tỉnh Sichuan năm 1986, có 56.000 chữ Quy trình xây dựng hoàn thiện CSTTC quy trình nhỏ quy trình Nôm na Nó có quan hệ chặt chẽ với quy trình khác hệ thống Quy trình Nôm Na mô tả tích hợp quy trình sau:  Tập hợp xây dựng sở liệu thống chữ Hán Nôm;  Xây dựng sở tri thức chữ Hán Nôm;  Xây dựng công cụ tra cứu – nghiên cứu chữ Hán Nôm;  Xây dựng bàn phím chữ Hán Nôm;  Xây dựng kho văn chữ Hán Nôm;  Xây dựng chương trình học tập điện tử cho chữ Hán Nôm (Nôm E-learning) Bài trình bày ý nghĩa riêng quy trình xây dựng hoàn thiện CSTTC mà nhóm Nôm Na thực thời gian qua, cụ thể phân tích thành tố theo tự dạng, thiết lập trình tạo tự dạng chữ, không theo lịch sử (dị đại) tạo chữ nhà nghiên cứu Hán Nôm hay ngôn ngữ học dùng Trên sở đó, đúc kết khái quát hoá để xây dựng thành tố bản, tiến tới việc xây dựng bàn phím chữ Hán Nôm, kết quy trình trở thành hỗ trợ đắc lực cho việc biên soạn nội dung cho chương trình Nôm Elearning a Thành tố gì? Thành tố phận chữ Hán-Nôm có nghĩa, chữ hay tạo thành chữ Thành tố tạo thành tố nhỏ Thành tố nhỏ không phân tích gọi thành tố Ở ý đến tự đạng chữ thành tố Từ “có nghĩa” gồm có tự đạng xuất nhiều chữ khác nhau, có tên gọi Tên gọi thành tố nhiều “âm đọc” thành tố Trong này, trình bày quy trình Nôm Na, xây dựng chức đệ quy vào kho thành tố Nôm na dựa giả định phân tích nhị phân cấu tạo nhị phân Một ví dụ đơn giản truyện dân gian cho thấy cấu tạo nhị phân đệ quy (nhiều tầng) chữ:  Ȣचẕ㞄㞌 bát đao phân mễ phấn ㄗ⯝‫گ‬ฆ‫ ܝ‬thiên lý trọng kim chung trình tạo chữ 㞌 phấn ‫ ܝ‬chung gồm hai bậc, bậc có hai chữ nhập thành một: Bậc 1: Ȣ + च→ẕvà sau đó, bậc 2:ẕ+ 㞄→㞌 Bậc 1: ㄗ+ ⯝→ ‫گ‬và sau đó, bậc 2:‫گ‬+ ฆ→‫ܝ‬ Hai câu đối rút từ câu chuyện dân gian duyên dáng thông minh, cách phân tích trình tạo chữ không thật chỉnh Ví dụ khác rõ hơn, hai tầng phân tích chữ 虣 lời: Bậc 1: 虣 lời → ཾ + 辇 trời Chúng dùng chữ “thành tố” gần nghĩa với Lê Văn Quán 1981 không vào lịch sử xuất hiện, cấu tạo hay âm đọc (ngữ âm lịch sử) Bậc 2: 辇 trời → ኮ thiên + ୕ thượng Các ví dụ cho chúng ta: Giả định 1: Thành tố chữ Hán Nôm phận tự dạng có nghĩa phân tích đệ quy nhị phân kho chữ Ta nói, cách đánh vần chữ Hán Nôm người Việt Nam cho ta hình dung phận cấu tạo chữ Chữ chữ tạo thành, từ từ tạo thành Giả định 2: Mỗi thành tố chữ kho, có mã Unicode nhất, có tự dạng có tên gọi (âm đọc) Quy trình Nôm Na năm tiến hành phân tích nhị phân cho chữ kho CSTTC, báo cáo kết quy trình hai giả định Kết gồm hai phần: phần theo phân tích nhị phân đệ quy, kèm theo bảng thành tố nhất, phần ngoại lệ b Đệ quy gì? Đệ quy (recursion) thuật ngữ tin học lập trình máy tính mô tả tượng tự nhiên, ngôn ngữ học toán học Đây lệnh chương trình làm cho modul (thao tác) chương trình tự gọi lại Chức đệ quy dùng để bổ sung sách lược tìm kiếm thực xếp nội chẳng hạn, số lượng lời gọi đệ quy dự đoán Cấu trúc chữ Nôm gần giống minh họa tam giác Sierpinski Một chữ Nôm phân tích thành thành tố bậc 1, bậc 2,… bậc n (bậc tối giản) Bản thân thành tố bậc xuất CSTTC Tam giác Sierpinski, biểu diễn khái niệm đệ quy c Quy trình Nôm Na: xây dựng chức đệ quy kho thành tố cho CSTTC Quy trình Nôm Na quy trình đưa tài liệu Hán-Nôm ròng vào sở tri thức chữ phông Hán-Nôm nhằm sử dụng đại trà mạng internet Cơ sở tri thức chữ Hán Nôm chứa thông tin chữ CSTTC khác với sở liệu chỗ bao gồm thông tin liên quan đến công nghệ trao đổi hiển thị (các loại mã chữ, mã bộ, in ấn, trình bày, thứ tự theo loại tiêu chí, truy cập,…), thông tin từ vựng, xuất xứ, thông tin cấu tạo, thông tin đối chiếu Việt-Anh Phiên sử dụng cho viết 1.07 CSTTC NomnaTongLight_kB Chúng ý nghiên cứu tiến hành thao tác số trường thông tin sau: ID (số thứ tự): báo trật tự thời gian theo ghi nhập vào Trường ID trường khoá để giữ trật tự ghi, để sau tiến hành thao tác xử lý, dựa vào thông tin ID chữ, ta tìm lại trật tự cũ CSTTC Mã Unicode: ghi lại thông tin mã Unicode chữ Hán-Nôm tổ chức Unicode cấp mã; mã thuộc mặt phẳng (60000-6ffff) cấp cho chữ Nôm quy trình Nôm Na, mã chưa có chuẩn quốc tế Unicode Nôm: chứa hình chữ đại diện mã thức thừa nhận, hình chữ thuộc font Tống thể mảnh NomnaTonglight.ttf Quốc ngữ: chứa thông tin âm đọc quốc ngữ hình chữ trường Nôm Mẫu ghép: gồm mã ghép từ 2ff0 đến 2ffb, quản lý cách kết hợp thành tố, thể cách thức cấu tạo chữ Hình mẫu ghép: 12 cách kết hợp thành tố trực quan hoá Thành tố 1: chứa thông tin tự dạng thành tố đầu Thành tố – id: báo thành tố - thể chức đệ quy CSTTC Thành tố – qn: âm đọc quốc ngữ thành tố 10 Mã thành tố 1: mã nội quản lý thành tố - trước dùng vào font yếu tố Đỗ Quốc Bảo 11 Thành tố 2: chứa thông tin tự dạng thành tố thứ hai 12 Thành tố – id: báo thành tố - thể chức đệ quy CSTTC 13 Thành tố – qn: âm đọc quốc ngữ thành tố 14 Mã thành tố 2: mã nội quản lý thành tố - trước dung vào font yếu tố Đỗ Quốc Bảo 15 Thành tố 3: chứa thông tin tự dạng thành tố thứ ba 16 Thành tố – id: báo thành tố - thể chức đệ quy CSTTC 17 Thành tố – qn: âm đọc quốc ngữ thành tố 18 Mã thành tố 3: mã nội quản lý thành tố - trước dung vào font yếu tố Đỗ Quốc Bảo 19 Bộ thủ (Radical): chứa thông tin tự dạng thủ 20 Bộ thủ – qn: âm đọc quốc ngữ thủ 21 Mã URN (Unicode Radical Number): Mã Unicode thủ3 22 Sunicode: Số nét lại chữ theo Unicode 23 KTotalStrokes: Tổng số nét chữ, kể số nét thủ NomnaTongLight_kB phiên 1.07 gồm có 37.714 mục (record), mục tập hợp tri thức tự dạng âm đọc quốc ngữ Thông thường, thông tin điểm mã (codepoint) báo quan trọng để phân biệt chữ: tự dạng có điểm mã quốc tế Do đó, làm việc CSTTC, chủ yếu vào trường ID, điểm mã chữ Xem danh sách Unicode Nôm Na http://nomfoundation.org/radicals.html Tuy ý đến phân tích nhị phân, nghĩa chữ chứa nhiều hai thành tố, dành chỗ cho khu vực Thành tố CSTTC, cho khả phân tích tam phân, danh sách nhỏ Xem danh sách thành phần giống kèm theo Vì quy trình chủ vào việc phân tích thành tố theo tự dạng chữ, nghĩa phân tích kho chữ, nên việc lọc bớt trường hợp trùng điểm mã thao tác cần thiết CSTTC—theo Giả định Sau lọc bớt mục từ trùng điểm mã, CSTTC lại 20,213 mục từ Nói cách khác, kho Nôm Na có 20.213 chữ, hay 20.213 điểm mã, Các công việc cần thực CSTTC bao gồm:  Thống CSTTC: thống tên bộ, số URN; thống tự dạng thành tố kiểm tra tả cho thành tố tên  Xây dựng chức đệ quy cho CSTTC sở kho chữ thống tên gọi (âm đọc quốc ngữ) chuẩn tả  Xây dựng tập hợp thành tố dựa CSTTC đệ quy I Thống CSTTC Thống trường thông tin mã (URN) Mã (Unicode Radical Number hay URN) số thứ tự thủ theo trật tự Unicode (hay Khang Hi mở rộng) Mỗi mã gán cho thủ theo trật tự số nét thủ, tương ứng với thứ tự thủ Tự điển Khang Hi Như vậy, thủ (radical) mã URN có tương ứng Trên CSTTC, tham chiếu với Bảng thủ [Unicode Radical List] ta tìm ghi mã có trường Radical URN không trùng khớp Từ sửa lại thông tin trường Bộ thủ (Radical) Mã URN cho đồng Đây công tác liên tục, bán tự động, nhằm tìm lỗi không quán kho chữ ngày lớn có nhiều chữ Hán Nôm có tự dạng giống tránh trường hợp có mã khác Giả định 3: Hai chữ Hán Nôm giống phải có số nét Trên gọi giả định đương nhiên [default] Vì thao tác tự dạng, nên kết khác với lịch sử tạo chữ Có có chữ Nôm có lịch sử cấu tạo khác với chữ Hán tự dạng, có phân tích hay thành tố khác Khi phân tích thành tố, thành tố có tự dạng, thành tố chữ, nên có nhiều “tên gọi” (cách đọc) Ví dụ: a ㊧ khoai khoa, theo Vũ Văn Kính 1971 có trình tạo chữ khác nhau: ㊧ khoa (HV) → ㉣ thổ + ㌲ khoa (“sụp đổ, phá đổ”) ㊧ khoai (Nôm) → ㉣ thổ + ™chữ ፗkhoa Vậy, ㌲ khoa hay ™ chữ ፗ khoa (hay theo phân tích Lê Văn Quán bỏ bớt thủ) tự dạng thành tố b ⿡voi, vỏi (Nôm) wei4 “a kind of beast, a legendary monster” ⿡vệ(HV) → 㸏khuyển + ᛨ vi ⿡voi, vỏi(Nôm) → 㸏khuyển + ᛨ vay, vây, ve, veo, vi, vị, vì, vơ, vờ, vời, với c 魦 sa (có viết ⃗ sa) theo Lê Văn Quán (tr 83) 魦 sa (HV) → ⸅ ngư + 㑌 thiếu 魦 sa (HV) → ⸅ ngư + 㑌 sa (™chữ ☻ sa) Vậy, 㑌 thiếu hay ™chữ ☻ sa, tự dạng thành tố, có hai âm đọc, thiếu sa Tương tự, danh sách chữ có thành tố bị “bỏ bớt thủ” Lê Văn Quán (trang 91) gồm: Chữ Nôm luộc ⭝ lóc 䦜 khê ግ chửa ㎯ dặm ॄ chưa ‫ݫ‬ uống⼵ húi 䣻 hỏi ᄽ đất ㊄ Ghi ý ჉ hoả ⸅ ngư 㞄 mễ ㍌ nữ ⯝ lý ☐ vị ཾ 㗉 đao ཾ ᅰ thổ Ghi âm 㖇 (綠) lục 㖇 (ⲻ) lộc ㍃ (ዹ) khê ࣟ (Ԣ) chử ᗟ (୶) đạm ࣟ (Ԣ) chư ᥴ (᧰) uông ▒ (ᆂ) hối ▒(ᆂ) hối ୽ (ᛤ) đát Các thành tố 㖇 lục/lộc, ㍃ khê/hề, ࣟ giả/chử (dã, trả), ᗟ viêm/đạm, ᥴ ngọc/uông (vương, vướng), ▒ mỗi/hồi (mỏi, mọi, môi, mỗi, mối, mũi, múi, muối), ୽ đán/đát (chán, dán, đáng, đắn, đến, trán),… d ဠnăng thuộc 㷀nhục, chữ tắt 䏯 thuộc ‫ݒ‬chuỷ? Quá trình viết tắt sản sinh chữ biến thành khác nhau, hay thành tố khác Ví dụ: Ἕ viết tắt ἂ, 㹐sơviết tắt ≝ (hay theo Lê Văn Quán chữ ⶶ lịch),… thành UniHan (gọi phụ gia) Thống tên gọi thành tố Chữ Nôm cấu tạo từ thành phần sau: Thành phần tham gia cấu tạo có nguồn gốc từ phận chữ Hán, thành phần thường thành phần có nghĩa, đứng độc lập Ta gọi thành tố Các thành phần tham gia cấu tạo chữ Nôm với tư cách bộ, chữ Hán, chữ Nôm vốn thành phần có nghĩa có tên gọi Tên thành tố chữ Hán kiểm tra đối chiếu với nguồn: — Các từ/tự điển Vũ Văn Kính, Nguyễn Kim Thản, Hồ Lê, Trần Văn Kiệm, Trương Đình Tín, v.v — Unicode UniHan Database: http://www.unicode.org/charts/unihan.html Âm Hán Việt sử dụng làm tên gọi thành tố chữ Hán, Bính Âm tiếng Hán, từ điển Hán Việt Việt Nam chưa có Thành phần tham gia cấu tạo với tư cách phận Nôm: – Chữ viết tắt theo chữ Hán Nôm có sẵn – Chữ Nôm tham gia thành phần cấu tạo chữ Nôm khác Đối với thành phần tham gia cấu tạo chữ Nôm, âm quốc ngữ (được hiểu cách đọc nôm na) dùng làm tên thành tố Thành phần tham gia cấu tạo chưa có tên: Thành phần cấu tạo biểu âm theo loạt coi thành tố Đối với thành phần cấu tạo biểu âm theo loạt, tên thành tố gán tên chữ có mật độ xuất lớn văn — Các chữ có thành tố 缌 U+2057B chữ sau mà Lm Trần Văn Kiệm cho viết tắt ㋔nghiêu xuống mồng 䣳 䣵 bay quan, quán ῟ 伖Ⱥȸ㤸 Chữ 缌 U+2057B kho UniHan cách đọc (chỉ có Hán Ngữ đại tự điển), có cấu tạo 㷒mịch ❏nguyên Chúng chọn dùng cách đọc, nghiêu — Các chữ có thành tố ࿪ pou4 U+5485 ‘to spit out’ chữ: bội, bòi bồ bội, bụi bồi bội, vùi ㋂ ̵ ͝ ゕ ͽ ͼ Những âm bội, bòi, bộ, bồ, bồi, vùi, có phụ âm đầu môi hữu /b/ /v/, có âm cuối bán nguyên âm /i/ hay mở, có nguyên âm trung tâm sau tròn môi /ô/ hay /u/, có thấp (low register tương ứng với hữu thanh) huyền hay nặng Do ta tái lập bồi Cụ Vũ Văn Kính đưa ý kiến đọc “nửa chữ bội”, “nửa chữ bồi” (Học chữ Nôm, trang 46) — Các chữ có thành tố ⏶ fu2 U+7550 “to fill; fold a cloth” có nghĩa có âm đọc Lm Trần Văn Kiệm Vũ Văn Kính cho chữ Nôm Ϻ Ϲ ㋌㰮là “nửa chữ bức” Do chữ䗩bức Nôm, ta cho hai cách đọc, phúc theo chữ Hán hay theo chữ Nôm phúc bậc bặc – bặt – bực bậc 㔉ϺϹ㙵⹌ ㋌ ヾ 㔉 湢 ϶ゼ Ϸ 㰮 䂋 — Các chữ có thành tố ᖐcấu U+5193 cấu cáu, gẫu, quạu giảng, nhãng quảu cấu gấu bấu cấu ᒔ ⽎ ຆ 䩒 ㎸ Ӯ ෼ ɦ Ӱ ѿ 㧭 – cấu cấu cấu Thành phần cấu tạo vô nghĩa, vô coi thành tố Đối với thành phần cấu tạo vô nghĩa vô thanh, tên thành tố đánh dấu kí hiệu “n/a” (có nghĩa tạm thời chưa có tên) Việc đặt tên cho thành tố tuân theo quy tắc ngữ âm học lịch sử, phương pháp II Xây dựng CSTTC đệ quy sở tên thành tố thống Đặc tính CSTTC thích hợp cho mô tả đệ quy xây dựng theo mô hình Backus Naur Form mô tả trường Trong mô tả mục tự gồm có: Mục có hai thành tố nhánh quy trình đệ quy; Mục hai thành tố trống thành tố bản, tiến trình đệ quy Mục có thành tố ghi “n/a” nhánh chưa biết cách xử lý (phân tích) Từ đó, có thể: Rút trình cấu tạo chữ (có người gọi tự nguyên) cách dùng quy trình đệ quy theo nhánh sâu trước (depth-first), từ trái sang phải (left-to-right) chạm hết Unicode Nôm QN 20CD2 㗚 lời 53E3 215F6 ཾ ༦ giời 215F6 215F6 ༦ ༦ 5929 5929 ኮ ኮ Mẫu 屓 tt1 tt1_qn ཾ tt2 ༦ tt2_qn lời Bộ Bộ_qn URN Nét 0030 ཾ 0030 0037 屔 ኮ thiên ୕ thượng ཾ ኬ đại lời 屔 ኮ thiên ୕ thượng ኬ đại 0037 trời 屔 ኮ thiên ୕ thượng ኬ đại 0037 thiên thiêng 屔 屔 ୌ ୌ nhất ኬ ኬ đại đại ኬ ኬ đại đại 0037 0037 1 5929 4E0A 5927 5927 5927 5927 4E00 4E00 4E00 2E8A 5171 5171 5171 5171 5171 5171 5171 20017 ኮ ୕ ኬ ኬ ኬ ኬ ୌ ୌ ୌ 峹 ᕮ ᕮ ᕮ ᕮ ᕮ ᕮ ᕮ 20016 ጖ ⸝ … … thiên thượng đại dảy dãy đai nhắt nhứt bốc cọng cộng cụng gọng cộng khệnh 屔 屔 ୌ 峹 bốc khạng ኬ ୌ đại đại đại đại đại đại nhất bốc bát bát bát bát bát bát bát 0037 0001 0037 0037 0037 0037 0001 0001 0001 0025 0012 0012 0012 0012 0012 0012 0012 0001 0 0 0 0 4 4 4 4 ୌ 0001 ኬ ୌ ኬ ኬ ኬ ኬ ୌ ୌ ୌ 峹 ඳ ඳ ඳ ඳ ඳ ඳ ඳ ୌ … Theo bảng trên: — Mỗi hàng có cột Unicode, Nôm quốc ngữ, cột Nôm cột điểm mã Unicode tên hàng — Hàng chữ thủ có: ô Nôm = ô Bộ, ô QN = ô Bộ_qn, ô Nét = 0; — Hàng thành tố có ô Mẫu, tt1, tt1_qn, tt2 tt2_qn trống Tiếp tục quy trình không thành tố quy tối giản Để tìm trình cấu tạo chữ, ta cần: Tìm tất hàng có tự dạng chữ muốn tìm cột Nôm CSTTC Ví dụ, CSTTC trên, 㗚FÏ1 hàng, ኬFÏ4 hàng, ኮFÏ3 hàng, ᕮ FÏ7 hàng, v.v Chọn hàng, a Nếu ô Mẫu, tt1, tt1_qn, tt2 tt2_qn trống, thành tố bản; i ô Nôm = ô Bộ, ô QN = ô Bộ_qn, ô Nét = 0, thành tố thủ Unicode; ii hết (nhánh tìm) b Ngược lại, ô Mẫu, tt1, tt1_qn, tt2 tt2_qn không trống, làm động tác: i Tìm thành tố tt1 theo 1) ii Tìm thành tố tt2 theo 1) hết (nhánh tìm, CSTTC chữ muốn tìm) Quy trình đệ quy xảy liên tiếp vị trí 1.b., theo nhánh tt1 trước (trái trước, sâu trước) Khi hoàn toàn xong tt1, sang tt2 Thiết lập chức đệ quy cho CSTTC việc cần thiết cho quy trình tổ chức bàn phím, truy cập chữ Hán Nôm trực tiếp hơn, không thông qua chữ quốc ngữ hay số nét III Xây dựng bảng thành tố NomnaTongLight.ttf Áp dụng nguyên lý tạo chữ cách lắp ghép thành tố theo biến thể vị trí, bảng thành tố NomnaTongLight.ttf xây dựng trước tiên kết việc xây dựng chức đệ quy cho CSTTC Thành tố NomnaTongLight.ttf tập hợp thành tố tối giản biến thể vị trí chúng Bảng thành tố Nôm Na chứa 349 thành tố (xem bảng đính kèm) gồm có thành tố không phân tích nhị phân Chúng tạo 19.811 chữ (số chữ kho NomNaTong Light ttf), 406 hàng ngoại lệ Giả định 4: Một chữ không tìm cách phân tích nhị phân tạm coi thành tố bản, chờ giải pháp phụ gia Một ví dụ trường hợp ngoại lệ, có chữ gồm thành tố giống xếp theo hình tam giác Có chữ giải phương pháp đệ quy nhị phân cấu tạo trên-dưới 屔nhờ chữ có gồm hai thành tố giống nhau, sau: ⟋ nhân + ௔ tòng, tùng, tụng → 〕 chúng ㍌ nữ + ያ → ጩ gian ㏝ tử + Ꮙ → Ꮦ ➵ nhật + ᪹ → ᬏ tinh ᯞ thuỷ + ⳉ → ῠdiễu, miểu ⠸ ngưu + ㄒ → ≋bôn 㗲 thạch + 㓨 → ☠lỗi, luộc ‫ ܞ‬trùng + 熐 côn → ⽕ trùng ̻ bối + ㈧ → ㉙bí ݈ chuy + 勑→ 勢 ⲇ long + 㱞 → 姢 ᮨ thủ + ᢚ → ⏝ vát (thủ) ╽ mộc + ᯐ lâm → ᲻ sâm ჉ hoả + ⾳ → →yên, diễm ಁ điền + ㌚ → ␜lei4, điệp ➇ nhĩ + 㱎 → ⫂ nhiếp ⢇ ngôn + ㄔ → ㆛ ฆ kim + 伿→ 㚿hâm ⨖mã + 㦊 → 㦬 v.v Các chữ gồm thành tố giống phân thành mẫu ghép chuẩn ẙ phẩm, ᆼ, ἃ, ᝮnhị, Ṉ,Ảthuế, thuý, ⓞ, 㒀, ⩍thiên, ⯌, Ⱌ, ㎐oanh, 咁, 唡, 㫴 tiên, 矗súc, 㸢,䎾,䋧, v.v không nhiều, hệ ngoại lệ có hệ thống, cho quy trình đệ quy nhị phân KẾT LUẬN Quy trình Nôm na: chữ Nôm mạng dự án Hội Bảo tồn Di sản chữ Nôm tiến hành tổ chức xây dựng, nhằm mang lại diện mạo mới, cách nhìn chữ Nôm Việt Nam Cách phân tích đệ quy nhị phân chữ Hán-Nôm kho CSTTC Nôm Na theo phương pháp truyền thống trước sau, trước sau, trái trước phải sau, cho kết ban đầu khích lệ với có 349 thành tố bản, giải thích 98% kho chữ Hán-Nôm Nó cho phép hình dung quy trỉnh xây dựng bàn phím trực tiếp, thay thông qua chữ quốc ngữ Tại Việt Nam nhóm Nôm Na tiến hành xây dựng quy trình làm phông chữ Nôm Bước đầu nhóm thực thành công việc tạo phông chữ Hán−Nôm với kho chữ gồm 20.213 chữ Hán Nôm Những bước dự định chế tạo phông cho chữ Hán−Nôm theo thể loại khác nhau, có nguồn gốc xuất xứ từ văn Nôm tiêu biểu cổ văn nhất, đáp ứng nhu cầu làm công tác chế in ấn văn Nôm khác nhau, nhằm khôi phục lại nguyên tác phẩm Nôm công nghệ thông tin đại Với việc xây dựng CSTTC thống nhất, chức đệ quy thể CSTTC đó, Nôm Na hy vọng đóng góp tiện ích giúp giản lược công việc tay phục vụ thiết thực cho công nghiên cứu bảo tồn chữ Nôm Tham khảo Các tập mã chữ Nôm Việt Nam cung cấp cho nhóm ISO/IEC 10646 JTC1/IRG từ năm 1994 đến nay: NPCT 2.1, TCVN 5712: 1993, TCVN 5773: 1993, TCVN 6056: 1995, VHN1: 1998, VHN2: 1998 Đề nghị CJK Extension C1 Việt Nam ISO/IEC 10646 JTC1/IRG từ năm 1994 đến nay, Unihan 3.1 Radical-Stroke Index Khang Hi Tự điển Trung Quốc Cổ điển Tinh phẩm ảnh ấn tập thành: (Thanh) Trương Ngọc thư đẳng biên soạn Thượng Hải Văn nghệ xuất xã 2000 Linh mục Trần Văn Kiệm Giúp đọc Nôm Hán Việt Nhà xuất Đà Nẵng Hội Bảo tồn Di sản chữ Nôm, 2004 Vũ Văn Kính Học chữ Nôm, Nhà xuất Đồng Nai, 1995 Ngô Thanh Nhàn, Ngô Trung Việt Nhóm Nôm Na Quy trình Nôm Na, trình bày Hội thảo Hè 2002, Đại học Maine Viện Ngôn ngữ học Bảng tra chữ Nôm Nhà xuất Khoa học Xã hội, Hà Nội 1976 Lê Văn Quán Nghiên cứu chữ Nôm Nhà xuất Khoa học Xã hội Hà Nội 1981 Nguyên Kim Thản, chủ biên 2000 Tự điển Hán Việt đại Nxb Thế giới, Hà Nội Trương Đình Tín Bảng Phiên âm Nôm Việt Nhà xuất Thuận Hóa, 2003 Nguyễn Quang Xỷ & Vũ Văn Kính Tự Điển Chữ Nôm Trung tâm Học liệu, Sàigòn 1971 _

Ngày đăng: 20/07/2016, 01:21

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan