Xây dựng Web ngữ nghĩa trợ giúp tra cứu từ Hán Việt

13 235 0
Xây dựng Web ngữ nghĩa trợ giúp tra cứu từ Hán Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Header Page of 126 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG DƯƠNG NGỌC DUY Công trình ñược hoàn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS TS PHAN HUY KHÁNH XÂY DỰNG WEB NGỮ NGHĨA TRỢ GIÚP TRA CỨU TỪ HÁN VIỆT Phản biện : PGS.TS VÕ TRUNG HÙNG Phản biện : TS TRƯƠNG CÔNG TUẤN Chuyên ngành : Khoa học máy tính Mã số : 60.48.01 Luận văn ñược bảo vệ Hội ñồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp Đại học Đà Nẵng vào ngày 15 tháng 12 năm 2012 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng; Đà Nẵng - Năm 2012 Footer Page of 126 - Trung tâm Học liệu, Đại học Đà Nẵng; Header Page of 126 MỞ ĐẦU Lý chọn ñề tài - Các từ ñiển thiếu nhiều từ Hán Việt gây khó khăn cho người dùng việc tra cứu Từ Hán Việt chiếm tỷ lệ lớn kho từ vựng tiếng Việt, Các công cụ tra cứu hỗ trợ tra nghĩa theo từ khóa nhập vào việc tra cứu thông tin, ý nghĩa từ Hán Việt ñược nhiều quan tâm từ ñiển Vdict nhiêu chưa có website cho phép tìm kiếm theo nhà nghiên cứu văn hóa, lịch sử, ngôn ngữ học sinh, nghĩa từ khóa, ñồng thời hỗ trợ nhiều tùy chọn sinh viên Web ngữ nghĩa giúp xây dựng website giải Theo thống kê cách tương ñối GS Phan Ngọc Thạch có khả chưa ñược thực Vì vậy, ñã chọn 7000 từ Hán Việt ñang ñược sử dụng phổ biến nay, chiếm ñề tài “Xây dựng Web ngữ nghĩa trợ giúp tra cứu từ Hán Việt” cho gần 60% số lượng từ tiếng Việt luận văn tốt nghiệp Vấn ñề sử dụng sai từ Hán Việt phận người dân sinh viên ñáng lo ngại Mục tiêu nhiệm vụ nghiên cứu • Mục tiêu: Trong thời ñại ngày ngôn ngữ biến ñổi, lượng kiến thức Tìm hiểu ñược khái niệm tổng quan Web ngữ nghĩa, từ lĩnh vực khoa học công nghệ hay kinh tế từ nước công cụ, ứng dụng hỗ trợ xây dựng Web ngữ nghĩa Tìm hiểu từ Hán phương tây nhu nhập nước ta ngày nhiều, lại vay Việt, cấu trúc cách nhận biết từ Hán Việt mượn từ tiếng Trung Quốc ñể thể hiện, làm ñể quản lý Xây dựng ñược Ontology ñầy ñủ từ Hán Việt lượng từ Hán Việt Xây dựng ñược website thông minh, tìm kiếm phổ biến Việc tra cứu thông tin từ Hán Việt gặp nhiều khó khăn, kết tìm kiếm không xác, nhiều nhập nhằng nghĩa Hiện có nhiều công trình nghiên cứu Hán Việt, xây dựng từ thông tin trợ giúp tra nghĩa Hán Việt • Nhiệm vụ: Xây dựng Ontology Hán Việt ñiển Hán Việt: Xây dựng công cụ chuyển ñổi nhanh văn Xây dựng công cụ tìm kiếm nghĩa Hán Việt Hán Việt văn chữ, Từ ñiển Vdict, Từ ñiển trực tuyến… Xây dựng website trợ giúp tra nghĩa Hán Việt ñầy ñủ thông ứng dụng số hạn chế như: - Tất ứng dụng ñiều chưa có kho ngữ vựng dùng chung mang tính chất mở - Thiếu ñịnh hướng cấu trúc kho ngữ vựng, tạo khó khăn cho minh Đối tượng phạm vi nghiên cứu • Đối tượng: Các vấn ñề liên quan ñến web ngữ nghĩa trình chia sẽ, tái sử dụng hay kết hợp kho ngữ vựng Hán Việt Xử lý ngôn ngữ tự nhiên lại với Từ Hán Việt • Footer Page of 126 Phạm vi: Header Page of 126 Nghĩa từ Hán Việt Bố cục luận văn Chương trình dạng Web Luận văn ñược trình bày bao gồm nội dung sau : Phương pháp nghiên cứu • Phương pháp lý thuyết: Tìm hiểu Web ngữ nghĩa Tìm hiểu từ Hán Việt Tìm hiểu xử lý ngôn ngữ tự nhiên Chương 1: Tổng quan Web Ngữ Nghĩa Chương 2: Tìm hiểu từ Hán Việt giải pháp xây dựng kho từ vựng Hán Việt Chương 3: Trình bày giải pháp xây dựng kho từ Hán Việt web ngữ nghĩa Tổng hợp từ nghĩa Hán Việt thu thập ñược • Phương pháp thực nghiệm Xây dựng Ontology bán tự ñộng Xây dựng kho liệu Hán Việt có cấu trúc CHƯƠNG TỔNG QUAN VỀ WEB NGỮ NGHĨA 1.1 KHÁI NIỆM WEB NGỮ NGHĨA Theo thống kê tổ chức W3C, thông tin dạng Xây dựng sở liệu cập nhật tự ñộng tay website chiếm gần 70% lượng thông tin giao tiếp toàn giới Triển khai thực tế Internet ngày không ngừng tăng cao Với lượng lớn Ý nghĩa khoa học thực tiễn • Ý nghĩa khoa học: - Đóng góp công cụ Search Engine theo công nghệ web ngữ nghĩa trợ giúp người dùng tra cứu nghĩa Hán Việt thông tin dẫn ñến việc quản lý chia sẻ thông tin không hiệu mong ñợi Như vậy, vấn ñề ñặt thách thức việc làm ñể web 2.0 chuyển hóa thông tin văn thành - Phương pháp xây dựng Ontology từ Hán Việt liệu có ñịnh dạng ñúng với nội dung, nhằm quản lý sử dụng - Ứng dụng sematic web mặt tìm kiếm hiệu Đó vấn yêu cầu mà cần phải giải - Xử lý Tiếng Việt Ontology • Ý nghĩa thực tiễn: - Đây lĩnh vực chưa ñược nghiên cứu phổ biến Việt Nam, ñiều ñó mở hướng nghiên cứu, ứng dụng - Đề tài ñược áp dụng Việt Nam, trợ giúp công việc nghiên cứu, học tập tra cứu học sinh, sinh viên, nhà nghiên cứu ngôn ngữ người quan tâm ñến từ Hán Việt - Hỗ trợ tra cứu nghĩa từ Hán Việt xác - Đem lại ý nghĩa nhân văn Footer Page of 126 Web ngữ nghĩa ñời ñáp ứng yêu cầu tìm kiếm xử lý thông tin cách hiệu Web ngữ nghĩa ñịnh dạng web riêng biệt Nó kết hợp web 2.0 với ñịnh nghĩa liệu thông minh ñể nâng cao tính giao tiếp người máy Web ngữ nghĩa ñược phát triển Tim- Berners Lee, cha ñẻ WWW, URIs, HTTP HTML Header Page of 126 Hiện có công nghệ hỗ trợ phát triển Web ngữ nghĩa ñiển Lớp Logic: Việc biểu diễn tài nguyên dạng từ theo công nghệ java có jena, theo công nghệ Microsoft vựng ontology có mục ñích ñể máy lập luận ñược có Semweb, OwlDotNetApi… sở lập luận chủ yếu dựa vào logic Ở Việt Nam, khoảng vài năm trở lại ñây ñã có nghiên cứu vấn ñề tập trung xây dựng ứng dụng minh họa cho lý thuyết nghiên cứu Mô hình chung Web ngữ nghĩa: Lớp Proof: Tầng ñưa luật ñể suy luận Cụ thể từ thông tin ñã có ta suy thông tin Lớp Trust: Để ñảm bảo tính tin cậy ứng dụng Web ngữ nghĩa 1.2 VAI TRÒ CÁC LỚP TRONG KIẾN TRÚC WEB NGHỮ NGHĨA 1.2.1 Vai trò Lớp ñịnh danh tài nguyên-URI Unicode URI : URI ñơn giản ñịnh danh Web giống chuỗi bắt ñầu “http” hay “ftp” Một dạng thức quen thuộc URI URL - Uniform Resource Hình 1.1 Mô hình tầng Web ngữ nghĩa Mô hình có tất lớp, ñó có số tầng ñang trình hoàn thiện Nội dung tầng sau: Lớp URI, Unicode : ñây tầng ñịnh nghĩa ñịnh dạng xử lý nhằm chuẩn hoá liệu xử lý Lớp XML : ngôn ngữ ñánh dấu mở rộng, dùng ñể lưu trữ liệu, cho phép người dùng tùy ý thêm vào thẻ theo yêu cầu Locator, URL ñịa cho phép thăm trang Web URI tảng Web ngữ nghĩa Trong thành phần khác Web gần ñược thay URI không Unicode: chuẩn biểu diễn ký tự nhằm mục ñích hỗ trợ ña ngôn ngữ Giúp trang web ngữ nghĩa thể ñược nhiều ngôn ngữ khác 1.2.2 Vai trò Lớp XML XML Schema XML – (eXtensible Markup Language)là ngôn ngữ ñánh dấu mở Lớp RDF : khung mô tả tài nguyên RDF - ñược phát triển dựa rộng, cho phép người dùng tùy ý thêm vào thẻ theo yêu kỹ thuật lưu trữ liệu XML kiểu cấu trúc liệu thông cầu XML ñược sử dụng web ngữ nghĩa với vai trò minh ñể tạo thay ñổi sử dụng thích Web ngữ nghĩa ñịnh nghĩa cú pháp cấu trúc tài liệu web ngữ nghĩa Lớp Ontology : Ontology cấu trúc liệu biểu diễn ngữ nghĩa 1.2.3 Vai trò Lớp RDF - RDF Schema nâng cao Được phát triển tảng RDF có phát triển thêm RDF tảng Web ngữ nghĩa xử lý metadata, ñược ñịnh nghĩa từ vựng ngữ nghĩa bổ sung ràng buộc ñịnh nghĩa tổ chức W3C RDF cho phép trao ñổi thông tin liệu ứng dụng Web mà máy hiểu ñược Footer Page of 126 Header Page of 126 Cấu trúc RDF statement gồm thành phần: 10 Đây phần mềm miễn phí dùng ñể tạo mô hình ứng dụng cách sử dụng ontology Protégé ñược phát triển trường Đại học Stanford Mark Musen, protégé có hai phiên Tài nguyên (Subject) - mà ñề cập, thường ñược nhận diện URI Vị ngữ (Predicate), có kiểu metadata (ví dụ tiêu ñề, tác giả, ), ñược xác ñịnh URI OWL API Protégé-OWL ñược phát triển dựa hai yêu cầu : ñịnh nghĩa ñối tượng quan hệ tồn chúng Các ñối tượng xây dựng Protégé là: Bổ ngữ (Object) ví dụ: người có tên Eric Miller Tập hợp Classes – tổ chức quan hệ tham chiếu kiểu thực thi RDF statement ñược lưu dạng cú pháp XML, Axioms – mô hình câu lệnh ñúng ñược gọi RDF/XML Instances – thể hiện, thành phần ñối tượng 1.2.4 Vai trò Lớp Ontology Domain – giới hạn ontology Định nghĩa : Ontology tập khái niệm quan hệ Vocabulary – lớp khai báo khái niệm ñược ñịnh nghĩa cho lĩnh vực ñó nhằm vào 1.3.2 Protégé sử dụng giao diện ñồ họa việc biểu diễn trao ñổi thông tin Đây hướng tiếp cận ñể xây dựng Web ngữ nghĩa Tổ chức W3C ñã ñề ngôn ngữ ontology Web (OWL) ñể Ngay từ phiên Protégé API, phần mềm ñã không cho phép tạo mô hình cách thủ mà cho phép người sử dụng giao diện ñồ họa ñể phát triển xây dựng Sematic Web dựa tảng ontology Một số lý cần phát triển Ontology : Để chia sẻ hiểu biết chung cấu trúc thông tin người software agent Để cho phép tái sử dụng lĩnh vực tri thức (domain knowledge) Để làm cho giả thuyết lĩnh vực ñược tường minh Để tách biệt tri thức lĩnh vực (domain knowledge) khỏi tri thức thao tác(operational knowledge ) 1.3 CÔNG CỤ XÂY DỰNG ONTOLOGY PROTÉGÉ 1.3.1 Đặc ñiểm Protégé Footer Page of 126 Hình 1.2 Giao tiếp ñồ họa Protégé 1.3.3 Protégé phát triển ñể tích hợp công cụ Protégé cung cấp số ñiểm mở rộng nơi nhà phát triển chủ ñộng thêm thành phần mà ta thường gọi plug-ins Header Page of 126 11 12 Tuy nhiên việc truy cập liệu không thông qua câu lệnh truy vấn nên việc lập trình với thư viện chưa thuận lợi thời gian xử lý CHƯƠNG TÌM HIỂU TỪ HÁN VIỆT VÀ GIẢI PHÁP XÂY DỰNG KHO TỪ VỰNG HÁN VIỆT 2.1 TÌM HIỂU VỀ TỪ HÁN VIỆT Hình 1.3 Protégé tích hợp công cụ Jabalaya 1.4 THƯ VIỆN PHÁT TRIỂN ỨNG DỤNG WEB NGỮ NGHĨA 1.4.1 SemWeb 2.1.1 Nguồn gốc từ Hán Việt Chữ Hán hay ñược gọi chữ Nho ñược người Hán sáng tạo cách ñây khoản 3000 năm SemWeb lần ñầu tiên ñược phát hành vào tháng sáu năm 2005 Ở nước ta, trước sử dụng văn tự Hán cách ñây 3000 năm, ñã ñược thử nghiệm gần ñây với lưu trữ tỉ người Việt ñã có ngôn ngữ riêng mình, ñó ngôn ngữ cổ Việt ba Các tính cốt lõi ñọc/ghi liệu XML với ba RDF, Mường liên tục lưu trữ liệu với tảng SQL truy vấn SPARQL Vào kỷ thứ trước Công Nguyên với việc phong ñã ñược kiểm nghiệm nhiều lần Thư viện công cụ kiến phương Bắc xâm lược Việt Nam, ñặc ñiểm ñịa lý, có ñặc biệt ñối với OWL schema hoạt ñộng mức ba RDF giao lưu cư nhân hai ngôn ngữ văn tự Hán ñược ñưa 1.4.2 OwlDotNetApi vào Việt Nam OwlDotNetApi OWL API với phân tích cú pháp viết C# theo công nghệ NET dựa phân tích cú pháp RDF Drive Phiên Chức Mục tiêu OwlDotNetApi ñọc/ghi liệu XML dựa ñồ thị với cạnh tương ứng với thuộc tính liên kết ñỉnh tương ứng với nút hay gọi lớp Người Việt dùng từ ngữ gốc Hán ghép với theo cách riêng ñể tạo từ Hán Việt Về sau, người Việt dùng văn tự ñể ghi lại tiếng nói (tức chử nôm) 2.1.2 Các ñặc ñiểm từ Hán Việt Theo nhà nghiên cứu ngôn ngữ ước chừng có khoản 60% số từ Hán Việt ngôn ngữ Việc sử dụng Hán Việt khó khăn Có nhiều hiểu sai từ Hán Việc dẫn ñến cách dùng từ Hán Việt sai lệch văn lời nói Về lực hoạt ñộng, khả nhập hệ từ gốc Hán Hình 1.4 Mô hình quan hệ nút cạnh Xuất phát từ việc ñồ thị hoá nội dung liệu nên OwlDotNetApi ñáp ứng ñược hầu hết tất chuẩn mà W3C ñưa Footer Page of 126 tiếng Việt, không ñồng ñều Đôi tổ hợp vay mượn nguyên khối từ gốc Hán, nói lưu giữ ý nghĩa Header Page of 126 13 Với cách nhập lẻ tẻ, từ ñơn tiết Hán Việt xuất với vai trò lấp ñầy, bổ sung khái niệm cho trường từ vựng Sự xuất theo trường từ vựng từ Hán- Việt Tiếng Việt mặt thể ảnh hưởng văn hóa văn minh Trung 14 - Từ ghép Hán Việt ñẳng lập - Từ ghép phụ Hán Việt 2.1.4 Các luật nhận biết từ Hán Việt Chúng ta sử dụng mẹo tên ñể nhận biết từ Hán Việt ñể có Hoa ñối với châu Á nói chung Việt Nam nói riêng ñược kho từ Hán Việt xác giai ñoạn xây dựng kho từ thô 2.1.3 Cấu trúc từ Hán Việt Hán Việt a Từ ñơn Hán Việt 2.2 HIỆN TRẠNG VÀ NHU CẦU TRA CỨU TỪ HÁN VIỆT Từ ñơn Hán Việt nhìn theo tiêu chí ngữ âm HIỆN NAY - Từ ñơn âm Hán Việt 2.2.1 Nhu cầu tra cứu từ Hán Việt - Từ ñơn biến âm Hán Việt 2.2.2 Hiện trạng tra cứu từ Hán Việt Từ ñơn Hán Việt nhìn từ tiêu chí ngữ nghĩa Hiện ñối với học sinh, sinh viên vấn ñề sử dụng ñúng ngôn Nghĩa từ ñơn Hán Việt ñây phân hai loại : ngữ tiếng Việt vấn ñề khó khăn Có thể kể ñây - Từ ñơn Hán Việt theo nghĩa số lỗi thường gặp : - Từ ñơn Hán Việt biến - Dùng từ sai phong cách Từ ñơn Hán Việt nhìn theo tiêu chí ngữ pháp - Từ ñơn Hán Việt danh từ - Từ ñơn Hán Việt ñộng từ - Từ ñơn Hán Việt tính từ b Từ ghép Hán Việt Từ ghép Hán Việt từ hai yếu tố Hán Việt có nghĩa ghép lại với mà thành Từ ghép Hán Việt nhìn theo tiêu chí ngữ âm - Từ ghép âm Hán Việt - Từ ghép biến âm Hán Việt Từ ghép Hán Việt nhìn từ tiêu chí ngữ nghĩa - Viết sai tả - Sử dụng từ không ñúng Những trường hợp ñây xuất phát từ thực trạng học sinh không hiểu ñược nghĩa phạm vi sử dụng từ Hán Việt Các từ ñiển thiết nhiều từ gây khó khăn cho người dùng Trong tiếng Việt, từ Hán Việt chiếm số lượng tương ñối cao 60%, gây khó khăn cho người tiếp nhận sử dụng Trên thực tế, trước ñã có nhiều công trình nghiên cứu, chuyên luận bàn nhiều khía cạnh khác hổ trợ khả sử - Từ ghép nguyên nghĩa Hán Việt dụng từ Hán Việt cho ñối tượng người dùng như: “Mẹo giải - Từ ghép Hán Việt biến nghĩa nghĩa từ Hán Việt chữa lỗi tả” tác giả Phan Ngọc, từ Từ ghép Hán Việt nhìn từ tiêu chí ngữ pháp Footer Page of 126 ñiển Hán Việt Header Page of 126 15 2.2.3 Tìm hiểu từ ñiển Từ ñiển cách tra cứu tập hợp ñơn vị ngôn ngữ (thường 16 tập liệu sử dụng bảng âm tiết tiếng Việt từ ñiển từ vựng tiếng Việt ñơn vị từ vựng) xếp theo tật tự ñịnh, cung cấp số 2.3.4 Xây dựng kho từ Hán Việt kiến thức cần thiết ñối với ñơn vị a Quy mô Các loại từ ñiển Xây dựng cấu trúc kho Từ ñiển giấy Thu thập nguồn liệu Từ ñiển ñiện tử Giải thích từ vựng: dùng xây dựng thủ công tự Từ ñiển máy tính ñộng 2.3 GIẢI PHÁP XÂY DỰNG KHO TỪ HÁN VIỆT Khi xây dựng kho từ phục vụ cho trình làm ontology chúng b Chọn lọc liệu ñưa vào kho Là liệu ñưa vào kho ngữ vựng, nguồn liệu : ta gặp phải vấn ñề liệu từ ñâu tập hợp chúng nào? Kho từ ñơn kho từ Làm ñể có ñược liệu xác vấn ñề ñược Kho liệu trung gian quan tâm Trong phạm vi luận văn sử dụng số nghiên cứu Kho liệu thô tác giả khác với kết thực nghiệm ñã ñược công nhận c Đề xuất cấu trúc lưu trữ kho thực tế Nguồn liệu ñể xây dựng kho từ ñược lấy chủ yếu Chúng ta tổ chức kho liệu theo cấu trúc Alphabet tức ta tổ từ ñiển Hán Việt, từ ñiển Hán Việt online … chức mục từ theo thứ tự ABC lưu theo kiểu file XML 2.3.1 Vấn ñề xử lý ngôn ngữ tự nhiên 2.4 GIẢI PHÁP XÂY DỰNG ONTOLOGY HÁN VIỆT 2.3.2 Sơ lược toán tách từ Sau ñây xin giới thiệu số vấn ñề liên quan ñến toán tách từ tiếng Việt ñể làm giàu ontology từ nguồn liệu lấy từ internet Mô hình ontology xây dựng dựa theo mô hình ontology có Wordnet 2.4.1 Giới thiệu Wordnet Năm 1980, Miller cộng trường Đại học Princeton (Mỹ) Các hướng tiếp cận cho toán tách từ : ñã xây dựng WordNet, sở liệu tri thức ngữ nghĩa từ - Hướng tiếp cận dựa từ vựng tiếng Anh - Hướng tiếp cận dựa ký tự a Mô hình Wordnet 2.3.3 Công cụ vnTokenize WordNet loại từ ñiển tương tự từ ñiển ñồng nghĩa vnTokenizer công cụ tách từ tiếng Việt ñược nhóm tác giả WordNet phân chia từ vựng thành loại : noun, verb, adjective, Nguyễn Thị Minh Huyền, Vũ Xuân Lương Lê Hồng Phương phát adverb funtion words, thực tế chứa noun, verb, triển dựa phương pháp so khớp tối ña (Maximum Matching) với adjective, adverb Footer Page of 126 Header Page of 126 17 18 Đối tượng kiểu từ (kieu_tu) : Trong class có thuộc tính b Các quan hệ WordNet Quan hệ ñồng nghĩa (synonymy) kieu_tu ñể ñịnh nghĩa kiểu từ Quan hệ trái nghĩa (antonymy) Đối tượng dùng (cach_dung) Quan hệ hạ danh (thuộc cấp hyponym) quan hệ thượng Doi_tuong : thể ñối tượng từ Hán Việt danh (bao hàm, hypernym) Hoan_canh : thể hoàn cảnh sử dụng Quan hệ phận (meronymy/ holonymy) Ngu_phap : thể vị trí ñặt từ Quan hệ kéo theo (entailment) CHƯƠNG PHÁT TRIỂN ỨNG DỤNG Quan hệ cách thức ñặc biệt (troponymy) 2.4.2 Thiết kế mô hình liệu Ontology 3.1 PHÂN TÍCH BÀI TOÁN 3.1.1 Xác ñịnh ñối tượng sử dụng Trong ontology xây dựng gồm class lớn : Trong giới hạn luận văn nghiên cứu phát triển ứng dụng - Han_viet - Nghia_cua_tu : Đây class chứa class n_nghia, v_nghia, phục vụ cho ñối tượng học sinh, sinh viên adj_nghia 3.1.2 Yêu cầu toán - Tap_dong_nghia : chứa class n_dongnghia, v_dongnghia, adj_dongnghia Bài toán ñặt yêu cầu xây dựng trang web giúp người dùng tra cứu sử dụng từ Hán Việt với yêu cầu chức : - Kieu_tu_hv : class dùng ñể kiểu từ Hán Việt Thu thập từ Hán Việt từ Internet, sách báo, từ ñiển tạo kho từ - Cach_dung : class dùng ñể thể sử dụng từ Hán Việt Hán Việt dựa nghĩa Quản lý từ tìm ñược, chỉnh sửa thông tin Thuộc tính : Đối tượng từ Hán Việt (han_viet): Trong class ta ñịnh nghĩa thuộc tính từ ñó tên, id từ, kiểu từ có property thể nghĩa từ (co_nghia) gồm có: id_nghia Website lưu trữ ñầy ñủ thông tin từ Hán Việt 3.1.3 Phân tích hệ thống Đối tượng nghĩa từ (nghia_cua_tu) : Các lớp n_nghia, v_nghia, adj_nghia Cho phép người dùng tìm kiếm, tra cứu từ Hán Việt , noi_dung_nghia , co_tap_dong_nghia, trai_nghia, co_tu_hanviet a Hướng tiếp cận Chương trình ñược xây dựng Semantic Web Công nghệ Web Semantic sử dụng mô hình liệu thông minh Đối tượng tập ñồng nghĩa (tap_dong_nghia) : lớp tương ứng Chương trình hổ trợ tra cứu từ Hán Việt ñược xây dựng dựa n_dongnghia, v_dongnghia, adj_dongnghia gồm : id_dongnghia, ñối tượng từ Hán Việt, cụ thể ñây có từ ñơn mo_ta, vi_du từ ghép Footer Page of 126 Header Page 10 of 126 19 20 Với công việc xác ñịnh phát triển trang web semantic ta cần xây dựng ứng dụng gồm phần : Dữ liệu liên quan ñến từ cần tìm kiếm gồm có: nghĩa từ, loại từ , từ ñồng nghĩa, từ phản nghĩa Trong cấu trúc ñược xây dựng quản lý từ, nghĩa Ontology : Trong phần tiến hành xây dựng lớp, thuộc tính tạo mối quan hệ ñồng cấp, phân cấp theo từ, tập ñồng nghĩa thuộc tính ñi kèm từ W3C tất ñịnh nghĩa ñã xác ñịnh cho ontology Trình duyệt web : Phần trình duyệt ta không xây dựng hoàn toàn ñáp ứng ñáp ứng ñầy ñủ yêu cầu truy cập liệu ontology mà ta xây dựng trình duyệt tương tự ứng dụng web hiển thị nội dung sở liệu ñã xây dựng b Mô hình hóa Hình 3.2 Từ ontology Hán Việt Đây toán dựa sở liệu ñược lưu trữ ñưa thông tin cách thông minh phía người dùng Trước có thiết kế chi tiết ta cần phân chia chương trình làm hạn mục bao gồm phần ta tóm lại mục mô hình hình vẽ bên Hình 3.3 Mối quan hệ ontology Hán Việt 3.2.1 Công cụ xây dựng ontology Ontology Hán Việt ñược xây dựng dùng công cụ soạn thảo Protégé 3.2.2 Các bước xây dựng ontology Dựa bước xây dựng ontology Noy McGuinness ta Hình 3.1 Mô hình tổng quát hệ thống có tinh gọn công việc bước sau: 3.2 XÂY DỰNG ONTOLOGY Bước Xác ñịnh mục ñích phát triển ontology Đối với vấn ñề tìm kiếm liệu ngữ nghĩa toán Chúng ta ñã thấy ñược kho từ Hán Việt xác ñịnh thông tin mà ta cần tìm kiếm, ñây thông tin cần nhiều hạn chế tính mở cấu trúc ñã ñược nêu chương tìm kiếm cho từ Hán Việt ngữ nghĩa, loại từ từ ñó Vì ý nghĩa liệu liên quan phải ñược lưu trữ lớp ñây lớp quan trọng toán cần xây dựng Footer Page 10 of 126 Xây dựng ontology Hán Việt giúp mô tả mối quan hệ từ ñược tường minh dễ truy vấn Header Page 11 of 126 21 22 Người dùng sử dụng hay kế ontology Hán Việt ñể phát triển chức người dùng mong muốn Bước Nắm bắt kỹ thuật xây dựng ontology : Bước gồm ba giai ñoạn sau : - Xác ñịnh phạm vi ontology : gồm kiểu từ từ ñơn từ ghép Hán Việt, loại từ gồm có danh từ, ñộng từ tính từ Các mối quan hệ quan gồm: quan hệ nghĩa mối quan hệ ñồng nghĩa phản nghĩa, phương pháp sử dụng hợp lý từ Hán Việt - Chọn phương thức nắm bắt ontology : phân tích hướng ñối tượng tập trung vào phương thức lớp - Định nghĩa khái niệm ontology: Chúng ta tiến hành ñịnh nghĩa khái niêm cho ontology gồm : Từ Hán Việt, nghĩa từ, tập ñồng, kiểu từ sử dụng Bước Xem xét sử dụng lại ontology ñang tồn Hiện có ontology Wordnet có cấu trúc phù hợp với yêu cầu ñặt toán xây dựng ontology Hán Việt Bước Mã hoá ontology Luận văn sử dụng công cụ Protégé ñể mã hoá ontology Việc mã hóa liên quan ñến biểu diễn ontology ngôn ngữ hình thức Lớp ontology mô tả khái niệm thuộc tính quan hệ Mã hóa ontology tiến trình lặp, gồm bước sau: • Định nghĩa lớp : Để tiện việc phân biệt lớp "thông tin liên quan" với lớp lớp này, ta gọi lớp siêu lớp Các lớp bên ta gọi bình thường lớp Như quan hệ cá từ lớp bên Hình 3.5 Class ontology Tập ñồng nghĩa : Nó tập hợp từ ñồng nghĩa, lớp mức thấp : Tính từ ñồng nghĩa, ñộng từ ñồng, danh từ ñồng nghĩa Nghĩa từ Hán Việt : gồm lớp sau : nghĩa tính từ, nghĩa danh từ, nghĩa ñộng Từ Hán Việt : lớp chứa từ Hán Việt Kiểu từ: : lớp chứa kiểu Hán Việt Cách dùng từ: : lớp chứa kiểu Hán Việt • Mô tả thuộc tính: Các thuộc tính thể mối quan hệ ñối tượng liệu individual) với quan hệ với liệu Ngôn ngữ : Dưới ñây số thuộc tính liệu có chương trình: Thuộc tính liệu: Thuộc tính id_hv, id_dong_nghia, id_nghia, ten, kieu_tu, mo_ta, noi_dung_nghia, doi_tuong Thuộc tính quan hệ : Thuộc tính co_nghia, co_tu_hanviet, co_Tap_dong_nghia, trai_nghia, co_kieu, co_cach_dung Footer Page 11 of 126 Header Page 12 of 126 23 24 Thuật toán dùng ñể ñiền ñầy quan hệ ứng dụng tạo cho ứng dụng có thông tin hai chiều Đối với vấn ñề luận văn xây dựng thuật toán sau : Mở tệp tin chứa ontology Đọc tất Properties có khai báo ñưa vào danh sách ñối Hình 3.6 Thuộc tính datatype ontology Bước Cải tiến ontology Bao gồm hai giai ñoạn : Cải tiến mã hóa bên (intra-coding) Cải tiến mã hóa bên (extra-coding) Bước : Kiểm thử Phát nhược ñiểm ontology Bước ñược thực tất giai ñoạn phát triển Ngay tạo sở tri thức, cần tiến hành kiểm thử ñể phát lỗi ontology công cụ thu nhận tri thức, sửa ñổi ontology hợp lý Bước : Duy trì Thực việc hiệu chỉnh, thích ứng hoàn tất ontology Hán Việt 3.2.3 Kết Ontology Sau ñã ñĩnh nghĩa class ñối tượng luận văn thông công cụ protégé ta save lại thành file có ñịnh dạng theo ñuôi chuẩn chung “.owl” 3.3 XÂY DỰNG WEBSITE TRA TỪ HÁN VIỆT 3.3.1 Giải pháp xây dựng Khai thác thư viện mã nguồn mở OwlDotNetApi Truy xuất liệu ontology sang giao diện web chiếu Duyệt qua tất ñỉnh ontology Nếu ñỉnh có chứa quan hệ cần ñiền ñầy theo danh sách ñối chiếu (B1) Điền thông tin quan hệ ngược lại Quay lại xét cho ñỉnh vừa ñiền B1 Ngược lại bỏ qua bước Đóng truy cập vào ontology Duyệt ngữ nghĩa từ ontology 3.3.2 Xây dựng giao diện Website ñược phát triển nền.Net, với ngôn ngữ C# ASP.Net Công cụ dùng ñể triển khai Visual Studio 2008 sử dụng thư viện OwlDotNetApi Chương trình có số chức sau : a Trang hệ thống : Đây trang chứa menu với chức thực ñọc liệu từ nội dung ontology, lấy siêu lớp b Các thuật toán bổ trợ cho việc xây dựng thuật toán tìm kiếm c Trang thực tìm kiếm ñơn giản Chức tìm kiếm ñơn giản dựa theo từ khóa nhập vào bàn phím ñể tìm kiếm nghĩa từ Hán Việt cần tra Việc tìm kiếm dựa ñối chiếu, so khớp thông tin từ từ khoá nhập vào người dùng Hình 3.11 khung tìm kiếm ñơn giản Footer Page 12 of 126 Header Page 13 of 126 25 26 d Trang thực tìm kiếm nâng cao KẾT LUẬN Kết ñạt ñược Về mặt lý thuyết Nắm ñược kiến thức web ngữ nghĩa, cách xây dựng ontology ứng dụng web ngữ nghĩa Tìm hiểu ñược cấu trúc nghĩa từ Hán Việt từ ñó áp dụng xây Hình 3.12 Hình ảnh tìm kiếm nâng cao Khi người dùng sử dụng chức tìm kiếm ñơn giản kết trả thường nhiều người dùng thường nhập vào từ khóa ñơn giản từ muốn tìm Vì ñể kết xác việc cung cấp thông tin ngữ nghĩa cho trình tìm kiếm ñiều ñược quan tâm e Trang chi tiết 3.3.3 Thống kê ñánh giá kết Trong trình nghiên cứu xây dựng web ngữ nghĩa trợ giúp tra cứu từ Hán Việt cho ñến ñã ñạt ñược kết sau : Xây dựng ứng dụng web ngữ nghĩa hổ trợ tra cứu từ Hán Việt với chức tra cứu nghĩa ñơn giản nâng cao Đã tạo ñược ontology Hán Việt khoảng 500 từ ñơn từ ghép Hán Việt Trong thời gian ñến ontology Hán Việt tiếp tục ñược cập nhật liệu dựng ñược kho từ Hán Việt ontology Hán Việt Về mặt thực tiễn Xây dựng ñược kho từ Hán Việt Xây dựng ontology Hán Việt web ngữ nghĩa hỗ trợ tra nghĩa từ Hán Việt Góp phần giúp cho người có công cụ tra cứu nghĩa từ Hán Việt phục vụ nhu cầu học tập nghiên cứu học sinh – sinh viên, người có nhu cầu tìm hiểu, tra nghĩa từ Hán Việt Hướng phát triển ñề tài Trong luận văn ñã tái sử dụng lại phần cấu trúc ontology Wordnet ñể xây dựng ontology Hán Việt chưa khai thác hết mạnh ontology Với vốn kiến thức từ Hán Việt hạn chế, hy vọng tương lại có góp mặt chuyên gia ngôn ngữ ñể liệu ñược xác Phát triển toán thêm ký tự tiếng trung vào ontology giúp hoàn thiện chức tra hổ trợ tiếng trung Footer Page 13 of 126 ... CẦU TRA CỨU TỪ HÁN VIỆT Từ ñơn Hán Việt nhìn theo tiêu chí ngữ âm HIỆN NAY - Từ ñơn âm Hán Việt 2.2.1 Nhu cầu tra cứu từ Hán Việt - Từ ñơn biến âm Hán Việt 2.2.2 Hiện trạng tra cứu từ Hán Việt Từ. .. ontology Hán Việt tiếp tục ñược cập nhật liệu dựng ñược kho từ Hán Việt ontology Hán Việt Về mặt thực tiễn Xây dựng ñược kho từ Hán Việt Xây dựng ontology Hán Việt web ngữ nghĩa hỗ trợ tra nghĩa từ Hán. .. nghiên cứu Hán Việt, xây dựng từ thông tin trợ giúp tra nghĩa Hán Việt • Nhiệm vụ: Xây dựng Ontology Hán Việt ñiển Hán Việt: Xây dựng công cụ chuyển ñổi nhanh văn Xây dựng công cụ tìm kiếm nghĩa Hán

Ngày đăng: 07/05/2017, 14:32

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan