Tách thông tin từ văn bản trên web

Công cụ hỗ trợ tạo ngữ nghĩa trang Web sử dụng kỹ thuật tách thông tin từ văn A Toolkit for Creating Semantic Web Contents Using Information Extraction Techniques Từ Minh Phương, Trịnh Hữu Kiên Abstract The Semantic Web is an extension of the current Web in which information is given formal and explicit meaning The Semantic Web enables computer programs to understand information contents and thus facilitates more efficient discovery, automation, integration and sharing of data To create Semantic Web contents one needs appropriate tools In this paper, we describe such a toolkit we have constructed The most important feature of the toolkit is that it makes use of information extraction techniques for automatically annotating Webpage contents Experiments with a real life application show promising results and demonstrate the usefulness of the toolkit I ĐẶT VẤN ĐỀ Với nhiều tỷ trang Web phân bố hầu hết quốc gia, World Wide Web (WWW) môi trường tốt cho việc biểu diễn truy cập thông tin dạng số Tuy nhiên, lượng thông tin khổng lồ tạo khó khăn lớn việc tìm kiếm, chia sẻ thông tin WWW Hiện nay, thông tin WWW biểu diễn chủ yếu dạng ngôn ngữ tự nhiên (các trang Web ngôn ngữ HTML) Cách biểu diễn phù hợp với người lại gây nhiều khó khăn cho chương trình làm nhiệm vụ hỗ trợ tìm kiếm, chia sẻ trao đổi tin Chương trình máy tính không “hiểu” thông tin liệu biểu diễn dạng thích hợp với người Để giải vấn đề này, nhiều tổ chức nghiên cứu kinh doanh phối hợp nghiên cứu phát triển Web có ngữ nghĩa (Semantic Web) Theo định nghĩa Tim Berners_Lee giám đốc tổ chức World Wide Web Consortium (http://www.w3c.org), đồng thời cha đẻ WWW, Web có ngữ nghĩa mở rộng WWW cách thêm vào mô tả ý nghĩa (hay ngữ nghĩa) thông tin dạng mà chương trình máy tính “hiểu” cho phép xử lý thông tin hiệu [1] Như vậy, Web có ngữ nghĩa bao gồm thông tin (trang Web) biểu diễn theo cách truyền thống với ngữ nghĩa thông tin biểu diễn cách tường minh Việc thêm phần ngữ nghĩa cung cấp thêm tri thức cho chương trình (các agent), giúp nâng cao chất lượng phân loại, tìm kiếm, trao đổi thông tin Muốn xây dựng Web có ngữ nghĩa cần có công cụ hỗ trợ Trong báo này, mô tả công cụ mà xây dựng phục vụ mục đích với giải pháp kỹ thuật lựa chọn sử dụng Phần quan trọng công cụ phần tách thông tin tự động cho phép rút ngắn thời gian tạo phần ngữ nghĩa cho trang Web Để minh hoạ cho việc sử dụng thử nghiệm công cụ, báo trình bầy ứng dụng tìm kiếm thông tin với trang Web có ngữ nghĩa công cụ tạo II THÀNH PHẦN CỦA WEB CÓ NGỮ NGHĨA Để tiện cho việc mô tả chức công cụ, phần trình bầy sơ lược thành phần Web có ngữ nghĩa Các thành phần Web có ngữ nghĩa chia thành ba nhóm sau: − Ontology ngôn ngữ dùng để biểu diễn ngữ nghĩa thông tin − Các công cụ tạo nên phần ngữ nghĩa cấu trúc hạ tầng Web có ngữ nghĩa − Các ứng dụng sử dụng Web có ngữ nghĩa Chức nhóm trình bầy Ngôn ngữ cho Web có ngữ nghĩa Cơ chế cho phép chia sẻ trao đổi ngữ nghĩa thông tin biết đến sử dụng lâu ontology Ontology mô tả cách tường minh khái niệm miền ứng dụng với quan hệ khái niệm Ontology cung cấp từ vựng chung cho việc trao đổi thông tin ứng dụng dịch vụ Web Bản thân phần ngữ nghĩa Web có ngữ nghĩa bao gồm ontology giá trị cụ thể khái niệm định nghĩa ontology Để biểu diễn ontology liệu cần có ngôn ngữ thích hợp Trong trình hình thành Web có ngữ nghĩa, nhiều ngôn ngữ đề xuất phát triển, biết đến nhiều RDF RDFS [2], DAML+OIL [8,9] RDF RDF Schema RDF (Resource Description Framework) chế cho phép mô tả liệu liệu (meta data) RDF coi đối tượng Web (trang Web, đoạn văn, người, đối tượng khác.v.v.) tài nguyên Mỗi tài nguyên mô tả ba đối tượng - thuộc tính – giá trị Ví dụ, mệnh đề “Phương tác giả báo trang Web đó” mô tả ba: http:// www…, tác giả, “Phương” RDF Schema (RDFS) biến thể đơn giản sử dụng chế RDF RDFS cho phép mô tả thuộc tính đặc thù cho ứng dụng, đồng thời định nghĩa lớp đối tượng có thuộc tính Việc định nghĩa lớp đối tượng với thuộc tính quan hệ cần thiết cho việc xây dựng ontology DAML + OIL RDF RDF Schema cho phép biểu diễn ngữ nghĩa mức độ đơn giản Để biểu diễn ngữ nghĩa bao gồm nhiều đối tượng có quan hệ lôgic phức tạp với cần phương tiện biểu diễn mạnh DAML (Darpa Agent Markup Language) OIL (Ontology Interface Layer) phương tiện DAML+OIL mở rộng RDFS Trong DAML+OIL, ngữ nghĩa mô tả thông qua lôgic mô tả (descriptive logic) cho phép sử dụng lôgic bool mô tả quan hệ giữc đối tượng có nhiều kiểu quan hệ sở so với RDFS Công cụ cho Web có ngữ nghĩa Để tạo sử dụng Web có ngữ nghĩa cần có hỗ trợ loại công cụ sau − Công cụ tạo liên kết ontology Các công cụ cho phép tạo khái niệm, thuộc tính khái niệm, quan hệ phân cấp khái niệm Công cụ loại thường có giao diện đồ hoạ tuân theo chuẩn ứng dụng Web Ví dụ điển hình cho công cụ loại Protégé [11] − Công cụ giải (annotation tools) Công cụ giải cho phép tạo phần ngữ nghĩa, tức giá trị cụ thể khái niệm, thuộc tính quan hệ từ liệu thông thường phù hợp với ontology Giá trị tạo biểu diễn ngôn ngữ nhắc tới phần Hiện đa số công cụ cho phép giải tay, trình giải thường đòi hỏi nhiều thời gian [6] − Các kho chứa Sau tạo ra, ontology phần ngữ nghĩa phải lưu vào kho chứa Những kho thực chất sở liệu cho phép lưu mô tả ngôn ngữ RDFS hay DAML+OIL cho phép biến đổi câu truy vấn ngôn ngữ thành câu truy vấn SQL Một kho chứa điển hình Sesame [7] − Dịch vụ suy diễn Dịch vụ suy diễn cho phép tìm giá trị cụ thể khái niệm thuộc tính tương ứng với ontology có kho chứa Một ví dụ hệ thống suy diễn kiểu Ontobroker [5] Các ứng dụng Web có ngữ nghĩa cho phép tăng cường chức năng, mức độ thông minh tính tự động hoá nhiều ứng dụng có Những lĩnh vực ứng dụng đặc biệt hứa hẹn cho Web có ngữ nghĩa dịch vụ Web, quản lý tri thức thương mại điện tử [3] Dịch vụ Web chương trình thiết bị truy cập thông qua hạ tầng WWW Web có ngữ nghĩa cung cấp thông tin tri thức cần thiết cho việc tìm kiếm, tương tác, chia sẻ kết hợp dịch vụ Web Quản lý tri thức liên quan đến việc thu thập, lưu trữ, tìm kiếm, truy cập cung cấp thông tin, tri thức tổ chức với mục đích tận dụng tài sản trí tuệ tổ chức Công việc đòi hỏi số chức hoàn chỉnh hệ thống quản lý văn liệu thông thường tìm kiếm thông minh, tự động tách thông tin từ văn bản, liên kết sở liệu, từ động tổng hợp văn Những chức thực hạ tầng mà Web có ngữ nghĩa cung cấp Sự phát triển mạnh thương mại điện tử dẫn đến số lượng khổng lồ giao dịch mạng Để tự động hoá giao dịch này, phần mềm hỗ trợ cần có khả năng: chuyển đổi dạng văn tồn giao dịch điện tử, hỗ trợ ontology mô tả hàng hoá dịch vụ cho phép agent tìm kiếm, phân loại thương lượng hàng hoá III KHÁI QUÁT VỀ BỘ CÔNG CỤ Mục tiêu công cụ hỗ trợ toàn trình Tạo ngữ nghĩa với RDF Soạn thảo Ontology Ontology Bộ tải RDF Schema Bộ sinh giải dạng RDF Information Extractor công cụ có sẵn song cho rằng, việc kết hợp chúng hệ thống thống (với số chỉnh sửa định) cần thiết để hỗ trợ trình tạo lập truy vấn Web có ngữ nghĩa cách hoàn chỉnh đồng Ngoài công cụ có sẵn, hệ thống có số thành phần tự xây dựng Quan trọng số mô đun giải trang Web tự động sử dụng kỹ thuật tách thông tin từ văn Chi tiết việc tách thông tin văn trình bầy chi tiết phần sau báo Để minh hoạ cho hoạt động công cụ tạo ngữ nghĩa, số môđun tìm kiếm thông tin dựa phần ngữ nghĩa vừa tạo bổ sung vào hệ thống Các thành phần toàn hệ thống thể hình Trong hình 1, hình chữ nhật khối chức năng, hình elip biểu diễn thông tin liệu sinh từ khối chức Các hình chữ nhật có đường bao đậm xám thành phần tự xây dựng, hình với đường bao nhạt thành phần có Công cụ tạo sẵn tích hợp vào trang Web hệ thống Các thành phần có sẵn bao gồm soạn thảo ontology Trang Web Protégé [11], kho chứa mô tả RDF Sesame [7], tải RDF RDFS, Đánh mục phần máy tìm kiếm HTML sử dụng từ khoá truyền thống Phần tạo ngữ nghĩa thực Kho chứa Sesame mô đun nằm hình Đánh mục chữ nhật không liền nét truyền thống góc bên trái Đây RDF & HTML Giao diện phần Search engine người dùng hệ thống Phần ngữ Tìm kiếm nghĩa sinh sử Hình Bộ công cụ tạo Web có ngữ nghĩa ứng dụng kèm dụng cho ứng dụng tìm tạo lập, lưu trữ truy vấn phần ngữ nghĩa trang kiếm thông tin thông minh với máy tìm kiếm giao Web Quá trình đòi hỏi hỗ trợ nhiều công diện thể phía hình vẽ Để đảm bảo tính cụ riêng biệt Mặc dù nhiều công cụ Chú giải Bộ tải RDF Chỉ mục HTML tương thích phần tìm kiếm cho Web truyền thống (không có ngữ nghĩa), hệ thống bao gồm mô đun đánh mục HTML theo từ khoá (ở phía bên phải hình 1) Hệ thống hoạt động sau Trước tiên, người sử dụng tạo ontology cho miền ứng dụng cụ thể nhờ công cụ soạn thảo ontology Sau ontology chuyển thành mô tả RDFS chứa kho chứa Sesame − Sau tạo ontology, bước giải trang Web, tức thêm phần ngữ nghĩa cho trang Web cách điền giá trị cho khái niệm thuộc tính ontology thông tin lấy từ trang Web Thông thường, việc giải thực tay Với số lượng trang Web lớn, công đoạn đòi hỏi nhiều thời gian dễ sinh lỗi để thiếu giải, giải không xác Bộ công cụ cho phép giải vấn đề nhờ mô đun tách thông tin từ trang Web tạo giải tự động Để giải cho trang Web, trang Web đưa mô đun tách thông tin tự động Dựa cấu trúc ontology, mô đun tách từ trang Web thông tin giá trị cụ thể khái niệm thuộc tính chứa ontology Thông tin tách bước đưa sang sinh giải Mô đun có nhiệm vụ tạo ba RDF mô tả thông tin tách chuyển mô tả vừa tạo sang kho chứa Sesame − Song song với trình trên, trang Web đánh mục theo từ khoá cách truyền thống Cuối cùng, phần ngữ nghĩa sử dụng máy tìm kiếm Máy tìm kiếm sử dụng ngôn ngữ RQL để truy vấn kho chứa, đồng thời kết hợp với chế suy diễn dựa ngữ nghĩa để đưa kết tìm kiếm thông minh Câu truy vấn cho dạng ngôn ngữ tự nhiên Trong trường hợp đó, phần ngữ nghĩa câu truy vấn tách kỹ thuật tương tự phần tách thông tin phục vụ giải IV TÁCH THÔNG TIN TỪ VĂN BẢN VÀ CHÚ GIẢI TỰ ĐỘNG Nhiệm vụ khối tách thông tin từ văn phát thông tin, liệu tương ứng với khái niệm ontology, tách thông tin chuyển cho khối sinh giải Ví dụ, xét đoạn văn sau lấy từ trang Web đăng thông tin tuyển dụng lao động (Để tiện cho việc trình bầy thuật toán, ví dụ sử dụng tiếng Việt Trên thực tế, phương pháp tách văn đề xuất cho tiếng Anh Việc nghiên cứu ứng dụng cho tiếng Việt không nằm phạm vi báo trình bầy khuôn khổ nghiên cứu khác) Cần tuyển lập trình viên cho dự án thương mại điện tử Ứng viên cần có bốn năm kinh nghiệm, có khả làm việc với hệ điều hành Windows Unix Ứng viên phải sử dụng thành thạo ngôn ngữ lập trình Java, Javascript, đặc biệt phải có kinh nghiệm lập trình Java không ba năm Ưu tiên ứng viên có kỹ làm việc với sở liệu Oracle Giả sử ontology có khái niệm, thuộc tính quan hệ mô tả hình Quá trình tách thông tin phải cho kết sau: nghề: lập trình viên lập trình viên: kinh nghiệm :bốn năm kỹ năng: hệ điều hành: Windows, Unix ngôn ngữ: Javascript Java: kinh nghiệm :ba năm Có nhiều kỹ thuật tách thông tin đề cập đến nghiên cứu [4,10,12] Do văn cần giải văn có cấu trúc yếu (viết dạng ngôn ngữ tự nhiên), đồng thời thông tin tách phải có cấu trúc ontology quy định nên lựa chọn kỹ thuật tách thông tin mô tả [4] - kỹ thuật cho phép thoả mãn tốt hai yêu cầu Chúng thực số sửa đổi để trình tách thông tin phù hợp với yêu cầu công cụ [13] Nghề khoá có văn Kết nhận dạng từ khoá chứa bảng mô tả bước HĐH rdfs:subClassOf rdfs:domain Lập trình viên Kỹ rdfs:domain Kinh nghiệm rdfs:domain Ngôn ngữ Kinh nghiệm Hình 2: Một ví dụ ontology (không đầy đủ) Quá trình tách thông tin bao gồm bước sau: − Bước1: Nhận biết từ khoá Hằng giá trị cụ thể khái niệm hay thuộc tính chứa ontology Từ khoá từ cụm từ cho phép xác định thuộc khái niệm hay thuộc tính Chẳng hạn, ví dụ “Java” hằng, “ngôn ngữ lập trình” từ khoá cho biết thuộc thuộc tính “ngôn ngữ” khái niệm “kỹ năng” Hằng từ khoá xác định cách sử dụng quy tắc Quy tắc mẫu biểu diễn dạng regular expression (như Perl) mở rộng thêm số từ vựng Ví dụ, mẫu nhận dạng thời gian kinh nghiệm cho sau: Lập trình viên: Kinh nghiệm case insensitive constant {extract Số, “[a-zAZ\s]*\s+năm” }; lexicon {Số case insensitive, filename “number.dat” }; keyword {“\bkinh nghiệm\b” } end; Mẫu cho biết thuộc tính “kinh nghiệm” “lập trình viên” nhận dạng biểu thức bắt đầu “Số”, kết thúc “năm”; “Số” từ vựng chứa file có tên “number.dat” (từ vựng liệt kê xâu “một”, “hai”, “ba”.v.v.); từ khoá kèm “\bkinh nghiệm\b” Các mẫu nhận dạng từ khoá chứa ontology với mô tả khái niệm thuộc tính Như vậy, mở rộng ontology bình thường để chứa thêm thông tin Khi bắt đầu trình tách thông tin, tất mẫu sử dụng để tìm kiếm từ − Bước 2: Tạo bảng Tên|Giá trị|Vị trí Những từ khoá nhận dạng bước chứa bảng Mỗi dòng bảng chứa tên khái niệm thuộc tính ứng với hay từ khoá tìm được, giá trị tìm được, vị trí bắt đầu kết thúc văn Từ khoá phân biệt với cách cho tiền tố KEYWORD trước Ví dụ, từ đoạn văn ví dụ trên, ta xây dựng bảng sau (chỉ thể phần bảng) … lập trình viên:kinh nghiệm|bốn năm|80|86 ngôn ngữ:kinh nghiệm|bốn năm|80|86 KEYWORD lập trình viên:kinh nghiệm|kinh nghiệm|88|98 KEYWORD kỹ năng:hệ điều hành|hệ điều hành|126|137 kỹ năng:hệ điều hành|Windows|139|145 kỹ năng:hệ điều hành|Unix|151|154 KEYWORD kỹ năng:ngôn ngữ|ngôn ngữ lập trình|196|213 kỹ năng:ngôn ngữ|Java|212|215 kỹ năng:ngôn ngữ|Javascript|218|227 kỹ năng:ngôn ngữ|Java|270|273 … − Bước 3: Tạo thông tin ứng với ontology từ bảng Ở bước này, thông tin từ bảng Tên|Giá trị|Vị trí sử dụng để sinh giá trị cho khái niệm thuộc tính bảng Thực chất bước giải mâu thuẫn không rõ ràng thông tin bảng cách sử dụng số quy tắc heuristic Ví dụ, bảng trên, ta thấy “bốn năm” nhận dạng bước vừa thuộc loại kinh nghiệm lập trình nói chung, vừa thuộc loại kinh nghiệm lập trình ngôn ngữ phù hợp với mẫu hai thuộc tính Hay “Java” nhận dạng hai lần, cho giá trị vào kho chứa Ở đây, ta sử dụng số heuristic sau: Nếu khái niệm thuộc tính phép có giá trị bảng lại chứa nhiều giá trị giữ lại giá trị gần từ khoá tương ứng Ví dụ, bảng có hai cho thuộc tính “lập trình viên:kinh nghiệm” “ba năm” “bốn năm” Heuristic cho phép loại giá trị “ba năm” nằm xa từ khoá “lập trình viên : kinh nghiệm” Nếu có nhiều trùng giữ lại tương ứng với từ khoá gần Chẳng hạn, bảng có hai “bốn năm” giữ lại ứng với “lập trình viên:kinh nghiệm” nằm gần từ khoá Phần mềm máy chủ Web Tomcat 4.1 (http://jakarta.apache.org/tomcat) Đây phần mềm miễn phí hỗ trợ Servlet / JSP Nếu có nhiều giá trị / từ khoá lồng giữ lại / từ khoá dài Chẳng hạn, từ khoá “kinh nghiệm lập trình” lồng từ khoá “kinh nghiệm” lại dài hơn, giữ lại “kinh nghiệm lập trình” cho vị trí Phần đánh mục trang Web tìm kiếm theo từ khoá xây dựng dựa máy tìm kiếm Jakarta Lucene (http://jakarta.apache.org/lucene) Đây máy tìm kiếm mã nguỗn mở viết Java hỗ trợ nhiều tính tìm kiếm mở rộng với từ khoá Nếu khái niệm có giá trị chọn xuất bảng Ứng dụng minh hoạ thử nghiệm Các quan hệ một-nhiều thường thể có vị trí lồng văn Trong quy tắc trên, khoảng cách dùng để so sáng tính theo vị trí xuất từ khoá văn Sau áp dụng heuristic trên, lại chuyển sang sinh giải để biến đổi dạng RDF V TRIỂN KHAI VÀ THỬ NGHIỆM Triển khai hệ thống Hệ thống triển khai ứng dụng Web, giao diện sử dụng Web form hiển thị trình duyệt Lựa chọn cho phép xây dựng lưu trữ phần ngữ nghĩa tập trung máy chủ máy cục Chúng sử dụng ngôn ngữ công cụ sau để triển khai hệ thống liệu miễn phí với nhiều ưu điểm nhanh, không đòi hỏi nhiều tài nguyên Với mục đích minh hoạ thử nghiệm, hệ thống sử dụng giải trang Web chứa thông tin cá nhân kỹ lập trình viên, sau phần tìm kiếm cho phép tìm kiếm thông tin người dựa ngữ nghĩa từ khoá Trước hết, ontology nghề lập trình kỹ năng, kinh nghiệm liên quan tạo Ontology cần tạo lần cho tất trang Web Sau có ontology, người dùng sử dụng giao diện hệ thống để nhập trang Web cần giải Ở tạo trang Web giải tạo giải trang có sẵn cách tải trang lên Giao diện nhập trang Web cần giải cho hình Ngôn ngữ lập trình ngôn ngữ Java Java lựa chọn có nhiều ưu điểm: thích hợp với lập trình ứng dụng Web, cụ thể hỗ trợ Servlet/JSP; ngôn ngữ hoàn toàn hướng đối tượng; không phụ thuộc phần cứng hệ điều hành, kết nối với sở liệu thông qua JDBC Ngoài ra, thư viện chuẩn Java (từ phiên 1.4) hỗ trợ regular expression cần thiết cho phần tách thông tin Hình Nhập trang Web cần giải Hệ thống bao gồm hai sở liệu, dùng cho kho chứa Sesame chứa thông tin quản lý hệ thống Cả hai xây dựng sử dụng hệ quản trị CSDL MySQL Đây hệ quản trị sở Sau xác định trang Web cần tạo ngữ nghĩa bấm nút “Create”, sinh tách thông tin sinh giải Người dùng xem giải tạo chỉnh sửa theo mong muốn Hình minh hoạ phần giải kỹ lập trình viên tạo cho trang Web ví dụ lượng xây dựng ontology ảnh hưởng nhiều tới chất lượng giải Sau hiệu chỉnh ontology, với 30 trang Web cá nhân, giá trị recall precision tương ứng 88% 95% Các số recall precision tương đối cao phù hợp với đặc điểm phương pháp tách thông tin lựa chọn Kết giải tự động hiệu chỉnh tay sau kết tốt Do nội dung chủ yếu báo trình bầy công cụ nên thử nghiệm nói mang tính chất minh hoạ cho hoạt động hệ thống Số lượng mẫu thử sử dụng, vậy, không lớn không đa dạng Tuy nhiên, kết thử nghiệm đầy đủ hoạt động thuật toán tách thông tinh từ văn trình bầy [4] báo liên quan Hình 4: Chú giải kỹ tách từ trang Web Sau giải trang Web, người dùng tìm kiếm thông tin theo từ khoá và/hoặc theo ngữ nghĩa ví dụ hình Hình 5: Kết tìm kiếm kết hợp từ khoá ngữ nghĩa Để thử nghiệm hệ thống, sử dụng 30 trang thông tin cá nhân lập trình viên làm việc trung tâm xuất phần mềm FPT Fsoft số trang lấy từ Internet Những trang giải tự động công cụ, sau giải tay so sánh kết Kết đánh giá theo hai số recall (tỷ lệ thông tin tách được/thông tin có văn bản) precision (tỷ lệ thông tin tách đúng/thông tin tách được) Thử nghiệm cho thấy, chất VI KẾT LUẬN Bài báo trình bầy việc thiết kế xây dựng công cụ hỗ trợ tạo Web có ngữ nghĩa với ứng dụng minh hoạ Kết xây dựng công cụ cho thấy, việc sử dụng kỹ thuật tách thông tin từ văn cho phép giảm đáng kể thời gian giải thông tin trang Web, phần việc chiếm nhiều thời gian tạo Web có ngữ nghĩa Phần giải thông tin tự động sử dụng thuật toán tách thông tin có độ xác cao Kinh nghiệm xây dựng công cụ cho thấy, việc hiệu chỉnh tích hợp số công cụ có sẵn cho phép giảm thời gian đồng thời tăng thêm tính công cụ tạo thuận lợi cho người sử dụng so với dùng công cụ riêng lẻ Tuy nhiên, công cụ thiếu số chức tự động khác tự động sinh ontology từ văn Phần giải tự động trang Web đóng vai trò quan trọng việc sinh ngữ nghĩa cho trang Web có sẵn Chất lượng giải phụ thuộc nhiều vào trình tách thông tin Theo biết, chưa có nghiên cứu đề cập tới việc tách thông tin từ văn tiếng Việt Phương pháp tách thông tin trình bầy đề xuất cho tiếng Anh chưa nghiên cứu áp dụng cho văn tiếng Việt Tuy nhiên, đặc điểm phần tách thông tin sử dụng khoảng cách từ, ngữ pháp tiếng Anh tiếng Việt quy định chặt chẽ thứ tự từ câu, thuật toán tách thông tin trình bầy sử dụng cho văn tiếng Việt với số sửa đổi không lớn Giả thiết cần nghiên cứu thêm mục tiêu nghiên cứu Lời cảm ơn: Nghiên cứu thực với hỗ trợ kinh phí Hội đồng Khoa học tự nhiên TÀI LIỆU THAM KHẢO [1] T Berners-Lee, J Hendler, O Lassila, The Semantic Web, Scientific American, May 2001 [13] Tu Minh Phuong, Information Extraction and Evaluation of Candidates with Fuzzy Set techniques, Proc of Inter Conf on Fuzzy syst and Knowl discovery, FSKD 2002, Singapore, 2002, pp 481-485 PHỤ LỤC Ví dụ phần ontology tạo cho ví dụ phần 5.2 Ontology cho dạng giao diện Protégé A Các thực thể Ontology Skills [2] D Brickley, R.V Guha, Resource Description Framework (RDF) Schema Specification, World Wide Web Consortium, Proposed recommendation 2001 [3] Y Ding, D FenselL, M Klein, B Omelayenko, The semantic Web: yet another hip? Data & Knowledge Engineering 41, Elsevier 2002, pp 205–227 [4] D.W Embley, D.M Campbell, R.D Smith, S.W Liddle, Ontology-Based Extraction and Structuring of Information from Data-Rich Unstructured Documents, Proc of 1998 ACM Inter Conf on Inform and Knowledge Man., CIKM 1998, USA, pp 52-59 [5] D Fensel, S Decker, M Erdmann, H.-P Schnurr, R Studer, A Witt, Lessons learned from applying AI to the Web, Journal of Cooperative Information Systems (4) (2000) B Định nghĩa class ontology Skills [6] S Handschuh, S Staab, CREAM – Creating metadata for the semantic Web, Computer networks, vol 42, Elsevier 2003, pp 557-571 [7] http://sesame.aidministrator.nl/ [8] http://www.ontoknowledge.org/oil [9] http://www.daml.org [10] N Kushmeric, Wrapper induction: efficiency and expressiveness, Artificial intelligence, vol.118,2000 [11] N F Noy, M Sintek, S Decker, M Crubézy, R W Fergerson, M A Musen, Creating semantic Web contents with Protégé -2000, IEEE Intelligent systems, 3-4/2001, pp 60-71 [12] S Soderland, Learning information extraction rules for semi-structured and free text Machine learning, 34 Kluwer Academic Publishers.(1999) Ngày nhận 26/4/2004 SƠ LƯỢC TÁC GIẢ TỪ MINH PHƯƠNG TRỊNH HỮU KIÊN Sinh năm 1971 Hà Nội Sinh năm: 1982 Tốt nghiệp đại học ĐH Bách khoa Taskent năm 1993, bảo vệ tiến sỹ Viện hàn lâm khoa học Uzbekistant, Taskent, năm 1995 Tốt nghiệp Đại học Học viện Bưu viễn thông năm 2003 Hiện giảng viên khoa Công nghệ thông tin 1, Học viện công nghệ Bưu Hướng nghiên cứu: Phát triển ứng dụng sử dụng trí tuệ nhân tạo Viễn thông Hướng nghiên cứu: trí tuệ nhân tạo, hệ tác tử, logic mờ, bioinformatics Email: phuongtm@fpt.com.vn Hiện công tác Công ty phần mềm FPT (Fsoft) Email: trinhhuukien@yahoo.com ... đề nhờ mô đun tách thông tin từ trang Web tạo giải tự động Để giải cho trang Web, trang Web đưa mô đun tách thông tin tự động Dựa cấu trúc ontology, mô đun tách từ trang Web thông tin giá trị cụ... Nhiệm vụ khối tách thông tin từ văn phát thông tin, liệu tương ứng với khái niệm ontology, tách thông tin chuyển cho khối sinh giải Ví dụ, xét đoạn văn sau lấy từ trang Web đăng thông tin tuyển dụng... so sánh kết Kết đánh giá theo hai số recall (tỷ lệ thông tin tách được /thông tin có văn bản) precision (tỷ lệ thông tin tách đúng /thông tin tách được) Thử nghiệm cho thấy, chất VI KẾT LUẬN Bài