NGHIÊN CỨU CÁC PHƯƠNG PHÁP TRÍCH RÚT VĂN BẢN TỪ TRANG WEB VÀ ỨNG DỤNG

Thông tin tài liệu

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG ~~~~0~~~~ NGUYỄN THỊ TRANG NGHIÊN CỨU CÁC PHƯƠNG PHÁP TRÍCH RÚT VĂN BẢN TỪ TRANG WEB VÀ ỨNG DỤNG Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - NĂM 2013 Luận văn hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: T.S Hoàng Xuân Dậu Phản biện 1: …………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thông Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thông Trang MỞ ĐẦU Sự phát triển nhanh chóng mạng Web toàn cầu sinh khối lượng khổng lồ liệu dạng siêu văn trang web Trong liệu sở liệu (CSDL) truyền thống thường loại liệu đồng (về ngôn ngữ, định dạng,…), liệu Web thường không đồng Ví dụ ngôn ngữ, liệu Web bao gồm nhiều loại ngôn ngữ khác (cả ngôn ngữ diễn tả nội dung lẫn ngôn ngữ lập trình), nhiều loại định dạng khác (văn bản, HTML, PDF, hình ảnh, âm thanh,…), nhiều loại từ vựng khác (địa email, liên kết (links), mã vùng (zipcode), số điện thoại) Nói cách khác, trang Web thiếu cấu trúc thống Chúng coi thư viện kỹ thuật số rộng lớn, nhiên số khổng lồ tài liệu thư viện không xếp tuân theo tiêu chuẩn đặc biệt nào, không theo phạm trù, tiêu đề, tác giả, số trang hay nội dung Do liệu Web cấu trúc thường không đồng nên việc xử lý thông tin web phục vụ yêu cầu tìm kiếm, phân tích thông tin gặp nhiều khó khăn Yêu cần thiết phải nghiên cứu phương pháp hiệu để xử lý liệu Web, chuyển từ dạng liệu cấu trúc, không đồng thành dạng liệu có cấu trúc đồng Bước xử lý ứng dụng cho nhiều lĩnh vực dịch tự động xử lý ngôn ngữ tự nhiên Luận văn tập trung nghiên cứu phương pháp trích xuất liệu từ Web Trên sở đó, thực cài đặt thử nghiệm công cụ trích rút thông tin từ trang tin tức tiếng Việt Nội dung luận văn chia thành chương chính: Chương – Khái quát khai phá liệu web Chương giới thiệu nội dung nhất, cung cấp nhìn khái quát khai phá liệu Web Đồng thời, luận văn mô tả sơ hướng khai phá, lĩnh vực toán đặt khai phá liệu Web Chương – Các kỹ thuật trích rút văn từ trang Web Chương trình bày cách chi tiết trích rút thông tin Đồng thời chương đưa hướng tiếp cận toán trích rút thông tin Các phương pháp trích lọc văn từ Web trình bày chương Trang Chương – Cài đặt thử nghiệm ứng dụng trích rút văn từ số Website tin tức tiếng Việt Chương giới thiệu chương trình viết ngôn ngữ PHP, sở liệu MySQL dùng để trích rút văn từ Web Chương trình sử dụng mã nguồn mở Joomla Trang CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU WEB 1.1 Tổng quan khai phá liệu 1.1.1 Định nghĩa khai phá liệu Khai phá liệu (data mining) định nghĩa trình chắt lọc hay khai phá tri thức từ lượng lớn liệu a Định nghĩa Khai phá liệu bước trình khám phá tri thức (Knowledge Discovery Process), bao gồm:  Xác định vấn đề không gian liệu để giải vấn đề (Problem understanding and data understanding)  Chuẩn bị liệu (Data preparation), bao gồm trình làm liệu (data cleaning), tích hợp liệu (data integration), chọn liệu (data selection), biến đổi liệu (data transformation)  Khai thác liệu (Data mining): xác định nhiệm vụ khai thác liệu lựa chọn kỹ thuật khai thác liệu Kết cho ta nguồn tri thức thô  Đánh giá (Evaluation): dựa số tiêu chí tiến hành kiểm tra lọc nguồn tri thức thu  Triển khai (Deployment) Trang Hình – Các bước Data mining & KDD b Các dạng liệu Data mining:  Văn (Full text) Dữ liệu dạng văn dạng liệu phi cấu trúc với thông tin gồm tài liệu dạng văn Cơ sở liệu văn dạng sở liệu phi cấu trúc mà liệu bao gồm tài liệu thuộc tính tài liệu Cơ sở liệu văn thường tổ chức tổ hợp hai thành phần: Một sở liệu có cấu trúc thông thường (chứa đặc điểm tài liệu) tài liệu  Siêu văn (Hypertext) Đó loại văn đọc theo dạng liên tục đơn, đọc theo thứ tự khác nhau, đặc biệt văn ảnh đồ họa (graphic) dạng có mối liên kết với theo cách mà người đọc không cần đọc cách liên tục Như văn siêu văn bao gồm dạng chữ viết không liên tục, chúng phân nhánh cho phép người đọc chọn cách đọc theo ý muốn Trang Bên cạnh đó, siêu văn dạng văn đặc biệt nên bao gồm chữ viết liên tục (là dạng phổ biến chữ viết) Có hai khái niệm Hypertext cần quan tâm: - Tài liệu siêu văn (Hypertext Document): Là tài liệu văn đơn hệ thống siêu văn Nếu tưởng tượng hệ thống siêu văn đồ thị tài liệu tương ứng nút - Liên kết siêu văn (Hypertext Link): Là tham chiếu để nối tài liệu siêu văn với tài liệu siêu văn khác 1.1.2 Các hướng nghiên cứu khai phá liệu Có thể chia khai phá liệu thành hướng sau: Mô tả khái niệm (concept description): thiên mô tả, tổng hợp tóm tắt khái niệm Luật kết hợp (association rules): dạng luật biểu diễn tri thứ dạng đơn giản Phân lớp dự đoán (classification & prediction): xếp đối tượng vào lớp biết trước Phân cụm (clustering): xếp đối tượng theo cụm (số lượng tên cụm chưa biết trước Người ta gọi phân cụm học không giám sát Khai phá chuỗi (sequential/temporal patterns): tương tự khai phá luật kết hợp có thêm tính thứ tự tính thời gian 1.1.3 Các ứng dụng khai phá liệu Khai phá liệu ứng dụng nhiều lĩnh vực khác nhằm khai thác nguồn liệu phong phú lưu trữ hệ thống thông tin Việc ứng dụng thành công khai phá liệu mang lại hiệu thiết thực cho hoạt động Trang diễn hàng ngày đời sống Các lĩnh vực có ứng dụng khai phá liệu bao gồm:  Bảo hiểm, tài thị trường chứng khoán: phân tích tình hình tài dự báo giá loại cổ phiếu thị trường chứng khoán Danh mục vốn giá, lãi suất, liệu thẻ tín dụng, phát gian lận,  Thống kê, phân tích liệu hỗ trợ định  Điều trị y học chăm sóc y tế: số thông tin chuẩn đoán bệnh lưu hệ thống quản lý bệnh viện Phân tích mối liên hệ triệu chứng bệnh, chuẩn đoán phương pháp điều trị (chế độ dinh dưỡng, thuốc, )  Sản xuất chế biến: Quy trình, phương pháp chế biến xử lý cố  văn mining Web mining: Phân lớp văn trang Web, tóm tắt văn bản,  Lĩnh vực khoa học: Quan sát thiên văn, liệu gene, liệu sinh vật học, tìm kiếm, so sánh hệ gene thông tin di truyền, mối liên hệ gene số bệnh di truyền,  Mạng viễn thông: Phân tích gọi điện thoại hệ thống giám sát lỗi, cố, chất lượng dịch vụ, 1.2 Khai phá liệu web 1.2.1 Khái quát khai phá liệu Web Với Internet người làm quen với trang Web với thông tin Thông tin trang Web đa dạng mặt nội dung hình thức Sự phát triển nhanh chóng sinh khối lượng khổng lồ liệu dạng siêu văn dạng trang web Các liệu sở liệu (CSDL) truyền thống thường loại liệu đồng (về ngôn ngữ, định dạng,…), liệu Web thường không đồng Vì cần có phương pháp để chuyển đổi Trang nội dung phi cấu trúc thành dạng liệu tập trung, dễ sử dụng Khai phá văn web đời để đáp ứng nhu cầu Cấu trúc nội dung văn Web mô tả hình Hình - Cấu trúc nội dung web Quá trình khai phá văn Web thường trải qua số bước sau: Lựa chọn liệu: Về bản, văn cục định dạng tích hợp thành tài liệu theo mong muốn để khai phá phân phối nhiều dịch vụ Web việc sử dụng kỹ thuật truy xuất thông tin Tiền xử lý liệu: Để có kết khai phá tốt ta cần có liệu rõ ràng, xác xoá bỏ liệu hỗn độn dư thừa Sau bước tiền xử lý, tập liệu đạt thường có đặc điểm sau:  Dữ liệu thống  Làm liệu không liên quan, nhiễu liệu rỗng Dữ liệu không bị mát không bị lặp Trang  Giảm bớt số chiều làm tăng hiệu việc phát tri thức việc chuyển đổi, quy nạp, cưỡng liệu  Làm thuộc tính không liên quan để giảm bớt số chiều liệu Biểu diễn văn bản: Khai phá văn Web khai phá tập tài liệu HTML Do ta phải biến đổi biểu diễn liệu thích hợp cho trình xử lý Mô hình TF-IDF thường sử dụng để vector hoá liệu Tuy nhiên việc biểu diễn sử dụng mô hình TF-IDF dẫn đến số chiều vector lớn Trích rút đặc trưng: Trích rút đặc trưng phương pháp sử dụng để giải số chiều vector đặc trưng lớn thu từ khâu khai phá văn bảnSau tập hợp, lựa chọn trích tập văn hình thành nên đặc trưng bản, sở để Khai phá liệu Từ ta thực trích, phân loại, phân cụm, phân tích dự đoán Sơ đồ hình mô tả trình khai phá văn Web Hình – Quá trình khai phá văn Web 1.2.2 Các lĩnh vực khai phá liệu web a Khai phá nội dung Web Trang 10 Cusomized Usage tracking: phân tích xu hướng cá nhân Mục đích để chuyên biệt hóa web site cho lớp đối tượng người dùng Có thể mô tả nội dung khai phá liệu web theo sơ đồ hình đây: Hình – Các nội dung khai phá liệu web 1.2.3 Khó khăn thuận lợi khai phá liệu Web a Khó khăn - Web dường lớn để tổ chức thành kho liệu phục vụ cho khai phá liệu - Độ phức tạp trang Web lớn nhiều so với tài liệu văn truyền thống khác - Web nguồn tài nguyên thông tin có độ thay đổi cao - Web phục vụ cộng đồng người dùng rộng lớn đa dạng - Chỉ phần nhỏ thông tin Web thực hữu ích b Thuận lợi Trang 11 - Web bao gồm trang mà có hyperlink trỏ từ trang tới trang khác - Một máy chủ Web thường đăng ký ghi đầu vào (Weblog entry) cho lần truy cập trang Web 1.4 Kết chương Sự phát triển Internet mạng Web toàn cầu sinh khối lượng khổng lồ liệu dạng siêu văn dạng trang web Vì cần có phương pháp để hiệu để chuyển đổi trích rút nội dung phi cấu trúc trang web thành kho liệu tập trung dễ sử dụng Chương II sâu nghiên cứu kỹ thuật trích rút văn từ trang web CHƯƠNG II: CÁC KỸ THUẬT TRÍCH RÚT VĂN BẢN TỪ TRANG WEB 2.1 Khái quát trích rút thông thông tin 2.1.1 Giới thiệu chung trích rút thông tin Theo Baumgartner [20], hệ thống rút trích thông tin từ web hệ thống phần mềm tự động liên tục rút trích liệu trang web có nội dung thay đổi phân phối liệu rút trích vào sở liệu ứng dụng khác Trích rút thông tin tìm thông tin cấu trúc, thông tin cần thiết từ tài liệu, truy vấn thông tin tìm tài liệu liên quan, phần tài liệu liên quan từ kho liệu cục thư viện số từ trang web để phản hồi cho người dùng tùy vào truy vấn cụ thể Truy vấn văn thông minh hướng tới tối ưu hay tìm kiếm phương pháp nhằm cho kết phản hồi tốt hơn, gần với nhu cầu người dùng Các nghiên cứu liên quan đến trích rút thông tin văn tập trung vào: Trang 12 Rút trích thuật ngữ (Terminology extraction): tìm kiếm thuật ngữ có liên quan, thể ngữ nghĩa, nội dung, chủ đề tài liệu hay tập tài liệu Rút trích thực thể có tên (named entity recognition): việc rút trích thực thể có tên tập trung vào phương pháp nhận diện đối tượng, thực thể như: tên người, tên công ty, tên tổ chức, địa danh, nơi chốn Rút trích quan hệ (Relationship Extraction): cần xác định mối quan hệ thực thể nhận biết từ tài liệu Các bước tiến trình trích rút thông tin: Theo tiến sĩ Diana Maynard [3], hầu hết hệ thống trích rút thông tin nói chung thường tiến hành bước sau:  Tiền xử lý - Nhận biết định dạng tài liệu (Format detection) - Tách từ (Tokenization) - Phân đoạn từ (Word segmentation) - Giải nhập nhằng ngữ nghĩa (Sense disambiguation) - Tách câu (Sentence splitting) - Gán nhãn từ loại (POS tagging)  Nhận diện thực thể đặt tên (Named Entity Detection) - Nhận biết thực thể (Entity detection) - Xác định đồng tham chiếu (Coreference) 2.1.2 Các dạng toán trích rút thông tin a Trích rút cụm từ khóa (Keyphrase Extraction) Trang 13 Cụm từ khóa xem thành phần hay dạng siêu liệu (metadata) thể nội dung tài liệu văn [29] Mục đích hầu hết nghiên cứu rút trích cụm từ khóa nhằm tìm kiếm đặc trưng tốt để mã hóa văn [6] ứng dụng hệ thống phân loại, gom cụm, tóm tắt tìm kiếm văn Phạm vi ứng dụng:  Các kho liệu văn lớn thư viện số phát triển nhanh dẫn đến gia tăng giá trị thông tin tóm tắt  Hỗ trợ người dùng nhận biết nội dung tài liệu kho tài liệu  Ứng dụng truy vấn thông tin cho phép mô tả tài liệu trả từ kết truy vấn Định hướng tìm kiếm cho người dùng  Nền tảng cho mục tìm kiếm  Là đặc trưng dùng kỹ thuật phân loại, gom cụm tài liệu b Nhận diện thực thể Nhận diện thực thể có tên (NER-Named Entity Recognition)1 công việc thuộc lĩnh vực trích xuất thông tin nhằm tìm kiếm, xác định phân lớp thành tố văn không cấu trúc thuộc vào nhóm thực thể xác định trước tên người, tổ chức, vị trí, biểu thức thời gian, số, giá trị tiền tệ, tỉ lệ phần trăm, v.v Phương pháp tiếp cận hệ thống phổ biến  Kỹ thuật dựa văn phạm ngôn ngữ  Các mô hình học thống kê  Kết hợp máy học kỹ thuật xử lý ngôn ngữ tự nhiên  Hệ thống nhận diện thực thể có tên phổ biến: kể đến hệ thống phổ biến như: http://en.wikipedia.org/wiki/Named_entity_recognition Trang 14  Hệ thống Standford NER2: xây dựng phân lớp CRFClassifier dựa mô hình thuộc tính ngẫu nhiên có điều kiện (CRF-Condictional Random Field)  Hệ thống GATE-ANNIE 3: hệ thống GATE Framework (General Architecture of Text Engineering) dự án lớn thuộc khoa Khoa học Máy tính, Đại học Sheffield Anh c Nhận diện mối quan hệ Trích rút quan hệ việc xác định mối quan hệ ngữ nghĩa thực thể văn hay câu Một số nghiên cứu liên quan sau:  Các phương pháp dựa trên luật, đặc trưng ngôn ngữ chủ yếu dựa vào kỹ thuật xử lý ngôn ngữ tự nhiên, qui tắc ngôn ngữ, cú pháp, đặc điểm từ vựng, đặc điểm cú pháp, đặc điểm ngữ nghĩa để xác định mối quan hệ  Các phương pháp kernel dựa vào kernel tách biệt để khai thác đặc điểm cấu trúc 2.2 Trích rút văn từ trang Web 2.2.1 Giới thiệu chung trích rút văn từ trang web Trích rút thông tin từ web trình lấy thông tin từ trang web chuyển thành thành dạng đồng Nhiệm vụ trang web tìm kiếm trả cho người dùng tài liệu có tương thích cao với từ khóa mà người dùng đưa vào Các tiêu chí để phân loại hệ thống trích rút thông tin từ web sau: - Dựa vào mức độ can thiệp người trình trích rút thông tin - Dựa vào tầng liệu rút trích http://nlp.stanford.edu/ner/index.shtml http://gate.ac.uk/ie/annie.html Trang 15 2.2.2 Các hướng tiếp cận toán trích rút văn từ trang web Các phương pháp trích xuất chia thành hai cách tiếp cận chính: tiếp cận công nghê tri thức (Knowledge Engineering) tiếp cận học máy tự động (Automatic Training): Tiếp cận tri thức - Dựa luật, mẫu xây dựng thủ công - Được phát triển chuyên gia ngôn ngữ, chuyên gia lĩnh vực có kinh nghiệm - Dựa vào trực giác, quan sát Hiệu đạt tốt Việc phát triển tốn nhiều thời gian Tiếp cận học tự động - Dựa học máy thông kê - Người phát triển không cần thành thạo ngôn ngữ, lĩnh vực - Cần lượng lớn liệu học gán nhãn tốt - Khi có thay đổi  cần phải gán nhãn lại cho tập liệu học - Khó điều chỉnh có thay đổi Việc bóc tách nội dung web thường thực cách sử dụng crawler hay wrapper Một wrapper xem thủ tục thiết kế để rút trích nội dung cần quan tâm nguồn thông tin Đã có số công trình nghiên cứu khác giới sử dụng nhiều phương pháp tạo wrapper khác để thực rút trích thông tin web Các phương pháp bao gồm:  Phân tích mã HTML  So sánh khung mẫu  Xử lí ngôn ngữ tự nhiên a Phân tích mã HTML Trang 16 Hiện nay, VietSpider [34] tác giả Nhữ Đình Thuần phần mềm bóc tách nghĩa, chúng truy xuất trực tiếp vào nội dung toàn diện tiến hành bóc tách Sau đặc tả liệu (meta data) xây dựng tự động nội dung bóc tách Sau quy trình khai thác, nội dung trở thành độc lập với website nguồn, lưu trữ tái sử dụng cho mục đích khác Hình - Hệ thống bóc tách nội dung VietSpider Hệ thống tác giả Nhữ Đình Thuần cài đặt mô hình khai phá liệu cho phép tổng hợp nội dung liên quan Mô hình thuật toán cài đặt LOR (Linked Object Representation) với hỗ trợ kỹ thuật Stopping phân tách nội dung Giải pháp đánh mục (indexing) tìm kiếm (searching) sửa đổi cải tiến từ giải pháp nguồn mở tiếng Apache Lucene Search b So sánh khung mẫu Trang 17 Phương pháp rút trích thông tin cách so trùng hai trang web xây dựng tảng nhận dạng mẫu tác giả Trang Nhật Quang thực việc trích rút nội dung nhằm cung cấp tin tức trang web hành [2] Phương pháp không đòi hỏi người sử dụng phải biết ngôn ngữ xây dựng wrapper hay phải thay đổi wrapper cách trình bày thay đổi trang web mẫu lấy trực tiếp từ trang chủ có cách trình bày với trang cần rút trích c Xử lý ngôn ngữ tự nhiên Đây phương pháp sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên áp dụng cho tài liệu mà thông tin thường cấu trúc định (như truyện) Các công cụ sử dụng phương pháp thích hợp cho việc rút trích thông tin trang web có chứa đoạn văn tuân theo quy luật văn phạm Một số công cụ sử dụng phương pháp xử lý ngôn ngữ tự nhiên việc bóc tách nội dung như: WHISK hay RAPIER [23] d Kết hợp phân tích mã xử lý ngôn ngữ tự nhiên Giải pháp thực dựa phương pháp bóc tách nội dung nhờ vào phân tích mã HTML theo mã nguồn HTMLParser dự án Majestic-12 [36] để tạo thành Document Tree Phương pháp cho điểm node dựa vào kết xử lý ngôn ngữ tự nhiên nội dung mà chứa bên Một số quy tắc cho điểm áp dụng:  Chỉ cho điểm cho NODE có tag TEXT Vì có node node chứa nội dung thực Các node khác tổng hợp từ node  Cho điểm NODE TEXT dựa vào số câu nội dung chứa bên node Càng nhiều câu node có điểm cao Trang 18  Node cho điểm phải chứa tối thiểu đoạn văn Tuy nhiên việc xác định đoạn văn thường dựa heuristic  Điểm node cha điểm node cộng lại 2.3 Các thuật toán trích rút văn từ web 2.3.1 Trích xuất thông tin dựa vào DOM a Khái niệm DOM Theo W3C DOM (Document Object Model) giao diện lập trình ứng dụng (API) cho trang HTML XML Nó định nghĩa cấu trúc logic văn cách thức văn truy cập thao tác [37] b Ý tưởng xây dựng DOM Có hai phương pháp để xây dựng DOM  Sử dụng thẻ riêng biệt Trong DOM, cặp thẻ node, cặp thẻ ẩn bên node node Có hai nhiệm vụ cần thi hành là: - Làm mã HTML: Một vài thẻ không cần thẻ đóng (như

, ,

) chúng có thẻ đóng Bởi thẻ đóng nên chèn vào để tất thẻ cân Các thẻ định dạng không tốt cần thiết sửa chữa - Một thẻ sai thường thẻ đóng, thẻ cắt ngang khối ẩn bên - Xây dựng cây: Chúng ta theo khối thẻ HTML để xây dựng DOM  Sử dụng thẻ hộp ảo (visual cue) Thay phân tích mã HTML để sửa lỗi, sử dụng biểu diễn thông tin ảo để suy luận mối quan hệ có cấu trúc thẻ xây dựng DOM Trang 19 Các bước xử lý sau:  Tìm đường biên hình chữ nhật ứng với phần tử HTML thông qua việc công cụ trình diễn trình duyệt, ví dụ: Internet Explorer  Theo thẻ mở kiểm tra xem hình chữ nhật có nằm hình chữ nhật khác không, để xây dựng DOM c Ứng dụng cấu trúc DOM để trích xuất thông tin Để trích xuất thông tin cần thiết node DOM, cần rõ đường từ gốc đến node cần trích xuất thông tin Đường gọi XPath[33] hay mẫu trích xuất 2.3.2 Thuật toán BTE – Body Text Extraction Thuật toán BTE (Body Text Extractor) phát triển cách sử dụng thông tin mật độ chữ văn mật độ thẻ để đánh dấu cho phần khác trang web.Ý tưởng thuật toán BTE Aidan Finn [7] đề xuất sau : Xác định hai điểm i, j cho số thẻ HTML (tag-tokens) i j tối đa, đồng thời số từ (text-tokens) i j tối đa Kết trích rút dấu hiệu văn đoạn [i, j] tách 2.3.3 Đánh giá thuật toán trích rút văn từ trang web Qua thử nghiệm cho thấy, thuật toán BTE cải tiến áp dụng xác trích rút nội dung văn trang tin tức, điều phù hợp với mục tiêu đề xây kho ngữ liệu nghiên cứu từ vựng tiếng Việt, thu thập tự động trang web có đủ độ lớn, có tính kết nối văn 2.4 Kết chương Trong chương trình bày khái quát trích rút văn phương pháp trích rút văn từ trang web Phương pháp giới thiệu trích rút văn dựa vào DOM - thuật toán Body Text Extraction Đồng thời trình Trang 20 bày số cải tiến cho thuật toán để giảm thời gian trích rút Chương trình cài đặt thử nghiệm cho thuật toán đánh giá kết thuật toán trình bày chương CHƯƠNG III: CÀI ĐẶT THỬ NGHIỆM ỨNG DỤNG TRÍCH RÚT VĂN BẢN TỪ WEBSITE TIN TỨC 3.1 Yêu cầu thử nghiệm tập liệu thử nghiệm 3.1.1 Yêu cầu thử nghiệm Mô tả toán: Đầu vào: Nội dung trang tin tức, bao gồm thẻ HTML nội dung Đầu ra: nội dung trang tin tức lọc bỏ thẻ HTML nội dung khác 3.1.2 Tập liệu thử nghiệm Vnexpress.net biết đến tờ báo online có nhiều độc giả Việt Nam Ngoài tin tức thời sự, giáo dục, khoa học Vnexpress mở rộng thêm số trang web công nghệ (sohoa.vnexpress.net) văn hóa giải trí (ngoisao.net) Dantri.com.vn trang web tin tức hội khuyến học Việt Nam Được thành lập sau VNexpress.net trang web nhanh chóng thu hút nhiều độc giả cập nhật thông tin nhanh chóng xác Ngoài nhiều trang web tin tức khác có số lượng độc giả đông đảo thanhnien.com.vn hay vietnamnet.vn 3.2 Cài đặt thử nghiệm ứng dụng Trang 21 3.2.1 Yêu cầu phần cứng phần mềm Cấu hình phần cứng máy tính sử dụng để cài đặt chương trình: Thành phần Chỉ số CPU Intel® Core™2 Duo 1.8Ghz RAM 2048M OS Windows Professional Bộ nhớ 160G Danh mục phần mềm sử dụng thực nghiệm: STT Tên phần mềm Tác giả Nguồn Joomla CMS Netbean IDE for PHP Oracle Corporation https://netbeans.org/ MySQL client Oracle Corporation http://www.mysql.com/ Open source Matters, Inc http://www.joomla.org/ 3.2.2 Giới thiệu cấu trúc chương trình số module Các chức chương trình bao gồm: - Thu thập URL cần trích rút nội dung đầu vào toán trích rút - Bóc tách nội dung trang tin tức dựa vào thuật toán Body Text Extraction trình bày chương - Lưu nội dung trích rút vào sở liệu hiển thị kết thu hình - Đánh giá chung kết thu chương trình thử nghiệm Có thể mô tả mô hình tổng quan hệ thống hình 18: Trang 22 Hình 18 – Cấu trúc chương trình trích rút văn từ website 3.2.3 Giới thiệu số module Cấu trúc chi tiết chương trình trích rút thông tin từ trang tin tức mô tả theo bảng sau: Main class Functions Thu thập liệu từ website tin tức Crawlers Thu thập URL chứa nội dung chi tiết tin tức Extracting Nhập URL vào, dùng CURL function để lấy mã HTML Trang 23 toàn trang tin tức Phân tích mã HTML đưa vào theo thuật toán BTE Trích xuất nội dung trang web theo BTE Storing Lưu nội dung vừa trích xuất vào sở liệu MySQL Display Hiển thị nội dung sau trích rút cho người dùng xem 3.3 Một số kết thu Thử nghiệm với vnexpress.net, vietnamnet.vn, dantri.com.vn Độ xác đạt khoảng 80%-90% có nhiều nội dung tạp nội dung Kết thu vnexpress.net vietnamnet.vn có độ xác cao Về mặt nội dung, phương pháp trích xuất liệu từ website tốt khả quan Tuy nhiên trích rút từ nhiều website khác nội dung trích rút bị trùng lặp nhiều Vì trang tin tức lớn đưa lên tin tức tương đồng số mặt sống, trị, giáo dục… 3.4 Kết chương Chương kết cài đặt thử nghiệm thuật toán Body Text Extraction cho trang web tin tức tiếng Việt dựa cấu trúc DOM trình bày chương II Chương trình cài đặt viết ngôn ngữ PHP sử dụng sở liệu MySQL để lưu trữ Trang 24 KẾT LUẬN Luận văn nghiên cứu tổng quan khai phá liệu web sâu nghiên cứu kỹ thuật trích rút văn từ trang web Trên sở đó, luận văn tiến hành cài đặt thử nghiệm thuật toán BTE trích rút văn từ số trang web tin tức tiếng Việt Cụ thể, luận văn đạt số kết sau: - Nghiên cứu khái quát khai phá liệu, ứng dụng khai phá liệu web mặt đời sống - Nghiên cứu trích rút thông tin hướng tiếp cận toán trích rút thông tin Đồng thời vào chi tiết toán cụ thể trích rút văn từ trang web - Nghiên cứu thuật toán trích rút văn từ trang web dựa vào cấu trúc DOM nội dung trang web Trong trình bày phương pháp cụ thể để trích rút văn từ trang tin tức - thuật toán Body Text Extraction Aidan Finn cải tiến số bước thuật toán để nâng cao hiệu suất sử dụng thuật toán với trang web tin tức tiếng Việt - Xây dựng phần mềm thử nghiệm trích rút văn với thuật toán Body Text Extraction viết ngôn ngữ PHP với sở liệu MySQL Từ ứng dụng để xây dựng kho liệu từ nguồn tin tức Internet Trong tương lai, luận văn nghiên cứu tiếp tục theo hướng sau: - Nghiên cứu hướng sử dụng khối văn trích rút từ trang web Các hướng khả thi ứng dụng cho dịch tự động phân tích cú pháp - Triển khai thử nghiệm nhiều trang web có định dạng khác để đánh giá hiệu thuật toán

Ngày đăng: 05/11/2016, 14:37

Xem thêm: NGHIÊN CỨU CÁC PHƯƠNG PHÁP TRÍCH RÚT VĂN BẢN TỪ TRANG WEB VÀ ỨNG DỤNG, NGHIÊN CỨU CÁC PHƯƠNG PHÁP TRÍCH RÚT VĂN BẢN TỪ TRANG WEB VÀ ỨNG DỤNG

NGHIÊN CỨU CÁC PHƯƠNG PHÁP TRÍCH RÚT VĂN BẢN TỪ TRANG WEB VÀ ỨNG DỤNG

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan