Quảng cáo hướng ngữ cảnh và ứng dụng trong website tin tức

27 618 1
Quảng cáo hướng ngữ cảnh và ứng dụng trong website tin tức

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG BÁO CÁO THỰC TẬP TỐT NGHIỆP Đề tài: Quảng cáo hướng ngữ cảnh ứng dụng website tin tức Giảng viên hướng dẫn : PGS.TS Lê Thanh Hương Sinh viên thực : Nguyễn Trọng Tú MSSV : 20083080 Lớp : HTTT-K53 GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 Mục lục GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 Bài toán: Ngày Word Wide Web trở thành kho tài nguyên liệu khổng lồ lĩnh vực Lượng truy cập trao đổi thông tin qua Word Wide Web diễn liên tục tạo mạng lưới truyền thông bao phủ khắp toàn cầu khiến kênh truyền thông trở thành mảnh đất màu mỡ cho hoạt động quảng cáo trực tuyến Ở Việt Nam nay, tốc độ tăng trưởng người dùng Internet tăng cao tổng doanh thu quảng cáo trực tuyến việt nam mức khiêm tốn khoảng 480 tỷ đồng năm 2010, chiếm 0,4% tổng chi cho quảng cáo Chỉ số ngân sách quảng cáo trực tuyến hàng năm người sử dụng việt nam hiển chi khoảng 0,5 USD, xa so với số nước phát triển Mỹ 171,5 USD Trung Quốc 10 USD Dự kiến đến năm 2015 thị trường quảng cáo trực tuyến Việt Nam phát triển ổn định Hình thức quảng cáo trực tuyến phổ biến trang báo điện tử Viêt Nam thường dành phần lớn diện tích để thị quảng cáo Điểm mạnh mô hình người truy cập vào trang nhìn thấy quảng cáo Nhưng điều quang trọng Người dùng có quan tâm tới quảng cáo không để họ kích vào liên kết quảng cáo hay làm cho họ cảm thấy khó chịu Để giải nhược điểm nhà phát triển web giới phát triển hệ thống “quảng cáo hướng ngữ cảnh” - dựa vào nội dung trang web để đưa quảng cáo liên quan Đồ án đề xuất hướng khai thác quảng cáo trực tuyến cách sử dụng từ khóa tiếng Việt phần văn nội dung trang web chuyển tải quảng cáo Hình thức xu hướng mới, cải thiện hạn chế quảng cáo trực tuyến nước ta Đối tượng ứng dụng Nhận thấy tính thực tiễn toán, em định lựa chọn đề tài đồ án: “Quảng cáo trực tuyến ứng dụng website tin tức” Phạm vi nghiên cứu đồ án tìm hiểu lĩnh vực quảng cáo trực tuyến mô hình dịch vụ quảng cáo trực tuyến, thực khai phá liệu web để xác định bóc tách nội dung trang web rùi từ xử lý tách từ tiếng việt xác định từ khóa văn Xây dựng thành công demo: website tin tức kết hợp với quảng cáo hướng ngữ cảnh Nguồn liệu khai thác - Kho liệu gán nhãn từ loại VN POS tag data base GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 Các hướng nghiên cứu liên quan tới toán Do toán em tập trung chủ yếu vào việc tách nội dung toán, sau tách từ trích rút từ khóa Nên em tập trung tìm hiểu hướng nghiên cưu liên quan tới vấn đề 4.1 Bóc tách nội dung trang Web 4.1.1 Tổng quan xử lý trích xuất nội dung trang web Để hiểu trang Web nói vấn đề gì, trước hết phải xác định nội dung trang Web Chú ý trang Web hiểu trang Web bất kỳ, nghĩa cấu trúc trang web trước Hơn nữa, trang web phải thật có nội dung (nghĩa nhìn vào chủ đề trang web) việc xác định thật có ý nghĩa Tại cần bóc tách nội dung chính? Khối lượng thông tin lưu trữ Internet ngày tăng chóng mặt theo thời gian Từ làm nảy sinh nhu cầu nghiên cứu, xử lý khối lượng liệu thông tin cho hiệu nhanh chóng Một số ứng dụng Search Engine, RSS, Feedback, Tóm tắt văn bản, Tìm kiếm song ngữ… cần rút trích thông tin xác, gọn gẽ, có ý nghĩa từ kho liệu Khó khăn toán toàn nội dung trang web cần thiết Chúng hay bị “nhiễu” nhiều thông tin khác Nếu đơn loại chuỗi script HTML nội dung lọc nhiều lỗi rác không cần thiết Ví dụ: phần thông tin quảng cáo, tin cập nhật, nội dung tin ngắn, menu… nội dung thường cần phải bỏ qua trình bóc tách nội dung trang web Cụ thể hơn, nội dung trang web tổ chức theo dạng liệu HTML với cấu trúc theo dạng tag, node… Những tag có ý nghĩa với trình duyệt để thị tài liệu, văn theo bố cục trình diễn cho trước, hoàn toàn ngữ nghĩa người duyệt Web Bên cạnh đó, tính phong phú Internet nên nội dung trang web thường chứa nhiều thông tin khác Bên cạnh nội dung lại thường chứa thêm nhiều nội dung bên lề, không liên quan Ví dụ trang web thường chứa thực đơn (menu) ngang dọc, danh sách hướng dẫn (link) dùng để định hướng cho người sử dụng dễ dàng truy xuất tới nội dung mà cần Các quảng cáo dạng banner, đoạn phim Flash, hiệu ứng âm thanh, hình ảnh, định dạng stylesheet (css), mã kịch javascript, đoạn văn (text) không liên quan khác làm cho nội dung trang web thật kho liệu phức tạp Ngoài ra, trang web lại chứa nhiều chủ đề khác Ví dụ khó để xác định nội dung trang chủ Yahoo.com!) Do đó, bóc tách nội dung có ý nghĩa trang web có chứa nội dung thực GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 Một khó khăn nội dung HTML trang web có cú pháp “dễ dãi” Bạn tag mở, tag đóng, mã HTML bị khai báo sai cú pháp, chồng chéo lên nhau, trình duyệt ưu thị bình thường mà không bắt lỗi Hình 4-1 Xác định bóc tách nội dung trang web Tất vấn đề làm cho nội dung trang web bị “nhiễu” nhiều, đặt thách thức không nhỏ việc định dạng nội dung 4.1.2 Các phương pháp xử lý Để xác định khối nội dung trang web bất kỳ, trước cấu trúc, có nhiều cách tiếp cận khác nhau: 4.1.2.1 Tiếp cận theo hướng loại bỏ tag HTML Đây cách tiếp cận đơn giản nhất, dĩ nhiên hiệu thấp Sử dụng biểu thức quy (regular expression) sau để loại bỏ tag HTML: Regular Expression = “ ]*>" ” GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 Do trình bày trên, nội dung web không tag HTML mà chứa nội dung rác khác Vì cách áp dụng cho đoạn HTML nhỏ riêng lẻ, áp dụng cho toàn trang web Hình 4-2 Tách nội dung web loại bỏ thẻ HTML 4.1.2.2 Tiếp cận theo hướng rút trích Text node Phương pháp tương tự phương pháp loại bỏ tag HTML tiếp cận theo hướng khác Bằng cách thực phân tích mã HTML để tạo thành biểu diễn nội dung trang web Document tree (DOM), node đại diện cho thành phần khác trang web Khi đó, phần văn lấy việc nối nội dung node đánh dấu với tag “TEXT” Tiếp cận theo phương pháp áp dụng cho toàn trang web cho kết xác so với phương pháp loại bỏ tag HTML Nhưng khắc phục nhược điểm lọc nội dung rác để lấy phần nội dung mà đơn lấy toàn văn text trang web 4.1.2.3 Tiếp cận theo hướng so sánh khung mẫu Phương pháp rút trích thông tin cách so trùng hai trang web xây dựng tảng nhận dạng mẫu tác giả Trang Nhật Quang thực việc rút trích nội dung nhằm GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 cung cấp tin tức trang web hành Phương pháp cho phép so khớp trang web cần rút trích với trang web mẫu để xác định khung trình bày chung cho hai trang web cần rút trích, từ đến rút trích nội dung nằm phần xác định chứa nội dung trang mẫu Hình 4-3 Mô hình bóc tách nội dung so sánh khung mẫu (a) Trang web cần rút nội dung (b) Trang web khung mẫu (được xác định trước) (c) Nội dung sau so khớp rút Phương pháp không đòi hỏi người sử dụng phải biết ngôn ngữ xây dựng phải khu vực nội dung cần bóc tách cách trình bày thay đổi trang web mẫu lấy trực tiếp từ trang chủ có cách trình bày với trang cần rút trích Tuy nhiên, tên miền khác nhau, cần phải xác định trang web làm mẫu cho trang khác Đây hạn chế trình tự động hóa xác định nội dung web 4.1.2.4 Tiếp cận theo hướng phân tích mã HTML xử lý ngôn ngữ tự nhiên Giải pháp thực tác giả Ngô Quốc Hưng phát triển luận án “Tìm kiếm tự động văn song ngữ Anh-Việt từ Internet” Hướng tiếp cận dựa phương pháp bóc tách nội dung nhờ vào phân tích mã HTML theo mã nguồn HTMLParser dự án Majestic-12 để tạo thành DOM biểu diễn nội dung trang web Từ áp dụng công cụ kỹ thuật ngôn ngữ để định phần nội dung Phương pháp dựa tiền đề trang web phân tích tag HTML để xây dựng nên Document Tree Từ xác định node chứa nội dung trang WEB Phương pháp cho điểm node dựa vào kết xử lý ngôn ngữ tự nhiên nội dung mà chứa bên GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 Một số quy tắc cho điểm áp dụng: + Chỉ cho điểm cho NODE có tag TEXT Vì có node node chứa nội dung thực Các node khác tổng hợp từ node + Cho điểm NODE TEXT dựa vào số câu nội dung chứa bên node Càng nhiều câu node có điểm cao + Node cho điểm phải chứa tối thiểu đoạn văn (Tuy nhiên việc xác định đoạn văn heuristic) + Điểm node cha điểm node cộng lại Hình 4-4 Node chứa nội dung văn Xác định node nội dung: Để xác định node nội dung mà không chứa nội dung không cần thiết xác định node sâu có điểm cao Bằng việc xác định node nội dung vậy, hệ thống tự động xác định nội dung trang web mà không cần biết trước khung mẫu nguồn gốc trang web GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 Hướng tiếp cận cho kết khả quan, nhiên cách bị bỏ sót nội dung nội dung nằm phân tán node độc lập khác Document Tree 4.1.2.5 Tiếp cận theo hướng phân đoạn trang web – VIPS Hướng tiếp cận tiến hành phân đoạn trang web thành khối (block) riêng biệt theo cách tiếp cận trực quan (vision-based approach), nghĩa mắt người cảm nhận thấy phân đoạn Bằng cách sử dụng giải thuật VIPS (Vision- based Page Segmentation) phát triển phòng thí nghiệm Microsoft Ý tưởng dựa độ liền mạch node cấu trúc DOM với số nhận xét heuristic để thực phân đoạn tự động trang web theo khu vực cách trực quan Hình 4-5 Thuật toán VIPS, phân đoạn trang web dựa cấu trúc DOM Thuật toán VIPS sơ lược gồm bước chính: • Bước 1: Tách khối (Block Extraction) + Tiến hành phân tách node DOM thành khối lớn cách: chia tách node chứa đựng (container node - node có khả chứa node khác, ví dụ node có tag , ,…) không container node Từ xây dựng bao gồm container node trên, gọi Visual Block (VB1), biểu diễn khối trang web + Từ VB1 này, ta tiến hành xem xét xem node nên bị chia tách tiếp hay không số luật Heuristic sau: GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 Dựa vào tag: tag ví dụ , … thường dùng để chia tách chủ đề khác nhau, node tag tiến hành chia tách tiếp o Dựa vào màu sắc (color): giả sử màu node cha khác với node tiến hành chia tách tiếp màu sắc khác thường thể nội dung chủ đề khác o Dựa vào văn (text): node text node không chia tách tiếp o Dựa vào kích thước (size): Nếu độ sai biệt kích thước node cha node lớn ngưỡng cho trước tiến hành chia tách node tiếp + Tới đây, ta thu mới, tạm gọi VB2 o • Bước 2: Xác định đường phân cách (Seperator Detection) + Các block VB2 đưa vào pool để xác định ranh giới phân tách (seperator) Các đường phân tách định nghĩa đườngngang dọc trang web mà không chứa block pool + Từ xác định tiếp trọng số seperator Các trọng số xác định dựa vào tiêu chí Heuristic sau: Khoảng cách: trọng số cao khoảng cách, khoảng trống xung quanh Seperator nhiều o Tag: Nếu Seperator nằm vị trí với tag dạng phân cách (ví dụ …) trọng số cao o Font: Nếu font chữ, kích thước chữ (font, size) khối xung quanh Seperator khác trọng số Seperator cao o Color: Nếu màu (background color) xung quanh Seperator khác trọng số Seperator cao + Từ đây, ta xác định Seperator trang web với trọng số chúng o • Bước 3: Tổng hợp cấu trúc nội dung (Content Structure Construction) + Khi Seperator xác định, ta tiến hành bỏ Seperator có trọng lượng thấp cách gom (merge) block nằm hai phía Seperator lại với + Quá trình gom block thực gặp Seperator có trọng lượng lớn Tiếp tục xác định độ đo liền mạch (DoC) block vừa gom + Sau block kiểm tra xem độ đo DoC có lớn ngưỡng cho trước hay không? Nếu thỏa yêu cầu ngưỡng dừng, chưa tiếp tục quay lại Bước để tiếp tục tách block Sau chạy thuật giải VIPS, trang Web phân đoạn thành khối riêng biệt Ta tiếp tục tiến hành xác định khối khối chứa nội dung trang Web cách xét độ quan trọng khối trang Web GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 Thông tin phụ thuộc lẫn (mutual information) từ ghép cấu tạo n tiếng (cw= w1w2…wn) GA Engine for Text Segmentation: cá thể quần thể biểu diễn chuỗi bit 0,1, đó, bit đại diện cho tiếng văn bản, nhóm bit loại đại diện cho segment Các cá thể khởi tạo ngẫu nhiên, đó, segment giới hạn khoảng GA engine sau thực bước đột biến lai ghép nhằm mục đích làm tăng giá trị fitness cá thể, để đạt cách tách từ tốt Text Categorization: tác giả dùng độ hỗ trợ (support degree) văn cần phân loại cho từ khoá để phân loại văn Ưu điểm: - Không cần sử dụng tập huấn luyện từ điển - Phương pháp tương đối đơn giản - Không tốn thời gian huấn luyện Hạn chế: - So với phương pháp trước, IGATEC có độ xác thấp LRMM WFST chấp nhận mục đích tách từ dành cho phân loại văn - Thời gian chạy ban đầu chậm phải lấy thông tin từ Internet mà đường truyền Việt Nam hạn chế - Chưa có thử nghiệm tập liệu đủ lớn 4.2.1.2 Phương pháp khớp tối đa (Maximum Matching) Phương pháp khớp tối đa (Maximum Matching) gọi Left Right Maximum Matching (LRMM) Theo phương pháp này, ta duyệt ngữ câu từ trái sang phải GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 chọn từ có nhiều âm tiết có mặt từ điển, thể tiếp tục cho từ hết câu Thuật toán trình bày [Chih-Hao Tsai, 2000] Dạng đơn giản dùng giải nhập nhằng từ đơn Giả sử có chuỗi ký tự (tương đương với chuỗi tiếng tiếng Việt) C 1, C2, , Cn Ta đầu chuỗi Đầu tiên kiểm tra xem C1, có phải từ hay không, sau kiểm tra xem C1C2 có phải từ hay không Tiếp tục tìm tìm từ dài Từ hợp lý từ dài Chọn từ đó, sau tìm tiếp cho từ lại xác định toàn chuỗi từ Dạng phức tạp: Quy tắc dạng phân đoạn hợp lý đoạn ba từ với chiều dài tối đa Thuật toán bắt đầu dạng đơn giản Nếu phát cách tách từ gây nhập nhằng (ví dụ, C1 từ C1C2 từ), ta xem chữ để tìm tất đoạn ba từ có bắt đầu với C1 C1C2 Ví dụ ta đoạn sau:  C1 C2 C3 C4  C1C2 C3 C4 C5  C1C2 C3 C4 C5 C6 Chuỗi dài chuỗi thứ ba Vậy từ chuỗi thứ ba (C 1C2) chọn Thực lại bước chuỗi từ hoàn chỉnh Ưu điểm: - Với cách này, ta dễ dàng tách xác ngữ/câu “ hợp tác xã || mua bán”, “thành lập || nước || Việt Nam || dân chủ || cộng hòa” - Cách tách từ đơn giản, nhanh, cần dựa vào từ điển - Trong tiếng Hoa, cách đạt độ xác 98,41% [Chih-Hao Tsai, 2000] Nhược điểm: - Độ xác phương pháp phụ thuộc hoàn toàn vào tính đủ tính xác từ điển - Phương pháp tách từ sai trường hợp “ học sinh || học sinh|| học”, “một || ông || quan tài || giỏi”, “trước || bàn || || ly || nước”… 4.2.1.3 Phương pháp học dựa cải biến Đây cách tiếp cận dựa ngữ liệu đánh dấu Theo cách tiếp cận này, để huấn luyện cho máy tính biết cách nhận diện ranh giới từ tiếng Việt, ta cho máy “học” ngữ liệu hàng vạn câu tiếng Việt đánh dấu ranh giới từ Sau học xong, máy xác định tham số (các xác suất) cần thiết cho mô hình nhận diện từ Ưu điểm: - Đặc điểm phương pháp khả tự rút quy luật ngôn ngữ GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 - Nó có ưu điểm cách tiếp cận dựa luật cuối dựa luật rút ra) khắc phục khuyết điểm việc xây dựng luật cách thủ công chuyên gia - Các luật thử nghiệm chỗ để đánh giá độ xác hiệu luật (dựa ngữ liệu huấn luyện) - Có khả khử số nhập nhằng “The singer sang a lot of a??as”, hệ xác định “a??as” “arias” (dân ca) thay “areas” (khu vực) mô hình ngôn ngữ theo kiểu thống kê Nhược điểm: - Phương pháp “dùng ngữ liệu có gán nhãn ngôn ngữ để học tự động qui luật đó” [Đinh Điền, 2004] Như nói chương 1, việc xây dựng tập ngữ liệu đạt đầy đủ tiêu chí tập ngữ liệu tiếng Việt điều khó, tốn nhiều mặt thời gian công sức - Hệ phải trải qua thời gian huấn luyện lâu để rút luật tương đối đầy đủ - Cài đặt phức tạp 4.2.1.4 Phương pháp quy hoạch động (dynamic programming) Phương pháp quy hoạch động [Le An Ha, 2003] sử dụng tập ngữ liệu thô để lấy thông tin tần số thống kê từ, làm tăng độ tin cậy cho việc tính toán Việc tính toán bắt đầu với đơn vị chắn câu, ngữ (chunk) phân cách dấu câu (như dấu phẩy, gạch nối, chấm phẩy…) thành phần tính nhập nhằng văn viết nói Sau đó, tác giả cố gắng tối đa hoá xác suất ngữ cách tìm nhiều cách tách ngữ Cách tách cuối cách tách cho ngữ có xác suất cao Ý tưởng cách tách từ cho ngữ cần tách từ, ta phải tìm tổ hợp từ tạo nên ngữ cho tổ hợp đạt xác suất tối đa Tuy nhiên phương pháp tính toán này, tác giả gặp phải vấn đề bùng nổ tổ hợp phân tích ngữ liệu thô Để giải vấn đề trên, tác giả sử dụng phương pháp quy hoạch động (dynamic programming) lúc đó, xác suất cực đại ngữ nhỏ phải tính toán lần sử dụng lại lần sau Ưu điểm: - Không cần sử dụng tập ngữ liệu đánh dấu xác Hạn chế: - Trong thí nghiệm, tác giả dừng lại việc tách từ có ba tiếng tập ngữ liệu đầu vào nhỏ GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 - Xác suất từ 51%, xác suất từ chấp nhận 65% [Le An Ha, 2003] Xác suất tương đối thấp so với phương pháp tách từ khác đề cập 4.2.1.5 Mô hình tách từ WFST mạng Neural Mô hình mạng chuyển dịch trạng thái hữu hạn có trọng số WFST (Weighted finit–state Transducer) [Richard et al, 1996] áp dụng để tách từ tiếng Trung Quốc Ý tưởng áp dụng WFST kết hợp với trọng số xác suất xuất từ ngữ liệu Dùng WFST để duyệt qua câu cần xét Cách duyệt có trọng số lớn cách tách từ chọn Giải pháp đượng áp dụng [Đinh Điền et al, 2001] kèm với mạng neutral để khử nhập nhằng Hệ thống tách từ tiếng Việt [Đinh Điền, 2001] gồm hai tầng: tầng WFST việc tách từ xử lý thêm vấn đề liên quan đến đặc thù tiếng Việt từ láy, tên riêng… tầng mạng neural dùng để khử nhập nhằng có Hình 4-8 Sơ đồ hệ thống WFST Tầng WFST :gồm có ba bước: Xây dựng từ điển trọng số: theo mô hình WFST, việc phân đoạn từ xem chuyển dịch trạng thái có xác suất (Stochastic Transduction) Chúng ta miêu tả từ điển D đồ thị biến đổi trạng thái hữu hạn có trọng số Giả sử:   H: tập từ tả tiếng Việt (còn gọi “tiếng”) P: từ loại từ (POS: Part – Of – Speech) GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 Mỗi cung D là: Từ phần tử H tới phần tử H, Từ ε (ký hiệu kết thúc từ) tới phần tử P Các nhãn D biểu thị chi phí ước lượng (estimated cost) công thức:   Cost = - log(f/N) Với: f: tần số từ N: kích thước tập mẫu Đối với trường hợp từ chưa gặp, tác giả áp dụng xác suất có điều kiện Goog-Turning (Baayen) để tính toán trọng số   Xây dựng khả phân đoạn từ: Để giảm bùng nổ tổ hợp sinh dãy từ từ dãy tiếng câu, tác giả đề xuất phương pháp kết hợp dùng từ điển để hạn chế sinh bùng nổ tổ hợp Khi phát thấy cách phân đoạn từ không phù hợp (không có từ điển, từ láy, danh từ riêng…) tác giả loại bỏ nhánh xuất phát từ cách phân đoạn từ Lựa chọn khả phân đoạn từ tối ưu: Sau danh sách cách phân đoạn từ có câu, tác giả chọn trường hợp phân đoạn từ có trọng số bé sau:  Ví dụ: input = “Tốc độ truyền thông tin tăng cao” o Dictionary “tốc độ” 8.68 “truyền” 12.31 “truyền thông” 1231 “thông tin” 7.24 “tin” 7.33 “sẽ” 6.09 “tăng” 7.43 “cao” 6.95 Id(D)*D* = “Tốc độ # truyền thông # tin # # tăng # cao.” 48.79 (8.68 +12.31 + 7.33 + 6.09 + 7.43 +6.95 = 48.79 ) Id(D)*D* = “Tốc độ # truyền # thông tin # # tăng # cao.” 48.70 (8.68 +12.31 + 7.24 + 6.09 + 7.43 +6.95 = 48.79 ) GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 Do đó, ta có phân đoạn tối ưu “Tốc độ # truyền # thông tin # # tăng # cao.” Tầng mạng neural : Mô hình mạng neural mà tác giả đề xuất dùng để lượng giá dãy từ loại: NNV,NVN, VNN (N: Noun, V: Verb) Mô hình học câu mà cách phân đoạn từ nhập nhằng sau qua mô hình thứ Ưu điểm: Độ xác 97% [Đinh Điền et al, 2001] Mô hình cho kết phân đoạn từ với độ tin cậy (xác suất) kèm theo Nhờ có tầng mạng neural nên mô hình khử nhập nhằng trường hợp tầng WFST cho nhiều ứng viên có kết ngang - Phương pháp cho kết với độ xác cao mục đích tác giả muốn nhắm đến việc tách từ thật xác để tảng cho việc dịch máy Hạn chế: - Cũng tương tự phương pháp TBL, việc xây dựng tập ngữ liệu công phu, thật cần thiết để phục vụ cho mục đích dịch máy sau 4.2.2 Tách từ khóa tiếng Việt Nhắc lại rằng, quảng cáo đăng ký hệ thống thể ngữ nghĩa dạng từ khóa tiếng Việt Nhiệm vụ hệ thống phải tìm trang web có nội dung phù hợp với từ khóa để đăng quảng cáo Có nhiều cách để tiếp cận vấn đề Có thể tiếp cận theo hướng phân loại văn cách phân loại nội dung văn trang web xét xem từ khóa nội dung có thuộc lĩnh vực hay không Cũng tiếp cận theo hướng tóm tắt tự động nội dung văn từ tiến hành so sánh tương đồng từ khóa với nội dung tóm tắt Tuy nhiên, cách không phù hợp với yêu cầu luận văn Hướng tiếp cận luận văn theo hướng khác Chúng ta xem từ khóa (keyword) đặc trưng văn Chúng ta tiến hành rút trích tự động từ khóa nội dung trang web Khi trang web đánh dấu ngắn gọn, hiểu tập từ khóa Sau tiến hành so khớp từ khóa với từ khóa quảng cáo để tìm quảng cáo thích hợp cho nội dung trang web Bàn thêm, phương pháp so khớp so khớp trực tiếp so khớp ngữ nghĩa So khớp trực tiếp đơn so sánh chuỗi (ví dụ: “cà phê” = “Cà phê”, “cà phê” “café”) Còn so khớp ngữ nghĩa không so sánh mặt ký tự mà so khớp mức độ tương đồng liên quan ngữ nghĩa hai từ khóa (ví dụ: cà phê = café, bóng đá = đá banh) So khớp mặt ngữ nghĩa ngôn ngữ tiếng Việt cần phải có từ điển đồng nghĩa tiếng Việt (Wordnet Tiếng Việt [14]) dựa vào độ đo mức độ liên quan từ Do thời gian luận văn có hạn với khó khăn tìm xây dựng từ điển Wordnet tiếng Việt nên thực so khớp trực tiếp đơn GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 Lĩnh vực nghiên cứu rút trích từ khóa tự động từ nội dung cho trước lĩnh vực quan trọng Information Retrieval (IR) Theo Witten [16], “từ khóa từ hay cụm từ cung cấp mô tả ngắn gọn nội dung tài liệu đó” Rút trích từ khóa chọn lựa tự động thuật ngữ tiêu biểu mô tả cách cô đọng ngắn gọn nội dung văn cần rút trích Từ khóa sử dụng cho nhiều mục đích khác Bằng cách trích xuất từ khóa thích hợp, dễ dàng chọn lựa tài liệu có nội dung nên đọc, nhiều năm gần số lượng tài liệu số hóa ngày nhiều Một người vào xem trang web hẳn thích biết nội dung cách nhanh cách xem từ khóa có sẵn để định có đọc tiếp toàn nội dung trang web hay không Khi từ khóa in trang báo tạp chí mục đích tóm tắt Khi chúng in phần mục sách, đóng vai trò mục, cho phép người đọc nhanh chóng tìm chương sách liên quan mà họ cần Ngoài từ khóa có vai trò quan trọng việc hỗ trợ người dùng tìm kiếm thông tin Nó cải thiện hiệu máy tìm kiếm Việc gán từ khóa tay cho tài liệu đơn giản, tốn nhiều thời gian, kinh phí, đặc biệt tài liệu nhiều Chính vậy, toán rút trích từ khóa nhiệm vụ quan trọng IR Một số phương pháp đề xuất cho việc rút trích từ khóa tự động tiếng Anh tiếng Hoa chủ yếu dựa vào hai hướng tiếp cận: thống kê máy học 4.2.2.1 Hướng tiếp cận dựa vào thống kê Hướng tiếp cận thường sử dụng thông tin thống kê tần số xuất để chọn lựa từ khóa quan trọng văn Ưu điểm hướng tiếp cận dựa thống kê áp dụng dễ dàng cho nhiều ngôn ngữ Thông tin thống kê thường bao gồm hai loại: Độ đo cục (local weight) độ đo toàn cục (global weight) Độ đo cục độ đo thống kê từ nội văn cần rút trích từ khóa Trong độ đo toàn cục độ đo thống kê từ tập hợp nhiều văn khác cho trước Một số độ đo thống kê cục thông dụng sử dụng để lựa chọn từ khóa quan trọng [17]: tần số xuất (TF), độ phân bố chi-bình-phương (χ2 ), độ lợi thông tin (IG), thông tin tương hỗ (MI), độ mạnh thuật ngữ (TS) Còn độ đo thống kê toàn cục kể đến độ đo IDF (Inverse Document Frequency), dùng để đo nghịch đảo phổ biến từ tập hợp văn cho trước Cần phải có tập liệu văn lớn cho trước để sử dụng độ đo toàn cục Hiện thuật toán rút trích từ khóa dựa kết hợp độ đo cục toàn cục TF.IDF (Term Frequency - Inverse Document Frequency) cho kết tốt Cách tiếp cận TF.IDF ước lượng độ quan trọng từ văn danh sách tập tài liệu văn cho trước Nguyên lý TF.IDF là: “độ quan trọng từ tăng lên với số lần xuất văn giảm xuống từ xuất GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 nhiều văn khác” Lý đơn giản từ xuất nhiều văn khác có nghĩa từ thông dụng khả từ khóa giảm xuống (ví dụ từ “vì thế”, “tuy nhiên”, “nhưng”, “và”…) Do độ đo quan trọng từ t tài liệu f tính bằng: tf * idf, với tf độ phổ biến từ t tài liệu f idf nghịch đảo độ phổ biến từ t tài liệu lại tập tài liệu Được tóm tắt công thức tổng quát sau: tf = (Số lần xuất từ t tài liệu f) / (Tổng số từ tài liệu f) idf = Log [ (tổng số tài liệu) / (số tài liệu có chứa từ t) ] Ví dụ có văn gồm 100 từ, từ “bác sĩ” xuất lần ta có độ phổ biến: tf(“bác sĩ”) = / 100 = 0.05 Bây giả sử có 1000 tài liệu, có 200 tài liệu chứa từ “bác sĩ” Lúc ta tính idf(“bác sĩ”) = ln(1000 / 200) = 1.61 Như ta tính độ đo TF.IDF = tf*idf = 0.05 * 1.61 = 0.0805 Độ đo từ cao khả từ khóa lớn Hướng tiếp cận độ đo TF.IDF thông dụng 4.2.2.2 Phương pháp dựa học máy Hướng sử dụng mô hình huấn luyện liệu để nhận biết từ khóa dựa vào đặc trưng từ vựng cú pháp Hướng tiếp cận có nhiều ứng dụng Taeho Jo [19] huấn luyện mạng Nơ-ron dựa đặc trưng tf.idf từ để xác định từ khóa, Witten [16] áp dụng thuật toán Naïve Bayes hệ thống KEA Hulth [18] sử dụng hệ thống học có giám sát RDS kết hợp thông tin gán nhãn từ loại Đề xuất hướng tiếp cận đồ án Luận văn theo hướng tiếp cận thống kê có bổ sung: kết hợp độ đo cục chibình-phương χ2 với độ đo toàn cục IDF Tiếp cận theo mô hình này, dựa vào thông tin thống kê nội văn (χ ) thông tin thống kê với tập liệu bên văn (IDF): Đầu tiên ta tiền xử lý văn để tách từ khóa tiếng Việt ứng viên, sau tính độ phân bố χ từ văn với độ đo phân bố IDF chúng tập văn tiếng Việt huấn luyện cho trước Từ tính độ đo quan trọng W từ khóa ứng viên “t” cách kết hợp hai độ đo lại: W(t) = χ2 (t).IDF(t) Cuối từ có độ đo quan trọng cao chọn từ khóa văn GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 Hình 5-1 Mô hình rút trích từ khóa Tiếng Việt 5.1 Tiền xử lý Ta xem nội dung văn gồm nhiều câu Các câu ngăn cách dấu kết thúc câu (là dấu “.”, “?” “!”) ký tự xuống hàng (“\n”) Chúng ta xem tiêu đề câu Mỗi câu bao gồm nhiều thuật ngữ Chú ý rằng, khái niệm “thuật ngữ” tiếng Việt có ý nghĩa từ cụm từ Kể từ đây, để ngắn gọn dễ hiểu, ta quy ước gọi thuật ngữ “từ” “từ khóa” Độ phổ biến từ w xem số lần xuất từ w toàn văn Ký hiệu freq(w) Ví dụ: từ “học sinh” có độ phổ biến 5, có nghĩa “học sinh” xuất tổng cộng lần toàn văn ký hiệu freq(“học sinh”) = Hai từ w1 w2 gọi đồng chúng xuất câu Chúng xuất với câu ta gọi chúng đồng với nhiêu lần Ký hiệu freq(w1, w2) Ví dụ: độ đồng hai từ “học sinh” “ca hát” 6, có nghĩa toàn văn có câu có chứa từ “học sinh” “ca hát” ký hiệu freq (“học sinh”, “ca hát”) = Chú ý lập trình sử dụng theo tần suất xuất hiện, nghĩa lấy số lần xuất từ chia cho tổng số lần xuất tất từ GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 5.2 Tách từ tiếng Việt Trước thực trích xuất từ khóa, ta tiến hành tách từ tiếng Việt trước Như đề cập, toán tách từ tiếng Việt toán khó Vì không tiếng Anh, ranh giới từ tiếng Việt đơn khoảng trắng mà đòi hỏi phải xử lý riêng trước Mà toán xử lý tách từ tiếng Việt lại không đơn giản chút Ví dụ câu: “Tổ quốc ta đẹp tranh vẽ” tách thành từ: Tổ quốc | ta | đẹp | | tranh vẽ Làm để tách thành từ vậy? Trong khuôn khổ luận văn không đề cập sâu đến vấn đề Ở đây, luận văn sử dụng lại công cụ tách từ tiếng Việt theo mô hình so khớp cực đại kết hợp với biểu thức quy [7] nhóm tác giả Lê Hồng Phương, Nguyễn Thị Minh Huyền, Azim Roussanaly, Hồ Tường Vinh Bộ công cụ cho kết tách từ tốt với độ xác cao, khoảng 96%-98% Sau tách văn thành danh sách từ, ta tiến hành loại bỏ hư từ (stopword), từ ý nghĩa đặc biệt (ví dụ: thì, là, nhỉ, vâng, nếu, như,…) Xem thêm danh sách hư từ phần Phụ lục Bảng 3-3 Danh sách từ tách với tỷ lệ số lần xuất chúng văn GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 Các từ lại thu từ khóa ứng viên cho hệ thống, tạm gọi tập T 5.3 Xác định từ khóa 5.3.1 Độ đo cục chi-bình-phương χ2 Độ đo χ2 độ đo thống kê từ nội văn bản, tính toán dựa độ phân bố đồng từ với tập từ phổ biến văn Đầu tiên thực rút trích từ phổ biến văn trước Sau đếm đồng từ văn với tập từ phổ biến Với nhận định rằng, mà từ có độ đồng cao với tập phổ biến từ có khả từ khóa quan trọng văn Dựa vào đó, tính độ phân bố chi-bìnhphương χ2 từ 5.3.2 Chọn gom nhóm từ khóa phổ biến Tiếp đến, ta tính độ phổ biến (số lần xuất hiện) từ khóa tập từ khóa ứng viên T Do ta quan tâm đến từ khóa xuất nhiều lần nên ta loại bỏ tập từ khóa ứng viên từ khóa xuất lần văn Ta loại bỏ từ bao gồm tiếng chúng có ý nghĩa Chọn tiếp top 30% từ khóa có độ phổ biến cao tập ứng viên, tạm gọi tập từ khóa phổ biến G Kế đến ta thực gom nhóm từ khóa tập G Điều nhằm để tăng hiệu suất thuật toán, cải thiện chất lượng từ khóa rút trích Có nhiều công trình nghiên cứu liên quan đến việc gom nhóm từ Nhưng có hai tiếp cận chính: • Gom nhóm dựa vào đặc điểm tương tự (Similarity-based clustering): Nếu từ w1 w2 có phân bố tương tự tần số đồng với từ khác xem từ w1 w2 thuộc nhóm Để đánh giá tương tự hai cách phân bố, sử dụng độ đo Jensen-Shannon: Với: Hai từ w1 w2 thuộc nhóm độ đo J(w 1, w2) lớn ngưỡng sau (các ngưỡng đưa trình thực nghiệm): GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 J(w1, w2) ≥ 0.95*log2 • Góm nhóm dựa vào ghép cặp hai thuật ngữ (Pairwise clustering): Nếu hai từ w1 w2 đồng cách thường xuyên với w w2 xem thuộc nhóm Để đánh giá liên quan này, sử dụng độ đo thông tin tương hỗ Mutual Information (MI): Với: + Ntotal = tổng số từ tập từ khóa ứng viên T + freq(w1, w2) số lần xuất w1 w2 + freq(w1), freq(w2) số lần xuất độc lập w1 w2 Hai từ w1 w2 thuộc nhóm có độ đo MI lớn ngưỡng: MI(w1, w2) ≥ log2 Chúng ta kết hợp hai độ đo để thực gom nhóm tập từ khóa phổ biến G Những từ tập G thõa mãn hai độ đo gom chung nhóm Những nhóm gom ta tạm gọi tập C Ghi chú: Từ sau, ta ngầm hiểu số lần xuất từ w với nhóm c (ký hiệu freq(w, c)) số lần xuất từ w với từ w’ thuộc nhóm c Tần suất xuất nhóm c tập C tính công thức: pc= nc/ Ntotal (0.3) Với nc tổng số từ câu có chứa từ nhóm c 5.3.3 Tính độ phân bố χ2 từ Sau gom nhóm tập từ khóa phổ biến G Với từ khóa w tập ứng viên T, ta tính giá trị thống kê chi-bình-phương χ2 theo công thức sau: GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 Với: + freq(w, c): số lần xuất từ w nhóm c + nw: tổng số từ có câu mà w xuất + pc: tần suất xuất nhóm c Độ đo χ2 xem độ quan trọng từ khóa văn Độ đo từ cao từ có khả từ khóa nhiều Bảng 5-1 Độ đo χ2 từ Độ đo χ2 cho thấy từ xuất nhiều từ từ quan trọng Minh họa bảng 3-4 GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 5.3.4 Độ đo toàn cục IDF Sau tính độ đo cục χ2, ta tính độ đo phổ biến toàn cục IDF từ tập văn có sẵn Như đề cập phần trước, độ đo sử dụng với ý tưởng từ mà xuất thường xuyên nhiều văn khác có nghĩa từ quan trọng phổ biến Nói tóm lại, phổ biến tài liệu khác độ quan trọng từ giảm Công thức tính IDF từ “t” tập văn D sau: Với: |D| số tài liệu tập tài liệu D |{d:t∈d}| số tài liệu D có chứa từ t Luận văn chọn tập văn D liệu gồm 1000 văn lấy từ trang web E-VĂN (http:// evan.vnexpress.net) Dữ liệu xử lý phân tích tách từ sẵn lưu trước vào tập tin để tăng tốc trình tính toán Kết hợp độ đo IDF để ước lượng lại độ quan trọng χ2 tính từ 5.3.5 Độ đo kết hợp Độ đo luận văn đề xuất để thử nghiệm cải tiến chất lượng từ khóa Chúng ta đo độ quan trọng từ cách kết hợp độ phân bố cục χ2 độ đo toàn cục IDF: Weight(t) = χ2(t) IDF(t) (0.6) Từ đây, ta chọn từ khóa có giá trị Weight cao làm từ khóa đại diện văn Trong khuôn khổ luận văn này, chọn 15 từ có giá trị χ2 cao làm từ khóa GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 Em xin chân thành cảm ơn cô Lê Thanh Hương thầy Ngô Văn Linh giúp đỡ em trình thực tập qua! GVHD: PGS.TS Lê Thanh Hương SVTH: Nguyễn Trọng Tú – HTTT – K53 [...]... chủ yếu dựa vào hai hướng tiếp cận: thống kê và máy học 4.2.2.1 Hướng tiếp cận dựa vào thống kê Hướng tiếp cận này thường sử dụng thông tin thống kê tần số xuất hiện để chọn lựa các từ khóa quan trọng trong văn bản Ưu điểm chính của các hướng tiếp cận dựa trên thống kê này là có thể áp dụng dễ dàng cho nhiều ngôn ngữ Thông tin thống kê này thường bao gồm hai loại: Độ đo cục bộ (local weight) và độ đo... một ngữ cần tách từ, ta phải tìm ra các tổ hợp từ tạo nên ngữ đó sao cho tổ hợp đó đạt được xác suất tối đa Tuy nhiên trong phương pháp tính toán này, tác giả gặp phải vấn đề bùng nổ tổ hợp và phân tích ngữ liệu thô Để giải quyết vấn đề trên, tác giả đã sử dụng phương pháp quy hoạch động (dynamic programming) vì lúc đó, xác suất cực đại của một ngữ nhỏ hơn chỉ phải tính toán một lần và sử dụng lại trong. .. khóa dựa vào các đặc trưng từ vựng và cú pháp Hướng tiếp cận này đã có nhiều ứng dụng Taeho Jo [19] huấn luyện mạng Nơ-ron dựa đặc trưng tf.idf của từ để xác định từ khóa, Witten [16] áp dụng thuật toán Naïve Bayes trong hệ thống KEA Hulth [18] sử dụng hệ thống học có giám sát RDS kết hợp thông tin gán nhãn từ loại 5 Đề xuất hướng tiếp cận của đồ án Luận văn sẽ đi theo hướng tiếp cận thống kê có bổ sung:... dựa vào thông tin thống kê trong nội bộ văn bản (χ ) và thông tin thống kê với tập dữ liệu bên ngoài văn bản (IDF): Đầu tiên ta sẽ tiền xử lý văn bản để tách ra được các từ khóa tiếng Việt ứng viên, sau đó tính độ phân bố χ 2 của từng từ này trong văn bản cùng với độ đo phân bố IDF của chúng trong tập văn bản tiếng Việt huấn luyện cho trước Từ đó tính ra được độ đo quan trọng W của mỗi từ khóa ứng. .. 0.95*log2 • Góm nhóm dựa vào sự ghép cặp của hai thuật ngữ (Pairwise clustering): Nếu hai từ w1 và w2 đồng hiện một cách thường xuyên với nhau thì w 1 và w2 xem như cùng thuộc một nhóm Để đánh giá sự liên quan này, chúng ta sử dụng độ đo thông tin tương hỗ Mutual Information (MI): Với: + Ntotal = tổng số từ trong tập từ khóa ứng viên T + freq(w1, w2) là số lần xuất hiện cùng nhau của w1 và w2 + freq(w1),... w1 và w2 được gọi là đồng hiện nếu chúng xuất hiện cùng nhau trong một câu Chúng cùng xuất hiện với nhau trong bao nhiêu câu thì ta gọi chúng đồng hiện với nhau bấy nhiêu lần Ký hiệu là freq(w1, w2) Ví dụ: độ đồng hiện của hai từ “học sinh” và “ca hát” là 6, thì có nghĩa là trong toàn văn bản đó có 6 câu có cùng chứa từ “học sinh” và “ca hát” và ký hiệu là freq (“học sinh”, “ca hát”) = 6 Chú ý là trong. .. của một từ trong nội bộ văn bản cần rút trích từ khóa Trong khi đó độ đo toàn cục là độ đo thống kê của từ đó trong một tập hợp nhiều văn bản khác nhau cho trước Một số độ đo thống kê cục bộ thông dụng có thể được sử dụng để lựa chọn các từ khóa quan trọng như [17]: tần số xuất hiện (TF), độ phân bố chi-bình-phương (χ2 ), độ lợi thông tin (IG), thông tin tương hỗ (MI), hoặc độ mạnh của thuật ngữ (TS)... tập ngữ liệu đạt được đầy đủ các tiêu chí của tập ngữ liệu trong tiếng Việt là một điều rất khó, tốn kém nhiều về mặt thời gian và công sức - Hệ phải trải qua một thời gian huấn luyện khá lâu để có thể rút ra các luật tương đối đầy đủ - Cài đặt phức tạp 4.2.1.4 Phương pháp quy hoạch động (dynamic programming) Phương pháp quy hoạch động [Le An Ha, 2003] chỉ sử dụng tập ngữ liệu thô để lấy thông tin. .. phần: Hình 4-7 Toàn cảnh hệ thống IGATEC Online Extractor : Phần này có tác dụng lấy thông tin về tần số xuất hiện của các từ trong văn bản bằng cách sử dụng một search engine nổi tiếng như Google Sau đó, tác giả sử dụng các công thức sau đây để tính toán mức độ phụ thuộc lẫn nhau (mutual information) để là cơ sở tính fitness cho GA engine Tính xác suất các từ xuất hiện trên Internet Trong đó, MAX = 4... ngữ Chú ý rằng, khái niệm “thuật ngữ trong tiếng Việt ở đây có ý nghĩa là từ hoặc cụm từ Kể từ đây, để ngắn gọn và dễ hiểu, ta quy ước gọi thuật ngữ là “từ” hoặc “từ khóa” Độ phổ biến của một từ w được xem như là số lần xuất hiện của từ w đó trên toàn bộ văn bản Ký hiệu là freq(w) Ví dụ: từ “học sinh” có độ phổ biến là 5, thì có nghĩa là “học sinh” xuất hiện tổng cộng 5 lần trong toàn văn bản đó và ... 2015 thị trường quảng cáo trực tuyến Việt Nam phát triển ổn định Hình thức quảng cáo trực tuyến phổ biến trang báo điện tử Viêt Nam thường dành phần lớn diện tích để thị quảng cáo Điểm mạnh mô hình... chuyển tải quảng cáo Hình thức xu hướng mới, cải thiện hạn chế quảng cáo trực tuyến nước ta Đối tượng ứng dụng Nhận thấy tính thực tiễn toán, em định lựa chọn đề tài đồ án: “Quảng cáo trực tuyến... chúng có ý nghĩa Chọn tiếp top 30% từ khóa có độ phổ biến cao tập ứng viên, tạm gọi tập từ khóa phổ biến G Kế đến ta thực gom nhóm từ khóa tập G Điều nhằm để tăng hiệu suất thuật toán, cải thiện chất

Ngày đăng: 30/12/2015, 20:37

Mục lục

  • 1. Bài toán:

  • 2. Đối tượng ứng dụng

  • 3. Nguồn dữ liệu khai thác

  • 4. Các hướng nghiên cứu liên quan tới bài toán

    • 4.1 Bóc tách nội dung trang Web

      • 4.1.1. Tổng quan xử lý trích xuất nội dung trang web

      • 4.1.2. Các phương pháp xử lý

        • 4.1.2.1. Tiếp cận theo hướng loại bỏ các tag HTML

        • 4.1.2.2. Tiếp cận theo hướng rút trích các Text node

        • 4.1.2.3. Tiếp cận theo hướng so sánh khung mẫu

        • 4.1.2.4. Tiếp cận theo hướng phân tích mã HTML và xử lý ngôn ngữ tự nhiên.

        • 4.1.2.5. Tiếp cận theo hướng phân đoạn trang web – VIPS.

        • 4.2. Xử lý tách từ khóa tiếng Việt

          • 4.2.1. Tách từ tiếng Việt

            • 4.2.1.1. Phương pháp tách từ tiếng việt dựa trên thống kê Internet

            • 4.2.1.2. Phương pháp khớp tối đa (Maximum Matching)

            • 4.2.1.3. Phương pháp học dựa trên sự cải biến

            • 4.2.1.4. Phương pháp quy hoạch động (dynamic programming)

            • 4.2.1.5. Mô hình tách từ bằng WFST và mạng Neural

            • 4.2.2. Tách từ khóa tiếng Việt

              • 4.2.2.1. Hướng tiếp cận dựa vào thống kê

              • 4.2.2.2. Phương pháp dựa trên học máy

              • 5. Đề xuất hướng tiếp cận của đồ án

                • 5.1. Tiền xử lý

                • 5.2. Tách từ tiếng Việt

                • 5.3. Xác định từ khóa

                  • 5.3.1. Độ đo cục bộ chi-bình-phương χ2

                  • 5.3.2. Chọn và gom nhóm các từ khóa phổ biến

Tài liệu cùng người dùng

Tài liệu liên quan