tiếp cận đô thị biểu diễn, khai thác văn bản và ứng dụng bản tóm tắt

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN  NGUYỄN HOÀNG TÚ ANH TIẾP CẬN ĐỒ THỊ BIỂU DIỄN, KHAI THÁC VĂN BẢN VÀ ỨNG DỤNG Chun ngành: Đảm bảo tốn học cho máy tính hệ thống tính tốn Mã số chun ngành: 1.01.10 TĨM TẮT LUẬN ÁN TIẾN SĨ TỐN HỌC Tp Hồ Chí Minh, năm 2011 Cơng trình hồn thành tại: Khoa Công Nghệ Thông Tin, Trường Đại Học Khoa Học Tự Nhiên Người hướng dẫn khoa học: GS.TSKH Hoàng Văn Kiếm Phản biện 1: GS.TS Nguyễn Thanh Thủy Phản biện 2: PGS.TS Đinh Điền Phản biện 3: TS Nguyễn Đức Cường Phản biện độc lập 1: PGS.TSKH Nguyễn Xuân Huy Phản biện độc lập 2: TS Quản Thành Thơ Phản biện độc lập 3: PGS.TS Nguyễn Kim Anh Luận án bảo vệ trước Hội đồng chấm luận án họp Trường Đại Học Khoa Học Tự Nhiên vào hồi ……… giờ………ngày………tháng………năm 2011 Có thể tìm hiểu luận án thư viện: - Thư viện Khoa học Tổng hợp Tp.HCM - Thư viện Trường Đại học Khoa học Tự Nhiên Mở đầu Dẫn nhập Trong năm gần đây, lĩnh vực Khám phá tri thức sở liệu (Knowledge Discovery in Databases – KDD) hay gọi Khai thác liệu (Data mining) 1.1 đời phát triển nhanh chóng Theo đánh giá cơng ty Oracle [28], có đến 80% liệu giới liệu văn bản, khai thác liệu văn vấn đề quan trọng, đầy thử thách cần đầu tư nghiên cứu Đặc điểm liệu văn thường khơng có cấu trúc bán cấu trúc, sở liệu lớn, đa chiều hay bị nhiễu Ngoài liệu văn phải đối mặt với vấn đề nhập nhằng nhiều cấp độ (cấp độ từ, ngữ, câu), nhiều khía cạnh (hình thái, ngữ pháp, ngữ nghĩa) Luận án nghiên cứu khai thác liệu văn bản, hay gọi khai thác văn Khai thác văn “sự tìm kiếm thơng tin mới, chưa biết cách dùng máy tính rút trích tự động tri thức từ nhiều nguồn văn khác nhau”[18] Các tốn khai thác văn phân loại, gom cụm văn bản, rút trích thơng tin tóm tắt tài liệu Mặc dù có nhiều tiến nghiên cứu khai thác văn khoảng cách xa nhu cầu ứng dụng kết đạt Luận án tập trung nghiên cứu, phát triển kỹ thuật khai thác liệu có, kỹ thuật phân tích liệu văn nhằm tích hợp chúng tăng cường hiệu giải toán khai thác liệu văn Mục tiêu đóng góp luận án Mơ hình khơng gian vectơ [29] phương pháp biểu diễn văn phổ biến Mơ hình không gian vectơ biểu diễn văn vectơ đặc trưng thuật ngữ (từ) xuất toàn tập văn Tuy nhiên, phương pháp không lưu trữ thông tin cấu trúc quan trọng trật tự xuất từ, vùng lân cận, vị trí xuất từ văn Những năm gần đây, mơ hình biểu diễn văn đồ thị (trong luận án gọi tắt mơ hình đồ thị) đề xuất sử dụng riêng lẻ toán khác khai thác văn cho kết tốt tận dụng thông tin quan trọng cấu trúc mà biểu diễn vectơ bỏ qua Bên cạnh đó, viết ký tự La tinh mở rộng, tiếng Việt có đặc tính chung với ngôn ngữ châu Á đơn lập khác (tiếng Hoa, Lào, Thái) khó xác định ranh giới từ có điểm khác biệt ngữ âm, ngữ pháp so với tiếng Anh Việc xác định ranh giới từ tiếng Việt tốn khó [12] Do đó, khó áp dụng kỹ thuật hướng tiếp cận nghiên cứu thử nghiệm thành công tiếng Anh cho tiếng Việt không xây dựng thành công giải pháp cho việc tách từ văn tiếng Việt sử dụng mơ hình biểu diễn hạn chế ảnh hưởng toán tách từ 1.2 Phần lớn nghiên cứu khai thác văn tiếng Việt [1], [2], [3], [4], [5], [6], [11], [12], [19], [27] sử dụng mơ hình khơng gian vectơ biểu diễn văn địi hỏi cơng cụ tách từ tốt Ngồi ra, mơ hình khơng gian vectơ khơng quan tâm đến trật tự từ câu tiếng Việt, trật từ từ quan trọng Mục tiêu luận án nghiên cứu, hệ thống hóa phân tích khả ứng dụng mơ hình đồ thị vào biểu diễn khai thác văn Luận án nghiên cứu, phát triển kỹ thuật khai thác liệu có để áp dụng hiệu đồ thị biểu diễn văn Luận án nghiên cứu, phát triển qui trình khai thác văn sử dụng tiếp cận đồ thị nhằm giải số tốn: phân loại, gom cụm tập văn có biến động tóm tắt văn 1.3 Các đóng góp luận án Hệ thống hóa, phân tích khả ứng dụng loại mơ hình đồ thị lựa chọn mơ hình biểu diễn đồ thị phù hợp cho nhiệm vụ khai thác văn Cải tiến thuật toán gSpan khai thác đồ thị phổ biến cho tập đồ thị có hướng Cải tiến kỹ thuật trộn cụm thuật toán gom cụm động Incremental DBSCAN Đề xuất qui trình phân loại văn dựa biểu diễn đồ thị kỹ thuật khai thác đồ thị phổ biến cải tiến Đề xuất qui trình gom cụm tập văn có biến động sử dụng đồ thị biểu diễn văn kết hợp kỹ thuật chọn lựa động đặc trưng thuật toán Incremental DBSCAN cải tiến Đề xuất mơ hình tóm tắt văn tiếng Việt dựa biểu diễn đồ thị kết hợp kỹ thuật xếp hạng đỉnh Tiến hành thử nghiệm khai thác văn tiếng Việt dựa tiếp cận đồ thị theo mơ hình đề xuất Mơ hình biểu diễn văn đồ thị Giới thiệu Mơ hình đồ thị biểu diễn văn bản, cụ thể mơ hình đồ thị khái niệm, John F Sowa trình bày vào năm 1976 [33] Hiện nay, mơ hình đồ thị không ngừng phát triển ứng dụng vào dãy rộng toán liên quan đến xử lý văn trở nên phong phú Luận án trình bày đặc tính khái qt mơ hình đồ thị biểu diễn văn Mỗi đồ thị văn biểu diễn cho tập văn Đỉnh đồ thị câu, 2.1 từ, kết hợp thành phần khác văn (ví dụ câu từ) Cạnh nối đỉnh vơ hướng có hướng, thể mối quan hệ đồ thị Nhãn đỉnh thường tần suất xuất đỉnh Còn nhãn cạnh tên mối liên kết khái niệm hai đỉnh, hay tần suất xuất chung hai đỉnh phạm vi đó, hay tên vùng mà đỉnh xuất Do thông tin cấu trúc quan trọng văn thể trật tự xuất từ, vùng lân cận từ, vị trí xuất từ văn nên mơ hình đồ thị sử dụng đỉnh từ nghiên cứu sâu có nhiều biến thể Mơ hình đồ thị đơn giản Phân loại mơ hình đồ thị [CT4] Luận án hệ thống mơ hình đồ thị phân loại dựa loại đỉnh mà đồ thị sử dụng thành nhóm: nhóm mơ hình sử dụng đỉnh từ, nhóm sử dụng đỉnh câu, nhóm sử 2.2 dụng đỉnh thành phần khác văn Bảng 2.1 so sánh đặc trưng lĩnh vực ứng dụng mơ hình đồ thị  Nhóm mơ hình đồ thị sử dụng đỉnh từ văn (gồm đồ thị ký hiệu từ số → 10 Bảng 2.1)  Mơ hình đồ thị sử dụng mạng ngữ nghĩa (mơ hình số 1, 2, 3) Ưu điểm nhóm mơ hình mơ hình hoá văn cách trực quan, logic, thể quan hệ ngữ nghĩa khái niệm cho kết truy vấn thơng tin xác  Mơ hình đồ thị khơng sử dụng mạng ngữ nghĩa (mơ hình số → 10) Nhóm mơ hình khai thác thông tin cấu trúc văn (thứ tự xuất hiện, vị trí, vùng lận cận từ văn bản) nhanh chóng, đơn giản không phụ thuộc vào mạng ngữ nghĩa nên dễ dàng cài đặt ứng dụng phân lớp, gom cụm  Nhóm mơ hình đồ thị sử dụng đỉnh câu (mơ hình số 11 Bảng 2.1) Thế mạnh mơ hình khả lưu trữ mối liên kết câu, thứ tự xuất câu hỗ trợ tốt cho q trình trích chọn câu quan trọng văn tạo tóm tắt tiếp cận khơng giám sát  Mơ hình đồ thị sử dụng đỉnh thành phần khác văn (mơ hình lưỡng phần Bảng 2.1) Mơ hình tận dụng mối liên quan từ với câu, đồng từ câu nhằm tăng hiệu toán rút trích thơng tin văn Mơ hình lưỡng phần với đỉnh câu từ thay đổi đỉnh đoạn văn hay văn tập văn nhóm từ thay cho từ Trong mơ hình đồ thị lưỡng phần, trật tự xuất thành phần văn không quan tâm Bảng 2.1 So sánh mơ hình biểu diễn văn đồ thị [CT4] Mơ Tên riêng hình mơ hình Đỉnh Cạnh Ý Số loại Nhãn nghĩa đỉnh Đồ thị khái Từ niệm _ CGs 2 Đồ thị CGs cải Từ tiến vô hướng Đồ thị khái Từ niệm cải tiến Từ / Đồ thị hình cấu trúc Đồ thị tần số Từ vô hướng Ý nghĩa Hướng Nhãn Lĩnh vực ứng dụng Truy vấn thơng tin, thiết kế CSDL Tìm kiếm thông tin Web Gom cụm văn Không Liên kết khái niệm Có Khơng Khơng Liên kết khái niệm Khơng Khơng Khơng Liên kết khái niệm Có Có (cấu trúc ngữ pháp) Liên kết từ đỉnh cấu trúc trung tâm Khơng Có (vị trí từ cấu trúc văn bản) Phân loại email Khơng Có (tần suất xuất chung) Tìm kiếm thơng tin Web 1 Có (tần suất xuất hiện) Có (tần suất xuất hiện) Liên kết từ xuất chung cấu trúc Mơ Tên riêng hình mơ hình Đồ thị giản đơn Đỉnh Cạnh Ý Số loại Nhãn nghĩa đỉnh Từ Có (tên từ) Đồ thị khoảng cách n đơn giản Từ Không Đồ thị khoảng cách n Từ Không Đồ thị dạng Từ chuẩn Có (tên từ) 10 Đồ thị tần số 11 Đồ thị đỉnh Câu câu 12 Đồ thị lưỡng Câu, từ phần Từ Có (tần suất xuất ) Có (trọng số đỉnh) Khơng Ý nghĩa Lĩnh vực ứng dụng Hướng Nhãn Có Khơng Phân lớp, gom cụm Có Khơng Phân lớp văn Có Có (số từ a b + 1) Phân lớp văn Có Có (vị trí từ cấu trúc văn bản) Phân lớp, gom cụm văn Từ a xuất trước từ b Có Có (tần suất từ xuất liên tiếp) Phân lớp văn Liên kết hai câu có từ chung Có/ Khơng Từ xuất câu Khơng Từ a xuất trước từ b Giữa từ a trước từ b có n từ Giữa từ a trước từ b có n từ Từ a xuất trước từ b Có (Độ tương Tóm tắt văn tự câu) Có (tần suất xuất từ câu) Rút trích thơng tin, gom cụm Phân loại văn dựa tiếp cận đồ thị Phân loại văn trình gán văn vào nhiều chủ đề xác định trước Rất nhiều phương pháp phân loại Naïve Bayes, định, k-láng giềng gần (kNN), mạng nơron, máy vectơ hỗ trợ (SVM) áp dụng vào tốn loại văn [32] Trong số hai phương pháp SVM k-NN cho kết tốt phân loại văn tiếng Anh [37] Các phương pháp sử dụng mơ hình không gian vectơ [29] biểu diễn văn Luận án đề xuất qui trình phân loại văn dựa biểu diễn đồ thị kỹ thuật khai thác đồ thị Các văn biểu diễn dạng đồ thị đơn giản Kỹ thuật khai thác đồ thị phổ biến gSpan cải tiến khai thác đồ thị có hướng biểu diễn văn thuộc lớp đề nhằm phát mẫu đại diện Sau đó, xây dựng vectơ lớp dựa tập mẫu phổ biến hay tập đồ thị phổ biến Văn biểu diễn đồ thị chuyển thành vectơ nhị phân với chiều vectơ đồ thị phổ biến chủ đề Độ đo tương tự Dice xác định khoảng cách gần văn vectơ chủ đề Qui trình phân loại áp dụng cho số ngơn ngữ 3.1 Qui trình phân loại văn dựa kỹ thuật khai thác đồ thị Hình 3.1 sơ đồ giai đoạn huấn luyện hệ thống Hình 3.2 giai đoạn phân loại văn nói chung email nói riêng Tập văn huấn luyện Tiền xử lý văn Mơ hình hóa văn thành đồ thị Rút trích đặc trưng đồ thị từ lớp Tập vectơ đại diện lớp R1=(1,0,1,…1) R2=(1,1,0,…0) … Rm=(0,0,1,…1) Xây dựng tập vectơ đại diện lớp Tổng hợp tập đặc trưng - đồ thị phổ biến Văn Lớp văn Hình 3.1 Sơ đồ giai đoạn huấn luyện Mơ hình hóa văn thành đồ thị Bộ phân loại Tập vectơ đại diện lớp R1=(1,0,1,…1) R2=(1,1,0,…0) … Rm=(0,0,1,…1) Hình 3.2 Sơ đồ giai đoạn phân loại 3.1.1 Tiền xử lý văn Trước loại bỏ hư từ, ta cần thực tách câu Sau đó, hệ thống tính tần suất xuất “thuật ngữ” tập văn („thuật ngữ” từ, tiếng, hay cụm từ tùy theo kiểu đồ thị biểu diễn văn bản) Để giảm kích thước đồ thị thời gian tính tốn đồ thị phổ biến, f% số “thuật ngữ” có tần suất xuất cao giữ lại Luận án thống kê tần suất xuất tính trọng số “thuật ngữ” theo phương pháp TF×IDF [29] 3.1.2 Mơ hình hóa văn thành đồ thị Các kết nghiên cứu [31] cho thấy mơ hình đồ thị đơn giản mơ hình đồ thị dạng chuẩn hai loại mơ hình cho độ xác phân lớp tốt liệu văn web Sự khác biệt hai mơ hình mơ hình dạng chuẩn đưa thêm giá trị nhãn cạnh vị trí từ văn (như “nhan đề”, “liên kết”, “nội dung”, ) vào đồ thị so với đồ thị đơn giản Khi áp dụng cho văn nói chung khơng phải lúc ta xác định nhãn “nhan đề”, “liên kết”, hay “nội dung” văn web nên luận án sử dụng mơ hình đồ thị đơn giản để biểu diễn văn Trong mơ hình này, văn đồ thị Đỉnh biểu diễn “thuật ngữ” văn Các đỉnh gán nhãn tên “thuật ngữ” Sau bước tiền xử lý văn bản, thuật ngữ a đứng trước thuật ngữ b tồn cạnh có hướng nối từ đỉnh a đến đỉnh b (không kể trường hợp phân cách dấu câu) 3.1.3 Rút trích đặc trưng đồ thị Mục đích q trình xác định đặc trưng (đồ thị con) liên quan đến việc phân loại để giảm độ phức tạp tính tốn nội dung tốn khai thác đồ thị phổ biến - toán quan trọng lĩnh vực khai thác đồ thị Đồ thị phổ biến đồ thị có tần suất xuất tập đồ thị nhiều ngưỡng cho trước Chỉ có đồ thị xuất minSup% đồ thị dùng để xác định đặc trưng Trong phương pháp tìm đồ thị phổ biến tập liệu đồ thị, gSpan thuật toán nhanh, cho kết ổn định [35] Bên cạnh đó, phần lớn thuật tốn tìm đồ thị phổ biến khác khó cải tiến cho tập đồ thị có hướng gSpan cải tiến để áp dụng cho tập đồ thị có hướng Chính luận án lựa chọn gSpan thực số cải tiến để áp dụng gSpan lên tập đồ thị có hướng Thuật tốn gSpan (graph-based Substructure pattern) [36] thuật toán khai thác đồ thị phổ biến theo chiều sâu Thuật toán ánh xạ mẫu vào nhãn tắc gán đồ thị mã DFS (Depth-first search) tối tiểu Mã DFS thứ tự duyệt cạnh đồ thị theo chiều sâu chuỗi cạnh DFS Dựa nhãn này, quan hệ thứ tự đầy đủ mẫu tạo lập Thứ tự từ điển dùng việc thiết lập tìm kiếm phân cấp (gọi DFS) Trong trình duyệt theo chiều sâu, thuật toán gSpan mở rộng ứng viên đỉnh hay nhánh nằm bên phải DFS Cải tiến gSpan cho đồ thị có hướng Do đồ thị biểu diễn văn đồ thị có hướng, luận án thực số cải tiến để áp dụng gSpan lên tập đồ thị có hướng Đầu tiên, luận án thêm giá trị hướng vào mã DFS Nhờ vào thứ tự đỉnh biểu diễn mã DFS mà ta mã hóa thêm hướng cạnh cách xác, khơng bị nhập nhằng Bên cạnh đó, đồ thị biểu diễn văn khơng có nhãn cạnh nên mã DFS biểu diễn cạnh DFS dạng: (i, j, li, lj, d(i,j)) với li, lj nhãn đỉnh vi vj tương ứng, d(i,j) xác định hướng cạnh hai v0 A v4 v1 B v2 đỉnh Luận án gán d(i,j) = cạnh có hướng từ vi sang vj d(i,j) =  ngược lại Chẳng hạn ta có đồ thị s có hướng Hình 3.4, mã DFS cho đồ thị mô tả bên cạnh Mã DFS: (0, 1, A, B, ) (1, 2, B, D, ) (2, 3, D, E, ) (2, 4, D, C, ) C D v3 E Hình 3.4 Ví dụ mã DFS cho đồ thị có hướng s Khi thêm giá trị hướng vào mã DFS, thứ tự từ điển  L nhãn đỉnh, luận án bổ sung thứ tự từ điển  D cho mã DFS để xác định thứ tự mã DFS từ tìm mã DFS tối tiểu Luận án định nghĩa thứ tự từ điển  D hướng cạnh d(i j) sau: d(i j) =  có thứ tự tự điển nhỏ d(i j) =  Dưới định nghĩa thứ tự từ điển mã DFS Định nghĩa 3.1 Thứ tự từ điển mã DFS Nếu α = (a0, a1, …, am) β = (b0, b1, …, bn) hai mã DFS Giả sử tập cạnh tiến tập cạnh lùi α β tương ứng Eα,f, Eα,b, Eβ,f Eβ,b Đặt at  (i , j , li , l j , d (i , j ) ) bt  (i , j , li , l j , d (i , j ) ) cạnh DFS thứ t mã DFS α β tương ứng Khi         điều kiện sau xác (i)  t,  t  min(m, n), cho ak = bk với k < t at  e bt (at  e bt điều kiện xảy ra: 1) at  E ,b bt  E , f 2) at  E ,b , bt  E ,b j  j 3) at  E ,b , bt  E ,b , j  j d (i , j )  D d (i , j ) 4) at  E , f , bt  E , f i  i 5) at  E , f , bt  E , f , i  i li  li    6) at  E , f , bt  E , f , i  i , li  li l j  L l j 7) at  E , f , bt  E , f , i  i , li  li , l j  l j d (i , j )  D d (i , j ) ) (ii) ak  bk với  t  m n ≥ m Với định nghĩa thứ tự từ điển này, luận án điều chỉnh xác bước kiểm tra mã DFS tối tiểu Một điều cần lưu ý tạo đồ thị s việc phát triển thêm đỉnh hay nhánh bên phải từ s (s mã DFS đỉnh DFS) Việc thêm giá trị hướng cạnh tạo nên hai cạnh hai đỉnh: cạnh cho hướng Như vậy, luận án cần kiểm tra cạnh hai đỉnh thay kiểm tra cạnh trước tìm đồ thị phù hợp Các phần cịn lại thuật tốn gSpan ngun thủy khơng thay đổi cải tiến cho tập đồ thị có hướng Do gSpan sử dụng phương pháp tìm kiếm theo chiều sâu không sử dụng danh sách lưu trữ đồ thị phổ biến nên không cần dùng nhiều nhớ Độ phức tạp thời gian gSpan cải tiến O(FS + rF) với F số đồ thị phổ biến, S kích thước tập liệu r số mã trùng lắp tối đa đồ thị phổ biến phát triển từ mã tối tiểu Với tiếp cận biểu diễn văn thành đồ thị mà đỉnh gán nhãn cạnh có hướng độ phức tạp toán xác đỉnh đẳng cấu đồ thị giảm xuống O(n2) (n số cạnh đồ thị) Từ tập đồ thị phổ biến thu từ tất lớp, xây dựng tập đặc trưng – tập đồ thị phổ biến Đây đầu vào cho bước xây dựng vectơ đại diện lớp 3.1.4 Xây dựng vectơ đại diện lớp Với mục tiêu thực giai đoạn phân loại thuận tiện, vectơ nhị phân đại diện cho lớp xây dựng Mỗi lớp cho trước biểu diễn thành vectơ đặc trưng có số chiều kích thước tập đồ thị phổ biến Đặc trưng nhận giá trị đồ thị phổ biến tương ứng xuất tập đồ thị phổ biến lớp ngược lại nhận giá trị Để tiện cho việc trình bày cơng thức, luận án sử dụng ký hiệu sau Tập văn huấn luyện ký hiệu D = {d1, d2, …, dn} có gán nhãn lớp tập lớp C = { C1, C2, …, Cm} Tập đồ thị G = {G1, G2, …, Gn} tương ứng với văn thuộc tập D sau bước mơ hình hố văn Tập đồ thị phổ biến (đặc trưng) ký hiệu F = {f1, f2, …, fk} Vectơ đại diện cho lớp Ci; ≤ i ≤ m ký hiệu Ri = (Ri1, Ri2, …, Rik) Khi đó, vectơ Ri đại diện cho lớp Ci; ≤ i ≤ m có k chiều (ứng với số đặc trưng tập F) tính với giá trị Rij =1 đặc trưng fj  F đồ thị phổ biến tìm từ tập đồ thị biểu diễn văn thuộc lớp Ci ngược lại 3.1.5 Bộ phân loại Lớp văn X xác định sau Đầu tiên, luận án sử dụng tập “thuật ngữ” lựa chọn trình huấn luyện để xây dựng đồ thị g biểu diễn cho X Sau xây dựng vectơ nhị phân v0 có số chiều tương ứng với k đặc trưng tập F Giá trị thành phần vectơ v0 thể tồn hay không đặc trưng fi  F đồ thị g Tiếp theo, luận án tính tốn tương tự vectơ v0 với tất m vectơ đại diện cho lớp Luận án sử dụng độ đo Dice – độ đo sử dụng phổ biến, hiệu việc xác định độ tương tự vectơ nhị phân Độ đo Manhattan cài đặt để so sánh kết phân loại với độ đo Dice Cuối cùng, dựa độ tương tự Dice ta gán văn vào lớp cho giá trị Dice lớn Cịn sử dụng độ đo Manhattan lớp có giá trị Manhattan nhỏ chọn làm lớp cho văn 3.2 Kết thử nghiệm 3.2.1 Thử nghiệm tập liệu email tiếng Anh Tập liệu Enron gồm 619.446 email 158 người trung bình người dùng có khoảng 0.5 MB liệu email Luận án thực bước làm sạch, tiền xử lý tổ chức lại liệu trước đưa vào trình huấn luyện Khi thử nghiệm, luận án dùng phương pháp đánh giá chéo để xác định độ xác phân loại trung bình Đánh giá độ xác phân loại theo thư mục Luận án thống kê thư mục có kích thước Với loại thư mục, độ xác phân loại tổng số email phân loại chia cho tổng số email phân loại Luận án chia thư mục Enron thành loại với kích thước: nhỏ 35 email, từ 36 đến 75 email, từ 76 đến 165 email, từ 166 đến 255 email, từ 255 đến 475 email 476 email Trong Bảng 3.2 mô tả hệ thống phân loại email cài đặt thử nghiệm Hệ thống eClass  cải tiến eMailSift [8] với việc xây dựng vectơ đại diện thư mục (tương tự qui trình mơ tả mục 3.1.4) thực phân loại email với độ đo tương tự Dice Hệ thống eTCG ký hiệu cho hệ thống triển khai qui trình phân loại dựa kỹ thuật khai thác đồ thị mà luận án đề xuất mục 3.1 Bảng 3.2 Mô tả hệ thống thử nghiệm Hệ thống Mơ hình biểu diễn văn eMailSift Mơ hình đồ thị hình eClass Mơ hình đồ thị hình eTCG Mơ hình đồ thị đơn giản Mơ tả phương pháp Dùng Subdue tìm đồ thị đại diện, phân loại cách so khớp với đồ thị đại diện có thứ hạng cao Dùng Subdue tìm đồ thị phổ biến, xây dựng vectơ nhị phân đại diện thư mục, phân loại độ đo tương tự Dice gSpan cải tiến khai thác đồ thị có hướng, độ đo tương tự Dice, đỉnh đồ thị tạo từ đơn vị “từ” Biểu đồ hình 3.7 cho thấy kết phân loại theo thư mục eClass nhỉnh phương pháp so khớp theo thứ hạng eMailSift Đó thay xác định trùng khớp với đồ thị đại diện có thứ hạng cao (trong eMailSift) eClass tính độ phủ thư mục theo độ đo Dice so với email nên khắc phục nhược điểm khó xác định xác thư mục đích email trùng khớp với nhiều đồ thị đại diện thư mục Như với việc cải tiến eMailsft độ đo tương tự Dice (trong eClass), chất lượng phân loại tăng lên Trong Hình 3.8 biểu đồ so sánh kết phân loại theo thư mục eClass eTCG Hệ thống eTCG cho kết phân loại tốt eClass phần lớn loại kích thước thư mục, Tiếp theo, độ tương tự văn tính dựa cụm từ chung vectơ văn tinh chỉnh Cuối cùng, hệ thống gom cụm văn tạo cụm gồm văn liên quan đến chủ đề Luận án sử dụng thuật toán Incremental DBSCAN cải tiến để gom cụm động văn dựa độ tương tự cặp văn 4.1.1 Rút trích đặc trưng đồ thị Luận án sử dụng mơ hình đồ thị đơn giản biểu diễn văn toán phân loại văn dựa kết nghiên cứu [30], [31] Khi xử lý việc văn cập nhật động, luận án sử dụng thuật toán xây dựng đồ thị DIG [17] để đánh mục văn giữ nguyên cấu trúc văn gốc Đồ thị biểu diễn văn xây dựng động, xử lý văn thời điểm Khi xác định tương tự văn bản, cần rút trích đặc trưng từ đồ thị biểu diễn văn Thuật tốn DIG xác định động đồ thị đại diện hay cụm từ chung từ văn trước xây dựng đồ thị Các cụm từ chung đặc trưng quan trọng rút trích từ đồ thị biểu diễn văn tính tốn độ tương tự văn 4.1.2 Xác định độ tương tự văn Dựa khảo sát việc sử dụng kết hợp cụm từ từ đơn tăng kết gom cụm, luận án sử dụng độ đo lai kết hợp hai độ đo tương tự: độ tương tự dựa cụm từ chung (simsp) độ đo cosine vectơ văn (simdf) để gom cụm văn Định nghĩa 4.1: Độ đo lai xác định tương tự cặp văn Cho hai văn d1 d2, độ đo lai định nghĩa sau [CT5]: sim (d1 , d )    simdf (d1 , d )  (1   )  simsp (d1 , d ) (4.1) Với   [0, 1] – hệ số pha trộn độ tương tự1, simdf(d1, d2): độ tương tự dựa từ riêng biệt văn d1 d2, simsp(d1, d2): độ tương tự dựa cụm từ chung văn d1 d2 Định nghĩa 4.2: Độ đo tương tự dựa cụm từ chung hai văn Độ đo tương tự simsp(d1, d2) dựa cụm từ chung hai văn d1 d2 tính sau [CT5]:  P i 1 sim sp (d , d )  ( li ) ( f 1i  f 2i ) avg( s i )  j (4.2) s1 j  k s k Trong đó, P: số cụm từ chung hai văn bản, f1i, f2i: tần suất xuất cụm từ chung thứ i văn d1 d2, li: chiều dài cụm từ chung i, |sij|: chiều dài câu thứ j văn di, avg (si): chiều dài trung bình câu chứa cụm từ chung i Độ tương tự dựa từ riêng biệt độ tương tự hai vectơ đặc trưng hai văn Độ đo Cosine dùng để tính tốn độ tương tự vectơ đặc trưng λ=0.2 qua thực nghiệm cho kết gom nhóm tốt 12 Do phương pháp trọng số TF×IDF khơng phù hợp với thuật tốn gom cụm động (theo [34]) luận án sử dụng hàm TF×IG (Term Frequency – Information Gain) nhằm xác định chất lượng từ không văn mà tất cụm dùng trình lựa chọn đặc trưng động Trọng số vectơ văn tính sau [CT5]: wij  IG( j )  tf ij MinIG (4.3) Với wij trọng số từ tj văn di, tfij: tần suất xuất từ tj văn di, MinIG: độ lợi thơng tin từ có giá trị nhỏ IG(j): độ lợi thông tin từ tj tồn tập văn Độ lợi thơng tin từ t tập văn tính theo công thức [38]: IG(t )  i 1 p(ci ) log p(ci )  p(t )i 1 p(ci | t ) log p(c i | t ) m m  p(t )i 1 p(ci | t ) log p(c i | t ) m (4.4) Trong đó, p(ci): xác suất văn thuộc nhóm ci, p(t): xác suất văn chứa từ t, p(ci | t) xác suất văn thuộc nhóm ci điều kiện có chứa t, p(t ) : xác suất văn không chứa từ t, p(ci | t ) : xác suất văn thuộc nhóm ci điều kiện khơng chứa từ t 4.1.3 Kỹ thuật chọn lựa động đặc trưng Các phương pháp chọn lựa đặc trưng áp dụng thành công cho toán phân loại văn nhiều năm qua [38] Tuy nhiên chúng dùng tốn gom cụm thiếu thơng tin nhãn lớp Bên cạnh đó, phần lớn phương pháp chọn lựa đặc trưng áp dụng cho tập liệu tĩnh, khơng có biến động việc rút trích đặc trưng thực lần trước bắt tay vào gom cụm Từ ý tưởng Liu [21] mối tương hỗ đặc trưng gom cụm văn bản, luận án đề xuất kỹ thuật chọn lựa động đặc trưng có giám sát dựa độ lợi thơng tin Trong đó, độ lợi thơng tin dùng để tính tốn liên quan từ có văn gom cụm có thay đổi cấu trúc cụm Sự thay đổi cụm hình thành cụm hồn tồn gộp chung hai cụm thành Đây trường hợp có khả làm thay đổi độ lợi thông tin từ tập liệu Quá trình lựa chọn động đặc trưng thể Hình 4.4 X tập đặc trưng văn gom cụm Khi có văn d xuất hiện, thực hiện: Gom cụm động cho d dựa X //sử dụng thuật toán gom cụm động if có thay đổi cụm Tính lại trọng số cho tất từ theo công thức IG (4.4) Giữ lại N từ có trọng số cao làm tập đặc trưng mới, tập đặc trưng Y X=Y Hình 4.4 Quá trình chọn lựa động đặc trưng [CT7] 13 4.1.4 Thuật toán gom cụm động Incremental DBSCAN cải tiến Thuật toán Incremental DBSCAN [15], thuật toán xử lý đối tượng liệu tuần tự, gán động đối tượng liệu vào cụm tương ứng xử lý Thuật tốn chịu ảnh hưởng đối tượng nhiễu (hay cá biệt), nhiễu đặc điểm phổ biến văn Ngoài ra, chất lượng gom cụm không phụ thuộc vào thứ tự thêm vào đối tượng Tuy nhiên, thuật tốn có khuynh hướng gộp cụm kết nối với thành cụm lớn Luận án cải tiến kỹ thuật trộn cụm thuật toán Incremental DBSCAN cách kiểm tra mật độ cụm trước gộp lại Định nghĩa 4.3: Tập đối tượng bị ảnh hưởng chèn thêm đối tượng Gọi D tập đối tượng p đối tượng chèn thêm Tập đối tượng bị ảnh hưởng chèn p vào (ký hiệu UpdSeedIns) định nghĩa sau [15]: UpdSeedIns = {q | q đối tượng nòng cốt D∪{p}, ∃q’: q’ đối tượng nòng cốt D∪{p} D q ∈NEps(q’)} Cải tiến Incremental DBSCAN: Thuật tốn Incremental DBSCAN có khuynh hướng gộp cụm kết nối với thành cụm lớn Theo kỹ thuật trộn cụm thuật toán, thêm đối tượng p, tập UpdSeedins chứa phần tử nòng cốt thành viên nhiều cụm trước chèn trộn cụm phần tử p thành cụm Điều tạo cụm khơng xác Do văn có tính nhập nhằng khía cạnh ngữ nghĩa, nên số văn có nội dung giao thoa chủ đề Với nguyên tắc bắc cầu kỹ thuật trộn cụm, văn có nội dung giao thoa trở thành đối tượng nòng cốt tiến tới trộn cụm văn có chủ đề khác thành cụm Luận án cải tiến kỹ thuật trộn cụm thuật toán cách kiểm tra mật độ cụm trước gộp Khi đó, kỹ thuật trộn cụm thuật toán Incremental DBSCAN cải tiến phát biểu sau: “Nếu tập UpdSeedins chứa đối tượng nòng cốt thành viên nhiều cụm khác trộn p cụm có số đối tượng nịng cốt đóng góp vào tập UpdSeedins lớn ngưỡng M cho trước Nếu khơng có cụm p đối tượng lạc lồi.” Trong hình 4.6 mã giả cho trường hợp trộn nhóm Incremental DBSCAN cải tiến Độ phức tạp thời gian Incremental DBSCAN cải tiến không khác biệt so với Incremental DBSCAN nguyên thủy O(mrlog(n+m)) với m số đối tượng chèn vào sở liệu, r số vùng đối tượng bị ảnh hưởng trung bình, n số đối tượng sở liệu trước chèn thêm đối tượng Gọi Clusters tập cụm có đối tượng nòng cốt thuộc tập UpdSeedins Gọi DocumentInClusters tập số đối tượng nịng cốt cụm đóng góp vào UpdSeedins for cụm Ci  Clusters 14 if DocumentInClusters[Ci] < M Loại đối tượng nòng cốt Ci khỏi UpdSeedins end if end for if UpdSeedin s  > Trộn đối tượng p cụm có đối tượng nòng cốt thuộc UpdSeedins thành cụm else p phần tử lạc loài end if Hình 4.6 Mã giả cho kỹ thuật trộn cụm Incremental DBSCAN cải tiến 4.2 Kết thử nghiệm Tập liệu thử nghiệm (gọi TC2) gồm 6700 văn với 10 chủ đề: âm nhạc, chứng khốn, điện ảnh, quần vợt, vi tính, thời trang, du lịch, ẩm thực, hình du học Từ tập liệu thử nghiệm này, liệu khác xây dựng với số lớp từ đến 10 để quan sát chất lượng gom cụm Nhằm mục đích kiểm tra tác động q trình cập nhật liệu động, liệu có kích thước tăng dần thứ tự gom cụm ngẫu nhiên Luận án tiến hành so sánh mơ hình đồ thị sử dụng độ đo tương tự lai dựa cụm từ chung vectơ văn (ký hiệu ICG) với mơ hình vectơ sử dụng độ đo cosine, trọng số TF×IDF (ký hiệu VSM-TF×IDF) biểu diễn vectơ sử dụng độ đo cosine trọng số TF×IG luận án đề xuất (ký hiệu VSM-TF×IG) ICG là hệ thống xây dựng dựa qui trình gom cụm văn động mà luận án đề xuất Cả ba hệ thống dùng thuật toán Incremental DBSCAN kỹ thuật lựa chọn đặc trưng động Bảng 4.3, bảng 4.4 trình bày kết tốt hệ thống theo độ đo F Entropy Sự cải thiện chất lượng gom cụm TCG rõ rệt, so với hệ thống VSM-TF×IDF, theo độ đo F tăng gần 20% giảm đến 9% theo độ đo Entropy Cịn so với hệ thống VSM-TF×IG, cải thiện TCG theo độ đo F 15% độ đo Entropy giảm khoảng 7% Theo phương pháp kiểm định giả thiết thống kê kết luận: mức ý nghĩa 1%, chất lượng gom cụm ICG tốt hệ thống lại Bảng 4.3 So sánh chất lượng gom cụm theo độ đo F [CT5] Mã DL DS31 DS32 DS51 DS71 DS91 DS10 VSM TF×IDF 0.976 0.847 0.815 0.791 0.775 0.761 Khoảng tin cậy 95% [0.9688,0.9852] [0.8342,0.8598] [0.8031,0.8269] [0.7801,0.8019] [0.7647,0.7853] [0.7508,0.7712] VSMTF×IG 0.986 0.858 0.834 0.812 0.809 0.802 Khoảng tin cậy 95% [0.9789,0.9931] [0.8456,0.8704] [0.8226,0.8454] [0.8225,0.8015] [0.8187,0.7993] [0.7925,0.8115] ICG 0.997 0.995 0.969 0.966 0.957 0.950 Khoảng tin cậy 95% [0.9937, 1.0] [0.9925,0.9975] [0.9637, 0.9743] [0.9611,0.9709] [0.9620,0.9520] [0.9448,0.9552] Kết bảng 4.3, 4.4 cho thấy sử dụng mơ hình khơng gian vectơ, phương pháp trọng số TF×IG cải thiện chất lượng gom cụm so với TF×IDF: theo độ đo F tăng 4% giảm theo độ đo Entropy khoảng 1% Điều khẳng định nhận xét [34] việc trọng số 15 TF×IDF khơng phù hợp cho tốn gom cụm văn động Bên cạnh đó, qui trình gom cụm động dựa biểu diễn đồ thị đề xuất cho kết gom cụm tốt tập liệu thử nghiệm Kỹ thuật lựa chọn đặc trưng động làm giảm đáng kể số lượng đặc trưng cần sử dụng (tăng tốc độ xử lý) mà cịn làm tăng độ xác gom cụm Bảng 4.4 So sánh chất lượng gom cụm theo độ đo Entropy [CT5] Mã DL DS31 DS32 DS51 DS71 DS91 DS10 VSM TF×IDF 0.089 0.058 0.396 0.485 0.491 0.502 Khoảng tin cậy 95% [0.0671,0.1109] [0.0474,0.0686] [0.3738,0.4182] [0.4565,0.5135] [0.4627,0.5193] [0.4735,0.5305] VSMTF×IG 0.088 0.052 0.336 0.454 0.461 0.475 Khoảng tin cậy 95% [0.0662,0.1098] [0.0419,0.0621] [0.3151,0.3569] [0.4262,0.4818] [0.4334,0.4886] [0.4472,0.5028] ICG 0.035 0.047 0.141 0.214 0.225 0.237 Khoảng tin cậy 95% [0.0210,0.0490] [0.0374,0.0566] [0.1256,0.1555] [0.1940,0.2340] [0.2049,0.2451] [0.2165,0.2575] Thời gian gom cụm ICG gần tương đương với VSM-TF×IDF VSM-TF×IG ICG tốn nhiều chi phí cho việc xây dựng đồ thị xác định đặc trưng từ đồ thị VSMTF×IDF VSM-TF×IG lại tốn chi phí cho việc cập nhật trọng số cho không gian vectơ tập liệu thay đổi Trong Hình 4.9 đồ thị so sánh ICG-noFS kết gom cụm theo độ đo F hệ thống ICG có sử dụng kỹ thuật chọn lên, kỹ thuật chọn lựa động đặc trưng giúp tăng chất lượng gom cụm: liệu DS10 theo độ đo F tăng 16% 0.8 F-Measure lựa đặc trưng hệ thống không sử dụng kỹ thuật chọn lựa đặc trưng mà sử dụng toàn tập đặc trưng (ký hiệu ICG-noFS) Rõ ràng kích thước tập liệu tăng ICG 0.6 0.4 0.2 DS31 DS32 DS51 DS71 DS91 DS10 Tập liệu Hình 4.9 So sánh kết gom cụm sử dụng không sử dụng kỹ thuật chọn lựa động đặc trưng Luận án cài đặt thuật toán SHC [16] – thuật toán gom cụm văn động dựa độ đo kết dính cụm biểu đồ tương tự so sánh với hệ thống ICG Thuật toán SHC các tác giả [17] đánh giá tốt thuật toán gom cụm động khác gom cụm động phân cấp HAC, Single-Pass, gom cụm k-NN Luận án sử dụng chung mơ hình đồ thị độ đo lai văn cho thuật toán SHC hệ thống ICG (dùng Incremental DBSCAN) Bảng 4.5 Sự cải thiện chất lượng gom cụm ICG [CT2] SHC ICG Tập DL Độ đo F Entropy Độ đo F Entropy DS31 0.956 0.019 0.997 0.035 DS32 0.958 0.021 0.995 0.047 DS51 0.899 0.122 0.969 0.141 DS71 0.856 0.196 0.966 0.214 DS91 0.821 0.202 0.957 0.225 DS10 0.802 0.209 0.950 0.237 16 Bảng 4.6 So sánh số lượng cụm thu ICG SHC [CT2] Bảng 4.4 so sánh độ đo F độ đo Entropy hệ Phương pháp Mã tập DL gom cụm DS31 DS32 DS51 DS71 DS91 DS10 thống ICG SHC tập SHC 12 45 85 92 116 liệu Chất lượng gom cụm theo độ đo F tăng trung bình 9% ICG 3 10 12 Mặc dù độ đo Entropy SHC giảm trung bình 1%, thuật tốn có xu hướng phân rã tập liệu thành cụm nhỏ tạo số cụm cao số chủ đề thực tế Vì có chênh lệch lớn số lớp thực số cụm SHC tạo Bảng 4.5 Trong số lượng cụm ICG tạo nằm giới hạn kiểm sốt Hình 4.10 so sánh kết gom cụm thuật toán Incremental DBSCAN nguyên thủy với Incremental DBSCAN cải tiến trình trộn cụm Nguyên thủy Cải tiến 1.2 Độ đo F Đây kết chạy với tham số Eps = 0.09 Minpts = Kết thực nghiệm cho thấy thuật toán Incremental DBSCAN cải tiến hoạt động tốt so với thuật toán nguyên thuỷ mơ hình biểu diễn đồ thị, đặc biệt số lượng văn số lượng chủ đề tăng lên: 0.8 0.6 0.4 0.2 DS31 DS32 DS51 DS71 DS91 DS10 liệu DS10 theo độ đo F tăng 45% Entropy giảm gần Hình 4.10 Đánh giá thuật tốn Incremental DBSCAN cải tiến theo độ đo F [CT7] 38% Do văn có đặc điểm mang tính nhập nhằng nội dung nên Incremental DBSCAN cải tiến giải tốt cho trường hợp trộn cụm phù hợp cho việc gom cụm động văn Để nghiên cứu ảnh hưởng việc cập nhật động kết gom cụm, luận án chèn thêm 2500 văn vào đồ thị tập liệu DS10 quan sát thay đổi chất lượng gom cụm Quá trình chèn thêm văn vào tập liệu DS10 thực lần với thứ tự chèn văn khác Bảng 4.6 cho thấy thay đổi chất lượng gom cụm (lấy trung bình qua lần thực nghiệm) với 500 văn thêm vào Bảng 4.7 Kết cập nhật liệu động [CT2] So với kết gom cụm hữu, từ bảng 4.6 thấy độ đo F giảm từ 0.950 xuống 0.901 Chất lượng gom cụm giảm khoảng 5% theo độ đo F, Số văn 7200 0.935 [0.9318, 0.9382] 8200 0.922 [0.9254, 0.9186] 8700 0.910 [0.9065, 0.9135] 9200 17 0.943 Khoảng tin cậy 95% [0.9399, 0.9461] 7700 chèn thêm số lượng văn gần 40% số văn có Độ đo F 0.901 [0.8975, 0.9045] 5.Tóm tắt văn dựa biểu diễn đồ thị Mục đích tóm tắt văn xác định, rút trích thơng tin quan trọng từ văn hiển thị dạng cô đọng, đáp ứng yêu cầu người dùng ứng dụng [22] Tóm tắt văn dạng trích lược tạo tóm tắt gồm câu trích ngun văn từ văn gốc Luận án tập trung vào việc nghiên cứu, ứng dụng tiếp cận đồ thị vào hệ thống trích lược văn tiếng Việt Theo hiểu biết tác giả chưa có hệ thống tóm tắt văn tiếng Việt phát triển theo hướng Luận án kết hợp mơ hình đồ thị vơ hướng có gán nhãn với đỉnh câu kỹ thuật xếp hạng đỉnh nhằm xác định câu quan trọng văn Hướng tiếp cận khơng địi hỏi phải có sẵn tóm tắt chuẩn người thực để học hay huấn luyện phụ thuộc vào liệu thử nghiệm lĩnh vực Tiếp cận giải vấn đề trùng lắp thơng tin tóm tắt có khả thực tóm tắt văn đơn tập văn 5.1 Mơ hình tóm tắt văn tiếng Việt dựa biểu diễn đồ thị kỹ thuật xếp hạng Hình 5.1 sơ đồ mơ hình tóm tắt văn dùng cho văn (gọi văn đơn) lẫn tập văn Độ quan trọng câu xác định Văn Văn Văn n thuật toán xếp hạng đỉnh đồ thị Sau xếp câu theo Bộ tóm tắt độ quan trọng, để hạn chế trùng lắp thông tin, phiên độ đo MMR[10] dùng để lọc lại câu có độ quan trọng cao đưa vào tóm tắt Khi tóm tắt tập văn bản, tóm tắt văn tổng hợp lại thành văn Qui trình tóm tắt lõi tóm tắt áp dụng tiếp lên văn tạo tóm tắt hồn chỉnh cho tập văn Tiền xử lý Xây dựng đồ thị Xếp hạng câu Phát sinh tóm tắt Tóm tắt Tóm tắt Tóm tắt n Tổng hợp Văn tổng hợp Bộ tóm tắt Tóm tắt hồn chỉnh Hình 5.1 Mơ hình tóm tắt văn tiếng Việt [CT1] Trước chuyển đổi văn thành đồ thị, ta cần thực bước tiền xử lý Trong mơ hình tóm tắt văn dựa đồ thị tách câu đóng vai trị yếu câu yếu tố cấu thành đồ thị Việc tách câu thực phương pháp thống kê sử dụng Maximum Entropy Luận án áp dụng luật loại bỏ câu có độ dài thấp ngưỡng cho trước nhằm giảm không gian lưu trữ tăng tốc độ xử lý 18 5.1.1 Mơ hình hóa văn thành đồ thị Luận án sử dụng mơ hình đồ thị có gán nhãn biểu diễn văn Văn mơ hình hóa thành đồ thị với đỉnh biểu diễn câu văn Cạnh nối hai đỉnh thể mối quan hệ câu Khi độ tương tự câu lớn ngưỡng α cho trước hai đỉnh thiết lập cạnh nối Độ tương tự giá trị nhãn (hay trọng số) cạnh nối hai đỉnh Luận án sử dụng phương pháp xác định trùng lắp câu nhằm xác định độ tương tự theo độ đo Word-overlap [25] tiếp cận đơn giản hiệu (qua thử nghiệm với độ đo tương tự khác) có độ phức tạp tính tốn thấp Bên cạnh đó, luận án sử dụng thêm heuristic câu nhan đề Cụ thể bổ sung thêm thông tin cho từ nằm câu nhan đề tham số ưu tiên Khi cơng thức tính độ tương tự câu trọng số cho cạnh đồ thị hai đỉnh tương ứng với hai câu Si Sj văn sau Định nghĩa 5.1: Độ đo tương tự hai câu Cho hai câu Si Sj, độ đo tương tự hai câu định nghĩa sau [CT8]: a wij  Sim ( S i , S j )  k Wk Si  S j (5.1) log ( S i )  log ( S j ) Với Wk từ chung hai câu Si, Sj  , if Wk Title ak    1, if Wk  Title (5.2) 5.1.2 Xếp hạng câu Nếu muốn tạo tóm tắt dạng trích lược, ta cần chọn câu quan trọng, mang thông tin văn Độ quan trọng câu xác định thông qua trọng số đỉnh tương ứng đồ thị thuật toán xếp hạng đỉnh đồ thị Luận án sử dụng thuật toán tương tự PageRank kết hợp trọng số cạnh nhằm xếp hạng câu văn hay đỉnh đồ thị Cơng thức tính độ quan trọng đỉnh hay xếp hạng câu văn sau [CT8]: PR W (Vi )  PR W (V j ) (1  d )  d  w ji N V j In (Vi )  wki (5.3) Vk Out (Vi ) Trong đó: PRW trọng số đỉnh, In(Vi) tập cạnh nối vào đỉnh thứ i, Out(Vi) tập cạnh nối từ đỉnh thứ i, wji trọng số cạnh nối từ đỉnh j đến i N tổng số đỉnh đồ thị Hằng số d gán giá trị 0.85 Trong Hình 5.4 thuật tốn xếp hạng câu hay tính độ quan trọng đỉnh đồ thị mà luận án đề xuất Kết trình độ quan trọng tất câu với giá trị PRW tương ứng Tất câu xếp theo thứ tự giảm dần độ quan trọng Độ phức tạp tính tốn thuật tốn xếp hạng câu O(N3) với N số câu văn (trong trường hợp xấu 19 đỉnh có liên kết với nhau) Tuy nhiên, thực tế cạnh nối đỉnh độ tương tự hai câu tương ứng với đỉnh đạt ngưỡng cho trước nên độ phức tạp tính tốn thuật tốn xếp hạng câu thấp nhiều Ví dụ với 10 000 câu, thời gian xử lý thuật toán xếp hạng câu 90.88 giây máy tính Intel P8400, RAM 2GB Thuật tốn tính độ quan trọng đỉnh Khởi tạo giá trị PRW = ban đầu cho đỉnh for đỉnh Vi Tìm tập In Out tương ứng đỉnh Vi while độ chênh lệch PRW(Vi) ≥ 0.0001 // độ chênh lệch hai vòng lặp liên tiếp Tính giá trị độ quan trọng PRW(Vi) // công thức (5.3) end while end for Sắp xếp giá trị PRW theo thứ tự Hình 5.4 Thuật tốn xếp hạng câu 5.1.3 Tạo tóm tắt Sau bước xếp hạng câu, câu Si có độ quan trọng PRW(Si) tương ứng Dựa cơng thức MMR[10], luận án sử dụng phiên MMR để tái xếp hạng chọn lựa câu đưa vào tóm tắt Phiên cơng thức MMR (5.4) giúp xác định câu có độ quan trọng cao thơng tin trùng lắp MMR  argmax .PRW ( Si )  (1   ) max sim( Si , S j )   S j S Si R \ S   (5.4) Với R tập tất câu văn bản, S tập câu tóm tắt, PRW(Si) độ quan trọng câu Si, λ  [0, 1] hệ số pha trộn độ quan trọng câu mối quan hệ câu với câu chọn trước Giá trị λ tốt theo thực nghiệm 0.6 Kết thử nghiệm Luận án xây dựng liệu thử nghiệm gồm báo lấy từ tờ báo điện tử lớn từ tạp chí Bưu viễn thơng, tạp chí Phát triển Khoa học & Công nghệ - ĐHQG Tp.HCM Bộ liệu thử nghiệm T1 (200 tập tin) dành cho việc đánh giá kết tóm tắt văn đơn Bộ liệu T2 (207 tập tin) bao gồm tập tin tức liên quan đến chủ đề dành cho việc đánh giá chất lượng tóm tắt tập văn Với văn bản, tập văn bản, chuyên gia tạo tóm tắt gồm câu quan trọng tóm tắt chuẩn dùng để đánh giá Luận án đánh giá tóm tắt dạng trích lược hệ thống với tóm tắt chuẩn theo phương pháp ROUGE[20] - phương pháp đánh giá dựa số lượng n-gram trùng 5.2 20 5.2.1 Kết tóm tắt văn đơn Luận án chọn phương pháp sở phương pháp dựa vào câu tiêu đề (heading) [13] Trong phương pháp sở, tóm tắt dạng trích lược xây dựng từ câu đầu đoạn Ngồi ra, chương trình Auto Summarize MSWord dùng để tạo trích lược thứ ba Trong Bảng 5.4 thống kê kết đánh giá chất lượng tóm tắt văn phương pháp sở, kết chương trình Auto Summarise mơ hình đề xuất luận án (ký hiệu TSGVi) theo chủ đề Bảng 5.4 Kết đánh giá tóm tắt văn đơn [CT8] Độ rút gọn = 20% Chủ đề Khoa học PP sở Sức khỏe Thể thao Khoa học Auto Summarise Sức khỏe MSWord Thể thao Khoa học TSGVi Sức khỏe Thể thao ROUGE -1 ROUGE-2 0.6012 0.6529 0.5906 0.6449 0.6115 0.5989 0.6663 0.6812 0.6481 0.3194 0.3767 0.2384 0.3548 0.3778 0.3125 0.3905 0.3754 0.3637 Luận án thử nghiệm trình tóm tắt văn dùng độ rút gọn = 20% với ngưỡng tạo cạnh hai đỉnh α = 0.05 tham số ưu tiên cho từ thuộc tiêu đề β= 1.5 Trên liệu thử nghiệm này, mơ hình TSGVi cho kết tốt phương pháp sở AutoSummarise MsWord 5.2.2 Kết tóm tắt tập văn Luận án so sánh mơ hình TSGVi đề xuất với hai hệ thống tóm tắt: TextRank [26], LexRank [14] phương pháp sở LEAD (phương pháp lấy câu từ văn thứ đến văn cuối đưa vào tóm tắt) Với tập văn bản, hệ thống tạo tóm tắt gồm 100 từ (giống tóm tắt chuẩn chuyên gia tạo ra) Bảng 5.5 cho biết giá trị độ đo ROUGE toàn tập văn T2 theo hệ thống cho thấy TSGVi có kết đánh giá tốt TextRank, LexRank LEAD tập liệu Bảng 5.5 So sánh hệ thống tóm tắt tập T2 [CT1] STT Hệ thống LEAD LexRank TextRank TSGVi ROUGE-1 0.5917 0.5816 0.6348 0.6438 Khoảng tin cậy 95% [0.5541,0.6393] [0.5487,0.6293] [0.5888,0.6804] [0.5976,0.6908] Trong Bảng 5.6 thống kê kết tóm tắt cho chủ đề theo độ đo ROUGE Phương pháp đề xuất TSGVi vượt trội hệ thống khác hầu hết chủ đề ngoại trừ tập văn liên quan đến chủ đề xã hội thời tiết Đó tác giả tin tức thường tóm tắt tin đầu ROUGE-2 0.2036 0.2084 0.2869 0.3096 Khoảng tin cậy 95% [0.1728,0.2356] [0.1758,0.2397] [0.2433,0.3316] [0.2575,0.3592] Bảng 5.6 So sánh kết tóm tắt theo độ đo ROUGE chủ đề [CT1] STT Chủ đề Kinh tế Xã hội 21 Hệ thống ROUGE-1 ROUGE-2 LEAD LexRank TextRank TSGVi LEAD LexRank TexRank TSGVi 0.54 0.535 0.561 0.601 0.61 0.596 0.691 0.655 0.149 0.167 0.195 0.234 0.231 0.221 0.321 0.303 bài, lúc điều xác Vì phương pháp TextRank sử dụng đồ thị hướng lùi phuơng pháp sở LEAD cho cho kết tốt Tuy nhiên, TSGVi cho kết đánh giá tốt toàn tập liệu Thời gian tóm tắt tập văn trung bình TSGVi 0.107 giây (trên máy Intel P8400, RAM 2GB) LEAD Chính trị LexRank TextRank TSGVi LEAD LexRank Sức khỏe TextRank TSGVi LEAD Thời tiết LexRank TextRank TSGVi LEAD LexRank Thể thao TextRank TSGVi 0.629 0.627 0.659 0.75 0.62 0.631 0.679 0.705 0.685 0.63 0.631 0.593 0.629 0.635 0.698 0.786 0.206 0.276 0.348 0.545 0.219 0.233 0.224 0.272 0.322 0.254 0.292 0.297 0.285 0.348 0.399 0.57 Kết luận Các kết đạt Mơ hình khơng gian vectơ phương pháp biểu diễn văn phổ biến, mơ hình tập trung vào tần suất xuất từ không nắm bắt thông tin cấu trúc văn Tiếp cận đồ thị hạn chế nhược điểm biểu diễn vectơ truyền thống, lưu trữ thông tin cấu trúc văn thứ tự xuất hiện, vị trí, vùng lân cận đồng từ Luận án thu số kết có ý nghĩa khoa học sau đây:  Luận án phân tích lựa chọn mơ hình đồ thị biểu diễn văn phù hợp cho nhiệm vụ khai thác liệu văn bản: phân lớp, gom cụm động tóm tắt văn o Luận án đề xuất qui trình phân loại văn sử dụng mơ hình đồ thị đơn giản để biểu diễn văn kết hợp kỹ thuật khai thác đồ thị Kỹ thuật khai thác đồ thị phổ biến dùng để rút trích đặc trưng đồ thị nhằm tăng tốc độ xử lý Sau đặc trưng tham gia vào bước xây dựng tập vectơ đại diện lớp phân loại o Với mục tiêu đáp ứng tính cập nhật liên tục liệu văn bản, luận án đề xuất qui trình gom cụm văn động dựa biểu diễn đồ thị thuật toán Incremental DBSCAN cải tiến Qui trình gom cụm đề xuất dễ dàng cập nhật thơng tin cụm có thay đổi liệu Nhằm nâng cao chất lượng gom cụm, luận án đề xuất kỹ thuật chọn lựa động đặc trưng dựa phương pháp học có giám sát o Luận án đề xuất mơ hình tóm tắt văn tiếng Việt với biểu diễn đồ thị có đỉnh câu kỹ thuật xếp hạng đỉnh để rút câu quan trọng đưa vào tóm tắt Mơ hình tóm tắt áp dụng cho văn đơn lẫn tập văn  Luận án cải tiến số thuật toán o Luận án cải tiến gSpan để tìm đồ thị phổ biến tập đồ thị có hướng biểu diễn văn Luận án đề xuất biểu diễn cho mã DFS, định nghĩa lại thứ tự từ 22 điển mã DFS tương ứng với biểu diễn đưa lưu ý phát triển đồ thị Độ phức tạp thời gian gSpan cải tiến tốt gSpan nguyên thủy o Luận án cải tiến thuật toán Incremental DBSCAN, thuật tốn gom cụm động có khả xử lý nhiễu, phụ thuộc vào thứ tự liệu đưa vào nhằm áp dụng hiệu lên tập văn Luận án cải tiến kỹ thuật trộn cụm thuật toán Incremental DBSCAN nhằm hạn chế việc trộn cụm tương tự lại với Độ phức tạp thời gian Incremental DBSCAN cải tiến giống thuật toán nguyên thủy làm tăng chất lượng gom cụm Đồng thời kết luận án có ý nghĩa thực tiễn sau:  Luận án tiến hành thử nghiệm khai thác văn tiếng Việt Lần tiếp cận đồ thị biểu diễn, khai thác văn áp dụng vào văn tiếng Việt Tiếp cận đồ thị không khắc phục nhược điểm biểu diễn vectơ mà làm giảm bớt ảnh hưởng cơng cụ tách từ (bài tốn khó tiếng Việt) đồng thời quan tâm đến thứ tự xuất từ văn (một đặc điểm quan trọng tiếng Việt)  Các kết thử nghiệm cho thấy tiếp cận đồ thị phương pháp hiệu có khả mở rộng với thuật toán cải tiến để cải thiện, nâng cao chất lượng phân loại, gom cụm tóm tắt văn Thời gian xử lý văn sử dụng tiếp cận đồ thị kết hợp với kỹ thuật rút trích đặc trưng phù hợp gần tương đương với phương pháp sử dụng mơ hình biểu diễn vectơ kết khai thác tốt Hướng phát triển Bên cạnh nhiều ưu điểm tiếp cận đồ thị biểu diễn, khai thác văn bản, nhược điểm tiếp cận độ phức tạp tính tốn đồ thị Chính việc nghiên cứu nâng cao tốc độ xử lý đồ thị với kỹ thuật khác vần đề cần đặc biệt quan tâm thời gian tới Dưới tóm tắt vấn đề hướng phát triển luận án:  Với mục tiêu tăng tốc độ xử lý, chất lượng qui trình khai thác văn dựa biểu diễn đồ thị, việc phát triển, áp dụng phương pháp rút trích chọn lựa đặc trưng từ đồ thị vấn đề cần quan tâm  Việc tích hợp thêm đặc trưng ngữ nghĩa, đặc thù ngôn ngữ hướng mở để nâng cao chất lượng qui trình khai thác văn đề xuất nhằm giải vấn đề đồng nghĩa  Tiếp tục cải tiến qui trình chất lượng, tốc độ xử lý áp dụng kết vào lĩnh vực rút trích thơng tin hệ thống tư vấn hướng nghiên cứu tương lai luận án 23 Danh mục cơng trình tác giả [CT1] Nguyen Hoang Tu Anh, Nguyen Hoang Khai, Tran Quang Vinh (2010), “An Efficient Vietnamese Text Summarization Approach Based on Graph Model”, RIVF2010, Hà nội, Việt Nam, 1-4 tháng 11 năm 2010, pp 41-46 [CT2] Tu Anh Nguyen Hoang, Kiem Hoang (2009), “Efficient Approach for Incremental Vietnamese Document Clustering”, WIDM 2009, Hong Kong, China, tháng 11 năm 2009, ISBN 978-1-60558-808-7, pp.47-54 [CT3] Nguyễn Hoàng Tú Anh, Hoàng Kiếm (2009), “Áp dụng kỹ thuật khai thác đồ thị vào tốn phân loại văn bản”, Tạp chí Tin học Điều khiển học, T.25, S.1(2009), pp.43-52 [CT4] Nguyễn Hoàng Tú Anh, Nguyễn Trần Kim Chi, Nguyễn Hồng Phi (2009), “Mơ hình [CT5] biểu diễn văn thành đồ thị”, Tạp chí Phát triển Khoa học Cơng nghệ, ĐHQGHCM, Tập 12, số 07/2009, pp.5-14 Tu-Anh Nguyen-Hoang, Kiem Hoang, Danh Bui-Thi, Anh-Thy Nguyen (2009), [CT6] “Incremental Document Clustering Based on Graph Model”, ADMA 2009, Beijing, China, 17-19 tháng năm 2009, LNAI, Vol 5678, Springer-Verlag Berlin Heidelberg, ISBN 978-3-642-03347-6, pp.569-576 Tu Anh Hoang Nguyen, Kiem Hoang (2009), “Frequent Subgraph-Based Approach for Classifying Vietnamese Text Documents”, ICEIS 2009, Milan, Italy, 6-10 tháng năm 2009, Part II, LNBIP, Vol 24, Springer, ISBN 978-3-642-01346-1, pp.299-308 [CT7] Nguyễn Hoàng Tú Anh, Bùi Thị Danh, Nguyễn Anh Thy (2008), “Gom cụm văn động dựa mơ hình đồ thị kết hợp IncrementalDBSCAN”, ICTFIT 2008, Tp Hồ Chí Minh, 14 tháng 11 năm 2008, Tuyển tập Cơng trình nghiên cứu Cơng nghệ thông tin Truyền thông 2008, NXB Khoa học Kỹ thuật, pp 56-64 [CT8] Nguyễn Hoàng Tú Anh, Hoàng Kiếm (2008), “Tóm tắt văn tiếng Việt dựa mơ hình đồ thị”, Đặc san Các cơng trình nghiên cứu khoa học, nghiên cứu triển khai Công nghệ thông tin Truyền thơng, Tạp chí Cơng nghệ thơng tin Truyền thông, kỳ 3, số 20, tháng 10 năm 2008, pp 91-100 [CT9] Nguyễn Hoàng Tú Anh, Hoàng Kiếm (2007), “Phân loại văn tiếng Việt dựa khai thác đồ thị phổ biến”, FAIR’07, Nha Trang, 09-10 tháng 08 năm 2007, NXB Khoa học kỹ thuật, pp.258-268 [CT10] Nguyễn Hồng Tú Anh, Nguyễn Cơng Hoan, Nguyễn Huy Hùng (2006), “Áp dụng kỹ thuật khai thác đồ thị toán phân loại email”, Kỷ yếu Hội nghị Khoa học Kỷ niệm 30 năm thành lập Viện CNTT, Hà nội, Việt Nam, 27-28 tháng 12 năm 2006, NXB Khoa học tự nhiên Công nghệ, pp.37-46 24 Tài liệu trích dẫn [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] Nguyễn Ngọc Bình, Phan Thanh Liêm, Trần Văn Quang, Hồ Tú Bảo (2006), “Ứng dụng mơ hình tập thô dung sai xử lý văn tiếng Việt”, Hội nghị KH Kỷ niệm 30 năm ngày thành lập Viện CNTT, Hà Nội, 27/12/2006, pp 481-490 Nguyễn Linh Giang, Nguyễn Mạnh Hiển (2006), “Phân loại văn tiếng Việt với phân loại vectơ hỗ trợ SVM”, Đặc san Tạp chí BCVT & CNTT, số 7/2006 Hà Thành Lê, Lương Chi Mai, Huỳnh Quyết Thắng, Đinh Thị Phương Thu (2005), “Kết hợp phương pháp chọn câu quan trọng xây dựng ứng dụng tóm tắt văn Tiếng Việt”, Hội thảo Quốc gia VIII,, Hải Phòng, 24-25/8/2005, pp 413-421 Đỗ Phúc, Hồng Kiếm (2004), “Rút trích ý từ văn Tiếng Việt hỗ trợ tạo tóm tắt nội dung”, Tạp chí Các cơng trình nghiên cứu –triển khai viễn thông công nghệ thông tin, số 13, pp 59-63 Đỗ Phúc, Hồ Anh Thư (2005), “Rút trích tóm tắt nội dung văn Tiếng Việt”, FAIR’05, Hồ Chí Minh, 23-24/09/2005, pp 317-328 Vũ Đức Thi, Hồng Văn Dũng (2007), “Áp dụng kỹ thuật phân cụm liệu phân cụm kết tìm kiếm”, Hội thảo quốc gia lần thứ X, Một số vấn đề chọn lọc CNTT truyền thông, Vĩnh Phúc, 14-15/9/2007, pp 32-39 Achananuparp P., Hu X., Shen X (2008), “The Evaluation of Sentence Similarity Measures”, DaWaK’ 2008, Turin, Italy, 1-5/9/2008, pp 305-316 Aery M., Chakravarthy S (2005), “eMailSift: Email Classification Based on Structure and Content”, ICDM’2005, Houston, USA, 27-30/11/2005, pp 18-25 Baeza-Yates R., Ribeiro-Neto B (1999), “Modern Information Retrieval”, Addison Wesley Carbonell J., Goldstein J (1998), “Use of MMR, diversity-based reranking for reordering documents and producing summaries”, ACM SIGIR’1998, 24-28/8/1998, pp 335–336 Do P., Hoang K (2005), “Improving Learning Algorithm of Self Organizing Map for Document Clustering”, RIVF’05, Can Tho, Vietnam, 21-24/2/2005, pp 173-176 Dinh Dien, Vu Thuy (2006), “A maximum entropy approach for Vietnamese word segmentation”, RIVF’2006, Ho Chi Minh, Vietnam, 12-16/2/2006, pp 247 – 252 Edmundson H.P (1969), “New Methods in Automatic Extracting”, Journal of the ACM, 16(2), pp 264-285 Erkan G., Radev R (2004), “LexRank: Graph-based Lexical Centrality as Salience in Text Summarization”, Journal of Articial Intelligence Research, 22, pp 457-479 Ester M., Kriegel H-P., Sander J., Wimmer M., Xu X (1998), “Incremental Clustering for Mining in a Data Warehousing Environment”, VLDB’1998, USA, 24-27/8/1998, pp 1-11 Hammouda M., Kamel M (2003), “Incremental Document Clustering using Cluster Similarity Histogram”, IEEE/WIC Int’l Conf on Web Intelligence, China, 20-24/9/2004, pp 597-601 Hammouda M., Kamel M (2004), “Efficient Phrase-Based Document Clustering for Web Document Clustering”, IEEE TKDE, Vol.16, pp 1279-1285 Hearst M (1999), “Untangling Text Data Mining”, ACL’1999, College Park, USA, 2026/6/1999 , pp 3-10 Hung Nguyen, Ha Nguyen, Thuc Vu, Nghia Tran, Kiem Hoang (2005), “Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese”, RIVF’2005, Can Tho, Vietnam, 21-24/2/2005, pp 168-172 25 [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] Lin C.Y., Hovy E.H (2003), “Automatic evaluation of summaries using n-gram cooccurrence statistics”, HLT-NAACL‟2003, Edmonton, Canada, 27/5-1/6/2003, pp 71-78 Liu T., Liu S., Chen Z., Ma W-Y (2003), “An Evaluation on Feature Selection for Text Clustering”, ICML’2003, Washington, DC, USA, 21-24/8/2003, pp 488-495 Mani I, Maybury M (1999), “Advances in automatic text summarization”, MIT Press Markov A., Last M.(2005), “Efficient graph-based representation of web documents”, MGTS’2005, Porto, Portugal, 3-7/10/2005, pp 52–62 Markov A., Last M., Kandel A (2008), “The Hybrid Representation Model for Web Document Classification”, International Journal of Intelligent Systems, 23(6), pp 654-679 Mihalcea R., Tarau P (2004), “TextRank: Bringing Order into Texts”, EMNLP’2004, Barcelona, Spain, 25-26/7/2004, pp 404-411 Mihalcea R., Tarau P (2005), “A language independent algorithm for single and multiple document summarization”, IJCNLP’2005 Nguyen G S., Gao X., Andreae P M (2009), „Text Categorization for Vietnamese Documents‟, WI-IAT’2009, Milan, Italy, 15-18/9/2009, pp 466-469 Oracle Text - An Oracle White Paper (3/2002), http://www.oracle.com/technetwork/testcontent/9ir2text-bwp-f-129974.pdf Salton G., Wong A., Yang C.S (1975), “A vector space model for automatic indexing”, Communication of ACM,18(11), pp 613-620 Schenker A., Last M., Bunke H., Kandel A (2003), “A Comparison of Two Novel Algorithms for Clustering Web Documents”, IWWDA’2003, pp 71-74 Schenker A., Last M., Bunke H., Kandel A (2004), “Classification Of Web Documents Using Graph Matching”, Inter Journal of Pattern Recognition and Artificial Intelligence, Special Issue on Graph Matching in Computer Vision and Pattern Recognition, 18(3), pp 475-479 Sebastiani F (2002), “Machine Learning in Automated Text Categorization”, ACM Computing Surveys, 34(1), pp 1- 47 Sowa J.F (1976), “Conceptual Graphs for a DataBase Interface”, IBM Journal of Research and Development, 20(4), pp 336–357 Wong W., Fu A (2000), “Incremental Document Clustering for Webpage Classification”, IEEE 2000Int’l Conf on Information Soc in the 21st Century: Emerging Technologies and New Challenges, Fukushima, Japan, 5-8/11/2000 Worlein M., Meinl T., Fisher I., Philippsen M (2005), “A Quantative Comparision of the Subgraph Miners MoFa, gSpan, FFSM, and Gaston”, PKDD’2005, Porto, Portugal, 37/10/2005, LNAI 3721, pp 392-403 Yan X., Han J (2002), “gSpan: Graph-Based Substructure Pattern Mining”, ICDM’2002, Maebashi, Japan, 9-12/12/2002, pp.721-723 Yang Y., Liu X (1999), “A re-examination of text categorization methods”, ACM SIGIR’1999, Berkeley, USA, 15-19/8/1999, pp 42-49 Yang Y., Pedersen J.O (1997), “A comparative studyon feature selection in text categorization”, ICML’1997, Nashville, USA, 8-12/7/1997, pp 412-420 Zha H (2002), “Generic Summarization and Keyphrase Extraction Using Mutual Reinforcement Principle and Sentence Clustering”, ACM SIGIR’2002, Tampere, Finland, 1115/8/2002, pp 113-200 26 ... thành văn Qui trình tóm tắt lõi tóm tắt áp dụng tiếp lên văn tạo tóm tắt hồn chỉnh cho tập văn Tiền xử lý Xây dựng đồ thị Xếp hạng câu Phát sinh tóm tắt Tóm tắt Tóm tắt Tóm tắt n Tổng hợp Văn. .. Luận án tiến hành thử nghiệm khai thác văn tiếng Việt Lần tiếp cận đồ thị biểu diễn, khai thác văn áp dụng vào văn tiếng Việt Tiếp cận đồ thị không khắc phục nhược điểm biểu diễn vectơ mà cịn làm... phân loại văn dựa biểu diễn đồ thị kỹ thuật khai thác đồ thị Các văn biểu diễn dạng đồ thị đơn giản Kỹ thuật khai thác đồ thị phổ biến gSpan cải tiến khai thác đồ thị có hướng biểu diễn văn thuộc

tiếp cận đô thị biểu diễn, khai thác văn bản và ứng dụng bản tóm tắt

Thông tin tài liệu

Từ khóa liên quan

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan