Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa trên đồ thị dendrogram ứng dụng nâng cao hiệu quả phân loại văn bản tiếng việt tự động

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TÓM TẮT BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa đồ thị dendrogram – Ứng dụng nâng cao hiệu phân loại văn tiếng Việt tự động Mã số: Đ2015-02-132 Chủ nhiệm đề tài: TS Phạm Minh Tuấn Đà Nẵng, 09/2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TÓM TẮT BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa đồ thị dendrogram – Ứng dụng nâng cao hiệu phân loại văn tiếng Việt tự động Mã số: Đ2015-02-132 Xác nhận quan chủ trì đề tài (ký, họ tên, đóng dấu) Chủ nhiệm đề tài (ký, họ tên) TS Phạm Minh Tuấn Đà Nẵng, 09/2016 MỞ ĐẦU Tính cấp thiết đề tài Ngày nay, việc trao đổi thông tin hầu hết dạng văn : thời sự, tư liệu, tài liệu, kết nghiên cứu khoa học … Cùng với việc phát triển tri thức toàn cầu hóa internet, số lượng văn ngày gia tăng lan truyền rộng rãi cách nhanh chóng Tuy nhiên, q trình lan truyền cập nhật thơng tin cách nhanh chóng này, thông tin lưu trữ (dưới dạng tài liệu số) ngày tăng khó khăn việc xếp hay truy vấn tài liệu không phân loại cách hợp lý Phân loại văn vấn đề quan trọng lĩnh vực xử lý ngơn ngữ Nhiệm vụ tốn phân loại tài liệu vào nhóm chủ đề cho trước Đây toán thường gặp thực tế phân loại tài liệu theo chủ đề (pháp luật, trính trị, giáo dục, thể thao,…) khác Việc tìm kiếm thơng tin dễ dàng nhanh chóng văn phân loại Tuy nhiên trình phân loại tiêu tốn thiều thời gian chi phí làm cách thủ cơng Vì vậy, thực việc phân loại tự động văn số vấn đề cấp thiết Để giải vấn đề trên, có nhiều phương pháp học máy định, mạng nơron nhân tạo hay máy vector hỗ trợ áp dụng vào toán phân loại văn tự động cách hiệu Các phương pháp phân loại thông thường sử dụng mơ hình khơng gian vector (Vector space model - VSM) nhằm trích chọn đặc tính cho văn huấn luyện văn cần phân loại Đặc trưng phương pháp tìm mối tương quan văn hay văn câu truy vấn dựa vector thuộc tính Vấn đề đặt tiếng Việt có nhiều từ đồng nghĩa cách viết ký tự lại khác văn số Ví dụ như, nghĩa từ “khủng khiếp”, “kinh khủng” “kinh hoàng” tương đồng so sánh mặt ký tự khơng giống Dẫn tới văn nghĩa khác cách viết có hệ số hàm tương quan thấp Ngồi ra, tiếng Việt có nhiều nhóm từ thường xuất kèm văn Ví dụ từ “nhồi máu” thường với từ “cơ tim” văn Đối với văn có nhóm từ dễ có hệ số tương quan cao loại Dẫn tới việc học phân loại văn khơng hiệu Vì cần phải có phương pháp phân loại văn hiệu quả, đủ thông minh để tránh trường hợp đa dạng cách biểu diễn Trong đề tài này, “Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa đồ thị dendrogram - Ứng dụng nâng cao hiệu phân loại văn tiếng Việt tự động” Mục tiêu nhiệm vụ đề tài Mục tiêu: Để tránh tường hợp đa dạng cách biểu diễn từ đồng nghĩa hay tồn nhóm từ thường kèm văn bản, nhóm nghiên cứu đề xuất phương pháp phân cụm từ tiếng Việt dựa vào tần số xuất cặp từ trang, đoạn hay câu Wikipedia tiếng Việt (số trang, số đoạn hay số câu Wikipedia có chứa đồng thời từ) Các từ nằm cụm coi thuộc tính văn Nhờ có rút gọn vector thuộc tính văn so với cách thức sử dụng từ cho thuộc tính Mục tiêu nghiên cứu đồng thời đề xuất sử dụng phương pháp phân tích nhóm (Cluster Analysis) sử dụng đồ thị dendrogram việc phân cụm từ Tiếng Việt Sau sử dụng vector thuộc tính rút gọn vào việc phân loại văn tiếng Việt Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu + Các thuật tốn phân tích nhóm + Các thuật tốn phân loại sử dụng học máy Phạm vi nghiên cứu + Phân cụm từ Tiếng Việt liên quan gần nghĩa + Phân loại văn Tiếng Việt Cách tiếp cận, phương pháp nghiên cứu Cách tiếp cận + Tìm hiểu phương pháp chuyển đổi cự ly thành ma trận nhân máy véc tơ hỗ trợ + Tìm hiểu loại máy học liên quan đến việc phân loại + Thu thập liệu bao gồm tất trang Wikipedia tiếng Việt cập nhật + Thu thập văn Tiếng Việt báo điện tử Phương pháp nghiên cứu + Nghiên cứu tổng quan  Học máy  Phương pháp phân cụm Dendrogram  Phương pháp phân loại  Phương pháp phân loại văn + Thu thập sở liệu (CSDL) khoảng gần triệu trang Wikipedia tiếng Việt để phục vụ cho viện phân tích nhóm; gom cụm từ liên quan gần nghĩa + Xây dựng ma trận tần số xuất cặp từ:  Trên trang  Trên đoạn  Trên câu + Xây dựng chương trình huấn luyện phân loại văn tiếng Việt theo chủ đề + Triển khai xây dựng hệ thống thử nghiệm, đánh giá phân tích Ý nghĩa khoa học thực tiễn + Thống kê so sánh ưu nhược điểm phương pháp phân loại học máy phổ biến + Hiểu mơ hình trắc địa áp dụng máy vector hỗ trợ Cấu trúc đề tài Báo cáo gồm có chương: + Chương 1: Trình bày vấn đề liên quan đến nghiên cứu tổng quan sở lý thuyết gồm: - Bối cảnh đề tài Các phương pháp học máy - Phương pháp phân cụm Dendrogram - Các phương pháp phân loại + Chương 2: Trình bày phương pháp đề xuất phân tích thiết kế hệ thống bao gồm: - Mơ tả tốn - Cấu trúc hệ thống - Các chức - Phân tích thiết kế chương trình - Tổ chức liệu chương trình + Chương 3: Triển khai đánh giá kết - Phân cụm - Áp dụng phân cụm từ vào phân loại văn + Kết luận hướng phát triển CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 Bối cảnh đề tài Ngày nay, việc trao đổi thông tin hầu hết dạng văn : thời sự, tư liệu, tài liệu, kết nghiên cứu khoa học … Cùng với việc phát triển tri thức tồn cầu hóa internet, số lượng văn ngày gia tăng lan truyền rộng rãi cách nhanh chóng Tuy nhiên, q trình lan truyền cập nhật thơng tin cách nhanh chóng này, thông tin lưu trữ (dưới dạng tài liệu số) ngày tăng khó khăn việc xếp hay truy vấn tài liệu không phân loại cách hợp lý Phân loại văn vấn đề quan trọng lĩnh vực xử lý ngơn ngữ Nhiệm vụ tốn phân loại tài liệu vào nhóm chủ đề cho trước Đây toán thường gặp thực tế phân loại tài liệu theo chủ đề (pháp luật, trị, giáo dục, thể thao, …) khác Việc tìm kiếm thơng tin dễ dàng nhanh chóng văn phân loại Tuy nhiên trình phân loại tiêu tốn thiếu thời gian chi phí làm cách thủ cơng Vì vậy, thực việc phân loại tự động văn số vấn đề cấp thiết Để giải vấn đề trên, có nhiều phương pháp học máy định[1], mạng nơron nhân tạo hay máy vector hỗ trợ áp dụng vào toán phân loại văn tự động[1][2][3][4][5] cách hiệu Vì chúng tơi tiến hành tìm hiểu phương pháp học máy để phân loại văn bản, từ xây dựng chương trình phân loại văn tiếng Việt Các phương pháp phân loại định, mạng nơron nhân tạo hay máy vector hỗ trợ thông thường sử dụng mô hình khơng gian vector (Vector space model)[2][6][7][8] nhằm trích chọn đặt tính cho văn huấn luyện văn cần phân loại Đặc trưn phương pháp tìm mối tương quan văn hay văn câu truy vấn dựa vector thuộc tính Ví dụ, thuộc tính vector tính tần số xuất từ văn Phương pháp sử dụng hàm Cosine hay TF-IDF (term frequency – inverse document frequency)[1] số phương pháp mơ hình khơng gian vector thơng dụng kể đến Từ kết phương pháp mơ hình khơng gian vector này, mơ hình xác suất xây dựng thơng qua học máy (Machine Learning) nhằm mục đích phân loại văn cách tự động Thơng qua việc tìm hiểu phương pháp học máy phân loại văn bản, trọng vào vấn đề trích chọn đặc tính phân loại văn tiếng Việt[2][3][9] Vấn đề đặt tiếng Việt có nhiều từ đồng nghĩa cách viết ký tự lại khác văn số Ví dụ như, nghĩa từ “khủng khiếp”, “kinh khủng” “kinh hoàng” tương đồng so sánh mặt ký tự không giống Dẫn tới văn nghĩa khác cách viết có hệ số hàm tương quan thấp Ngồi ra, tiếng Việt có nhiều nhóm từ thường xuất kèm văn Ví dụ từ “nhồi máu” thường với từ “cơ tim” văn Đối với văn có nhóm từ dễ có hệ số tương quan cao khơng thể loại Dẫn tới việc học phân loại văn không hiệu Để tránh tường hợp da dạng cách biểu diễn từ đồng nghĩa hay tồn nhóm từ thường kèm văn bản, đề xuất phương pháp phân cụm từ tiếng Việt dựa vào tần số xuất cặp từ trang Wikipedia[10] tiếng Việt (số trang Wikipedia có chứa đồng thời hai từ) Các từ nằm cụm coi thuộc tính văn Nhờ có rút gọn vector thuộc tính văn so với cách thức sử dụng từ cho thuộc tính Luận văn đồng thời đề xuất sử dụng phương pháp phân tích nhóm (Cluster Analysis) sử dụng đồ thị Dendrogram[11][12] việc phân cụm từ Tiếng Việt Sau sử dụng vector thuộc tính rút gọn vào việc phân loại văn tiếng Việt, từ tiến hành phân tích đánh giá kết thực nghiệm 1.2 CÁC PHƯƠNG PHÁP HỌC MÁY Học máy (Machine learning) lĩnh vực trí tuệ nhân tạo liên quan đến việc phát triển kĩ thuật cho phép máy tính “học” Học máy xem phương pháp tạo chương trình máy tính sử dụng kinh nghiệm, quan sát liệu khứ để cải thiện công việc tương lai Các phương pháp học máy trình bày cụ thể sau 1.2.1 Học khơng giám sát Học khơng có giám sát (Unsupervised learning) phương pháp ngành học máy sử dụng cho tốn phân cụm, gom cụm (Clustering) Trong học khơng giám sát, tập liệu huấn luyện gồm mẫu khơng có nhãn giá trị hàm đích kèm Có 18 CHƯƠNG TRIỂN KHAI VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 TRIỂN KHAI THỰC NGHIỆM 3.1.1 Xử lý liệu Wikipedia Vì liệu Wikipedia lưu trữ file xml lớn (91.8 Gbytes), nên để đọc file đề xuất sử dụng lớp XmlTextReader C# Ưu điểm lớp XmlTextReader đọc trực tiếp từ Stream nút tiêu tốn nhớ nhỏ nên thích hợp với việc đọc file Wikipedia Vấn đề đặt liệu Wikipedia có nhiều phiên cập nhật chứa Chúng ta khơng biết trước ước chừng độ dài phần nội dung phiên (version) phiên lại lưu trữ không theo thứ tự thời gian việc lưu trữ chương trình hồn tồn khơng thể Do đó, nội dung trang wikipedia lưu trữ file tạm trước lưu trữ vào file rút gọn Sau rút gọn, file rút gọn chứa 1.184.476 trang Wikipedia tiếng Việt File tiếp tục rút gọn cách:  Chuyển tất kí tự thành kí tự thường  Xóa tất dịng trống  Xóa bỏ dãy kí tự nằm liên tiếp  Kết cuối kích thước file rút gọn 3.2GBytes 3.1.2 Xử lý từ điển Từ điển sau lấy lấy phần từ, khơng lấy phần nghĩa nội dung khác, đồng thời từ giống loại bỏ Sau tất từ từ điển chuyển thành kí tự thường Để thuận tiện cho việc tìm kiếm xử lý, từ điển 19 xếp theo thứ tự từ điển Rồi sau tiến hành loại bỏ từ theo thuật tốn trình bày 3.1.3 Tính tốn ma trận tần số xuất chung Do liệu lớn nên việc tính ma trận số lượng xuất chung từ câu, đoạn hay trang Wikipedia tốn nhiều chi phí Do đó, 1.184.476 trang Wikipedia chia nhỏ thành 12 file với file chứa tối đa 100.000 trang Wikipedia Chương trình tính tốn ma trận xử lý đa luồng nhằm tăng tốc độ tính tốn Chương trình tính tốn ma trận xuất có chức lưu trữ kết tự động trình tính tốn để tránh trường hợp điện hay cố đột ngột 3.1.4 Tổ chức liệu chương trình Dữ liệu chương trình bao gồm: - File liệu Wikipedia : *.xml – 91.8GBytes - File từ điển : *.index - File kết phân cụm từ : *.csv *.index - File liệu văn : *.doc 3.1.5 Thư viện hỗ trợ + Accord.NET: Accord.NET tảng cho khoa học máy tính NET Nền tảng xây dựng dựa tảng AForge.NET phổ biến, tập trung vào việc cung cấp phương pháp thống kê, học máy, nhận dạng xử lý âm Nền tảng cung cấp số lượng lớn phân bố xác suất, kiểm tra giả thuyết, hàm hạt nhân hỗ trợ hồ hết kỹ thuật đo lường Accord.NET cung cấp danh sách đầy đủ ví dụ ứng dụng mẫu Trong báo cáo này, sử dụng phiên Accord.NET framework 2.8.1 20 + xd2txlib.dll: Thư viện giúp trích xuất văn từ loạt tài liệu dạng PDF, WORD, EXCEL thành dạng text Trong báo cáo này, sử dụng phiên xdoc2txt 2.01 3.2 KẾT QUẢ THỰC NGHIỆM Trong kết thực nghiệm, báo cáo trình kết trình nghiên cứu: a Phân phân cụm từ sử dụng tần số xuất chung cặp từ trang Wikipedia, sau sử dụng kết nhằm rút gọn thuộc tính việc áp dụng mơ hình phân loại b Thử nghiệm tương tự với việc sử dụng tần số xuất chung cặp từ câu, đoạn Wikipedia Sau so sánh phương pháp 3.2.1 Kết phân loại dựa tần số xuất chung cặp từ trang Wikipedia Hình Kết phân cụm với Dendrogram 21 Theo hình 18, ta có khoảng cách từ “nhồi máu” “cơ tim” thấp, thấy từ thường xuyên chung với theo cụm từ “nhồi máu tim” Từ “suy tim” có quan hệ gần với “nhồi máu | tim” nhóm từ cịn lại có quan hệ xa so với “nhồi máu | tim | suy tim” Tuy nhiên từ gom thành nhóm chứng tỏ phương pháp đề xuất phân cụm thành cơng cụm từ có liên quan chặt chẽ với Hình Một ví dụ khác thể từ liên quan đến âm nhạc 22 Hình Một ví dụ đồ thị Dendrogram cho từ “băng giá”, “đóng băng”, “băng tuyết”, “đơng lạnh”, “lạnh giá” Hình 19 hình 20 số kết phân cụm sử dụng phương pháp đề xuất Ta dễ dàng nhận thấy nhóm từ phân cụm thành chủ đề Trong kết thực nghiệm, tiến hành chọn ngẫu nhiên 1000 nhóm từ tiến hành đếm thủ cơng số lượng nhóm đồng nghĩa Kết thu có 56% nhóm bao gồm hai từ đồng nghĩa Ngồi phát số cụm từ bao gồm danh từ, động từ tính từ cho chủ đề Ví dụ hình 21 23 Hình Ví dụ đồ thị Dendrogram cho từ thuộc chủ đề y học Tuy nhiên, cịn có số từ khơng mang ý nghĩa có chung nhóm từ như, “sự tích” “tích tụ” (do chuỗi “sự tích tụ”) Những từ thông thường chuỗi từ có nghĩa, dẫn tới việc hay xuất 24 nên kết phân cụm chưa xác Ngồi ra, tiếng Việt cịn có nhiều từ, cụm từ khơng có từ điển mà tác giả sử dụng “cà chớn”, “cà cháo” Hơn báo cáo giới hạn trang Wikipedia nên chưa thể phát hết tất từ, cụm từ liên quan với tiếng Việt 3.2.1.1 Kết phân loại văn Báo cáo tiến hành thu thập liệu nhằm đánh giá kết phân loại từ trang báo điện tử Dân Trí gồm chủ đề sau: Bảng Số lượng văn tiếng Việt STT Tập liệu Số lượng Thể thao 199 Giải trí 210 Giáo dục 105 Gia đình 104 Việc phân cụm tiếng Việt dẫn đến việc giảm số chiều không gian vector thuộc tính văn bản, từ kéo theo giảm dung lượng lưu trữ không gian vector mẫu Báo cáo tiến hành huấn luyện mơ hình phân loại dựa hai tập mẫu gán nhãn Tập thứ gồm 15 mẫu cho loại nhãn tập thứ hai gồm 20 mẫu cho loại nhãn 25 Hình Đồ thị thể thời gian gán nhãn hai mơ hình huấn luyện khác Hình 23 biểu diễn thời gian huấn luyện tập mẫu phụ thuộc vào tỷ lệ rút gọn Hình 23 cho thấy việc rút gọn từ điển cho phép tăng tốc độ huấn luyện mơ hình SVM 26 30 29 Thời gian phân loại (ms) 28 27 26 25 24 23 22 21 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% Tỷ lệ rút gọn Mơ hình 15 mẫu Mơ hình 20 mẫu Hình Thời gian phân loại văn trung bình văn phụ thuộc vào số lượng từ phân cụm Hình 24 biểu diễn thời gian phân loại trung bình văn phụ thuộc vào tỷ lệ rút gọn Việc phân cụm góp phần giảm thời gian phân loại văn Tỷ lệ nhận dạng trình phân loại văn thể sau: 27 Hình 10 Đồ thị thể độ phân loại xác hai mơ hình theo tỷ lệ phân cụm 3.2.1 Kết so sánh phân cụm sử dụng tần số xuất chung trang, đoạn câu Wikipedia Tiếp theo, báo cáo thự lại trình phân trích chọn đặc tính phân loại với mơ hình SVM Dữ liệu sử dụng trình bày Bảng Báo cáo chia liệu theo cách khác để tạo mô hình phân loại Cách thứ nhất, dùng 10% liệu cho huấn luyện 90% liệu cho kiểm thử (Mơ hình T1) Cách thứ tương tự dùng 30%, 50% liệu cho huấn luyện 70%, 50% liệu cho kiểm thử (Mơ hình T2 T3) 28 Hình 11 Kết nhận dạng mơ hình phân loại T1 29 Hình 12 Kết nhận dạng mơ hình phân loại T2 30 94% Tỷ lệ nhận dạng 93% 92% 91% 90% 89% 88% 87% 86% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 85% Tỷ lệ rút gọn Page Paragraph Sentence Hình 13 Kết nhận dạng mơ hình phân loại T3 Từ Hình 30, 31 32, ta thấy sử dụng tần số xuất chung cặp từ trang, đoạn hay câu có khuynh hướng tăng ta chọn tỷ lệ rút gọn thích hợp Trong đó, việc sử dụng tần số xuất chung cặp từ đoạn cho kết tốt so với trang hay câu 3.3 Hình ảnh DEMO chương trình 31 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Về kết đạt được, thực mục tiêu đề đề tài “Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa đồ thị dendrogram - Ứng dụng nâng cao hiệu phân loại văn tiếng Việt tự động” Thơng qua việc tìm hiểu phương pháp học máy, luận văn đề xuất hai phương pháp nhằm nâng cao chất lượng phân loại văn tiếng Việt tự động Phương pháp thứ sử dụng từ điển bách khoa toàn thư Wikipedia đồ thị Dendrogram việc phân cụm từ tiếng Việt Phương pháp thứ hai rút gọn vector thuộc tính mơ hình SVM sử dụng kết phân cụm đề xuất Thực nghiệm cho thấy việc áp dụng không gian vector rút gọn Dendrogram Wikipedia giúp tiết kiệm dung lượng lưu trữ thời gian phân loại văn tiếng Việt mà đảm bảo tỷ lệ phân loại Ở mức rút gọn 30%-70% so với không gian vector ban đầu, tỷ lệ phân loại văn cao so với chưa phân cụm Thực nghiệm so sánh cho thấy việc sử dụng tần số xuất chung từ đoạn tốt so với trang câu VẤN ĐỀ TỒN ĐỌNG Chỉ thử nghiệm xác suất xuất chung cặp từ trang Wikipedia để phân nhóm từ dẫn tới có khả sai lệch mặt ngữ nghĩa trang Wikipedia có q nhiều thơng tin Chẳng hạn trang bao gồm thông tin Bóng đá, Xã hội, Lịch sử … Chỉ thực nghiệm máy vector hỗ trợ (VSM) Chưa so sánh thuật toán Dendrogram khác HƯỚNG PHÁT TRIỂN 32 Thử nghiệm với tần số xuất chung đoạn văn, câu Thử nghiệm với liệu khác Wikipedia, ví dụ báo trang báo mạng Việt Nam Thử nghiệm với phương pháp học máy khác so sánh thuật toán Dendrogram khác

Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa trên đồ thị dendrogram ứng dụng nâng cao hiệu quả phân loại văn bản tiếng việt tự động

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan