Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa trên đồ thị dendrogram - Ứng dụng nâng cao hiệu quả phân loại văn bản tiếng Việt tự động

34 24 0
  • Loading ...
1/34 trang

Thông tin tài liệu

Ngày đăng: 22/04/2017, 13:22

Header Page of 145 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TÓM TẮT BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa đồ thị dendrogram – Ứng dụng nâng cao hiệu phân loại văn tiếng Việt tự động Mã số: Đ2015-02-132 Chủ nhiệm đề tài: TS Phạm Minh Tuấn Đà Nẵng, 09/2016 Footer Page of 145 Header Page of 145 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TÓM TẮT BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa đồ thị dendrogram – Ứng dụng nâng cao hiệu phân loại văn tiếng Việt tự động Mã số: Đ2015-02-132 Xác nhận quan chủ trì đề tài (ký, họ tên, đóng dấu) Chủ nhiệm đề tài (ký, họ tên) TS Phạm Minh Tuấn Đà Nẵng, 09/2016 Footer Page of 145 Header Page of 145 MỞ ĐẦU Tính cấp thiết đề tài Ngày nay, việc trao đổi thông tin hầu hết dạng văn : thời sự, tư liệu, tài liệu, kết nghiên cứu khoa học … Cùng với việc phát triển tri thức toàn cầu hóa internet, số lượng văn ngày gia tăng lan truyền rộng rãi cách nhanh chóng Tuy nhiên, trình lan truyền cập nhật thông tin cách nhanh chóng này, thông tin lưu trữ (dưới dạng tài liệu số) ngày tăng khó khăn việc xếp hay truy vấn tài liệu không phân loại cách hợp lý Phân loại văn vấn đề quan trọng lĩnh vực xử lý ngôn ngữ Nhiệm vụ toán phân loại tài liệu vào nhóm chủ đề cho trước Đây toán thường gặp thực tế phân loại tài liệu theo chủ đề (pháp luật, trính trị, giáo dục, thể thao,…) khác Việc tìm kiếm thông tin dễ dàng nhanh chóng văn phân loại Tuy nhiên trình phân loại tiêu tốn thiều thời gian chi phí làm cách thủ công Vì vậy, thực việc phân loại tự động văn số vấn đề cấp thiết Để giải vấn đề trên, có nhiều phương pháp học máy định, mạng nơron nhân tạo hay máy vector hỗ trợ áp dụng vào toán phân loại văn tự động cách hiệu Các phương pháp phân loại thông thường sử dụng mô hình không gian vector (Vector space model - VSM) nhằm trích chọn đặc tính cho văn huấn luyện văn cần phân loại Đặc trưng phương pháp tìm mối tương quan văn hay văn câu truy vấn dựa vector thuộc tính Footer Page of 145 Header Page of 145 Vấn đề đặt tiếng Việt có nhiều từ đồng nghĩa cách viết ký tự lại khác văn số Ví dụ như, nghĩa từ “khủng khiếp”, “kinh khủng” “kinh hoàng” tương đồng so sánh mặt ký tự không giống Dẫn tới văn nghĩa khác cách viết có hệ số hàm tương quan thấp Ngoài ra, tiếng Việt có nhiều nhóm từ thường xuất kèm văn Ví dụ từ “nhồi máu” thường với từ “cơ tim” văn Đối với văn có nhóm từ dễ có hệ số tương quan cao loại Dẫn tới việc học phân loại văn không hiệu Vì cần phải có phương pháp phân loại văn hiệu quả, đủ thông minh để tránh trường hợp đa dạng cách biểu diễn Trong đề tài này, “Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa đồ thị dendrogram - Ứng dụng nâng cao hiệu phân loại văn tiếng Việt tự động” Mục tiêu nhiệm vụ đề tài Mục tiêu: Để tránh tường hợp đa dạng cách biểu diễn từ đồng nghĩa hay tồn nhóm từ thường kèm văn bản, nhóm nghiên cứu đề xuất phương pháp phân cụm từ tiếng Việt dựa vào tần số xuất cặp từ trang, đoạn hay câu Wikipedia tiếng Việt (số trang, số đoạn hay số câu Wikipedia có chứa đồng thời từ) Các từ nằm cụm coi thuộc tính văn Nhờ có rút gọn vector thuộc tính văn so với cách thức sử dụng từ cho thuộc tính Mục tiêu nghiên Footer Page of 145 Header Page of 145 cứu đồng thời đề xuất sử dụng phương pháp phân tích nhóm (Cluster Analysis) sử dụng đồ thị dendrogram việc phân cụm từ Tiếng Việt Sau sử dụng vector thuộc tính rút gọn vào việc phân loại văn tiếng Việt Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu + Các thuật toán phân tích nhóm + Các thuật toán phân loại sử dụng học máy Phạm vi nghiên cứu + Phân cụm từ Tiếng Việt liên quan gần nghĩa + Phân loại văn Tiếng Việt Cách tiếp cận, phương pháp nghiên cứu Cách tiếp cận + Tìm hiểu phương pháp chuyển đổi cự ly thành ma trận nhân máy véc tơ hỗ trợ + Tìm hiểu loại máy học liên quan đến việc phân loại + Thu thập liệu bao gồm tất trang Wikipedia tiếng Việt cập nhật + Thu thập văn Tiếng Việt báo điện tử Phương pháp nghiên cứu + Nghiên cứu tổng quan  Học máy  Phương pháp phân cụm Dendrogram  Phương pháp phân loại  Phương pháp phân loại văn Footer Page of 145 Header Page of 145 + Thu thập sở liệu (CSDL) khoảng gần triệu trang Wikipedia tiếng Việt để phục vụ cho viện phân tích nhóm; gom cụm từ liên quan gần nghĩa + Xây dựng ma trận tần số xuất cặp từ:  Trên trang  Trên đoạn  Trên câu + Xây dựng chương trình huấn luyện phân loại văn tiếng Việt theo chủ đề + Triển khai xây dựng hệ thống thử nghiệm, đánh giá phân tích Ý nghĩa khoa học thực tiễn + Thống kê so sánh ưu nhược điểm phương pháp phân loại học máy phổ biến + Hiểu mô hình trắc địa áp dụng máy vector hỗ trợ Cấu trúc đề tài Báo cáo gồm có chương: + Chương 1: Trình bày vấn đề liên quan đến nghiên cứu tổng quan sở lý thuyết gồm: - Bối cảnh đề tài Các phương pháp học máy - Phương pháp phân cụm Dendrogram - Các phương pháp phân loại + Chương 2: Trình bày phương pháp đề xuất phân tích thiết kế hệ thống bao gồm: Footer Page of 145 Header Page of 145 - Mô tả toán - Cấu trúc hệ thống - Các chức - Phân tích thiết kế chương trình - Tổ chức liệu chương trình + Chương 3: Triển khai đánh giá kết - Phân cụm - Áp dụng phân cụm từ vào phân loại văn + Kết luận hướng phát triển Footer Page of 145 Header Page of 145 CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 Bối cảnh đề tài Ngày nay, việc trao đổi thông tin hầu hết dạng văn : thời sự, tư liệu, tài liệu, kết nghiên cứu khoa học … Cùng với việc phát triển tri thức toàn cầu hóa internet, số lượng văn ngày gia tăng lan truyền rộng rãi cách nhanh chóng Tuy nhiên, trình lan truyền cập nhật thông tin cách nhanh chóng này, thông tin lưu trữ (dưới dạng tài liệu số) ngày tăng khó khăn việc xếp hay truy vấn tài liệu không phân loại cách hợp lý Phân loại văn vấn đề quan trọng lĩnh vực xử lý ngôn ngữ Nhiệm vụ toán phân loại tài liệu vào nhóm chủ đề cho trước Đây toán thường gặp thực tế phân loại tài liệu theo chủ đề (pháp luật, trị, giáo dục, thể thao, …) khác Việc tìm kiếm thông tin dễ dàng nhanh chóng văn phân loại Tuy nhiên trình phân loại tiêu tốn thiếu thời gian chi phí làm cách thủ công Vì vậy, thực việc phân loại tự động văn số vấn đề cấp thiết Để giải vấn đề trên, có nhiều phương pháp học máy định[1], mạng nơron nhân tạo hay máy vector hỗ trợ áp dụng vào toán phân loại văn tự động[1][2][3][4][5] cách hiệu Vì tiến hành tìm hiểu phương pháp học máy để phân loại văn bản, từ xây dựng chương trình phân loại văn tiếng Việt Footer Page of 145 Header Page of 145 Các phương pháp phân loại định, mạng nơron nhân tạo hay máy vector hỗ trợ thông thường sử dụng mô hình không gian vector (Vector space model)[2][6][7][8] nhằm trích chọn đặt tính cho văn huấn luyện văn cần phân loại Đặc trưn phương pháp tìm mối tương quan văn hay văn câu truy vấn dựa vector thuộc tính Ví dụ, thuộc tính vector tính tần số xuất từ văn Phương pháp sử dụng hàm Cosine hay TF-IDF (term frequency – inverse document frequency)[1] số phương pháp mô hình không gian vector thông dụng kể đến Từ kết phương pháp mô hình không gian vector này, mô hình xác suất xây dựng thông qua học máy (Machine Learning) nhằm mục đích phân loại văn cách tự động Thông qua việc tìm hiểu phương pháp học máy phân loại văn bản, trọng vào vấn đề trích chọn đặc tính phân loại văn tiếng Việt[2][3][9] Vấn đề đặt tiếng Việt có nhiều từ đồng nghĩa cách viết ký tự lại khác văn số Ví dụ như, nghĩa từ “khủng khiếp”, “kinh khủng” “kinh hoàng” tương đồng so sánh mặt ký tự không giống Dẫn tới văn nghĩa khác cách viết có hệ số hàm tương quan thấp Ngoài ra, tiếng Việt có nhiều nhóm từ thường xuất kèm văn Ví dụ từ “nhồi máu” thường với từ “cơ tim” văn Đối với văn có nhóm từ dễ có hệ số tương quan cao loại Dẫn tới việc học phân loại văn không hiệu Footer Page of 145 Header Page 10 of 145 Để tránh tường hợp da dạng cách biểu diễn từ đồng nghĩa hay tồn nhóm từ thường kèm văn bản, đề xuất phương pháp phân cụm từ tiếng Việt dựa vào tần số xuất cặp từ trang Wikipedia[10] tiếng Việt (số trang Wikipedia có chứa đồng thời hai từ) Các từ nằm cụm coi thuộc tính văn Nhờ có rút gọn vector thuộc tính văn so với cách thức sử dụng từ cho thuộc tính Luận văn đồng thời đề xuất sử dụng phương pháp phân tích nhóm (Cluster Analysis) sử dụng đồ thị Dendrogram[11][12] việc phân cụm từ Tiếng Việt Sau sử dụng vector thuộc tính rút gọn vào việc phân loại văn tiếng Việt, từ tiến hành phân tích đánh giá kết thực nghiệm 1.2 CÁC PHƯƠNG PHÁP HỌC MÁY Học máy (Machine learning) lĩnh vực trí tuệ nhân tạo liên quan đến việc phát triển kĩ thuật cho phép máy tính “học” Học máy xem phương pháp tạo chương trình máy tính sử dụng kinh nghiệm, quan sát liệu khứ để cải thiện công việc tương lai Các phương pháp học máy trình bày cụ thể sau 1.2.1 Học không giám sát Học giám sát (Unsupervised learning) phương pháp ngành học máy sử dụng cho toán phân cụm, gom cụm (Clustering) Trong học không giám sát, tập liệu huấn luyện gồm mẫu nhãn giá trị hàm đích kèm Có Footer Page 10 of 145 Header Page 20 of 145 18 CHƯƠNG TRIỂN KHAI VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 TRIỂN KHAI THỰC NGHIỆM 3.1.1 Xử lý liệu Wikipedia Vì liệu Wikipedia lưu trữ file xml lớn (91.8 Gbytes), nên để đọc file đề xuất sử dụng lớp XmlTextReader C# Ưu điểm lớp XmlTextReader đọc trực tiếp từ Stream nút tiêu tốn nhớ nhỏ nên thích hợp với việc đọc file Wikipedia Vấn đề đặt liệu Wikipedia có nhiều phiên cập nhật chứa Chúng ta trước ước chừng độ dài phần nội dung phiên (version) phiên lại lưu trữ không theo thứ tự thời gian việc lưu trữ chương trình hoàn toàn Do đó, nội dung trang wikipedia lưu trữ file tạm trước lưu trữ vào file rút gọn Sau rút gọn, file rút gọn chứa 1.184.476 trang Wikipedia tiếng Việt File tiếp tục rút gọn cách:  Chuyển tất kí tự thành kí tự thường  Xóa tất dòng trống  Xóa bỏ dãy kí tự nằm liên tiếp  Kết cuối kích thước file rút gọn 3.2GBytes 3.1.2 Xử lý từ điển Từ điển sau lấy lấy phần từ, không lấy phần nghĩa nội dung khác, đồng thời từ giống loại bỏ Sau tất từ từ điển chuyển thành kí tự thường Để thuận tiện cho việc tìm kiếm xử lý, từ điển Footer Page 20 of 145 Header Page 21 of 145 19 xếp theo thứ tự từ điển Rồi sau tiến hành loại bỏ từ theo thuật toán trình bày 3.1.3 Tính toán ma trận tần số xuất chung Do liệu lớn nên việc tính ma trận số lượng xuất chung từ câu, đoạn hay trang Wikipedia tốn nhiều chi phí Do đó, 1.184.476 trang Wikipedia chia nhỏ thành 12 file với file chứa tối đa 100.000 trang Wikipedia Chương trình tính toán ma trận xử lý đa luồng nhằm tăng tốc độ tính toán Chương trình tính toán ma trận xuất có chức lưu trữ kết tự động trình tính toán để tránh trường hợp điện hay cố đột ngột 3.1.4 Tổ chức liệu chương trình Dữ liệu chương trình bao gồm: - File liệu Wikipedia : *.xml – 91.8GBytes - File từ điển : *.index - File kết phân cụm từ : *.csv *.index - File liệu văn : *.doc 3.1.5 Thư viện hỗ trợ + Accord.NET: Accord.NET tảng cho khoa học máy tính NET Nền tảng xây dựng dựa tảng AForge.NET phổ biến, tập trung vào việc cung cấp phương pháp thống kê, học máy, nhận dạng xử lý âm Nền tảng cung cấp số lượng lớn phân bố xác suất, kiểm tra giả thuyết, hàm hạt nhân hỗ trợ hồ hết kỹ thuật đo lường Accord.NET cung cấp danh sách đầy đủ ví dụ ứng dụng mẫu Trong báo cáo này, sử dụng phiên Accord.NET framework 2.8.1 Footer Page 21 of 145 Header Page 22 of 145 20 + xd2txlib.dll: Thư viện giúp trích xuất văn từ loạt tài liệu dạng PDF, WORD, EXCEL thành dạng text Trong báo cáo này, sử dụng phiên xdoc2txt 2.01 3.2 KẾT QUẢ THỰC NGHIỆM Trong kết thực nghiệm, báo cáo trình kết trình nghiên cứu: a Phân phân cụm từ sử dụng tần số xuất chung cặp từ trang Wikipedia, sau sử dụng kết nhằm rút gọn thuộc tính việc áp dụng mô hình phân loại b Thử nghiệm tương tự với việc sử dụng tần số xuất chung cặp từ câu, đoạn Wikipedia Sau so sánh phương pháp 3.2.1 Kết phân loại dựa tần số xuất chung cặp từ trang Wikipedia Hình Kết phân cụm với Dendrogram Footer Page 22 of 145 Header Page 23 of 145 21 Theo hình 18, ta có khoảng cách từ “nhồi máu” “cơ tim” thấp, thấy từ thường xuyên chung với theo cụm từ “nhồi máu tim” Từ “suy tim” có quan hệ gần với “nhồi máu | tim” nhóm từ lại có quan hệ xa so với “nhồi máu | tim | suy tim” Tuy nhiên từ gom thành nhóm chứng tỏ phương pháp đề xuất phân cụm thành công cụm từ có liên quan chặt chẽ với Hình Một ví dụ khác thể từ liên quan đến âm nhạc Footer Page 23 of 145 Header Page 24 of 145 22 Hình Một ví dụ đồ thị Dendrogram cho từ “băng giá”, “đóng băng”, “băng tuyết”, “đông lạnh”, “lạnh giá” Hình 19 hình 20 số kết phân cụm sử dụng phương pháp đề xuất Ta dễ dàng nhận thấy nhóm từ phân cụm thành chủ đề Trong kết thực nghiệm, tiến hành chọn ngẫu nhiên 1000 nhóm từ tiến hành đếm thủ công số lượng nhóm đồng nghĩa Kết thu có 56% nhóm bao gồm hai từ đồng nghĩa Ngoài phát số cụm từ bao gồm danh từ, động từ tính từ cho chủ đề Ví dụ hình 21 Footer Page 24 of 145 Header Page 25 of 145 23 Hình Ví dụ đồ thị Dendrogram cho từ thuộc chủ đề y học Tuy nhiên, có số từ không mang ý nghĩa có chung nhóm từ như, “sự tích” “tích tụ” (do chuỗi “sự tích tụ”) Những từ thông thường chuỗi từ có nghĩa, dẫn tới việc hay xuất Footer Page 25 of 145 Header Page 26 of 145 24 nên kết phân cụm chưa xác Ngoài ra, tiếng Việt có nhiều từ, cụm từ từ điển mà tác giả sử dụng “cà chớn”, “cà cháo” Hơn báo cáo giới hạn trang Wikipedia nên chưa thể phát hết tất từ, cụm từ liên quan với tiếng Việt 3.2.1.1 Kết phân loại văn Báo cáo tiến hành thu thập liệu nhằm đánh giá kết phân loại từ trang báo điện tử Dân Trí gồm chủ đề sau: Bảng Số lượng văn tiếng Việt STT Tập liệu Số lượng Thể thao 199 Giải trí 210 Giáo dục 105 Gia đình 104 Việc phân cụm tiếng Việt dẫn đến việc giảm số chiều không gian vector thuộc tính văn bản, từ kéo theo giảm dung lượng lưu trữ không gian vector mẫu Báo cáo tiến hành huấn luyện mô hình phân loại dựa hai tập mẫu gán nhãn Tập thứ gồm 15 mẫu cho loại nhãn tập thứ hai gồm 20 mẫu cho loại nhãn Footer Page 26 of 145 Header Page 27 of 145 25 Hình Đồ thị thể thời gian gán nhãn hai mô hình huấn luyện khác Hình 23 biểu diễn thời gian huấn luyện tập mẫu phụ thuộc vào tỷ lệ rút gọn Hình 23 cho thấy việc rút gọn từ điển cho phép tăng tốc độ huấn luyện mô hình SVM Footer Page 27 of 145 Header Page 28 of 145 26 30 29 Thời gian phân loại (ms) 28 27 26 25 24 23 22 21 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% Tỷ lệ rút gọn Mô hình 15 mẫu Mô hình 20 mẫu Hình Thời gian phân loại văn trung bình văn phụ thuộc vào số lượng từ phân cụm Hình 24 biểu diễn thời gian phân loại trung bình văn phụ thuộc vào tỷ lệ rút gọn Việc phân cụm góp phần giảm thời gian phân loại văn Tỷ lệ nhận dạng trình phân loại văn thể sau: Footer Page 28 of 145 Header Page 29 of 145 27 Hình 10 Đồ thị thể độ phân loại xác hai mô hình theo tỷ lệ phân cụm 3.2.1 Kết so sánh phân cụm sử dụng tần số xuất chung trang, đoạn câu Wikipedia Tiếp theo, báo cáo thự lại trình phân trích chọn đặc tính phân loại với mô hình SVM Dữ liệu sử dụng trình bày Bảng Báo cáo chia liệu theo cách khác để tạo mô hình phân loại Cách thứ nhất, dùng 10% liệu cho huấn luyện 90% liệu cho kiểm thử (Mô hình T1) Cách thứ tương tự dùng 30%, 50% liệu cho huấn luyện 70%, 50% liệu cho kiểm thử (Mô hình T2 T3) Footer Page 29 of 145 Header Page 30 of 145 28 Hình 11 Kết nhận dạng mô hình phân loại T1 Footer Page 30 of 145 Header Page 31 of 145 29 Hình 12 Kết nhận dạng mô hình phân loại T2 Footer Page 31 of 145 Header Page 32 of 145 30 94% Tỷ lệ nhận dạng 93% 92% 91% 90% 89% 88% 87% 86% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 85% Tỷ lệ rút gọn Page Paragraph Sentence Hình 13 Kết nhận dạng mô hình phân loại T3 Từ Hình 30, 31 32, ta thấy sử dụng tần số xuất chung cặp từ trang, đoạn hay câu có khuynh hướng tăng ta chọn tỷ lệ rút gọn thích hợp Trong đó, việc sử dụng tần số xuất chung cặp từ đoạn cho kết tốt so với trang hay câu 3.3 Hình ảnh DEMO chương trình Footer Page 32 of 145 Header Page 33 of 145 31 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Về kết đạt được, thực mục tiêu đề đề tài “Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa đồ thị dendrogram - Ứng dụng nâng cao hiệu phân loại văn tiếng Việt tự động” Thông qua việc tìm hiểu phương pháp học máy, luận văn đề xuất hai phương pháp nhằm nâng cao chất lượng phân loại văn tiếng Việt tự động Phương pháp thứ sử dụng từ điển bách khoa toàn thư Wikipedia đồ thị Dendrogram việc phân cụm từ tiếng Việt Phương pháp thứ hai rút gọn vector thuộc tính mô hình SVM sử dụng kết phân cụm đề xuất Thực nghiệm cho thấy việc áp dụng không gian vector rút gọn Dendrogram Wikipedia giúp tiết kiệm dung lượng lưu trữ thời gian phân loại văn tiếng Việt mà đảm bảo tỷ lệ phân loại Ở mức rút gọn 30%-70% so với không gian vector ban đầu, tỷ lệ phân loại văn cao so với chưa phân cụm Thực nghiệm so sánh cho thấy việc sử dụng tần số xuất chung từ đoạn tốt so với trang câu VẤN ĐỀ TỒN ĐỌNG Chỉ thử nghiệm xác suất xuất chung cặp từ trang Wikipedia để phân nhóm từ dẫn tới có khả sai lệch mặt ngữ nghĩa trang Wikipedia có nhiều thông tin Chẳng hạn trang bao gồm thông tin Bóng đá, Xã hội, Lịch sử … Chỉ thực nghiệm máy vector hỗ trợ (VSM) Chưa so sánh thuật toán Dendrogram khác HƯỚNG PHÁT TRIỂN Footer Page 33 of 145 Header Page 34 of 145 32 Thử nghiệm với tần số xuất chung đoạn văn, câu Thử nghiệm với liệu khác Wikipedia, ví dụ báo trang báo mạng Việt Nam Thử nghiệm với phương pháp học máy khác so sánh thuật toán Dendrogram khác Footer Page 34 of 145 ... ĐẠI HỌC ĐÀ NẴNG Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa đồ thị dendrogram – Ứng dụng nâng cao hiệu phân loại văn tiếng Việt tự động Mã số: Đ201 5-0 2-1 32 Xác nhận... đến nghiên cứu tổng quan sở lý thuyết gồm: - Bối cảnh đề tài Các phương pháp học máy - Phương pháp phân cụm Dendrogram - Các phương pháp phân loại + Chương 2: Trình bày phương pháp đề xuất phân. .. 145 - Mô tả toán - Cấu trúc hệ thống - Các chức - Phân tích thiết kế chương trình - Tổ chức liệu chương trình + Chương 3: Triển khai đánh giá kết - Phân cụm - Áp dụng phân cụm từ vào phân loại văn
- Xem thêm -

Xem thêm: Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa trên đồ thị dendrogram - Ứng dụng nâng cao hiệu quả phân loại văn bản tiếng Việt tự động, Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa trên đồ thị dendrogram - Ứng dụng nâng cao hiệu quả phân loại văn bản tiếng Việt tự động, Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa trên đồ thị dendrogram - Ứng dụng nâng cao hiệu quả phân loại văn bản tiếng Việt tự động

Gợi ý tài liệu liên quan cho bạn

Nhận lời giải ngay chưa đến 10 phút Đăng bài tập ngay