K-MEANS - GOM NHÓM VĂN BẢN VÀ PHÂN LOẠI WEB

K-Means và gom cụm văn bản Vũ Công Tâm K-MEANS - GOM NHÓM VĂN BẢN VÀ PHÂN LOẠI WEB (Vũ Công Tâm, 11-2012) Lời nói đầu Từ ngày máy tính ra đời và đặc biệt là internet xuất hiện, tốc độ lưu truyền và dung lượng của thông tin ngày một lớn, và thời gian để lượng thông tin tăng gấp đôi ngày càng ngắn lại, và ngày càng ngắn lại một cách đáng kinh ngạc. Tốc độ lan truyền thông tin và khả năng kết nối mọi người trở nên nhanh chóng và rất dễ dàng. Chỉ cần một nơi nào đó xảy ra tai nạn hoặc có sự kiện nào đó, thì dường như ngay lập tức, thông tin đó đã được lan truyền một cách rộng rãi trên mạng internet. Chúng ta không cần phải đợi đến tối để xem bản tin thời sự 19h mới có thể biết. Tại một thời điểm, luồng thông tin và tin tức đến với chúng ta liên tục, từ các trang web tin tức truyền thống tới những mạng xã hôi đã là những kênh truyển tải thông tin liên tục và cập nhật dường như ngay sau khi sự kiện diễn ra chỉ vài phút.Thật là không sai khi mà có người đã nhận đinh rằng, con người chết ngụp trong biển thông tin nhưng thiết kiến thức. Vì có quá nhiều dòng tin trùng lặp nên con người khó khăn trong việc tổng kết và rút trích ra được những tri thức cần thiết. Chính vì vậy, lĩnh vực khai phá dữ liệu (Data Mining) ra đời như một sự tất yếu để giúp con người có thể tìm được kiến thức cũng như thông tin cần thiết nhu cầu của mình trước một biển thông tin. Bài báo cáo này gồm ba phần chính: Phần một: Khái quát về khai phá dữ liệu và vai trò của khai thác dữ liệu trong thời buổi hiện tại. Phần hai: Khái quát về gom nhóm dữ liệu Phần ba: Thuật toán K-Means. Phần bốn: Chương trình gom cụm văn bản và phân loại web Em xin chân thành cám ơn thầy Đỗ Phúc, PGS-TS của trường ĐH CNTT TPHCM đã rất nhiệt tình lên lớp giảng dạy môn Khai Phá Dữ Liệu, sự thật tới thời điểm này. Có thể khẳng định một điều là em đã rất định đúng đắn khi quyết định học cao học. Sau gần 1 năm học với các thầy em đã học được rất điều hay, không chỉ kiến thức chuyên ngành mà mà một lượng kiến thức tổng hợp rất lớn. Một lần nữa em xin chân thành cảm ơn thầy Đỗ Phúc Trang 1/36 K-Means và gom cụm văn bản Vũ Công Tâm TP.HCM Ngày 20 tháng 11 năm 2012 Vũ Công Tâm ĐÁNH GIÁ CỦA GIÁO VIÊN HƯỚNG DẪN ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… Trang 2/36 K-Means và gom cụm văn bản Vũ Công Tâm MỤC LỤC PHẦN MỘT KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ VAI TRÒ CỦA NÓ TRONG Trang 3/36 K-Means và gom cụm văn bản Vũ Công Tâm THỜI BUỔI HIỆN TẠI I.1 Khai phá dữ liệu (Data mining) là gì? Data mining là một quá trình trích xuất thông tin có mối quan hệ hoặc có mối tương quan nhất định từ một kho dữ liệu lớn (cực lớn) nhằm mục đích dự đoán các xu thế, các hành vi trong tương lai, hoặc tìm kiếm những tập thông tin hữu ích mà bình thường không thể nhận diện được. Về bản chất, khai thác dữ liệu giúp các tổ chức phân tích lượng đáng kinh ngạc của dữ liệu để phát hiện các mô hình chung hoặc tìm hiểu những điều mới. I.2 Phương pháp tiếp cận Có nhiều cách tiếp cận để khai phá dữ liệu, nhưng nhìn chung là những loại chính sau đây: Gom cụm (clustering): Là phát hiện là một nhóm các đối tượng có nội dung gần giống nhau và xếp chúng chung vào một nhóm giữa các tập dữ liệu lớn. Phân lớp (classification): Đó là một sự sắp xếp một số lượng lớn các thông tin vào các mục bằng cách sử dụng các mẫu xuất hiện trong quá trình phân tích dữ liệu. Trang 4/36 K-Means và gom cụm văn bản Vũ Công Tâm Phát hiện dị thường (Anomaly detection alms): Nhằm mục đích để tìm ra những bất thường trong dữ liệu. Điều này có thể được sử dụng trong nhiều lĩnh vực, chẳng hạn như phát hiện các bất thường về thời tiết hoặc thậm chí máy tính pháp y. Hồi quy (Regression): Hồi quy là một kỹ thuật nhằm mục đích để dự đoán các kết quả trong tương lai bằng cách sử dụng bộ lớn của các biến hiện có. Điều này được sử dụng để dự đoán sự tham gia của người sử dụng trong tương lai, duy trì khách hàng và thậm chí là giá bất động sản. Tổng hợp (Summarization): Mô tả thông tin thu thập được trong một tập dữ liệu lớn. Mô hình ràng buộc (Dependency modeling):Tìm hiểu và rút trích ra thông tin về sự ràng buộc giữa các thành phần trong tập dữ liệu hoặc một phần trong tập dữ liệu Dò tìm biến đổi và độ lệch (Change and Deviation Dectection): Khám phá những thay đổi quan trọng nhất trong tập dữ liệu. …………………………………………………………………………………………… Có nhiều cách tiếp cận khác để khai thác dữ liệu, tùy thuộc vào mục đích mà bạn sẽ chọn kĩ thuật phù hợp Ứng dụng của nó rất đa dạng và rộng tới, từ marketing, chống gian lận, giảm giá thành sản xuất, tăng doanh thu, phân tích hành vi sử dung người dùng internet để target đúng nhu cầu, đúng đối tượng hay ứng dụng hỗ trợ ra quyết định, nghiên cứu khoa học đến việc chống khủng bố v.v Các công cụ, kỹ thuật data mining có thể trả lời các câu hỏi mà các công cụ truyền thống đòi hỏi rất nhiều thời gian cần thiết để có thể giải đáp được (thậm chí các cách truyền thống không thể giải được). Nó có thể tìm thấy được những thông tin cực kỳ hữu ích mà rất dễ bị bỏ qua hoặc không xem xét đến để có thể dự đoán những xu thế/hành động xảy ra trong tương lai. Để có thể data mining một cách hiệu quả, điều đầu tiên cần phải thu thập dữ liệu và định nghĩa lại theo các tiêu chí cần phân tích. Các kỹ thuật data mining có thể cài đặt rất nhanh chóng trên các nền tảng phần mềm, phần cứng phổ thông mà không cần đòi hỏi quá phức tạp, tuy vậy data mining thường gắn liền với việc phân tích một khối lượng dữ liệu cực lớn nên cần ứng dụng các công nghệ high performance client/server hoặc xử lý song song (parallel programming). Trang 5/36 K-Means và gom cụm văn bản Vũ Công Tâm I.3 Các bước thực hiện data mining Thu thập, bóc tách, chuẩn hóa dữ liệu và nhập dữ liệu vào hệ thống kho dữ liệu (Datawarehouse). Lưu trữ và quản lý dữ liệu dưới dạng đa chiều. Đưa ra các cơ chế truy xuất cho các ứng dụng phân tích dữ liệu . Sử dụng các phần mềm phân tích để tính toán. Kết xuất dữ liệu dưới dạng dễ hiểu, như biểu đồ hoặc dạng report. Làm sạch dữliệu (data cleaning & preprocessing)s: Thu thập, bóc tách, chuẩn hóa dữ liệu loại bỏ nhiễu và các dữ liệu không cần thiết. Tích hợp dữliệu: (data integration): quá trình hợp nhất dữ liệu thành những kho dữliệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử lý (data cleaning & preprocessing). Trích chọn dữliệu (data selection): trích chọn dữ liệu từ những kho dữ liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức. Quá trình này bao gồm cả việc xửlý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data), .v.v. Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình xử lý Khai phá dữ liệu(data mining): Là một trong các bước quan trọng nhất,trong đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu. Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá các kết quả tìm được thông qua các độ đo nào đó. Trang 6/36 K-Means và gom cụm văn bản Vũ Công Tâm Biểu diễn tri thức (knowledge presentation): Quá trình này sửdụng các kỹ thuật đểbiểu diễn và thểhiện trực quan cho người dùng. I.4 Một số công nghệ thường được dung trong Data Mining Mạng trí tuệ nhân tạo (Artificial neural networks): Đây là mô hình mà hệ thống có thể tự học thông qua đào tạo với tập dữ liệu ban đầu, từ đó suy đoán ra các tập kết quả từ tập dữ liệu mà nó khai thác. Cây quyết định (Decisions Trees): Một tập các decisions biểu diễn dưới dạng cây, các decisions này tạo ra các luật cho việc phân loại tập dữ liệu. Nôm na là, nếu tập thông tin A thõa mãn các luật B thì quyết định C. Giải thuật di truyền (Generic Algorithms): Kỹ thuật này sử dụng trong các quá trình phối hợp, biến đổi, chọn lọc tự nhiên kế thừa từ khái niệm tiến hóa. Phương pháp ông hàng xóm gần nhất (Nearest neighbor method): Đây là kỹ thuật phân loại từng bản ghi/thông tin trong tập dữ liệu dựa trên sự kết hợp của k records có độ giống nhau nhất trong tập dữ liệu quá khứ. Nguyên tắc suy diễn (Rule induction): Kỹ thuật bóc tác dữ liệu dựa trên nguyên tắc Nếu- Thì từ các tập dữ liệu thống kê. I.5 Lợi ích của khai thác dữ liệu Trong tài chính, ngân hàng, khai thác dữ liệu được sử dụng để tạo ra các mô hình rủi ro chính xác đối với các khoản vay và thế chấp. Họ cũng rất hữu ích khi phát hiện các giao dịch gian lận. Trong tiếp thị, kỹ thuật khai thác dữ liệu được sử dụng để cải thiện chuyển đổi, làm tăng sự hài lòng của khách hàng và tạo ra các chiến dịch quảng cáo nhắm mục tiêu.Họ thậm chí có thể được sử dụng khi phân tích các nhu cầu trên thị trường và đến với những ý tưởng cho các dòng sản phẩm hoàn toàn mới. Điều này được thực hiện bằng cách nhìn vào doanh số bán hàng lịch sử và dữ liệu khách hàng và tạo ra các mô hình dự báo mạnh mẽ. Cửa hàng bán lẻ sử dụng thói quen mua sắm của khách hàng / chi tiết để tối ưu hóa bố trí của các cửa hàng của họ để cải thiện trải nghiệm của khách hàng và tăng lợi nhuận. Cơ quan thuế quản lý sử dụng các kỹ thuật khai thác dữ liệu để phát hiện các giao dịch gian lận và duy nhất hiện khai thuế đáng ngờ hoặc các tài liệu kinh doanh khác. Trong sản xuất, dữ liệu phát hiện được sử dụng để cải thiện an toàn sản phẩm, khả năng sử dụng và thoải mái. Các hạn chế của khai phá dữ liệu Trang 7/36 K-Means và gom cụm văn bản Vũ Công Tâm Vẫn có các mối lo ngại về tính riêng tư gắn với việc khai thác dữ liệu. Ví dụ, nếu một ông chủ có quyền truy xuất vào các hồ sơ y tế, họ có thể loại những người có bệnh tiểu đường hay bệnh tim. Việc loại ra những nhân viên như vậy sẽ cắt giảm chi phí bảo hiểm, nhưng tạo ra các vấn đề về tính hợp pháp và đạo đức. Khai thác dữ liệu các tập dữ liệu thương mại hay chính phủ cho các mục đích áp đặt luật pháp và an ninh quốc gia cũng là những mối lo ngại về tính riêng tư đang tăng cao. 5 Có nhiều cách sử dụng hợp lý với khai thác dữ liệu. Ví dụ, một CSDL các mô tả về thuốc được thực hiện bởi một nhóm người có thể được dùng để tìm kiếm sự kết hợp của các loại thuốc tạo ra các phản ứng (hóa học) khác nhau. Vì việc kết hợp có thể chỉ xảy ra trong 1 phần 1000 người, một trường hợp đơn lẻ là rất khó phát hiện. Một dự án liên quan đến y tế như vậy có thể giúp giảm số lượng phản ứng của thuốc và có khả năng cứu sống con người. Không may mắn là, vẫn có khả năng lạm dụng đối với một CSDL như vậy. Về cơ bản, khai thác dữ liệu đưa ra các thông tin mà sẽ không có sẵn được. Nó phải được chuyển đổi sang một dạng khác để trở nên có nghĩa. Khi dữ liệu thu thập được liên quan đến các cá nhân, thì có nhiều câu hỏi đặt ra liên quan đến tính riêng tư, tính hợp pháp, và đạo đức. Khai phá dữ liệu văn bản (textmining) và khai phá dữ liệu web (webmining) TextMining (Khai phá dữliệu văn bản) và WebMining (Khai phá dữliệu Web) là một trong những ứng dụng quan trọng của Datamining. Trong phần này ta sẽ đi sâu hơn vào bài toán này. I.6 Các bài toán trong khai phá dữ liệu văn bản I.6.1 Tìm kiếm văn bản Bài toán: Tìm kiếm văn bản là quá trình tìm kiếm văn bản theo yêu cầu của người dùng.Các yêu cầu được thểhiện dưới dạng các câu hỏi (query), dạng câu hỏi đơn giản nhất là các từkhóa. Có thểhình dung hệtìm kiếm văn bản sắp xếp văn bản thành hai lớp: Một lớp cho ra những các văn bản thỏa mãn với câu hỏi đưa ra và một lớp không hiển thịnhững văn bản không được thỏa mãn. Các hệthống thực tếhiện nay không hiển thị nhưvậy mà đưa ra các danh sách văn bản theo độquan trọng của văn bản tuỳtheo các câu hỏi đưa vào, ví dụ điển hình là các máy tìm tin nhưGoogle, Altavista,… Quá trình Quá trình tìm tin được chia thành bốn quá trình chính : Trang 8/36 K-Means và gom cụm văn bản Vũ Công Tâm Đánh chỉ số(indexing): Các văn bản ởdạng thô cần được chuyển sang một dạng biểu diễn nào đó đểxửlý. Quá trình này còn được gọi là quá trình biểu diễn văn bản, dạng biểu diễn phải có cấu trúc và dẽdàng khi xử lý. Định dạng câu hỏi: Người dùng phải mô tảnhững yêu cầu vềlấy thông tin cần thiết dưới dạng câu hỏi. Các câu hỏi này phải được biểu diễn dưới dạng phổbiến cho các hệtìm kiếm nhưnhập vào các từkhóa cần tìm. Ngoài ra còn có các phương pháp định dạng câu hỏi dưới dạng ngôn ngữtựnhiên hoặc dưới dạng các ví dụ, đối với các dạngnày thì cần có các kỹthuật xửlý phức tạp hơn. Trong các hệtìm tin hiện nay thì đại đa sốlà dùng câu hỏi dưới dạng các từkhóa. So sánh: Hệthống phải có sựso sánh rõ ràng và hoàn toàn câu hỏi các câu hỏi của người dùng với các văn bản đượcl ưu trữtrong CSDL. Cuối cùng hệ đưa ra một quyết định phân loại các văn bản có độliên quan gầnvới câu hỏi đưa vào và thứ tự của nó. Hệ sẽ hiển thịtoàn bộvăn bản hoặc chỉmột phần văn bản. Phản hồi: Nhiều khi kết quả được trảvềban đầu không thỏa mãn yêu cầu của người dùng, do đó cần phải có qua trình phản hồi đểngười dùng có thểt hay đổi lại hoặc nhập mới các yêu cầu của mình. Mặt khác, người dùng có thểtương tác với các hệvềcác văn bản thỏa mãn yêu cầu của mình và hệcó chức năng cập nhậu các văn bản đó. Quá trình này được gọi là quá trình phản hồi liên quan (Relevance feeback). Các công cụ tìm kiếm hiện nay chủyếu tập trung nhiều vào ba quá trình đầu,còn phần lớn chưa có quá trình phản hồi hay xửlý tương tác người dùng và máy. Quá trình phản hồi hiện nay đang được nghiên cứu rộng rãi và riêng trong quá trình tương tác giao diện người máy đã xuất hiện hướng nghiên cứu là interface agent. I.6.2 Phân lớp văn bản(Text Categoization) Bài toán: Phân lớp văn bản được xem nhưlà quá trình gán các văn bản vào một hay nhiều văn bản đã xác định từtrước. Người ta có thểphân lớp các văn bản mộtc ách thủ công, tức là đọc từng văn bản một và gán nó vào một lớp nào đó. Cách này sẽtốn rất nhiều thời gian và công sức đối với nhiều văn bản và do đó không khảthi. Do vậy mà phải có các phương pháp phân lớp tự động. Đểphân lớp tự động người ta sửdụng các phương pháp học máy trong trí tuệnhân tạo (Cây quyết định, Bayes, k người láng giềng gần nhất) Một trong những ứng dụng quan trọng nhất của phân lớp văn bản là trong tìm kiếm văn bản. Từmột tập dữliệu đã phân lớp các văn bản sẽ được đánh chỉsố đôí với từng lớp tương ứng. Người dùng có thểxác định chủ đềhoặc phân lớp văn bản mà mình mong muốn tìm kiếm thông qua các câu hỏi. Một ứng dụng khác của phân lớp văn bản là trong lĩnh vực tìm hiểu văn bản. Trang 9/36 K-Means và gom cụm văn bản Vũ Công Tâm Phân lớp văn bản có thể được sửdụng đểlọc các văn bản hoặc một phần các văn bản chứa dữliệu cần tìm mà không làm mất đi tính phức tạp của ngôn ngữtựnhiên. Trong phân lớp văn bản, một lớp có thể được gán giá trị đúng sai (True hay False hoặc văn bản thuộc hay không thuộc lớp) hoặc được tính theo mức độ phụ thuộc (văn bản có môt mức độphụthuộc vào lớp). Trong trương hợp có nhiều lớp thì phân loại đúng sai sẽlà việc xem một văn bản có thuộc vào một lớp duy nhất nào đó hay không Quá trình: Đánh chỉ số(Indexing): Quá trình đánh chỉsốvăn bản cũng giống như trong quá trình đánh chỉsốcủa tìm kiếm văn bản. Trong phần này thì tốc độ đánh chỉ số đóng vai trò quan trọng vì một sốcác văn bản mới có thể cần đươc xửlý trong thời gían thực Xác định độphân lớp:Cũng giống nhưtrong tìm kiếm văn bản, phân lớp văn bản yêu cầu quá trình diễn tảviệc xác định văn bản đó thuộc lớp nào đó nhưthếnào, dựa trên cấu trúc biểu diễn của nó. Đối với hệphân lớp văn bản, chúng ta gọi quá trình này là bộphân lớp (Categorization hoặc classifier). Nó đóng vai trò nhưnhững câu hỏi trong hệtìm kiếm. Nhưng trong khi những câu hỏi mang tính nhất thời, thì bộphân loại được sửdụng một cách ổn định và lâu dài cho quá trình phân loại. So sánh:Trong hầu hết các bộphân loại, mỗi văn bản đều được yêu cầu gán đúng sai vào một lớp nào đó. Sựkhác nhau lớn nhất đối với quá trình so sánh trong hệtìm kiếm văn bản là mỗi văn bản chỉ được so sánh với một sốlượng các lớp một lần và việcc họn quyết đnịh phù hợp còn phụthuộc vào mối quan hệgiữa các lớp văn bản. Phản hồi (Hay thích nghi):Quá trình phản hồi đóng vai trò trong hệphân lớp văn bản. Thứnhất là khi phân loại thì phải có môt sốlượng lớn các văn bản đã được xếp loại bằng tay trước đó, các văn bản này được sửdụng làm mẫu huấn luyện đểhỗtrợxây dựng bộphân loại. Thứhai là đối với việc phân loại văn bản này không dễdàng thay đổi các yêu cầu nhưtrong quá trình phản hồi của tìm kiếm văn bản , người dùng có thểthông tin cho người bảo trì hệthống về việc xóa bỏ, thêm vào hoặc thay đổi các phân lớp văn bản nào đó mà mình yêu cầu. I.6.3 Khai phá dữ liệu Web Nhu cầu Sự phát triển nhanh chóng của mạng Internet và Intranet đã sinh ra một khối lượng khổng lồcác dữliệu dạng siêu văn bản(dữliệu Web). Cùng với sựthay đổi và phát triển hàng ngaỳhàng giờvềnội dung cũng nhưsốlượng của các trang Web trên Internet thì vấn đềtìm kiếm thôn g tin đối với người sửdụng lại ngày càng khó khăn.Có thểnói nhu cầu tìm kiếm thông tin trên môt CSDL phi cấu trúc đã được phát triển chủyếu cùng với sựphát triển của Internet. Thực vậy với Internet con người đã làm quen với các trang Web cùng với vô vàn các thông tin. Trong những năm gần đây Intrnet đã trởthành một trong những kênh vềkhoa học, thông tin kinh tế, thương mại Trang 10/36 [...]... thực hiện gom các đối tượng có cùng tính chất hay có các tính chất gần giống nhau thành nhóm) Trang 14/36 K-Means và gom cụm văn bản Vũ Công Tâm Ví dụ: Phân loại học sinh trong một lớp theo điểm số thành 5 nhóm giỏi, khá, trung bình khá, trung bình, yếu Những học sinh có điểm từ 8-1 0 phân vào nhóm giỏi, từ 7-8 phân vào nhóm khá, 6-7 phân vào nhóm trung bình khá, 5-6 nhóm TB, 5 trở xuống vào nhóm yếu... phương pháp Phương pháp gom cụm K-Means Thuật toán K-Medoid Thuật toán Dendrogram Thuật toán SOM Thuật toán EM ……………………………………………………… Trang 25/36 K-Means và gom cụm văn bản Vũ Công Tâm Các thuật toán được dùng nhiều cho việc gom nhóm PHẦN BA THUẬT TOÁN K-MEANS Theo bảng khảo sát trên thì thuật toán K-Means được dùng khá phổ biến trong việc gom nhóm đối tượng và văn bản là một loại đối tượng cụ thể Vì... năng phân nhóm văn bản và dung thuật toán K-Means để thực thi ý tưởng Ứng dụng là một trang web, tạo sự dễ dàng phổ biến cho mội người sử dụng vì không cần cài đặt Địa chỉ truy cập: http://docmining.banhmicay.com.vn/ Chức năng chính:  Nhập văn bản hoặc nhâp tập tin văn bản (dạng txt hoặc doc, docx) và chương trình sẽ phân tích và gom nhóm những văn bản đã nhập  Đề xuất tựa đề cho mỗi đoạn văn bản và. .. quả) Trang 33/36 K-Means và gom cụm văn bản Vũ Công Tâm Để tránh bị biến dạng gây ra bởi sự chênh lệch quá nhiều, trung bình có thể được sử dụng thay cho PHẦN BỐN CHƯƠNG TRÌNH PHÂN LOẠI VĂN BẢN VÀ PHÂN LỚP WEB Lời giới thiệu Do nhu cầu thiết thực cần có một chương trình có thể gom nhóm văn bản hoặc phân lớp văn bản, sau khi học xong môn khai phá dữ liệu của thầy Phúc, em đã bắt tay vào xây dựng một... 4 0 3 Trang 22/36 K-Means và gom cụm văn bản Vũ Công Tâm 8 5 3 0 B4: - Lặp lại bước 2, khoảng cách của nhóm 5 và nhóm 4 là nhỏ nhất d(5,4)=3 - Lặp lại bước 3, Ta sẽ gộp nhóm 4 và 5 thành một nhóm Khi đó ta sẽ cập nhật lại ma trận khoảng cách mới là D2 + xoá cột 4 và dòng 4 của nhóm 4 Xoá cột 5 và dòng 5 của nhóm 5 + Thêm một dòng và một cột để lưư khoảng cách của nhóm (45) tớ các nhóm khác Ta tính... tâm đầu tiên và hàng thứ hai là khoảng cách mỗi đối tượng trọng tâm thứ hai Ví dụ, khoảng cách từ C = (4, 3) là centroid đầu tiên Trang 29/36 K-Means và gom cụm văn bản Vũ Công Tâm C1=(1,1) là : Và khoảng cách từ C2=(2,1) là: Đối tượng phân nhóm: Chúng ta gán mỗi đối tượng dựa vào khoảng cách tối thiểu Vì vậy, nhóm thuốc A là vào nhóm 1, Nhóm thuốc B,C và D vào nhóm nhóm 2 Các phần tử của nhóm ma trận... dụ: Bảng hồ sơ bệnh nhân Name(tên) Gender(giới tính) Fever(ho) Cough(sốt) Test-1 Test-2 Test-3 Test-4 Jack M Y N P N N N Mary F Y N P N P N Jim M Y P N N N N Có 8 thuộc tính Name, Gender, Fever, Cough, Test-1, Test-2, Test-3, Test-4 trong đó: o Gender là thuộc tính nhị phân đối xứng Trang 18/36 K-Means và gom cụm văn bản Vũ Công Tâm o Các thuộc tính còn lại là nhị phân bất đối xứng Ta gán các trị Y và. .. Trang 20/36 K-Means và gom cụm văn bản Vũ Công Tâm de cde abcde Step 4 Step 3 Step 2 Step 1 Step 0 Phân chia- divisive Phương pháp từ dưới lên: Các bước thực hiện: B1: Tạo n nhóm, mỗi nhóm gồm một đối tượng và lập ma trận khoảng cách cấp n B2:Tìm 2 nhóm u,v có khoảng cách nhỏ nhất (duv) B3: Gộp nhóm u với nhóm v Ký hiệu nhóm mới là (uv) Lập ma trận khoảng cách mới bằng cách: + Loại các hàng và cột tương... bằng 1 và trị N được gán bằng 0 Tính khoảng cách giữa các bệnh nhân dựa vào các bất đối xứng dùng hệ số Jacard ta có bảng giá trị như sau: name Fever Cough Test-1 Test-2 Test-3 Test-4 Jack 1 0 1 0 0 0 Marry 1 0 1 0 1 0 Jim 1 1 0 0 0 0 Tính d(Jack,Marry): • Bảng dữ liệu dạng nhị phân: Marry sum 1 0 1 2 0 2 0 1 3 4 sum 3 3 6 Jack Từ bảng ta có:a=2, b=0, c=1, d=3 Trang 19/36 K-Means và gom cụm văn bản Vũ... 31/36 K-Means và gom cụm văn bản Vũ Công Tâm Lặp đi lặp lại 2, xác định trọng tâm: Bây giờ chúng ta lặp lại bước 4 để tính toán trọng tâm mới phối hợp dựa trên các phân nhóm của sự lặp lại trước đó Nhóm1 và nhóm 2 đều có hai thành viên: Lặp đi lặp lại-2, đối tượng trọng tâm khoảng cách: Lặp lại bước 2 một lần nữa, chúng ta có ma trận khoảng cách mới lặp đi lặp lại 2 như sau: Trang 32/36 K-Means và gom . K-Means và gom cụm văn bản Vũ Công Tâm K-MEANS - GOM NHÓM VĂN BẢN VÀ PHÂN LOẠI WEB (Vũ Công Tâm, 1 1-2 012) Lời nói đầu Từ ngày máy tính ra đời và đặc biệt là internet xuất. khác của phân lớp văn bản là trong lĩnh vực tìm hiểu văn bản. Trang 9/36 K-Means và gom cụm văn bản Vũ Công Tâm Phân lớp văn bản có thể được sửdụng đểlọc các văn bản hoặc một phần các văn bản chứa. 5 nhóm giỏi, khá, trung bình khá, trung bình, yếu. Những học sinh có điểm từ 8-1 0 phân vào nhóm giỏi, từ 7-8 phân vào nhóm khá, 6-7 phân vào nhóm trung bình khá, 5-6 nhóm TB, 5 trở xuống vào