Nhom1 64cs1 khaiphadulieu

39 3 0
Nhom1 64cs1 khaiphadulieu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC XÂY DỰNG HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN -o0o - Bài Tập Lớn: Khai Phá Dữ Liệu Phân cụm dựa mật độ Giảng viên hướng dẫn: Phạm Hồng Phong Sinh viên thực hiện: Lớp 64CS1- Nhóm Nguyễn Thị Lan Anh 10264 Vũ Duy Đan 44764 Đào Việt Cường 28264 Phạm Huy Hưng 94464 Trần Duy Khánh 1655864 Hà Nội, ngày 01/12/2022 Mục Lục Mục Lục Mở đầu CHƯƠNG I: TỔNG QUAN VỀ BÀI TOÁN PHÂN CỤM Tổng quan a Học có giám sát b Học khơng có giám sát c Học bán giám sát d Học tăng cường Các toán học khơng giám sát Bài tốn phân cụm Độ đo, cách đánh giá toán phân cụm a Độ đo bóng (Silhouette) b Độ đo Davies-Bouldin CHƯƠNG II: BÀI TOÁN PHÂN CỤM DỰA TRÊN MẬT ĐỘ Thuật toán DBSCAN a Ý tưởng b Các định nghĩa thuật toán sử dụng c Phân loại dạng điểm DBSCAN c Các bước thuật toán DBSCAN d Mã giả e Xác định tham số f Độ phức tạp OPTICS: Ordering Points to Identify the Clustering Structure DENCLUE: Clustering Based on Density Distribution Functions 11 a Giới thiệu thuật toán DENCLUE 11 b Điểm thu hút mật độ độ dốc 12 c Tìm điểm trung tâm 14 d Cụm dựa mật độ 14 e Thuật toán DENCLUE 14 Thuật toán K-means 16 a Điều kiện hội tụ (điều kiện dừng thuật toán) 16 b Xác định điểm trung tâm cluster 16 c Phép đo khoảng cách 17 d Một số ảnh hưởng đến thuật toán K-means 17 So sánh 18 CHƯƠNG III: THỰC NGHIỆM & ĐÁNH GIÁ Mô tả liệu 21 21 a Mall Customer Segmentation Data 21 b Country Data 22 c Facebook Live sellers in Thailand 23 Áp dụng mơ hình vào liệu 24 a Mall Customer Segmentation Data 24 b liệu lại 27 KẾT LUẬN 31 Danh mục hình ảnh 32 Danh mục bảng 32 Tài liệu tham khảo 33 Mở đầu Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin nhiều lĩnh vực của đời sống, kinh tế xã hội nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được các cơ quan thu thập và lưu trữ ngày một tích luỹ nhiều lên Họ lưu trữ các dữ liệu này vì cho rằng nó ẩn chứa những giá trị nhất định nào đó Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ của những dữ liệu này (khoảng từ 5% đến 10%) là luôn được phân tích, số còn lại họ không biết sẽ phải làm gì hoặc có thể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó Mặt khác, môi trường cạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có Với những lý như vậy, các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD - Knowledge Discovery and Data Mining) Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và được nghiên cứu, ứng dụng nhiều lĩnh vực khác ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻ nhiên cũng được nghiên cứu và dần đưa vào ứng dụng Bước quan trọng nhất của quá trình này là Khai phá dữ liệu (Data Mining DM), giúp người sử dụng thu được những tri thức hữu ích từ những CSDL hoặc các nguồn dữ liệu khổng lồ khác Rất nhiều doanh nghiệp và tổ chức trên thế giới đã ứng dụng kĩ thuật khai phá dữ liệu vào hoạt động sản xuất kinh doanh của mình và đã thu được những lợi ích to lớn Nhưng để làm được điều đó, sự phát triển của các mô hình toán học và các giải thuật hiệu quả là chìa khoá quan trọng Vì vậy, báo cáo này, sẽ đề cập tới kỹ huật thường dùng Khai phá dữ liệu, đó Phân cụm (Clustering hay Cluster Analyse) Bố cục báo cáo Ngoài các phần Mở đầu, Mục lục, Danh mục hình, Danh mục bảng, Kết luận, Tài liệu tham khảo, báo cáo được chia làm phần: Chương I: Tổng quan về toán phân cụm Phần này giới thiệu một cách tổng quát về học máy (Machine Learning) nói chung và khai phá dữ liệu nói riêng Đặc biệt nhấn mạnh về kỹ thuật chính được nghiên cứu báo cáo đó là Kỹ thuật phân cụm độ đo, cách đánh giá toán Chương II: Bài toán phân cụm dựa mật độ Trong phần này, kỹ thuật phân cụm dựa mật độ được giới thiệu một cách chi tiết Có nhiều thuật toán phân cụm dựa mật độ như DBSCAN, OPTICS, DENCLUE Ngoài còn so sánh giống khách thuật toán Chương III: Thực nghiệm đánh giá Phần này trình bày một số kết quả đã đạt được tiến hành áp dụng các giải thuật khai phá dữ liệu để khai thác thông tin dữ liệu mẫu CHƯƠNG I: TỔNG QUAN VỀ BÀI TOÁN PHÂN CỤM Tổng quan Học máy (Machine Learning) ngành khoa học nghiên cứu thuật toán cho phép máy tính học khái niệm (concept) Phân loại: Có hai loại phương pháp học máy - Phương pháp quy nạp: Máy học/phân biệt khái niệm dựa liệu thu thập trước Phương pháp cho phép tận dụng nguồn liệu nhiều sẵn có Phương pháp suy diễn: Máy học/phân biệt khái niệm dựa vào luật Phương pháp cho phép tận dụng kiến thức chuyên ngành để hỗ trợ máy tính Hiện nay, thuật toán cố gắng tận dụng ưu điểm hai phương pháp Các ngành khoa học liên quan: - Lý thuyết thống kê: kết xác suất thống kê tiền đề cho nhiều phương pháp học máy Đặc biệt, lý thuyết thống kê cho phép ước lượng sai số phương pháp học máy Các phương pháp tính: thuật tốn học máy thường sử dụng tính tốn số thực/số nguyên liệu lớn Trong đó, tốn như: tối ưu có/khơng ràng buộc, giải phương trình tuyến tính v.v… sử dụng phổ biến Khoa học máy tính: sở để thiết kế thuật toán, đồng thời đánh giá thời gian chạy, nhớ thuật tốn học máy Các nhóm giải thuật học máy: a Học có giám sát Các nhà khoa học liệu cung cấp cho thuật toán liệu đào tạo gắn nhãn xác định để đánh giá mối tương quan Dữ liệu mẫu định đầu vào kết thuật tốn Ví dụ: Hình ảnh chữ số viết tay thích để số tương ứng với hình ảnh Một hệ thống học có giám sát nhận cụm điểm ảnh hình dạng liên quan tới số, cung cấp đủ ví dụ Cuối cùng, hệ thống nhận chữ số viết tay, phân biệt số và cách đáng tin cậy Ưu điểm học có giám sát tính đơn giản thiết kế dễ dàng Cách học hữu ích dự đốn số lượng kết có giới hạn, phân loại liệu kết hợp kết thu từ thuật toán máy học khác Tuy nhiên, việc gắn nhãn hàng triệu tập liệu khơng có nhãn lại thách thức b Học khơng có giám sát Thuật tốn học khơng có giám sát đào tạo dựa liệu khơng gắn nhãn Các thuật tốn qt liệu mới, cố gắng thiết lập kết nối có ý nghĩa liệu đầu vào kết định sẵn Chúng phát khn mẫu phân loại liệu Ví dụ: thuật tốn khơng có giám sát nhóm viết từ nhiều trang tin tức khác theo mục phổ biến thể thao, hình sự, v.v Chúng dùng phương thức xử lý ngôn ngữ tự nhiên để thấu hiểu ý nghĩa cảm xúc viết Học giám sát hữu ích việc phát khuôn mẫu bất thường, tự động nhóm liệu theo hạng mục Vì liệu đào tạo không cần gắn nhãn nên việc thiết lập học khơng giám sát dễ dàng Các thuật tốn sử dụng để làm xử lý liệu nhằm tự động dựng mô hình chuyên sâu Giới hạn phương pháp thuật tốn khơng thể đưa dự đốn xác Thêm vào đó, phương pháp khơng thể tự tách biệt số loại kết liệu cụ thể c Học bán giám sát Đúng tên gọi mình, phương pháp kết hợp học có giám sát lẫn khơng có giám sát Kỹ thuật dựa vào lượng nhỏ liệu gắn nhãn lượng lớn liệu không gắn nhãn để đào tạo hệ thống Đầu tiên, liệu gắn nhãn sử dụng để đào tạo phần thuật tốn máy học Sau đó, thuật tốn đào tạo phần tự gắn nhãn cho liệu chưa gắn nhãn Quá trình gọi giả gắn nhãn Mơ hình sau đào tạo lại hỗn hợp liệu kết mà khơng lập trình cụ thể Ưu điểm phương pháp bạn không cần lượng lớn liệu gắn nhãn Phương pháp hữu ích làm việc với loại liệu tài liệu dài tốn nhiều thời gian để có người đọc gắn nhãn d Học tăng cường Học tăng cường phương pháp có giá trị thưởng gắn với bước khác mà thuật toán phải trải qua Mục tiêu mơ hình tích lũy nhiều điểm thưởng hết mức cuối đạt mục tiêu cuối Hầu hết ứng dụng thực tiễn học tăng cường thập niên vừa qua nằm lĩnh vực trò chơi điện tử Các thuật toán học tăng cường tiên tiến đạt kết ấn tượng trò chơi cổ điển đại, thường có kết vượt xa đối thủ người chúng Mặc dù phương pháp hoạt động tốt môi trường liệu khơng chắn phức tạp, triển khai bối cảnh kinh doanh Phương pháp không hiệu tác vụ xác định rõ thiên kiến nhà phát triển ảnh hưởng tới kết Vì nhà khoa học liệu người thiết kế phần thưởng, họ tác động tới kết Các tốn học khơng giám sát Các tốn Unsupervised learning tiếp tục chia nhỏ thành hai loại: - - Clustering (phân nhóm): Một tốn phân nhóm tồn liệu X thành nhóm nhỏ dựa liên quan liệu nhóm Ví dụ: phân nhóm khách hàng dựa hành vi mua hàng Điều giống việc ta đưa cho đứa trẻ nhiều mảnh ghép với hình thù màu sắc khác nhau, ví dụ tam giác, vng, trịn với màu xanh đỏ, sau u cầu trẻ phân chúng thành nhóm Mặc dù khơng cho trẻ biết mảnh tương ứng với hình màu nào, nhiều khả chúng phân loại mảnh ghép theo màu hình dạng Association: Là toán muốn khám phá quy luật dựa nhiều liệu cho trước Ví dụ: khách hàng nam mua quần áo thường có xu hướng mua thêm đồng hồ thắt lưng dựa vào tạo hệ thống gợi ý khách hàng (Recommendation System), thúc đẩy nhu cầu mua sắm Bài toán phân cụm Clustering kỹ thuật phổ biến học tập không giám sát, nơi liệu nhóm dựa giống điểm liệu Clustering có nhiều ứng dụng đời thực, nơi sử dụng nhiều tình khác Nguyên tắc phân cụm việc gán tập hợp quan sát định thành nhóm cụm cho quan sát diện cụm có mức độ giống Đó việc thực khả nhận thức người để phân biệt đối tượng dựa chất chúng Đây phương pháp học khơng giám sát khơng có nhãn bên gắn vào đối tượng Máy phải tự học đặc trưng mẫu mà không cần ánh xạ đầu vào-đầu Thuật tốn trích xuất suy luận từ chất đối tượng liệu sau tạo lớp riêng biệt để nhóm chúng cách thích hợp Trong Machine learning Clustering, thuật toán chia tập hợp thành nhóm khác cho điểm liệu tương tự với điểm liệu nhóm khác với điểm liệu nhóm khác Trên sở giống khơng giống nhau, sau phân nhóm thích hợp cho đối tượng Các loại thuật toán phân cụm: - Partitioning Based Clustering (Phân cụm dựa phân vùng) Hierarchical Clustering (Phân cụm thứ bậc) Model-Based Clustering (Phân cụm dựa mô hình) Density-Based Clustering (Phân cụm dựa mật độ) Fuzzy Clustering (Phân cụm mờ) Độ đo, cách đánh giá toán phân cụm Các độ đo chất lượng phân cụm phân thành loại là: - - - Đánh giá ( internal evaluation): Kết phân cụm đánh giá dựa liệu phân cụm cách sử dụng đại lượng đánh giá gắn kết cụm mật độ ( density), khoảng cách phần tử bên cụm hay khoảng cách cụm với nhau, Hướng tiếp cận loại dựa tiêu chí: thuật tốn phân cụm tốt thuật toán tạo cụm mà phần tử bên cụm có độ tương tự với lớn độ tương tự với phần tử bên nhỏ Đánh giá ( external evaluation ): Kết phân cụm đánh giá dựa tập liệu chuẩn(mẫu) phân từ trước Hướng tiếp cận loại đánh giá mức độ tương đồng việc phân cụm thuật toán với tập liệu chuẩn Đánh giá quan hệ ( relative evalution ): Đánh giá việc phân cụm cách so sánh với kết phân cụm khác sinh thuật toán với giá trị tham số khác a Độ đo bóng (Silhouette) Giả sử liệu chia thành 𝑘 cụm: Với điểm liệu 𝑖 đặt: - 𝑎(𝑖) khoảng cách trung bình từ 𝑖 tới tất điểm liệu cụm với 𝑖 𝑏(𝑖) khoảng cách trung bình ngắn từ 𝑖 tới cụm khơng chứa 𝑖 Cụm tương ứng với 𝑏(𝑖) gọi cụm hàng xóm 𝑖 Khi đó: 𝑠(𝑖 ) = 𝑏(𝑖)−𝑎(𝑖) 𝑚𝑎𝑥⁡{𝑎(𝑖),𝑏(𝑖)} [1] 𝑠(𝑖) nằm đoạn [− 1, 1] 𝑠(𝑖) gần điểm liệu 𝑖 phù hợp với cụm mà phân vào 𝑠(𝑖) = khơng thể xác định 𝑖 nên thuộc cụm cụm cụm hàng xóm 𝑠(𝑖) gần -1 chứng tỏ 𝑖 bị phân sai cụm, nên thuộc cụm hàng xóm khơng phải cụm b Độ đo Davies-Bouldin Độ đo Davies-Bouldin tính theo cơng thức: 𝐷𝐵 = 𝑛 𝑛 ( ∑ 𝑀𝑎𝑥𝑖≠𝑗 𝑖=1 σ𝑖+σ𝑗 𝑑(𝑐𝑖,𝑐𝑗) ) [2] Trong đó: - 𝑛 số cụm c trọng tâm cụm 𝑥 σ𝑥 trung bình khoảng cách tất phần tử cụm 𝑥 tới trọng tâm 𝑐𝑥 - 𝑑(𝑐𝑖, 𝑐𝑗) khoảng cách trọng tâm cụm 𝑖 𝑗 Giá trị 𝐷𝐵 nhỏ chất lượng phân cụm tốt CHƯƠNG II: BÀI TOÁN PHÂN CỤM DỰA TRÊN MẬT ĐỘ Thuật toán DBSCAN a Ý tưởng DBSCAN (Density-based spatial clustering of applications with noise) [1] [2] thuật tốn sở để phân nhóm dựa mật độ Nó phát cụm có hình dạng kích thước khác từ lượng lớn liệu chứa nhiễu Các cụm vùng dày đặc không gian liệu, phân tách vùng có mật độ điểm thấp Thuật toán DBSCAN dựa khái niệm "cụm" "nhiễu" Ý tưởng điểm cụm, vùng lân cận bán kính định phải chứa số điểm tối thiểu Hình 1: Các cụm liệu có hình cầu lồi Phương pháp phân vùng (K-MEANS, phân cụm PAM) công việc phân cụm phân cấp để tìm cụm hình cầu cụm lồi Nói cách khác, chúng phù hợp cho cụm nhỏ gọn phân tách tốt Hơn nữa, chúng bị ảnh hưởng nghiêm trọng diện điểm nhiễu ngoại lệ liệu Dữ liệu thực tế có điểm bất thường như: - Các cụm có hình dạng tùy ý Dữ liệu chứa nhiễu Phân cụm k-means phụ thuộc nhiều vào số lượng cụm định Không cần định số lượng cụm từ trước K-means xử lý hiệu liệu lớn DBSCAN xử lý không hiệu liệu nhiều chiều K-means không hoạt động tốt với liệu chứa nhiều ngoại lệ nhiễu DBSCAN xử lý hiệu ngoại lệ liệu chứa nhiễu Thuật tốn gây vấn đề điểm dị thường gán cho cụm điểm liệu “bình thường” Xác định vùng có mật độ cao tách với vùng có mật độ thấp Mật độ khác điểm liệu không ảnh hưởng đến thuật tốn DBSCAN khơng hoạt động tốt cho liệu thưa thớt cho điểm liệu với mật độ khác Yêu cầu tham số: Số lượng cụm (K) Yêu cầu tham số: epsilon MinPts - Tham số - Epsilon: Là giá trị khoảng cách sử dụng để xác định vùng lân cận epsilon điểm liệu MinPts: Là số lượng tối thiểu điểm liệu bán kính ‘ε’ Số lượng MinPts khơng bao gồm điểm tâm 𝑂(𝑘 𝑛 𝑙) 𝑂(𝑛 ) Với: Độ phức tạp - k số cụm - n số điểm liệu - l số lần lặp Bảng 2: So sánh K-mean với OPTICS DENCLUE Thuật toán OPTICS Đặc điểm Thuật toán DENCLUE Thuật toán mở rộng thuật tốn DBSCAN Các cụm hình thành có hình dạng tùy ý khơng có kích thước đặc điểm Thuật tốn khơng phân cụm điểm liệu mà tính tốn xếp Không cần định số lượng cụm từ trước phụ thuộc vào tham số ε 20 điểm liệu theo thứ tự tăng dần nhằm tự động phân cụm liệu phân tích cụm tương tác đưa phân cụm tập liệu rõ ràng (khoảng cách tối đa điểm lân cận cụm) Giải thuật OPTICS tạo lập trật tự của một cơ sở dữ liệu, thêm vào đó là lưu trữ khoảng cách nòng cốt và một khoảng cách tiếp cận phù hợp với mỡi đối tượng Mỗi điểm liệu thu hút điểm thu hút Điều bị phụ thuộc tham số truyền vào Ngưỡng mật độ tối thiểu Epsilon lân cận Kỹ thuật phân cụm OPTICS không Xử lý hiệu ngoại lệ cần trì tham số epsilon liệu chứa nhiễu cung cấp mã giả để giảm thời gian thực hiện. Điều dẫn đến việc giảm q trình phân tích điều chỉnh tham số Kỹ thuật phân cụm OPTICS yêu cầu nhiều nhớ trì hàng đợi ưu tiên (Min Heap) để xác định điểm liệu gần với điểm xử lý theo Khoảng cách tiếp cận.  Tham Yêu cầu tham số: epsilon MinPts số - Epsilon: Là giá trị khoảng cách sử dụng để xác định vùng lân cận epsilon điểm liệu - MinPts: Là số lượng tối thiểu điểm liệu bán kính ‘ε’ Số lượng MinPts khơng bao gồm điểm tâm Độ phức tạp O(nLogn) (n kích thước tập liệu) 21 Không hoạt động tốt cho liệu thưa thớt cho điểm liệu với mật độ khác Yêu cầu tham số: ξ ε - ξ ngưỡng mật độ tối thiểu - Epsilon ε Là giá trị khoảng cách sử dụng để xác định vùng lân cận điểm liệu 𝑂(𝑛 ) CHƯƠNG III: THỰC NGHIỆM & ĐÁNH GIÁ Mô tả liệu Nhóm lựa chọn liệu sau để so sánh với thuật toán K-means, DBSCAN, OPTICS, DENCLUE, liệu thiệu đây: a Mall Customer Segmentation Data Bộ liệu tạo nhằm mục đích để phân khúc khách hàng, thông qua thẻ khách hàng trung tâm thương mại, liệu bao gồm thông tin khách hàng ID khách hàng, tuổi, giới tính, thu thập hàng năm điểm chi tiêu [3] Mục đích liệu tìm hiểu khách hàng, muốn tìm nhóm đối tượng khách hàng để đưa cho đội tiếp thị từ vạch chiến lược kinh doanh phù hợp Bộ liệu bao gồm thông tin 200 khách hàng, chứa trường liệu sau: Bảng 3: Thông tin trường liệu Mall Customer Tên trường Mô tả CustomerID Mã định danh khách hàng Gender Giới tính Age Tuổi Annual Income (k$) Thu nhập hàng tháng (đơn vị nghìn $) Spending Score (1-100) Điểm tiêu dùng (theo thang 100) Dựa vào đồ thị tương quan trường liệu, nhóm chọn trường để thực phân cụm trường Annual Income Spending Score Hình 11: Đồ thị tương quan trường liệu tập Mall Customer 22 b Country Data Bộ liệu thu thập HELP International tổ chức phi phủ nhân đạo quốc tế cam kết chống đói nghèo cung cấp cho người dân nước lạc hậu tiện nghi cứu trợ thời gian xảy thảm họa thiên tai Mục tiêu liệu để phân loại quốc gia sử dụng yếu tố kinh tế xã hội y tế để định phát triển chung đất nước Cụ thể, HELP International huy động khoảng 10 triệu đô la Bây Giám đốc điều hành tổ chức phi phủ cần định cách sử dụng số tiền cách chiến lược hiệu Vì vậy, CEO phải đưa định lựa chọn quốc gia cần viện trợ Do đó, Cơng việc bạn với tư cách Nhà khoa học liệu phân loại quốc gia cách sử dụng số yếu tố kinh tế xã hội sức khỏe định phát triển chung quốc gia Sau đó, bạn cần đề xuất quốc gia mà CEO cần tập trung vào [4] Bộ liệu bao gồm 167 quốc gia 10 trường liệu: Bảng 4: Thông tin trường liệu liệu Coutry data Tên trường Mô tả country Tên quốc gia child_mort Tỉ lệ số trẻ em tuổi tử vong 1000 trẻ exports Xuất hàng hóa dịch vụ bình quần đầu người Được tính theo %tuổi theo GPD bình quân đầu người health Tổng chi y tế bình qn đầu người Được tính theo %tuổi GDP bình quân đầu người imports Nhập hàng hóa dịch vụ bình qn đầu người Được tính theo %tuổi GDP bình qn đầu người Income Thu nhập ròng người Inflation Phép đo tốc độ tăng trưởng hàng năm Tổng GDP life_expec Số năm trung bình mà đứa trẻ sinh sống mơ hình tử vong khơng đổi total_fer Số mà phụ nữ sinh tỷ suất sinh theo tuổi không đổi gdpp GDP bình qn đầu người Được tính Tổng GDP chia cho tổng dân số Đối với liệu này, nhóm sử dụng ma trận tương quan để xác định trường liệu cần sử dụng 23 Hình 12: Ma trận tương quan trường liệu Country data Từ ma trận, nhóm xác định điểm có độ tương quan dương cao gdpp income với 0.9, total_fer child_mort với 0.85, imports exports với 0.74 Nhóm chọn cặp tương quan để xem cụm tạo từ liệu ban đầu Vì nhóm lựa chọn phân nhóm GDPP với Child Mortality GDPP với Imports c Facebook Live sellers in Thailand Bộ liệu bao gồm 7050 đăng Facebook thuộc nhiều loại khác (văn bản, video trả lại video trực tiếp, hình ảnh) Những đăng trích xuất từ Facebook 10 trang bán lẻ thời trang mỹ phẩm Thái Lan từ tháng năm 2012 đến tháng năm 2018 Tập liệu thu thập qua API Facebook ẩn danh theo Chính sách tảng Facebook dành cho nhà phát triển Đối với đăng Facebook, liệu ghi lại số tương tác kết bao gồm lượt chia sẻ, bình luận phản ứng biểu tượng cảm xúc, phân biệt “lượt thích” truyền thống với biểu tượng cảm xúc, “yêu”, “wow”, “haha”, “buồn " tức giận" Tập liệu làm sở cho nghiên cứu mức độ tương tác khách hàng với kênh bán hàng Facebook Live, thông qua nghiên cứu so sánh với dạng nội dung khác (văn bản, video hình ảnh), phân tích thống kê tính thời vụ tương tác viết ngoại lệ [5] Bảng 5: Thông tin trường liệu Facebook Live sellers in Thailand Tên trường Mô tả status_id Mã định danh viết status_type Kiểu đăng (ảnh, video, liên kết, trạng thái) status_published Thời gian đăng 24 num_reactions Số lượng cảm xúc num_comments Số lượng bình luận num_shares Số lượng chia sẻ num_likes Số lượng thích num_loves Số lượng thả tim num_wows Số lượng wow num_hahas Số lượng haha Dựa vào bảng mơ tả, nhóm loại bỏ status_id, status_published trường chứa thông tin không cần thiết để phân cụm, sử dụng hết trường lại, đặc biệt liệu kèm nhãn status_type nên nhóm sử dụng để so sánh với kết mơ hình, sử dụng độ xác với độ đo mà nhóm đề xuất Áp dụng mơ hình vào liệu a Mall Customer Segmentation Data Đối với thuật toán K-means để xác định số cụm tốt nhất, nhóm sử dụng phương pháp Elbow (cùi trỏ) để tìm số cụm tối ưu Phương pháp Elbow cách giúp ta lựa chọn số lượng cụm phù hợp dựa vào đồ thị trực quan hoá cách nhìn vào suy giảm hàm biến dạng lựa chọn điểm khuỷ tay (elbow point) Hình 13: Phương pháp Elbow thuật toán K-means Từ đồ thị chọn điểm từ đến số cụm tối ưu, nhóm thử trường hợp thấy cụm số cụm cho cụm trực quan rõ ràng 25 Hình 14: Thuật toán K-means với số cụm liệu Mall Customer Hình 15: Thuật toán K-means với số cụm liệu Mall Customer Độ đo bóng độ đo Davies-Bouldin K-means là: 0.45, 0.82 Đối với thuật toán phân cụm dựa mật độ, để lựa chọn số epsilon, nhóm sử dụng k-distance trình bày phần tìm tham số phần lý thuyết DBSCAN, biểu đồ k-distance biểu diễn sau: Hình 16: Đồ thị K-distance Từ biểu đồ k-distance, nhóm chọn giá trị epsilon 11, minPts, nhóm thử áp dụng theo cơng thức 𝑚𝑖𝑛𝑃𝑡𝑠 = 2×𝑑𝑖𝑚 kết khơng tốt, nên nhóm thay minPst khoảng từ đến 27 chọn giá trị minPst mà mơ hình có độ bóng cao nhất, cụ thể với liệu minPts = thuật toán DBSCAN, minPts = 27 26 OPTICS Riêng thuật tốn DENCLUE, nhóm thử áp dụng phương pháp tương tự kết không tốt, nên nhóm cho duyệt epsilon min_density khoảng [0,1] tìm tham số cho kết tốt epsilon = 0.000000002 min-density = 0.000000005 27 Bảng 6: So sánh kết phân cụm customer độ đo Độ đo bóng (Silhouette) Davies-Bouldin K-Means 0.45 0.82 DBSCAN 0.17 2.3 OPTICS 0.04 1.78 DENCLUE 0.18 1.09 b liệu lại Với liệu cịn lại, nhóm xử lý tương tự liệu trước, riêng Facebook Live có nhãn nên thêm độ xác Bảng 7: So sánh kết phân cụm Coutry Data độ đo Độ đo bóng (Silhouette) Davies-Bouldin K-means 0.79 0.38 DBSCAN 0.16 2.23 OPTICS 0.02 2.05 DENCLUE 0.31 2.3 28 Hình 17:Cụm phân từ thuật toán K-mean Hình 18: Cụm phân từ thuật toán DBSCAN 29 Hình 19: Cụm phân từ thuật toán OPTICS Hình 20: Cụm phân từ thuật tốn DENCLUE Cịn liệu Facebook Live, nhóm sửa dùng 10 trường liệu để phân cụm nên khó trực quan hóa cụm hình ảnh, nên có bảng kết sau: Bảng 8: So sánh kết phân cụm Facebook Live độ đo Độ đo bóng (Silhouette) Davies-Bouldin Độ xác K-means 0.78 0.87 62% DBSCAN 0.68 1.37 4% OPTICS -0.65 1.87 5% Khi chạy thực nghiệm liệu với thuật tốn DENCLUE, liệu q nhiều chiều nên thuật toán liên tục làm thiết bị nhóm nên nhóm khơng thu kết từ 30 thuật tốn này, ngồi nhìn vào độ xác nhóm thuật tốn phân cụm dựa mật độ độ xác thấp nên nhóm tạm thời bỏ qua thuật toán DENCLUE 31 KẾT LUẬN Như báo cáo này, nhóm tìm hiểu thuật toán phân cụm dựa mật độ DBSCAN, OPTICS, DENCLUE so sánh lý thuyết với thực hành với thuật toán K-Means thuật toán với Từ kết thu được, nhóm thấy với liệu, nhóm thuật tốn phân cụm dựa mật độ thu kết không tốt, thấp nhiều so với thuật toán K-means Nếu so với lý thuyết nhóm thuật tốn phân cụm dựa mật độ phải tốt K-means liệu Country Data, kết thực tế lại ngược lại, cụm phân theo quan sát khơng có nhiều ý nghĩa, kết từ độ đo thấp nhiều so với K-means nhóm thuật tốn phân cụm dựa mật độ phát liệu nhiễu Trong lúc làm thực nghiệm, nhóm nhận nhóm thuật toán phân cụm dựa mật độ xác định tham số tối ưu nhiều công sức so với K-means, K-means cần xác định số cụm cần phân với nhóm thuật tốn phân cụm dựa mật độ cần phải xác địch tham số epsilon minPst (min_density), áp dụng phương pháp xác định tham số tối ưu kết phân cụm chưa tốt Như kết luận rằng, toán phân cụm thực tế, sử dụng K-mean cho kết tốt sử dụng phân cụm dựa mật độ theo lý thuyết có trường hợp phân cụm dựa mật độ tốt hơn, khó gặp trường hợp thực tế 32 Danh mục hình ảnh Hình 1: Các cụm liệu có hình cầu lồi Hình 2: Các cụm liệu có hình dạng tùy ý Hình 3: Ví dụ loại điểm DBSCAN Hình 4: Core-distance 10 Hình 5: Reachability-distance 10 Hình 6: Sắp xếp cụm OPTICS 11 Hình 7: Hàm mật độ attactor mật độ 12 Hình 8: Vector gradient ∇𝑓(𝑥) (hiển thị màu đen dày) thu dạng tổng vector khác 𝑥𝑖 − 𝑥 (hiển thị màu xám) 13 Hình 9: Ví dụ điểm outlier 17 Hình 10: Ảnh hưởng việc khởi tạo centroid 18 Hình 11: Đồ thị tương quan trường liệu tập Mall Customer 21 Hình 12: Ma trận tương quan trường liệu Country data 23 Hình 13: Phương pháp Elbow thuật toán K-means 24 Hình 14: Thuật toán K-means với số cụm liệu Mall Customer 25 Hình 15: Thuật toán K-means với số cụm liệu Mall Customer 25 Hình 16: Đồ thị K-distance 25 Danh mục bảng Bảng 1: So sánh K-means với DBSCAN 18 Bảng 2: So sánh K-mean với OPTICS DENCLUE 19 Bảng 3: Thông tin trường liệu Mall Customer 21 Bảng 4: Thông tin trường liệu liệu Coutry data 22 Bảng 5: Thông tin trường liệu Facebook Live sellers in Thailand 23 Bảng 6: So sánh kết phân cụm customer độ đo 27 Bảng 7: So sánh kết phân cụm Coutry Data độ đo 27 Bảng 8: So sánh kết phân cụm Facebook Live độ đo 29 33 Tài liệu tham khảo [1] M J Zaki, W M Jr, and W Meira, Data Mining and Analysis: Fundamental Concepts and Algorithms Cambridge University Press, 2014 [2] J Han, M Kamber, and J Pei, Data Mining: Concepts and Techniques, 3rd edition Morgan Kaufmann, 2011 [3] “Mall Customer Segmentation Data.” https://www.kaggle.com/datasets/vjchoudhary7/customer-segmentation-tutorial-in-python (accessed Dec 01, 2022) [4] “Unsupervised Learning on Country Data.” https://www.kaggle.com/datasets/rohan0301/unsupervised-learning-on-country-data (accessed Dec 01, 2022) [5] “Facebook Live sellers in Thailand, UCI ML Repo.” https://www.kaggle.com/datasets/ashishg21/facebook-live-sellers-in-thailand-uci-ml-repo (accessed Dec 01, 2022) 34

Ngày đăng: 11/06/2023, 12:21

Tài liệu cùng người dùng

Tài liệu liên quan