Ứng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà Nội (Luận văn thạc sĩ)

69 872 0
Ứng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà Nội (Luận văn thạc sĩ)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Ứng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà Nội

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - PHẠM VĂN VƯỢNG Phạm Văn Vượng ỨNG DỤNG PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU HỆ THỐNG THÔNG TIN CHO TƯ VẤN NGÀNH NGHỀ SINH VIÊN TRƯỜNG ĐẠI HỌC KIẾN TRÚC HÀ NỘI LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) 2016- 2017 HÀ NỘI 2017 HÀ NỘI, NĂM 2017 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG - Phạm Văn Vượng ỨNG DỤNG PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU CHO TƯ VẤN NGÀNH NGHỀ SINH VIÊN TRƯỜNG ĐẠI HỌC KIẾN TRÚC HÀ NỘI LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI, NĂM 2018 i LỜI CAM ĐOAN Tôi xin cam đoan đề tài nghiên cứu riêng tôi, thực hướng dẫn PGS.TS Trần Đình Quế Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Hà Nội, tháng 11 năm 2017 TÁC GIẢ PHẠM VĂN VƯỢNG ii LỜI CẢM ƠN Lời xin gửi lời cảm ơn sâu sắc tới thầy PGS.TS Trần Đình Quế, Học viện Cơng nghệ Bưu Viễn thơng, người thầy tạo điều kiện thuận lợi, dành nhiều thời gian trực tiếp tận tình bảo, hướng dẫn em suốt q trình tìm hiểu, nghiên cứu hồn thành luận văn Em xin chân thành cảm ơn thầy giáo, cô giáo Học viện Công nghệ Bưu Viễn thơng cung cấp cho em kiến thức tận tình bảo cho em suốt q trình em học tập trường Bên cạnh đó, để vượt qua khó khăn hồn thành luận văn thời gian cho phép, em nhận nhiều giúp đỡ, ủng hộ nhiệt thành từ gia đình, đồng nghiệp, quan bạn bè Em xin chân thành cảm ơn Tuy nhiên, thời gian hạn hẹp, nỗ lực nghiêm túc nghiên cứu đề tài, luận văn khó tránh khỏi thiếu sót Em mong nhận thơng cảm góp ý bảo tận tình thầy cô người Hà Nội, tháng 11 năm 2017 Họ tên iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH VẼ vii MỞ ĐẦU .1 CHƯƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Giới thiệu 1.2 Kỹ thuật phân cụm liệu 1.2.1 Khái niệm 1.2.2 Các bước để phân cụm 1.2.3 Các loại đặc trưng phân cụm 1.2.4 Ứng dụng kỹ thuật phân cụm .10 1.3 Phân loại thuật toán phân cụm .11 1.4 Kết luận 14 CHƯƠNG 2: PHÂN CỤM CHO TƯ VẤN LỰA CHỌN 15 NGÀNH NGHỀ 15 2.1 Giới thiệu 15 2.2 Phương pháp phân hoạch (Partitioning Methods) .15 2.2.1 Thuật toán K – Means 16 2.2.2 Thuật toán PAM 19 iv 2.2.3 Thuật toán CLARA .21 2.3 Phương pháp phân cụm phân cấp (Hierarchical Methods) .22 2.3.1 Thuật toán BIRCH 24 2.3.2 Thuật toán CURE 26 2.4 Phương pháp phân cụm dựa lưới (Grid-Based Methods) 28 2.4.1 Thuật toán STING .29 2.4.2 Thuật toán CLIQUE 30 2.5 Phương pháp phân cụm dựa mật độ (Density-Based Methods) 30 2.5.1 Thuật toán DBSCAN (KDD’96) .31 2.5.2 Thuật toán OPTICS .34 2.6 Phương pháp phân cụm dựa mơ hình (Model-Based Clustering Methods) 35 2.7 Phương pháp phân cụm có liệu ràng buộc (Binding data clustering Methods) 36 2.8 Tổng hợp đánh giá phương pháp 37 2.9 Kết luận 40 CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ .41 3.1 Giới thiệu 41 3.2 Lựa chọn thuật tốn mơ tả .42 3.3 Xây dựng hệ thống .44 3.4 Kết luận 57 KẾT LUẬN .58 DANH MỤC TÀI LIỆU THAM KHẢO 60 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt KPDL CSDL PCDL Tiếng Anh Tiếng Việt Khai phá liệu Cơ sở liệu Phân cụm liệu vi DANH MỤC CÁC BẢNG Bảng 2.1: Bảng tổng hợp thuật toán 39 Bảng 3.1: Bảng thống kê sinh viên chuyên ngành xây dựng 42 Bảng 3.2: Dữ liệu đặc trưng cho ngành học .43 vii DANH MỤC CÁC HÌNH VẼ Hình 1.1: Ví dụ phân cụm liệu Hình 1.2: Các bước trình phân cụm Hình 2.1: Thuật tốn K-Means 17 Hình 2.2: Các chiến lược phân cụm phân cấp 23 Hình 2.3: Cấu trúc phân cụm dựa lưới .28 Hình 3.1: Mơ tả liệu mẫu .45 Hình 3.2: Giao diện chương trình nhập liệu 45 Hình 3.3: Chương trình sau phân tích dựa sở thuật tốn K-Means: 46 Hình 3.4: Kết sau phân tích liệu đầu vào 48 Hình 3.5: Biểu đồ đánh giá hệ thống 55 MỞ ĐẦU Tính cấp thiết đề tài Bước vào kỷ XXI, nghề nghiệp xã hội có chuyển biến nhiều so với giai đoạn trước Cuộc cách mạng khoa học công nghệ tạo điều kiện để nhân loại tiến từ kinh tế công nghiệp sang kinh tế tri thức Đó kinh tế xây dựng sở sản xuất, phân phối sử dụng tri thức, thơng tin, máy tính công nghệ truyền thông viễn thông yếu tố chiến lược Trong ngành công nghệ thông tin phát triển không ngừng nay, để đạt mục tiêu trên, cần lực lượng lao động có đủ trình độ lực làm chủ công nghệ kỹ thuật mới, đủ điều kiện đảm bảo hồn thành tốt cơng việc lĩnh vực đời sống xã hội Nếu không chiếm hữu tri thức, không sáng tạo sử dụng thơng tin ngành sản xuất khơng thể thành công cạnh tranh liệt thị trường Chính việc nâng cao trình độ học vấn, trình độ văn hóa cho nhân dân, đặc biệt việc định hướng ngành học định hướng nghề nghiệp cho hệ trẻ hôm nay, chủ nhân tương lai đất nước, cần quan tâm hết Như nghề nghiệp coi nhiều yếu tố quan trọng định đến tương lai người Vì lựa chọn cho ngành nghề phù hợp vấn đề nhiều bạn trẻ quan tâm, đặc biệt bạn sinh viên trẻ học tập năm đầu trường đại học Theo khảo sát trường đại học Kiến trúc Hà Nội, nhiều bạn sinh viên sau trường khơng tìm cơng việc phù hợp với lực sở thích thân Có số sinh viên định hướng lựa chọn chuyên ngành không khả dẫn đến trình học tập kết kém, sau thời gian học tập không đạt kết tốt dẫn đến việc bỏ học từ năm đầu, tạo tâm lý chán nản, khơng có động lực học tập Vì lý nên học viên định lựa chọn đề tài: Ứng dụng phân cụm khai phá liệu cho tư vấn ngành nghề sinh viên trường Đại học Kiến trúc Hà Nội 46 Hình 3.3: Chương trình sau phân tích dựa sở thuật toán K-Means: + Hàm init_centroids(X, k): X liệu, k số số cụm (cluster) Hàm khởi tạo điểm trung tâm ban đầu, lấy ngẫu nhiên + Hàm assign_labels(X, centroids): X liệu, centroids trung điểm Hàm gán nhãn cho liệu cụm mà gần với trung điểm + Hàm update_centroids(X, labels, K): X: liệu; labels: nhãn liệu; k: số cụm Hàm cập nhật lại trung điểm (centroid) cụm cách lấy liệu gần với giá trị trung bình (mean) cụm + Hàm has_converged(centroids, new_centroids): kiểm tra hội tụ Thuật toán hội tụ (tức tính đầu đúng) mà sau bước cập nhật trung điểm, trung điểm giống hoàn toàn với trung điểm cũ + Hàm kmeans(X, K): hàm chính, gọi hàm theo thứ tự thuật toán 47 import numpy as np from scipy.spatial.distance import cdist def init_centroids(X, k): return X[:3, :] def assign_labels(X, centroids): D = cdist(X, centroids) return np.argmin(D, axis=1) def update_centroids(X, labels, K): centroids = np.zeros((K, X.shape[1])) for k in range(K): Xk = X[labels == k, :] centroids[k, :] = np.mean(Xk, axis=0) return centroids def has_converged(centroids, new_centroids): return (set([tuple(a) for a in centroids]) == set([tuple(a) for a in new_centroids])) def kmeans(X, K): centroids = [init_centroids(X, K)] labels = [] it = while True: labels.append(assign_labels(X, centroids[-1])) new_centroids = update_centroids(X, labels[-1], K) if has_converged(centroids[-1], new_centroids): 48 break centroids.append(new_centroids) it += return (centroids, labels, it) - Tư vấn cho sinh viên thông qua điểm môn đặc trưng chuyên ngành, phân chia sinh viên ngành phù hợp khoa đưa kết Hình 3.4: Kết sau phân tích liệu đầu vào Sau đưa kết tư vấn, chương trình tổng hợp, tính tốn dựa biểu đồ kết đưa tỷ lệ phần trăm số tư vấn phù hợp với sở thích sinh viên tỷ lệ phần trăm kết phù hợp toàn hệ thống import wx import wx.grid as grid import matplotlib.pyplot as plt import numpy as np from classifier import Classifier from data_io import DataIO 49 ######################################################## ################ class MainForm(wx.Frame): # def init (self): self.data_io = DataIO() self.input = None self.content_data = None self.execute_data = None wx.Frame. init (self, "Classifier", size=(800, 550)) None, wx.ID_ANY, self.panel = wx.Panel(self, wx.ID_ANY) status = self.CreateStatusBar() self.sizer = wx.BoxSizer(wx.VERTICAL) file_label = wx.StaticText(self.panel, -1, "Bảng điểm:", (30, 20)) self.InputPathTextBox = wx.TextCtrl(self.panel, -1, "", size=(200, -1), pos=(100, 21)) self.browse_btn "Browse", pos=(310, 20)) = wx.Button(self.panel, self.Bind(wx.EVT_BUTTON, self.browse_btn) -1, self.onOpenFile, # output_label = wx.StaticText(self.panel, -1, "Ket qua:", (30, 50)) # self.OutputPathTextBox = wx.TextCtrl(self.panel, -1, "", size=(200, -1), pos=(100, 47)) 50 self.execute_btn = "Thực thi", pos=(400, 20)) wx.Button(self.panel, self.Bind(wx.EVT_BUTTON, self.execute_btn) -1, self.onExecute, self.execute_btn.Disable() self.chart_btn = wx.Button(self.panel, -1, "Biểu đồ", pos=(580, 20)) self.Bind(wx.EVT_BUTTON, self.chart_btn) self.onOpenChart, self.chart_btn.Disable() self.save_btn = "Export", pos=(680, 20)) wx.Button(self.panel, self.Bind(wx.EVT_BUTTON, self.save_btn) -1, self.onSaveFile, self.save_btn.Disable() self.data_grid = size=(780, 410), pos=(5, 80)) grid.Grid(self.panel, self.data_grid.CreateGrid(20, 10) self.panel.SetSizer(self.sizer) def onOpenFile(self, event): dlg = wx.FileDialog( self, message="Choose a file", defaultDir=' /data/', defaultFile="", wildcard="Excel *.xls)|*.xlsx; *.xls", style=wx.FD_OPEN wx.FD_FILE_MUST_EXIST files | (*.xlsx, wx.FD_CHANGE_DIR | 51 ) if dlg.ShowModal() == wx.ID_OK: path = dlg.GetPaths() # print("You chose the following file:", path) self.InputPathTextBox.ChangeValue(path[0]) self.input = path[0] data, date_mode = self.data_io.import_data(path[0]) self.content_data = self.fill_grid_data(data, date_mode) self.execute_btn.Enable() # data_grid.CreateGrid(len(self.content_data), len(self.content_data[0])) # self.panel.SetSizer(self.sizer) dlg.Destroy() def onSaveFile(self, event): dlg = wx.FileDialog( self, message="Save as", defaultDir=' /data/', defaultFile="", wildcard="Excel *.xls)|*.xlsx; *.xls", files (*.xlsx, style=wx.FD_SAVE ) if dlg.ShowModal() == wx.ID_OK: path = dlg.GetPaths()[0] self.data_io.export_data(self.execute_data, path) 52 # print("You chose the following file:", self.path) dlg.Destroy() def onExecute(self, event): if not self.content_data: msg = "You have an error.\nPlease reopen data file" self.show_error_dialog(msg, "ERROR", wx.OK | wx.ICON_EXCLAMATION) else: classifier = Classifier(self.content_data) ret, executed_data, pred = classifier.execute() if ret: self.execute_data = executed_data self.fill_grid_data(executed_data) self.pred = pred self.save_btn.Enable() self.chart_btn.Enable() else: msg = "Something error Please try again." self.show_error_dialog(msg, wx.OK | wx.ICON_EXCLAMATION) "ERROR", def onOpenChart(self, event): self.draw() def show_error_dialog(self, msg, title, style): dlg = wx.MessageDialog(parent=None, message=msg, 53 caption=title, style=style) dlg.ShowModal() dlg.Destroy() def fill_grid_data(self, data, date_mode=-1): current_nrows, new_nrows = (self.data_grid.GetNumberRows(), len(data)) if current_nrows < new_nrows: self.data_grid.AppendRows(new_nrows - current_nrows) current_ncols, new_ncols = (self.data_grid.GetNumberCols(), len(data[0])) if current_ncols < new_ncols: self.data_grid.AppendCols(new_ncols - current_ncols) birthday_index = None if date_mode > -1: if 'Ngày sinh' in data[0]: birthday_index = data[0].index('Ngày sinh') for i in range(new_ncols): self.data_grid.SetCellValue(0, i, str(data[0][i])) for row in range(1, new_nrows): if birthday_index: data[row][birthday_index] = self.data_io.get_xlsx_date(data[row][birthday_index], date_mode) for col in range(new_ncols): self.data_grid.SetCellValue(row, col, str(data[row][col])) return data 54 def draw(self): n_groups = means_total = (self.pred['VL'][0], self.pred['XD'][0], self.pred['CT'][0]) means_pred = (self.pred['VL'][1], self.pred['XD'][1], self.pred['CT'][1]) fig, ax = plt.subplots() index = np.arange(n_groups) bar_width = 0.35 opacity = 0.8 rects1 = plt.bar(index, means_total, bar_width, alpha=opacity, color='b', label='Tổng ước lượng') rects2 = plt.bar(index + bar_width, means_pred, bar_width, alpha=opacity, color='g', label='Ước lượng phù hợp') pred_rate = 100 * (means_pred[0] + means_pred[1] + means_pred[2]) / (means_total[0] + means_total[1] + means_total[2]) plt.title('Tỉ lệ toàn {0:.2f}%'.format(pred_rate)) plt.xticks(index + bar_width, ("Vật liệu {0:.1f}%".format(means_pred[0] / means_total[0] * 100), 'Xây dựng DD {0:.1f}%'.format(means_pred[1] / means_total[1] * 100), 55 'Xây dựng CTN {0:.1f}%'.format(means_pred[2] / means_total[2] * 100))) plt.legend() plt.tight_layout() plt.show() Kết sau phân tích đưa tỷ lệ đánh giá: Hình 3.5: Biểu đồ đánh giá hệ thống 56 Đánh giá chương trình: Từ biểu đồ (Hình 3.5), tác giả nhận thấy chương trình tập trung vào vấn đề chính, phân loại đưa kết tư vấn cho sinh viên vào chuyên ngành khoa, đánh giá tỷ lệ tính tối ưu chương trình Cột vào xanh dương biểu đồ biểu diễn tổng số ước lượng, cột màu xanh biểu diễn số ước lượng phù hợp với sỏ thích Tỷ lệ chia làm hai loại: + Tỷ lệ sinh viên tư vấn vào chuyên ngành với nguyện vọng tính cơng thức p= 𝑆ố ướ𝑐 𝑙ượ𝑛𝑔 𝑝ℎù ℎợ𝑝 𝑣ớ𝑖 𝑛𝑔𝑢𝑦ệ𝑛 𝑣ọ𝑛𝑔 𝑡ừ𝑛𝑔 𝑛𝑔à𝑛ℎ 𝑇ổ𝑛𝑔 𝑠ố ướ𝑐 𝑙ượ𝑛𝑔 𝑡ừ𝑛𝑔 𝑛𝑔à𝑛ℎ + Tỷ lệ đánh giá toàn hệ thống: p= 𝑇ổ𝑛𝑔 𝑠ố ướ𝑐 𝑙ượ𝑛𝑔 𝑝ℎù ℎợ𝑝 𝑣ớ𝑖 𝑛𝑔𝑢𝑦ệ𝑛 𝑣ọ𝑛𝑔 ℎệ 𝑡ℎố𝑛𝑔 𝑇ổ𝑛𝑔 𝑠ố ướ𝑐 𝑙ượ𝑛𝑔 - Từ kết trên, nhận thấy chương trình giải vấn đề phân loại đưa kết tư vấn chuyên phù hợp cho sinh viên, số tồn tại, số sinh viên có sở thích, nguyện vọng khơng với kết tư vấn kết học tập chưa tốt Cần phải có điều chỉnh cho phù hợp - Giao diện chương trình chưa thật bật, cần có thêm số chức tra cứu, chỉnh sửa thông tin, liệu hệ thống 57 3.4 Kết luận Nội dung chương giới thiệu toán thực tế việc đào tạo đặc điểm lựa chọn, tư vấn sinh viên lựa chọn ngành nghề chuyên ngành trường Đại học Kiến Trúc Hà Nội Dựa khai phá liệu ứng dụng thuật toán tác giả xây dựng hệ thống tư vấn lựa chọn ngành nghề giúp sinh viên định hướng lựa chọn chuyên ngành học phù hợp với thân đánh giá lực thân, từ có kế hoạch định hướng học tập đắn để sau trường lựa chọn công việc khả sở thích 58 KẾT LUẬN • Luận văn đạt kết sau Luận văn “Ứng dụng phân cụm khai phá liệu cho tư vấn ngành nghề sinh viên trường Đại học Kiến Trúc Hà Nội” trình bày số vấn đề sau: - Tổng quan khám phá tri thức ứng dụng khai phá liệu lưu trữ hệ thống thông tin Khai phá liệu ứng dụng nhiều lĩnh vực khác sống, đặc biệt ứng dụng khai phá liệu giáo dục - Một số kỹ thuật phân cụm liệu: phương pháp phân hoạch, phương pháp phân cấp, phương pháp dựa mật độ, phương pháp dựa lưới Các thuật tốn điển hình phương pháp đánh giá thuật toán - Dựa khai phá liệu, tác giả xây dựng hệ thống tư vấn lựa chọn ngành nghề phù hợp cho sinh viên trường Đại học Kiến trúc Hà Nội Áp dụng thuật toán K–means để phân cụm sinh viên lựa chọn ngành học chuyên sâu, giúp sinh viên xác định ngành nghề phù hợp Từ có kế hoạch học tập có lựa chọn đắn để sau trường đạt cơng việc phù hợp với sở thích lực thân - Kết tư vấ ngành nghề chưa với nguyện vọng, sỏ thích sinh viên, biểu đồ đánh giá hệ thống (Hình 3.5), chun ngành vật liệu xây dựng có tỷ lệ 28,6% sinh viên có tư vấn hợp với nguyện vọng, sở thích, 71,4 % số sinh viên cịn lại có tư vấn khơng phù hợp với nguyện vọng, sở thích Như vậy, số sinh viên cần có điều chỉnh học tập Với sinh viên có nguyện vọng theo chuyên ngành xây dựng dân dụng & công nghiệp cần điều chỉnh kết học tập mơn vật lý, với sinh viên có nguyện vọng theo chun ngành xây dựng cơng trình ngầm thi cần điều chỉnh kết học tập môn kiến trúc cơng trình Từ có định hướng đưa kế hoạch học tập phù hợp 59 • Hạn chế - Do dừng lại liệu thử nghiệm, việc thu thập thông tin xử lý thông tin sinh viên liệu điểm khó khăn nên số lượng liệu cịn chưa đa dạng tập trung sinh viên khoa xây dựng Nên chưa mô hết tình có khả xảy thực tế - Việc xử lý liệu thơ để trích chọn thuộc tính cần thiết để tinh chế thành liệu đầu vào cho ứng dụng phân loại cịn phải thực thủ cơng, chưa có tiện ích xử lý tự động Ngồi chưa xây dựng hệ thống lưu trữ liệu dành riêng cho ứng dụng - Giao diện chương trình cịn thơ sơ, hướng đến mục tiêu xử lý toán đề tư vấn phân chia sinh viên vào ngành học khoa, chưa có thêm tiện ích • Hướng phát triển - Để q trình tư vấn lựa chọn ngành nghề có hiệu quả, cần xây dựng hệ thống hoàn chỉnh thống nhất, quản lý trình học tập rèn luyện sinh viên - Xem xét nghiên cứu thêm số ứng dụng khác khai phá liệu vào số lĩnh vực giáo dục - Phát triển thêm nhiều mơ hình tư vấn, định hướng ngành nghề bậc học Để trợ giúp học sinh sinh viên tốt 60 DANH MỤC TÀI LIỆU THAM KHẢO Tài Liệu Tiếng Việt: [1] Nguyễn Thị Ngọc Diễm (2013) Luận văn So sánh số thuật toán phân cụm liệu Học viện cơng nghệ bưu viễn thông, Hà Nội [2] Trần Nguyên Hương (2009) Luận văn Một số thuật toán phân cụm DataMining Tài Liệu Tiếng Anh: [3] Bing Liu (2007) Data Mining, Springer [4] Dr Osmar R.Zaiane, Principles of knowledge discovery in databases” Fall 2001, University of Alberta [5] Jiawei Han and Micheline Kamber (2011) Data Mining: Concepts and Techniques [6] Raghu Krishnapuram, Anupam Joshi, and Liyu Yi (2001) A Fuzzy Relative of the K – Medoids Algorithm with Application to Web Document and Snippet Clustering [7] Raymond and Hendrk (2000) Web Mining Research: A Survey, ACM Tài liệu tham khảo từ Internet: [8] https://www.slideshare.net/HoaChu2/tong-quan-ve-phan-cum-data-mining, truy cập ngày 20/07/2017 ... tài: Ứng dụng phân cụm khai phá liệu cho tư vấn ngành nghề sinh viên trường Đại học Kiến trúc Hà Nội 2 Tổng quan vấn đề nghiên cứu Kỹ thuật khai phá tri thức khai phá liệu nghiên cứu, ứng dụng. ..HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Phạm Văn Vượng ỨNG DỤNG PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU CHO TƯ VẤN NGÀNH NGHỀ SINH VIÊN TRƯỜNG ĐẠI HỌC KIẾN TRÚC HÀ NỘI LUẬN VĂN THẠC... phân loại sinh viên nhằm đưa giải pháp tư vấn, định hướng giúp sinh viên khoa trường đại học Kiến trúc Hà Nội lựa chọn ngành nghề phù hợp 3 Mục đích luận văn - Tìm hiểu kỹ thuật khai phá liệu,

Ngày đăng: 28/02/2018, 12:04

Từ khóa liên quan

Mục lục

  • LỜI CAM ĐOAN

  • LỜI CẢM ƠN

  • MỤC LỤC

  • DANH MỤC CÁC BẢNG

  • DANH MỤC CÁC HÌNH VẼ

  • MỞ ĐẦU

  • CHƯƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU

  • 1.1 Giới thiệu

  • 1.2 Kỹ thuật phân cụm dữ liệu

    • 1.2.1 Khái niệm

    • 1.2.2 Các bước cơ bản để phân cụm

    • 1.2.4 Ứng dụng của kỹ thuật phân cụm

    • 1.3 Phân loại các thuật toán phân cụm

    • 1.4 Kết luận

    • CHƯƠNG 2: PHÂN CỤM CHO TƯ VẤN LỰA CHỌN

    • NGÀNH NGHỀ

    • 2.1 Giới thiệu

    • 2.2 Phương pháp phân hoạch (Partitioning Methods)

      • 2.2.1 Thuật toán K – Means

      • 2.2.2 Thuật toán PAM

      • 2.2.3 Thuật toán CLARA

      • 2.3 Phương pháp phân cụm phân cấp (Hierarchical Methods)

        • 2.3.1 Thuật toán BIRCH

Tài liệu cùng người dùng

Tài liệu liên quan