Nghiên cứu một số kỹ thuật khai phá dữ liệu Web và ứng dụng vào website giới thiệu việc làm cho sinh viên

27 277 0
Nghiên cứu một số kỹ thuật khai phá dữ liệu Web và ứng dụng vào website giới thiệu việc làm cho sinh viên

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐÀO HUY HIỆU NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI THIỆU VIỆC LÀM CHO SINH VIÊN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Th¸i Nguyªn - 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐÀO HUY HIỆU NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI THIỆU VIỆC LÀM CHO SINH VIÊN Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS Phạm Việt Bình Th¸i Nguyªn - 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii LUẬN VĂN THẠC SỸ Tên đề tài: Nghiên cứu số kỹ thuật khai phá liệu web ứng dụng vào website giới thiệu việc làm cho sinh viên Giáo viên hướng dẫn: TS Phạm Việt Bình Học viên thực hiện: Đào Huy Hiệu Cơ sở đào tạo: Đại học CNTT&TT Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i MỤC LỤC MỤC LỤC i DANH MỤC HÌNH iii MỞ ĐẦU .1 CHƢƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu chung .4 1.2 Khai phá liệu ? 1.3 Quá trình khám phá tri thức CSDL 1.4 Các kỹ thuật áp dụng Data Mining 1.4.1 Các kỹ thuật tiếp cận Data Mining 1.4.2 Các dạng liệu khai phá 1.5 Ứng dụng Data Mining 10 1.6 Phân cụm liệu ứng dụng 11 1.7 Khai phá liệu web 12 CHƢƠNG 2: MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB .18 2.1 Khai phá nội dung Web 18 2.1.1 Khai phá kết tìm kiếm 19 2.1.2 Khai phá văn Web 20 2.2 Khai phá theo sử dụng Web .23 2.2.1 Ứng dụng khai phá theo sử dụng Web 24 2.2.2 Các kỹ thuật đƣợc sử dụng khai phá liệu Web 24 2.2.3 Những vấn đề khai phá theo sử dụng Web 25 2.2.4 Quá trình khai phá theo sử dụng Web 27 2.3 Khai phá cấu trúc Web .32 2.3.1 Tiêu chuẩn đánh giá độ tƣơng tự 33 2.3.2 Khai phá quản lý cộng đồng Web 34 CHƢƠNG 3: CHƢƠNG TRÌNH THỬ NGHIỆM 47 3.1 Quy trình hoạt động Hệ thống cung cấp liệu việc làm 47 3.1.1 Lựa chọn Url lọc cấu trúc HTML 50 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii 3.1.2 Khai phá cấu trúc HTML 50 3.1.3 Thu thập liệu kho sở liệu 52 3.1.4 Hiển thị liệu 53 3.2 Một số giao diện hệ thống 54 3.2.1 Quản trị hệ thống 54 3.2.2 Hệ thống thu thập thông tin tự động Internet 60 KẾT LUẬN 62 TÀI LIỆU THAM KHẢO 65 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii DANH MỤC HÌNH Hình 1.1 Hình 1.2 Hình 1.3 17 Hình 2.1 18 Hình 2.2 26 Hình 2.3 31 Hình 2.4 31 Hình 2.5 33 Hình 2.6 34 Hình 2.7 34 Hình 2.8 34 Hình 2.9 35 Hình 2.10 36 Hình 2.11 37 Hình 2.12 38 Hình 2.13 39 Hình 2.14 40 Hình 2.15 40 Hình 3.1 47 Hình 3.2 49 Hình 3.3 50 Hình 3.4 52 Hình 3.5 53 Hình 3.6 54 Hình 3.7 55 Hình 3.8 56 Hình 3.9 56 Hình 3.10 57 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv Hình 3.11 57 Hình 3.12 58 Hình 3.13 58 Hình 3.14 59 Hình 3.15 59 Hình 3.16 60 Hình 3.17 61 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Từ vài thập niên trở lại đây, với tác động mạnh mẽ tiến công nghệ phần cứng truyền thông, hệ thống liệu phục vụ cho lĩnh vực kinh tế - xã hội phát triển bùng nổ, lượng liệu tạo ngày lớn Sự phong phú liệu, thông tin với khả kịp thời khai thác chúng mang đến suất chất lượng cho công tác quản lý, hoạt động kinh doanh, … Nhưng yêu cầu thông tin lĩnh vực hoạt động đó, đặc biệt lĩnh vực định, ngày đòi hỏi cao hơn, người định cần liệu mà cần có thêm nhiều hiểu biết, nhiều tri thức để hỗ trợ cho việc định Cho đến năm 90 kỷ trước, nhu cầu khám phá tri thức thực bùng nổ, theo đó, hàng loạt lĩnh vực nghiên cứu tổ chức kho liệu kho thông tin, hệ trợ giúp định, thuật toán nhận dạng mẫu phân lớp mẫu … đặc biệt khai phá liệu đời Từ đời, khai phá liệu trở thành hướng nghiên cứu phổ biến lĩnh vực khoa học máy tính công nghệ tri thức Nhiều kết nghiên cứu, ứng dụng khai phá liệu lĩnh vực khoa học, kinh tế, xã hội Khai phá liệu bao hàm nhiều hướng nghiên cứu quan trọng, số kỹ thuật khai phá liệu web Khai phá liệu web trình tìm kiếm phát cụm mẫu liệu tự nhiên sở liệu lớn Các kỹ thuật áp dụng khai phá liệu web phần lớn kế thừa từ lĩnh vực thống kê, học máy, nhận dạng, lượng hoá, Đến nay, có nhiều ứng dụng khai phá liệu web cho việc giải vấn đề lĩnh vực tài chính, thông tin địa lý, sinh học, nhận dạng ảnh, … Trong thời gian gần đây, lĩnh vực Khai phá Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn liệu, người ta tập trung chủ yếu vào nghiên cứu, phân tích mô hình liệu phức tạp liệu văn bản, Web, hình ảnh, đặc biệt mô hình liệu hỗn hợp để áp dụng chúng Khai phá liệu Ở Việt Nam, năm trở lại đây, nhu cầu tự động khám phá tri thức từ liệu sẵn có nhằm tăng lực cạnh tranh ngành kinh tế phát triển nhanh Vì vậy, chọn hướng nghiên cứu kỹ thuật khai phá liệu web làm đề tài nghiên cứu cho luận văn Luận văn trình bày khảo cứu hệ thống họ thuật toán Khai phá liệu, bao gồm cách tiếp cận đặc điểm ứng dụng Trên sở sâu vào tìm hiểu, phân tích, đánh giá họ thuật toán khai phá liệu Tiếp đến, lựa chọn sâu vào phân tích, thiết kế xây dựng ứng dụng cho toán xây dựng website giới thiệu việc làm cho sinh viên, toán Khai phá liệu áp dụng cho liệu có thuộc tính hỗn hợp kiểu số hạng mục đưa mô hình xử lý song song cho toán xây dựng website giới thiệu việc làm cho sinh viên Ngoài phần mở đầu kết luận, cấu trúc nội dung luận văn bao gồm có chương: Chương Tập trung trình bày khái quát lĩnh vực khai phá liệu số khái niệm liên quan, đồng thời giai đoạn thực trình khám phá tri thức Phần chương trình bày ngắn gọn, có hệ thống kỹ thuật, dạng liệu thường sử dụng khai phá liệu Chương Hệ thống hóa kỹ thuật khai phá liệu web, khai phá theo nội dung web, khai phá theo sử dụng web, khai phá theo cấu trúc web Qua đó, sâu phân tích chi tiết kỹ thuật, giải pháp Khai phá liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn web ý nghĩa Khai phá liệu web, kỹ thuật sử dụng trình khai phá liệu web, quy trình khai phá liệu web theo thuật toán Crawler, Hits, Phần cuối chương trình bày vắn tắt, tổng kết đặc trưng phương pháp khai phá liệu web đồng thời nêu kỹ thuật đánh giá kết khai phá liệu web Chương Giới thiệu chương trình giới thiệu việc làm, quy trình hoạt động hệ thống cung cấp liệu việc làm, thu thập liệu kho sở liệu hình ảnh chức chương trình thu thập giới thiệu thông tin việc làm Phần kết luận, phần trình bày tóm tắt nội dung thực luận văn này, đồng thời đưa vấn đề dự định nghiên cứu cho tương lai Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read ... THÔNG TIN VÀ TRUYỀN THÔNG ĐÀO HUY HIỆU NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI THIỆU VIỆC LÀM CHO SINH VIÊN Chuyên ngành: Khoa học máy tính Mã số: 60 48 01... nghiên cứu, ứng dụng khai phá liệu lĩnh vực khoa học, kinh tế, xã hội Khai phá liệu bao hàm nhiều hướng nghiên cứu quan trọng, số kỹ thuật khai phá liệu web Khai phá liệu web trình tìm kiếm phát... thống hóa kỹ thuật khai phá liệu web, khai phá theo nội dung web, khai phá theo sử dụng web, khai phá theo cấu trúc web Qua đó, sâu phân tích chi tiết kỹ thuật, giải pháp Khai phá liệu Số hóa Trung

Ngày đăng: 21/04/2017, 13:41

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan