Nghiên cứu một số kỹ thuật khai phá dữ liệu Web và ứng dụng vào website giới thiệu việc làm cho sinh viên

73 1K 4
Nghiên cứu một số kỹ thuật khai phá dữ liệu Web và ứng dụng vào website giới thiệu việc làm cho sinh viên

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐÀO HUY HIỆU NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI THIỆU VIỆC LÀM CHO SINH VIÊN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Th¸i Nguyªn - 2012 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐÀO HUY HIỆU NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI THIỆU VIỆC LÀM CHO SINH VIÊN Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS. Phạm Việt Bình Th¸i Nguyªn - 2012 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii LUẬN VĂN THẠC SỸ Tên đề tài: Nghiên cứu một số kỹ thuật khai phá dữ liệu web và ứng dụng vào website giới thiệu việc làm cho sinh viên Giáo viên hướng dẫn: TS. Phạm Việt Bình Học viên thực hiện: Đào Huy Hiệu Cơ sở đào tạo: Đại học CNTT&TT Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i MỤC LỤC MỤC LỤC i DANH MỤC HÌNH iii MỞ ĐẦU 1 CHƢƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 4 1.1 Giới thiệu chung 4 1.2 Khai phá dữ liệu là gì ? 5 1.3 Quá trình khám phá tri thức trong CSDL 6 1.4 Các kỹ thuật áp dụng trong Data Mining 8 1.4.1 Các kỹ thuật tiếp cận trong Data Mining 8 1.4.2 Các dạng dữ liệu có thể khai phá 9 1.5 Ứng dụng của Data Mining 10 1.6 Phân cụm dữ liệu và ứng dụng 11 1.7 Khai phá dữ liệu web 12 CHƢƠNG 2: MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB 18 2.1. Khai phá nội dung Web 18 2.1.1. Khai phá kết quả tìm kiếm 19 2.1.2. Khai phá văn bản Web 20 2.2. Khai phá theo sử dụng Web 23 2.2.1. Ứng dụng của khai phá theo sử dụng Web 24 2.2.2. Các kỹ thuật đƣợc sử dụng trong khai phá dữ liệu Web 24 2.2.3. Những vấn đề trong khai phá theo sử dụng Web 25 2.2.4. Quá trình khai phá theo sử dụng Web 27 2.3. Khai phá cấu trúc Web 32 2.3.1. Tiêu chuẩn đánh giá độ tƣơng tự 33 2.3.2. Khai phá và quản lý cộng đồng Web 34 CHƢƠNG 3: CHƢƠNG TRÌNH THỬ NGHIỆM 47 3.1. Quy trình hoạt động của Hệ thống cung cấp dữ liệu việc làm 47 3.1.1 Lựa chọn các Url và lọc cấu trúc HTML 50 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii 3.1.2. Khai phá cấu trúc HTML 50 3.1.3. Thu thập dữ liệu về kho cơ sở dữ liệu 52 3.1.4. Hiển thị dữ liệu 53 3.2. Một số giao diện chính của hệ thống 54 3.2.1. Quản trị hệ thống 54 3.2.2. Hệ thống thu thập thông tin tự động trên Internet 60 KẾT LUẬN 62 TÀI LIỆU THAM KHẢO 65 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii DANH MỤC HÌNH Hình 1.1 7 Hình 1.2 8 Hình 1.3 17 Hình 2.1 18 Hình 2.2 26 Hình 2.3 31 Hình 2.4 31 Hình 2.5 33 Hình 2.6 34 Hình 2.7 34 Hình 2.8 34 Hình 2.9 35 Hình 2.10 36 Hình 2.11 37 Hình 2.12 38 Hình 2.13 39 Hình 2.14 40 Hình 2.15 40 Hình 3.1 47 Hình 3.2 49 Hình 3.3 50 Hình 3.4 52 Hình 3.5 53 Hình 3.6 54 Hình 3.7 55 Hình 3.8 56 Hình 3.9 56 Hình 3.10 57 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv Hình 3.11 57 Hình 3.12 58 Hình 3.13 58 Hình 3.14 59 Hình 3.15 59 Hình 3.16 60 Hình 3.17 61 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 MỞ ĐẦU Từ vài thập niên trở lại đây, với những tác động mạnh mẽ của các tiến bộ trong công nghệ phần cứng và truyền thông, các hệ thống dữ liệu phục vụ cho các lĩnh vực kinh tế - xã hội đã phát triển bùng nổ, lượng dữ liệu được tạo ra ngày càng lớn. Sự phong phú về dữ liệu, thông tin cùng với khả năng kịp thời khai thác chúng đã mang đến những năng suất và chất lượng mới cho công tác quản lý, hoạt động kinh doanh, … Nhưng rồi các yêu cầu về thông tin trong các lĩnh vực hoạt động đó, đặc biệt trong lĩnh vực ra quyết định, ngày càng đòi hỏi cao hơn, người quyết định không những cần dữ liệu mà còn cần có thêm nhiều hiểu biết, nhiều tri thức để hỗ trợ cho việc ra quyết định của mình. Cho đến những năm 90 của thế kỷ trước, nhu cầu khám phá tri thức mới thực sự bùng nổ, theo đó, hàng loạt các lĩnh vực nghiên cứu về tổ chức các kho dữ liệu và kho thông tin, các hệ trợ giúp quyết định, các thuật toán nhận dạng mẫu và phân lớp mẫu … và đặc biệt là khai phá dữ liệu ra đời. Từ khi ra đời, khai phá dữ liệu đã trở thành một trong những hướng nghiên cứu phổ biến trong lĩnh vực khoa học máy tính và công nghệ tri thức. Nhiều kết quả nghiên cứu, ứng dụng của khai phá dữ liệu trong các lĩnh vực khoa học, kinh tế, xã hội. Khai phá dữ liệu bao hàm nhiều hướng nghiên cứu quan trọng, một trong số đó là kỹ thuật khai phá dữ liệu web. Khai phá dữ liệu web là quá trình tìm kiếm và phát hiện ra các cụm hoặc các mẫu dữ liệu tự nhiên trong cơ sở dữ liệu lớn. Các kỹ thuật chính được áp dụng trong khai phá dữ liệu web phần lớn được kế thừa từ lĩnh vực thống kê, học máy, nhận dạng, lượng hoá, Đến nay, đã có nhiều ứng dụng khai phá dữ liệu web cho việc giải quyết các vấn đề trong các lĩnh vực như tài chính, thông tin địa lý, sinh học, nhận dạng ảnh, … Trong thời gian gần đây, trong lĩnh vực Khai phá dữ Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2 liệu, người ta tập trung chủ yếu vào nghiên cứu, phân tích các mô hình dữ liệu phức tạp như dữ liệu văn bản, Web, hình ảnh, và đặc biệt là mô hình dữ liệu hỗn hợp để áp dụng chúng trong Khai phá dữ liệu. Ở Việt Nam, trong những năm trở lại đây, nhu cầu về tự động khám phá tri thức từ các dữ liệu sẵn có nhằm tăng năng lực cạnh tranh của các ngành kinh tế đang phát triển nhanh. Vì vậy, tôi chọn hướng nghiên cứu về các kỹ thuật khai phá dữ liệu web làm đề tài nghiên cứu cho luận văn của mình. Luận văn trình bày một khảo cứu hệ thống về các họ thuật toán Khai phá dữ liệu, bao gồm các cách tiếp cận và đặc điểm ứng dụng. Trên cơ sở đó tôi đi sâu vào tìm hiểu, phân tích, đánh giá họ các thuật toán khai phá dữ liệu. Tiếp đến, tôi lựa chọn và đi sâu vào phân tích, thiết kế và xây dựng ứng dụng cho bài toán xây dựng website giới thiệu việc làm cho sinh viên, đây là một bài toán Khai phá dữ liệu áp dụng cho dữ liệu có thuộc tính hỗn hợp giữa kiểu số và hạng mục và đưa ra mô hình xử lý song song cho bài toán xây dựng website giới thiệu việc làm cho sinh viên này. Ngoài phần mở đầu và kết luận, cấu trúc nội dung của luận văn bao gồm có 3 chương: Chương 1 Tập trung trình bày khái quát về lĩnh vực khai phá dữ liệu và một số khái niệm liên quan, đồng thời chỉ ra các giai đoạn thực hiện trong quá trình khám phá tri thức. Phần tiếp theo của chương là trình bày ngắn gọn, có hệ thống về các kỹ thuật, các dạng dữ liệu thường được sử dụng trong khai phá dữ liệu. Chương 2 Hệ thống hóa các kỹ thuật khai phá dữ liệu web, khai phá theo nội dung web, khai phá theo sử dụng web, khai phá theo cấu trúc web. Qua đó, đi sâu phân tích chi tiết các kỹ thuật, giải pháp trong Khai phá dữ liệu Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3 web và ý nghĩa của Khai phá dữ liệu web, các kỹ thuật được sử dụng trong quá trình khai phá dữ liệu web, quy trình khai phá dữ liệu web theo thuật toán Crawler, Hits, Phần cuối của chương trình bày vắn tắt, tổng kết về các đặc trưng của các phương pháp khai phá dữ liệu web đồng thời nêu các kỹ thuật đánh giá kết quả khai phá dữ liệu web. Chương 3 Giới thiệu chương trình giới thiệu việc làm, quy trình hoạt động của hệ thống cung cấp dữ liệu việc làm, thu thập dữ liệu về kho cơ sở dữ liệu và các hình ảnh chức năng của chương trình thu thập giới thiệu thông tin việc làm. Phần kết luận, phần này trình bày tóm tắt về các nội dung thực hiện trong luận văn này, đồng thời đưa ra những vấn đề dự định sẽ nghiên cứu tiếp theo cho tương lai. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn [...]... các kỹ thuật khai phá dữ liệu web thành: Khai phá nội dung Web (Web content mining), khai phá cấu trúc Web (Web structure mining) và khai phá sử dụng Web (Web usage mining) theo sơ đồ phân loại sau: Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 17 KHAI PHÁ WEB Khai phá nội dung Web Khai phá kết quả tìm kiếm Khai phá cấu trúc Web Khai phá văn bản Web Khai phá sử dụng Web. .. trưng và phân loại khai phá dữ liệu web Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 18 CHƢƠNG 2: MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB Người ta thường phân khai phá Web thành ba lĩnh vực chính: Khai phá nội dung Web (Web content mining), khai phá cấu trúc Web (Web structure mining) và khai phá sử dụng Web (Web usage mining) theo sơ đồ phân loại sau: KHAI PHÁ WEB Khai phá. .. nội dung Web Khai phá kết quả tìm kiếm Khai phá cấu trúc Web Khai phá văn bản Web Khai phá sử dụng Web Khai phá các mẫu truy cập Phân tích các xu hướng cá nhân Hình 2.1 Phân loại khai phá Web 2.1 Khai phá nội dung Web Khai phá nội dung Web là tập trung vào việc khám phá một cách tự động nguồn thông tin có giá trị trực tuyến Không giống như khai phá sử dụng Web và cấu trúc Web, khai phá nội dung Web tập... thức Dữ liệu thô Biểu diễn tri Trích chọn dữ liệu Đánh giá và giải thích Các mẫu Dữ liệu Tiền xử lý dữ liệu Dữ liệu Tiền xử lý Data Mining Biến đổi dữ liệu Hình 1.1 Các bước thực hiện trong quá trình khám phá tri thức Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 8 1.4 Các kỹ thuật áp dụng trong khai phá dữ liệu 1.4.1 Các kỹ thuật tiếp cận trong khai phá dữ liệu Khám phá. .. Tiền xử lý dữ liệu: là bước làm sạch dữ liệu (xử lý với dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán, v.v.), rút gọn dữ liệu (sử dụng hàm nhóm và tính tổng, các phương pháp nén dữ liệu, sử dụng histograms, lấy mẫu, v.v.), rời rạc hóa dữ liệu (rời rạc hóa dựa vào histograms, dựa vào entropy, dựa vào phân khoảng, v.v.) Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn, và được rời... khai phá dữ liệu và là nội dung tìm hiểu, nghiên cứu trọng tâm của luận văn 1.7 Khai phá dữ liệu web Khai phá dữ liệu web là việc sử dụng các phương pháp khai phá dữ liệu để tự động hóa quá trình khám phá và trích rút những thông tin hữu ích từ các tài liệu, các dịch vụ và cấu trúc web Hay nói cách khác khai phá dữ liệu web là việc trích chọn ra các thành phần được quan tâm hay được đánh giá là có ích... liệu thống nhất và hỗn hợp cưỡng bức + Làm sạch dữ liệu không liên quan, nhiễu và dữ liệu rỗng Dữ liệu không bị mất mát và không bị lặp + Giảm bớt số chiều và làm tăng hiệu quả việc phát hiện tri thức bằng việc chuyển đổi, quy nạp, cưỡng bức dữ liệu + Làm sạch các thuộc tính không liên quan để giảm bớt số chiều dữ liệu Biểu diễn văn bản: Khai phá văn bản Web là khai phá các tập tài liệu HTML, là không... Web Khai phá các mẫu truy cập Phân tích các xu hướng cá nhân Hình 1.3 Các nội dung trong khai phá Web Trong đó khai phá nội dung web được chia thành khai phá theo kết quả tìm kiếm và khai phá văn bản web Khai phá sử dụng web được chia thành khai phá các mẫu truy cập và phân tích các xu hướng cá nhân Tồng kết chƣơng 1: Trong chương này trình bày những kiến thức cơ bản về lĩnh vực khai phá dữ liệu và một. .. được rời rạc hóa  Biến đổi dữ liệu: đây là bước chuẩn hóa và làm mịn dữ liệu để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai phá ở bước sau Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 7  Khai phá dữ liệu: đây là bước áp dụng những kỹ thuật phân tích (phần nhiều là các kỹ thuật của học máy) nhằm để khai thác dữ liệu, trích chọn được những... thời gian xem một trang, số lần lui tới trang) 2.2.4 Quá trình khai phá theo sử dụng Web Quá trình khai phá theo sử dụng Web có 3 pha: Tiền xử lý, khai phá và phân tích đánh giá, biểu diễn dữ liệu 2.2.4.1 Tiền xử lý dữ liệu Chứng thực người dùng, chứng thực hoạt động truy cập, đường dẫn đầy đủ, chứng thực giao tác, tích hợp dữ liệu và biến đổi dữ liệu Trong pha này các thông tin về đăng nhập Web có thể . THẠC SỸ Tên đề tài: Nghiên cứu một số kỹ thuật khai phá dữ liệu web và ứng dụng vào website giới thiệu việc làm cho sinh viên Giáo viên hướng dẫn: TS. Phạm Việt Bình Học viên thực hiện: Đào. dạng dữ liệu có thể khai phá 9 1.5 Ứng dụng của Data Mining 10 1.6 Phân cụm dữ liệu và ứng dụng 11 1.7 Khai phá dữ liệu web 12 CHƢƠNG 2: MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB 18 2.1. Khai phá. CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐÀO HUY HIỆU NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI THIỆU VIỆC LÀM CHO SINH VIÊN

Ngày đăng: 15/11/2014, 22:03

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan