phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

69 249 0
phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i MỤC LỤC MỤC LỤC i LỜI CAM ĐOAN iii LỜI CẢM ƠN iv DANH MỤC TỪ VIẾT TẮT v DANH MỤC HÌNH BẢNG vi MỞ ĐẦU 1 CHƢƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 3 1.1 Khai phá dữ liệu 3 1.1.1 Hình thành và định nghĩa bài toán 4 1.1.2 Thu thập và tiền xử lý dữ liệu 4 1.1.3 Khai phá dữ liệu và rút ra các tri thức 5 1.1.4 Phân tích và kiểm định kết quả 6 1.1.5. Sử dụng các tri thức phát hiện đƣợc 6 1. 2 Quá trình khai phá dữ liệu 7 1.3 Các phƣơng pháp khai phá dữ liệu 10 1.3.1. Phân lớp dữ liệu 10 1.3.2. Phân cụm dữ liệu 10 1.3.3 Khai phá luật kết hợp 11 1.3.4 Hồi quy 11 1.3.5 Giải thuật di truyền 11 1.3.6 Mạng nơron 11 1.3.7 Cây quyết định 12 1.4 Nhu cầu khai phá dữ liệu 13 1.5. Kết luận 13 CHƢƠNG 2. MỘT SỐ PHƢƠNG PHÁP XỬ LÝ DỮ LIỆU NHỜ THỐNG KÊ 14 2.1 Phƣơng pháp thống kê toán học 14 2.1.1 Biến ngẫu nhiên 14 2.1.2 Các ví dụ 15 2.1.3 Các số đặc trƣng 16 2.2. Khai phá dữ liệu với phƣơng pháp thống kê 17 2.3. Tri thức nền tảng 18 2.3.1. Các phƣơng pháp quan tâm 19 2.3.2. Trình diễn và trực quan của các mẫu đƣợc khai phá 19 Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii 2.4. Dữ liệu liên quan tới nhiệm vụ 19 2.4.1. Dữ liệu thích hợp với nhiệm vụ 19 2.4.2. Kiểu tri thức đƣợc khai phá 20 2.4.3. Kiến thức nền tảng 20 2.4.4. Các phép đo sự hấp dẫn của mẫu 20 2.4.5. Hình ảnh hóa của các mẫu đƣợc khai phá 20 2.5. Các loại tri thức đƣợc khai phá 22 2.5.1. Phân cấp khái niệm 23 2.5.2. Phân cấp lƣợc đồ 26 2.5.3. Phân cấp theo nhóm 26 2.5.4. Phân cấp theo thao tác 27 2.5.5. Phân cấp theo luật 28 2.5.6. Độ đo về tiêu chí quan tâm 28 2.6. Thể hiện và trực quan của các mẫu đƣợc phát hiện 32 2.7. Phân tích thành phần chính 34 2.8. Kết luận 39 CHƢƠNG 3. KHAI PHÁ DỮ LIỆU TẠI TRUNG TÂM 40 3.1. Về cơ sở đào tạo 40 3.2. Công cụ OLAP 43 3.2.1 Về OLAP 43 3.2.2. Mô hình dữ liệu đa chiều 43 3.2.3 Giới thiệu dịch vụ OLAP của Microsoft SQL Server 46 3.2.4 So sánh OLAP với OLTP 47 3.2.5 Các mô hình lƣu trữ hỗ trợ OLAP 48 3.2.6.Kiến trúc khối của OLAP 52 3.2.7. Mô hình kiến trúc dịch vụ OLAP 53 3.3. Dữ liệu về đào tạo 56 3.3.1. Dữ liệu 56 3.3.2. Khai phá dữ liệu 57 3.4. Kết luận 58 KẾT LUẬN 59 Một số vấn đề đã giải quyết 59 Phƣơng hƣớng tiếp tục nghiên cứu 60 TÀI LIỆU THAM KHẢO 61 Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii LỜI CAM ĐOAN Tôi xin cam đoan luận văn này là kết quả tìm hiểu, nghiên cứu của tôi. Các số liệu, kết quả trong luận văn là trung thực. Tài liệu sử dụng, trích dẫn trong luận văn là trung thực chƣa từng công bố trong công trình nghiên cứu khác. Học viên Lƣơng Thị Thúy Nga Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv LỜI CẢM ƠN Trƣớc tiên tôi xin đƣợc trân trọng gửi lời cảm ơn chân thành tới các thầy cô đã giảng dạy chúng tôi trong các môn chuyên đề sau đại học, cũng nhƣ trong quá trình thực tập và viết, hoàn thiện luận văn. Đặc biệt, xin cảm ơn thầy Đỗ Trung Tuấn, đã giúp đỡ, chỉ bảo đối với luận văn này. Nhân dịp này, xin gửi lời cám ơn đến Trung tâm Giáo dục thƣờng xuyên tỉnh Yên Bái. Xin chân thành cảm ơn lãnh đạo và đồng nghiệp trong Trung tâm, đã giúp đỡ tạo mọi điều kiện cho tôi trong quá trình học tập, công tác để tôi có thể làm luận văn tốt nghiệp, và hoàn thành đề tài nghiên cứu khoa học này. Trong thời gian vừa qua mặc dù tôi đã cố gắng rất nhiều để hoàn thành tốt đề tài nghiên cứu này. Song chắc chắn kết quả nghiên cứu không tránh khỏi còn nhiều thiếu sót, vì vậy tôi rất mong nhận đƣợc sự chỉ bảo góp ý của quý thầy cô và bạn bè đồng nghiệp để nghiên cứu này đƣợc hoàn thiện hơn. Chân thành cám ơn chồng tôi và ngƣời thân trong gia đình, đã động viên và tạo điều kiện tài chính, thời gian, cho tôi có thể học tập sau đại học. Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v DANH MỤC TỪ VIẾT TẮT ADO Microsoft ActiveX Data Objects API Giao diện cổng chung City Thành phố CNTT Công nghệ Thông tin Country Vùng CSDL Cơ sở dữ liệu IT Công nghệ Thông tin ITEM Mặt hàng KDD Khai phá tri thức MOLAP OLAP nhiều chiều OLAP Xử lí phân tích dữ liệu trực tuyến OLTP Phân tích trực tuyến PCA Phân tích thành phần chính Province Tỉnh ROLAP OLAP quan hệ SERVER Máy chủ State Bang SV Sinh viên TV Vô tuyến truyền hình URL Vị trí tài nguyên Internet VCR Đầu đọc băng video Web Trang tin WWW World Wide Web Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi DANH MỤC HÌNH BẢNG Hình 1.1 . Khai phá dữ liệu 3 Hình 1.2. Xử lí dữ liệu 5 Hình 1.3. Tri thức 6 Hình 1.4. Quá trình khai phá dữ liệu 8 Hình 1.5. Kiến trúc hệ thống khai phá dữ liệu 9 Hình 1.6. Phân lớp dữ liệu 10 Hình 1.7. Phân cụm dữ liệu 10 Hình 1.8. Mạng Nơron 12 Hình 1.9. Cây quyết định 12 Hình 2.1 . Dữ liệu liên quan đến nhiệm vụ 18 Hình 2.2 . Thí dụ về phân phối hàng 24 Hình 2.3. Các mẫu thể hiện 33 Hình 2.4. Dữ liệu thí dụ cho PCA 36 Hình 2.5. Đƣờng dữ liệu chuẩn hoá (đã trừ trung bình) 38 Hình 3.1. Trang tin của Trung tâm 41 Hình 3.2. Kế hoạch dạy và học của Trung tâm 42 Hình 3.3. Địa bàn tổ chức đào tạo của Trung tâm 42 Hình 3.4. Mô phỏng các chiều trong kinh doanh 44 Hình 3.5. Kiến trúc OLAP 46 Hình 3.6. Mô hình dữ liệu MOLAP 48 Hinh 3.7 Mô hình dữ liệu ROLAP 50 Hình 3.8. Mô hình dữ liệu HOLAP 51 Hình 3.9. Kiến trúc dịch vụ OLAP 54 Hình 3.10. Kiến trúc thành phần Server 54 Hình 3.11. Kiến trúc thành phần Khách 55 Hình 3.12. Dữ liệu gốc 57 Hình 3.13. Thí dụ sử dụng OLAP với bảng xoay 57 Hình 3.14. Thí dụ sử dụng nhiều tham số cột xoay 58 Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vii Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn viii Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 MỞ ĐẦU Ngày nay, xã hội con ngƣời thực hiện cuộc cách mạng về thông tin. Tri thức đƣợc đánh giá nhƣ là quyền lực và tiền bạc. Xã hội cũng dần chuyển sang xã hội tri thức, tức các sản phẩm quốc dân có hàm lƣợng tri thức cao. Công nghệ thông tin đáp ứng nhu cầu xử lý dữ liệu và tri thức. Bên cạnh công nghệ phần mềm là công nghệ tri thức. Công nghệ tri thức đƣợc nghiên cứu nhằm tích lũy tri thức của chuyên gia, làm máy tính thực hiện những chức năng thông minh nhƣ ngƣời, đồng thời làm con ngƣời cũng tự nâng cao bản thân. Cuộc cách mạng thông tin kỹ thuật số đã đem lại những thay đổi sâu sắc trong xã hội và trong cuộc sống của chúng ta. Những thuận lợi mà thông tin kỹ thuật số mang lại cũng sinh ra những thách thức và cơ hội mới cho quá trình đổi mới. Mạng Internet toàn cầu đã biến thành một xã hội ảo nơi diễn ra quá trình trao đổi thông tin trong mọi lĩnh vực chính trị, quân sự, quốc phòng, kinh tế, thƣơng mại…Trong hệ thống đào tạo Đại học và sau Đại học về Công nghệ thông tin, các chủ đề về Trí tuệ nhân tạo, hệ chuyên gia, dịch tự động…đều liên quan đến tri thức. Nhiều ứng dụng về Công nghệ thông tin đã và đang sử dụng tri thức nhƣ dữ liệu Meta, điều khiển quá trình xử lý dữ liệu. Hiện nay trong nhiều cơ sở đào tạo có nhiều phần mềm cho phép xử lý dữ liệu. Những dữ liệu liên quan đến công tác đào tạo gồm: Các kết quả dạy và học, những học liệu điện tử, các giáo trình số hóa…ngày càng nhiều, cần đƣợc xử lý một cách khoa học. Vấn đề khai phá các dữ liệu có áp dụng công nghệ ngày càng đƣợc sử dụng nhiều hơn trên nhiều lĩnh vực và ngay cả trong lĩnh vực giáo dục. Chính vì vậy, tôi chọn đề tài: “Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo”. Vấn đề nghiên cứu và ứng dụng thuộc phạm vi mã ngành Khoa học máy tính, mã số 60.48.01 về khai phá dữ liệu. Trong phạm vi nghiên cứu này tôi xin trình bày các nội dung sau: Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2  Chƣơng 1: Tổng quan về kĩ thuật khai phá dữ liệu Chƣơng này đề cập đến kĩ thuật khai phá dữ liệu, các phƣơng pháp khai phá dữ liệu và nhu cầu của khai phá dữ liệu.  Chƣơng 2: Một số phƣơng pháp xử lí dữ liệu nhờ thống kê Chƣơng này trình bày các phƣơng pháp thống kê, các thành phần đặc trƣng của dữ liệu và cách chọn, phân tích và đánh giá thành phần dữ liệu chính.  Chƣơng 3: Phân tích dữ liệu phục vụ công tác đào tạo Chƣơng này xây dựng, phân tích thiết kế và mô phỏng chƣơng trình thử nghiệm. Kết luận sẽ là đánh giá kết quả đạt đƣợc và các vấn đề tồn tại cần khắc phục tiếp. Phần cuối luận văn là danh sách các tài liệu tham khảo, sử dụng trong quá trình chuẩn bị luận văn. [...]... http://www.lrc-tnu.edu.vn Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo 8 Hình 1.4 Quá trình khai phá dữ liệu 4 Chuyển đổi dữ liệu : Trong giai đoạn này, dữ liệu có thể đƣợc tổ chức và sử dụng lại Mục đích của việc chuyển đổi dữ liệu là làm cho dữ liệu phù hợp hơn với mục đích khai phá dữ liệu 5 Phát hiện và trích mẫu dữ liệu : Đây là bƣớc tƣ duy trong khai phá dữ liệu Ở trong giai đoạn này... thống khai phá dữ liệu Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo 10 1.3 Các phương pháp khai phá dữ liệu 1.3.1 Phân lớp dữ liệu Mục tiêu của phân lớp dữ liệu đó là dự đoán nhãn lớp cho các mẫu dữ liệu Quá trình gồm hai bƣớc: xây dựng mô hình, sử dụng mô hình để phân lớp dữ liệu (mỗi mẫu một... dụng 2.4.1 Dữ liệu thích hợp với nhiệm vụ  Cơ sở dữ liệu hoặc tên kho dữ liệu  Các bảng cơ sở dữ liệu hoặc các khối kho dữ liệu Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo 20  Các điều kiện cho sự lựa chọn dữ liệu  Các chiều hoặc các thuộc tính thích hợp  Các điều kiện gom nhóm dữ liệu 2.4.2... cho các mẫu dữ liệu để rút ra đƣợc những tri thức cần thiêt Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo 9 Hình 1.5 Kiến trúc hệ thống khai phá dữ liệu Kiến trúc của hệ thống khai phá dữ liệu có thể chia thành các thành phần chính nhƣ trong hình  Kho dữ liệu: là một tập các cơ sở dữ liệu, các... lớn dữ liệu nhƣ vậy rõ ràng là các phƣơng pháp thủ công truyền thống áp dụng để phân tích dữ liệu nhƣ chia bảng không còn là phù hợp nữa Chính vì vậy, có một kỹ thuật mới ra đời đó là “Khai phá dữ liệu Hình 1.1 Khai phá dữ liệu Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo 4 Khai phá dữ liệu. .. trong bƣớc trên Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo 5 Hình 1.2 Xử lí dữ liệu Bƣớc này thƣờng chiếm nhiều thời gian nhất trong quá trình khám phá tri thức Các giải thuật tiền xử lý dữ liệu bao gồm :  Xử lý dữ liệu bị mất/ thiếu: Các dạng dữ liệu bị thiếu sẽ đƣợc thay thế bởi các giá... http://www.lrc-tnu.edu.vn Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo 28 Ngoài ra các thao tác thuộc toán học và thống kê nhƣ là phân cụm dữ liệu và các thuật toán phân tích dữ liệu phân tán có thể đƣợc sử dụng để hình thành các phân cấp khái niệm 2.5.5 Phân cấp theo luật Hệ thống phân cấp dựa trên luật xảy ra khi toàn bộ phân cấp khái niệm hoặc một phần của nó đƣợc định nghĩa bởi... liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo 18 Hình 2.1 Dữ liệu liên quan đến nhiệm vụ Đây là phần cơ sở dữ liệu đƣợc nghiên cứu tỉ mỉ Thí dụ là ngƣời quản lý bán hàng Ngƣời ta muốn nghiên cứu về xu hƣớng mua hàng của các khách hàng Thay vì khai thác trên toàn bộ cơ sở dữ liệu, ngƣời ta có thể chỉ ra rằng chỉ dữ liệu. .. trong cơ sở dữ liệu Quá trình khai phá dữ liệu bắt đầu với kho dữ liệu thô và kết thúc với tri thức đƣợc chiết xuất ra Nội dung của quá trình nhƣ sau: 1 Gom dữ liệu : Tập hợp dữ liệu là bƣớc đầu tiên trong khai phá dữ liệu Bƣớc này lấy dữ liệu từ trong một cơ sở dữ liệu, một kho dữ liệu, thậm chí dữ liệu từ những nguồn cung ứng web 2 Trích lọc dữ liệu : Ở giai đoạn này dữ liệu đƣợc lựa chọn và phân chia... độ chính xác của mô hình chấp nhận đƣợc Hình 1.6 Phân lớp dữ liệu 1.3.2 Phân cụm dữ liệu Mục tiêu của phân cụm dữ liệu là nhóm các đối tƣợng tƣơng tự nhau trong tập dữ liệu vào các cum, sao cho các đối tƣợng thuộc cùng một lớp là tƣơng đồng Hình 1.7 Phân cụm dữ liệu Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý . kê, các thành phần đặc trƣng của dữ liệu và cách chọn, phân tích và đánh giá thành phần dữ liệu chính.  Chƣơng 3: Phân tích dữ liệu phục vụ công tác đào tạo Chƣơng này xây dựng, phân tích thiết. phần chính phục vụ xử lý dữ liệu đào tạo Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn viii Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ. Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vii Lương Thị Thúy Nga Phân tích thành phần

Ngày đăng: 20/12/2014, 23:58

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan