CÂU HỎI MÔN HỌC NHẬP MÔN KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU CÓ ĐÁP ÁN

CÂU HỎI MÔN HỌC “NHẬP MÔN KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU” HTTT A. Phần trả lời (khoảng 40-60% điểm): mỗi câu trả lời có độ dài khoảng 1/2 -3/5 trang A4 ==== Câu hỏi tập trung (Các câu hỏi trong đề thi chủ yếu chọn ở danh sách này ) 1. Trình bày các nhiều càng tốt về các đặc điểm phân biệt giữa hệ thống Cơ sở dữ liệu và hệ thống Khai phá dữ liệu (về tri thức miền, các câu hỏi, kích thước hệ thống ). Cho ví dụ. 2. Tiền xử lý dữ liệu bao gồm 5 bài toán chính là Làm sạch dữ liệu, Tích hợp dữ liệu, Chuyển dạng dữ liệu, Rút gọn dữ liệu và Rời rạc hóa dữ liệu. Trình bày càng nhiều càng tốt về nội dung và các giải pháp điển hình cho giải quyết hai 5 bài toán nói trên (chọn hai bài toán nào là do học viên). 3. Trình bày khái niệm luật kết hợp, bài toán phát hiện và thuật toán khai phá tập mục phổ biến Apriori. Lập luận sơ bộ về tính đúng đắn của thuật toán, ước lượng số lần duyệt CSDL cực đai. 4. Trình bày về bài toán phân lớp (quá trình hai pha xây dựng mô hình và sử dụng mô hình); trình bày thuật toán cây quyết định tìm luật phân lớp theo độ đo Information Gain hoặc độ đo GINI. 5. Trình bày thuật toán phân lớp Bayes bao gồm phát biểu định lý Bayes. 6. Trình bày thuật toán phân lớp k-NN bằng diễn giải và bằng giả mã. 7. Trình bày thuật toán phân lớp SVM. 8. Trình bày thuật toán phân cụm k-mean cứng. 9. Trình bày khái niệm kho dữ liệu do Inmon đề xuất và giới thiệu càng nhiều càng tốt về 4 đặc trưng của kho dữ liệu. Cho ví dụ 10. Trình bày về 3 kiểu mô hình khái niệm kho dữ liệu (hình sao, bông tuyết, dải ngân hà). Cho ví dụ. 11. Trình bày về kiến trúc đa tầng của kho dữ liệu (nguồn dữ liệu, lưu dữ liệu, xử lý OLAP, tiện ích người dùng). Thể hiện bằng hình vẽ. 12. Trình bày về siêu dữ liệu trong kho dữ liệu, các loại siêu dữ liệu và cho ví dụ. 13. Trình bày về các nhân sự quan trọng cần phải quan tâm khi xác định yêu cầu trong dự án kho dữ liệu. Có điểm gì khác với xác định yêu cầu trong hệ CSDL? 14. Trình bày khái niệm chiều kinh doanh và các nội dung liên quan tới khái niệm này trong dự án kho dữ liệu. Cho ví dụ 15. Trình bày và phân tích chức năng-nhiệm vụ của các vai trò sau đây của đội phát triển dự án kho dữ liệu: (1) Nhà tài trợ điều hành, (2) Người quản lý dự án, (3) Người quản lý quan hệ người dùng, (4) Kiến trúc sư chính, (5) Chuyên gia hạ tầng, (6) Người phân tích kinh doanh, (7) Người mô hình hóa dữ liệu. 16. Trình bày về các điểm trọng tâm cần quan tâm khi phỏng vấn bao gồm Tài nguyên thông tin hiện có, Miền chủ đề, Độ đo hiệu năng chính yếu, Tần suất thông tin. ==== Câu hỏi tham khảo (có thể có không quá một câu ở danh sách này trong bài thi) 17. Trình bày các nội dung cơ bản về toán tử GROUP BY 18. Trình bày các nội dung chuyển đổi dữ liệu, tải dữ liệu và chất lượng dữ liệu trong thiết kế dữ liệu của kho dữ liệu 19. Trình bày các nội dung về gói thông tin trong bước xác định yêu cầu của dự án kho dữ liệu 20. Trình bày các nội dung về nguồn thông tin hiện tại, miền chủ đề, độ đo hiệu năng chủ yếu, tần suất thông tin trong quá trình phỏng vấn xác định yêu cầu xây dựng kho dữ liệu 21. Trình bày nội dung năm pha của phương pháp nắm bắt yêu cầu JAD (serious joint application development) (xác định dự án, nghiên cứu khảo sát, chuẩn bị, các phiên làm việc, hoàn thiện tài liệu) B. Phần trắc nghiệm (khoảng 40-60% điểm): Toàn bộ nội dung đã học 1 TRẢ LỜI Câu 1: Các đặc điểm phân biệt giữa hệ thống Cơ sở dữ liệu và hệ thống Khai phá dữ liệu Trả lời: Đặc điểm phân biệt Hệ thống Cơ sở dữ liệu Hệ thống Khai phá dữ liệu Tri thức miền Cần có một giả thiết “đầy đủ” về tri thức miền phức tạp Giả thiết tri thức “đầy đủ” không còn có tính cốt lõi, cần bổ sung tri thức cho hệ thống để cải tiến (nâng cấp) miền tri thức Câu hỏi - Câu hỏi cụ thể, riêng biệt: “Hãy hiển thị số tiền Ông Smith trong ngày 5 tháng Giêng?” ghi nhận riêng lẻ do xử lý giao dịch trực tuyến (online transaction processing – OLTP). - Câu hỏi thống kê: “Có bao nhiêu nhà đầu tư nước ngoài mua cổ phiếu X trong tháng trước?” ghi nhận thống kê do hệ thống hỗ trợ quyết định thống kê (stastical decision suppport system - DSS) - Câu hỏi OLAP: “Hiển thị mọi cổ phiếu trong CSDL với mệnh giá tăng?” ghi nhận dữ liệu đa chiều do xử lý phân tích trực tuyến (on-line analytic processing - OLAP). - “Các cổ phiếu tăng giá có đặc trưng gì ?” - “Tỷ giá US$ - DMark có đặc trưng gì ?” - “Hy vọng gì về cổ phiếu X trong tuần tiếp theo ?” - “Trong tháng tiếp theo, sẽ có bao nhiêu đoàn viên công đoàn không trả được nợ của họ ?” - “Những người mua sản phẩm Y có đặc trưng gì ?” Kích thước hệ thống Kích thước bé hơn, thông tin lấy từ cơ sở dữ liệu, kho dữ liệu, cơ sở dữ liệu chuyên biệt Kích thước lớn hơn, thông tin lấy từ nhiều nguồn khác nhau như cơ sở dữ liệu, kho dữ liệu, cơ sở dữ liệu chuyên biệt, world wide web và các kiểu kho chứa thông tin khác; ngoài ra còn bao gồm các thành phần khai phá dữ liệu và đánh giá các mẫu khai phá được. Kỹ thuật Chủ yếu là các kỹ thuật xử lý transaction, cập nhật Chủ yếu là các kỹ thuật tiền xử lý dữ liệu, phân tích dữ liệu bằng thống kê hay học máy. 2 Câu 2: Tiền xử lý dữ liệu Trả lời: Làm sạch dữ liệu  Là quá trình 3 o xác định tính không chính xác, không đầy đủ/tính bất hợp lý của dữ liệu o chỉnh sửa các sai sót và thiếu sót được phát hiện o nâng cao chất lượng dữ liệu. o quan trọng, “một trong ba bài toán lớn nhất của kho dữ liệu”(Ralph Kimball)  Quá trình bao gồm o kiểm tra định dạng, tính đầy đủ, tính hợp lý, miền giới hạn, o xem xét dữ liệu để xác định ngoại lai (địa lý, thống kê, thời gian hay môi trường) hoặc các lỗi khác, o đánh giá dữ liệu của các chuyên gia miền chủ đề.  Quá trình thường dẫn đến o loại bỏ, lập tài liệu, kiểm tra liên tiếp và hiệu chỉnh đúng bản ghi nghi ngờ. o Kiểm tra xác nhận có thể được tiến hành nhằm đạt tính phù hợp với các chuẩn áp dụng, các quy luật, và quy tắc.  Các bài toán thuộc làm sạch dữ liệu và giải pháp cho các bài toán đó o Xử lý giá trị thiếu  Bỏ qua bản ghi có giá trị thiếu (thường làm khi thiếu nhãn phân lớp và tỉ lệ số giá trị thiếu không lớn)  Điền giá trị thiếu bằng tay  Điền giá trị thiếu tự động (điền giá trị khả năng nhất dựa trên suy luận sử dụng Naïve Bayes, Decision Tree, điền trung bình giá trị thuộc tính các bản ghi hiện có hoặc các bản ghi cùng lớp, điền hằng toàn cục…) o Xử lý dữ liệu nhiễu: định danh ngoại lai và làm trơn.  Phương pháp đóng thùng Binning  Phương pháp phân cụm Clustering (phát hiện và loại bỏ ngoại lai - outliers)  Phương pháp hồi quy (làm trơn dữ liệu theo các hàm hồi quy)  Phương pháp kết hợp kiểm tra máy tính và con người o Chỉnh sửa dữ liệu không nhất quán o Giải quyết tính dư thừa tạo ra sau tích hợp dữ liệu. Tích hợp dữ liệu  Tích hợp dữ liệu (Data integration): o Kết hợp dữ liệu từ nhiều nguồn thành một nguồn lưu trữ chung  Tích hợp sơ đồ o Tích hợp siêu dữ liệu từ các nguồn khác nhau o Vấn đề định danh thực thế: xác định thực thể thực tế từ nguồn dữ liệu phức, chẳng hạn, A.cust- id ≡ B.cust-#  Phát hiện và giải quyết vấn đề thiếu nhất quán dữ liệu o Cùng một thực thể thực sự: giá trị thuộc tính các nguồn khác nhau là khác nhau o Nguyên nhân: trình bày khác nhau, cỡ khác nhau, chẳng hạn, đơn vị quốc tế khác với Anh quốc  Nắm bắt dư thừa dữ liệu o Một thuộc tính có nhiều tên khác nhau ở các CSDL khác nhau o Dữ liệu dư thừa có thể được phát hiện khi phân tích tương quan Chuyển dạng dữ liệu  Làm trơn (Smoothing): loại bỏ nhiễu từ dữ liệu 4  Tổng hợp (Aggregation): tóm tắt, xây dựng khối dữ liệu  Tổng quát hóa (Generalization): leo kiến trúc khái niệm  Chuẩn hóa (Normalization): thu nhỏ vào miền nhỏ, riêng o Chuẩn hóa min-max o Chuẩn hóa z-score o Chuẩn hóa tỷ lệ thập phân j : số nguyên nhỏ nhất mà Max(|v’|) < 1  Xây dựng thuộc tính/đặc trưng o Thuộc tính mới được xây dựng từ các thuộc tính đã có Rút gọn dữ liệu  Kho dữ liệu chứa tới hàng TB o Phân tích/khai phá dữ liệu phức mất thời gian rất dài khi chạy trên tập toàn bộ dữ liệu  Rút gọn dữ liệu o Có được trình bày gọn của tập dữ liệu mà nhỏ hơn nhiều về khối lượng mà sinh ra cùng (hoặc hầu như cùng) kết quả.  Chiến lược rút gọn dữ liệu o Kết hợp khối dữ liệu: Giảm thêm kích thước dữ liệu, sử dụng trình diễn nhỏ nhất đủ để giải bài toán, nên sử dụng dữ liệu khối lập phương khi trả lời câu hỏi tổng hợp thông tin. o Rút gọn chiều: Rút gọn đặc trưng, loại bỏ thuộc tính không quan trọng, sử dụng phương pháp cây quyết định, heuristic,… o Nén dữ liệu o Giảm tính số hóa – dữ liệu thành mô hình o Rời rạc hóa và sinh cây khái niệm Rời rạc hóa dữ liệu. Câu 3:Luật kết hợp Trả lời: Ví dụ luật kết hợp  “98% khách hàng mà mua tạp chí thể thao thì đều mua các tạp chí về ôtô” ð sự kết hợp giữa “tạp chí thể thao” với “tạp chí về ôtô” Khái niệm Cơ sở dữ liệu giao dịch  Tập toàn bộ các mục I = {i 1 , i 2 , …, i k }: “tất cả các mặt hàng”.  Giao dịch: danh sách các mặt hàng (mục: item) trong một phiếu mua hàng của khách hàng. Giao dịch T là một tập mục. 5 AAA AA A minnewminnewmaxnew minmax minv v _)__(' +− − − = A A devstand meanv v _ ' − = j v v 10 '=  Một giao dịch T là một tập con của I: T ⊆ I. Mỗi giao dịch T có một định danh là T ID .  A là một tập mục A ⊆ I và T là một giao dịch: Gọi T chứa A nếu A ⊆ T.  Gọi A → B là một “luật kết hợp” nếu A ⊆ I, B ⊆ I và A∩B=∅. Luật kết hợp  Luật kết hợp A → B có độ hỗ trợ (support) s trong CSDL giao dịch D nếu trong D có s% các giao dịch T chứa AB: chính là xác suất P(AB). s = Support (A → B) = P(A∪B) : 1 ≥ s (A → B) ≥ 0  Luật kết hợp A → B có độ tin cậy (confidence) c trong CSDL D nếu như trong D có c% các giao dịch T chứa A thì cũng chứa B: chính là xác suất P(B|A). c = Confidence (A → B) = P(B|A) : 1 ≥ c (A → B) ≥ 0  Luật A → B được gọi là đảm bảo độ hỗ trợ s trong D nếu s(A → B) ≥ s.  Luật A→B được gọi là đảm bảo độ tin cậy c trong D nếu c(A → B) ≥ c.  Tập mục A có P(A) ≥ s>0 (với s cho trước, s còn gọi là độ hỗ trợ tối thiểu minsup) được gọi là tập mục phổ biến  Luật A → B được gọi là luật mạnh nếu A, B là các tập mục phổ biến và luật A → B đảm bảo độ tin cậy tối thiểu minconf. o P(A) ≥ minsup o P(B) ≥ minsup o confident(A→B) ≥ minconf Bài toán Cho trước CSDL giao dịch D và độ hỗ trợ tối thiểu minsup = s > 0, độ tin cậy tối thiếu minconf = c > 0. Hãy tìm mọi luật kết hợp mạnh A → B. Thuật toán khai phá tập mục phổ biến Apriori - Khai phá luật kết hợp gồm 2 bước Bước 1: Sinh tất cả tập mục phổ biến Bước 2: Sinh tất cả luật kết hợp mạnh từ tập mục phổ biến - Khai phá tập mục phổ biến Apriori hoạt động theo nguyên tắc Quy hoạch động + Từ các tập F i = {c i | c i tập phổ biến, |c i | = i} gồm mọi tập mục phổ biến có độ dài i với 1 ≤ i ≤ k, đi tìm tập F k+1 gồm mọi tập mục phổ biến có độ dài k+1. + Trong thuật toán: Các tên mục i 1 , i 2 , … i n (n = |I|) được sắp xếp theo một thứ tự cố định, thường được đánh chỉ số 1, 2, , n. Lập luận tính đúng đắn của thuật toán:  Mọi tập con của tập mục phổ biến cũng là tập mục phổ biến  Nguyên lý tỉa Apriori: Với mọi tập mục không phổ biến thì mọi tập bao không cần phải sinh ra/kiểm tra. Số lần duyệt cơ sở dữ liệu cực đại  Trong mỗi bước k, thuật toán Apriori đều phải duyệt CSDL D.  Khởi động, duyệt D để có được F 1 . Các bước k sau đó, duyệt D để tính số lượng giao dịch t thoả từng ứng viên c của C k , mỗi giao dịch t chỉ xem xét một lần cho mọi ứng viên c thuộc C k  Như vậy số lần duyệt cơ sở dữ liệu cực đại là n lần (với n là số giao dịch trong CSDL D) 6 Câu 4: Trình bày về bài toán phân lớp (quá trình hai pha xây dựng mô hình và sử dụng mô hình); trình bày thuật toán cây quyết định tìm luật phân lớp theo độ đo Information Gain hoặc độ đo GINI. Trả lời: Bài toán phân lớp:  Xây dựng mô hình: Tìm mô tả cho tập lớp đã có o Cho trước tập lớp C = {C 1 , C 2 , …, C k } o Cho ánh xạ (chưa biết) từ miền D sang tập lớp C o Có tập ví dụ D exam =D 1 +D 2 + …+ D k với D i ={d∈D exam : d∈C i }D exam được gọi là tập ví dụ mẫu. o Xây dựng ánh xạ (mô hình) phân lớp trên: Dạy bộ phân lớp. o Mô hình: Luật phân lớp, cây quyết định, công thức toán học…  Pha 1: Dạy bộ phân lớp 7 o Tách D exam thành D train (2/3) + D test (1/3). D train và D test “tính đại diện” cho miền ứng dụng o D train : xây dựng mô hình phân lớp (xác định tham số mô hình) o D test : đánh giá mô hình phân lớp (các độ đo hiệu quả) o Chọn mô hình có chất lượng nhất  Pha 2: Sử dụng bộ phân lớp o d ∈ D \ D exam : xác định lớp của d. Ví dụ phân lớp: Bài toán cho vay Ti d Refund Marital Status Taxable Income Cheat 1 No Single 75K No 2 Yes Married 50K No 3 No Single 75K No 4 No Married 150K Yes 5 No Single 40K No 6 No Married 80K Yes 7 No Single 75K No 8 Yes Married 50K No 9 Yes Married 50K No 10 No Married 150K Yes 11 No Single 40K No 12 No Married 150K Yes 13 No Married 80K Yes 14 No Single 40K No 15 No Married 80K Yes 8 Thuật toán cây quyết định tìm luật phân lớp theo độ đo IG hoặc độ đo GINI  Cây quyết định o Gốc: tên thuộc tính; không có cung vào + không/một số cung ra o Nút trong: tên thuộc tính; có chính xác một cung vào và một số cung ra (gắn với điều kiện kiểm tra giá trị thuộc tính của nút) o Lá hoặc nút kết thúc: giá trị lớp; có chính xác một cung vào + không có cung ra.  Độ đo Gini o Đo tính hỗn tạp của một tập ví dụ mẫu o Công thức tính độ đo Gini cho nút t: o Trong đó p(j|t) là tần suất liên quan của lớp j tại nút t o Gini (t) lớn nhất = 1-1/n c (với n c là số các lớp tại nút t): khi các bản ghi tại t phân bố đều cho n c lớp; tính hỗn tạp cao nhất, không có phân biệt giữa các lớp o Gini (t) nhỏ nhất = 0 khi tất cả các bản ghi thuộc một lớp duy nhất.  Ví dụ: Bốn trường hợp C1 0 C1 1 C1 2 C1 3 C2 6 C2 5 C2 4 C2 3 GINI=0.000 GINI=0.278 Gini=0.444 Gini=0.5  Chia tập theo độ đo Gini o Dùng trong các thuật toán CART, SLIQ, SPRINT o Khi một nút t được phân hoạch thành k phần (k nút con của t) thì chất lượng của việc chia tính bằng 9 [ ] ∑ = −= 1 2 )|(1)( j tjptGini trong đó n là số bản ghi của tập bản ghi tại nút t, n i là số lượng bản ghi tại nút con I (của nút t).  Ví dụ: o Tính toán GINI cho Refund (Yes, No), Marital Status (Single&Divorced, Married) và Taxable Income (<80K, ≥ 80K). o Refund: 3/10 * (0) + 7/10 * (1-(3/7) 2 – (4/7) 2 ) = 7/10*(24/49) = 24/70 o Marital Status: 4/10 * 0 + 6/10 * (1- (3/6) 2 – (3/6) 2 ) = 6/10 * ½ = 3/10 o Taxable Income: thuộc tính liên tục cần chia khoảng (tồn tại một số phương pháp theo Gini, kết quả 2 thùng và 80K là mốc) 3/10 * (0) + 7/10 * (1-(3/7) 2 – (4/7) 2 ) = 7/10*(24/49) = 24/70 o Như vậy, Gini của Refund và Taxable Income bằng nhau (24/70) và lớn hơn Gini của Marital Status (3/10) nên chọn Refund cho gốc cây quyết định. o  Độ đo Information Gain o Thông tin thu được sau khi phân hoạch tập ví dụ o Dùng cho các thuật toán ID3, họ C4.5  Entropy o Công thức tính entropy nút t: o Trong đó p(j|t) là tần suất liên quan của lớp j tại nút t o độ không đồng nhất tại nút t. o Entropy (t) lớn nhất = log (n c ) (với n c là số các lớp tại nút t): khi các bản ghi tại t phân bố đều cho n c lớp; tính hỗn tạp cao nhất, không có phân biệt giữa các lớp o Entropy (t) nhỏ nhất = 0 khi tất cả các bản ghi thuộc một lớp duy nhất. 10 ∑ = = k i i split iGINI n n GINI 1 )( ∑ = = k i i split iGINI n n GINI 1 )( [ ] ∑ = −= 1 2 )|(1)( j tjptGini [...]... hiện bằng hình vẽ Trả lời: Kiến trúc đa tầng của kho dữ liệu (a multi-tiered Architecture) - Nguồn dữ liệu: Được thu thập từ cơ sở dữ liệu hoạt động và các nguồn dữ liệu khác - Lưu trữ dữ liệu: Tại đây dữ liệu sẽ được tiền xử lý và chuyển tới kho dữ liệu Dựa trên sự điều khiển và tích hợp của siêu dữ liệu, dữ liệu trong kho sẽ được chia thành các kho dữ liệu theo chủ đề riêng - Xử lý OLAP (Online Analysis... phân cấp, định nghĩa dữ liệu, vị trí và nội dung của dữ liệu chủ đề - Loại siêu dữ liệu hoạt động Ví dụ dữ liệu dòng (lịch sử di chuyển dữ liệu và con đường chuyển nó); hoạt động lưu trữ hoặc lọc dữ liệu; giám sát thông tin (sử dụng kho dữ liệu thống kê, báo cáo lỗi, lịch sử kiểm toán) - Các thuật toán được sử dụng để tổng hợp dữ liệu Ví dụ thuật toán khai phá tập mục Apriori, thuật toán phân cụm k-mean,... toán  Đưa vào giá trị “ALL”, giá trị “ALL” sẽ trình bày toàn bộ các giá trị tồn tại trong một cột nào đó mà không lo mất dữ liệu khi Roll-up, Drill-down Câu 18: Trình bày các nội dung chuyển đổi dữ liệu, tải dữ liệu và chất lượng dữ liệu trong thiết kế dữ liệu của kho dữ liệu Trả lời:  Chuyển đổi dữ liệu: o Định nghĩa: là trích xuất, trích hợp, và chuyển dạng dữ liệu o Chuyên gia chuyển đổi dữ liệu. .. bày khái niệm Kho dữ liệu do Inmon đề xuất và giới thiệu càng nhiều càng tốt về 4 đặc trưng của kho dữ liệu Cho ví dụ Trả lời: Khái niệm Kho dữ liệu của W.H Inmon: Kho dữ liệu là một tập hợp dữ liệu hướng chủ đề, tích hợp, có tính thời gian và không thay đổi để hỗ trợ quá trình tạo quyết định quản lý” Như vậy Kho dữ liệu có bốn “đặc trưng”: hướng chủ đề, tích hợp, có tính thời gian và không thay đổi... hợp… -Các ánh xạ xác định sự tương ứng dữ liệu từ môi trường tác nghiệp sang kho dữ liệu - Các dữ liệu liên quan đến hiệu năng của hệ thống Ví dụ lược đồ kho dữ liệu, view, nguồn gốc dữ liệu - Các dữ liệu kinh doanh Ví dụ các điều khỏan, định nghĩa, quyền sở hữu và chính sách thu phí Câu 13 Trình bày về các nhân sự quan trọng cần phải quan tâm khi xác định yêu cầu trong dự án kho dữ liệu Có điểm gì... tạo các khung nhìn mới của dữ liệu dựa trên một tập các hàm tính toán đặc biệt Câu 12: Trình bày về siêu dữ liệu trong kho dữ liệu, các loại siêu dữ liệu và cho ví dụ Trả lời:(xem thêm slide 88 – chương 4) Siêu dữ liệu (metadata) là dạng dữ liệu dùng để xác định hay mô tả các đối tượng trong kho dữ liệu Nó được chia thành 6 loại nhỏ sau: - Loại mô tả cấu trúc của kho dữ liệu Ví dụ như: lược đồ, khung... phải có kiến thức về cấu trúc dữ liệu, kiến thức chuyên sâu về các hệ thống nguồn, có kinh nghiêm như nhà phân tích thiết kế hệ thống  Tải dữ liệu: o Định nghĩa: tải dữ liệu là chuyển dữ liệu tới đối tượng cuối (end target) Tùy thuộc vào các yêu cầu ban đầu, quá trình tải dữ liệu sẽ thực hiện với kho ng cách thời gian khác nhau (theo tháng, quí, năm, …)  Chất lượng dữ liệu: o Định nghĩa :Dữ liệu có. .. tuyến): + Hệ thống quản lý dữ liệu giàu năng lực cho phép phân tích dữ liệu: * Cắt lát dữ liệu theo nhiều khía cạnh khác nhau * Khoan xuống (drill up) mức chi tiết hơn * Cuộn lên (roll up) mức tổng hợp hơn + Bản chất cốt lõi của OLAP * Dữ liệu được lấy ra từ kho dữ liệu hoặc kho dữ liệu chủ đề (Datamart) * DL được chuyển thành mô hình đa chiều * DL được lưu trữ trong một kho dữ liệu đa chiều - Tiện ích... chiều - Tiện ích người dùng: Người dùng có thể phân tích, truy vấn, lập báo cáo và khai thác dữ liệu cần thiết + Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa chọn, định hướng và khám phá dữ liệu + Cung cấp một ngôn ngữ truy vấn phân tích, cung cấp sức mạnh để khám phá các mối quan hệ trong dữ liệu kinh doanh phức tạp + Dữ liệu được tính toán trước đối với các truy vấn thường xuyên... sang * Cập nhật tác nghiệp dữ liệu không xuất hiện trong môi trường KDL - Không có xử lý giao dịch, phục hồi và cơ chế điều khiển đồng thời - Chí có hai thao tác truy nhập dữ liệu, dữ liệu nguồn không biến đổi trong KDL: + Tải ban đầu dữ liệu + Truy cập dữ liệu Ví dụ: Câu 10: Trình bày về 3 kiểu mô hình khái niệm kho dữ liệu (hình sao, bông tuyết, dải ngân hà) Cho ví dụ Trả lời: + Sơ đồ hình sao (star

CÂU HỎI MÔN HỌC NHẬP MÔN KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU CÓ ĐÁP ÁN

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan