Công nghệ cơ sở dữ liệu cho các hệ thống hỗ trợ quyết định

14 406 0
Công nghệ cơ sở dữ liệu cho các hệ thống hỗ trợ quyết định

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Hệ thống hỗ trợ quyết định là nòng cốt của kinh doanh dựa trên cơ sở hạ tầng CNTT, Bởi vì chúng cung cấp cho công ty một cách chuyển đổi các thông tin kinh doanh sang kết quả cụ thể và hữu ích hơn. Thu thập , duy trì, và phân tích lượng dữ liệu lớn, tuy nhiên,để thực hiện nhiệm vụ to lớn này có liên quan đến những thách thức đối với kỹ thuật và chi phí mà đòi hỏi sự đảm bảo của tổ chức.

Công nghệ cơ sở dữ liệu cho các hệ thống hỗ trợ quyết định Tạo ra một khung hỗ trợ hiệu quả cho hệ thống hỗ trợ ra quyết định - một trong số đó sẽ thúc đẩy dữ liệu kinh doanh từ nhiều nguồn rời rạc rạc - là nhiệm vụ khó khăn nhưng khả thi. Hệ thống hỗ trợ quyết định là nòng cốt của kinh doanh dựa trên cơ sở hạ tầng CNTT, Bởi vì chúng cung cấp cho công ty một cách chuyển đổi các thông tin kinh doanh sang kết quả cụ thể và hữu ích hơn. Thu thập , duy trì, và phân tích lượng dữ liệu lớn, tuy nhiên,để thực hiện nhiệm vụ to lớn này có liên quan đến những thách thức đối với kỹ thuật và chi phí mà đòi hỏi sự đảm bảo của tổ chức. Hệ thống xử lý giao dịch trực tuyến cho phép các tổ chức thu thập lượng lớn dữ liệu kinh doanh hàng ngày. Ứng dụng OLTP thuộc kiểu tự động hóa cấu trúc, các nhiệm vụ thường lặp đi lặp lại, như là nhập đơn hàng hay giao dịch ngân hàng. Cụ thể , dữ liệu cập nhật hàng ngày từ các điểm khác nhau độc lập phải được tổng hợp ở một địa điểm duy nhất trước khi các nhà phân tích có thể phân tích đưa ra kết quả tổng hợp. Hàng ngày, những người quản lý sẽ sử dụng những dữ liệu tổng hợp này để ra quyết định. Tất cả mọi việc từ quản lý hàng tồn kho đến việc đặt hàng qua thư điện tử. CÁC THÀNH PHẦN CỦA HỆ THỐNG HỖ TRỢ QUYẾT ĐỊNH Một hệ thống hỗ trợ quyết định thành công là một hệ thống sáng tạo phức tạp gồm nhiều thành phần.Một ví dụ cụ thể về kinh doanh,là Công ty FootWear Seller , giúp hình dung về một hệ thống hỗ trợ quyết định bao gồm nhiều thành phần, , FSC sản xuất giày dép và bán thông qua hai kênh , trực tiếp cho khách hàng và thông qua các đại lý. Giám đốc điều hành tiếp thị của FSC cần phải trích xuất các thông tin sau đây từ các dữ liệu kinh doanh tổng hợp của công ty: • Báo cáo của 5 tiểu bang có doanh số tăng cao nhất về loại mặt hàng dành cho thanh thiếu niên trong năm qua • Tổng doanh số bán giày dép của thành phố New York trong tháng qua của mặt hàng dành cho gia đình. • 50 thành phố có lượng khách hàng cao nhất. • 1 triệu khách hàng thích mua kiểu giày mới Walk – on – Air Trước khi xây dựng một hệ thống cung cấp thông tin hỗ trợ ra quyết định này, các nhà phân tích của FSC phải giải quyết ba vấn đề cơ bản: • Thu thập những dữ liệu gì, mô hình hóa dữ liệu và quản lý lưu trữ nó thế nào? • Phân tích dữ liệu đó như thế nào? • Làm sao để tải dữ liệu từ nhiều nguồn. Hình 1. Thành phần chính của một hệ thống hỗ trợ ra quyết định, Một máy chủ kho dữ liệu những công cụ phân tích và khai phá dữ liệu.Và các công cụ đầu cuối để hỗ trợ kho dữ liệu. Trên hình 1 cho thấy, 3 thành phần chính của một hệ thống hỗ trợ ra quyết định: Một máy chủ kho dữ liệu, những công cụ phân tích trực tuyến OLAP và khai phá dữ Liệu, và các công cụ dung cho kho dữ liệu. Kho dữ liệu bao gồm dữ liệu tổng hợp từ nhiều cơ sở dữ liệu hoạt động và xu hướng cơ sở dữ hoạt động liệu hoạt động ngày càng có cường độ lớn hơn, Kích thước dữ liệu thường đền hàng trăm gigabytes đến terabytes. Thông thường, các kho dữ liệu được duy trì một cách riêng biệt từ cơ sở dữ liệu hoạt động của doanh nghiệp bởi các chức năng của các ứng dụng và Yêu cầu thực thi là khá khác nhau từ những cơ sở dữ liệu hoạt động. Kho dữ liệu tồn tại chủ yếu phục vụ các ứng dụng hỗ trợ quyết định và cung cấp các lịch sử sử dụng dữ liệu, tổng kết, hợp nhất và phù hợp hơn để có thể phân tích chi tiết hơn, những bản ghi riêng biệt Khối lượng công việc bao gồm các quảng cáo đặc biệt, truy vấn phức tạp mà truy cập, tìm kiếm, kết nối và tập hợp trên hàng triệu bản ghi. Thời gian trả lời truy vấn quan trọng hơn là thông qua giao dịch. Bởi vì xây dựng kho dữ liệu là một quá trình phức tạp có thể mất nhiều năm thay vào đó một vài tổ chức đi xây dựng kho dữ liệu cục bộ. Trong đó những thông tin được hình thành từ một tập con dữ liệu của kho dữ liệu. Ví dụ, kho dữ liệu cục bộ về tiếp thị thông minh có thể chỉ bao gồm khách hàng, sản phẩm, và thông tin bán hàng và có thể không chứa lịch trình giao hàng. Một số kho dữ liệu cục bộ có thể cùng tồn tại với kho dữ liệu chính và cung cấp một phần khung nhìn về kho dữ liệu.Các dữ liệu tại kho dữ liệu cục bộ được đưa ra nhanh hơn so với kho dữ liệu. nhưng có thể liên quan đến vấn đề tích hợp phức tạp về sau này nếu kế hoạch ban đầu không phản ánh một mô hình trực quan kinh doanh hoàn chỉnh. Phân tích và khai thác dữ liệu trực tuyến là công cụ phân tích cho phép phân tích dữ liệu phức tạp. Các công cụ đầu cuối như : khai thác, chuyển đổi, và các công cụ tải giúp kho dữ liệu lấy dữ liệu từ nhiều nguồn bên ngoài. DATA WAREHOUSE. Hầu hết các kho dữ liệu sử dụng công nghệ cơ sở dữ liệu quan hệ bởi vì nó cung cấp một cách tiếp cận mạnh mẽ, tin cậy và hiệu quả để lưu trữ và quản lý khối lượng lớn dữ liệu. Vấn đề quan trọng nhất liên quan đến xây dựng kho dữ liệu là thiết kế cơ sở dữ liệu, vừa hợp lý và hữu hình. Xây dựng một sơ đồ hợp lý cho doanh nghiệp đòi hỏi phải có mô hình kinh doanh lớn. THIẾT KẾ CƠ SỞ DỮ LIỆU HỢP LÝ. Trong thiết kế lược đồ hình sao, cơ sở dữ liệu thực tế là bao gồm một bảng mô tả tất cả các giao dịch và một bảng kích thước cho mỗi thực thể. Đối với các công ty FSC ictitious, mỗi giao dịch bán hàng liên quan đến một số cơ quan, khách hàng, nhân viên bán hàng, một sản phẩm, một đơn đặt hàng, một ngày giao dịch, và các thành phố nơi giao dịch xảy ra. Mỗi giao dịch có các thuộc tính đo lường như số lượng bán, tổng số tiền khách hàng thanh toán. Mỗi bộ trong bảng thực tế bao gồm một con trỏ đến từng đối tượng trong một giao dịch. Và số các biện pháp liên quan đến giao dịch. Bảng một chiều bao gồm các cột tương ứng với các thuộc tính của thực thể. Tính toán tham gia giữa một bảng thực tế và một bộ các bảng một chiều thì hiệu quả hơn tính toán một loạt các trong quan hệ tùy ý. Tuy nhiên một số thực thể được được kết hợp với hệ thống phân cấp mà lược đồ phân cấp mô hình sao đó không hỗ trợ một cách rõ ràng. Một hệ thống phân cấp là một nhóm đa cấp trong đó mỗi cấp độ bao gồm một nhóm tách rời các giá trị ở cấp độ ngay bên dưới nó. Ví dụ, tất cả sản phẩm có thể được nhóm lại thành một tập rời nhau về chủng loại , bản thân chúng tự nhóm lại thành một bộ tách rời nhau. Mô hình dạng bông tuyết là cải tiến của mô hình hình sao trong đó hệ thống phân cấp được thể hiện rõ bằng việc chuẩn hóa kích thước bảng. Trong lược đồ sao mô tả trong hình 2. Một tập hợp các thuộc tính mô tả mỗi chiều và có thể liên quan thông qua một quan hệ hệ thống phân cấp. Ví dụ, kích thước sản phẩm của FSC bao gồm năm thuộc tính: tên sản phẩm (Running Show 2000), thể loại (Sport), Sản phẩm gia đình (Shoe), giá ($ 80), và tỷ suất lợi nhuận (80 phần trăm). Hình 2 Sơ đồ bông tuyết giả thuyết cho các Công ty bán giày dép. Một tập hợp các thuộc tính mô tả mỗi chiều và có liên quan thông qua một hệ thống phân cấp mối quan hệ. THIẾT KẾ CƠ SỞ DỮ LIỆU VẬT LÝ Hệ thống cơ sở dữ liệu sử dụng thêm các cấu trúc như chỉ mục, khung nhìn để có thể xử lý hiệu quả các truy vấn phức tạp. Xác định tập chỉ mục và khung nhìn là vấn đề khó trong thiết kế vật lý. Trong khi tìm kiếm chỉ mục có thể hiệu quả cho các truy vấn dữ liệu chọn lọc,truy vấn dữ liệu chuyên sâu có thể yêu cầu quét tuần tự của toàn bộ mối quan hệ hoặc dọc theo phân vùng của một mối quan hệ. Nâng cao hiệu quả quét các bảng và khai thác song song để giảm thời gian đáp ứng truy vấn là những cân nhắc quan trọng trong thiết kế. CẤU TRÚC CHỈ MỤC VÀ CÁCH SỬ DỤNG Kỹ thuật xử lý truy vấn khai thác chỉ số thông qua chỉ số giao nhau và kết hợp là hữu ích cho việc trả lời nhiều vị từ truy vấn.Các chỉ mục giao nhau khai thác nhiều câu lệnh chọn có điều kiện và có thể làm giảm đáng kể hoặc loại bỏ sự cần thiết phải truy cập vào bảng cơ sở nếu tất cả các phép chiếu cột có sẵn thông qua quét chỉ mục. Bản chất đặc biệt của các lược đồ sao làm cho chi tiết tổng thể tham gia chỉ số đặc biệt hấp dẫn đối với quyết định hỗ trợ. Trong khi sơ đồ chỉ số truyền thống thì giá trị của một cột vào một danh sách các hàng ứng với giá trị đó, một chỉ số tham gia duy trì với nhau bằng mối quan hệ giữa khóa ngoài và khóa chính phù hợp với nó. Về phía lược đồ hình sao, một chỉ số tham gia có thể liên hệ các giá trị của một hoặc nhiều thuộc tính của một bảng kích thước để phù hợp với các hàng trong bảng thực tế. Trong sơ đồ hình 2, là ví dụ , có thể hỗ trợ một số chỉ mục tham gia vào mục City được liên tục, cho mỗi City, một danh sách các bộ dữ liệu bản ghi các định dạng trong bảng thực tế tương ứng với doanh số bán hàng trong thành phố.Về cơ bản, sự tham gia các chỉ số là sự tính toán dựa trên một số nhị phân. Chỉ số Multikey tham gia có thể đại diện cho tiền sử lý với nhiều cách tham gia, Ví dụ, một đa chiều chỉ số tham gia được xây dựng trên cơ sở dữ liệu doanh số bán hàng có thể vào mục City.CityName và Product.Name đến bảng thực tế. Do đó các chỉ mục cho Seattle, Running Shoe Points để định danh bản ghi của bộ dữ liệu trong bảng bán hàng với sự kết hợp đó. CỤ THỂ HÓA QUAN ĐIỂM VÀ CÁCH SỬ DỤNG Nhiều truy vấn kho dữ liệu đòi hỏi dữ liệu tóm tắt và do đó sử dụng cốt lõi dữ liệu. Cụ thể hoá dữ liệu tóm tắt có thể tăng tốc nhiều truy vấn thông thường. Trong ví dụ FSC , hai dữ liệu lượt xem - tổng doanh thu được nhóm theo dòng sản phẩm gia đình và thành phố, và tổng số khách hàng được phân nhóm theo thành phố có thể trả lời hiệu quả 3 truy vấn của bộ phận tiếp thị : Các tiểu bang báo cáo mức tăng cao nhất trong nhóm sản phẩm bán cho giới trẻ, tổng doanh số bán giày dép ở thành phố New York của sản phẩm gia đình, và 50 thành phố có số lượng khách hàng đặc biệt cao nhất. Những thách thức trong việc khai thác khả năng trực quan hóa thì tương tự cho các chỉ mục. • Xác định quan điểm cụ thể hóa . • Khai thác quan điểm cụ thể hóa để trả lời truy vấn. • Cập nhật các quan điểm cụ thể hóa trong quá trình tải lên và làm mới Bởi vì cụ thể hóa quan điểm đòi hỏi rất lớn về không gian các giải pháp hiện đang áp dụng chỉ hỗ trợ một lớp hạn chế các quan điểm cụ thể có cấu trúc đơn giản. ỨNG DỤNG PHÂN TÍCH TRỰC TUYẾN Trong một ứng dụng phân tích trực tuyến điển hình, một số biện pháp tập hợp truy vấn ở cấp cao hơn trong kích thước hệ thống phân cấp. Một ví dụ là các truy vấn tiếp thị FSC đầu tiên yêu cầu một loạt các biện pháp phân cấp tổng hợp năm tiểu bang báo cáo mức tăng cao nhất trong loại sản phẩm bán hàng dành cho thanh thiếu niên trong năm qua, Trường Tiểu bang và năm là cái gốc của các trường dữ liệu thành phố và ngày. Trong điều kiện của kho dữ liệu FSC, một phiên OLAP điển hình để xác định khu vực bán hàng giày thể thao trong quý cuối cùng có thể tiến hành như sau. • Các nhà phân tích sử dụng truy vấn chọn đưa ra tổng hợp (bán hàng) bởi nhóm đất nước để xem sự phân phối bán giày thể thao trong quý cuối cùng trên tất cả các quốc gia. • Sau khi lựa chọn được một đất nước với kết quả là doanh thu bán hàng cao nhất hoặc thấp nhất so với quy mô thị trường, các nhà phân tích vấn đề các truy vấn khác nhau để tính toán tổng doanh thu trong mỗi tiểu bang của đất nước đó để hiểu lý do có kết quả doanh thu đó. Các nhà phân tích tìm hiểu thông tin dữ liệu xuống hệ thống phân cấp các thành phố liên quan, Giống như giảm móc nối của hệ thống phân cấp từ những tóm tắt nhất đến mức chi tiết nhất gọi là drill-down. Trong một hoạt động rollup, các nhà phân tích đi lên một cấp có lẽ từ cấp tiểu bang đến cấp đất nước trong kích thước một hệ thống phân cấp. Từ khóa OLAP liên quan đến vấn đề bao gồm các khái niệm mô hình dữ liệu và kiến trúc máy chủ. MÔ HÌNH DỮ LIỆU KHÁI NIỆM OLAP Mô hình đa chiều được thể hiện trong hình 3 sử dụng một số biện pháp như phân tích đối tượng của nó. Mỗi biện pháp trong tập hợp trung tâm mô hình dữ liệu khái niệm phụ thuộc vào kích thước mô tả các thực thể trong giao dịch. Ví dụ, không gian chiều liên quan đến việc bán hàng trong ví dụ FSC là khách hàng, nhân viên bán hàng, thành phố, tên sản phẩm, ngày mua bán đã được thực hiện. Cùng với nhau, không gian chiều duy nhất xác định các biện pháp, do đó, các mô hình dữ liệu đa chiều nghiên cứu biện pháp như một giá trị trong một chiều của không gian đa chiều. Với một cái nhìn dữ liệu đa chiều, truy vấn roll-up và drill-down là hoạt động hợp lý trên các đơn vị khối cube được mô tả trong Hình 3: Một hoạt động phổ biến là để so sánh hai biện pháp được tổng hợp bởi kích thước tương tự, chẳng hạn như doanh số bán hàng và ngân sách. Hình 3 Một mẫu CSDL đa chiều. Mỗi biện pháp trong tập hợp trung tâm mô hình dữ liệu khái niệm phụ thuộc vào mô tả chiều các thực thể trong giao dịch. Phân tích OLAP có thể liên quan đến tính toán thống kê phức tạp hơn so với các kết hợp đơn giản như tổng hợp, đếm, và trung bình. Các ví dụ bao gồm các chức năng như di chuyển trung bình và phần trăm thay đổi của một tổng hợp trong một thời gian nhất định so với một khoảng thời gian khác nhau. Nhiều công cụ thương mại OLAP cung cấp chức năng bổ sung tương tự như vậy. Các chiều thời gian là đặc biệt quan trọng đối với quá trình hỗ trợ quyết định như phân tích xu hướng. Ví dụ, các nhà phân tích thị trường của FSC có thể muốn biểu đồ hoạt động bán hàng cho một Class giày thể thao trước hoặc sau các cuộc thi thể thao lớn của quốc gia. Phân tích xu hướng phức tạp là có thể nếu cơ sở dữ liệu đã được xây dựng trong chi thức lịch và các đặc điểm liên tiếp khác của chiều thời gian. Cộng đồng OLAP (http://www.olapcouncil.org) đã xác định một danh sách các hoạt động lập phương đa chiều như vậy khác. MÁY CHỦ OLAP VÀ KIẾN TRÚC Middleware. Mặc dù các máy chủ truyền thống không hiệu quả trong việc xử lý các truy vấn OLAP phức tạp hoặc hỗ trợ khung nhìn đa chiều, 3 loại máy chủ của hệ quả trị CSDL quan hệ - quan hệ, đa chiều, lai giữa quá trình phân tích trực tuyến. Bây giờ thì OLAP trên data warehouse được hỗ trợ xây dựng trên hệ thống CSDL quan hệ. Máy chủ ROLAP (relational OLAP) Các máy chủ ROLAP middleware được đặt giữa các máy chủ back-end nơi lưu giữ data warehouse và các công cụ font-end. ROLAPs hỗ trợ truy vấn OLAP nhiều chiều và thường tối ưu hóa cho các máy chủ back-end. Họ định nghĩa các View để tổng hợp, các truy vấn hay dùng của người dùng trong thuật ngữ materialized views thích hợp và tạo ra nhiều lệnh SQL cho máy chủ back-end. Họ cũng cung cấp thêm các dịch vụ như lập lịch and quản lý tài sản. Máy chủ ROLAP khai thác các khả năng mở rộng và các tính năng giao dịch của hệ thống quan hệ, nhưng không phù hợp giữa kiểu truy vấn OLAP và SQL có thể tạo nút thắt cổ chai trong các máy chủ OLAP. Tắc nghẽn là vấn đề nhỏ trong đặc trưng của OLAP – các SQL mở rộng thực hiện trong các máy chủ Oracle, IBM DB2 và Microsoft SQL Server. Các chức năng như trung bình, chế độ, và phần trăm được mở rộng từ các chức năng tổng hợp. Tính năng bổ sung khác bao gồm tính toán tổng hợp trên cửa sổ di chuyển, tổng số, điểm dừng để tăng cường hỗ trợ cho các ứng dụng báo cáo. Bảng tính đa chiều yêu cầu gộp nhóm các bộ thuộc tính khác nhau. Jim Gray và các đồng nghiệp đề xuất 2 thao tác – roll-up và cube – làm tăng thêm SQL và giải quyết yêu cầu này. Roll- up của danh sách các thuộc tính như là sản phẩm, năm, thành phố trên 1 tập kết quả tổng hợp là kết quả của bộ câu trả lời các ứng dụng sau: * Nhóm theo sản phẩm, năm và thành phố * Nhóm theo sản phẩm, năm và * Nhóm theo sản phẩm Cho một danh sách k cột, mỗi thao tác trên khối lập phương cung cấp bởi một nhóm là sự kết hợp của k cột. Nhiều hoạt động nhóm bởi như vậy có thể được thực hiện một cách hiệu quả bằng cách nhận ra sự tương đồng giữa chúng. Khi áp dụng, tính toán trước có thể nâng cao hiệu suất máy chủ OLAP. Máy chủ MOLAP (multidimensional OLAP) Máy chủ MOLAP là kiến trúc máy chủ gốc, mà không khai thác các chức năng của quan hệ back-end nhưng lại trực tiếp hỗ trợ các view đa chiều thông qua công cụ lưu trữ đa chiều. MOLAP cho phép thực hiện các truy vấn đa chiều trên các lớp lưu trữ thông qua bản đồ. Ưu điểm chính của MOLAP là thuộc tính indext tốt. Nhược điểm của nó là kém trong việc lưu trữ, đặc biệt khi các dữ liệu thưa thớt. Nhiều máy chủ thích ứng với dữ liệu thưa thớt thông qua việc lưu trữ đại diện mức 2 và nén. Trong lưu trữ đại diện hoặc là trực tiếp hoặc là sử dụng các công cụ thiết kế, người sử dụng xác định tập các mảng phụ một hoặc hai chiều đại diện cho chúng. Cấu trúc chỉ mục truyền thống sau đó có thể các chỉ mục này nhỏ hơn mảng. Nhiều kỹ thuật được đặt ra cho CSDL thống kê có liên quan cho các máy chủ MOLAP. Mặc dù MOLAP cung cấp hiệu năng, chức năng tốt nhưng họ vẫn không qui hoạch tốt cho kích thước dữ liệu lớn. Máy chủ HOLAP (hybrid OLAP) Kiến trúc HOLAP kết hợp công nghệ giữa ROLAP và MOLAP. Ngược lại với MOLAP, thực hiện tốt khi dữ liệu là hợp lý dày, máy chủ ROLAP thực hiện tốt hơn khi dữ liệu là cực kỳ thưa thớt. Máy chủ HOLAP xác định các khu vực dữ liệu thưa và dày của không gian đa chiều và có những phương pháp ROLAP cho các khu vực thưa thớt và cách tiếp cận MOLAP cho các khu vựa dày đặc. Máy chủ HOLAP chia truy vấn thành nhiều truy vấn, thực hiện các truy vấn con, kết hợp kết quả và hiển thị kết quả cho người dùng. Các view HOLAP, xây dựng index, querry và resource scheduling thì như là MOLAP và ROLAP. KHAI THÁC DỮ LIỆU Giả sử rằng FSC muốn để khởi động một chiến dịch gửi thư mục với một ngân sách chi phí ít hơn $ 1.000.000. Với hạn chế này, các nhà phân tích tiếp thị muốn xác định tập hợp các khách hàng có nhiều khả năng để đáp ứng và mua từ các cửa hàng. Công cụ khai thác dữ liệu cung cấp chức năng dự báo và phân tích cao cấp bằng cách xác định mô hình phân phối và hành vi đặc trưng trong một tập hợp dữ liệu Khám phá tri thức -Việc xử lý quá trình cụ thể và đạt được mục tiêu thông qua các dữ liệu lặp đi lặp lại việc khai phá dữ liệu, thường bao gồm ba giai đoạn: • chuẩn bị dữ liệu, • Xây dựng mô hình và đánh giá, và • triển khai mô hình Chuẩn bị dữ liệu Trong giai đoạn chuẩn bị dữ liệu, các nhà phân tích chuẩn bị một tập dữ liệu chứa đủ thông tin để xây dựng mô hình chính xác trong các giai đoạn tiếp theo Từ yêu cầu địa chỉ của thông tin FCS, 1 mô hình chính xác sẽ dự đoán 1 khách hàng có khả năng mua sản phẩm quảng cáo trong danh mục mới. Bởi vì dự đoán được dựa trên các yếu tố có khả năng ảnh hưởng đến mua hàng của khách hàngmột mô hình dữ liệu sẽ bao gồm tất cả những khách hàng đáp ứng với danh mục sản phẩm gửi trong 3 năm qua, thông tin cá nhân của họ, 10 sản phẩm đắt nhất khách hàng từng mua, và thông tin về các danh mục sản phẩm mà họ thường mua. Chuẩn bị dữ liệu có liên đến truy vấn phức tạp với những kết quả lớn. Ví dụ, chuẩn bị dữ liệu liên quan đến việc tham gia FSC giữa các mối quan hệ khách hàng và bán hàng cũng như xác định 10 sản phẩm hàng đầu cho mỗi khách hàng. Tất cả các vấn đề liên quan đến xử lý hiệu quả truy vấn hỗ trợ quyết định đều làm nằm trong nội dung khai phá dữ liệu. Trong thực tế, nền tảng của khai phá dữ liệu sử dụng OLAP hoặc các máy chủ quan hệ để đáp ứng chuẩn bị dữ liệu. Khai phá dữ liệu thường liên quan đến xây dựng mô hình trên một tập dữ liệu đã được chuẩn bị và sau đó triển khai thêm một hoặc nhiều mô hình. Bởi vì xây dựng mô hình trên tập dữ liệu lớn có thể tốn kém, các nhà phân tích thường làm việc ban đầu với bộ dữ liệu mẫu. Nền tảng của khai phá dữ liệu. do đó, phải hỗ trợ tính toán mẫu ngẫu nhiên của dữ liệu qua truy vấn phức tạp. Xây dựng và đánh giá các mô hình khai phá dữ liệu Chỉ sau khi quyết định để triển khai mô hình này, các nhà phân tích xây dựng mô hình trên toàn bộ tập dữ liệu chuẩn bị. Mục tiêu của giai đoạn xây dựng mô hình là định ra khuôn mẫu định nghĩa 1 thuộc tính. Một thuộc tính ví dụ trong tập dữ liệu FSC là khách hàng mua ít nhất một sản phẩm từ danh mục Một số lớp của mô hình khai phá dữ liệu giúp dự đoán cả hai thuộc tính rõ và thuộc tính ẩn. Hai vấn đề quan trọng ảnh hưởng đến lựa chọn mô hình là tính chính xác của mô hình và hiệu quả của các thuật toán để xây dựng mô hình trên tập dữ liệu lớn. Theo thống kê, tính chính xác của các mô hình cải thiện với số lượng dữ liệu được sử dụng, do đó, các thuật toán để xây dựng mô hình khai phá phải có hiệu quả và khả năng mở rộng để xử lý dữ liệu lớn trong một khoảng thời gian hợp lý. Các loại mô hình Mô hình phân loại là việc dự đoán, Khi đưa ra một bộ mới các mô hình phân loại dự đoán liệu các bộ thuộc về một trong các lớp mục tiêu Trong ví dụ danh mục FSC, một mô hình phân loại sẽ quyết định, dựa trên hành vi trong quá khứ, là một khách hàng có hay không mua hàng từ 1 danh mục. Cây quyết định và mô hình Bayes là hai loại phổ biến trong mô hình phân loại. Cây hồi quy và hồi quy logistic là 2 loại phổ biến của mô hình hồi quy, mà dự đoán các thuộc tính số, như lương hoặc tuổi của 1 khách hàng. Với mốt số ứng dụng, các nhà phân tích không biết rõ ràng tập hợp các lớp đối tượng và coi như chúng ẩn. Các nhà phân tích sử dụng các mô hình phân cụm như Kmeans và Brich để xác định tập hợp các lớp và phân loại bộ mới vào trong các lớp ẩn. Các nhà phân tích sử dụng các luật như luật kết hợp để tìm xem liệu có việc mua một tập hợp các các sản phẩm giầy dép là chỉ tiêu định hướng, với một số mức độ tự tin, của mua sản phẩm khác. Cân nhắc mô hình bổ sung. Không có mô hình hoặc thuật thoán để xây dựng mô hình lý tưởng cho tất cả các ứng dụng. Do đó, nền tảng của khai phá dữ liệu phải hỗ trợ một số loại mô hình khởi tạo để đánh giá và cung cấp các chức năng bổ sung để mở rộng và thay thế cho nhau. Trong một số trường hợp, nhà phân tích có thể muốn xây dựng 1 mô hình tương quan độc đáo mà nền tảng khai thác dữ liệu không hỗ trợ. Để xử lý các yêu cầu như thế, nền tảng khai thác phải hỗ trợ mở rộng. Nhiều sản phẩm thương mại xây dựng mô hình cho các lĩnh vực cụ thể, nhưng CSDL thực tế mà trên đó các mô hình phải được triển khai có thể trong một hệ thống cơ sở dữ liệu khác nhau. Do đó nền tảng khai phá dữ liệu và các máy chủ CSDL cũng phải có khả năng trao đổi các mô hình. Nhóm Khai thác dữ liệu (http://www.dmg.org) gần đây đề xuất sử dụng Predictive Model Makup Language, một XML tiêu chuẩn, để thay đổi một số lớp mô hình dự đoán phổ biến. Ý tưởng là một số cơ sở dữ liệu hỗ trợ tiêu chuẩn có thể import và phát triển một số mô hình mô tả ở dạng tiêu chuẩn. Triển khai mô hình khai phá dữ liệu Trong giai đoạn triển khai mô hình khai thác, những nhà phân tích áp dụng mô hình lựa chọn cho tập dữ liệu để dự đoán thuộc tính đích với một giá trị chưa xác định. Với mọi tập hiện tại của khách hàng trong ví dụ FSC, dự đoán là liệu họ có mua 1 sản phẩm từ danh mục mới. Đang truyển khai 1 mô hình trên tập dữ liệu đầu vào - 1 tập hợp hay 1 phân vùng của tập dữ liệu đầu vào - có thể có kết quả trong 1 tập dữ liệu khác.Trong ví dụ FSC, giai đoạn triển khai mô hình xác định tập hợp khách hàng sẽ gửi danh mục. Khi tập dữ liệu đầu vào là cực kỳ lớn, chiến lược triển khai phải thật hiệu quả. Sử dụng chỉ số về mối quan hệ đầu vào để lọc ra các bộ dữ liệu mà không triển khai kết quả có thể là cần thiết, nhưng điều này đòi hỏi tích hợp chặt chẽ giữa hệ thống cơ sở dữ liệu và triển khai mô hình. Không may, cộng đồng nghiên cứu dành ít sự quan tâm đến hiệu quả triển khai hơn là xây dựng mô hình có khả năng mở rộng VẤN ĐỀ BỔ SUNG OLAP VÀ KHAI PHÁ DỮ LIỆU. Những vấn đề quan trọng khác trong bối cảnh của OLAP và công nghệ khai thác dữ liệu bao gồm đóng gói ứng dụng, nền tảng giao diện chương trình ứng dụng và tác động của XML, xử lý truy vấn gần đúng, OLAP và hội nhập khai thác dữ liệu, và khai thác Web. [...]... lượng dữ liệu lớn hơn nhiều so với các thao tác trên dữ liệu, họ sử dụng kỹ thuật tính toán song song và phân vùng Làm mới dữ liệu Làm mới dữ liệu trong kho dữ liệu bao gồm việc cập nhật dữ liệu vào nguồn dữ liệu tương ứng và cập nhật vào bảng cơ sở, và các khung nhìn được lưu trữ trong kho dữ liệu Hai vấn đề cần xem xét là khi nào cần tải lại và tải lại bằng cách nào Thông thường, các kho dữ liệu được... mang lại tiến bộ công nghệ đáng kể đến công việc lưu trữ dữ liệu, thể hiện qua số lượng các công cụ thương mại mà tồn tại trong một trong ba hoạt động chính: Populating các kho dữ liệu từ cơ sở dữ liệu hoạt động độc lập, lưu trữ và quản lý dữ liệu, và phân tích dữ liệu để đưa ra quyết định kinh doanh thông minh Tuy nhiên, mặc dù có rất nhiều công cụ thương mại, một số con đường thú vị cho nghiên cứu... đến việc giải nén dữ liệu, biến đổi nó cho phù hợp với lược đồ kho dữ liệu, làm sạch, và sau đó là tải nó vào kho dữ liệu Các trung tâm Thông tin kho dữ liệu cung cấp một danh sách đầy đủ của ETL (trích xuất, chuyển đổi, tải) công cụ để sử dụng trong chuỗi các hoạt động này Gỉai nén và chuyển đổi Mục tiêu của bước khai thác dữ liệu để đưa dữ liệu từ các nguồn khác nhau vào một cơ sở dữ liệu mà nó có thể... lý siêu dữ liệu Siêu dữ liệu là bất kỳ thông tin cần thiết để quản lý kho dữ liệu, và quản lý siêu dữ liệu là một yếu tố kiến trúc kho cần thiết Siêu dữ liệu hành chính bao gồm tất cả thông tin cần thiết để thiết lập và sử dụng một nhà kho Siêu dữ liệu kinh doanh bao gồm các điều khoản kinh doanh và định nghĩa, quyền sở hữu dữ liệu, và các chính sách thu phí Siêu dữ liệu hoạt động bao gồm các thông... hiện các tính toán khác để xây dựng bảng gốc được lưu trữ trong kho dữ liệu; và xây dựng chỉ mục và các vùng truy cập khác Trong việc thêm dữ liệu vào kho dữ liệu, 1 công cụ tải phải cho phép người quản trị hệ thống theo dõi tình trạng, hủy bỏ, tạm dừng hoặc tiếp tục tải, và khởi động sau khi thất bại mà không làm giảm tính toàn vẹn dữ liệu Bởi vì tiện ích tải dữ liệu cho kho dữ liệu xử lý khối lượng dữ. .. hàng độc đáo Công cụ giúp phát hiện và dị thường dữ liệu chính xác có thể dẫn đến kết quả cao, và một số lượng đáng kể của nghiên cứu giải quyết các vấn đề của dữ liệu loại bỏ và làm sạch dữ liệu trùng lặp Tải dữ liệu Sau khi giải nén và chuyển đổi của nó, dữ liệu vẫn có thể yêu cầu thêm tiền xử lý trước khi nó được tải vào kho dữ liệu Thông thường, tiện ích tải hàng loạt cũng như xử lý các chức năng... như dòng dữ liệu di cư và chuyển đổi; đồng tiền dữ liệu (hoạt động, lưu trữ, hoặc thanh lọc); và giám sát các thông tin như thống kê sử dụng, báo cáo lỗi, và những con đường mòn kiểm toán Siêu dữ liệu kho thường nằm trong một kho lưu trữ cho phép chia sẻ siêu dữ liệu giữa các công cụ và quy trình thiết kế, xây dựng, sử dụng, vận hành, và quản lý một kho dữ liệu Tổng kết Nỗ lực trong ngành công nghiệp... lượng dữ liệu không làm quá tải các tiện ích tải dữ liệu Hầu hết các tiện ích thương mại sử dụng tải gia tăng trong quá trình làm mới để giảm khối lượng dữ liệu, thao tác chèn chỉ có thể thực hiện được nếu nguồn dữ liệu hỗ trợ giải nén phần có liên quan của dữ liệu Tuy nhiên quá trình tải gia tăng có thể làm khó khăn để quản lý vì bản cập nhật phải được phối hợp với các giao dịch liên tục Quản lý siêu dữ. .. với các doanh nghiệp thông qua các trang web, các công ty có thể cá nhân hoá trải nghiệm Ví dụ, trang web có thể giới thiệu sản phẩm, dịch vụ, hoặc các sản phẩm trong danh mục quan tâm của khách hàng Amazon.com đã đi tiên phong trong việc triển khai các hệ thống cá nhân Hai vấn đề quan trọng liên quan đến phát triển và triển khai các hệ thống Web là kỹ thuật thu thập dữ liệu và cá nhân Phân tích các dữ. .. thác dữ liệu đã tập trung vào phát triển các thuật toán để xây dựng mô hình chính xác hơn hoặc để xây dựng mô hình nhanh hơn Hai giai đoạn khác của quá trình khai phá tri thức- chuẩn bị dữ liệu và mô hình khai thác triển khai - phần lớn đã bị bỏ qua Cả hai giai đoạn hiện nay một số vấn đề thú vị liên quan đặc biệt để đạt được sức mạnh tổng hợp tốt hơn giữa các hệ thống cơ sở dữ liệu và công nghệ khai . Công nghệ cơ sở dữ liệu cho các hệ thống hỗ trợ quyết định Tạo ra một khung hỗ trợ hiệu quả cho hệ thống hỗ trợ ra quyết định - một trong số đó sẽ thúc đẩy dữ liệu kinh doanh. tuyến OLAP và khai phá dữ Liệu, và các công cụ dung cho kho dữ liệu. Kho dữ liệu bao gồm dữ liệu tổng hợp từ nhiều cơ sở dữ liệu hoạt động và xu hướng cơ sở dữ hoạt động liệu hoạt động ngày càng. khai phá dữ liệu. Và các công cụ đầu cuối để hỗ trợ kho dữ liệu. Trên hình 1 cho thấy, 3 thành phần chính của một hệ thống hỗ trợ ra quyết định: Một máy chủ kho dữ liệu, những công cụ phân

Ngày đăng: 13/11/2014, 09:57

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan