XÂY DỰNG DATA WAREHOUSE & GIẢI PHÁP BUSSINESS INTELLIGENT DỰA TRÊN NỀN TẢNG MÁY HỌC CHO CÁC DOANH NGHIỆP

55 673 0
XÂY DỰNG DATA WAREHOUSE & GIẢI PHÁP BUSSINESS INTELLIGENT DỰA TRÊN NỀN TẢNG MÁY HỌC CHO CÁC DOANH NGHIỆP

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT Đề Tài : XÂY DỰNG DATA WAREHOUSE & GIẢI PHÁP BUSSINESS INTELLIGENT DỰA TRÊN NỀN TẢNG MÁY HỌC CHO CÁC DOANH NGHIỆP TP.HCM 17/05/2012 Giảng viên hướng dẫn : GS TSKH Hoàng Kiếm Học viên thực hiện : Đoàn Vũ Ngọc Duy MSSV : CH1101010 Mục lục Trang 2 I. Giới thiệu Công nghệ tri thức (CNTT) là một lĩnh vực liên quan đến việc phát triển các kĩ thuật cho phép các máy tính có thể "học". Cụ thể hơn, CNTT là một phương pháp để tạo ra các chương trình máy tính bằng việc phân tích các tập dữ liệu. có liên quan lớn đến thống kê, vì cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê, CNTT tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán. Nhiều bài toán suy luận được xếp vào loại bài toán khó, vì thế CNTT ngày nay là nghiên cứu sự phát triển các giải thuật suy luận xấp xỉ mà có thể xử lí được. CNTT có tính ứng dụng rất cao bao gồm truy tìm dữ liệu, chẩn đoán y khoa, phát hiện thẻ tín dụng giả, phân tích thị trường chứng khoán, phân loại các chuỗi DNA, nhận dạng tiếng nói và chữ viết, dịch tự động, chơi trò chơi và cử động rô-bốt. Ngoài ra công nghệ giúp máy tương tác với con người một cách linh hoạt và mềm dẻo hơn. Một số hệ thống CNTT sau này đã loại bỏ nhu cầu trực giác của con người trong việc phân tích dữ liệu, trong khi các hệ thống khác hướng đến việc tăng sự cộng tác giữa người và máy. có thể xem đây như là một nỗ lực để tự động hóa một số phần của phương pháp khoa học. CNTT có ứng dụng rộng khắp trong các ngành khoa học, sản xuất, đặc biệt những ngành cần phân tích khối lượng dữ liệu khổng lồ. Một số ứng dụng mà ta thường thấy như : • Xử lý ngôn ngữ tự nhiên (Natural Language Processing): xử lý văn bản, giao tiếp người – máy, … • Nhận dạng (Pattern Recognition): nhận dạng tiếng nói, chữ viết tay, vân tay, thị giác máy (Computer Vision) … • Tìm kiếm (Search Engine) • Chẩn đoán trong y tế: phân tích ảnh X-quang, các hệ chuyên gia chẩn đoán tự động. • Tin sinh học: phân loại chuỗi gene, quá trình hình thành gene/protein • Vật lý: phân tích ảnh thiên văn, tác động giữa các hạt … • Phát hiện gian lận tài chính (financial fraud): gian lận thẻ tỉn dụng • Phân tích thị trường chứng khoán (stock market analysis) • Chơi trò chơi: tự động chơi cờ, hành động của các nhân vật ảo Trang 3 • Rôbốt: là tổng hợp của rất nhiều ngành khoa học, trong đó học máy tạo nên hệ thần kinh/bộ não của người máy. Trước những yêu cầu cấp bách đó, em và cùng một số đồng nghiệp trong công ty cổ phẩn tin học Lạc Việt đã xây dựng giải pháp BI (Business intelligent) trên nền tảng công nghệ sharepoint & Data Warehouse. Nhằm mục đích hổ trợ ra quyết định nhanh cho ban lãnh đạo, phân tích thống kê các số liệu có sẳn của hệ thống với nhiều nguồn dữ liệu khác nhau trong những môi trường khác nhau. Trong quá trình phát triển sản phẩm, ngoài việc nghiên cứu lựa chọn công nghệ phù hợp để triển khai nhóm chúng em đã gặp thách thức rất nhiều về giải thuật, cách làm cho máy có thể phân tích khai phá dữ liệu một cách hiệu quả, mỗi ứng dụng phân tích là một bài toán khác nhau với các giải thuật và công nghệ phù hợp cho mục tiêu đặt ra. Một số ứng dụng mà em đã phát triển có sử dụng đến một số thuật giải như “Cây quyết định” “Mạng Neural”…, sau khi được học bài bản về môn công nghệ tri thức và ứng dụng, em vô tình được gặp lại các khái niệm này, một lần nữa giúp em hiểu rõ hơn về tầm quan trọng của máy học và khai phá dữ liệu trong thế giới công nghệ ngày nay. Cho nên thông qua đề tài lần này em mong muốn áp dụng những gì học được trên trường vào thực tiễn của cuộc sống, góp phần nâng cao sự phát triển của nghành tin học nói chung và sự phát triển CNTT trong nước nói riêng, mang lại giá trị lợi nhuận cao cho các doanh nghiệp, tổ chức. Trang 4 II. Kho dữ liệu - Data Warehouse 1. Khái niệm kho dữ liệu Kho dữ liệu là tuyển tập các cơ sở dữ liệu tích hợp, hướng chủ đề, được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định.Theo John Ladley, Công nghệ kho dữ liệu (Data Warehouse Technology) là tập các phương pháp, kỹ thuật và các công cụ có thể kết hợp, hỗ trợ nhau để cung cấp thông tin cho người sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi trường khác nhau. Kho dữ liệu thường rất lớn tới hàng trăm GB hay thậm chí hàng Terabyte. Trong quá trình hoạt động kinh doanh, các dữ liệu của doanh nghiệp phát sinh ngày càng nhiều. Người ta muốn tận dụng nguồn dữ liệu này để sử dụng cho những mục đích hỗ trợ cho công việc kinh doanh ví dụ như cho mục đích thống kê hay phân tích. Quá trình tập hợp và thao tác trên các dữ liệu này có những đặc điểm sau : • Dữ liệu tích hợp (Atomicity):Dữ liệu tập hợp từ nhiều nguồn khác nhau. Điều này sẽ dẫn đến việc quá trình tập hợp phải thực hiện việc làm sạch, xắp xếp, rút gọn dữ liệu. • Theo chủ đề (Consistency): Không phải tất cả các dữ liệu đều được tập hợp, người ta chỉ lấy những dữ liệu có ích. • Biến thời gian (Isolation): Các dữ liệu truy suất không bị ảnh hưởng bởi các dữ liệu khác hoặc tác động lên nhau. • Dữ liệu cố định (Durable): Khi một Transaction hoàn chỉnh, dữ liệu không thể tạo thêm hay sửa đổi. • Kho dữ liệu là một tập các dữ liệu có những đặc điểm sau: tập trung vào một chủ đề, tổng hợp từ nhiều nguồn dữ liệu khác nhau, từ nhiều thời gian, và không sửa đổi. Được dùng trong việc hỗ trợ ra quyết định trong công tác quản lý. Kho dữ liệu DWH 2. Mục đích của kho dữ liệu Mục tiêu chính của kho dữ liệu là nhằm đáp ứng các tiêu chuẩn cơ bản sau: • Phải có khả năng đáp ứng mọi yêu cầu về thông tin của NSD Trang 5 • Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình, như có những quyết định hợp lý, nhanh và bán được nhiều hàng hơn, năng suất cao hơn, thu được lợi nhuận cao hơn, v.v. • Giúp cho tổ chức, xác định, quản lý và điều hành các dự án, các nghiệp vụ một cách hiệu quả và chính xác. • Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau 3. Đặc tính của kho dữ liệu Những đặc điểm cơ bản của Kho dữ liệu (DW) là một tập hợp dữ liệu có tính chất sau: • Tính tích hợp (Integration) • Hướng chủ đề • Dữ liệu gắn thời gian và có tính lịch sử • Dữ liệu có tính ổn định (nonvolatility) • Dữ liệu tổng hợp 4. Kho dữ liệu cục bộ (Data Mart - DM) Kho dữ liệu cục bộ (Data Mart - DM) là CSDL có những đặc điểm giống với kho dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành. Datamart là kho dữ liệu hướng chủ đề. Các DM có thể được hình thành từ một tập con dữ liệu của kho dữ liệu hoặc cũng có thể được xây dựng độc lập và sau khi xây dựng xong, các DM có thể được kết nối tích hợp lại với nhau tạo thành kho dữ liệu. Vì vậy có thể xây dựng kho dữ liệu bắt đầu bằng việc xây dựng các DM hay ngược lại xây dựng kho dữ liệu trước sau đó tạo ra các DM. Data mart phụ thuộc (Dependent Data Mart): Chứa những dữ liệu được lấy từ DW và những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ một chủ đề nhất định của Datamart Trang 6 5. Data mart độc lập (Independent Data Marts) Không giống như Data Mart phụ thuộc, Data mart độc lập được xây dựng trước DW và dữ liệu được trực tiếp lấy từ các nguồn khác nhau 6. Cấu trúc dữ liệu cho kho dữ liệu Vì dữ liệu trong kho dữ liệu rất lớn và không có những thao tác như sửa đổi hay tạo mới nên nó được tối ưu cho việc phân tích và báo cáo. Các thao tác với dữ liệu của kho dữ liệu dựa trên cơ sở là Mô hình dữ liệu đa chiều ( multidimensional data model), được mô hình vào đối tượng gọi là data cube. Data cube là nơi trung tâm của vấn đề cần phân tích, nó bao gồm một hay nhiều tập dữ kiện (fact) và các dữ kiện được tạo ra từ nhiều chiều dữ kiện khác nhau (dimention). Ví dụ: Một thống kê doanh số bán hàng dựa trên ba yếu tố là: địa điểm, thời gian và chủng loại hàng. Data cube là vấn đề “Thống kê bán hàng” với ba chiều là ba yếu tố: địa điểm, thời Trang 7 gian và chủng loại hàng . Bảng fact là bảng tổng hợp dữ liệu của mối liên quan của doanh số với 3 yếu tố. 7. Ngôn ngữ cho kho dữ liệu Ngôn ngữ xử lý phân tích trực tuyến (OLAP - On-Line Analytical Prosessing), rất phù hợp với kho dữ liệu, ngôn ngữ này tương tự với ngôn ngữ truy vấn SQL và tập trung vào các câu lệnh sau • Thu nhỏ (roll-up) : ví dụ: nhóm dữ liệu theo năm thay vì theo quý. • Mở rộng (drill-down) : ví dụ: mở rộng dữ liệu, nhìn theo tháng thay vì theo quý. • Cắt lát (slice) : nhìn theo từng lớp một. Ví dụ: từ danh mục bán hàng của Q1, Q2, Q3, Q4 chỉ xem của Q1. • Thu nhỏ (dice) : bỏ bớt một phần của dữ liệu ( tương ứng thêm điều kiện vào câu lệnh WHERE trong SQL). 8. Cấu trúc của một hệ thống kho dữ liệu Bao gồm ba tầng : • Tầng đáy: Là nơi cung cấp dịch vụ lấy dữ liệu từ nhiều nguồn khác sau đó chuẩn hóa, làm sạch và lưu trữ dữ liệu đã tập tung • Tầng giữa: cung cấp các dịch vụ để thực hiện các thao tác với kho dữ liệu gọi là dịch vụ OLAP (OLAP server). Có thể cài đặt bằng Relational OLAP, Multidimensional OLAP hay kết hợp cả hai mô hình trên Hybrid OLAP • Tầng trên cùng: nơi chứa các câu truy vấn, báo cáo, phân tích 9. Giải pháp Data Warehouse Ngày nay,với sự phát triển của công nghệ thông tin, lượng thông tin rất phong phú và dồi dào được lấy từ nhiều nguồn dữ liệu khác nhau, dưới các định dạng khác nhau, phương thức tiếp cận nguồn thông tin cũng rất đa dạng. Với thực tế như vậy, các doanh nghiệp cần phải có giải pháp để quản lý nguồn thông tin trong doanh nghiệp. Bên cạnh đó, ngày càng nhiều những yêu cầu về kiểm toán nội bộ hay tuân thủ quy chế được đặt ra khiến việc quản lý thông tin càng trở nên quan trọng hơn. Trang 8 Giải pháp Data Warehouse của SAVIS là một lựa chọn tối ưu để doanh nghiệp có thể giải quyết vấn đề trên một cách hiệu quả nhất. Với giải pháp của SAVIS, các thông tin được sắp xếp hợp lý, dễ tìm, tạo điều kiện tối đa cho doanh nghiệp khách hàng quản lý nguồn tài nguyên thông tin. 10. Những thành phần chính của giải pháp Data Warehouse: Các chương trình Java: Các chương trình vendor-specific Java sẽ tải và xử lý thông tin trong khi các chương trình Java standard framework được sử dụng để cập nhật. • Trình bày, kiểm tra và phân bổ thông tin. • Thiết kế Internet thân thiện: Thông tin có thể được truy cập, giám sát, phân tích, sử dụng bất kỳ trình duyệt web tiêu chuẩn nào. Giao diện người sử dụng hỗ trợ khách hàng trong việc giám sát vòng lưu chuyển của thông tin và hỗ trợ việc cập nhật cũng như tạo ra những thông tin mới. • Lập kế hoạch và điều khiển thông tin: Người quản lý warehouse có thể toàn quyền kiểm soát hệ thống với những công cụ quản lý và phân tích toàn bộ quá trình xử lý thông tin, cũng như có thể tự động hóa các pha của một vòng lưu chuyển thông tin. Trang 9 Source Load Archive Target (DW) Extract Filter ValidateAggregate • Đảm bảo chất lượng: Hàng ngày, một quy trình đảm bảo chất lượng sẽ được thực hiện để kiểm tra hàng triệu điểm thông tin, cung cấp một bộ lọc thông tin được thiết kế theo yêu cầu riêng của khách hàng. • Bộ nhớ dư: một chức năng off-site có chỗ trống dư, đảm bảo quy trình xử lý thông tin được bảo vệ và có thể phục hồi khi có sự cố xảy ra. • Hoạt động hiệu suất cao: công nghệ cơ sở dữ liệu cung cấp khả năng lưu trữ không giới hạn và tốc độ phục hồi thông tin rất nhanh và chính xác. • Với một giải pháp quản lý Data Warehouse toàn diện như trên, khách hàng có thể hoàn toàn an tâm về tính ổn định, linh hoạt và dễ dàng tìm kiếm của nguồn thông tin trong doanh nghiệp mình. 11. Qui trình xây dựng kho dữ liệu 12. Mô hình kho dữ liệu Trang 10 [...]... 13% số lượng được hỏi cho biết hiệu quả hệ thống là tốt, và 6% đánh giá ở mức rất tốt Một tỉ lệ tương ứng với 16% cho biết là hệ thống vận hành tồi và 6% đánh giá mức rất tồi Mặc dù có tới 61% doanh nghiệp muốn tăng cường ứng dụng các giải pháp Data Warehouse và BI, nhưng nhiều doanh nghiệp vẫn rất băn khoăn các giải pháp đó đáp ứng các mục tiêu kinh doanh ở mức nào .Trên thực tế, các nghiên cứu chỉ ra... quả hệ thống quản trị doanh nghiệp ERP Trong khi nhu cầu ứng dụng ERP đang ngày càng phát triển ở các doanh nghiệp trong và ngoài nước, dự báo sẽ có thêm nhiều doanh nghiệp quan tâm đến mở rộng ứng dụng BI cho lãnh đạo doanh nghiệp, nhằm nâng cao hơn nữa năng lực cạnh tranh của doanh nghiệp trên thị trường IV Cây quyết định 1 Các khái niệm cơ bản: Cây quyết định là công cụ mạnh mẽ cho việc phân loại... kho dữ liệu mà trong đó các kho dữ liệu cục bộ (DM) ở các nơi (Site) trong mạng có thể không cùng chung hệ quản trị CSDL [11] Kiến trúc phân tán không thuần nhất có một số ưu điểm sau: • Kế thừa được các nguồn dữ liệu từ các DM đã tồn tại Trang 12 • Thích hợp cho các hệ thống xây dựng trên cơ sở mở rộng hệ thống đã có vì trên thực tế các đơn vị thường bắt đầu với các DM nhỏ cho các phòng ban, sau đó... sẽ khó khăn hơn để có được các thông tin mang tính sống còn cần thiết nhằm hỗ trợ phân tích các hoạt động sản xuất kinh doanh của doanh nghiệp Ứng dụng BI cho phép các doanh nghiệp thực hiện các báo cáo và các phân tích có chiều sâu dựa trên thông tin chi tiết về tất cả các hoạt động trên qui mô toàn tổ chức Dữ liệu được chiết suất từ nhiều hệ thống, nhiều ứng dụng khác nhau, được chuẩn hóa, tổng hợp,... giữa các Data Mart • Đồng bộ dữ liệu: So sánh, làm sạch dữ liệu để dữ liệu giữa các Data Mart thống nhất với nhau • Phân tán dữ liệu: Phân tán ngang, phân tán dọc • Hợp nhất dữ liệu: Hợp nhất dữ liệu sau khi đã phân tán dọc • Lọc dữ liệu: Trích xuất dữ liệu theo điều kiện Trang 13 III BUSSINESS INTELLIGENT 1 Bussiness Intelligent là gì ? Business Inteligence – BI (tạm dịch là giải pháp quản trị doanh nghiệp. .. cung cấp Kết quả là doanh nghiệp sẽ dễ dàng có được ngay lập tức các thông tin phân tích quản lý, để trả lời các câu hỏi như: "3 khách hàng quan trọng nhất của doanh nghiệp hiện nay là ai?" hoặc "Thị trường nào đang mang lại tỷ trọng lợi nhuận chính" hoặc "Ngày x thu được bao nhiêu tiền?" Với các doanh nghiệp, tổ chức đã triển khai các hệ thống ERP và các hệ quản lý thông tin tác nghiệp đặc thù khác... cũng như các ứng dụng riêng lẻ được sử dụng trong các phòng ban, bộ phận sản xuất kinh doanh khác nhau Nếu không có một giải pháp phân tích hoạt động doanh nghiệp để thu thập, hợp nhất và định dạng dữ liệu - sau đó khai thác ,hỗ trợ việc lập kế hoạch và ra quyết định, thì ban lãnh đạo doanh nghiệp sẽ khó khăn hơn để có được các thông tin mang tính sống còn cần thiết nhằm hỗ trợ phân tích các hoạt động... thống PM quản lý Ví dụ, nhiều công ty hiện nay khai thác các báo cáo tài chính hoặc yêu cầu đơn vị triển khai xây dựng thêm phân hệ báo cáo cho hội đồng quản trị song song với hệ thống ERP trong DN Vừa là đầu ra cuối cùng của các hệ thống ERP, CRM vừa là đầu vào cho chính các hệ thống này Vì nếu xây dựng DN từ các kết quả đánh giá của BI, tức là từ các chỉ số đánh giá hiệu năng DN thì DN sẽ có thông tin... thông tin đầu vào cho BI phải luôn là thông tin xác thực Có câu “biết người biết ta trăm trận trăm thắng”, giải pháp Business Intelligence (BI) ra đời cũng nhằm đáp ứng phần nào nhu cầu “biết người biết ta” của doanh nghiệp Trang 15 Khảo sát của Gartner đối với các CIO trong ba năm trở lại đây cho thấy giải pháp BI luôn đứng đầu trong thứ tự ưu tiên về nhu cầu đầu tư công nghệ của doanh nghiệp (DN) Trải... của các chiều thông tin Ví dụ cũng với những chiều thông tin như yêu cầu trên ta có góc nhìn khác như “cung cấp thông tin về doanh thu và số lượng mặt hàng bán được, ứng với các nhân viên bán hàng, của toàn bộ các vùng, trên tất cả các nhóm sản phẩm và từng sản phẩm, trong 3 năm gần nhất” 4) Giám sát và cảnh báo tự động Để khẳng định tên tuổi của mình hơn nữa trên thị phần BI, các nhà cung cấp giải pháp . ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT Đề Tài : XÂY DỰNG DATA WAREHOUSE & GIẢI PHÁP BUSSINESS INTELLIGENT DỰA TRÊN NỀN TẢNG MÁY HỌC CHO CÁC DOANH NGHIỆP TP.HCM. đó, em và cùng một số đồng nghiệp trong công ty cổ phẩn tin học Lạc Việt đã xây dựng giải pháp BI (Business intelligent) trên nền tảng công nghệ sharepoint & Data Warehouse. Nhằm mục đích hổ. trọng hơn. Trang 8 Giải pháp Data Warehouse của SAVIS là một lựa chọn tối ưu để doanh nghiệp có thể giải quyết vấn đề trên một cách hiệu quả nhất. Với giải pháp của SAVIS, các thông tin được sắp

Ngày đăng: 10/04/2015, 17:05

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan