Xét lại chuẩn hóa dữ liệu, Phần 1: Lịch sử của các hồ sơ kinh doanh potx

15 262 0
Xét lại chuẩn hóa dữ liệu, Phần 1: Lịch sử của các hồ sơ kinh doanh potx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Xét lại chuẩn hóa dữ liệu, Phần 1: Lịch sử của các hồkinh doanh Giới thiệu Bài này mô tả sự thay đổi vai trò của việc chuẩn hóa dữ liệu [30] trong các hệ thống thương mại. Từ những năm 1970, khi người ta đã định nghĩa chuẩn hóa hóa dữ liệu, các công nghệ và các hệ thống máy tính và các ứng dụng của chúng đã phát triển đáng kể. Đặc biệt vào những năm 1970, các cấu trúc dữ liệu đã ổn định, dung lượng đĩa còn bị hạn chế rất nhiều và thông tin kinh doanh chỉ trên giấy tờ. Con người và các thiết bị vào-ra rất cần để chuyển dịch văn bản giấy tờ thành một dạng mà máy tính có thể đọc, ví dụ, các bìa đục lỗ. Các máy tính lớn thuộc sở hữu của các tổ chức lớn như các ngân hàng đã có 512K bộ nhớ và chi phí gần 2.000.000 Đô la Mỹ. Một tổ chức lớn đã có dung lượng đĩa 10 MB cho tất cả các hệ thống máy tính và dữ liệu của mình. Trong những năm 1970, cơ sở hạ tầng Internet chỉ mới bắt đầu được tạo ra còn Mạng toàn cầu (World Wide Web) đã có cách đó hơn mười năm rồi. Vì dung lượng đĩa còn bị hạn chế nhiều, nên người ta giả định rằng chỉ có thông tin thông dụng nhất mới được lưu trữ và được tạo sẵn cho các ứng dụng. Việc chuẩn hóa đảm bảo rằng mỗi mảnh dữ liệu, như tên, địa chỉ hoặc thông tin đặt hàng, xuất hiện đúng một lần trên đĩa để tránh các dị thường dữ liệu và bảo tồn dung lượng. Thông thường, dữ liệu đã chuẩn hóa chỉ tồn tại trong các hệ thống máy tính và không phù hợp với việc biểu diễn dữ liệu kinh doanh ban đầu. Trong thế kỷ 21, các dữ liệu kinh doanh hầu như luôn luôn được tạo ra ở dạng số, như một thông báo đơn đặt hàng dưới dạng một yêu cầu dịch vụ web. Do đó, việc chuẩn hóa dữ liệu ngụ ý rằng việc biểu diễn một hồ kinh doanh dưới dạng số hiện có được chia nhỏ để lưu trữ trong một cơ sở dữ liệu và sau đó được khôi phục lại để trình bày và sử dụng các hồ kinh doanh. Trong bài này, thuật ngữ "hồ kinh doanh" được sử dụng với nghĩa là thông tin có thể được chia sẻ giữa hai hoặc nhiều bên hoặc nhiều thành phần, như một đơn đặt hàng, một phiếu thu, một giấy báo nợ, một giao dịch tài chính, một chuyển khoản ngân hàng, một chính sách bảo hiểm, một email, một hồ bệnh nhân, một bản ghi nhật ký, một phép đo, một sự kiện được ghi lại, một chính sách hoặc sắc lệnh bắt buộc và v.v Các giả định mà mô hình quan hệ dựa vào đã thay đổi. Ngày nay, nhiều hệ thống và cấu trúc thông tin không còn đơn giản và cố định nữa mà phức tạp và chúng thay đổi nhanh chóng. Trong thế giới ngày nay, việc chuẩn hóa là một quá trình có thể hoạt động như một chất ức chế cho cả việc phân phối của các hệ thống linh hoạt lẫn việc phân phối linh hoạt của các hệ thống. Bài này giới thiệu về lưu giữ hồ thông qua lịch sử trước và sau khi đưa các máy tính vào để sử dụng thương mại. Một nhận xét quan trọng là trong suốt chiều dài lịch sử, các hồ kinh doanh đã được lưu trữ "như nó vốn có" và việc đưa các máy tính vào chỉ gây ra sự chia nhỏ các hồ thành nhiều mảnh (chuẩn hóa). Sau đó bài này xem xét động lực cho sự phát triển chuẩn hóa dữ liệu trong những năm 1970. Rồi nó giải thích liệu một số mức độ không chuẩn hóa dữ liệu có trở thành một sự thỏa hiệp được áp dụng phổ biến không. Cuối cùng, bài này thảo luận về ảnh hưởng của web đối với các hồ kinh doanh, cho phép chúng được tạo ra theo định dạng số. Kết quả là, lần đầu tiên đã có thể lưu trữ và xử lý các hồ kinh doanh trong các máy tính theo cấu trúc ban đầu của chúng. Lưu giữ hồ qua lịch sử Phần này mô tả các khía cạnh về lưu giữ hồ trước khi giới thiệu các máy tính, giúp chúng ta hiểu những thay đổi đáng kể do các máy tính đem lại. Các thay đổi này được mô tả sau trong bài này. Các bộ sưu tập về các phiếu thu đã được tìm thấy ở tận thiên niên kỷ thứ 3 trước Công nguyên trong Sumeria cổ [ 1] dưới dạng các viên đất sét đã được trao đổi và sau đó được lưu trữ để lưu giữ hồ sơ. Các hồ cho vay của người Babylon đã được tìm thấy từ thế kỷ 18 trước Công nguyên [ 2]. Cáccủa Hammurabi [3] ở Babylon (năm 1792 trước Công nguyên) gồm có các bản tuyên bố xử lý và lưu giữ hồ (các viên đất sét). Ví dụ:  Nếu bất cứ ai nợ tiền vay và một cơn bão phá hỏng mùa màng, hoặc không thu hoạch được, hoặc các hạt giống không nảy mầm vì thiếu nước; trong năm đó, người đó không cần trả cho chủ nợ của mình bất kỳ hạt thóc nào, ông rửa sạch các thẻ nợ của mình bằng nước và không trả tiền thuê trong năm đó.  Nếu bất cứ ai mua cánh đồng, sân vườn và ngôi nhà của tù trưởng, người đàn ông hoặc một người phải chịu số tô nộp cho lãnh chúa, thì thẻ hợp đồng mua bán của ông ta sẽ bị phá vỡ (được tuyên bố không hợp lệ) và ông ta bị mất tiền. Cánh đồng, sân vườn và ngôi nhà trả lại cho chủ sở hữu chúng. Qua lịch sử, các cơ chế khác nhau đã được giới thiệu để ghi lại thông tin kinh doanh, như các gậy đếm kiểm [ 4][ 5], rẻ hơn và dễ dàng có sẵn hơn so với giấy tờ. Ở châu Âu thời trung cổ, một cây gậy được đánh dấu bằng các vết khía hình V và sau đó được chia theo chiều dọc. Hai nửa gậy phải có cùng các vết khía hình chữ V và mỗi bên giao dịch được nhận một nửa cây gậy đã đánh dấu làm bằng chứng. Rồi các cây gậy này được lưu trữ và giữ nguyên. Gậy đếm kiểm đã chia được chính phủ Anh sử dụng liên tục cho đến năm 1826 để quản lý thuế. Các kho gậy đếm kiểm được lệnh tiêu huỷ bằng cách đốt vào năm 1834 khi các phương thức ghi âm hiện đại hơn đã được giới thiệu [ 5]. Giấy và trong thời gian trước đó là giấy cói và giấy da [ 6], đã ngày càng được sử dụng qua nhiều thế kỷ cho đến cuối thế kỷ 20 để ghi lại các thỏa thuận kinh doanh, các hóa đơn bán hàng, các hợp đồng và các tài liệu quan trọng khác. Thông thường, các hồ đã được ký kết và đôi khi được đóng dấu bằng sáp ong với các nhãn hiệu của các nhà buôn liên quan. Các phương pháp như kế toán kép đã được giới thiệu trong thế kỷ 15. Các thư ký và những người chép thuê đã hỗ trợ các nhà buôn khi công việc giấy tờ tăng lên. Khi các máy tính được đưa vào sử dụng thương mại trong thế kỷ 20, các doanh nghiệp bắt đầu tin học hóa các hệ thống của mình – với yêu cầu chuyển đổi các hồ giấy tờ của thế giới thực sang một cách biểu diễn để các máy tính có thể hiểu được [ 7]. Trước khi đưa vào các máy tính, nguyên tắc chính của việc lưu giữ hồ là chụp ảnh và duy trì một bản sao thông tin chính xác đã được trao đổi giữa các bên liên quan trong một giao dịch. Thường thì các hồ đã được ký kết hoặc đánh dấu theo một cách nào đó và được lưu trữ "như nó vốn có" cho các nhu cầu trong tương lai. Các quy tắc chi phối việc lưu trữ và xử lý các hồ các hợp đồng kinh doanh đã tồn tại trong suốt lịch sử. Lưu giữ hồ trong các hệ thống máy tính Phần này mô tả môi trường trong đó các hệ thống cơ sở dữ liệu đã được giới thiệu vào nửa sau của thế kỷ hai mươi và mục đích chính của các hệ thống đó. Khi các hệ thống máy tính số đã được đưa vào để hỗ trợ các doanh nghiệp thương mại trong những năm 1950 và 1960, các hồ đầu tiên được lưu trữ trên các bìa giấy đục lỗ [8], mà người ta cũng đã thường sử dụng bìa này cho đầu vào và đầu ra. Những người sử dụng gõ nội dung của các hồ giấy, biểu thị các giao dịch kinh doanh, vào các bìa, sao cho máy tính có thể đọc và sử dụng thông tin đó (Hình 1). Dữ liệu được lưu trữ và được xử lý bên trong hệ thống máy tính không còn phù hợp với giao dịch kinh doanh thực sự trên giấy, mặc nó có thể phù hợp với cách nhập dữ liệu vào máy tính trong thời đại bìa đục lỗ. Hình 1. Nhân viên nhập dữ liệu vào những năm 1950 Các bìa đục lỗ tiếp tục được sử dụng với khối lượng đầu vào và đầu ra dữ liệu lớn trong các hệ thống máy tính vào những năm 1980, nhưng băng từ [9] và sau đó lưu trữ trên đĩa [ 10] sớm đã thay thế các bìa đục lỗ trong các hệ thống lớn vào những năm l960. Với sự ra đời của lưu trữ đĩa (Hình 2), khả năng truy cập dữ liệu trực tiếp và nhanh chóng đã trở nên có triển vọng, khi các phần riêng biệt của một đĩa có thể xử lý được bằng lập trình. Trước khi có các đĩa, hầu hết việc xử lý diễn ra theo các lô [ 11] ở đây dữ liệu được xử lý theo thứ tự mà nó đã được lưu trữ trong các tệp trên băng từ hay trên các bìa đục lỗ. Các đĩa đã cho phép truy cập dữ liệu một cách ngẫu nhiên. Hình 2. Vận chuyển một ổ đĩa cứng IBM 5MB vào năm 1956 Trong những năm 1960, một số hệ thống cơ sở dữ liệu [ 12] và hệ thống tệp truy cập trực tiếp [13] đã được phát triển để quản lý dữ liệu đã lưu trên đĩa cho phép nhiều người có thể đồng thời truy cập và cập nhật đĩa, lợi dụng dung lượng lưu trữ đĩa mới có sẵn. Hai trong số các cấu trúc cơ sở dữ liệu phổ biến nhất được sử dụng là mô hình mạng (CODASYL) [14] và mô hình phân cấp (IMS) [ 15]. Trước khi lưu trữ dữ liệu trong cơ sở dữ liệu và thực hiện một ứng dụng, nhóm chuyên gia (các nhà phân tích dữ liệu hoặc quản trị cơ sở dữ liệu) đã chạy một thiết kế dữ liệu để chia nhỏ dữ liệu kinh doanh, vẫn còn trên giấy trong thời đại đó, thành các hệ thống phân cấp hoặc các mạng. Các nhà phân tích đã tạo ra hai mô hình thiết kế dữ liệu, một thiết kế logic ánh xạ các hồ kinh doanh vào các hệ thống phân cấp hoặc các mạng để các nhà lập trình truy cập vào và xử lý và một mô hình vật lý để ánh xạ các hệ thống phân cấp hoặc các mạng tới các đĩa. Các lập trình viên đã tìm hiểu mô hình logic và đã truy cập cơ sở dữ liệu thông qua các giao diện lập trình dẫn hướng (ví dụ, lấy phần tử con tiếp theo trong phần tử cha mẹ) được cung cấp cùng với hệ thống cơ sở dữ liệu cho các ngôn ngữ lập trình phổ biến lúc đó. Trong những năm 1970 mô hình quan hệ thành công vang dội [ 30] đã được giới thiệu, tiếp tục độc chiếm các hệ thống kinh doanh trong thế kỷ 21. Nó lưu trữ các dữ liệu kinh doanh trong các bảng. Các mô hình quan hệ loại bỏ nhu cầu truy cập dẫn hướng, nhưng vẫn đòi hỏi các nhà phân tích dữ liệu chia nhỏ dữ liệu kinh doanh thành các bảng để các nhà lập trình truy cập các bảng đó thông qua một ngôn ngữ khai báo (SQL). Dữ liệu kinh doanh vẫn còn nằm trên giấy vào những năm 1970 và 1980 và đã được chuyển đổi, thường là bằng các máy quét hoặc do những người sử dụng gõ lại các biểu mẫu. Việc chia nhỏ dữ liệu kinh doanh điển hình theo các nguyên tắc chuẩn hóa dữ liệu [ 16][ 17] tiếp tục được dạy và được sử dụng trong thế kỷ 21 để giảm thiểu việc sao chép và các dị thường dữ liệu. Vào lúc các khái niệm về cácsở dữ liệu quan hệ đã được xác định, một thiết bị lưu trữ đĩa phổ biến là 3330 model 11 có dung lượng 200 MB và giá mua thiết bị này dao động từ $ 74.000 đến $ 87.000 (giá Đô la năm 1970) [ 19]. Khi cácsở dữ liệu quan hệ bắt đầu giảm bớt vào những năm 1980, một đĩa rất phổ biến là 3380. Nó có kích thước bằng một tủ quần áo và có dung lượng lưu trữ 1,2 GB với chi phí trên $ 200.000 [ 20]. Vì thế, 1MB dung lượng lưu trữ đĩa có giá trên $160 (giá Đô la năm 1970), tương đương với hàng ngàn đô la vào năm 2010 [ 21]. Thông thường, các hệ thống cơ sở dữ liệu quan hệ đã không giữ thông tin bảo mật liên quan đến các chữ ký và thường chứa bất kỳ mảnh thông tin nào đúng một lần – chỉ phiên bản mới nhất, khiến cho việc thực hiện kiểm tra trở nên khó khăn. Điều sớm đã trở nên rõ ràng là cần lưu trữ các bản sao của các hồ kinh doanh thế giới thực, ví dụ để có thể thực hiện kiểm tra các chính sách bảo hiểm và các khiếu nại có liên quan trong trường hợp tranh chấp. Các hệ thống tài liệu cũng cần tuân theo các quy tắc đòi hỏi các dữ liệu kinh doanh được lưu trữ với một số năm nhất định. Một thể loại phần mềm mới, được gọi là Hệ thống quản lý tài liệu doanh nghiệp (Enterprise Document Management Systems) [ 23], được phát triển vào cuối những năm 1980 để lưu trữ các hình ảnh của các hồ giấy tờ. Các hệ thống này đã được tách khỏi cácsở dữ liệu đã lưu trữ dữ liệu giống như trong các bảng quan hệ. Trong thế kỷ 21, Quản lý tài liệu doanh nghiệp được gọi là Quản lý nội dung doanh nghiệp [ 24]. Nguyên tắc chính về lưu giữ hồ trong các máy tính trong thế kỷ XX đã giới thiệu một kiểu lưu trữ phù hợp với cách mà các máy tính làm việc, để lưu trữ bất kỳ mục dữ liệu cụ thể nào đúng một lần, giảm thiểu lưu trữ. Nếu cần một bản sao chính xác của hồ giấy tờ thực thế giới, thì người ta đã xây dựng các hệ thống riêng biệt để thực hiện chính xác điều đó, làm cho dữ liệu giống nhau được lưu trữ nhiều lần. Các quy tắc để quản lý lưu trữ và xử lý các hồ vẫn tiếp tục tăng lên. Quá trình chuẩn hóa dữ liệu Phần này mô tả mục đích và các ảnh hưởng của quá trình chuẩn hóa dữ liệu lần đầu tiên được giới thiệu vào năm 1970 với các dạng chuẩn tắc hơn được giới thiệu suốt những năm 1970. Chuẩn hóa dữ liệu là một phương pháp luận để đưa ra một bộ sưu tập các bảng biểu diễn các hồkinh doanh thế giới thực trong một cơ sở dữ liệu, tránh bất kỳ sự trùng lặp dữ liệu nào khi lưu trữ vốn rất tốn kém. Tránh trùng lặp dữ liệu cũng có nghĩa là các dị thường cập nhật không thể xảy ra. Chuẩn hóa dữ liệu rất tốt và được ghi lại rộng rãi [ 18]. INó bắt đầu với một bảng lớn duy nhất để biểu diễn tất cả các thuộc tính của một hồ kinh doanh thế giới thực cùng với mã định danh chính (một khóa), sau đó sẽ gỡ bỏ hệ thống phân cấp (các nhóm lặp lại) để đơn giản hóa truy vấn với một ngôn ngữ như SQL. Tiếp đến cũng phải gỡ bỏ bất kỳ dữ liệu trùng lặp và các phụ thuộc chức năng nào trong các bảng kết quả. Để đạt được chuẩn hóa, bảng duy nhất có tất cả các thuộc tính cần thiết được chia nhỏ thành các bảng được liên kết thông qua các khóa chính và khóa ngoài. Kết quả của việc chuẩn hoá dữ liệu là một hồ kinh doanh duy nhất có thể được biểu diễn trong hàng chục hoặc hàng trăm bảng. Nhiều khóa nhân tạo (và các chỉ mục có liên quan) được đưa vào, tuy không tồn tại trong thế giới thực, nhưng lại rất cần để tạo lại hồ kinh doanh thế giới thực. Việc lưu trữ nhiều phiên bản của một hồ kinh doanh, ví dụ, một đơn đặt hàng và sau đó thực hiện bất kỳ sửa đổi nào với đơn đặt hàng đó, yêu cầu tạo phiên bản tất cả các bảng liên quan có thực hiện truy vấn và duy trì tổ hợp các bảng. Một cách tiếp cận thay thế, để bảo toàn lưu trữ, là chỉ lưu trữ các khác biệt, thay vì xếp tầng các phiên bản đầy đủ thông qua các bảng, làm phức tạp thêm cho các lập trình viên. Năm 1980, chi phí của hai MB dung lượng lưu trữ đại khái tương đương với chi phí của một tuần làm việc của một lập trình viên máy tính ở Mỹ [ 19][ 22]. Vào năm 2010, thậm chí một GB dung lượng lưu trữ chỉ chiếm một phần rất nhỏ, không bằng vài phút làm việc của một lập trình viên máy tính và giá lưu trữ tiếp tục giảm. Hơn nữa, bộ nhớ ngày càng trở nên phong phú và chi phí (độ trễ) của các hoạt động Vào/Ra (I/O) tiếp tục giảm khi các loại lưu trữ mới – như các đĩa thể rắn - đang được giới thiệu. Với ngoại lệ cần lưu ý của cácsở dữ liệu quan hệ, người ta thường sử dụng phương tiện lưu trữ để lưu trữ các tạo phẩm chưa được chuẩn hóa, ví dụ trong các máy chủ tệp, các máy chủ web, các kho lưu trữ nội dung, các máy chủ ứng dụng và v.v Lưu trữ quan hệ trái ngược với các viên đá, các gậy đếm kiểm và các hồ giấy được sử dụng để lưu giữ hồ trước khi đưa vào các hệ thống máy tính và luôn luôn được lưu trữ "như nó vốn có". Vì một vài lý do mà chúng không được chia ra hoặc được chuyển đổi sang một định dạng khác cho các mục đích lưu trữ. Đầu tiên, không gian lưu trữ luôn phong phú và đã không được bảo toàn. Thứ hai, bất kỳ sự chuyển đổi (và tạo lại) các tạo phẩm thường rất tốn kém. Và thứ ba, lưu trữ những hồ này dưới dạng ban đầu của chúng làm cho việc sử dụng và hiểu chúng dễ dàng khi lấy chúng ra khỏi nơi lưu trữ. Các lý do tương tự đang áp dụng hiện nay để lưu trữ các hồ kinh doanh số thế giới thực dưới dạng chưa chuẩn hóa sẽ được thảo luận sau trong bài này. Khi việc sử dụng các hồ giấy tăng lên nhanh chóng trong thế kỷ 19 và 20, không gian lưu trữ đã trở thành một vấn đề đối với một số thư viện và các kho tư liệu. Điều này đã kích thích phát minh ra vi phim và tấm vi phim để giảm không gian lưu trữ cần thiết xuống giữa 0,25% và 3% so với vật liệu ban đầu [ 25]. Tuy nhiên, đây chỉ là một hình thức nén mà không biểu diễn thông tin theo một cách khác dựa trên khái niệm. Tương tự như vậy, hiện nay có thể áp dụng việc nén số để làm giảm tiêu dùng dung lượng lưu trữ của các hồ kinh doanh không chuẩn hóa. Do chi phí lưu trữ cao, nên chuẩn hóa dữ liệu biểu diễn các hồ kinh doanh trong các máy tính bằng cách chia nhỏ hồ thành nhiều phần, đôi khi hàng trăm phần và tái tạo lại chúng khi cần thiết. Cần có các khóa nhân tạo và các chỉ mục liên quan để liên kết các phần của một hồ duy nhất với nhau. Điều này trái ngược hẳn với các hệ thống lưu giữ hồ trước đó (các viên đá, các gậy đếm kiểm, giấy v.v ) đã lưu giữ hồ kinh doanh như nó vốn có. Các cách biểu diễn chuẩn hóa làm cho việc hiểu các hồ kinh doanh trở nên khó khăn hơn nhiều và tăng thêm các chi phí để chia nhỏ và ghép chúng lại. Quá trình không chuẩn hóa Phần này mô tả các tình huống mà ở đó việc không chuẩn hóa đã trở thành cách thực hiện phổ biến. Các lược đồ cơ sở dữ liệu cho các kho dữ liệu là một ví dụcác kho lưu trữ dữ liệu có khả năng mở rộng mới như Google BigTable [ 47] và HBase [ 49] là cácdụ khác. Chuẩn hóa có hai nhược điểm cố hữu. Đầu tiên, các hồ kinh doanh phức tạp thường dẫn đến một số lượng lớn các bảng quan hệ trong một lược đồ cơ sở dữ liệu đã chuẩn hóa, làm cho việc biểu diễn dữ liệu khó hiểu. Kết quả là, việc viết các truy vấn có thể yêu cầu nhiều liên kết và trở nên ngày càng phức tạp [ 46]. Thứ hai, số lượng lớn các liên kết có tiềm năng gây bất lợi cho hoạt động phục hồi dữ liệu. Việc không chuẩn hóa các bảng đã chuẩn hóa hoặc việc sử dụng một thiết kế không chuẩn hóa có thể trực tiếp giải quyết những vấn đề này. Không chuẩn hóa trong các kho dữ liệu Do dung lượng của các thiết bị điện toán và lưu trữ đã tăng lên trong những năm 1980 và 1990, trong khi chi phí đã giảm xuống, các công ty đã có thể có đủ khả năng tích lũy và phân tích khối lượng dữ liệu kinh doanh lịch sử lớn hơn, như các hồ bán hàng, trong các kho dữ liệu. Để có được cái nhìn sâu vào hoạt động kinh doanh của một công ty, các kho này được các nhân viên kinh doanh sử dụng, những người cần chạy các truy vấn phức tạp dựa vào một cách biểu diễn dữ liệu trực quan. Người ta đã nhanh chóng phát hiện ra rằng "việc sử dụng mô hình hóa đã chuẩn hóa trong kho dữ liệu gây khó khăn cho toàn bộ mục đích của kho dữ liệu, cụ thể là, việc phục hồi các dữ liệu trực quan và hiệu năng cao" [ 26]. Kết quả là, các lược đồ hình sao không chuẩn hóa đã trở thành lược đồ cơ sở dữ liệu phổ biến nhất cho các kho dữ liệu. Do các kho dữ liệu thường thêm dữ liệu mới theo định kỳ thay vì thực hiện các cập nhật giao dịch, việc không chuẩn hóa làm đơn giản hoá lược đồ và cải thiện hiệu năng truy vấn với ít nguy cơ về các dị thường cập nhật. Một lược đồ hình sao gồm có ít nhất một bảng sự kiện, như "doanh thu hàng ngày" có các bản ghi doanh thu và một số bảng chiều như "kho", "sản phẩm", "ngày" và "khách hàng". Có một mối quan hệ một-nhiều giữa mỗi chiều và bảng sự kiện. Mỗi hàng của bảng sự kiện có một vài số đo, có nghĩa là, các cột số như "số lượng" hay "giá", cũng như các khóa ngoài cho tất cả các bảng chiều để cho biết sản phẩm nào đã được bán trong kho nào cho khách hàng nào vào ngày nào. Đây là một khung nhìn dữ liệu kinh doanh trực quan và làm cho việc phân tích (doanh thu) các sự kiện theo các chiều kinh doanh liên quan dễ dàng. Các bảng chiều thường không được chuẩn hóa. Ví dụ, bảng "sản phẩm" có thể có các cột như "loại hàng hóa" và "thể loại", ở đây các giá trị chuỗi giống nhau có thể xuất hiện ra cho nhiều sản phẩm. Chuẩn hóa sẽ sử dụng các giá trị INTEGER (số nguyên) làm các khóa cho các loại hàng hóacác thể loại, cộng với các bảng riêng biệt có tên của từng thể loại hàng hóa chỉ xảy ra một lần. Cần tránh chuẩn hóa các bảng chiều này, vì nó sẽ dẫn đến một lược đồ dạng bông tuyết thường gây khó hiểu hơn và đưa vào nhiều liên kết bổ sung. Sự thành công của các lược đồ hình sao trong kho dữ liệu dẫn đến hiểu biết chung rằng không chuẩn hóa có lợi cho OLAP và cácsở dữ liệu hỗ trợ ra quyết định. Ví dụ, các khuyến cáo cho các kho dữ liệu và cácsở dữ liệu OLAP trong Oracle bao gồm "không chuẩn hóa ồ ạt" và "dự phòng rộng rãi" [ 27]. Các thử nghiệm trong Oracle 11g đã chỉ ra rằng các truy vấn nhiều chiều có thể chạy trên một lược đồ cơ sở dữ liệu không chuẩn hóa nhanh hơn từ 10x đến 1000x so với một lược đồ cơ sở dữ liệu chuẩn hóa [ 28]. Các nghiên cứu khác đã giải thích lợi ích hiệu năng của việc không chuẩn hóa về mặt lý thuyết, khi sử dụng đại số quan hệ và các cây truy vấn [ 29]. Bất chấp thành công của việc không chuẩn hóa cho cácsở dữ liệu hỗ trợ ra quyết định, chuẩn hóa vẫn thường thích hợp cho các ứng dụng OLTP chuyên sâu về cập nhật. Tuy nhiên, nhu cầu chuẩn hóa các lược đồ cơ sở dữ liệu cho các ứng dụng OLTP đang thay đổi trong thế kỷ 21 khi càng ngày càng có nhiều ứng dụng hơn cần lưu giữ một lịch sử đầy đủ của tất cả các hàng cơ sở dữ liệu. Do đó, nhiều ứng dụng chỉ thực hiện chèn các phiên bản mới của một hàng chứ không thực hiện cập nhật hàng hiện có [45] – giảm nguy cơ về các dị thường cập nhật trong một lược đồ đã chuẩn hóa và làm giảm nhu cầu đối với việc chuẩn hóa. Không chuẩn hóa trong BigTable của Google, HBase và các hệ thống khác BigTable của Google là hệ thống cơ sở dữ liệu không chia sẻ thứ gì song song được thực hiện như một bản đồ phân loại, nhiều chiều, phân tán, thưa thớt [ 47]. Nó được thiết kế với khả năng mở rộng tới các khối dữ liệu rất lớn (petabyte – một triệu GB) và để phân phối qua hàng trăm hoặc hàng ngàn máy tính. Trong mỗi mục của bản đồ, BigTable sắp đặt ba phần gồm có một khóa hàng, một khóa cột và một dấu thời gian theo một giá trị. Ngoài ra, các khóa cột được nhóm lại thành các họ cột, hình thành đơn vị cơ bản về nén và kiểm soát truy cập. Một trong những nguyên lý nổi bật trong việc thiết kế cácsở dữ liệu và các ứng dụng cho BigTable là không chuẩn hóa và trùng lặp dữ liệu [ 48]– một sự khởi đầu có gốc từ lý thuyết cơ sở dữ liệu quan hệ truyền thống. Mục đích là tối ưu hóasở dữ liệu để truy cập đọc hiệu quả và có khả năng mở rộng. Không chuẩn hóa thường được sử dụng sao cho một hoạt động đọc đơn lẻ có thể lấy ra tất cả các trường thuộc về một hồ kinh doanh lô-gic. Không chuẩn hóa trong BigTable đi kèm với các phí tổn về các bản cập nhật phức tạp hơn và ít hiệu quả hơn, khi nhiều bản sao tiềm năng có cùng một giá trị phải được cập nhật theo chương trình. Chấp nhận sự hy sinh này để đạt được khả năng mở rộng cao cho các ứng dụng có tỷ lệ đọc/cập nhật cao. Ngoài ra, trường dấu thời gian trong BigTable được sử dụng giúp cho việc tạo phiên bản dễ dàng hơn, có nghĩa là, nhiều bản sao về một địa chỉ khách hàng hoặc nhiều bản sao về một mô tả sản phẩm phản ánh tình trạng của thế giới tại một điểm nào đó đúng lúc. Hãy tưởng tượng một cơ sở dữ liệu lưu trữ các khách hàng và các đơn đặt hàng, với một mối quan hệ logic một-nhiều giữa chúng. Trong khi việc chuẩn hóasở dữ liệu quan hệ thường yêu cầu ít nhất là 2 bảng, một bảng cho khách hàng và một bảng cho các đơn đặt hàng, thì một thiết kế BigTable điển hình thường lặp lại thông tin khách hàng cho mỗi lần đặt hàng. Điều này biểu diễn trạng thái thông tin khách hàng cho mỗi đơn hàng cụ thể. Ví dụ, một khách hàng có thể hoặc không thể sử dụng cùng một địa chỉ cho mỗi đơn đặt hàng. Với nghĩa này, cách biểu diễn không chuẩn hóa này giống với một mẫu đơn mua hàng thực tế, đó là, hồ kinh doanh ban đầu. Các cách thực hiện tương tự khác so với BigTable gồm có HBase và Cassandra và cũng dựa trên một cách tiếp cận thiết kế cơ sở dữ liệu không chuẩn hóa [ 49]. Tương tự như vậy, các nghiên cứu khác đã chỉ ra rằng không chuẩn hóa là một kỹ thuật thành công để xây dựng các ứng dụng web có khả năng mở rộng [ 50]. Do những người dùng doanh nghiệp truy cập vào các kho lưu trữ dữ liệu, nên dữ liệu đã lưu theo trực quan cần giống như cấu trúc ban đầu của các hồ kinh doanh, đạt được bằng cách không chuẩn hóa. Không chuẩn hóa cũng cải thiện hiệu năng bằng cách giảm số lượng các phép nối quan hệ cần thiết để đánh giá các hồ kinh doanh. Tương tự, không chuẩn hóa được sử dụng trong các kho dữ liệu mới như BigTable và HBase để cung cấp truy cập dữ liệu đơn giản và có khả năng mở rộng. Ảnh hưởng của web Bắt đầu vào giữa những năm 1990, việc số hóa các hồ kinh doanh đã xảy ra đồng thời với sự thành công thương mại của web. Phần này mô tả các công nghệ chủ chốt của Web, đã gây ra một sự thay đổi lớn trong cách biểu diễn các hồ kinh doanh trong những năm đầu thế kỷ 21. Vào năm 1989, nhiều dự án dựa trên Internet đã phát triển khi có nhiều tổ chức khoa học, đại học, chính phủ và thương mại có quyền truy cập vào cơ sở hạ tầng Internet. Một trong những dự án đó đã bao gồm cả việc phát minh ra HTML (Hypertext Markup language - Ngôn ngữ đánh dấu siêu văn bản) [ 31], HTTP (Hypertext Transfer Protocol - Giao thức truyền siêu văn bản) [ 32] và các URL (Universal Resource Locators - Các trình định vị tài nguyên thống nhất) [ 33] đã dẫn đến việc tạo ra WWW (World Wide Web - Mạng toàn cầu) [ 34]. HTTP đã định nghĩa một giao thức để lấy ra và sửa đổi các tài liệu HTML trên Internet bằng cách xử lý chúng thông qua một lược đồ xử lý phổ quát (URL). Nhiều trình xem đa năng (các trình duyệt [ 35]) đã được xây dựng để truy cập và chuyển hướng các tài liệu và được sử dụng trên nhiều thiết bị trong thế kỷ 21. Các tổ chức khoa học đã là những người sử dụng Web non trẻ đầu tiên để chia sẻ các tài liệu khoa học. Vào khoảng năm 1995, cộng đồng thương mại đã khám phá ra web. Do nhiều người dùng đã bắt đầu có quyền truy cập vào Internet từ nơi làm việc và nhà của họ, nên đã có một cuộc chạy đua để cho phép đưa các hệ thống thương mại hiện có lên web - để tạo ra sự có mặt của web nhằm cung cấp truy cập vào dữ liệu đã có trong cácsở dữ liệu quan hệ, sao cho người dùng có thể theo dõi các gói hoặc gọi các dịch vụ và hàng hóa. Trong quá khứ, các hoạt động này thường do con người thực hiện, qua điện thoại hoặc thư. Cácsở hạ tầng được phát triển để cung cấp truy cập web vào cơ sở dữ liệu quan hệ và chuyển đổi nội dung của chúng thành HTML có ở mọi nơi và các ứng dụng được tạo ra đã sử dụng HTML cho giao diện người dùng của chúng [ 36]. HTML đã trở nên thành công lớn. Nó đã được mô tả trong một định nghĩa tài liệu Standard Generalized Markup Language (SGML - Ngôn ngữ đánh dấu chuẩn tổng quát) [ 38] đã có phiên bản 4.0 vào năm 1997. SGML, có nguồn gốc từ Generalized Markup Language (Ngôn ngữ đánh dấu tổng quát) của IBM vào những năm 1960, là một tiêu chuẩn ISO để xác định cách đánh dấu. Một trường hợp đơn giản hóa của SGML, được gọi là eXtensible Markup Language (XML- Ngôn ngữ đánh dấu mở rộng) [ 37], đã được giới thiệu vào năm 1998 để nới lỏng việc triển khai thực hiện trình phân tích cú pháp so với các trình phân tích cú pháp SGML đầy đủ mà HTML cần. Một ví dụ về các trường hợp đơn giản hóa trong XML là tất cả các thẻ bắt đầu phải có các thẻ kết thúc, còn trong SGML không dùng các thẻ như vậy. Việc giới thiệu XML đã khuyến khích tạo ra nhiều bảng từ vựng vượt xa HTML để biểu diễn các cấu trúc dữ liệu tùy ý. Khi các hồ kinh doanh trong thế giới thực được tạo ra dưới dạng số vào cuối những năm 1990, được Web cấp tư liệu làm phương tiện đầu ra đầu vào, XML đã trở thành sự lựa chọn tự nhiên để biểu diễn các hồ kinh doanh theo một định dạng không chuẩn hóa, giống như các hình thức giấy hoặc các viên đá là những hồ kinh doanh không chuẩn hóa. Phần mềm XML mã nguồn mở miễn phí đã được bắt nguồn từ bộ vi xử lý SGML hoặc bộ vi xử lý loại mới có thể phân tích cú pháp XML đúng định dạng đã được tạo ra, loại bỏ nhu cầu sử dụng các trình phân tích cú pháp tùy chỉnh. Người ta đã giới thiệu nhiều đặc tả hơn để hỗ trợ XML, ví dụ các lược đồ XML đã cho phép các tổ chức và các tập đoàn quy định chính xác những gì cấu thành nội dung có thể chấp nhận được trong một hồ kinh doanh cụ thể. Việc xác nhận hợp lệ trình phân tích cú pháp đã trở nên phổ biến rộng rãi. Các vùng tên cho phép một hồ kinh doanh chứa dữ liệu có các định nghĩa do các nhóm khác nhau sở hữu. Các vùng tên cho phép các tổ chức tái sử dụng, phân vùng hoặc mở rộng các cấu trúc hồ kinh doanh. Có thể áp dụng các chữ ký số cho XML, để đảm bảo rằng nó đã không bị làm giả, theo một cách tương tự như các chữ ký và các dấu đã được sử dụng trên giấy da và giấy. Các đặc tả đã được giới thiệu mô tả cách nên truyền dẫn các hồ XML, bao gồm WSDL, SOAP, RSS và Atom. Các đặc tả này làm cho có khả năng xây dựng các khung công tác đa năng xung quanh việc trao đổi hồ kinh doanh, như các công nghệ cung cấp và các Kiến trúc hướng dịch vụ (SOA). Số lượng các tập đoàn, xác định các tiêu chuẩn hồ kinh doanh theo XML cho ngành kinh doanh của họ, đã phát triển. Các công ty đang bắt đầu sử dụng các cấu trúc XML tiêu chuẩn hóa thay cho việc xác định các hồ kinh doanh XML riêng của họ. Cácdụ gồm Financial Products Markup Language (FpML- Ngôn ngữ đánh dấu các sản phẩm tài chính) [ 52], Financial Information eXchange Protocol (FIXML - Giao thức trao đổi thông tin tài chính) [ 54], EML (Election Markup Language - Ngôn ngữ đánh dấu cho bầu cử) [ 55], HL7 (Health Level 7) [ 56], HR-XML (XML Human Resources - Các nguồn nhân lực XML) [ 57], OTA (Open Travel Alliance - Liên minh du lịch mở) [ 58] và Open Applications Group Integration Specification (OAGIS - Đặc tả tích hợp nhóm các ứng dụng mở) [ 53]. Các định dạng như lược đồ thông báo của ngành kinh doanh tài chính phổ biến IS20022 [ 59] được sử dụng trong ngân hàng và UBL (Universal Business Language - Ngôn ngữ kinh doanh phổ biến) [ 60] được uỷ quyền và tùy thuộc vào quy tắc, trong các vùng của thế giới. Trong nhiều ngành công nghiệp, lần đầu tiên, XML đã trở nên có khả năng lưu trữ và xử lý trực tiếp các hồ kinh doanh, như trong các kỷ nguyên trước khi có các máy tính với các viên đá và giấy. Tuy nhiên, việc thực hành chuẩn hóa các hồ kinh doanh (XML) để lưu trữ vẫn được tiếp tục. Trong những năm đầu thế kỷ 21, nhiều hồ kinh doanh được tạo ra và được biểu diễn bằng XML. Các hồ kinh doanh theo XML được trao đổi giữa và trong các tổ chức thông qua việc truyền tệp, HTTP, Web 2.0 và các dịch vụ web. Chúng đại diện cho các đối tượng hoặc các thỏa thuận kinh doanh giữa hai bên hoặc nhiều bên. Một giả định phổ biến là việc xử lý XML không hiệu quả. Do đó, nhiều kiến trúc vẫn tiếp tục thiết kế các hệ thống nhằm chuyển đổi các hồ kinh doanh thành các bảng quan hệ đã chuẩn hóa và ngược lại, giống như họ đã làm trong năm 1995 chuyển đổi giữa HTML và các dữ liệu quan hệ và năm 1980 chuyển đổi giữa các hồ giấy và các dữ liệu quan hệ thông qua các máy quét và những người sử dụng. Tóm tắt Cho đến khi điện toán thương mại ra đời vào giữa thế kỷ 20, các hồ kinh doanh đã được lưu trữ và được xử lý theo các hình thức tương tự như chúng đã được tạo ra. Cácdụ bao gồm các viên đá, các gậy đếm kiểm và các hình thức giấy. Với sự ra đời của hệ thống điện toán, người ta đã phát minh ra chuẩn hóa dữ liệu để tổ chức các hồ kinh doanh sao cho mỗi mục dữ liệu được lưu trữ đúng một lần để bảo tồn lưu trữ và tránh các dị thường cập nhật. Chuẩn hóa đã được phát triển vào những năm 1970 với các lý do thuyết phục vào thời điểm đó. Dung lượng đĩa khan hiếm và đắt tiền, các hồ kinh doanh không phức tạp như hiện nay và chỉ dự định lưu trữ phiên bản mới nhất của từng thông tin. Do đó, nỗ lực chuyển đổi các hồ kinh doanh sang và từ cách biểu diễn chuẩn hóa trong các máy tính nói chung được chấp nhận. Với sự xuất hiện của kho dữ liệu và kinh doanh thông minh vào đầu những năm 1990, những hạn chế của chuẩn hóa đã nhận được nhiều sự quan tâm. Một lược đồ cơ sở dữ liệu chuẩn hóa là một sự biểu diễn trái tự nhiên của các hồ kinh doanh, rất khó hiểu cho những người dùng doanh [...]... cần giữ lại một lịch sử về các đối tượng dữ liệu của chúng Kết quả là, các việc chèn phiên bản mới và không thay đổi của các đối tượng dữ liệu thường phổ biến hơn so với các cập nhật dữ liệu hiện có, làm giảm nguy cơ về các dị thường cập nhật Do đó, nhu cầu chuẩn hóa dữ liệu không còn có thể được áp dụng phổ biến nữa như trong những năm 1970 Ngoài ra, sự thành công của Web, các dịch vụ Web và các công... sở dữ liệu trong suốt 30 năm và tiếp tục được giảng dạy như một phần thiết kế hệ thống Tuy nhiên, do các hồ kinh doanh hiện nay là số, phức tạp hơn và đang phát triển, nên cần có thời gian để xem xét lại việc sử dụng chuẩn hóa một cách cẩn thận Phần thứ hai của loạt bài này thảo luận về XML và cách biểu diễn dữ liệu thay thế khác và xem xét khi nào và làm thế nào mà chúng có thể làm giảm bớt các. .. Web 2.0 đã đảm bảo rằng các hồ kinh doanh được tạo ra dưới dạng số, chủ yếu là XML Trong khi phần mềm phía máy khách đã chấp nhận XML và các dẫn xuất của nó, thì phần mềm phía máy chủ liên quan đến cácsở dữ liệu vẫn tiếp tục yêu cầu tuỳ chỉnh đáng kể để thiết kế, xây dựng và phát triển, do các phép chuyển đổi dữ liệu mà chuẩn hóa đòi hỏi Một trong những lý do là chuẩn hóa dữ liệu đã được giảng... Donald: "Phát triển Kho lưu trữ dữ liệu hiệu quả Oracle và các ứng dụng OLAP", http://www.dba-oracle.com/art_dw1.htm, 1996 28 Zaker, M et al.: "Cấu trúc Không chuẩn hóa: Một Triển vọng để Tối ưu hóa thiết kế Kho lưu trữ dữ liệu", Tạp chí Các máy tính quốc tế, Số 1, Tập 3, trang 143-150, 2009 29 Sanders, G and Shin, S.: "Các ảnh hưởng của việc không chuẩn hóa lên hiệu năng của các RDBM", Hội nghị quốc tế... http://en.wikipedia.org/wiki/ISAM 14 Olle T.W.: "Cách tiếp cận Codasyl để Quản lý cơ sở dữ liệu" Wiley, 1978 ISBN 0-47199579-7 15 Mô hình phân cấp: http://en.wikipedia.org/wiki/Database_model#Hierarchical_model, http://www.ibm.com/software/data/ims/ 16 Codd, E.F "Chuẩn hóa hơn nữa của Mô hình quan hệ cơ sở dữ liệu." Báo cáo nghiên cứu của IBM RJ909, năm 1971 Cũng có trong Các hệ thống Cơ sở dữ liệu: Loạt bài 6 của các Hội nghị chuyên... quản lý dữ liệu của IBM, tập 14, Số 1, 2009 41 Nicola, M., van-der-Linden, B.: "Hỗ trợ nguyên gốc XML trong cơ sở dữ liệu phổ quát của DB2", Hội nghị quốc tế lần thứ 31 về cácsở dữ liệu rất lớn, VLDB 2005 42 Nicola, M.: "Các bài học thu được từ các ứng dụng DB2 pureXML: Một góc nhìn của học viên thực hành", Hội nghị chuyên đề về cơ sở dữ liệu XML quốc tế lần thứ 7, XSYM 2010 43 Rys, M.: "Các hệ... phổ biến với chuẩn hóa Tài liệu tham khảo 1 Sumeria: http://en.wikipedia.org/wiki/Sumer 2 Lịch sử ngân hàng: http://en.wikipedia.org/wiki/History_of_banking 3 Mã Hammurabi: http://en.wikipedia.org/wiki/Code_of_Hammurabi 4 Giao dịch thương mại và buôn bán trong thời Trung Cổ: http://www.camelotintl.com/village/trade.html 5 Các gậy đếm kiểm: http://en.wikipedia.org/wiki/Tally_stick 6 Lịch sử của giấy: http://en.wikipedia.org/wiki/History_of_paper... trình bày và xử lý các truy vấn phân tích kinh doanh Kết quả là, không chuẩn hóa đã được giới thiệu để tháo gỡ những thiếu sót ở một mức độ nào đó Và thế giới Công nghệ thông tin tiếp tục thay đổi trong thế kỷ 21 Chi phí cho mỗi MB dung lượng lưu trữ số đã giảm rất nhiều Do những tiến bộ về mật độ lưu trữ và nén, chuẩn hóa không còn cần thiết để tiết kiệm dung lượng nữa Tương tự như vậy, các quy tắc kiểm... quản lý cơ sở dữ liệu quan hệ và XML: Bên trong Máy chủ SQL của Microsoft", SIGMOD 2005 44 Holstege, M.: "Xquery, To lớn, Nhanh: Cho phép các ứng dụng nội dung", Tập san Kỹ thuật dữ liệu IEEE, tập 31 Số 4, 2008 45 Helland, Pat: "Kế toán Không dùng Tẩy", 06.2007 46 Helland, Pat: "Chuẩn hóa dành cho những kẻ yếu đuối", 07.2007 47 Chang et al.: "Bigtable: Một hệ thống lưu trữ phân tán cho dữ liệu có cấu... thiết kế và triển khai thực hiện các hệ điều hành, OSDI 2006 48 "Tôi đã tìm hiểu để không lo lắng nữa và yêu thích Sử dụng nhiều dung lượng đĩa để Mở rộng như thế nào" 49 Liu, Qingyan: "Các nghiên cứu sâu về Thiết kế lược đồ HBase", http://www.slideshare.net/hmisty/20090713-hbase-schema-design-case-studies, 2009 50 Wei, Z et al.: "Không chuẩn hóa dữ liệu hướng dịch vụ cho các ứng dụng Web có khả năng mở . Xét lại chuẩn hóa dữ liệu, Phần 1: Lịch sử của các hồ sơ kinh doanh Giới thiệu Bài này mô tả sự thay đổi vai trò của việc chuẩn hóa dữ liệu. diễn các hồ sơ kinh doanh theo một định dạng không chuẩn hóa, giống như các hình thức giấy hoặc các viên đá là những hồ sơ kinh doanh không chuẩn hóa. Phần

Ngày đăng: 09/03/2014, 04:20

Tài liệu cùng người dùng

Tài liệu liên quan