Nghiên cứu luật kết hợp và thử nghiệm khai phá cơ sở dữ liệu hợp đồng giao nhận vận tải tại công ty STC việt nam

75 1.5K 4
Nghiên cứu luật kết hợp và thử nghiệm khai phá cơ sở dữ liệu hợp đồng giao nhận vận tải tại công ty STC việt nam

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHÙNG VĂN VIỆT NGHIÊN CỨU LUẬT KẾT HỢP VÀ THỬ NGHIỆM KHAI PHÁ CƠ SỞ DỮ LIỆU HỢP ĐỒNG GIAO NHẬN VẬN TẢI TẠI CÔNG TY STC VIỆT NAM NHẰM PHÁT HIỆN RA XU HƯỚNG VỀ CÁC ĐIỀU KHOẢN GIAO NHẬN VẬN TẢI LỰA CHỌN TRONG CÁC HỢP ĐỒNG VẬN TẢI HÀNG HÓA LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2012 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHÙNG VĂN VIỆT NGHIÊN CỨU LUẬT KẾT HỢP VÀ THỬ NGHIỆM KHAI PHÁ CƠ SỞ DỮ LIỆU HỢP ĐỒNG GIAO NHẬN VẬN TẢI TẠI CÔNG TY STC VIỆT NAM NHẰM PHÁT HIỆN RA XU HƯỚNG VỀ CÁC ĐIỀU KHOẢN GIAO NHẬN VẬN TẢI LỰA CHỌN TRONG CÁC HỢP ĐỒNG VẬN TẢI HÀNG HÓA Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS PHÙNG VĂN ỔN Hà Nội - 2012 MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT MỞ ĐẦU CHƢƠNG 1: NGHIÊN CỨU MỘT SỐ VẤN ĐỀ VỀ LUẬT KẾT HỢP Lý thuyết luật kết hợp 1.1 Luật kết hợp 1.2 Một số tính chất luật kết hợp 1.3 Phân loại luật kết hợp 1.4 Đặc tả toán khai phá liệu 11 Các đặc trưng luật kết hợp 12 2.1 Không gian tìm kiếm luật 12 2.2 Độ hỗ trợ luật 14 Một số giải thuật khai phá tập phổ biến 15 3.1 Giải thuật BFS 15 3.1.1 Mô giải thuật Apriori 17 3.1.2 Một số biến thể Apriori 22 3.1.3 Cải tiến thuật toán Apriori 23 3.2 Giải thuật DFS 27 3.3 Giải thuật DHP 28 3.4 Giải thuật PHP 30 Phát sinh luật từ tập phổ biến 33 4.1 Cải tiến 34 4.2 Cải tiến 1.a 35 4.3 Một số kỹ thuật khác việc tối ưu hóa chi phí tính độ Confident 36 Đánh giá, nhận xét 36 CHƢƠNG 2: HỆ THỐNG GIAO NHẬN VẬN TẢI VÀ TẬP ĐOÀN STC 37 Tổng quan dịch vụ giao nhận vận tải 37 Các phương thức vận tải hàng hóa 40 Các rủi ro giao nhận vận tải 41 3.1 Khái niệm 41 3.2 Phân loại 42 3.2.1 Theo nguồn gốc 42 3.2.2 Theo điều kiện bảo hiểm 43 3.2.2.1 Nhóm rủi ro hàng hóa 43 3.2.2.2 Nhóm rủi ro đặc biệt 44 3.2.2.3 Nhóm rủi ro loại trừ 45 Các điều khoản giao nhận vận tải(Incoterm) 46 4.1 EXW 47 4.2 FCA 47 4.3 FAS 48 4.4 FOB 48 4.5 CFR 48 4.6 CIF 49 4.7 CPT 49 4.8 CIP 49 4.9 DAT 49 4.10 DAP 50 4.11 DDP 50 Thực trạng sử dụng Incoterm, ví dụ tranh chấp 51 Tập đoàn STC công ty STC Việt Nam 54 CHƢƠNG 3: ỨNG DỤNG, THỬ NGHIỆM KHAI PHÁ DỮ LIỆU TÍCH HỢP HỆ THỐNG CƠ SỞ DỮ LIỆU HỢP ĐỒNG GIAO NHẬN VẬN TẢI 55 Bài toán 55 1.1 Phát biểu toán 55 1.2 Đặc tả liệu 56 1.3 Minh họa chương trình 64 1.4 Phân tích, đánh giá 64 Hướng phát triển 65 KẾT LUẬN 66 PHỤ LỤC 67 TÀI LIỆU THAM KHẢO 72 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Từ viết tắt Ck Ck Tiếng Việt Tập K – itemset ứng cử Conf confidence Độ tin cậy CSDL DW Database Data Warehouse Cơ sở liệu Kho liệu Item item Khoản mục Itemset K- itemset itemset K- itemset Tập khoản mục Tập gồm K mục KDD Knowledge Discovery and Data Mining Kỹ thuật phát tri thức khai phá liệu Lk Lk Tập K - itemset phổ biến Minconf Minsup OLAP Độ tin cậy tối thiểu Độ hỗ trợ tối thiểu Phân tích trực tuyến MOLAP Minimum Confidence Minimum Support On Line Analytical Processing Multidimensional OLAP ROLAP pre(k, s) Record Relational OLAP pre(k, s) record Phân tích quan hệ trực tuyến Tiếp đầu dãy có độ dài k s Bản ghi Supp suppport Độ hỗ trợ TID SQL SQO Transaction Indentification Structured Query Language Sematics Query Optimization Định danh giao tác Ngôn ngữ truy vấn có cấu trúc DBSCAN Density Based Spatial Thuật toán phân lớp dựa vào vị trí Clustering of Application địa phương with Noise DENsity Based CLUstEring Thuật toán phân lớp (tổng quát) DENCLUE Tiếng Anh Phân tích đa chiều trực tuyến TC ADO DFS BFS Tính chất Activate X Data Object Depth First Search Breadth First Search Tìm kiếm theo độ sâu Tìm kiếm theo bề rộng DHP PHP I/O Direct Hashing and Pruning Perfect Hashing and Pruning Input/Output Bảng băm trực tiếp cắt tỉa Bảng băm lý tưởng cắt tỉa Vào/ra MỞ ĐẦU Trong năm gần đây, việc nắm bắt thông tin coi sở hoạt động sản xuất, kinh doanh Cá nhân tổ chức thu thập hiểu thông tin, hành động dựa thông tin kết xuất từ thông tin có đạt thành công hoạt động Chính lý đó, việc tạo thông tin, tổ chức lưu trữ khai thác ngày trở nên quan trọng gia tăng không ngừng Sự tăng trưởng vượt bậc sở liệu (CSDL) sống như: thương mại, quản lý khoa học làm nảy sinh thúc đẩy phát triển kỹ thuật thu thập, lưu trữ, phân tích khai phá liệu… không phép toán đơn giản thông thường như: phép đếm, thống kê… mà đòi hỏi cách xử lý thông minh hơn, hiệu Từ nhà quản lý có thông tin có ích để tác động lại trình sản xuất, kinh doanh mình… tri thức Các kỹ thuật cho phép ta khai thác tri thức hữu dụng từ CSDL (lớn) gọi kỹ thuật khai phá liệu (DM – Data Mining) Khai phá luật kết hợp nội dung quan trọng khai phá liệu Luận văn tìm hiểu luật kết hợp ứng dụng số thuật toán khai phá luật kết hợp CSDL lớn từ áp dụng kỹ thuật khai phá liệu vào hệ thống sở liệu hàng hóa vận chuyển công ty STC Việt Nam nhằm phát xu hướng điều khoản giao nhận vận tải(Incoterm) lựa chọn theo khu vực, quốc gia CHƢƠNG 1: NGHIÊN CỨU MỘT SỐ VẤN ĐỀ VỀ LUẬT KẾT HỢP Việc dự đoán thông tin có giá trị cao dựa số lượng liệu lớn nghiệp vụ ngày trở lên quan trọng nhiều tổ chức, doanh nghiệp Chẳng hạn, vấn đề nhà quản lí kinh doanh cần biết kiểu mẫu hành vi mua hàng khách hàng, xu hướng kinh doanh, vv… Những thông tin học từ liệu có sẵn Một vấn đề khó khăn việc khai phá liệu CSDL có số vô lớn liệu cần xử lý Các tổ chức doanh nghiệp quy mô vừa có từ hàng trăm Megabyte đến vài Gigabyte liệu thu thập Các ứng dụng khai phá liệu thường thực phân tích liệu phức tạp, nhiều thời gian toàn CSDL Vì vậy, tìm thuật toán nhanh hiệu để xử lý khối lượng liệu lớn thách thức lớn Chương trình bày sở lý thuyết luật luật kết hợp, khai phá liệu dựa vào luật kết hợp, đồng thời trình bày số thuật toán liên quan đến luật kết hợp Lý thuyết luật kết hợp Từ giới thiệu từ năm 1993, toán khai thác luật kết hợp nhận nhiều quan tâm nhiều nhà khoa học Ngày việc khai thác luật phương pháp khai thác mẫu phổ biến việc khám phá tri thức khai thác liệu (KDD: Knowledge Discovery and Data Mining) Một cách ngắn gọn, luật kết hợp biểu thức có dạng: X  Y , X Y tập trường gọi item Ý nghĩa luật kết hợp dễ nhận thấy: Cho trước sở liệu có D tập giao tác - giao tác T D tập item - X  Y diễn đạt ý nghĩa giao tác T có chứa X chắn T có chứa Y Độ tin cậy luật (rule confidence) hiểu xác suất điều khoản p(Y  T | X  T) Ý tưởng việc khai thác luật kết hợp có nguồn gốc từ việc phân tích liệu mua hàng khách nhận “Một khách hàng mua mặt hàng x1 x2 mua mặt hàng y với xác suất c%” Ứng dụng trực tiếp luật toán kinh doanh với tính dễ hiểu vốn có chúng – người chuyên gia khai thác liệu – làm cho luật kết hợp trở thành một phương pháp khai thác phổ biến Hơn nữa, luật kết hợp không bị giới hạn phân tích phụ thuộc lẫn phạm vi ứng dụng bán lẻ mà chúng áp dụng thành công nhiều toán kinh doanh Việc phát luật kết hợp mục (item) liệu “giỏ” toán đặc trưng khai phá liệu Dữ liệu giỏ liệu bao gồm mục mua khách hàng với thông tin ngày mua hàng, số lượng, giá cả, … Luật kết hợp tập mục mà thường mua với tập mục khác Hiện nay, có nhiều thuật toán dùng cho việc phát luật kết hợp Tuy nhiên, vấn đề nảy sinh số lần quét (duyệt) CSDL nhiều ảnh hưởng lớn đến hiệu tính khả thi thuật toán CSDL lớn Đối với CSDL lưu đĩa, phép duyệt CSDL gây số lần đọc đĩa lớn Chẳng hạn CSDL kích thước 1GB đòi hỏi khoảng 125000 lần đọc khối cho lần duyệt (với kích thước khối 8KB) Nếu thuật toán có 10 lần duyệt gây 1250000 lần đọc khối Giả thiết thời gian đọc trung bình 12ms trang, thời gian cần thiết để thực thao tác I/O là1250000*12ms hay sấp sỉ tiếng đồng hồ !!! Trong phần này, xem xét số định nghĩa, tính chất có liên quan đến luật luật kết hợp Đồng thời tìm hiểu ý nghĩa luật kết hợp 1.1 Luật kết hợp a) Ý nghĩa luật kết hợp: Luật kết hợp lĩnh vực quan trọng khai thác liệu Luật kết hợp giúp tìm mối liên hệ mục liệu (items) sở liệu Trong ngành giao nhận vận tải ngày xuất nhiều Công ty tham gia mua bán, giao nhận vận tải điểm cung cấp hàng hóa khác với chủng loại hàng ưu thích khác nhau, áp dụng điều khoản giao nhận hàng hóa khác theo khu vực vùng miền áp dụng cho có lợi cho người tham gia vận chuyển hàng hóa để tránh độ rủi ro định, đem lại lợi nhuận kinh tế tối đa với hình thức vận tải áp dụng theo đặc trưng địa lý vùng miền kinh tế thị trường mở cửa Do đó, tìm mối liên hệ việc tìm khách hàng tham gia trình giao nhận phù hợp với loại mặt hàng đặc thù mặt hàng theo đơn hàng Hay ngành viễn thông, loại dịch vụ cung cấp cho khách hàng ngày nhiều, tìm mối liên kết việc sử dụng loại dịch vụ để phục vụ cho việc quảng cáo, tiếp thị Ví dụ để tìm hiểu thói quen sử dụng dịch vụ viễn thông khách hàng, người ta thường đặt câu hỏi “Những dịch vụ khách hàng thường hay sử dụng lúc với đăng ký sử dụng trung tâm chăm sóc khách hàng ?” Các kết nhận dùng cho việc tiếp thị dịch vụ liệt kê dịch vụ khách hàng hay sử dụng lúc nằm gần nhau, khuyến dịch vụ kèm theo… 10 b) Định nghĩa luật kết hợp: Cho tập I = {I1, I2, ,Im} tập gồm m khoản mục (item), gọi thuộc tính (attribute) Các phần tử I phân biệt X  I gọi tập mục (itemset) Nếu lực lượng X k (tức |X| = k) X gọi k-itemset Một giao dịch (transaction) T định nghĩa tập (subset) khoản mục I (T I) Tương tự khái niệm tập hợp, giao dịch không trùng lặp, nới rộng tính chất tập hợp thuật toán sau này, người ta giả thiết khoản mục giao dịch tất tập mục (item set) khác, coi chúng xếp theo thứ tự từ điển item Gọi D CSDL n giao dịch giao dịch đánh nhãn với định danh (Unique Transasction IDentifier-TID) Nói rằng, giao dịch T  D hỗ trợ (support) cho tập X  I chứa tất item X, nghĩa X  T, số trường hợp người ta dùng ký hiệu T(X) để tập giao dịch hỗ trợ cho X Kí hiệu support(X) (hoặc supp(X), s(X)) tỷ lệ phần trăm giao dịch hỗ trợ X tổng giao dịch D, nghĩa là: supp(X) = T  D X  T  D % Ví dụ sở liệu D (dạng giao dịch) : I = {A, B, C, D, E}, T = {1, 2, 3, 4, 5, 6} Thông tin giao dịch cho bảng sau : Định danh giao dịch (TID) Tập mục (itemset) ABDE BCE ABDE ABCE ABCDE BCD Bảng 1: Ví dụ sở liệu dạng giao dịch - D Ta có: supp( {A }) = 4/6 (%)= 66.67 %; supp({ABDE}) = 3/6 =50%; supp({ABCDE}) = 1/6 = 16.67%; 11 Tập phổ biến (frequent itemset): Support tối thiểu minsup ( 0, 1] (Minimum Support) giá trị cho trước người sử dụng Nếu tập mục X  I có supp(X)  minsup ta nói X tập phổ biến-frequent itemset (hoặc large itemset) Một frequent itemset sử dụng tập đáng quan tâm thuật toán, ngược lại, tập frequent itemset tập không đáng quan tâm Trong trình bày sau này, ta sử dụng cụm từ khác “X có support tối thiểu”, hay “X support tối thiểu” để nói lên X thỏa mãn hay không thỏa mãn support(X)  minsupp Ví dụ: Với sở liệu D cho bảng 1, giá trị ngưỡng minsupp = 50% liệt kê tất tập phổ biến (frequent-itemset) sau : Độ hỗ trợ (supp) tƣơng ứng Các tập mục phổ biến B 100% (6/6) E, BE 83% (5/6) A, C, D, AB, AE, BC, BD, ABE 67% (4/6) AD, CE, DE, ABD, ADE, BCE, BDE 50% (3/6) Bảng 2: Các tập phổ biến sở liệu bảng với độ hỗ trợ tối thiểu 50% Một số tính chất (TC) liên quan đến frequent itemset: TC support cho tất subset: A B, A, B itemset supp(A)  supp(B) tất giao dịch D support B support A TC Nếu item A support tối thiểu D nghĩa support(A) < minsupp superset B A frequent support(B)  support(A) < minsup TC Nếu item B frequent D, nghĩa support(B)  minsup subset A B frequent D support(A)  support(B) > minsup Định nghĩa luật kết hợp: Một luật kết hợp có dạng R: X  Y, X, Y itemset, X, Y  I X Y =  X gọi tiên đề Y gọi hệ luật Luật X  Y tồn độ hỗ trợ support - supp Supp(X  Y) định nghĩa khả mà tập giao dịch hỗ trợ cho thuộc tính có X lẫn Y, nghĩa là: Support(XY) = support(XY) 12 Ví dụ: Với bảng số liệu điều khoản giao nhận vận tải áp dụng trình giao nhận năm 2010 ta phân chia sau: Thuộc tính Tổng số lượng hợp đồng gia tăng thuộc tính có nhiều giá trị, nên ta phân chia thành miền, khoảng giá trị từ 25, từ 26 50, >=51, Khí đó, tập liệu có thuộc tính (Tổng gia tăng 25, Tổng gia tăng 26 50, …) tương ứng với thuộc tính Tổng gia tăng Các thuộc tính khác phân chia tương tự khoảng giá trị khác tùy vào số lượng thuộc tính khoảng giá trị người phân chia qui định Như vậy, với cách ánh xạ trên, từ CSDL gốc ban đầu, ta có CSDL dạng boolean sau đây: Số lượng toàn hợp đồng STT Quốc gia Tổng số Gia tăng(0 25) Gia tăng(26 50) Gia tăng(51 75) tăng(75 ) The Netherlands 156 0 Belgium 150 0 France 145 0 Germany 15 0 U.S.A 60 0 South Africa 90 0 Brazil 211 0 China 171 0 Australia 202 0 Gia … Bảng 4: Dữ liệu chuyển đổi từ dạng số sang dạng Boolean Việc ánh xạ xảy vấn đề sau: “minsup”: Nếu số lượng khoảng cho thuộc tính số lượng (hoặc số giá trị riêng cho thuộc tính phân loại) lớn support cho khoảng nhỏ Do đó, việc chia thuộc tính nhiều khoảng làm cho luật chứa không đạt support tối thiểu “minconf”: Một số thông tin bị việc chia khoảng Một số luật có minconf item chúng có giá trị đơn khoảng nhỏ, thông tin bị Sự mát thông tin tăng kích thước khoảng chia lớn Như vậy, kích thước khoảng lớn (số khoảng nhỏ) có nguy số luật confidence tối thiểu, kích thước khoảng nhỏ (số khoảng lớn) số luật lại có nguy support tối thiểu Để giải hai vấn đề trên, người ta ý đến tất vùng liên tục thuộc tính số lượng khoảng phân đoạn Vấn đề “minsup”sẽ khắc phục cách liên hợp khoảng gần kề giá trị gần kề Vấn đề “minconf” khắc phục cách tăng số lượng khoảng mà không ảnh hưởng đến vấn đề “minsup” Người ta thực phương pháp đơn giản để thực việc chuyển thuộc tính số lượng phân loại dạng với Với thuộc tính phân loại, giá trị ánh xạ vào tập số nguyên liên tiếp Với thuộc tính số lượng không cần khoảng chia (tức có giá trị) giá trị ánh xạ vào tập số nguyên liên thứ tự giá trị Còn thuộc tính số lượng phân khoảng, khoảng ánh xạ vào tập số nguyên liên tiếp, thứ tự khoảng bảo tồn Các ánh xạ làm cho ghi CSDL trở thành tập cặp (Attribute, Value) Bài toán khai phá luật kết hợp lúc thực qua bước sau: Xác định số lượng phần chia cho thuộc tính số lượng Với thuộc tính phân loại, ánh xạ thuộc tính vào tập số nguyên liên tiếp Với thuộc tính số lượng không cần phân khoảng, ánh xạ giá trị chúng vào tập số nguyên liên thứ tự giá trị thuộc tính Với thuộc tính số lượng phân khoảng, ánh xạ khoảng chia vào tập số nguyên liên tiếp bảo tồn thứ tự khoảng Bằng cách này, thuật toán xem giá trị vùng giá trị thuộc tính định lượng Tìm support cho giá trị thuộc tính phân loại lẫn thuộc tính số lượng, tìm tất itemset mà support lớn support tối thiểu Sử dụng tập tìm để sinh luật kết hợp Xác định luật đáng quan tâm kết xuất chúng Như vậy, xét CSDL thực tế gia tăng các thông số hợp đồng mua bán vận chuyển hàng hóa điều khoản áp dụng theo vùng miền địa lý, ta thực phân chia thuộc tính bảng thành khoảng ký hiệu sau: 64 Số lượng hợp đồng: Cột số Tổng số: Kí hiệu: Cột Kí hiệu: [0, 100] A Gia tăng: [101, 200] B C [0, 25] a [201, …] [26, 50] b [51, …] c FAS: Cột Tổng số: Kí hiệu: Cột [0,15] [16, 30] D Gia tăng: E [31, ] F [0, 3] [4, 7] [8, .] d e f Tổng số: [0,2 0] [21, 40] [41, ] G H I Kí hiệu FOB: Cột Kí hiệu: Cột Kí hiệu: Gia tăng: [0, 10] [11, 20] g h [21, ] i CFR: Cột Kí hiệu: Tổng số: [0,10] J Cột 10 Gia tăng: Kí hiệu: [11,20] K L [0, 2] [3, 5] j [21, ] [6, ] k l CIF: Cột 11 Tổng số: [0,30] Kí hiệu: M Cột 12 Gia tăng: Kí hiệu: [31,60] N [0, 10] [61, ] O [11, 20] m n [21, ] o Các điều khoản áp dụng khác: Cột 13 Kí hiệu: Cột 14 Kí hiệu: Tổng số: [0,10] [11, 20] P Q Gia tăng: [0, 5] p [21, ] R [6, 10] q [11, ] r 65 Từ việc phân tích trên, ta có sơ đồ quan hệ để lưu trữ liệu toán sau: Hình 7: Sơ đồ quan hệ sử dụng chương trình 66 Chương trình chạy phần liệu Công ty STC Viêt nam Kết nhận (kết tùy thuộc vào minsupp minconf, kết nhận với minsupp =0.4, minconf =0.8 ): Tập phổ biến Supp CFR_Giatang[0 2] 0.6668 CFR_Giatang[6 ] 0.5556 Tongsohopdong_Giatang[26 50] 0.5556 FAS_Giatang[0 3] 0.5556 CIF_Giatang[0 10] 0.5556 Dieukhoankhac_Giatang[0 10] 0.5556 Tongsohopdong_Tongso[101 200] 0.4444 FAS_Tongso[31 ] 0.4444 CFR_Tongso[1 30] 0.4444 FOB_Giatang[0 10] 0.4444 CFR_Giatang[0 2] and Tongsohopdong_Giatang[26 50] 0.4444 CFR_Giatang[0 2] and FAS_Giatang[0 3] 0.4444 CFR_Giatang[0 2] and CIF_Giatang[0 10] 0.4444 CFR_Giatang[0 2] and Dieukhoankhac_Giatang[0 10] 0.4444 CFR_Giatang[0 2] and Tongsohopdong_Tongso[101 200] 0.4444 CFR_Giatang[0 2] and CFR_Tongso[0 10] 0.4444 CFR_Giatang[6 ] and Tongsohopdong_Giatang[26 50] 0.4444 Tongsohopdong_Giatang[26 50] and Tongsohopdong_Tongso[101 200] 0.4444 FAS_Giatang[0 3] and CFR_Tongso[0 10] 0.4444 CIF_Giatang[0 10] and CIF_Tongso[0 30] 0.4444 CFR_Giatang[0 2] and Tongsohopdong_Giatang[26 50] and Tongsohopdong_Tongso[101 200] 0.4444 67 Luật kết hợp Supp Conf Tongsohopdong_Tongso[101 200] -> CFR_Giatang[0 2] 0.4444 CFR_Tongso[0 10] -> CFR_Giatang[0 2] 0.4444 Tongsohopdong_Tongso[101 200] -> Tongsohopdong_Giatang[26 50] 0.4444 CFR_Tongso[0 10]->FAS_Giatang[0 3] 0.4444 CIF_Tongso[0 30]->CIF_Giatang[0 10] 0.4444 CIF_Tongso[0 30] and Tongsohopdong_Giatang[26 50]-> Tongsohopdong_Tongso[101 200] 0.4444 Tongsohopdong_Tongso[101 200] -> CFR_Giatang[0 2] and Tongsohopdong_Giatang[26 50] 0.4444 Tongsohopdong_Tongso[101 200] and Tongsohopdong_Giatang[26 50] -> CFR_Giatang[0 2] 0.4444 Tongsohopdong_Giatang[26 50]->CFR_Giatang[0 2] 0.4444 0.8 FAS_Giatang[0 3]->CFR_Giatang[0 2] 0.4444 0.8 CIF_Giatang[0 10]->CFR_Giatang[0 2] 0.4444 0.8 Dieukhoankhac_Giatang[0 10]->CFR_Giatang[0 2] 0.4444 0.8 CFR_Giatang[6…]->Tongsohopdong_Giatang[26 50] 0.4444 0.8 Tongsohopdong_Giatang[26 50]->CFR_Giatang[6…] 0.4444 0.8 Tongsohopdong_Giatang[26 50]->Tongsohopdong_Soluong[101 200] 0.4444 0.8 FAS_Giatang[0 3]->CFR_Tongso[0 10] 0.4444 0.8 CIF_Giatang[0 10]->CIF_Tongso[0 30] 0.4444 0.8 Dựa vào bảng kết ta nhận thấy rằng: - - - Nhìn chung hầu hết quốc gia số lượng hợp đồng ký đồng năm khoảng từ 100 đến 200 hợp đồng số lượng gia tăng so với năm trước không nhiều khoảng từ 25 đến 50 hợp đồng Điều khoản áp dụng giao nhận vận CFR gia tăng không đáng kể hầu hết quốc gia chủ yếu quốc gia mạnh hàng hải kinh doanh dịch vụ giao nhận vận tải Các quốc gia có xu hương sử dụng điều khoản CIF nhiều số lượng hợp đồng sử dụng CIF không nhiều lại tăng đáng kể so với năm 68 trước cụ thể tổng số hợp đồng sử dụng điều khoản CIF 30 hợp đồng mức tăng so với năm trước khoảng gần 30% số hợp đồng - Một số quốc gia có xu hướng sử dụng điều khoản CIF việc ký kết hợp đồng tăng lên Brazil, Belgium, Nam phi 1.3 Minh họa chƣơng trình Hình 8: Giao diện chương trình- Quá trình tạo luật kết hợp theo thuật toán Apriori Chương trình tác giả phát triển dựa ngôn ngữ lập trình VB.Net sử dụng hệ quản trị sở liệu SQL Server Có thể chạy hầu hết cấu hình máy tính không thấp dòng CPU từ Pentum III trở lên 1.4 Phân tích, đánh giá Chương trình thực tìm tập phổ biến luật kết hợp thông qua hai thuật toán Apriori Apriori_Tid Ta có số nhận xét sau: Để xác định độ Support tập ứng viên, thuật toán Apriori luôn phải quét lại toàn giao tác CSDL Do tiêu tốn nhiều thời gian số k-items tăng (số lần xét duyệt giao tác tăng) Trong trình xét duyệt khởi tạo thuật toán Apriori_Tid, kích thước C‟k lớn hầu hết tương đương với kích thước CSDL gốc Do đó, thời gian tiêu tốn với thuật toán Apriori, thuật toán Apriori-Tid phải gánh chịu thêm chi phí phát sinh C‟k vượt nhớ mà phải sử dụng kèm nhớ Điều đáng quan tâm thuật toán CSDL D không dùng để đếm support với giai đoạn k>1 mà tập C‟k Số lượng điểm vào C‟k có 69 thể nhỏ số giao dịch CSDL D, đặc biệt k lớn Đây ưu điểm thuật toán Apriori_Tid Nếu khối lượng ghi sở liệu lớn thời gian xử lý việc thống kê điều khoản áp dụng vào hợp đồng giao nhận vận tải theo quốc gia lớn Tuy nhiện, số lượng quốc gia có hợp đồng giao nhận vận tải với Công ty STC Việt Nam không nhiều thời gian xử lý để tìm xu hướng áp dụng Incoterm không nhiều Hƣớng phát triển Tiếp tục hoàn thiện mở rộng chương trình luận văn để áp dụng vào thực tế cách triệt để Chương trình thực theo bước trình khai phá liệu như: 1-chọn lọc liệu (chọn lọc, trích rút liệu cần thiết từ CSDL), 2-làm liệu (chống trùng lặp giới hạn vùng giá trị), 3-làm giàu liệu, 4-khai thác tri thức từ liệu (tìm tác vụ phát luật kết hợp, trình chiếu báo cáo), 5-chọn liệu có ích áp dụng vào hoạt động thực tế Cho đến hầu hết thuật toán xác định tập phổ biến xây dựng dựa thừa nhận độ hỗ trợ cực tiểu (minsup) thống nhất, tức tập mục chấp nhận có độ hỗ trợ lớn độ hỗ trợ tối thiểu Điều không thực tế có nhiều ngoại lệ khác chấp nhận thường có độ hỗ trợ thấp nhiều so với khuynh hướng chung (các tiêu chí phân loại, ưu tiên khác nhau) Mặt khác, xem xét thuộc tính số lượng rời rạc hoá phân khoảng thuờng tạo số khoảng lớn Vì vậy, hướng nghiên cứu phát luật kết hợp với độ hỗ trợ không giống luật kết hợp mờ (điều nhiều người quan tâm) Số lượng lần duyệt sở liệu nhiều, thời gian xử lý lớn Do vậy, cần cải tiến sử dụng thuật toán CHARM để tìm tập phổ biến đóng vận dụng “Luật kết hợp thiết yếu nhất” để sinh luật từ tập phổ biến đóng độ hỗ trợ, độ tin cậy cho trước Nghiên cứu sâu thuật toán khai phá liệu, áp dụng để khai phá hệ sở liệu giao nhận vận tải cách triệt để xác giúp ích công ty dịch vụ giao nhận vận tải khai thác đưa điều khoản áp dụng hiệu việc ký kết hợp đồng tránh thiệt hại rủi ro cách tốt đem nguồn lợi kinh tế cho công ty 70 KẾT LUẬN Luận văn đề cập đến nội dung kho liệu ứng dụng lưu trữ khai phá tri thức kho liệu nhằm hỗ trợ định Về mặt lý thuyết, khai phá tri thức bao gồm bước: Hình thành, xác định định nghĩa toán; thu thập tiền xử lý liệu; khai phá liệu, rút tri thức; sử dụng tri thức phát Phương pháp khai phá liệu là: phân lớp, hồi quy, định, suy diễn, quy nạp, K- láng giềng gần, … phương pháp áp dụng liệu thông thường tập mờ Về thuật toán khai phá tri thức, luận văn trình bày số thuật toán minh hoạ số thuật toán kinh điển phát tập báo phổ biến khai phá luật kết hợp, như: Apriori, AprioriTid, phân hoạch, … Về mặt cài đặt thử nghiệm, luận văn giới thiệu kỹ thuật khai phá liệu theo thuật toán Apriori, Apriori_Tid áp dụng vào toán phát xu hướng điều khoản vận tải Incoterm lựa chọn theo khu vực, quốc gia Trong trình thực luận văn, cố gắng tập trung tìm hiểu tham khảo tài liệu liên quan Tuy nhiên, với thời gian trình độ có hạn nên không tránh khỏi hạn chế thiếu sót Tôi mong nhận xét góp ý thầy cô giáo bạn bè, đồng nghiệp người quan tâm để hoàn thiện kết nghiên cứu 71 PHỤ LỤC Các mẫu văn hợp đồng mua bán giao nhận vận tải : CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc ========================== HỢP ĐỒNG GIAO NHẬN VẬN CHUYỂN HÀNG HOÁ (Số : … DV/ Hanel) - Căn Luật dân luật thương mại nước công hòa xã hội chủ nghĩa Việt Nam có hiệu lực thi hành từ ngày 01 tháng 01 năm 2006 - Căn pháp lệnh hợp đồng kinh tế - Căn nhu cầu khả bên Hôm nay, ngày……tháng…… năm 2010 công ty cổ phần Hanel Mirolin, gồm có: I Công ty cổ phần Hanel Mirolin Địa : Số 551 , Nguyễn Văn Cừ, Long Biên, Hà Nội Mã số thuế Số Tài Khoản Chương Dương : 010 176 0550 : 0021 0010 54979 , Ngân hàng Ngoại thương Việt nam, chi nhánh Điện thoại : 04- 3783 3165 Đại diện Ông : Phạm Quang Anh - Fax: 04- 3783 3157 - Chức vụ : Giám đốc ( Sau gọi tắt bên A ) II- Công ty TNHH vận tải DV-TM Đức Việt Địa Mã số thuế : 87 Lam Sơn, Phường 2, Quận Tân Bình, TP HCM : 0304420551 Số tài khoản : (VND) 007 100 001 775 (USD) 007 137 009 827 , Ngân hàng Ngoại thương Việt nam, chi nhánh Hồ Chí Minh Điện thoại : 08 - 3848 7275 Chi nhánh Hà Nội : 406, CT3 Vimeco Tower, Trung Hòa, Cầu Giáy, Hà nội Điện thoại : 04- 2225 0325 - Đại diện Ông : Ngô Kiêm Hiếu – Chức vụ: Giám đốc 72 Fax: 08 – 3848 7276 Fax: 04- 2225 0326 ( Sau gọi tắt bên B ) Đã thoả thuận ký kết hợp đồng uỷ thác giao nhận vận tải với điều khoản điều khoản sau: ĐIỀU I - VẬN CHUYỂN : Bên A đồng ý để bên B vận chuyển hàng hoá nhập với chi tiết sau : Tên Hàng : Sen vòi phụ kiện bồn tắm Số lượng trọng lượng : cont 20’DC Địa điểm gửi hàng : Cảng Pusan, Hàn Quốc Địa điểm trả hàng : Cảng Hải Phòng , Việt nam Điều khoản giao hàng Tổng giá cước cho công : FOB Pusan : USD 520 Bằng chữ : Năm trăm hai mươi đô la Mỹ (Giá trên: bao gồm cước vận tải quốc tế chi phí điện giải phóng hàng hãng tàu chưa bao gồm phí THC , khách hàng trực tiếp toán với hãng tàu) ĐIỀU II - THANH TOÁN: Thời hạn hình thức toán : Bên A toán toàn cước vận chuyển phí dịch vụ cho bên B hình thức chuyển khoản ngân hàng bên B giao chứng từ nhận hàng Đồng tiền toán : Bên A toán cho bên B đồng đô la Mỹ , trường hợp toán VNĐ tỉ giá quy đổi sở tỉ giá đô la Mỹ bán Ngân hàng ngoại thương Việt nam thời điểm phát hành hoá đơn ĐIỀU III - TRÁCH NHIỆM CỦA MỖI BÊN : Trách nhiệm bên A : a) Bên A phải chịu trách nhiệm tính hợp pháp hàng hoá vận chuyển, b) Bên A phải thông báo trước cho bên B kế hoạch nhập để bên B thu xếp vấn đề đặt chỗ, đảm bảo tiến độ vận chuyển c) Bên A phải toán cước vận chuyển chi phí dịch vụ cho bên B theo cam kết điều II Trách nhiệm bên B : a) Thường xuyên cung cấp đầy đủ xác lịch tàu cho bên A b) Đảm bảo lịch tàu ngày c) Thông báo kịp thời cho người nhận bên A hàng tới cảng đến 73 ĐIỀU IV - ĐIỀU KHOẢN CUỐI CÙNG: Hai bên cam kết thực nghiêm chỉnh điều khoản nêu hợp đồng Trong trình thực có điều vướng mắc hai bên gặp thương lượng giải tinh thần đảm bảo lợi ích chung Nếu tranh chấp phát sinh không giải thương lượng hoà giải đưa Toà Kinh tế thành phố Hà Nội để giải Hợp đồng gồm 03 trang, làm thành hai có nội dung giá trị pháp lý , bên giữ ĐẠI DIỆN BÊN A ĐẠI DIỆN BÊN B 74 75 PURCHASE ORDER P.O.No: 01-10/ Asi- Rainbow To: Guangzhou Rainbow Electronics Co., Ltd Address: Floor 5, No.1112, Guangzhou Main Road Guangzhou, P.R CHINA Please confirm with your Order Acknowledgment within three (3) days upon receipt of copy of this purchase order Tel:+86 - 20 - 87631360 Fax:+86 - 20 - 87749579 Attn: Ms Fangyun Lei Please refer to all future correspondences: PO.No 01-10/ASI/ RAINBOW PO date : 8th July, 2010 Responsible : Nguyen Thi Chinh Phuong; Tel: (844) 62691886 Ext 18; Fax: (844) 62691925 Term of payment : by T/T Term of delivery : FOB Guangzhou, Incoterms 2000 Please delivery to : Advanced Systems for Delivery time: upon order acknowledgment Industry Co Ltd (Asi) # 313, F4 Building, Yenhoa Urban Zone, Yenhoa Ward, Cau Giay District, Hanoi, Vietnam Please submit the English original documents & invoice to : Nguyen Thi Chinh Phuong 76 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Một số vấn đề chọn lọc công nghệ thông tin - Thái Nguyên, 29 – 31 tháng năm 2003, Nhà xuất Khoa học Kỹ thuật, 2005 [2] Nguyễn Công Cường, Nguyễn Doãn Phước, Hệ mờ, mạng nơron ứng dụng - NXB Khoa học Kỹ thuật, 2001 [3] Hoàng Kiếm - Đỗ Phúc, Giáo trình khai phá liệu - Trung tâm nghiên cứu phát triển công nghệ thông tin, Đại học Quốc gia thành phố Hồ Chí Minh, 2005 [4] Nguyễn Lương Thục, Một số phương pháp khai phá luật kết hợp cài đặt thử nghiệm - Luận văn thạc sỹ ngành CNTT, Khoa Tin học, Đại học Sư phạm Huế, 2002 [5] Incorterm 2000, Incoterm 2010 Tiếng Anh [6] John Wiley & Sons (2003) - Data Mining-Concepts Models Methods And Algorithms, Copyright © 2003 The Institute of Electrical and Electronics Engineers, Inc [7] Bao Ho Tu (1998), Introduction to Knowledge Discovery and Data mining, Institute of Information Technology National Center for Natural Science and Technology [8] Jean – Marc Adamo, Data Mining for Association Rules and Sequential Patterns, Sequential and Parallel Algorithms, 2001Springer – Verlag New York, Inc [9] Mohammet J Zaki and Chin Jui Hasiao CHAM - An efficient Algorithm for Close Itemset Mining 77 [...]... association rule): là hướng nghiên cứu đ u tiên của luật kết hợp Hầu hết các nghiên cứu ở thời kỳ đ u về luật kết hợp đ u liên quan đ n luật kết hợp nhị phân Trong dạng luật kết hợp này, các mục (thuộc tính) chỉ đ ợc quan tâm là có hay không xu t hiện trong giao tác của 14 cơ sở dữ liệu chứ không quan tâm về “mức đ “ xu t hiện Có nghĩa là việc gọi 10 cuộc điện thoại và 1 cuộc đ ợc xem là giống nhau... khác nhau đ đ xu t đ có thể không phụ thuộc vào phần cứng Bên cạnh những nghiên cứu về những biến thể của luật kết hợp, các nhà nghiên cứu còn chú trọng đ xu t những thuật toán nhằm tăng tốc quá trình tìm kiếm tập phổ biến từ cơ sở dữ liệu Ngoài ra, còn có một số loại luật kết hợp khác như đ nh lượng, luật kết hợp hiếm … hướng nghiên cứu khác về khai thác luật kết hợp như: Khai thác luật kết hợp trực... thì người ta gọi nó là khai phá luật kết hợp đ nh lượng (Mining Quantitative Association Rules)… Ta sẽ xem xét cụ thể các nhóm đ Lĩnh vực khai thác luật kết hợp cho đ n nay đ đ ợc nghiên cứu và phát triển theo nhiều hướng khác nhau Có những đ xu t nhằm cải tiến tốc đ thuật toán, có những đ xu t nhằm tìm kiếm luật có ý nghĩa hơn, v v và có một số hướng chính sau đ y Luật kết hợp nhị phân (binary... phải đ ợc đ m bởi mỗi giai đoạn trên CSDL (tức là thực hiện một phép duyệt trên từng giao dịch của cơ sở dữ liệu đ tính giao dịch support cho mỗi candidate itemset) Công việc khai phá các Frequent Itemset đ ợc thực hiện lặp đi lặp lại qua một giai đoạn (pass) nhằm mục đ ch nhận đ ợc kết quả cuối cùng là mỗi Frequen Itemset biểu thị tốt nhất sự tương quan giữa các item trong cơ sở dữ liệu giao dịch D Khai. .. association rule): Các thuộc tính của các cơ sở dữ liệu thực tế có kiểu rất đa dạng (nhị phân – binary, số – quantitative, hạn mục – categorial, v v) Đ phát hiện luật kết hợp với các thuộc tính này, các nhà nghiên cứu đ đ xu t một số phương pháp rời rạc hoá nhằm chuyển dạng luật này về dạng nhị phân đ có thể áp dụng các thuật toán đ có Một ví dụ về dạng luật này “phương thức gọi = ‟Tự đ ng‟ AND giờ... là hashtree Các item trong mỗi giao dịch đ ợc dùng đ đi lần xu ng trong cấu trúc hashtree Bất cứ khi nào tới đ ợc nút lá của nó, nghĩa là ta đ tìm đ ợc một tập các ứng viên có cùng tiền tố đ ợc chứa trong giao dịch đ Sau đ các ứng viên này sẽ đ ợc thực hiện tìm kiếm trong giao dịch mà nó đ đ ợc mã hóa trước thành ma trận bit Trong trường hợp thành công biến đ m các ứng viên trong cây đ ợc tăng lên... Bài toán khai phá luật kết hợp: Có thể diễn đ t một bài toán khai phá luật kết hợp như sau[2][3][8]: Cho một tập các item I, một cơ sở dữ liệu giao dịch D, ngưỡng support tối thiểu minsup, ngưỡng confidence tối thiểu minconf, tìm tất cả các luật kết hợp X  Y trên D sao cho: support(X  Y)  minsup và confidence(X  Y)  minconf 1.3 Phân loại luật kết hợp Tuỳ theo ngữ cảnh các thuộc tính dữ liệu cũng... dàn, đ ợc gọi là một itemset ứng viên Một hướng tiếp cận phổ biến đ xác đ nh giá trị hỗ trợ của một itemset là đ m các thể hiện của nó trong cơ sở dữ liệu Với mục đ ch đ , một biến đ m (counter) đ ợc tạo ra và khởi tạo bằng 0 cho mỗi itemset đang duyệt Sau đ , quét qua tất cả các giao tác và khi tìm đ ợc một ứng viên là tập con của một giao tác thì tăng biến đ m của nó lên Thông thường, tập con tạo ra. .. tính đ phổ biến của chúng Cách tối ưu có thể thực hiện đ ợc vì các giải thuật tìm kiếm ưu tiên theo chiều rộng (BFS) bảo đ m rằng các giá trị hỗ trợ của các tập của một ứng viên đ u đ ợc biết trước Giải thuật Apriori đ m tất cả các ứng viên có k phần tử trong một lần đ c cơ sở dữ liệu Phần cốt lõi của bài toán là xác đ nh các ứng viên trong mỗi giao tác Đ thực hiện đ ợc mục đ ch này phải dựa vào một... nghĩa) Khai thác luật kết hợp song song (parallel mining of association rules): Bên cạnh khai thác luật kết hợp tuần tự, các nhà làm tin học cũng tập trung vào nghiên cứu các thuật giải song song cho quá trình phát hiện luật kết hợp Nhu cầu song song hoá và xử lý phân tán là cần thiết bởi kích thước dữ liệu ngày càng lớn hơn nên đ i hỏi tốc đ xử lý cũng như dung lượng bộ nhớ của hệ thống phải đ ợc đ m .. .Đ I HỌC QUỐC GIA HÀ NỘI TRƯỜNG Đ I HỌC CÔNG NGHỆ PHÙNG VĂN VIỆT NGHIÊN CỨU LUẬT KẾT HỢP VÀ THỬ NGHIỆM KHAI PHÁ CƠ SỞ DỮ LIỆU HỢP Đ NG GIAO NHẬN VẬN TẢI TẠI CÔNG TY STC VIỆT NAM NHẰM PHÁT HIỆN... luật kết hợp ứng dụng số thuật toán khai phá luật kết hợp CSDL lớn từ áp dụng kỹ thuật khai phá liệu vào hệ thống sở liệu hàng hóa vận chuyển công ty STC Việt Nam nhằm phát xu hướng điều khoản giao. .. Incoterm, ví dụ tranh chấp 51 Tập đoàn STC công ty STC Việt Nam 54 CHƢƠNG 3: ỨNG DỤNG, THỬ NGHIỆM KHAI PHÁ DỮ LIỆU TÍCH HỢP HỆ THỐNG CƠ SỞ DỮ LIỆU HỢP Đ NG GIAO NHẬN VẬN TẢI 55 Bài

Ngày đăng: 19/12/2015, 02:55

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • MỞ ĐẦU

  • CHƯƠNG 1: NGHIÊN CỨU MỘT SỐ VẤN ĐỀ VỀ LUẬT KẾT HỢP

  • 1. Lý thuyết về luật kết hợp

  • 1.1. Luật kết hợp

  • 1.2. Một số tính chất của luật kết hợp [6]

  • 1.3. Phân loại luật kết hợp

  • 1.4. Đặc tả bài toán khai phá dữ liệu

  • 2. Các đặc trưng của luật kết hợp

  • 2.1. Không gian tìm kiếm của luật

  • 2.2. Độ hỗ trợ của luật

  • 3. Một số giải thuật cơ bản khai phá các tập phổ biến

  • 3.1. Giải thuật BFS (BFS – breadth first search)

  • 3.1.1. Mô phỏng giải thuật Apriori:

  • 3.1.2. Một số biến thể của giải thuật Apriori

  • 3.1.3. Cải tiến thuật toán Apriori:

  • 3.2. Giải thuật DFS (Depth First Search)

  • 3.3. Giải thuật DHP (Direct Hashing and Pruning)

  • 3.4. Giải thuật PHP (Perfect Hashing and Pruning)

  • 4. Phát sinh luật từ các tập phổ biến

Tài liệu cùng người dùng

Tài liệu liên quan