Ứng Dụng Công Nghệ Tri Thức Cây Quyết Định Vào Thƣơng Mại Điện Tử

32 268 0
Ứng Dụng Công Nghệ Tri Thức Cây Quyết Định Vào Thƣơng Mại Điện Tử

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN -  - CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG ĐỀ TÀI: Ứng Dụng Công Nghệ Tri Thức Cây Quyết Định Vào Thƣơng Mại Điện Tử GVHD : GS-TSKH Hoàng Kiếm Thực : Vƣu Văn Tịng – CH1101146 Ngơ Thanh Tuấn – CH1101054 Thành phố Hồ Chí Minh - Tháng 06 Năm 2012 Ứng dụng công nghệ tri thức – định vào thương mại điện tử LỜI MỞ ĐẦU Trong sống ngày nay, internet đóng vai trị vơ quan trọng Nhờ internet ngƣời tiếp cận thông tin dễ dàng Internet mang đến cho ngƣời kênh giao tiếp thông suốt, đơn giản mà hiệu Chúng ta nhà kết bạn với ngƣời mà có lẽ chẳng ta gặp ngồi đời, hay đặt mua hàng u thích cần ngồi chỗ cú nhấn chuột Từ dẫn đến đời loại hình kinh doanh – kinh doanh qua mạng hay gọi thƣơng mại điện tử Tuy nhiêntrong thực tế, với lƣợng thông tin lớn nhƣ vậy, việc tiếp nhận ngƣời gặp khơng khó khăn Đúng nhƣ John Naisbitt nói: “chúng ta chìm ngập thơng tin nhƣng lại khao khát tri thức” Vì vậy, nhiệm vụ – ngƣời làm tin học – nên rút trích tri thức từ khối thông tin đồ sộ internet (gọi tắt data minning) Để thực data minning, có nhiều phƣơng pháp, nhiều giải thuật đƣợc đƣa Tuy nhiên, thu hoạch này, chúng em xin giới thiệu định ứng dụng định lĩnh vực thƣơng mại điện tử Chúng em xin gửi lời cám ơn đến thầy Hoàng Kiếm, hƣớng dẫn đƣa chúng em vào lĩnh vực công nghệ tri thức.Chúng em xin gửi lời cảm ơn đến phòng đào tạo sau đại học trƣờng đại học Công Nghệ Thông Tin đƣa môn học thú vị vào chƣơng trình đào tạo.Giúp chúng em có nhìn khác, tiếp cận khoa học vào lĩnh vực tin học ứng dụng vào sống hàng ngày Công Nghệ Tri Thức Và Ứng Dụng Trang Ứng dụng công nghệ tri thức – định vào thương mại điện tử NHẬN XÉT CỦA GIẢNG VIÊN HƢỚNG DẪN Công Nghệ Tri Thức Và Ứng Dụng Trang Ứng dụng công nghệ tri thức – định vào thương mại điện tử NỘI DUNG TỔNG QUAN VỀ CÂY QUYẾT ĐỊNH CÁC THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH 2.1 Phƣơng pháp Hunt: 2.2 Thuật toán ID3: 2.2.1 Giới thiệu: 2.2.2 Hàm entropy: 2.2.3 Độ đo (information gain) 2.2.4 Thuật toán 2.2.5 Thuận lợi hạn chế ID3: 10 2.2.6 Ví dụ 11 2.3 Thuật toán C4.5 15 2.3.1 Giới thiệu: 15 2.3.2 Gain entropy 15 2.3.3 Thuật toán 16 2.3.4 Các điểm thuận lợi C4.5 so với ID3 16 2.4 Thuật toán CART 16 2.4.1 Giới thiệu 16 2.4.2 Thuật toán 17 2.4.3 Chỉ số Gini: 17 2.4.4 Chỉ số twoing: 18 2.4.5 Hạn chế CART 19 ỨNG DỤNG CÂY QUYẾT ĐỊNH VÀO THƢƠNG MẠI ĐIỆN TỬ 20 3.1 Sơ lƣợc thƣơng mại điện tử 20 3.2 Đặt vấn đề 20 Công Nghệ Tri Thức Và Ứng Dụng Trang Ứng dụng công nghệ tri thức – định vào thương mại điện tử 3.3 Giải vấn đề 21 3.4 Kết 28 KẾT LUẬN 29 4.1 Kết đạt đƣợc 29 4.2 Hạn chế 29 4.3 Hƣớng phát triển 29 TÀI LIỆU THAM KHẢO 31 Công Nghệ Tri Thức Và Ứng Dụng Trang Ứng dụng công nghệ tri thức – định vào thương mại điện tử DANH SÁCH BẢNG Bảng 1: Thống kê thi đấu quần vợt 11 Bảng 2: Thuộc tính quang cảnh giá trị nắng 13 Bảng 3: thuộc tính quang cảnh với giá trị mưa 14 Bảng 4: Bảng thông tin khách hàng 22 Bảng 5: Bảng thông tin khách hàng chuẩn hóa 23 DANH SÁCH HÌNH Hình 1: Phân nhánh theo quang cảnh 13 Hình 2: Phân nhánh theo độ ẩm 14 Hình 3: Phân nhánh theo thuộc tính gió to 15 Hình 4: Dữ liệu đầu vào biểu diễn Mysql 23 Hình 5: Bảng định Mysql 27 Hình 6: Các luật tìm thấy 28 Công Nghệ Tri Thức Và Ứng Dụng Trang Ứng dụng công nghệ tri thức – định vào thương mại điện tử TỔNG QUAN VỀ CÂY QUYẾT ĐỊNH Cây định phƣơng pháp hỗ trợ định, chọn lựa phù hợp đặc biệt định liên quan tới việc địi hỏichi phí rủi ro cao.Cây định dùng đồ thị để tiến hành so sánh lựa chọntiềm gán giá trị cho lựa chọn cách kết hợp yếu tố khơng chắn, chi phí vào nơi mà giá trị chắn, rõ ràng Trong lĩnh vực máy học, định kiểu mô hình dự báo nghĩa ánh xạ từ quan sát vật/hiện tƣợng tới kết luận giá trị mục tiêu vật/hiện tƣợng Mỗi node tƣơng ứng với biến; đƣờng nối với nút thể giá trị cụ thể cho biến đó.Mỗi nút đại diện cho giá trị dự đoán biến mục tiêu, cho trƣớc giá trị biến đƣợc biểu diễn đƣờng từ nút gốc tới nút Học định phƣơng pháp thơng dụng khai phá liệu.Khi đó, định mơ tả cấu trúc cây, đó, đại diện cho phân loại cành đại diện cho kết hợp thuộc tính dẫn tới phân loại Cây định có hai dạng phổ biến là: hồi quy, phân loại Một số tiện lợi mà định mang lại sử dụng:  Dễ hiểu: dùng đồ thị để diễn tả lựa chọn, kết xảy ra, hội Dùng biểu đồ giúp cho việc dễ dàng hiểu đƣợc chuỗi định điều kiện phụ thuộc để đƣa đến kết cuối  Hiệu quả: định diễn đạt rõ ràng lựa chọn phức tạp Thật vậy, dễ dàng bổ sung định có thơng tin Tạo định so sánh thay Công Nghệ Tri Thức Và Ứng Dụng Trang Ứng dụng công nghệ tri thức – định vào thương mại điện tử đổi giá trị đầu vào làm tác động đến định chọn lựa khác  Chúng ta so sánh lựa chọn tiềm – không đầy đủ thông tin – khuôn khổ rủi ro giá trị xảy  Hỗ trợ kỹ thuật định khác: định đƣợc dùng kết hợp với công cụ quản lý dự án khác Ví dụ: định đƣợc dùng để hỗ trọ việc đánh giá tiến độ dự án Trong phần tiếp theo, tài liệu giới thiệu số thuật toán phổ biến định CÁC THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH 2.1 Phương pháp Hunt: Các phƣơng pháp phân lớp Quinlann sử dụng tƣ tƣởng chủ đạo từ phƣơng pháp Hunt Phƣơng pháp đƣợc Hunt đồng xây dựng vào năm cuối thập kỷ 50 đầu thập kỷ 60 Mô tả quy nạp phƣơng pháp Hunt Giả sử xây dựng định từ T tập liệu đầu vào lớp đƣợc biểu dƣới dạng tập C = {C1, C2… Ck} Trƣờng hợp 1: T chứa trƣờng hợp thuộc lớp đơn Cj, định ứng với T tƣơng ứng với lớp Cj Trƣờng hợp 2: T chứa trƣờng hợp thuộc nhiều lớp khác tập C, Một kiểm tra đƣợc chọn thuộc tính có nhiều giá trị {O1, O2… O3} Trong nhiều ứng dụng n thƣờng đƣợc chọn 2, tạo định nhị phân Tập T đƣợc chia thành tập T1, T2, …, Tn với Ti chứa tất trƣờng hợp T mà có kết Oi kiểm tra đƣợc chọn, nhánh tƣơng ứng với kết kiểm tra Công Nghệ Tri Thức Và Ứng Dụng Trang Ứng dụng công nghệ tri thức – định vào thương mại điện tử Cách thức xây dựng tƣơng tự đƣợc áp dụng đệ quy cho tập liệu đầu vào Trƣờng hợp 3: T không chứa trƣờng hợp nào, định ứng với T nhƣng lớp gắn với phải đƣợc xác định từ thơng tin khác ngồi T 2.2 Thuật toán ID3: 2.2.1 Giới thiệu: Thuật toán ID3 (Iterative Dichotomiser 3) thuật toán xây dựng định sử dụng độ đo (information gain) để lựa chọn thuộc tính phân lớp đối tƣợng Thuật toán ID3 tiền thân thuật toán C4.5 Nó xây dựng theo cách từ xuống, tập đối tƣợng đặc tả thuộc tính Tại đỉnh cây, thuộc tính có information gain lớn đƣợc chọn để phân chia tập đối tƣợng Quá trình đƣợc thực cách đệ qui tập đối tƣợng cho trở nên nhất, tức chứa đối tƣợng thuộc lớp Lớp trở thành 2.2.2 Hàm entropy: Hàm Entropy xác định tính khơng khiết tập liệu 𝑐 E 𝑆 =− 𝑝 𝑖 𝑙𝑜𝑔2 𝑝 𝑖 𝑖=1 Trong đó:  E(S) entropy tập S  c: số giá trị khác thuộc tính S (entropy đƣợc tính cho thuộc tính đƣợc chọn) Cơng Nghệ Tri Thức Và Ứng Dụng Trang Ứng dụng công nghệ tri thức – định vào thương mại điện tử  𝑝 𝑖 tần suất giá trị i tập S Nếu E(S) = nghĩa tập chứa tồn giá trị đồng Giá trị entropy lớn số lớp khác lớn 2.2.3 Độ đo (information gain) Độ đo, đo mức độ hiệu thuộc tính tốn phân lớp liệu Đó rút gọn mà ta mong đợi phân chia liệu theo thuộc tính Cơng thức tính độ đo: 𝐺𝑎𝑖𝑛 𝑆, 𝐴 = 𝐸 𝑆 − 𝑣∈𝑉𝑎𝑙𝑢𝑒 𝐴 𝑆𝑣 𝐸(𝑆 𝑣 ) 𝑆 Trong đó:  Gain S, A độ lợi tập S sau chia theo thuộc tính A  E(S) entropy tập S  Sv tập S mà A có giá trị v  Value(A) tập giá trị có thuộc tính A Độ đo xác định cải thiện entropy cách chia thuộc tính: cao tốt Do đó, để phân lớp liệu ta chọn thuộc tính có Gain lớn để làm tiêu chuẩn để phân nhánh 2.2.4 Thuật toán Mã giả thuật toán ID3: ID3(T : bảng liệu; C : thuộc tính phân loại){  if (T rỗng) return(null);  N = node mới;  if (khơng tồn thuộc tính tiềm T) { o gán nhãn N với giá trị xuất nhiều C trongT  else if (tất thể T có giá trị V C) o gán nhãn N, “X.C=V với khả xuất 1” Công Nghệ Tri Thức Và Ứng Dụng Trang Ứng dụng công nghệ tri thức – định vào thương mại điện tử Stone Để tạo định CART sử dụng cách học tập mẫu – tập liệu có đƣợc phân chia trƣớc lớp cho việc quan sát  Là kỹ thuật tạo định không tham số, có khả tạo phân lớp hồi quy  Cây định CART đƣợc phân chia đệ quy nhị phân  Xử lý đƣợc liệu liên tục liệu rời rạc  Có khả tự động chia hàng loạt thuộc nhóm liệu thành số nhóm  Có xử lý cắt tỉa 2.4.2 Thuật tốn Phân hoạch đệ quy:  Lấy hết tất liệu  Xem xét tất giá trị tất biến  Chọn biến/giá trị (X = t1) mà tạo phân nhánh lớn  Nếu X < t1 đƣa liệu vào bên trái, ngƣợc lại, đƣa liệu vào nhánh bên phải  Lặp lại thao tác cho node  Việc phân nhánh ngừng mở rộng thêm nhánh hay gặp điều kiện dừng thiết lập từ trƣớc 2.4.3 Chỉ số Gini: Chỉ số Gini dung thuật toán CART độ đo tính khơng khiết tập liệu m (pi )2 Gini D = − i=1 Với m tổng số nhãn lớp, pi xác suất để D thuộc nhãn Ci, đƣợc tính nhƣ sau: Cơng Nghệ Tri Thức Và Ứng Dụng Trang 17 Ứng dụng công nghệ tri thức – định vào thương mại điện tử pi = Ci , D D Chỉ số Gini thƣờng đƣợc tính tốn dựa giả định tập liệu D đƣợc phân chia nhị phân thành hai tập Đầu tiên xét trƣờng hợp thuộc tính A D có kiểu liệu rời rạc, dùng phép chiếu thu đƣợc v = {a1,a2 … av} giá trị khác Để xác định điểm chia tốt A, kiểm tra tất tập tạo đƣợc từ v giá trị phân biệt trên, tập tạm gọi SA điều kiện kiểm tra nhị phân dạng A ∈ SA Nhƣ với v giá trị khác ta có 2v-2 tập ( khơng bao gồm tập rỗng, tập toàn phần v = {a1,a2 … av} Tiến hành lặp qua tất tập này, lần lặp phân chia tập v thành tập v1 v2 (v1 U v2 = v; v1 ∩ v2 = ∅) Với tập v, D chia thành tập D1(các có giá trị thuộc tính A ∈ v1 ) D2 ( có giá trị thuộc tính A ∈ v2 ), số Gini(D) là: GiniA D = D1 D2 Gini D1 + Gini(D2 ) D D Ngƣợc lại với độ đo Gain dùng entropy, số Gini nhỏ (dữ liệu pha tạp nhất) đƣợc chọn để phân nhánh định.Một cách tổng quát: k GiniA D = j=1 nj Gini j n Trong đó:  k: số node  nj : Số giá trị node j  n: Số lƣợng giá trị node D 2.4.4 Chỉ số twoing: CART hỗ trợ số twoing làm tiêu chuẩn phân lớp, đƣợc sử dụngcho vấn đề nhiều lớp Tại node, lớp đƣợc phân thành hai Công Nghệ Tri Thức Và Ứng Dụng Trang 18 Ứng dụng công nghệ tri thức – định vào thương mại điện tử superclasses chứa lớp rời lớp có quan hệ chặt với Một tiêu chuẩn phân lớp vấn đề hai lớplà việc tìm thuộc tính sử dụng hai superclassestối ƣu tiêu chuẩn cho hai lớp Phƣơng pháp cung cấp chiến lƣợc khôn khéo để chia vài lớp mà nhóm tƣơng tự đƣợc gom nhóm lại với 2.4.5 Hạn chế CART  CART không sử dụng kết hợp nhiều biến  Cây định đƣợc tối ƣu node, khơng tối ƣu tồn Cơng Nghệ Tri Thức Và Ứng Dụng Trang 19 Ứng dụng công nghệ tri thức – định vào thương mại điện tử ỨNG DỤNG CÂY QUYẾT ĐỊNH VÀO THƢƠNG MẠI ĐIỆN TỬ 3.1 Sơ lược thương mại điện tử Thƣơng mại điện tử khái niệm có nhiều cách hiểu, nhiên tổng quát là: việc tiến hành phần toàn thƣơng mại phƣơng tiện điện tử Thƣơng mại điện tử đƣợc biết đến phƣơng thức kinh doanh hiệu từ có internet Chính vậy, thƣơng mại điện tử hiểu cách cụ thể việc giao dịch, mua sắm qua mạng internet Nhìn lại tình hình thƣơng mại điện tử Việt Nam, ta thấy hoạt động có điểm chung là: làm website để quảng cáo sản phẩm đến ngƣời tiêu dùng Những website mang tính động, nghĩa sản phẩm đƣợc cập nhật liên tục mang tính tƣơng tác cao, tạo thành kênh giao tiếp hữu dụng ngƣời mua ngƣời bán Tuy nhiên, điểm bất lợi website ngƣời dùng ghé thăm thấy đƣợc sản phẩm hay sản phẩm bán chạy mà không thấy đƣợc sản phẩm mà họ cần mua Nói chung website khơng có thật hƣớng đến ngƣời dùng – điều cho thành công kinh doanh 3.2 Đặt vấn đề Vấn đề đặt cho website thƣơng mại điện tử tính hƣớng đến ngƣời dùng, dự đốn đƣợc ngƣời dùng mua hàng để đƣa sản phẩm quảng cáo phù hợp Nếu giải đƣợc vấn đề này, có đƣợc lợi ích:  Lƣợng ngƣời dùng (khách hàng) tăng lên khuyến khích họ mua sản phẩm mà họ cần  Lợi nhuận tăng lên khả bán đƣợc hàng cao  Giảm chi phí làm bảng khảo sát nhu cầu ngƣời dung Công Nghệ Tri Thức Và Ứng Dụng Trang 20 Ứng dụng công nghệ tri thức – định vào thương mại điện tử Do đó, tốn đặt là: “tăng cao tính hƣớng ngƣời dùng website thƣơng mại điện tử” Với tốn này, ta có nhiều cách giải nhiên chúng em nhận thấy việc áp dụng công nghệ tri thức – định phù hợp 3.3 Giải vấn đề Để giải toán này, chúng em định làm website kinh doanh sản phẩm áp dụng định để tăng tính hƣớng ngƣời dùng hoạt động quảng bá khuyến khích tiêu dùng Mơi trƣờng thực hiện:  Web server PHP (EasyPHP)  Ngôn ngữ áp dụng: PHP, HTML, CSS, Javascript  Cơ sở liệu Mysql Website gồm có chức chính:  Quảng bá sản phẩm cho ngƣời dùng (*)  Tìm luật kết hợp, khuyến khích ngƣời dùng mua hàng phù hợp khách hàng mua hàng  Nhận đơn đặt hàng từ khách hàng toán qua kênh toán điện tử (nganluong.vn)  Các mục nhƣ tin tức, khuyến Tuy nhiên, thời gian có giới hạn nên chúng em tập trung phát triển chức (*), chức khác đƣợc thực sau Về liệu đầu vào, dựa vào liệu từ hóa đơn mua bán, website tích lũy đƣợc thông tin: thông tin chi tiết khách hàng, thông tin sản phẩm khách hàng mua Vì chất vấn đề tính hƣớng khách hàng, đó, ta cần biết chi tiết khách hàng để phục vụ tốt Sau q trình mua bán hàng hóa mạng, ta có đƣợc bảng liệu tƣơng tự nhƣ sau: Cơng Nghệ Tri Thức Và Ứng Dụng Trang 21 Ứng dụng công nghệ tri thức – định vào thương mại điện tử Độ tuổi STT Giới tính Khu vực sống Nghề nghiệp Nhóm sản phẩm mua 13

Ngày đăng: 10/04/2015, 17:05

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan