Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

53 533 1
Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đề tài: Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Quách Hiếu Nghĩa TRÍCH CHỌN THUỘC TÍNH SẢN PHẨM TRONG HỆ THỐNG MUA BÁN TRỰC TUYẾN TIẾP CẬN KHAI PHÁ LUẬT KẾT HỢP KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin HÀ NỘI - 2009 i ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Qch Hiếu Nghĩa TRÍCH CHỌN THUỘC TÍNH SẢN PHẨM TRONG HỆ THỐNG MUA BÁN TRỰC TUYẾN TIẾP CẬN KHAI PHÁ LUẬT KẾT HỢP KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin Cán hướng dẫn: Ths Nguyễn Việt Cường Cán đồng hướng dẫn: CN Nguyễn Thị Thùy Linh HÀ NỘI - 2009 ii LỜI CẢM ƠN Đầu tiên, em xin gửi lời cảm ơn chân thành sâu sắc tới Thạc sỹ Nguyễn Việt Cường Cử nhân Nguyễn Thị Thùy Linh, người tận tình bảo hướng dẫn em suốt q trình thực khóa luận tốt nghiệp Tiếp theo, em xin chân thành cảm ơn thầy nhiệt tình giảng dạy giúp đỡ, tạo điều kiện thuận lợi cho em suốt trình học tập trường Đại học Công nghệ Em xin gửi lời cảm ơn tới thầy bạn sinh viên thuộc Phịng thí nghiệm Công nghệ tri thức ủng hộ giúp đỡ em nhiều trình nghiên cứu thực khóa luận Cuối cùng, xin gửi lời cảm ơn vơ hạn tới gia đình bạn bè, người bên cạnh động viên sống học tập làm việc Xin chân thành cảm ơn! Hà Nội, ngày 23 tháng năm 2009 Sinh viên Quách Hiếu Nghĩa TÓM TẮT NỘI DUNG Ngày nay, thương mại điện tử trở nên phổ biến người Cùng với đời trang web bán hàng mạng Trên trang web bán hàng trực tuyến thường có mục dành cho khách hàng đưa ý kiến, đánh giá sản phẩm dịch vụ liên quan Với phát triển thương mại điện tử, số lượng đánh sản phẩm nhận ngày tăng Đối với sản phẩm phổ biến, số lượng đánh giá khách hàng lớn (có thể lên tới số hàng trăm) Điều gây khó khăn cho muốn tham khảo đánh giá để đưa định có mua sản phẩm hay khơng Do vậy, nảy sinh nhu cầu tóm tắt đánh giá lại thành tóm tắt dễ đọc Trong khóa luận này, thực nghiên cứu triển khai mơ hình trích chọn thuộc tính sản phẩm nhắc đến đánh giá, phần quan trọng tốn tóm tắt đánh giá sản phẩm người dùng hệ thống mua bán trực tuyến Hiện giới có nhiều hệ thống trích chọn thuộc tính sản phẩm đánh giá đạt kết khả quan, nhiên hệ thống áp dụng cho ngôn ngữ tiếng Anh Mục tiêu khóa luận xây dựng mơ hình xử lý đánh giá viết ngôn ngữ tiếng Việt cách áp dụng số kĩ thuật xử lý ngôn ngữ tự nhiên khai phá luật kết hợp Tuy kết đạt chưa thể đáp ứng yêu cầu thực tế tồn nhiều khó khăn, hạn chế công cụ xử lý ngôn ngữ tiếng Việt sở để đánh giá, chứng minh tính đắn hiệu kĩ thuật sử dụng Đây sở cho hệ thống tương tự tương lai sử dụng lại cải tiến hồn thiện i MỤC LỤC LỜI CẢM ƠN i TÓM TẮT NỘI DUNG .i MỤC LỤC ii DANH MỤC BẢNG SỐ LIỆU iv DANH MỤC HÌNH ẢNH v MỞ ĐẦU Chương 1: GIỚI THIỆU .2 1.1 Đặt vấn đề: 1.2 Phát biểu toán trích chọn thuộc tính sản phẩm hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp: 1.3 Ý nghĩa ứng dụng: Chương 2: CƠ SỞ LÝ THUYẾT 2.1 Khai phá luật kết hợp: 2.1.1 Định nghĩa: .8 2.1.2 Các bước khai phá luật kết hợp: .8 2.2 Các khái niệm sở: .9 2.3 Thuật toán Apriori: .12 2.4 Tổng kết chương: 18 Chương 3: TRÍCH CHỌN THUỘC TÍNH SẢN PHẨM TRONG HỆ THỐNG MUA BÁN TRỰC TUYẾN TIẾP CẬN KHAI PHÁ LUẬT KẾT HỢP 19 3.1 Giới thiệu: .19 3.2 Bài tốn trích chọn thuộc tính sản phẩm hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp: .19 ii 5.2.1 Tự động trích chọn thực thể văn bản: 20 5.2.2 Xác định thuộc tính sản phẩm từ tập ứng viên: .20 3.3 Mơ hình trích chọn thuộc tính sản phẩm: .21 3.3.1 Cấu trúc hệ thống trích chọn thuộc tính sản phẩm: 21 3.3.2 Tách từ: 22 3.3.3 Gán nhãn loại từ: 23 3.3.4 Trích chọn thuộc tính phổ biến: .24 3.3.5 Trích chọn từ thể ý kiến: 26 3.3.6 Trích chọn thuộc tính phổ biến: 27 3.3.7 Đánh giá, nhận xét mơ hình sử dụng: 28 3.3.8 Giới thiệu số mơ hình trích chọn thuộc tính sản phẩm khác: 29 3.4 Tổng kết chương: 30 Chương 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 31 4.1 Môi trường thử nghiệm: 31 4.1.1 Môi trường phần cứng: 31 4.1.2 Công cụ phần mềm: .31 4.2 Dữ liệu thực nghiệm: 31 4.3 Kết thực nghiệm: 34 4.3.1 Tách từ gán nhãn từ loại: 34 4.3.2 Trích chọn thuộc tính phổ biến: .35 4.3.3 Tìm tập từ thể ý kiến: .38 4.3.4 Trích chọn thuộc tính phổ biến: 38 4.4 Đánh giá kết thực nghiệm: .39 4.5 Tổng kết chương: 42 KẾT LUẬN 43 TÀI LIỆU THAM KHẢO 44 iii DANH MỤC BẢNG SỐ LIỆU Bảng Bảng ví dụ sở liệu chứa giao dịch bán hàng siêu thị 11 Bảng Bảng kí hiệu cho thuật toán Apriori 13 Bảng Bảng sở liệu giao tác minh họa cho thuật toán Apriori 15 Bảng Bảng kết C1, L1 .16 Bảng Bảng kết C2, L2 .16 Bảng Bảng kết C3, L3 .17 Bảng Bảng kết C4, L4 .17 Bảng Cấu hình hệ thống thử nghiệm 31 Bảng sản phẩm tiêu biểu số mẫu thực nghiệm 33 Bảng 10 Các loại danh từ 35 Bảng 11 Số lượng danh từ tập đánh giá sản phẩm 36 Bảng 12 Độ hồi tưởng độ xác kết thu nhờ khai phá luật kết hợp 37 Bảng 13 Độ hồi tưởng, độ xác kết thu sau bước cắt tỉa 38 Bảng 14 Độ hồi tưởng xác kết sau bước xác định thuộc tính phổ biến 39 Bảng 15 Độ đo F1 kết sau bước 39 iv DANH MỤC HÌNH ẢNH Hình Ba bước tóm tắt đánh giá sản phẩm hệ thống mua bán trực tuyến Hình Mơ hình hệ thống trích chọn thuộc tính sản phẩm hệ thống bán hàng trực tuyến 21 Hình Ví dụ đánh giá sản phẩm Nokia E90 website thegioididong.com 32 Hình Đồ thị độ đo F1 kết sau bước trích chọn 40 v MỞ ĐẦU Với phát triển thương mại điện tử, số lượng đánh giá người dùng sản phẩm hệ thống mua bán trực tuyến ngày gia tăng Do tốn tóm tắt đánh giá đời Cùng với tốn con, trích chọn thuộc tính sản phẩm người dùng đề cập đến đánh giá, cần phải giải Hiện nay, có nhiều hướng tiếp cận theo phương pháp học máy để giải tốn trích chọn thuộc tính sản phẩm Trong khóa luận này, sử dụng kĩ thuật khai phá luật kết hợp để trích chọn thuộc tính sản phẩm Đây hướng tiếp cận hiệu chứng minh thực ngôn ngữ tiếng Anh Chúng tơi trình bày giải pháp thích hợp áp dụng vào tiếng Việt Khóa luận gồm bốn chương, nội dung mô tả sơ đây: • Chương 1: Đặt vấn đề giới thiệu tổng quan tốn tóm tắt đánh giá sản phẩm, từ phát biểu tốn trích chọn thuộc tính sản phẩm hệ thống mua bán trực tuyến • Chương 2: Trình bày lý thuyết khai phá luật kết hợp theo hướng áp dụng vào giải tốn trích chọn thuộc tính sản phẩm hệ thống mua bán trực tuyến • Chương 3: Phát biểu tốn trích chọn thuộc tính sản phẩm hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp, phân tích vấn đề cần giải toán bước xây dựng mơ hình trích chọn sở áp dụng khai phá luật kết hợp • Chương 4: Trình bày kết thực nghiệm khóa luận Cuối phần kết luận, tóm tắt lại nội dung khóa luận, đồng thời điểm cần khắc phục hướng cải tiến nhằm mục tiêu xây dựng hệ thống ứng dụng thực môi trường Internet Chương 1: GIỚI THIỆU 1.1 Đặt vấn đề: Trên giới nói chung Việt Nam nói riêng, thương mại điện tử trở nên phổ biến ngày phát triển Một phần quan trọng thương mại điện tử bán hàng trực tuyến Ta thấy số lượng website mua bán trực tuyến vơ lớn, tiếng tồn giới có Amazon.com, Cnet.com, eBay…, cịn Việt Nam kể số trang web vatgia.com, thegioididong.com Chủng loại sản phẩm hệ thống bán hàng trực tuyến vô đa dạng, từ sản phẩm phục vụ sống hàng ngày ô tô, hộ, nhà cửa, bất động sản… Với sản phẩm bán trực tuyến, ln có mục nhận xét (review) nơi khách hàng đưa ý kiến đánh giá sản phẩm mua dịch vụ liên quan Đây nguồn thông tin quan trọng, cung cấp cho người mua hàng nhìn toàn diện sản phẩm mà họ định mua Còn nhà sản xuất, đánh giá khách hàng sở để tiến hành cải tiến, hồn thiện sản phẩm Cùng với phát triển khơng ngừng thương mại điện tử số lượng người mua hàng trực tuyến ngày tăng, dẫn đến số lượng nhận xét, đánh giá người dùng sản phẩm ngày nhiều Một sản phẩm thơng dụng có hàng trăm chí hàng nghìn nhận xét khác Điều gây khó khăn cho người mua hàng nhà sản xuất Người mua hàng gặp khó khăn việc tổng hợp ý kiến người trước để đưa định mua hay không mua sản phẩm Cịn nhà sản xuất khó theo dõi, nắm bắt tất phản hồi người tiêu dùng sản phẩm Thêm vào đó, cơng ty khơng sản xuất loại sản phẩm Một công ty thường sản xuất vài loại sản phẩm khác sản phẩm bán nhiều website khác Từ thực tế trên, nảy sinh nhu cầu cần tóm tắt tất nhận xét khách hàng sản phẩm hệ thống mua bán trực tuyến Khác với việc tóm tắt văn truyền thống, thường túy chọn lọc số câu văn gốc để tạo thành tóm tắt diễn giải lại nội dung văn gốc cách ngắn gọn, súc tích Ở đây, tóm tắt đánh giá sản phẩm nhằm mục tiêu tạo tóm tắt dựa thuộc tính sản phẩm Tức ta khai thác thuộc tính (đặc trưng, chức năng) Chương 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Môi trường thử nghiệm: 4.1.1 Môi trường phần cứng: Bảng Cấu hình hệ thống thử nghiệm Thành phần Chỉ số CPU Intel Pentum IV 2.4GHz Memory (RAM) 1.00 GB HDD 80 GB System type 32 bit Operating System 4.1.2 Công cụ phần mềm: Hiện lĩnh vực xử lý ngơn ngữ tiếng Việt, số phần mềm nguồn mở hồn thiện hạn chế Để tiến hành thực nghiệm, sử dụng công cụ mã nguồn mở JvnSegmenter nhóm tác giả Nguyễn Cẩm Tú Phan Xuân Hiếu Nguồn: http://jvnsegmenter.sourceforge.net/ Đây công cụ viết Java sử dụng mơ hình CRFs để thực tách từ cho ngơn ngữ tiếng Việt Ngồi ra, chúng tơi cịn sử dụng cơng cụ gán nhãn từ loại VnQTAG nhóm tác giả Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương Nguồn: http://www.loria.fr/equipes/led/outils.php Cuối thành phần khác hệ thống trích chọn thuộc tính sản phẩm chúng tơi tự xây dựng (cài đặt Apriori, trích chọn thuộc tính) 4.2 Dữ liệu thực nghiệm: Dữ liệu thực nghiệm đánh giá sản phẩm sản phẩm điện thoại người dùng viết ngôn ngữ tiếng Việt lấy trang bán hàng trực tuyến vatgia.com, 31 thegioididong.com… Các đánh giá có cấu trúc gồm tiêu đề nội dung ý kiến, ngồi cịn có thơng tin số điểm (rating), thời gian người đánh giá Nội dung cần lấy Hình Ví dụ đánh giá sản phẩm Nokia E90 website thegioididong.com Sau lấy về, liệu tổ chức dạng file text, file lưu tất đánh giá cho sản phẩm cụ thể Có tổng cộng 23 loại điện thoại, với tổng cộng 700 đánh giá thu thập làm liệu thực nghiệm Dưới đây, chúng tơi trình bày kết đạt sản phẩm tiêu biểu 32 Bảng sản phẩm tiêu biểu số mẫu thực nghiệm STT Tên sản phẩm Số lượng đánh giá Số lượng thuộc tính 800 sapphire arte 12 36 Nokia 5800 XpressMussic 27 30 Nokia N73 Music Edition 60 52 Nokia N81 - 8GB 21 47 Nokia N95 53 42 Samsung F480 17 37 Dữ liệu sau lấy tiến hành tiền xử lý: + Thêm dấu câu đánh giá khơng gõ có dấu + Sửa lỗi tả + Loại bỏ kí tự biểu cảm ngơn ngữ chat (emoticons) Nhận xét: Các đánh giá sản phẩm ngôn ngữ tiếng Việt hệ thống mua bán trực tuyến nói chung có nhiều hạn chế số lượng chất lượng + Về số lượng: khó để tìm trang bán hàng trực tuyến có số lượng đánh giá tiếng Việt sản phẩm lên số trăm Vì việc thu thập đánh giá sản phẩm phải tiến hành nhiều hệ thống mua bán trực tuyến khác + Còn chất lượng đánh giá, tồn hạn chế mặt hình thức nội dung Về hình thức, vấn đề gặp phải tồn số lượng lớn người dùng có thói quen viết tiếng Việt khơng dấu Hiện lại chưa có hệ thống xử lý ngơn ngữ tiếng Việt có khả bổ sung dấu cho văn tiếng Việt khơng dấu Vì vậy, chúng tơi bắt buộc phải tiến hành chuẩn hóa tay, thực việc thêm dấu cho đánh giá viết không dấu Đây công đoạn tốn nhiều thời gian công sức khâu tiền xử lý Về nội dung, đánh giá phần lớn sơ sài (cá biệt lượng không nhỏ 33 đánh giá gồm có 1, câu nhận xét với nội dung chung chung) Trong trình thu thập liệu, cố gắng chọn lọc đánh giá có chất lượng nội dung trở lên 4.3 Kết thực nghiệm: Tiến hành thử nghiệm tập liệu tiếng Việt qua tiền xử lý giới thiệu Kết thu sau 4.3.1 Tách từ gán nhãn từ loại: • Tách từ: + Đọc liệu từ file văn chứa đánh giá tiếng Việt (mã hóa UTF-8) thu thập vào JvnSegmenter để tiến hành tách từ + Kết trả lại có dạng sau: [Tuyệt vời] , [nhưng] [ ] [Mới] [mua] [con] [này] [được] [2] [hôm] [Dùng] [thấy] [rất] [ổn] , [có] [điều] [pin] [mau] [hết] , [1] [ngày] [là] [hết sạch] [Tình hình] [này] [phải] [kiếm] [quả] [Pin] [khác] [khủng] [hơn] [mới] [xong] [Ngồi ra] [thì] [camera] [mặt] [trước] [xấu kinh] , [dùng] [video call] [thì] [tệ] [thật] [Nhưng] [về bản] [thì] [các] [tính năng] [khác] [rất] [tuyệt] , [đặc biệt] [xem] [phim] [mp4] [trên] [màn hình] [16] [triệu] [màu] , [hehe] , [các] [máy] [khác] [khóc hận] [Ưu điểm] : [Nhiều] [Nhược điểm] : [Pin] [mau hết] [Đánh giá] : [10 /10] [Nhận xét] [lúc] : [00:44:00] [18/04/2007] [Email] : [my_memory_21_08@yahoo.com] + Lưu kết file có cấu trúc dòng từ cặp ngoặc vuông để làm liệu đầu vào cho gán nhãn VnQTAG + Đánh giá kết tách từ: độ xác cao, thời gian thực nhanh • Gán nhãn từ loại: + Chạy công cụ VnQTAG với liệu đầu vào file text thu bước 34 + Kết trả lại file chứa liệu gán nhãn File có cấu trúc sau: . + Đánh giá kết gán nhãn: Do thời gian thực nghiệm có hạn nên chưa thể tiến hành gán nhãn tập liệu tay để tiến hành đánh giá độ xác kêt gán nhãn tự động VnQTAG Tuy nhiên, qua quan sát, nhận thấy kết gán nhãn từ loại có độ xác chưa cao 4.3.2 Trích chọn thuộc tính phổ biến: • Sinh tập mục phổ biến: + Bước 1: sinh tập mục, trích chọn từ gán nhãn danh từ kết thu Theo kết gán nhãn từ loại, danh từ chia làm nhóm nhỏ Bảng 10 Các loại danh từ Loại danh từ Kí hiệu nhãn Danh từ riêng Np Danh từ đơn thể Nc Danh từ tổng thể Ng Danh từ loại thể Nt Danh từ đơn vị Nu Danh từ trừu tượng Na 35 Danh từ số lượng Nn Danh từ vị trí Nl Bảng 11 Số lượng danh từ tập đánh giá sản phẩm STT Tên sản phẩm Số lượng danh từ 800 sapphire arte 222 Nokia 5800 XpressMussic 353 Nokia N73 Music Edition 798 Nokia N81 - 8GB 481 Nokia N95 809 Samsung F480 306 + Bước 2: tạo sở liệu giao tác Đối với sản phẩm, tạo ma trận m×n, hàng ứng với câu tập liệu đánh giá sản phẩm đó, cịn cột ứng với danh từ tập mục thu bước 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 + Bước 3: chạy thuật toán Apriori với liệu đầu vào tập mục sở liệu sinh bước trên, đầu tập mục phổ biến thỏa mãn ngưỡng hỗ trợ cực tiểu minsupp Mỗi tập mục phổ biến tương ứng với thuộc tính Ví dụ: giả sử L1 = {A, B, C, D …}, L2={[AB],[AC],…} A, B, C, D AB, AC thuộc tính sản phẩm Trong q trình thực nghiệm, rút nhận xét sau: + Nếu tạo tập mục I gồm tất danh từ thu sau gán nhãn từ loại, tập mục phổ biến Lk sinh chứa nhiều phần tử thuộc tính sản phẩm Dựa vào khảo sát thuộc tính 36 danh từ đơn danh từ ghép đánh giá, đưa chiến lược chọn lọc danh từ sau: sử dụng I={Nc, Ng, Na, Np} để tìm L1, sử dụng I={Nc, Ng, Na, Np, Nu, Nl} để tìm Lk với k > + Hầu hết thuột tính sản phẩm xuất đánh giá có độ dài nhỏ từ (thuộc tính dài tạo cách ghép từ đơn lại với nhau) Vì vậy, chúng tơi lấy kết gồm tập mục phổ biến phần tử trở xuống (Lk với k ≤ 3), bỏ qua Lk lại Điều giúp tiết kiệm thời gian công sức cho bước cắt tỉa mà không làm ảnh hưởng tới kết tốn + Ngồi ra, để loại bỏ bớt kết không phù hợp, sử dụng ngưỡng minsupp khác cho L1 Lk (1< k ≤ 3) Minsupp cho L1 2%, minsupp cho Lk 1% Minsupp cho L1 cao để loại bỏ bớt danh từ không quan trọng Kết thu bảng bên dưới: Bảng 12 Độ hồi tưởng độ xác kết thu nhờ khai phá luật kết hợp Tên sản phẩm Số thuộc tính xác định tay Thuộc tính phổ biến (khai phá luật kết hợp) Recall Precision 800 sapphire arte 36 0.500 0.008 Nokia 5800 XpressMussic 30 0.500 0.063 Nokia N73 Music Edition 52 0.385 0.177 Nokia N81 - 8GB 47 0.596 0.002 Nokia N95 42 0.404 0.091 Samsung F480 37 0.649 0.006 Trung bình 40 0.506 0.058 • Cắt tỉa kết thu được: 37 + Bước - compactness prunning: cắt tỉa nhằm đảm bảo tính chặt chẽ kết Thực đề cập mơ hình chương + Bước - redundancy prunning: cắt tỉa loại bỏ thuộc tính thừa Ở chúng tơi đặt ngưỡng p-support = + Kết đạt thể bảng Bảng 13 Độ hồi tưởng, độ xác kết thu sau bước cắt tỉa Tên sản phẩm Số thuộc tính xác định tay Compactness prunning Redundancy prunning Recall Precision Recall Precision 800 sapphire arte 36 0.306 0.297 0.306 0.333 Nokia 5800 XpressMussic 30 0.500 0.263 0.433 0.255 Nokia N73 Music Edition 52 0.365 0.253 0.365 0.253 Nokia N81 - 8GB 47 0.489 0.2 0.468 0.212 Nokia N95 42 0.405 0.227 0.405 0.243 Samsung F480 37 0.568 0.247 0.568 0.273 Trung bình 40 0.438 0.248 0.424 0.262 4.3.3 Tìm tập từ thể ý kiến: Phương pháp thực sau: • Tìm câu có xuất thuộc tính sản phẩm • Lấy tính từ có (dựa vào kết gán nhãn từ loại) • Chọn tính từ gần thuộc tính để đưa vào tập từ thể ý kiến Chúng tơi chọn tính từ gần thuộc tính thơng thường tính từ bổ nghĩa cho danh từ (thuộc tính) mà ta tìm 4.3.4 Trích chọn thuộc tính phổ biến: Tiến hành tương tự trên: • Tìm câu có xuất từ thể ý kiến 38 • Lấy danh từ có (dựa vào kết gán nhãn từ loại) • Chọn danh từ gần từ thể ý kiến để đưa vào tập thuộc tính phổ biến Kết trích chọn cuối thể bảng đây: Bảng 14 Độ hồi tưởng xác kết sau bước xác định thuộc tính phổ biến Số thuộc tính xác định tay Tên sản phẩm Xác định thuộc tính phổ biến Recall Precision 800 sapphire arte 36 0.324 0.324 Nokia 5800 XpressMussic 30 0.433 0.25 Nokia N73 Music Edition 52 0.365 0.253 Nokia N81 - 8GB 47 0.468 0.212 Nokia N95 42 0.476 0.213 Samsung F480 37 0.568 0.266 Trung bình 40 0.439 0.253 Bảng 15 Độ đo F1 kết sau bước Tên sản phẩm Số thuộc tính gán nhãn tay Compactness prunning Redundancy prunning Xác định thuộc tính phổ biến 800 sapphire arte 36 0.301 0.319 0.324 Nokia 5800 XpressMussic 30 0.345 0.321 0.317 Nokia N73 Music Edition 52 0.299 0.299 0.299 Nokia N81 - 8GB 47 0.284 0.292 0.291 Nokia N95 42 0.291 0.304 0.294 39 Samsung F480 37 0.344 0.369 0.362 Trung bình 40 0.311 0.317 0.314712 Hình Đồ thị độ đo F1 kết sau bước trích chọn 4.4 Đánh giá kết thực nghiệm: Để tiến hành đánh giá kết thực nghiệm, tiến hành xác định thuộc tính sản phẩm có đánh giá người Số thuộc tính tìm hầu hết thuộc tính rõ ràng (như ví dụ trên), thuộc tính khơng rõ ràng chiếm tỉ lệ nhỏ (1-5%) Cột thuộc tính tìm tay bảng 12, 13 cho ta thấy số lượng thuộc tính tìm cách sản phẩm Bảng 12, 13 14 cho ta thấy độ xác độ hồi tưởng tập thuộc tính tìm bước: • Sau áp dụng thuật tốn Apriori là: 5.8% 50.6% • Sau thực cắt tỉa Compactness prunning: 24.8% 43.8% 40 • Sau thực cắt tỉa Redundancy prunning: 26.2% 42.4% • Sau trích chọn thuộc tính phổ biến: 25.3% 43.9% Trong bảng 12, kết sau bước sinh tập thuộc tính phổ biến phương pháp khai phá luật kết hợp có độ xác thấp Chứng tỏ tập mục phổ biến sinh chứa nhiều phần tử khơng phải thuộc tính Bảng 13 cho thấy kết sau thực hai bước cắt tỉa Độ xác nâng lên đáng kể, độ hồi tưởng giảm vài phần trăm Điều chứng tỏ phương pháp cắt tỉa đưa hiệu Trong bảng 14, hai cột cuối cho ta thấy kết sau trích chọn thuộc tính phổ biến Ta thấy có giảm nhẹ độ xác trung bình, nhiên thuộc tính phổ biến thường xếp hạng thấp nên kết không ảnh hưởng tới người dùng Kết trích chọn thuộc tính sản phẩm tiếng Việt thấp nguyên nhân sau: • Việc gán nhãn từ loại cịn nhiều sai sót • Chưa có cơng cụ hồn thiện để xác định cụm danh từ văn tiếng Việt Trong khóa luận này, chúng tơi tìm cụm danh từ có cấu tạo từ danh từ đơn cách áp dụng luật kết hợp Vì vậy, kết cịn bỏ sót thuộc tính cụm danh từ có cấu tạo khác danh từ + động từ (“nắp trượt”, “chế độ rung”…) • Đây cơng trình lĩnh vực trích chọn thuộc tính sản phẩm đánh giá xử lý ngôn ngữ tiếng Việt, thêm vào hạn chế thời gian kiến thức nên tập liệu để tiến hành thử nghiệm sở để đánh giá kết chưa hoàn thiện Từ kết đánh giá trên, kết luận mơ hình trích chọn thuộc tính sản phẩm hệ thống mua bán trực tuyến ứng dụng khai phá luật kết hợp mơ hình có nhiều tiềm Để thu kết tốt cần phải đầu tư nhiều cơng sức có quy mơ hơn, từ việc thu thập liệu hoàn thiện thành phần xử lý ngôn ngữ tiếng Việt hệ thống 41 4.5 Tổng kết chương: Trong chương xem xét kết q trình thử nghiệm mơ hình trích chọn thuộc tính sản phẩm hệ thống mua bán trực tuyến áp dụng khai phá luật kết hợp Qua phân tích đánh giá cho thấy tính đắn phương pháp sử dụng khóa luận, đầu tư, hoàn thiện tương lai mơ hình có nhiều triển vọng áp dụng vào thực tế 42 KẾT LUẬN Khóa luận trình bày tốn “Trích chọn thuộc tính sản phẩm hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp” Các vấn đề tốn trình bày, phân tích đưa hướng giải cụ thể Khóa luận sử dụng tiếp cận khai phá luật kết hợp phương pháp học máy linh hoạt, hiệu quả, thích hợp với tốn trích chọn thuộc tính sản phẩm Những kết mà khóa luận đạt được: • Phân tích vấn đề xung quanh tốn trích chọn thuộc tính thuộc tính sản phẩm hệ thống mua bán trực tuyến • Xây dựng mơ hình trích chọn thuộc tính sản phẩm tiếng Việt Do khn khổ có hạn thời gian lượng kiến thức có gặp khó khăn q trình thu thập liệu thử nghiệm nên số vấn đề mà khóa luận phải tiếp tục hồn thiện phát triển thời gian tới: • Thử nghiệm liệu lớn hồn chỉnh • Xây dựng phương pháp hiệu việc trích chọn cụm danh từ tiếng Việt 43 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đỗ Phúc Giáo trình Khai thác Dữ liệu Trường Đại học Công nghệ thông tin TP Hồ Chí Minh, Đại học Quốc gia TP Hồ Chí Minh 2006 [2] Hồ Tú Bảo, Lương Chi Mai Về xử lý tiếng Việt Công nghệ thông tin Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Việt Nam, 2006 [3] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương Sử dụng gán nhãn từ loại xác suất QTAG cho văn tiếng Việt Kỷ yếu hội thảo ICT.rda'03 Hà Nội 22-23 tháng 2, 2003 Tiếng Anh: [4] [5] [6] [7] [8] [9] [10] Agrawal, R and Srikant, R Fast algorithms for mining association rules In Proc 20th Int Conf Very Large Data Bases, 487-499 1994 Agrawal, R., Imielinski, T., and Swami, A N Mining association rules between sets of items in large databases In Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, 207-216 Ana-Maria Popescu and Oren Etzioni Extracting Product Features and Opinions from Reviews In HLT '05: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing (2005), 339-346 Cam Tu Nguyen and Xuan Hieu Phan JVnSegmenter: A Java-based Vietnamese Word Segmentation Tool http://jvnsegmenter.sourceforge.net/, 2007 Fellbaum, C (Edit) WordNet, An Electronic Lexical Database The MIT Press 2001 Gamgarn Somprasertsri, Pattarachai Lalitrojwong Automatic product feature extraction from online product reviews using maximum entropy with lexical and syntactic features Information Reuse and Integration, 2008 IEEE International Conference on Volume , Issue , 13-15 July 2008, 250 - 255 Heng Ren, Jingye Wang, and Tony Wu Customer review feature extraction 44 [11] [12] [13] [14] [15] [16] [17] Knowledge Discovery in Databases, Apriori Itemset Generation In computer science 831 University of Regina http://www2.cs.uregina.ca/~dbd/cs831/notes/itemsets/itemset_apriori.html M Hu and B Liu 2004 Mining and Summarizing Customer Reviews In KDD, pages 168–177, Seattle, WA 2004 M Hu and B Liu Mining Opinion Features in Customer Reviews In AAAI’04, 2004 M Hu and B Liu Opinion Extraction and Summarization on the Web In AAAI’06, 2006 R C Merkle A digital signature based on a conventional encryption function Crypto '87 S Blair-Goldensohn, K Hannan, R McDonald, T Neylon, G A Reis and J Reynar Building a sentiment summarizer for local service reviews In WWW Workshop on NLP in the Information Explosion Era, 2008 Santosh Raju, Prasad Pingali, and Vasudeva Varma An Unsupervised Approach to Product Attribute Extraction Tech report, International Institute of Information Technology, India, 2009 45 ... trích chọn thuộc tính sản phẩm hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp đời từ Khóa luận tập trung vào giải tốn trích chọn thuộc tính sản phầm hệ thống mua bán trực tuyến tiếp cận. .. trích chọn thuộc tính sản phẩm hệ thống mua bán trực tuyến • Chương 3: Phát biểu tốn trích chọn thuộc tính sản phẩm hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp, phân tích vấn đề... SẢN PHẨM TRONG HỆ THỐNG MUA BÁN TRỰC TUYẾN TIẾP CẬN KHAI PHÁ LUẬT KẾT HỢP 3.1 Giới thiệu: Trong chương một, giới thiệu cách tổng qt tốn trích chọn thuộc tính sản phẩm hệ thống mua bán trực tuyến,

Ngày đăng: 26/04/2013, 14:15

Hình ảnh liên quan

Hình 1. Ba bước tĩm tắt các đánh giám ột sản phẩm trên hệ thống mua bán trực tuyến - Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

Hình 1..

Ba bước tĩm tắt các đánh giám ột sản phẩm trên hệ thống mua bán trực tuyến Xem tại trang 11 của tài liệu.
tập chỉ mục phổ biến (frequent itemset hay large itemset). Một số tính chất điển hình của tập mục phổ biến:   - Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

t.

ập chỉ mục phổ biến (frequent itemset hay large itemset). Một số tính chất điển hình của tập mục phổ biến: Xem tại trang 19 của tài liệu.
Bảng 2. Bảng kí hiệu cho thuật tốn Apriori - Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

Bảng 2..

Bảng kí hiệu cho thuật tốn Apriori Xem tại trang 21 của tài liệu.
Bảng 3. Bảng cơ sở dữ liệu giao tác minh họa cho thuật tốn Apriori Transaction ID A B C D E  - Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

Bảng 3..

Bảng cơ sở dữ liệu giao tác minh họa cho thuật tốn Apriori Transaction ID A B C D E Xem tại trang 23 của tài liệu.
Bảng 5. Bảng kết quả C2, L2 - Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

Bảng 5..

Bảng kết quả C2, L2 Xem tại trang 24 của tài liệu.
Bảng 4. Bảng kết quả C1, L1 - Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

Bảng 4..

Bảng kết quả C1, L1 Xem tại trang 24 của tài liệu.
Bảng 6. Bảng kết quả C3, L3 - Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

Bảng 6..

Bảng kết quả C3, L3 Xem tại trang 25 của tài liệu.
Bảng 7. Bảng kết quả C4, L4 - Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

Bảng 7..

Bảng kết quả C4, L4 Xem tại trang 25 của tài liệu.
3.3. Mơ hình trích chọn thuộc tính sản phẩm: - Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

3.3..

Mơ hình trích chọn thuộc tính sản phẩm: Xem tại trang 29 của tài liệu.
Bảng 8. Cấu hình hệ thống thử nghiệm Thành phần  Ch ỉ  s ố - Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

Bảng 8..

Cấu hình hệ thống thử nghiệm Thành phần Ch ỉ s ố Xem tại trang 39 của tài liệu.
Bảng 9 .6 sản phẩm tiêu biểu trong số các mẫu thực nghiệm - Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

Bảng 9.

6 sản phẩm tiêu biểu trong số các mẫu thực nghiệm Xem tại trang 41 của tài liệu.
Bảng 10. Các loại danh từ - Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

Bảng 10..

Các loại danh từ Xem tại trang 43 của tài liệu.
Bảng 11. Số lượng danh từ trong tập đánh giám ỗi sản phẩm STT Tên sản phẩm Số lượ ng danh t ừ - Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

Bảng 11..

Số lượng danh từ trong tập đánh giám ỗi sản phẩm STT Tên sản phẩm Số lượ ng danh t ừ Xem tại trang 44 của tài liệu.
Kết quả thu được như bảng bên dưới: - Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

t.

quả thu được như bảng bên dưới: Xem tại trang 45 của tài liệu.
Bảng 12. Độ hồi tưởng và độ chính xác đối với kết quả thu được nhờ khai phá luật kết hợp  - Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

Bảng 12..

Độ hồi tưởng và độ chính xác đối với kết quả thu được nhờ khai phá luật kết hợp Xem tại trang 45 của tài liệu.
Bảng 13. Độ hồi tưởng, độ chính xác của kết quả thu được sau 2 bước cắt tỉa - Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

Bảng 13..

Độ hồi tưởng, độ chính xác của kết quả thu được sau 2 bước cắt tỉa Xem tại trang 46 của tài liệu.
Kết quả trích chọn cuối cùng được thể hiện trong bảng dưới đây: - Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

t.

quả trích chọn cuối cùng được thể hiện trong bảng dưới đây: Xem tại trang 47 của tài liệu.
Bảng 14. Độ hồi tưởng và chính xác của kết quả sau các bước xác định thuộc tính ít phổ biến - Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

Bảng 14..

Độ hồi tưởng và chính xác của kết quả sau các bước xác định thuộc tính ít phổ biến Xem tại trang 47 của tài liệu.
Hình 4. Đồ thị độ đo F1 của kết quả sau các bước trích chọn. 4.4.Đánh giá kết quả thực nghiệm:  - Trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp cận khai phá luật kết hợp

Hình 4..

Đồ thị độ đo F1 của kết quả sau các bước trích chọn. 4.4.Đánh giá kết quả thực nghiệm: Xem tại trang 48 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan