Nghiên cứu và xây dựng hệ thống gợi ý địa điểm du lịch

26 40 0
  • Loading ...
1/26 trang

Thông tin tài liệu

Ngày đăng: 13/04/2018, 20:58

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA TRẦN HỮU PHƯỚC NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG GỢI Ý ĐỊA ĐIỂM DU LỊCH Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 TĨM TẮT LUẬN VĂN KHOA HỌC MÁY TÍNH Đà Nẵng – Năm 2017 Cơng trình hoàn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: TS Nguyễn Văn Hiệu Phản biện 1: PGS TS Võ Trung Hùng Phản biện 2: GS TS Nguyễn Thanh Thủy Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Khoa học máy tính họp Đại học Đà Nẵng vào ngày 13 tháng năm 2017 * Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng - Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa – Đại học Đà Nẵng MỞ ĐẦU Lý chọn đề tài Trong thời đại bùng nổ thông tin, nhu cầu tìm kiếm thơng tin Internet ngày trở nên phổ biến Việc cần tìm thơng tin sản phẩm đó, giải pháp hầu hết người dùng sử dụng đưa câu hỏi vào công cụ tìm kiếm thay tìm website/forum chuyên ngành Tuy nhiên, cơng cụ tìm kiếm đưa danh sách lựa chọn đưa lựa chọn tốt Ví dụ, du khách lần đầu đến Quảng Nam, muốn tìm địa điểm du lịch cách tìm Google “Quang Nam tour”, nhận gần 20.000.000 kết trả Hầu hết địa điểm du lịch danh sách kết xa lạ tự quảng cáo tốt nhất, làm cho du khách bối rối biển thơng tin, vậy, du khách cần lời khuyên cho trường hợp Hệ thống gợi ý (Recommender system - RS) trở thành lĩnh vực nghiên cứu quan trọng kể từ báo lọc cộng tác (Collaborative filtering - CF) xuất vào năm 1990 Hiện nay, quan tâm hệ thống gợi ý cao cần thiết ứng dụng giúp người dùng xử lý với tình trạng tải thông tin đưa nội dung lời khuyên phù hợp cho cá nhân Hệ thống gợi ý dạng kỹ thuật lọc thông tin sử dụng rộng rãi nhiều lĩnh vực (như thương mại điện tử, giải trí, giáo dục, ) nhằm dự đốn sở thích người dùng nhờ vào thông tin cá nhân phản hồi (đánh giá) từ người dùng Hệ thống gợi ý học từ người dùng gợi ý sản phẩm tốt số sản phẩm phù hợp Các hệ thống gợi ý thường dùng ứng dụng có hai thực thể người dùng sản phẩm mà khơng đặt chúng vào ngữ cảnh cung cấp gợi ý Nói cách khác hệ thống gợi ý đa số tập trung vào giới thiệu sản phẩm phù hợp với người dùng cá nhân mà không xem xét đến thông tin ngữ cảnh người dùng thời gian, địa điểm… Để hệ thống gợi ý dự đốn xác sở thích người dùng phụ thuộc vào mức độ mà hệ thống gợi ý kết hợp thông tin theo ngữ cảnh Với việc ngành du lịch năm qua phát triển mạnh mẽ, đem lại lợi ích to lớn kinh tế - xã hội, góp phần thúc đẩy ngành sản xuất dịch vụ phát triển Nhờ tiềm đa dạng phong phú với nhiều danh lam thắng cảnh, từ thu hút khơng khách du lịch nước Tuy nhiên, khách du lịch thường gặp phải khó khăn đến nơi lạ lẫm Du khách thường phải nhờ đến trợ giúp hướng dẫn viên du lịch phải dựa vào sách hướng dẫn hay đồ, công cụ tìm kiếm để có thơng tin địa điểm du lịch tốt họ Tuy nhiên, trợ giúp có hạn chế định như: khách du lịch khó tìm thấy thơng tin chi tiết địa điểm du lịch cần tham quan để có chuẩn bị cần thiết Hoặc là, hướng dẫn viên thường đưa khách du lịch đến tour du lịch định sẵn tham quan điểm du lịch chính, điểm du lịch thú vị lại khơng tham quan, cách địa điểm gần Vì lý đó, tơi định lựa chọn luận văn tốt nghiệp với đề tài “ Nghiên cứu xây dựng hệ thống gợi ý địa điểm du lịch” sử dụng công nghệ hệ thống gợi ý để hỗ trợ người dùng dễ dàng tìm thấy địa điểm du lịch phù hợp với họ, phù hợp với điều kiện ngữ cảnh xung quanh Mục tiêu nhiệm vụ đề tài 2.1 Mục tiêu - Nghiên cứu lý thuyết phương pháp, kỹ thuật xây dựng hệ thống gợi ý Từ đó, tối ưu phương pháp dự đoán để hỗ trợ cho hệ thống gợi ý - Xây dựng hệ thống gợi ý địa điểm du lịch 2.1 Nhiệm vụ Để hệ thống đạt mục tiêu đề ra, đề tài tiến hành giải nhiệm vụ sau: - Phân tích phương pháp gợi ý tồn đề xuất hướng tiếp cận tối ưu - Ứng dụng hướng tiếp cận để tiến đến phân tích, thiết kế xây dựng hệ thống gợi ý - Triển khai xây dựng hệ thống gợi ý địa điểm du lịch đánh giá kết Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu - Nghiên cứu phương pháp lọc cộng tác, kỹ thuật phân rã ma trận xử lý thông tin theo ngữ cảnh - Thông tin liên quan đến du lịch tỉnh Quảng Nam 3.2 Phạm vi nghiên cứu - Nghiên cứu tổng quan lý thuyết phương pháp gợi ý, tập trung vào phương pháp lọc cộng tác, kỹ thuật phân rã ma trận sở liệu thực nghiệm để xây dựng hệ thống gợi ý hướng cải tiến - Ứng dụng cho hệ thống gợi ý tra cứu địa điểm du lịch phạm vi tỉnh Quảng Nam đưa lên Internet Phương pháp nghiên cứu Trong luận văn sử dụng phương pháp sau: - Tìm hiểu thực tế, tổng hợp thống kê liệu du lịch Quảng Nam - Kỹ thuật phân rã ma trận (matrix factorization – MF) - Phương pháp xử lý thông tin ngữ cảnh đầu vào, đầu - Phương pháp đánh giá dựa độ đo (Root Mean Squared Error – RMSE) Ý nghĩa khoa học thực tiễn đề tài - Ý nghĩa khoa học:  Đề xuất kỹ thuật phân rã ma trận vào hệ thống gợi ý ngữ cảnh  Đề tài bước đầu nghiên cứu trường hợp riêng kỹ thuật phân rã ma trận  Góp phần vào công nghiên cứu phát triển ứng dụng thông minh - Ý nghĩa thực tiễn:  Ứng dụng triển khai tới người dùng, giúp tiết kiệm thời gian, chi phí tạo tiện dụng tối đa cho người dùng Giúp phát triển du lịch Quảng Nam Bố cục luận văn Ngoài phần mở đầu kết luận, nội dung đề tài chia thành 03 chương: Chương 1: Tổng quan du lịch Quảng Nam hệ thống gợi ý Chương 2: Phương pháp gợi ý mơ hình đề xuất Chương 3: Xây dựng hệ thống gợi ý địa điểm du lịch: Trong chương tập trung vào việc phân tích thiết kế, xây dựng, thử nghiệm hệ thống từ đánh giá kết đạt Chương - TỔNG QUAN DU LỊCH QUẢNG NAM VÀ HỆ THỐNG GỢI Ý Trong chương này, trình bày lý thuyết du lịch, điểm du lịch, giới thiệu du lịch Quảng Nam, khái niệm hệ thống gợi ý, nêu bật tầm quan trọng điểm du lịch giá trị sở liệu hệ thống gợi ý, đồng thời phân tích số website có chức tương tự Chương sở lý luận cho chương 1.1 TỔNG QUAN VỀ DU LỊCH QUẢNG NAM 1.2 CÁC PHƯƠNG PHÁP GỢI Ý 1.2.1 Phương pháp gợi ý dựa nội dung Gợi ý dựa nội dung khai thác khía cạnh có liên quan đến nội dung thông tin sản phẩm người dùng sử dụng hay truy cập khứ để tạo nên gợi ý hay nói cách khác gợi ý nội dung dựa mô tả có sẵn đối tượng Các phương pháp tiếp cận cho lọc nội dung có nguồn gốc từ lĩnh vực truy vấn thơng tin, sản phẩm biểu diễn hồ sơ sản phẩm, người dùng biểu diễn hồ sơ người dùng Phương pháp gợi ý dựa nội dung người dùng u với sản phẩm i đánh giá dựa độ phù hợp r(u, i) 1.2.2 Phương pháp gợi ý dựa lọc cộng tác Lọc cộng tác kỹ thuật sử dụng sở thích cá nhân người dùng để đưa gợi ý Một hệ thống lọc cộng tác xác định người dùng có sở thích tương tự người dùng trước gợi ý sản phẩm mà họ thích Bản chất phương pháp hình thức gợi ý truyền miệng tự động Trong phương pháp này, hệ thống so sánh, tính tốn độ tương tự người dùng hay sản phẩm, từ người dùng gợi ý thông tin, sản phẩm ưa chuộng người dùng có thị hiếu Các hệ gợi ý dựa lọc cộng tác không u cầu q nặng vào việc tính tốn, đưa gợi ý có độ xác cao nhanh chóng cho số lượng lớn người dùng 1.2.3 Phương pháp gợi ý lai Một hệ thống lai kết hợp kỹ thuật lọc nội dung lọc cộng tác cố gắng sử dụng ưu điểm kỹ thuật Ví dụ, phương pháp lọc cộng tác gặp vấn đề với sản phẩm mới, khơng gợi ý sản phẩm mà khơng có xếp hạng Điều lại đơn giản phương pháp tiếp cận dựa nội dung việc dự đoán cho sản phẩm dựa mơ tả người dùng tính có sẵn dễ dàng 1.3 HỆ THỐNG GỢI Ý 1.3.1 Giới thiệu hệ thống gợi ý Hệ thống gợi ý hệ thống hỗ trợ định nhằm gợi ý thông tin liên quan đến người dùng cách dễ dàng nhanh chóng, phù hợp với người dùng Hệ thống bao gồm kỹ thuật công cụ phần mềm nhằm đưa gợi ý cho người dùng, đáp ứng nhu cầu họ sản phẩm, dịch vụ Internet Những gợi ý cung cấp nhằm hỗ trợ người dùng đưa định lựa chọn sản phẩm, dịch vụ phù hợp với nhu cầu thị hiếu mình, chẳng hạn như: mua sản phẩm nào, nghe thể loại nhạc hay tin tức trực tuyến nên đọc, 1.3.2 Chức hệ thống gợi ý 1.3.3 Dữ liệu nguồn tri thức 1.3.3.1 Sản phẩm 1.3.3.2 Người dùng 1.3.3.3 Giao dịch 1.3.4 Bài toán tổng quát hệ thống gợi ý Cho U tập tất người dùng hệ thống gợi ý, I tập tất cảc sản phẩm gợi ý Hàm r(u,i) có tác dụng đo độ phù hợp sản phẩm i với người dùng u: r:U  I  R, R tập đánh giá thứ tự Với người dùng u ∈ U, hệ thống gợi ý cần chọn sản phẩm i ∈ I chưa biết với người dùng u cho hàm r(u, i) đạt giá trị lớn Vậy cơng việc giải thuật tìm giá trị hàm r=f(u, i), với r lớn sản phẩm i người dùng u ưa thích Trong hệ thống gợi ý, mức độ phù hợp sản phẩm thường biểu diễn theo đánh giá thang điểm (rating), tùy vào ứng dụng đánh giá thực trực tiếp người dùng tính toán hệ thống Hệ thống gợi ý gồm ba hoạt động chính: Bước 1: Thu thập thơng tin người dùng người dùng tương tác với hệ thống lưu vào hồ sơ người dùng Bước 2: Hệ thống xác định mối quan tâm người dùng thực thi thuật toán tư vấn nhằm so sánh, đánh giá mối liên hệ hồ sơ người dùng tương tự khác hồ sơ sản phẩm có Bước 3: Đề xuất tập hợp sản phẩm người dùng quan tâm 1.3.5 Các website du lịch Việt Nam Chương - PHƯƠNG PHÁP GỢI Ý VÀ MƠ HÌNH ĐỀ XUẤT Mỗi phương pháp gợi ý có ưu điểm hạn chế riêng, khai thác mối liên hệ mạ trận đánh giá người dùng Không giống phương pháp lọc theo nội dung, lọc công tác khai thác sở thích người dùng để tạo gợi ý áp dụng kỹ thuật phân rã ma trận kỹ thuật tiến số kỹ thuật phương pháp CF 2.1 PHƯƠNG PHÁP LỌC CỘNG TÁC Lọc cộng tác (Collaborative Filtering - CF) gợi ý sản phẩm dự đoán sản phẩm hợp lý cho người dùng, dựa hành vi khứ người dùng, ví dụ như: lịch sử giao dịch, đánh giá sản phẩm, thời gian xem mục tin… đặc biệt khơng cần thiết phải tạo hồ sơ tường minh (Explicit feedback) cho người dùng Bài toán lọc cộng tác: Cho tập hợp hữu hạn U = {u1, u2, …, uN} tập gồm N người dùng, P = {p1, p2, …, pM} tập gồm M sản phẩm mà người dùng lựa chọn Mỗi sản phẩm pi ϵ P hàng hóa, phim, ảnh, tạp chí, tài liệu, sách, báo, dịch vụ dạng thông tin mà người dùng cần đến Mối quan hệ tập người dùng U tập sản phẩm P biểu diễn thông qua ma trận đánh giá R = { rij }, i = 1, , N, j = 1, , M ma trận đánh giá, người dùng ui ϵ U đưa đánh giá cho số sản phẩm pi ϵ P số rij Giá trị rij phản ánh mức độ ưa thích người dùng ui sản phẩm pj, giá trị rij thu thập trực tiếp cách hỏi ý kiến người dùng thu thập gián tiếp thông qua chế phản hồi người dùng Giá trị rij =  trường hợp người dùng ui chưa đánh giá chưa biết đến sản phẩm pj 10 Lọc cộng tác tiếp cận theo hai xu hướng chính: Lọc cộng tác dựa nhớ lọc cộng tác dựa mơ hình Mỗi phương pháp tiếp cận có ưu điểm hạn chế riêng, khai thác mối liên hệ ma trận đánh giá người dùng 2.1.1 Ưu điểm phương pháp lọc cộng tác 2.1.2 Các hình thức tiếp cận 2.1.2.1 Phương pháp tiếp cận dựa nhớ 2.1.2.2 Phương pháp tiếp cận dựa mơ hình 2.2 KỸ THUẬT PHÂN Rà MA TRẬN Kỹ thuật phân rã ma trận xem kỹ thuật tiến số kỹ thuật dùng phương pháp CF cho phép ta khám phá đặc tính tiềm ẩn nằm bên tương tác người dùng hạng mục Một thành công mơ hình thuộc tính ẩn (Latent Factor Model) dựa phân tích ma trận Trong hình thức bản, ma trận thừa số đặc trưng sản phẩm người dùng vectơ yếu tố suy từ mơ hình đánh giá sản phẩm Phương pháp ngày trở nên phổ biến cách kết hợp khả mở rộng tốt độ xác cao Hệ thống gợi ý dựa loại liệu đầu vào khác nhau, thường đặt ma trận hai chiều với chiều biểu diễn cho người dùng chiều lại sản phẩm người dùng quan tâm Có phương pháp thu thập liệu Thu thập liệu trực tiếp qua thông tin phản hồi trực tiếp (explicit feedback) từ phía người dùng quan tâm họ dành cho sản phẩm Các quan tâm thường đặc trưng số gọi điểm đánh giá Ma trận điểm đánh giá từ thu thập trực tiếp thường ma trận thưa người dùng thường có xu hướng 11 đánh giá tỉ lệ nhỏ hạng mục có sẵn Trường hợp khơng thu thập liệu trực tiếp được, hệ tư vấn phải thu thập liệu gián tiếp (implicit feedback) để suy diễn quan tâm người dùng cách quan sát thái độ người dùng khứ từ liệu lịch sử mua, duyệt liệu để tìm kiếm mơ hình, … Dữ liệu gián tiếp thường có khơng có kiện nên ma trận liệu ma trận dầy đặc Điểm mạnh phương pháp phân rã ma trận khả cho phép kết hợp thông tin bổ sung, xử lý trường hợp mà Content filtering khó xử lý người dùng mới, sản phẩm Mục đích kỹ thuật phân rã ma trận việc chia ma trận lớn X thành hai ma trận có kích thước nhỏ W H, cho ta xây dựng lại X từ hai ma trận nhỏ xác tốt, nghĩa là: X ~ WH T Hình 2.3 Minh họa kỹ thuật phân rã ma trận Trong đó, W ∈ |U|×K ma trận mà dòng u véc-tơ bao gồm K nhân tố tiềm ẩn (latent factors) mô tả người dùng 12 u, H ∈|I|×K ma trận mà dòng i vectơ bao gồm K nhân tố tiềm ẩn mô tả cho item i Gọi wuk hik phần tử tương ứng hai ma trận W H, xếp hạng người dùng u mục tin i dự đốn cơng thức: eui  rui  rˆui ∀ u,i ∈ X eui làˆsai số huấn luyện xếp hạng thứ (u,i) Như vậy, vấn đề then chốt kỹ thuật phân rã ma trận làm để tìm giá trị hai tham số W H Hai tham số có cách tối ưu hóa hàm mục tiêu (objective function) Trong hệ thống gợi ý, hàm mục tiêu phân rã ma trận hay sử dụng sau : Một kỹ thuật dùng để tối ưu hóa hàm mục tiêu giảm gradient ngẫu nhiên (Stochastic Gradient Descent) Để tối ưu hóa hàm mục tiêu (2.2), trước tiên ta khởi tạo giá trị ngẫu nhiên cho W H, sau bước cập nhật giá trị chúng hàm mục tiêu hội tụ giá trị nhỏ (convergence) Để làm điều đó, ta cần phải xác định nên tăng 13 hay nên giảm giá trị W H qua lần cập nhật, cần phải tìm đạo hàm phần chúng:  OMF = 2(r  rˆ )h ui ui ik w uk  OMF= 2(r  rˆ ) w uk ui ui hik Sau tìm đạo hàm, cần giảm thiểu tối đa độ lỗi cập nhập lại cho wuk hik lặp lặp lại (tối ưu hoá kỹ thuật Stochastic Gradient Descent- kỹ thuật giảm gradient ngẫu nhiên) Các phần tử W H cập nhập ngược hướng với giá trị đạo hàm, qua công thức : new old w uk  w uk  hiknew  hikold    old O MF  w uk  2 (rui  rˆui )hik w uk  MF O  hikold  2 (rui  rˆui )w uk hik  : tốc độ học (learning rate) Quá trình cập nhập thực đến hàm mục tiêu đạt giá trị nhỏ đến số lần lặp xác định trước Sau q trình tối ưu, ta có giá trị W H Chính tắc hóa (Regularization): Để ngăn ngừa khớp hay gọi học vẹt (overfitting – xảy mơ hình dự đốn cho kết tốt liệu huấn luyện, cho kết liệu thử nghiệm) người ta thay đổi hàm mục tiêu (2.2) cách 14 thêm vào đại lượng gọi tắc hóa (regularization) để điều khiển độ lớn giá trị W H Hàm mục tiêu (2.2) trở thành: O MF   u ,iD Train Trong K (rui   w uk hik )2   ( W k 1 F  H F)  hệ số tắc hố (0  
- Xem thêm -

Xem thêm: Nghiên cứu và xây dựng hệ thống gợi ý địa điểm du lịch, Nghiên cứu và xây dựng hệ thống gợi ý địa điểm du lịch

Từ khóa liên quan

Gợi ý tài liệu liên quan cho bạn

Nhận lời giải ngay chưa đến 10 phút Đăng bài tập ngay