Chương 2 Hệ thống gợi ý Kỹ thuật và ứng dụng Nguyễn Thái Nghe

See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/310059523 Hệ thống gợi ý: Kỹ thuật ứng dụng Chapter · March 2016 CITATIONS READS 4,285 author: Nguyen Thai-Nghe Can Tho University 38 PUBLICATIONS 513 CITATIONS SEE PROFILE Some of the authors of this publication are also working on these related projects: Geodata for Agriculture and Water in Vietnam/ Angiang, Soctrang provinces View project All content following this page was uploaded by Nguyen Thai-Nghe on 13 November 2016 The user has requested enhancement of the downloaded file Chương Hệ thống gợi ý: Kỹ thuật ứng dụng Nguyễn Thái Nghe Khoa Công nghệ thông tin Truyền thông, Trường Đại học Cần Thơ Email: ntnghe@cit.ctu.edu.vn Abstract Recommender Systems (RS) are successfully applied in predicting user preferences For instance, RS has been used in many areas such as in e-commerce (for online shopping), in entertainments (music/movie/video clip recommendation), and in education (learning resource recommendation) Because of its usefulness and popularity, RS becomes an interesting and potential research topic It is widely used for building intelligent systems, especially decision support systems In this work, we introduce about the RS and the current techniques which are commonly used in RS We then thoroughly describe one of the prominent techniques which is Matrix Factorization (MF) and its variant models We also introduce several applications of RS that we have recently conducted and present their experimental results Keywords Recommender systems, collaborative filtering, rating prediction, matrix factorization Tóm tắt Hệ thống gợi ý (Recommender Systems – RS) ứng dụng thành cơng dự đốn sở thích/thói quen người dùng dựa vào sở thích/thói quen họ q khứ RS ứng dụng nhiều lĩnh vực khác thương mại điện tử (hỗ trợ bán hàng trực tuyến), giải trí (gợi ý phim ảnh, hát, ), giáo dục đào tạo (gợi ý nguồn tài ngun học tập, nghiên cứu, ) Chính khả ứng dụng rộng rãi nó, RS mở nhiều tiềm nghiên cứu xây dựng hệ thống thực tế, đặc biệt hệ hỗ trợ người dùng định Trong viết này, giới thiệu sơ lược hệ thống gợi ý vấn đề liên quan, nhóm kỹ thuật ứng dụng RS, từ trình bày chi tiết vài kỹ thuật cho kết dự đoán tin cậy - kỹ thuật phân rã ma trận (matrix factorization) biến thể Bên cạnh đó, giới thiệu lĩnh vực ứng dụng RS cơng trình xuất gần đây, kèm theo kết thực nghiệm hệ thống minh họa cho lĩnh vực Từ khóa Hệ thống gợi ý, lọc cộng tác, dự đoán xếp hạng, kỹ thuật phân rã ma trận 2.1 Giới thiệu Hệ thống gợi ý (Recommender Systems - RS) dạng hệ thống lọc thông tin (information filtering), sử dụng để dự đốn sở thích (preferences) hay xếp hạng (rating) mà người dùng dành cho mục thơng tin (item) mà họ chưa xem xét tới khứ (item hát, phim, đoạn video clip, sách, báo, ) Ví dụ, hệ thống bán hàng trực tuyến (chẳng hạn Amazon), nhằm tối ưu hóa khả mua sắm khách hàng (user), người ta quan tâm đến việc khách hàng ‘yêu thích’ sản phẩm (item) cách dựa vào liệu khứ họ (dữ liệu xếp hạng mà người dùng bình chọn sản phẩm, thời gian duyệt (browse) sản phẩm, số lần click chuột sản phẩm, ) từ hệ thống dự đốn người dùng thích sản phẩm đưa gợi ý phù hợp cho họ Hình ví dụ minh họa cho hệ thống gợi ý bán hàng Amazon Ngoài lĩnh vực thương mại điện tử thấy ví dụ trên, RS ứng dụng thành công nhiều lĩnh vực khác giải trí: gợi ý hát cho người nghe (ví dụ, hệ thống LastFM - www.last.fm), gợi ý phim ảnh (ví dụ, hệ thống Netflix - www.netflix.com), gợi ý video clip (ví dụ, hệ thống YouTube - www.youtube.com); giáo dục đào tạo (gợi ý nguồn tài nguyên học tập sách, báo, địa web,… cho người học); hệ thống trợ giảng thơng minh (như dự đốn lực học tập người học) (Thai-Nghe et.al, 2012, 2011a) Hình Hệ thống gợi ý sản phẩm Amazon Hệ thống gợi ý không đơn dạng Hệ thống thơng tin mà lĩnh vực nghiên cứu nhà khoa học quan tâm Kể từ năm 2007 đến nay, hàng năm có hội thảo chuyên hệ thống gợi ý ACM (ACM RecSys) tiểu bang dành riêng cho RS hội nghị lớn khác ACM KDD, ACM CIKM, Đã có nhiều công bố quốc tế lĩnh vực này, bạn đọc có quan tâm tham khảo thêm trang web hội thảo xem (Su et.al., 2009), (Ricci et.al., 2010), (Bobadilla et.al., 2013) Trong nước, xuất vài công bố khoa học lĩnh vực này, nhóm tác giả (Nguyễn Duy Phương Từ Minh Phương, 2013) đề xuất phương pháp tính tốn mức độ tương tự cặp người dùng sản phẩm đựa đồ thị người dùng – sản phẩm Một nghiên cứu khác nhóm tác giả (Phạm Minh Chuẩn cộng sự, 2013) trình bày hệ thống khuyến nghị cơng việc cách sử dụng phương pháp phát chủ đề ẩn dựa mơ hình xác suất tốn học kết hợp với kỹ thuật dựa lọc công tác Tuy vậy, khu vực Đồng sông cửu long chưa thấy xuất nhóm nghiên cứu RS Trong khuôn khổ viết này, giới thiệu sơ lược hệ thống gợi ý vấn đề dự đoán xếp hạng (rating prediction) hệ thống gợi ý Bài viết giới thiệu nhóm kỹ thuật sử dụng phổ biến RS, sau sâu vào tìm hiểu chi tiết kỹ thuật trội (state-of-the-art) RS – kỹ thuật phân rã ma trận (matrix factorization – MF) (Koren, 2009) biến thể Bên cạnh đó, chúng tơi trình bày lĩnh vực ứng dụng RS, kèm theo số kết minh họa cho lĩnh vực 2.2 Hệ thống gợi ý (Recommender Systems - RS) 2.2.1 Các khái niệm Trong RS, thơng thường người ta quan tâm đến ba thơng tin người dùng (user), mục tin (item, item sản phẩm, phim, hát, báo, tùy hệ thống), phản hồi (feedback) người dùng mục tin (thường xếp hạng/đánh giá – rating biểu diễn mức độ thích/quan tâm họ) Các thông tin biểu diễn thông qua ma trận Hình Ở đó, dòng user, cột item, ô giá trị phản hồi (ví dụ, xếp hạng) biểu diễn “mức độ thích” user item tương ứng Các có giá trị item mà user xếp hạng khứ Những ô trống item chưa xếp hạng (điều đáng lưu ý user xếp hạng cho vài item khứ, có nhiều ô trống ma trận – gọi ma trận thưa – sparse matrix) Hình Ma trận biểu diễn liệu RS (user-item-rating matrix) Nhiệm vụ RS dựa vào có giá trị ma trận (dữ liệu thu từ q khứ), thơng qua mơ hình xây dựng, RS dự đốn trống (của user hành), sau xếp kết dự đốn (ví dụ, từ cao xuống thấp) chọn Top-N items theo thứ tự, từ gợi ý chúng cho người dùng Một cách hình thức: • Gọi U tập hợp n người dùng (user), |U| = n, u người dùng cụ thể (u ∈ U) • Gọi I tập hợp m mục thông tin (item), |I| = m, i mục thơng tin cụ thể (i ∈ I) • Gọi R tập hợp giá trị phản hồi người dùng (các phản hồi thường ‘sở thích’ (preference) người dùng) rui ∈ R (R ⊂ ℜ) xếp hạng người dùng u mục thơng tin i • Gọi Dtrain ⊆ U × I × R tập d liu hun luyn Gi Dtest U ì I ì R l d liu kim th Gọi r: U × I → R (u, i) ↦ rui Mục tiêu RS tìm hàm rˆ : U × I → ℜ Sao cho hàm ξ(r, rˆ ) thỏa mãn điều kiện Ví dụ, ξ hàm ước lượng độ xác cần phải tối đa hóa, ξ hàm để đo độ lỗi Root Mean Squared Error RMSE = (testrui − rˆ(u,i) )2 ∑ test | D | u ,i ,r∈D cần phải tối tiểu 2.2.2 Thơng tin phản hồi từ người dùng hai dạng tốn RS Trong RS, giá trị phản hồi (feedback) rui người dùng mục tin ghi nhận lại để làm sở cho việc dự đoán giá trị Tùy theo hệ thống mà giá trị có ý nghĩa khác nhau, ví dụ dùng để đo độ “phù hợp” hay “mức độ thích” (thường đánh giá sản phẩm) hệ thống thương mại điện tử hay “năng lực/kết thực hiện” người dùng hệ thống elearning Giá trị rui xác định cách tường minh (explicit feedbacks) thơng qua việc đánh giá/xếp hạng (ví dụ, rating từ « đến «««««; hay like (1) dislike (0),…) mà u bình chọn cho i; rui xác định cách không tường minh (implicit feedbacks) thông qua số lần click chuột, thời gian mà u duyệt/xem i,… Có dạng tốn RS dự đoán xếp hạng (rating prediction) hệ thống có phản hồi tường minh trình bày dự đốn mục thơng tin (item prediction/recommendation) việc xác định xác suất mà người dùng thích mục tin tương ứng (Pilaszy & Tikk, 2009) Trong khuôn khổ viết này, tập trung nhiều lĩnh vực dự đoán xếp hạng 2.3 Các kỹ thuật RS Hiện tại, RS có nhiều giải thuật đề xuất, nhiên gom chúng vào nhóm (xem thêm (Su et.al., 2009), (Ricci et.al., 2010), (Bobadilla et.al., 2013)) • Nhóm giải thuật lọc cộng tác (Collaborative Filtering): nhóm này, giải thuật chủ yếu sử dụng: o Phương pháp láng giềng (Neighborhood-based, gọi Memorybased), dựa liệu khứ người dùng “tương tự - similarity” (user-based approach), dựa liệu khứ item “tương tự” (item-based approach) o Dựa mơ hình (Model-based): Nhóm liên quan đến việc xây dựng mơ hình dự đoán dựa liệu thu thập q khứ Như mơ hình Bayesian, mơ hình nhân tố tiềm ẩn (latent factor models): kỹ thuật phân rã ma trận (matrix factorization) điển hình • Nhóm giải thuật lọc nội dung (Content-based Filtering): Gợi ý item dựa vào hồ sơ (profiles) người dùng dựa vào nội dung/thuộc tính (attributes) item tương tự item mà người dùng chọn q khứ • Nhóm lai ghép: Kết hợp cách • Nhóm kỹ thuật khơng cá nhân hóa (non-personalization) Một khuyết điểm phương pháp lọc theo nội dung khó khăn việc thu thập thông tin, phần lớn mô hình dựa lọc cộng tác cần thơng tin (user id, item id, feedback) hoạt động tốt Do khuynh hướng đa phần nhà nghiên cứu thiên nhóm lọc cộng tác Sau chúng tơi trình bày tóm tắt kỹ thuật thông dụng trội (state-ofthe-art) hệ thống gợi ý 2.3.1 Kỹ thuật k láng giềng dựa người dùng/mục tin (User/Item kNNs) Có hai cách tiếp cận lọc cộng tác theo mơ hình K láng giềng dựa người dùng (User_kNN) – dự đoán dựa tương tự người dùng dựa mục tin (Item_kNN) – dự đoán dựa tương tự mục tin Kỹ thuật k láng giềng dựa người dùng (User_kNN) xác định độ tương tự hai người dùng thông qua việc so sánh đánh giá họ sản phẩm, sau dự đốn xếp hạng sản phẩm i người dùng u, thông qua xếp hạng người dùng tương tự với người dùng u Độ tương tự người dùng u người dùng u' tính theo Cosine Pearson sau (Herlocker et al., 1999): Trong đó: rui ru’i đánh giá người dùng u u’ item i tương ứng Iuu' tập item đánh giá người dùng u người dùng u' 𝑟# giá trị đánh giá trung bình tất item người dùng u 𝑟#% giá trị đánh giá trung bình tất item người dùng u' Tương tự, kỹ thuật k láng giềng dựa mục tin (Item_kNN) xác định độ tương tự dựa mục tin phương pháp Cosine Pearson sau: Trong đó: Uii' tập người dùng có đánh hai mục tin i i’ 𝑟& giá trị đánh giá trung bình tất người dùng item i 𝑟&% giá trị đánh giá trung bình tất người dùng item i’ Sau tính toán độ tương tự người dùng hay sản phẩm, đánh giá người dùng u sản phẩm i dự đốn theo cơng thức bên (Resnick et al., 1994) Với phương pháp User_kNN, xếp hạng (đánh giá/ feedback) người dùng u sản phẩm i dự đốn qua cơng thức Trong Sim(u,u') độ tương tự người dùng u u' xác định phương pháp Cosine Pearson trình bày; Ku số người dùng có độ lân cận gần người dùng u (k láng giềng u) Với phương pháp Item_kNN, xếp hạng (đánh giá/ feedback) người dùng u sản phẩm i dự đốn qua cơng thức Trong đó, Sim(i, i') độ tương tự mục tin i i’ xác định phương pháp Cosine Pearson trình bày; Ki số item có độ lân cận gần item i (k láng giềng i) Phương pháp User_kNN để dự đoán đánh giá người dùng u sản phẩm i biểu diễn ngôn ngữ sau (Nguyễn Hùng Dũng Nguyễn Thái Nghe, 2014) 1:procedure USERKNN-CF(𝑟# , r, Dtrain) 2: for u=1 to N 3: Tính Sim_uu' 4: end for 5: Sort Sim_uu' // xếp giảm dần độ tương tự 6: 7: for k=1 to K Ku ← k // Các người dùng k gần u 8: end for 9: for i = to M 10: Tính 𝑟#( 11: end for 12:end procedure 2.3.2 Kỹ thuật Phân rã ma trận (Matrix factorization - MF) Kỹ thuật phân rã ma trận việc chia ma trận lớn X thành hai ma trận có kích thước nhỏ W H, cho ta xây dựng lại X từ hai ma trận nhỏ xác tốt (Koren et al., 2009), nghĩa X ~ WHT, minh họa Hình Trong đó, W ∈ ℜ|U|×K ma trận mà dòng u véc tơ bao gồm K nhân tố tiềm ẩn (latent factors) mô tả người dùng u; H ∈ ℜ|I|×K ma trận mà dòng i véc tơ bao gồm K nhân tố tiềm ẩn mô tả cho item i (lưu ý: K

Chương 2 Hệ thống gợi ý Kỹ thuật và ứng dụng Nguyễn Thái Nghe

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan