Phát triển một số phương pháp lọc thông tin cho hệ tư vấn

27 346 2
Phát triển một số phương pháp lọc thông tin  cho hệ tư vấn

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nguyễ n Duy Phương Trường Đại học Công nghệ Luận án TS. ngành: Khoa ho ̣ c ma ́ y ti ́ nh; Mã số: 62 48 01 01 Người hướng dẫn: PGS.TS. Tư ̀ Minh Phương , PGS.TS. Đinh Ma ̣ nh Tươ ̀ ng Năm bảo vệ: 2011

n mt s  cho h n    i h Lu TS.        ; : 62 48 01 01 ng dn: PGS.TS.   , PGS.TS.      o v: 2011 Abstract. Gii thiu tng quan v l        ,   cn ch ng ca v d lia lc cng t hp gia lc c c ni dung da  th. Ti nghi  kh thi ca  xut. Keywords. Khoa h;  ; ; H n Content PHẦN MỞ ĐẦU 1. Tính cấp thiết của luận án L  b n vi mL n c tip c lc dni dung sn phm lc d quen s dng sn phm ci hay c gc cSo vi lc theo ni dung, lc ci kt qu t lc bt k dc cp phi v d liu , i n phm mi cc tip tc u gii quyt. Kt hp gia lc cc ni dung  ng d  hin trng d liu ca lc cc tu nhiu trong thi gian gn  lc kt hp hin nay vn hn ch trong biu ding m ng ca mi nn  dng sn phm c Phát triển một số phương pháp lọc thông tin cho hệ vấn   2. Mục tiêu của luận án      3. Các đóng góp của luận án L  trong     4. Bố cục của luận án ,  Chƣơng 1 . Chƣơng 2  . Chƣơng 3  . Phần phụ lục   C3.    theo. CHƢƠNG 1 TỔNG QUAN VỀ LỌC THÔNG TIN 1.1. GIỚI THIỆU CHUNG L  ng b p cho m  c gn ph n, trang web, phim nh, dch v, phim hoc bt k dc sn sinh ra t n truy 1.1.1. Kiến trúc tổng quát của hệ thống lọc thông tin Mt h thng l   m bn  lin l n hc. Hình 1.1. Kiến trúc tổng quát của hệ thống lọc thông tin 1.1.2. Lọc thông tin và truy vấn thông tin Mt s  phn ca h thng l  thng truy vn  t s t gia h thng l thn n , sn ph thc hin. 1.1.3. Học máy và lọc thông tin n lp clọc dựa trên tri thức và lọc dựa trên dữ liệu. i vi lc dc, tc lc b dt. Mi lut biu din nhu cc mt mn lc. Mi quynh lc s c thc hin nu nhu kin ca lu c tha i lc d p cn d lic cho Biểu diễn Thông tin sản phẩm Biểu diễn Thông tin sản phẩm Thông tin các sản phẩm Sản phẩm phù hợp với người dùng Hồ người dùng Cập nhật thông tin huấn luyện Thông tin đặc tả người dùng Phản hồi người dùng Thành phần học Thành phần mô hình người dùng Thành phần lọc Thành phần phân tích dữ liệu Người dùng Nhà cung cấp thông tin n l dng t d li thng thu thc b dng k thut thp cp nht quy tc ln ti tri thng thi chng l tt  vp cn dc bing d liu lng. So vi lc dc, lc d liu nhi 1.1.4. Lọc thông tin và các hệvấn H c s dng ru ng d nhau ca khoa hm gi thich v n v i dng, bao gmn dc ni n dc cng n dc kt hp. 1.2. PHƢƠNG PHÁP LỌC THEO NỘI DUNG Lc theo nc hin d  ,  ng sn phm t vi nhng  gii thiu cho h nhng sn php cn cho lc theo nc ni dung d nh c ni dung dng vn  cn tip tu ca lc n  chi. 1.3. PHƢƠNG PHÁP LỌC CỘNG TÁC Lc c i s dng sn ph   n ph p cn cho lc cc ca  nh c cng vn  cn tip tu ca lc c d liu , v n phm mi. 1.4. PHƢƠNG PHÁP LỌC KẾT HỢP Lc kt ht hp gia lc cc ni dung, nhm tn dng li th ng hn ch ca mLc kt hc tip cn theo bn xu t hp tuyt ha lc nc ct hp a lc cc np nht cho c lc c c ni dung. V cn tip tu ca lc kt hu qu  u di t hp. 1.6. KẾT LUẬN Lc theo ni dung thc hin hiu qu v   c biu di i di dung n. Lc ci kt qu ti lc n lc bt k d p phng hp d liu i sn phm mi. Lc kt hp ch u qu nt hp gii quy c nh thun trong d c nc cy, trng tu ca luvn d liu ca lc c kt hp hiu qu gia lc c c ni dung. CHƢƠNG 2 LỌC CỘNG TÁC BẰNG PHƢƠNG PHÁP HỌC ĐA NHIỆM 2.1. ĐẶT VẤN ĐỀ Gi s h gm N U = {u 1 u N }, M sn phm P = {p 1 , p 2 p M } vi ma trR =(r ij ). Nhim v ca lc c   n thi u a n php nht vi u a  da R = (r ij ). i v thng lc c  |U|  ng sn phm |P| t ln. Tuy vy, m t s r n pho r ij   r ij  nh t nhiu ln s r ij =. Lc ci v  v d li. V  d liu    u c     c m   nh t c bit, v i cu. 2.2. LỌC CỘNG TÁC BẰNG PHÂN LOẠI c c i t ng ca ha  nhng sn phi m i s n luyn. Mc s d  chia sn phm m phù hợpkhông phù hợp   i vai n phng b  lo t sn phm c th phù hợpkhông phù hợpi vi  2.2.1. Phát biểu bài toán lọc cộng tác bằng phân loại Cho ma trR = (r ij  ca ma trng vi t; t ca ma trng vi tp sn phm; n t r ij ca ma trng va i i vi sn ph ng, m t tp rt nh   r ij  trng. Nhim v c  tr ng cho ma ma tr  thc hin d t b i s  Mi b i d  rng cho ma ma tri b  loi thc hin hun luy hun luyn; m hun luyc biu din i dng m; mng vi mi n d  c a ma tr. Ni  hun luy cn thi. 2.2.2. Phân loại bằng phƣơng pháp Boosting Boo ra b   bt hp nhiu b  c g  loi yu. Da k thut Boosting  xu dng. Lu dn Gentle AdaBoost (vit t GentleBoost)  xum c n, n t qu i tt trong nhiu ng dng. ng hi hai l   sau. Cho tp d liu hun luyn bao gm M  (x 1 , y 1 x M , y M ) vi x i c y i i nh y i = +1 hoc y i = ng vthích hợp không thích hợp   i mnh F(x c t     hp tuy     K k k xfxF 1 )()( f k (x i y  i x. Kt qu i cuc to ra bF (x)). Thum K  lp c th hi Đầu vào:  M x 1 , y 1 ), , (x M , y M x i  y i y i y i = 1. Đầu ra:  Trả lại ])([sign)]([sign 1    K k k xfxF Các bƣớc thực hiện: 1. w i = 1/M, i = 1 M, w i  i. F (x) = 0 2. k K a. f k (x b. F (x)  F (x) + f k (x) c.  )( iki xfy ii eww    3.  ])([sign)]([sign 1    K k k xfxF Hình 2.1. Thuật toán GentleBoost. Tc (a) ca mp, thua chn f k (x) sao cho sai s i  nht:    M i ikii xfywJ 1 2 ))(( (2.1)  c b c tinh b i yu f k (xc tii trng s.   i yc s dc quynh. Gc quynh n ct nh vi mt. Gc quynh la chn m hun luyn, sau  thu c  1 hay nh c biu din bi cc 2.2.       txbtxaxf ff k   (2.2)   (e) = 1 nu e   (e) = 0 nc li, t  ng, a b , x f   f cxng hp d li bao g o chng t i, gc quyc hichi gc ch chn mt. n luy chn ra gc tt nhc thc hin b tt c f  c tii m ca f ta a b  thui thin ch tham s tng 0.      i i f i f ii xw xyw a )0( )0(   (2.3)      i i f i f ii xw xyw b )0( )0(   (2.4)  tr f , a b c cho sai s d  nht s c ch to ra b i f k (xp th k. B i yu f k (x i F (xc b). T y i f k (x i ) ng s  y i f k (x i ) >0 b gim trng s. V khin b i  i nh hi i sai. Mệnh đề 2.1. Thuật toán GentleBoost cực tiểu hóa hàm lỗi khi phân loại thông qua các bước của phép khai triển Niutơn. 2.3. PHÂN LOẠI VỚI CÁC ĐẶC TRƢNG CHUNG 2.3.1. Phƣơng pháp học đa nhiệm c hing thi cho nhiu nhim v   kt qu d c gi lm. Bng vic suy ding thi gia m v, h     c nhng tri thc t nhiu nhim v   t qu d i nhim v . Vi nh ng nhim v l v hun luy  t qu d i nhim v b nhm v. Lc c    c thc hi      m bng k thut  thc hic ci tin bi mm sai s cho mi, thu gim sai s ng thi cho mt ti. Vi m lp thuc mt đặc trưng chung cho tt c i trong tp con c chn. , chuyn giao t qu d  2.3.2. Boosting đồng thời cho nhiều bài toán phân loại Vi tp N U; M sn phm U r ij   t c N  n, n N c cho bi M  hun luyn (x n 1 , y n 1 x n M , y n M y n j = r nj n cho sn phm jx nj = (r 1j r (n-1)j , r (n+1)j r Nj a tt c n phm j tr i n. Cng, ch nhng cr nj   mc s d hun luyn   kn li nh r nj = . Nh   ng s bng ti kt qu hun luyn. M hun luyn th j s ng vi n trng s w n j , n N. Mi trng s c s d i b i th n; w n j = 0 nu r nj = 0 tc  j n luyn b i n. Sai s ng tng sai s cho tt c N b i:    M i i n k n i n i N n xfywJ 1 2 1 ))(( (2.13) Ti mi vp n, gi S(tf tt nht cho t  phc, thut c c S(tn gc quyng sao cho sai s  nh nht. Gnh s          )( khi )( khi )0()0( ),( tSnc tSnxbxa txf n f S f S n k  (2.14)   gnh ph thuc tp con S(tc chp con f k a tu ),( txf n k c hiu i yu tc th n  k p con S(ti.   thup con S(tn vit li a tham s t     M i i n k n i n i N n txfywtJ 1 2 1 )),(()( (2.15) n so vi gc quynh  phc quynh (2.15) ng hn thuc tp con S(tng hng hp n c S(tf k (x) s t bng hng s c n  tng hp la chn b i m ch s ng gi hun luy1 (chng hng h    t Vi mi tp con S(t), gic ti (2.15) ta nhc: , )0( )0( )( )( 1 )( 1            tSn M i f i n i tSn M i f i n i n i S xw xyw fa   (2.16) , )0( )0( )( )( 1 )( 1            tSn M i f i n i tSn M i f i n i n i S xw xyw fb   (2.17)      M i n i M i n i n i n w yw c 1 1 , nk  S(t) (2.18) Ti mc lp, thu la chn tp con S(t) tt nht, t i (2.15) nh nhc quynh tt nht cho tu F n (x  loi th nc th hi  Đầu vào:  N n, n M M x n 1 , y n 1 ), , (x n M , y n M ). Đầu ra:  F n (x)] Các bƣớc thực hiện: 1.   w n j    r nj    w n j    r nj = , i = 1, , M; n = 1, , N F n (x) = 0 2. k K a. S(t) i. a S , b S c n theo (2.16), (2.17), (2.18) ii.     M i i n k n i n i N n txfywtJ 1 2 1 )),(()( b. S(t )(minarg * tJt t  c.  ),()()( * txfxFxF i n k nn  d.  ),( * txfy n i n i ik n i eww   3. F n (x)] Hình 2.4. Thuật toán MC-Boosting cải tiến sử dụng đặc trưng chung cho nhiều bài toán Mệnh đề 2.2. Thuật toán MC-Boost cực tiểu hóa hàm lỗi khi phân loại thông qua các bước của phép khai triển Niutơn. Mệnh đề 2.3. Số lượng các tập con S(t) cần duyệt của MC-Boost là O(KN 2 ). Trong đó, K là số vòng lặp, N là số lượng người dùng. 2.4. THỬ NGHIỆM VÀ KẾT QUẢ 2.4.1. Phƣơng pháp thử nghiệm  n, mt phn U tr c s dng  liu hun luyn, phi U te c s d kim tra. D liu hun luyc s d   i mc tp d liu kim tra un O u P u . O u P u n d  d liu hun luyO u . Sai s d MAE u vi mu thuc tp d liu ki sai s tuyi gi d  thi vi tt c sn phm thuc tp P u . 2.4.2. Dữ liệu thử nghiệm Thuc cc th nghi d li  d lic s d c c 2.4.3. Kết quả thử nghiệm P vn i nh n nht s d  d Mc 2.2.2. ng h d liu, c th c nhi trong tp kit qu ti MC Boost.  git qu c tri vi tng i, trong khi MC Boost ch ch  i.  li th  bic 5 hoi  MAE nh i GentleBoost  ng h yt h nh t vy gic ng ca vic thii. Bảng 2.1. Kết quả thử nghiệm với MovieLens     5 10 20  KPC 0.378 0.337 0.328 GentleBoost 0.350 0.322 0.291 MC Boost 0.329 0.305 0.292  KPC 0.361 0.330 0.318 GentleBoost 0.333 0.314 0.284 MC Boost 0.314 0.299 0.289  KPC 0.348 0.336 0.317 GentleBoost 0.325 0.304 0.279 MC Boost 0.308 0.298 0.283 Bảng 2.5. Kết quả thử nghiệm với EachMovie   p  5 10 20  KPC 0.559 0.474 0.449 GentleBoost 0.515 0.455 0.421 MC Boost 0.492 0.460 0.429  KPC 0.528 0.450 0.422 GentleBoost 0.495 0.424 0.393 MC Boost 0.484 0.419 0.393 600 KPC 0.521 0.437 0.378 GentleBoost 0.477 0.408 0.362 MC Boost 0.452 0.397 0.365 2.4.4. Phân tích kết quả  th ni tri c a 10 ln kim nghim ngp d liu kim tra  tit paired t-test.  ni tri thp (Statistical Significance) trong tt c  d liu hun luyu nh  ng t MAE c MC--Boost cho li kt qu i t 2.5. KẾT LUẬN        m cho lc c   n dn tng ca k thui Boosting kt hp vn t ci tin ca thu vic la chi b i yc thc hing th  nhau. m ch yu cng thi ti s d nh nhau, nh vy ci thi  i khi d liu t( n d   rn ph). Kt qu th nghi d liEachMovie  xut cho kt qu tnhng ng hp d liu . CHƢƠNG 3 LỌC KẾT HỢP DỰA TRÊN MÔ HÌNH ĐỒ THỊ 3.1 . VẤN ĐỀ LỌC KẾT HỢP 3.1.1. Bài toán lọc kết hợp Gi s h N U = {u 1 , u 2 ,…, u N M sn phm P = {p 1 , p 2 , , p M }. Mi u i  U i vi sn phm p j  P bng mt s r ij . M r ij  nh trong mt t ri r n,  coi r ij nh +1, -1, 0. Gi C = { c 1 , c 2 , ,c K K  hin nn phm P. u ma trn Y = (y ij ) biu th mi quan h gia sn phi dung sn phm c (3.2).          1 1 ij r Nếu người dùng u i đã thích hợp phân bổ sản phẩm p j Nếu người dùng u i không thích hợp phân bổ sản phẩm p j (3.1) Nếu người dùng u i chưa đánh giá sản phẩm p j     0 1 ij y (3.2) Nhim v ca lc kt h n thi u a nhng sn phm p k  P c u a r ij i dung C = { c 1 ,c 2 , ,c K }. 3.2. LỌC CỘNG TÁC DỰA TRÊN MÔ HÌNH ĐỒ THỊ 3.2.1. Phƣơng pháp biểu diễn đồ thị  th cho lc c   ca lc cR = (r ij c (3.1). Gi X=(x ij n cp N  M n t h 1 ij x ng vi trng u i n phm p j , 0 ij x ng vi tr n phm p j .      otherwise rif x ij ij 0 1  (3.3)  th biu dii vn phm (Gi t i - Sn phm) G =(V, Ec biu din theo ma trn Xnh V = U  P (U  tP p sn phm); tp cnh E bao gm tnh biu dia i vi sn phm. Cnh ni ginh u i U nh p j P c thit lp nu u i n phm p j ( 1 ij x ). Trng s ca mi cc lng r ij y, trong biu di th - Sn ph  : C trng s r ij =+1 biu diu i thíchn phm p j , cng s r ij =- 1 biu diu i không thíchn phm p j . 3.2.2. dự đoán trên đồ thị Ngƣời dùng- Sản phẩm -   :      -     3.2.2.1,                     3.2.2.4. 3.2.2.1. Tách đồ thị Ngƣời dùng- Sản phẩm thành các đồ thị con  th - Sn phm G =(V, E)          X = (x ij ) N×M c 3.2.1.      ij xX  N×M     (3.4).      ij xX  N×M       nh theo   (3.5).       otherwise rif x ij ij 0 01 (3.4)       otherwise rif x ij ij 0 01 (3.5)  th G + =(V, E + c biu din theo ma trn X +        G, p cnh E +         G. nếu sản phẩm p i có đặc trưng nội dung c j nếu sản phẩm p i không có đặc trưng nội dung c j c j .  dng sn phm c  Phát triển một số phương pháp lọc thông tin cho hệ tư vấn  . n hc. Hình 1.1. Kiến trúc tổng quát của hệ thống lọc thông tin 1.1.2. Lọc thông tin và truy vấn thông tin Mt s  phn ca h thng l

Ngày đăng: 26/11/2013, 20:30

Hình ảnh liên quan

Hình 1.1. Kiến trúc tổng quát của hệ thống lọc thông tin - Phát triển một số phương pháp lọc thông tin  cho hệ tư vấn

Hình 1.1..

Kiến trúc tổng quát của hệ thống lọc thông tin Xem tại trang 2 của tài liệu.
Hình 2.1. Thuật toán GentleBoost. - Phát triển một số phương pháp lọc thông tin  cho hệ tư vấn

Hình 2.1..

Thuật toán GentleBoost Xem tại trang 5 của tài liệu.
Hình 2.4. Thuật toán MC-Boosting cải tiến sử dụng đặc trưng chung cho nhiều bài toán  - Phát triển một số phương pháp lọc thông tin  cho hệ tư vấn

Hình 2.4..

Thuật toán MC-Boosting cải tiến sử dụng đặc trưng chung cho nhiều bài toán Xem tại trang 7 của tài liệu.
Bảng 2.1. Kết quả thử nghiệm với MovieLens - Phát triển một số phương pháp lọc thông tin  cho hệ tư vấn

Bảng 2.1..

Kết quả thử nghiệm với MovieLens Xem tại trang 8 của tài liệu.
Bảng 2.5. Kết quả thử nghiệm với EachMovie - Phát triển một số phương pháp lọc thông tin  cho hệ tư vấn

Bảng 2.5..

Kết quả thử nghiệm với EachMovie Xem tại trang 9 của tài liệu.
3.2 thì ma trận X được thể hiện trong Bảng 3.3 và đồ thị kết hợp được biểu diễn như Hình 3.4 - Phát triển một số phương pháp lọc thông tin  cho hệ tư vấn

3.2.

thì ma trận X được thể hiện trong Bảng 3.3 và đồ thị kết hợp được biểu diễn như Hình 3.4 Xem tại trang 14 của tài liệu.
Bảng 3.1. Ma trận đánh giá R - Phát triển một số phương pháp lọc thông tin  cho hệ tư vấn

Bảng 3.1..

Ma trận đánh giá R Xem tại trang 14 của tài liệu.
Hình 3.4. Đồ thị thiết lập liên kết giữa người dùng và nội dung sản phẩm - Phát triển một số phương pháp lọc thông tin  cho hệ tư vấn

Hình 3.4..

Đồ thị thiết lập liên kết giữa người dùng và nội dung sản phẩm Xem tại trang 15 của tài liệu.
Hình 3.5. Đồ thị thiết lập liên kết giữa người dùng và nội dung sản phẩm - Phát triển một số phương pháp lọc thông tin  cho hệ tư vấn

Hình 3.5..

Đồ thị thiết lập liên kết giữa người dùng và nội dung sản phẩm Xem tại trang 16 của tài liệu.
Bảng 3.4. Giá trị Precision, Recall, F-Measure kiểm nghiệm trên tập MovieLens1 Phương pháp Độ đo  Số sản phẩm dùng để tư vấn  - Phát triển một số phương pháp lọc thông tin  cho hệ tư vấn

Bảng 3.4..

Giá trị Precision, Recall, F-Measure kiểm nghiệm trên tập MovieLens1 Phương pháp Độ đo Số sản phẩm dùng để tư vấn Xem tại trang 19 của tài liệu.
Mô hình lọc cộng tác kết hợp với lọc nội dung dựa trên đồ thị (ký hiệu là CombinedGraph) - Phát triển một số phương pháp lọc thông tin  cho hệ tư vấn

h.

ình lọc cộng tác kết hợp với lọc nội dung dựa trên đồ thị (ký hiệu là CombinedGraph) Xem tại trang 19 của tài liệu.
Kết quả kiểm nghiệm của mô hình đề xuất được lấy trung bình từ 10 lần kiểm nghiệm ngẫu nhiên cùng với kết quả của của các phương pháp: Phương pháp lọc cộng tác dựa trên  người dùng sử dụng thuật toán KNN  và độ tương quan Pearson (ký  hiệu  là  UserBas - Phát triển một số phương pháp lọc thông tin  cho hệ tư vấn

t.

quả kiểm nghiệm của mô hình đề xuất được lấy trung bình từ 10 lần kiểm nghiệm ngẫu nhiên cùng với kết quả của của các phương pháp: Phương pháp lọc cộng tác dựa trên người dùng sử dụng thuật toán KNN và độ tương quan Pearson (ký hiệu là UserBas Xem tại trang 20 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan