Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)

50 166 0
Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)

I H C DÂN L P H I PHÒNG -o0o - NGÀNH CÔNG NGH THÔNG TIN H I PHÒNG 2016 I H C DÂN L P H I PHÒNG -o0o - I H C DÂN L P H I PHÒNG -o0o - Sinh viên th c hi n: Nguy n Ti Mã s sinh viên: 1413101001 - - -o0o - NHI M V THI T K T T NGHI P Sinh viên: Nguy n Ti Mã s : 1413101001 L p: CTL 801 tài: Tìm hi m Ngành: Cơng ngh Thông tin px c hi n quan NHI M V TÀI N i dung yêu c u c n gi i quy t nhi m v a N i dung: c tài li u Ti ng Anh tài t t nghi p Tìm hi Tìm hi u ng li u b Các yêu c u c n gi i quy t Trình bày gi c yêu c u c pháp d li u tìm hi u t th nghi m thu t tốn Các s li u c n thi m th c t p thi t k , tính tốn c áp d CÁN B NG D TÀI T T NGHI P ng d n th nh t: H tên: H c hàm, h c v : N ng d ng d n th hai: H H c hàm, h c v N ng d tài t t nghi Yêu c u ph n nhi m v Sinh viên n nhi m v Cán b ng d HI NG Tinh th c tài t t nghi p: ng c tài t t nghi p (so v i n i dung yêu c nhi m v tài t t nghi p) m c a cán b ng d n: m ghi b ng s ch ) Cán b ng d n ( Ký, ghi rõ h tên ) tài t t nghi p (v m th c t , ) thuy lý lu n, m c a cán b ph n bi n ( m ghi b ng s ch ) Cán b ch m ph n bi n ( Ký, ghi rõ h tên ) M C L C L I C 12 L U 13 NG QUAN V M PHÂN TÍCH C M XÚC 16 1.1 16 1.2 L ch s c a phân tích c 1.3 m 19 - 20 1.3.1 : 20 1.3.2 Bi u di n c 21 1.3.3 1.4 ng: 21 M t s nghiên c 1.4.1 nh c m t 1.4.2 nh chi 1.5 Bài toán phân l m 22 m 23 ng, c m t m 25 m 28 P H S N PH M CHO X P H NG CÁC S N PH M 31 2.1 Gi i thi u 31 ng x p h ng d a s n ph m 32 2.2.1 Các th c nghi m 38 2.2.2 Các k t qu 39 Entity (preferred) predicate aspect Predicate (not preferred) trích so sánh này, s d ng cơng c c gi i thi u cho CSRL (Comparision Semantic Role-Labeler, Kessler Kuhn, 2013) H th ng phát hi n trích v t c th liên quan c so nh s n ph th c th c p cho tên s n ph m (ho t cosin t i thi u m c t ví d ck th pv nh v i s n ph m cho m t s n ph ph m tr v cho t ng s n ph c p k th pv i i di n) v it c tính d a s l n xu t hi n s n l cs d c g i CSRL s px S d m t bình lu n: bình (t m c at tc nh nc a u tiên phân lo i s n ph m theo x p h ng trung nh b i tác gi c a m n ph ng (STAR) hai s p x p s n ph m b ng c a s ý ki c giác có th th y s n ph ng xuyên s có nhi xu t JFSA CSRL nh n d s n ph m v i c m t ng c a Bên c nh vi c t o m t th h cx t h ut tc a s n ph m, s d ng tùy ch ch s d th t r v k t qu c x p h ng Khi m c p n v i nhi u th hi n, h s d ng hàm chu l c thông tin c n thi t Khi ti n hành th c nghi m, h s d ng m c th c hi n th công b n cho t hi n t ng xuyên nh t t p d li u Trong phiên b n ti p theo c a c m t ch quan ho c th c th xem xét ch tính giá tr c a s n ph m n u có m t t trùng gi c nh n d ng m n bi n th c c tiêu Method Amazon Snapsort S TARS -0.027 0.436* N UM R EVIEWS 0.331* 0.095 DICT - NORM (GI) 0.125* -0.148 DICT - NORM (MPQA) 0.142* -0.145 0.219* 0.426* 0.222* 0.441* J FSA -NORM 0.151* -0.230 J FSA 0.234* 0.404* C SRL 0.183* 0.511* D ICT (GI) DICT (MPQA) B ng 1: K t qu c h ng bán hàng c a amazon x p h ng ch thi t ng t t nh c in m -agnostic cho s p ng c a Snapsort S c i n Các thi t l p cho th c nghi m d ng nh c l y t trang Amazon v i s n ph m: "camera" "camera" k t n i v i "fuji", "fuji-hTm", "canon", "panasonic", "olympus", "nikon", "sigma", "hasselblad", "leica", "pentax", "rollei", "Samsung", "sony", "olympus" S d ng cho chu n vàng th nh t, d li c l y t trang x p h ng bán hàng Amazon cho mô t s n ph m (X p h n bán hàng t t nh t Amazon cho lo i Máy nh Photo) kho ng th i gian t 1418/04/2015, bao g m ch s n ph c cung c p x p h ng K t qu tr v danh sách 920 s n ph m v i t ng s 71.409 nh n xét Các tên c a s n ph c trích t c a trang s d ng ký t u tiên i v i chu n vàng th hai, s d ng th h ng cho ch ng s n ph m c cung c p b i Snapsort, s 150 s n ph u b ng x p h ng doanh s bán hàng c a Amazon có 56 s n ph m cu t hi n tên Snapsort S d ng th h ng lo ng th t t nh t) c a "t t c máy nh k thu t s công b 48 tháng cu i c truy h i vào ngày 12 Tháng Sáu 2015 JFSA c hu n luy n d li u v máy c thi t l p b i Kessler et al (2010) CSRL c hu n luy n v d li u máy nh c a Kessler iv -NORM, tác gi th hai ngu n t m khác nhau, t u tra chung u m i ch quan t h h Wilson et al., 2005) ng s a x p h c t o b ng s d ng th h ng vàng, tính tốn h s u ch h ng c a Spearman p (Spearman, 1904) Ki m tra tính kh quan v i th nghi m Steiger (Steiger, 1980) Xem xét hai x p h p h ng bán hàng bao g m 920 s n ph t ví d cho m t x p h ng có th h u ích cho nhà qu n lý bán hàng nhà s n xu t s n ph m ph s Th hai x p h ng chuyên gia b i Snapsort.com bao g m 56 s n h ng cho hai khái ni a hai x p h ng ( p= -0.04) Theo tác gi , b ng s so sánh k t qu c xu t K t qu t t nh t Amazon b NUMREVIEWS) m s nh n xét (p=0.33, V i Snapsort, NUMREVIEWS ch cho p = 0.1 Nhân t t o s khác bi ng h p c a Amazon ph n t m t ngu n khơng rõ ràng mà có hay khơng s ph bi n c a m t s n ph m d n có nhi u nh s n ph m d n nhi u nh n xét hay s ud n danh s bán hàng dù "ph bi n" m t nh ng khía c nh n Snapsort, khơng Và m c giá Hi u su t c n STARS không khác bi t l y ng u nhiên t u gi i thích m t ph n b i th c t s s n ph m v có r t nh i 10) m t v y u x p h ng c a Snapsort Bên c n n i dung c nh ch ng g n v i nh ng i dùng Snapsort s d ng ng c a doanh s bán hàng X p h ng d nh m m theo t n (DlCT) x p x x p h ng doanh thu bán hàng v i p = 0,22, cho c MPQA GI Chu mm m làm gi m s t c a k t qu thu c c a hai b t c ph n ánh m t cao c a x p h ng tr v (khơng chu n hóa: p = 0,99; chu n hóa: p = 0,8) Tuy nhiên, x p h ng v i không chu i x p h ng chu n hóa c a t n (GI p = -0.16, MPQA p = -0,14) Vi c x p h ng d a t nt t chút v i JFSA, p = 0,23 Chu n hóa s t t n s nh n xét) làm gi m hi u su t p = 0,15 S khác bi t c a JFSA v i dict-NORM (GI) DlCT (MPQA GI) kh i v i Snapsort, chu ng r t không t t Trên Amazon, x p h cv ng so v i us ng c a d li ng cao nh t c a c m t m cho m t s n ph m c tìm th y ng cao nh t c a s c p n m t s n ph 662 cho CSRL) Tuy nhiên x p h ng Snapsort, CSRL cho k t qu t t nh t c a t t c th c nghi m v i p = 0,51 So sánh vi c s d ng t t c thông tin t ý ki x p h ng, k t qu c at v nh ng u nhiên t o th cho th y s hi u bi t v ng p h ng vàng Các x p h th i ng liên quan ch t ch v i x p h ng vàng, n Aspect # p performance 637 0.301 0.009 Video 600 0.278 0.013 Size 513 0.218 0.017 pictures 790 0.213 0.003 battery 541 0.208 0.012 Price 625 0.198 0.008 Zoom 514 0.196 0.013 shutter 410 0.191 0.016 features 629 0.190 0.009 autofocus 403 0.175 0.013 screen 501 0.136 0.012 Lens 457 0.099 0.012 Flash 591 0.093 0.011 B ng 2: Các k t qu c doanh s bán hàng ch s d ng c m t m nh h ng Các k t qu cho x p h ng doanh s c th hi n B ng Do s t d li u, m t s ng l n s n ph m nh cm ts lo i b nh ng k t ph n ánh phát gi c a p cho phép so sánh gi i v s ng s n ph thêm s n ph m theo th t ng u p h ng khác ng u nhiên B qua k t qu cho CSRL k t qu Snapsort mà t t c u g n ng u nhiên i v i b ng x p h c u nh t g n v i x p x theo video (p = 0,28) C hai k c v m t o b i JFSA, hi u su t c x p h ng c a doanh thu (p = 0,30) ti p t qu t p h ng target-agnostic t hi u su t) 2.3 T Các tác gi gi i thi u công vi c d gi i thi u ba ngu n ti h ng c a s n ph m h ng vàng: x p h ng doanh thu bán hàng x p h ng d a ý ki c s d ng th c nghi m Thêm n a th o lu n làm th gán nhãn d li u x p h a c ng Ch ng minh các k t qu u làm th s d ng m khác (d a t n, máy h c, d a vào so sánh d x p h ng Và th c nghi m v cách x p h ng th có th c s d ng cho ng c a thông tin quan tr ng x p h ng o lu n cho th y m t hi u su t h n ch , nhiên, nh ng k t qu x p x m t th h ng th gi i th c có tri n v ng khuy n khích nghiên c u thêm M ms i th p, cho phép cho m t phân tích v ng c a m t c th x p h x p h ng doanh thu Amazon K t qu t t nh t cho vi c x p h ng doanh s bán hàng c a Amazon c d a s u có th c ng h p c a gà qu tr ng, có th ng h p mà có r t nhi i s n ph c bán nhi u l n Hi u không xu t hi n Snapsort X p h ng trung bình (STARS) không ph ng t i cho x p h ng bán hàng t qu t t Snapsort nm m c a c m t mang l i k t qu t t th hai (JFSA DICT) Amazon V i Snapsort, a s so sánh CSRL th c hi n t t nh t t t c u su t cao nh t m i th c nghi m = 0.51) D li u c s d ng: Trong ph n th c hi n th nghi pháp s p x p th h c v cho x p th h ng s n ph m, em tìm hi u phân tích d li u trang Amazon.com v i giá c a khách hàng cho s n ph m cung máy nh D li u bình lu n c a khách hàng ph m Camera and Photo có d ng sau: c crawl v cho danh m c s n Nh n xét: D li c truy h i t trang Amazon.com ph c v cho th c nghi m ch a n i dung sau: < >: c s d ng cho n vàng x p h ng S d i xem x p h ng: < n vàng x p h ng cs Bình lu n c a khách hàng: thơng tin x p h Thu c s d trích x p h ng cho s n ph m c th c hi Thu th p d li nh d ng n 3.1 Th c hi n ti n x lý d li u: tách t , xóa b kho ng tr ng không c n thi t S d ng cơng c trích c m t ch a m ho c m cho t c a s n ph m m x p th h th c (1),(2) cho JFSA (3) cho CSRL S d t gi a k t qu x p h ng c 3.3 JFSA m t ph n m m mã ngu n m c phát tri n b i Roman Klinger, 2015 s d th c hi n th c nghi m v i mơ hình xác su t cho vi m t ch quan th hi ng C u trúc c src/ bao g m t t c file ngu n bin/ bao g m k ch b n tr biên d 3rdparty/ bao g m ark-tweet-nlp-0.3.2.jar data/ g m d li u ví d , ng li u s d ng t s d ng mơ hình c ini/ g m file kh i t o models/ g c hu n luy Ph n m t h c u hành linux v i Java 1.7 Maven 2.0 t, th c hi n thao tác sau: t ark- c Maven source bin/install-ark-tweet-nlp.sh Biên d ch maven t o m t file jar K t qu : t o m t file jar: jfsa-0.1-jar-with-dependencies.jar D li u: Ph n m m th c hi c tr m t ch a - D li u vào: t p txt ch a d li u trúc m d li u không gán nhãn C u tiên: s th t (các bình lu n) C t th C t th d ng: dành cho phát tri n sau n ch a d li - D li u ra: m t ch a nh c ch a file csv Các m i quan h Ch y h th c ch a file rel c hu n luy c: `java-Xmx2g-cptarget/jfsa-0.1.jar:target/jfsa-0.1-jar-with dependencies.jarsc.rk.targsubj.TargSubjSpanNERmodelfile.jfsainputdata.tx t outputdata.txt Ho c: /bin/run.sh modelfile.jfsa inputdata.txt outputdata.txt c m t s k t qu Tìm hi u t ng quan v v t v i tốn Tìm hi u v d m m m i d li u, ng m Tìm hi u v d li n ph m cho máy nh trang Amazon.com, m u d li c crawl v t trang phân tích thu t toán áp d ng d li Chu n b d li u cho th c nghi m Tìm hi u s d ng công c n ch a nh n xét Ch nghiên c u c toàn m án m c ki n th c m i hoàn ch c tài li u bi t thêm r t nhi u cho nh ng c t Do th i gian có h tài m i ch tích d li nh thu c nghi th i gian t i, em s ti p t c phát tri t qu th c pháp tìm hi u tốn có ý u phân m Trong c nghi m Trong trình th c hi tài trình bày n u c ch c em khơng tránh kh i có nh ng thi u sót Em r t mong nh n c nh ng ý ki a th y cô b n Em xin thân thành c [1] Ph Tìm hi u v support vector machine cho tốn phân l án t t nghi p ngành Cơng ngh ng i Phòng, 2012 ng Th Ng c Thanh, Tìm hi u v n ph m tài li u ch ngành Cơng ngh m i Phịng, 2012 px p án t t nghi p [3] Bing Liu, Sentiment Analysis Tutorial 2011 [4] Wiltrud Kessler and Jonas Kuhn 2013 Detection of product comparisons - How far does an out-of-thebox semantic role labeling system take you? In EMNLP, pages 1892 1897 ACL [5] Wiltrud Kessler, Roman Klinger, and Jonas Kuhn 2015 Towards Opinion Mining from Reviews for the Prediction of Product Rankings In Proceedings of the 6th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis @ Association for Computational Linguistics 2015 [6] James H Steiger 1980 Tests for comparing elements of a correlation matrix Psychological Bulletin, 87(2):245 251 [7] https://java.com/en/download/chrome.jsp [8] http://maven.apache.org/download.cgi [9] https://bitbucket.org/rklinger/jfsa/downloads ... h a c ng Ch ng minh các k t qu u làm th s d ng m khác (d a t n, máy h c, d a vào so sánh d x p h ng Và th c nghi m v cách x p h ng th có th c s d ng cho ng c a thông tin quan tr ng x p h ng o... yêu c u c n gi i quy t Trình bày gi c yêu c u c pháp d li u tìm hi u t th nghi m thu t toán Các s li u c n thi m th c t p thi t k , tính tốn c áp d CÁN B NG D TÀI T T NGHI P ng d n th nh t: H tên:... 801 tài: Tìm hi m Ngành: Công ngh Thông tin px c hi n quan NHI M V TÀI N i dung yêu c u c n gi i quy t nhi m v a N i dung: c tài li u Ti ng Anh tài t t nghi p Tìm hi Tìm hi u ng li u b Các yêu

Ngày đăng: 25/02/2018, 07:50

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan