Ứng dụng kỹ thuật học bán giám sát để phân lớp văn bản

26 467 0
Ứng dụng kỹ thuật học bán giám sát để phân lớp văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

B GIÁO DO I HNG HOÀNG HỮU ĐỨC NG DNG K THUT HC BÁN GIÁM SÁT  PHÂN LN Chuyên ngành: Khoa hc máy tính Mã s: 60.48.01 TÓM TT LU THUT ng -  Công trình c hoàn thành ti I HNG ng dn khoa hc: PGS.TS. VÕ TRUNG HÙNG Phn bin 1: TS. PHM MINH TUN Phn bin 2: N Lun vn c bo v trc Hi ng chm Lun vn tt nghip th thut hp ti i hc à Nng vào ngày 18 tháng 5 nm 2013. Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Hc liu, i Hc à Nng - 1 - M U 1. Lý do ch tài: Công ngh thông tin phát trin nhanh chóng và mnh m i nhiu tin ích cho cuc sng vi nhng ng dng công ngh  c bit là các ng dng trên Internet, các dch v thông tin truy n t n t, tin tn t, Website cung c  n xut hin trên mi mt tc  Vng thông tin khng l chúng ta qun lý, cp nht và phân phi nh   i dùng có nhu cu? Trong thc t, s ng thông tin quá ln, vic phân lp d liu th công  u không kh thi. Gi         trình máy tính t ng phân ln nh kh i t cao c x lý khng công vic rt ln mà vic thc hin bi là không kh thi. Mt gi thc hin vic phân ln t ng là ng dng k thut hc máy. Tuy nhiên, vic gii quyt v ng gp nhiu khó kh liu hun luyng rt hit do i phi tn nhiu thi gian và công sc c  khc phc nhng hn ch trên cn phi có mc không cn nhiu d liu gán nu và có kh  n d c các ngun d li       c bán giám sát. Trong lu  p trung nghiên cu ng dng bài toán phân ln s dng quá trình h - 2 -  s tài có tỨng dụng kỹ thuật học bán giám sát để phân lớp văn bản 2. Mu:  tài tp trung nghiên cu v các k thut hc máy và nghiên cu mt s gii thung s dng trong hng dng k thut hc máy bán giám sát vào bài toán phân ln. 3. ng và phm vi nghiên cu: Đối tượng nghiên cứu: Các v c hc máy, hc bán giám sát và các gii thut hc bán giám sát. Phạm vi nghiên cứu: K thut hc máy bán giám sát và ng dng k thut h gii quyt bài toán phân l 4. u: Bao gc nghim: Phương pháp tài liệu: Tp trung nghiên cu v  lý thuyt v h s lý thuyt v k thut h lý thuyt v x lý ngôn ng t nhiên. Phương pháp thực nghiệm: Trin khai ng du SVMlin vào chy trên d liu thc; Tp trung vào vic xây dng kho d liu hun luyn, d liu th nghim và xây d    Vector  tìm vector, to vector và nhãn cho kho d liu. Cu trúc các tp tin (file) d liu to ra t Vector tuân th theo cu trúc ca SVMlin  làm d liu vào cho SVMlin trong hun luy m th. 5. c và thc tin: Ý nghĩa khoa học: Hiu và ng dc k thut hc bán giám sát vào bài toán thc tng dp t bng ngôn ng C, chy trên H - 3 - u Hành Linux biên dch li và chy trên H u Hành Windows. Vi tr  ng dc t mu này vào bài toán thc t. Ý nghĩa thực tiễn: Hc tn ít th   t hiu qu     kt hp c học không giám sáthọc có giám sáty rt thích h ng dng vào x lý, gii quyt các bài toán thc t. 6. Cu trúc ca lu    u tng quan.      quát v bài toán phân lp d liu, phân ln, hc máy và các k thut hc máy. Quá trình phát trin và nhu cu gii quyt các bài toán thc t.  c máy bán giám sát SVM.   mt s thut toán hc máy và các ng dng ca hc máy trong khoa hc gm hc máy có giám sát, hc máy bán giám sát. ng dng hc máy bán giám sát h tr vector vào bài toán phân ln. c nghim. ng dng phn mm mã ngun m c biên dch chc vit bng ngôn ng C vào thut toán SVM và bán giám sát SVM. Vit thêm Vector h tr to vector và to nhãn cho kho d liu. - 4 -  NGHIÊN CU TNG QUAN 1.1. TNG QUAN V HC MÁY 1.1.1. Khái nim và mt s v hc máy Hc máy (Machine Learning) là mc ca trí tu nhân to n vic phát trin các k thut cho phép các máy tính có th "hc". C th c máy là m t trình máy tính bng vic phân tích các tp d liu. Hc máy c liên quan nhiu n thng kê do c u tp trung vào vic nghiên cu  phân tích d liu. Tuy nhiên, hc máy có s khác bit vi thng kê, hc máy tp trung vào nghiên cu s phc tp ca các gii thut trong quá trình tính toán, x lý d liu. Trên thc t, có nhiu bài toán suy luc xp loi là bài toán nh phân khó, vì th mt phn ca hc máy là nghiên cu s phát trin các gii thut suy lun xp x  có th x c lp các bài toán nh phân mt cách tng quát nht. Vic chia nhóm các thut toán hc máy ph thuc vào tính cht ca tp d liu hun luyn u vào, các thut toán hc máy c chia thành ba nhóm: - Nhóm1: Các thut toán hc có giám sát (supervised learning): Hun luyn trên tp d liu mu  c gán nhãn. Nhóm thut toán này  c s dng trong các bài toán phân lp hoc ni suy. - Nhóm 2: các thut toán hc không giám sát (unsupervised learning): Nhóm này s dng các thut toán gom c  khai thác các cu trúc vn có trong d li  tìm ta các cu trúc, các lut trong tp d li - 5 - - Nhóm 3: các thut toán hc bán giám sát (semi-supervised learning): Nhóm này s dng c các mu d ligán nhãn và    ti   gán nhãn cho d liu mi- d li   . Nhóm thut toán này n các tp d liu vi tp mu c gán nhãn ch chim mt phn nh (ch mt vài mu trong mi lp). Mt s  hc máy: - Một quá trình nhờ đó một hệ thống cải thiện hiệu suất (hiệu quả hoạt động) của nó [5]. - Một quá trình mà một chương trình máy tính cải thiện hiệu suất của nó trong một công việc thông qua kinh nghiệm [4]. - Việc lập trình các máy tính để tối ưu hóa một tiêu chí hiệu suất dựa trên các dữ liệu ví dụ hoặc kinh nghiệm trong quá khứ [8]. Hc máy là mh vc ca trí tu nhân tn vic phát trin các k thut cho phép các máy tính có th "hc". + c máy Với: Một tập dữ liệu trong không gian X - Một tập mẫu S , cho S là tập hợp con của X - Một số hàm đích quá trình ghi nhãn f : X → {®óng, sai} - Một tập huấn luyện D được gán, D = { x, y | x thuộc S và y = f (x)} - Tính toán một hàm f ’: X → {®óng, sai} bằng cách sử dụng D như là: f ’x  f (x) (1.1) cho tất cả các x thuộc X. - 6 - Có các  p hc máy  c gi là hc không có giám sát, không cn d liu hun luyn. Cui cùng,  trình (1.1) a chúng ta v hc máy chính thc nói rng vic hc có th ft phép tính xp x hoc mô hình cu f da trên các ví d hun luyn trong D. 1.1.2. Hc có giám sát Hc có giám sát (Supervised Learning) là mt k thut ca ngành hc máy  xây dng mt hàm t d liu hun luyn. D liu hun luyn bao gm các cp gu vào dng vector và u ra mong muu ra ca mt hàm có th là mt giá tr hoc là d  mt nhãn phân lp cho mu vào (chng hphân lp n). Nhim v cc có giám sát là d  ca hàm cho mng bt k u vào hp l mt s ví d hun luy          ng): - Xác nh cu trúc ca hàm chc  cn tìm và gii thut hc ng - Hoàn thin thit k. 1.1.3. Hc không có giám sát Hc không có giám sát (unsupervised learning) là m  pháp ca ngành hc máy nhm tìm ra mt mô hình phù hp vi các quan sát. Nó khác bit vi hc có giám sát  ch g ng cho mu vào là không bic. 1.1.4. Hc bán giám sát Hc bán giám sát (Semi-supervised learning) c máy mà d li hun luyn bao gm d li gán nhãn. Hc bán giám sát có th c áp dng vào vic phân lp và - 7 - phân cm. Mc tiêu ca hc bán giám sát là hun luyn tp phân lp tt c có giám sát t d li 1.2. PHÂN LN 1.2.1. Gii thiu  ng, vic phân l    c tin hành mt cách th cô là chúng ta thc hin công vic tn mt lp c th  s tiêu tn thi gian và công sc quá lc vì chúng ta có vô s n;  gán th công mn vào mt lp t v không th thc hic. Vi s n  s thì vic phân ln t ng là mt nhu cu bc thit. 1.2.2. Các ng dng ca bài toán phân ln ng dng quan trng nht ca phân ln là trong tìm kim n. T mt tp d lin s  s i vi tng lng. 1.3. MT S THUT TOÁN HC BÁN GIÁM SÁT 1.3.1. Thut toán hc bán giám sát Self-training a. Giới thiệu Cùng vi s liu ln ca d li, các thành phn hn hp có th c nhn ra cùng vi thut toán Ci k vng EM (expectation- maximization). Ch cn mt m      mi thành ph c mô hình hn hp. Mô hình c áp dng thành công vào vic phân ln. Mt bin th khác ca mô hình này chính là self- training. Self-training là thut toán mà khi có mt s phân lp li thì có th ng thêm cho chính nó, còn co-training gim bc l ng có th xy ra khi có mt quá trình phân lp b li. - 8 - Cùng vi quá trình phát trin và vic áp dng ph bin và s  lên v cht ng ca thut toán SVM (Support Vector Machine), SVM truyn dn (Transductive Support Vector Machine  TSVM) ni bt lên t SVM chun m rp hc bán giám sát. a. Thuật toán *  M rng tp các mu bng cách ch cn mt b phân lp vi mt khung nhìn ca d liu. *: - L:  - U:  *  - Gán  U  * : -  + L + U - Repeat: + C L. + Dùng C U. +  U  + Gán; U= U- ; - Until U =  1.3.2. Thut toán hc bán giám sát Co-training a. Giới thiệu Thut toán co-training da trên gi thit rng các c tính (features) có th c phân chia thành 2 tp con; Mi tp con phù hp

Ngày đăng: 31/12/2013, 10:11

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan