Thông tin tài liệu
B GIÁO DO I HNG HOÀNG HỮU ĐỨC NG DNG K THUT HC BÁN GIÁM SÁT PHÂN LN Chuyên ngành: Khoa hc máy tính Mã s: 60.48.01 TÓM TT LU THUT ng - Công trình c hoàn thành ti I HNG ng dn khoa hc: PGS.TS. VÕ TRUNG HÙNG Phn bin 1: TS. PHM MINH TUN Phn bin 2: N Lun vn c bo v trc Hi ng chm Lun vn tt nghip th thut hp ti i hc à Nng vào ngày 18 tháng 5 nm 2013. Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Hc liu, i Hc à Nng - 1 - M U 1. Lý do ch tài: Công ngh thông tin phát trin nhanh chóng và mnh m i nhiu tin ích cho cuc sng vi nhng ng dng công ngh c bit là các ng dng trên Internet, các dch v thông tin truy n t n t, tin tn t, Website cung c n xut hin trên mi mt tc Vng thông tin khng l chúng ta qun lý, cp nht và phân phi nh i dùng có nhu cu? Trong thc t, s ng thông tin quá ln, vic phân lp d liu th công u không kh thi. Gi trình máy tính t ng phân ln nh kh i t cao c x lý khng công vic rt ln mà vic thc hin bi là không kh thi. Mt gi thc hin vic phân ln t ng là ng dng k thut hc máy. Tuy nhiên, vic gii quyt v ng gp nhiu khó kh liu hun luyng rt hit do i phi tn nhiu thi gian và công sc c khc phc nhng hn ch trên cn phi có mc không cn nhiu d liu gán nu và có kh n d c các ngun d li c bán giám sát. Trong lu p trung nghiên cu ng dng bài toán phân ln s dng quá trình h - 2 - s tài có tỨng dụng kỹ thuật học bán giám sát để phân lớp văn bản 2. Mu: tài tp trung nghiên cu v các k thut hc máy và nghiên cu mt s gii thung s dng trong hng dng k thut hc máy bán giám sát vào bài toán phân ln. 3. ng và phm vi nghiên cu: Đối tượng nghiên cứu: Các v c hc máy, hc bán giám sát và các gii thut hc bán giám sát. Phạm vi nghiên cứu: K thut hc máy bán giám sát và ng dng k thut h gii quyt bài toán phân l 4. u: Bao gc nghim: Phương pháp tài liệu: Tp trung nghiên cu v lý thuyt v h s lý thuyt v k thut h lý thuyt v x lý ngôn ng t nhiên. Phương pháp thực nghiệm: Trin khai ng du SVMlin vào chy trên d liu thc; Tp trung vào vic xây dng kho d liu hun luyn, d liu th nghim và xây d Vector tìm vector, to vector và nhãn cho kho d liu. Cu trúc các tp tin (file) d liu to ra t Vector tuân th theo cu trúc ca SVMlin làm d liu vào cho SVMlin trong hun luy m th. 5. c và thc tin: Ý nghĩa khoa học: Hiu và ng dc k thut hc bán giám sát vào bài toán thc tng dp t bng ngôn ng C, chy trên H - 3 - u Hành Linux biên dch li và chy trên H u Hành Windows. Vi tr ng dc t mu này vào bài toán thc t. Ý nghĩa thực tiễn: Hc tn ít th t hiu qu kt hp c học không giám sáthọc có giám sáty rt thích h ng dng vào x lý, gii quyt các bài toán thc t. 6. Cu trúc ca lu u tng quan. quát v bài toán phân lp d liu, phân ln, hc máy và các k thut hc máy. Quá trình phát trin và nhu cu gii quyt các bài toán thc t. c máy bán giám sát SVM. mt s thut toán hc máy và các ng dng ca hc máy trong khoa hc gm hc máy có giám sát, hc máy bán giám sát. ng dng hc máy bán giám sát h tr vector vào bài toán phân ln. c nghim. ng dng phn mm mã ngun m c biên dch chc vit bng ngôn ng C vào thut toán SVM và bán giám sát SVM. Vit thêm Vector h tr to vector và to nhãn cho kho d liu. - 4 - NGHIÊN CU TNG QUAN 1.1. TNG QUAN V HC MÁY 1.1.1. Khái nim và mt s v hc máy Hc máy (Machine Learning) là mc ca trí tu nhân to n vic phát trin các k thut cho phép các máy tính có th "hc". C th c máy là m t trình máy tính bng vic phân tích các tp d liu. Hc máy c liên quan nhiu n thng kê do c u tp trung vào vic nghiên cu phân tích d liu. Tuy nhiên, hc máy có s khác bit vi thng kê, hc máy tp trung vào nghiên cu s phc tp ca các gii thut trong quá trình tính toán, x lý d liu. Trên thc t, có nhiu bài toán suy luc xp loi là bài toán nh phân khó, vì th mt phn ca hc máy là nghiên cu s phát trin các gii thut suy lun xp x có th x c lp các bài toán nh phân mt cách tng quát nht. Vic chia nhóm các thut toán hc máy ph thuc vào tính cht ca tp d liu hun luyn u vào, các thut toán hc máy c chia thành ba nhóm: - Nhóm1: Các thut toán hc có giám sát (supervised learning): Hun luyn trên tp d liu mu c gán nhãn. Nhóm thut toán này c s dng trong các bài toán phân lp hoc ni suy. - Nhóm 2: các thut toán hc không giám sát (unsupervised learning): Nhóm này s dng các thut toán gom c khai thác các cu trúc vn có trong d li tìm ta các cu trúc, các lut trong tp d li - 5 - - Nhóm 3: các thut toán hc bán giám sát (semi-supervised learning): Nhóm này s dng c các mu d ligán nhãn và ti gán nhãn cho d liu mi- d li . Nhóm thut toán này n các tp d liu vi tp mu c gán nhãn ch chim mt phn nh (ch mt vài mu trong mi lp). Mt s hc máy: - Một quá trình nhờ đó một hệ thống cải thiện hiệu suất (hiệu quả hoạt động) của nó [5]. - Một quá trình mà một chương trình máy tính cải thiện hiệu suất của nó trong một công việc thông qua kinh nghiệm [4]. - Việc lập trình các máy tính để tối ưu hóa một tiêu chí hiệu suất dựa trên các dữ liệu ví dụ hoặc kinh nghiệm trong quá khứ [8]. Hc máy là mh vc ca trí tu nhân tn vic phát trin các k thut cho phép các máy tính có th "hc". + c máy Với: Một tập dữ liệu trong không gian X - Một tập mẫu S , cho S là tập hợp con của X - Một số hàm đích quá trình ghi nhãn f : X → {®óng, sai} - Một tập huấn luyện D được gán, D = { x, y | x thuộc S và y = f (x)} - Tính toán một hàm f ’: X → {®óng, sai} bằng cách sử dụng D như là: f ’x f (x) (1.1) cho tất cả các x thuộc X. - 6 - Có các p hc máy c gi là hc không có giám sát, không cn d liu hun luyn. Cui cùng, trình (1.1) a chúng ta v hc máy chính thc nói rng vic hc có th ft phép tính xp x hoc mô hình cu f da trên các ví d hun luyn trong D. 1.1.2. Hc có giám sát Hc có giám sát (Supervised Learning) là mt k thut ca ngành hc máy xây dng mt hàm t d liu hun luyn. D liu hun luyn bao gm các cp gu vào dng vector và u ra mong muu ra ca mt hàm có th là mt giá tr hoc là d mt nhãn phân lp cho mu vào (chng hphân lp n). Nhim v cc có giám sát là d ca hàm cho mng bt k u vào hp l mt s ví d hun luy ng): - Xác nh cu trúc ca hàm chc cn tìm và gii thut hc ng - Hoàn thin thit k. 1.1.3. Hc không có giám sát Hc không có giám sát (unsupervised learning) là m pháp ca ngành hc máy nhm tìm ra mt mô hình phù hp vi các quan sát. Nó khác bit vi hc có giám sát ch g ng cho mu vào là không bic. 1.1.4. Hc bán giám sát Hc bán giám sát (Semi-supervised learning) c máy mà d li hun luyn bao gm d li gán nhãn. Hc bán giám sát có th c áp dng vào vic phân lp và - 7 - phân cm. Mc tiêu ca hc bán giám sát là hun luyn tp phân lp tt c có giám sát t d li 1.2. PHÂN LN 1.2.1. Gii thiu ng, vic phân l c tin hành mt cách th cô là chúng ta thc hin công vic tn mt lp c th s tiêu tn thi gian và công sc quá lc vì chúng ta có vô s n; gán th công mn vào mt lp t v không th thc hic. Vi s n s thì vic phân ln t ng là mt nhu cu bc thit. 1.2.2. Các ng dng ca bài toán phân ln ng dng quan trng nht ca phân ln là trong tìm kim n. T mt tp d lin s s i vi tng lng. 1.3. MT S THUT TOÁN HC BÁN GIÁM SÁT 1.3.1. Thut toán hc bán giám sát Self-training a. Giới thiệu Cùng vi s liu ln ca d li, các thành phn hn hp có th c nhn ra cùng vi thut toán Ci k vng EM (expectation- maximization). Ch cn mt m mi thành ph c mô hình hn hp. Mô hình c áp dng thành công vào vic phân ln. Mt bin th khác ca mô hình này chính là self- training. Self-training là thut toán mà khi có mt s phân lp li thì có th ng thêm cho chính nó, còn co-training gim bc l ng có th xy ra khi có mt quá trình phân lp b li. - 8 - Cùng vi quá trình phát trin và vic áp dng ph bin và s lên v cht ng ca thut toán SVM (Support Vector Machine), SVM truyn dn (Transductive Support Vector Machine TSVM) ni bt lên t SVM chun m rp hc bán giám sát. a. Thuật toán * M rng tp các mu bng cách ch cn mt b phân lp vi mt khung nhìn ca d liu. *: - L: - U: * - Gán U * : - + L + U - Repeat: + C L. + Dùng C U. + U + Gán; U= U- ; - Until U = 1.3.2. Thut toán hc bán giám sát Co-training a. Giới thiệu Thut toán co-training da trên gi thit rng các c tính (features) có th c phân chia thành 2 tp con; Mi tp con phù hp
Ngày đăng: 31/12/2013, 10:11
Xem thêm: Ứng dụng kỹ thuật học bán giám sát để phân lớp văn bản , Ứng dụng kỹ thuật học bán giám sát để phân lớp văn bản