TÌM HIỂU PHÂN lớp dữ LIỆU và ỨNG DỤNG vào bài TOÁN dự báo tội PHẠM

12 1.5K 4
TÌM HIỂU PHÂN lớp dữ LIỆU và ỨNG DỤNG vào bài TOÁN dự báo tội PHẠM

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

I HC QUC GIA THNH PH H CH MINH TRNG I HC CễNG NGH THễNG TIN ---------- TIU LUN CHUYấN H H TR QUYT NH TI: TèM HIU PHN LP D LIU V NG DNG VO BI TON D BO TI PHM GING VIấN HNG DN : PGS. TS. PHC HC VIấN THC HIN NGUYN H DUY TRI CH1401037 : NGUYN H DUY TR CH1401039. NGUYN HONG NGN CH1401024 LP : CH KHMT K09 Tp. H CH MINH 08/2015 TRNG I HC CễNG NGH THễNG TIN LP CAO HC KHMT, KHểA 09, THNG 08 NM 2015 MễN: H H TR QUYT NH GV: PGS. TS. PHC NHN XẫT BI TRèNH BY Tờn bi trỡnh by: TèM HIU PHN LP D LIU V NG DNG VO BI TON D BO TI PHM. Ngi thc hin: 1. Nguyn H Duy Tri 2. Nguyn H Duy Trớ 3. Nguyn Hong Ngõn S phiu nhn xột thu c: 19. Ngy bỏo cỏo: 06/08/2015. í KIN NHN XẫT 1. Ni dung trỡnh by (ỳng vi tiờu bi vit, sỳc tớch) (50%) Ni dung trỡnh by mi l, hp dn, phong phỳ, ỳng tiờu , bi toỏn thc t cao, cú giỏ tr. Tuy nhiờn demo cha rừ rng, cha nờu bt c ý ngha ca cỏc thuc tớnh phõn lp. 2. Ti liu tham kho (mi, phong phỳ) (10%) Ti liu tham kho mi, phong phỳ. Cha tham kho cỏc ti liu liờn quan n ti phm. 3. Trỡnh by trang chiu (p, ỳng) (10%) Trỡnh by rừ rng, gn gng, sỏng sa, p. 4. Trỡnh by trc lp (hp dn, lụi cun, t tin) (10%) Trỡnh by t tin, hp dn, lụi cun, ch ng, to, rừ. Dn dt bt ng. 5. Tr li cỏc cõu hi (ỳng, y , tha ỏng) (10%) Tr li ỳng v y cỏc cõu hi. S im trung bỡnh t c: 9,04. Hỡnh: Nhúm 08 v thy PGS. TS. Phỳc sau bui bỏo cỏo. (Ngun: Facebook Cao hc UIT 09 - https://www.facebook.com/groups/CAOHOC09UIT) MC LC ng dng Weka vo bi toỏn d bỏo ti phm I. Phõn lp d liu 1.1. Gii thiu Ngy phõn lp d liu (classification) l mt nhng hng nghiờn cu chớnh ca khai phỏ d liu. Thc t t nhu cu l t mt c s d liu vi nhiu thụng tin n ngi cú th rỳt trớch cỏc quyt nh nghip v thụng minh. Phõn lp v d oỏn l hai dng ca phõn tớch d liu nhm rỳt trớch mt mụ hỡnh mụ t cỏc lp d liu quan trng hay d oỏn xu hng d liu tng lai. Phõn lp d oỏn giỏ tr ca nhng nhón xỏc nh hay nhng giỏ tr ri rc, cú ngha l phõn lp thao tỏc vi nhng i tng d liu m cú b giỏ tr l bit trc. Trong ú, d oỏn li xõy dng mụ hỡnh vi cỏc hm nhn giỏ tr liờn tc. Vớ d mụ hỡnh phõn lp d bỏo thi tit cú th cho bit thi tit ngy mai l ma, hay nng da vo nhng thụng s v m, sc giú, nhit , ca ngy hụm v cỏc ngy trc ú. Hay nh cỏc lut v xu hng mua hng ca khỏch hng siờu th, cỏc nhõn viờn kinh doanh cú th nhng quyt sỏch ỳng n v lng mt hng cng nh chng loi by bỏn Mt mụ hỡnh d oỏn cú th d oỏn c lng tin tiờu dựng ca cỏc khỏch hng tim nng da trờn nhng thụng tin v thu nhp v ngh nghip ca khỏch hng. Trong nhng nm qua, phõn lp d liu ó thu hỳt s quan tõm cỏc nh nghiờn cu nhiu lnh vc khỏc nh hc mỏy (machine learning), h chuyờn gia (expert system), thng kờ (statistics) . Cụng ngh ny cng ng dng nhiu lnh vc khỏc nh: thng mi, nh bng, maketing, nghiờn cu th trng, bo him, y t, giỏo dc . 1.2. Cỏc bc phõn lp d liu Quỏ trỡnh phõn lp d liu gm hai bc: Bc hun luyn: Quỏ trỡnh hun luyn nhm xõy dng mt mụ hỡnh mụ t mt cỏc lp d liu hay cỏc khỏi nim nh trc. u vo ca quỏ trỡnh ny l mt d liu cú cu trỳc c mụ t bng cỏc thuc tớnh v c to t cỏc b giỏ tr ca cỏc thuc tớnh ú. Trong d liu ny, mi phn t d liu c gi s thuc v mt lp nh trc, lp õy l giỏ tr ca mt thuc tớnh c chn lm thuc tớnh gỏn nhón lp hay thuc tớnh phõn lp. u ca bc ny thng l cỏc quy tc phõn lp di dng lut nu thỡ, cõy quyt nh, cụng thc logic, hay mng nron. Bc phõn lp: Bc th hai dựng mụ hỡnh ó xõy dng bc trc phõn lp d liu mi. Trc tiờn chớnh xỏc mang tớnh cht d oỏn ca mụ hỡnh phõn lp va to c c lng. Nu chớnh xỏc ca mụ hỡnh l chp nhn c, thỡ mụ hỡnh c s dng phõn lp nhng d liu tng lai, hoc nhng d liu m giỏ tr ca thuc tớnh phõn lp l cha bit. ng dng Weka vo bi toỏn d bỏo ti phm 1.3. Tin x lý d liu Vic tin x lý d liu cho quỏ trỡnh phõn lp l mt vic lm khụng th thiu v cú vai trũ quan trng quyt nh ti s ỏp dng c hay khụng ca phng phỏp phõn lp. Quỏ trỡnh tin x lý d liu s giỳp ci thin chớnh xỏc, tớnh hiu qu v kh nng m rng c ca phng phỏp phõn lp. Quỏ trỡnh tin x lý d liu gm cú cỏc cụng vic sau: Lm sch d liu Lm sch d liu liờn quan n vic x lý nhiu (noise) v thiu giỏ tr (missing value) d liu ban u. Nhiu l cỏc li ngu nhiờn hay cỏc giỏ tr khụng hp l ca cỏc bin d liu. x lý vi loi li ny cú th dựng k thut lm trn. Thiu giỏ tr l nhng ụ khụng cú giỏ tr ca cỏc thuc tớnh. Thiu giỏ tr cú th li ch quan quỏ trỡnh nhp liu, hoc trng hp c th giỏ tr ca thuc tớnh ú khụng cú, hay khụng quan trng. K thut x lý õy cú th bng cỏch thay giỏ tr thiu bng giỏ tr ph bin nht ca thuc tớnh ú hoc bng giỏ tr cú th xy nht da trờn thng kờ. Mc dự phn ln thut toỏn phõn lp u cú c ch x lý vi nhng giỏ tr thiu v nhiu d liu, nhng bc tin x lý ny cú th lm gim s hn n quỏ trỡnh xõy dng mụ hỡnh phõn lp. Phõn tớch s liờn quan ca d liu (chn c trng) Cú rt nhiu thuc tớnh d liu cú th hon ton khụng cn thit hay liờn quan n mt bi toỏn phõn lp c th. Vớ d d liu v ngy tun hon ton khụng cn thit i vi ng dng phõn tớch ri ro ca cỏc khon tin cho vay ca ngõn hng, nờn thuc tớnh ny l d tha. Phõn tớch s liờn quan ca d liu nhm mc ớch loi b nhng thuc tớnh khụng cn thit, d tha quỏ trỡnh hc vỡ nhng thuc tớnh ú s lm chm, phc v gõy s hiu sai quỏ trỡnh hc dn ti mt mụ hỡnh phõn lp khụng dựng c. Chuyn i d liu Vic khỏi quỏt húa d liu lờn mc khỏi nim cao hn ụi l cn thit quỏ trỡnh tin x lý. Vic ny c bit hu ớch vi nhng thuc tớnh liờn tc (continuous attribute hay numeric attribute). Vớ d cỏc giỏ tr s ca thuc tớnh thu nhp ca khỏch hng cú th c khỏi quỏt húa thnh cỏc dóy giỏ tr ri rc: thp, trung bỡnh, cao. Tng t vi nhng thuc tớnh ri rc (categorical attribute) nh a ch ph cú th c khỏi quỏt húa lờn thnh thnh ph. Vic khỏi quỏt húa lm cụ ng d liu hc nguyờn thy, vỡ vy cỏc thao tỏc vo/ liờn quan n quỏ trỡnh hc s gim. 1.4. So sỏnh cỏc phng phỏp phõn lp ng dng Weka vo bi toỏn d bỏo ti phm Trong tng ng dng c th cn la chn phng phỏp phõn lp phự hp. Vic la chn ú cn c vo s so sỏnh cỏc phng phỏp phõn lp vi nhau, da trờn cỏc tiờu chun sau: chớnh xỏc d oỏn (predictive accuracy) chớnh xỏc l kh nng ca phng phỏp d oỏn chớnh xỏc nhón lp ca d liu mi hay d liu cha bit. Tc (speed) Tc l nhng chi phớ tớnh toỏn liờn quan n quỏ trỡnh to v s dng mụ hỡnh. Sc mnh (robustness) Sc mnh l kh nng phng phỏp to ta nhng d oỏn ỳng t nhng d liu nhiu hay d liu vi nhng giỏ tr thiu. Kh nng m rng (scalability) Kh nng m rng l kh nng thc thi hiu qu trờn lng ln d liu ca mụ hỡnh ó hc. Tớnh hiu c (interpretability) Tớnh hiu c l mc hiu v hiu rừ nhng kt qu sinh bi mụ hỡnh ó hc. Tớnh n gin (simplicity) Tớnh n gin liờn quan n kớch thc ca cõy quyt nh hay cụ ng ca cỏc lut. II. Bi toỏn d bỏo ti phm. 2.1. Gii thiu Kaggle c Anthony John Goldbloom thnh lp vo thỏng 04 nm 2010, Kaggle l nn tng trc tuyn phc v cho vic t chc cỏc cuc thi khai thỏc d liu v xõy dng mụ hỡnh d bỏo. Mt cụng ty bt k cú nhu cu cú th phi hp vi Kaggle a lờn mng mt d liu cựng vi bi toỏn t hng cng ng ngi dựng ca trang ny xut gii phỏp. im quan trng l cỏc thớ sinh" c quyn chnh sa ti lui gii phỏp ca mỡnh, thỳc y h v cng ng n lc tỡm kim gii phỏp tt hn cho n tn hn chút. ó cú rt nhiu cụng ty nh MasterCard, Pfizer, Allstate, Facebook v c NASA tham gia t chc cuc thi trờn Kaggle. Vớ d nh cụng ty General Electric ti tr cuc thi vit phn ng dng Weka vo bi toỏn d bỏo ti phm mm thit lp ng bay hiu qu hn cho hóng hng khụng; hay cụng ty Practice Fusion (chuyờn v cụng ngh sc khe) ti tr mt cuc thi khỏc nhm xỏc nh cỏc bnh nhõn b bnh tiu ng loi da trờn h s y t. Gii thng cho gii phỏp thng cuc khong t 3.000 n 250.000 USD. Cỏ bit cú gii thng tr giỏ n triu USD ó c Heritage Provider Network trao thỏng nm 2013. Cng ng Kaggle gm khong 350.000 ngi, tham gia vo cỏc cuc thi v tng ngi c xp hng theo k nng v kt qu tham d cỏc cuc thi. Bt k thớ sinh no, dự cú xa xụi cỏch tr n õu i na u cú th nh giỏ ti nng ca mỡnh so vi nhng ngi ng u cựng lnh vc. Hn na, cỏc din n ca Kaggle, cỏc thớ sinh cú th trao i v trau di k nng. Mt lp trỡnh viờn gii cú th tng th hng nhanh chúng bng cỏch ghi im tt hai hoc ba cuc thi. mc no ú, Kaggle l mt dng "crowdsourcing", khai thỏc b nóo ton cu gii quyt mt ln no ú. Dng khai thỏc ngun lc ỏm ụng ny ó cú t trc lõu, ớt nht l t thi Wikipedia (hoc xa hn, t thi Linux, v.v .). Th nht, nhng ngi tham gia Kaggle lm vic khụng ch vỡ mc ớch thin nguyn: h mun ginh chin thng v mun ci thin th hng ca mỡnh cú c hi tt hn trờn th trng vic lm. Th hai, Kaggle khụng ch to cụng n vic lm m cũn to th trng vic lm mi cho cỏc chuyờn gia. Th hng Kaggle ó tr thnh mt thc o quan trng gii khoa hc d liu. Cỏc cụng ty nh American Express v New York Times ó bt u lit kờ th hng Kaggle nh mt chng ch cn thit qung cỏo tỡm kim nhõn ti ca mỡnh. Nú khụng ch l huy hiu m cũn l ch s v nng lc, cú ý ngha quan trng v giỏ tr hn cỏc tiờu chun truyn thng v trỡnh v chuyờn mụn. Bng cp t cỏc trng i hc danh ting v lý lch lm vic ti nhng cụng ty tờn tui nh IBM cú th khụng cú ý ngha bng im s Kaggle. Núi cỏch khỏc, cụng vic cú th o m v th hng ca bn trờn th trng giỏ tr hn ni bn lm vic. 2.2. Bi toỏn d bỏo ti phm T nm 1934 n 1963, San Francisco ni ting l ni tn ti nhng tờn ti phm khột ting nht th gii. Ngy nay, thnh ph ny c bit n nhiu hn bi s phỏt trin cụng ngh so vi quỏ kh en ti ca mỡnh. Tuy nhiờn, cựng vi vic gia tng s mt cõn bng giu nghốo, thiu ch v s bựng n ca thi i cụng ngh s ó dn ti vic s lng ti phm ngy cng tng lờn. T Sunset n SOMA, t Marina n Excelsior, d liu c cung cp bao gm bỏo cỏo ti phm ca tt c cỏc vựng lõn cn San Francisco gn 12 nm. T thi gian v a im ó cho, bn phi d oỏn c loi ti phm no s xy ra. D liu ng dng Weka vo bi toỏn d bỏo ti phm c cung cp bi Trung tõm thu thp v phõn phi thụng tin Thnh ph v Qun San Francisco. Hỡnh: Bn 12 loi ti phm xy nhiu nht San Francisco (Ngun: https://www.kaggle.com/benhamner/sf-crime/san-francisco-top-crimes-map/files) 2.3. Gii bi toỏn d bỏo ti phm Trong khuụn kh cho phộp ca bi tiu lun ny, nhúm ó chn s dng cỏc thut toỏn phõn lp gii quyt yờu cu m bi toỏn ó t ra. Nhúm s dng phn mm Weka tin x lý d liu, phõn lp d liu bng nhng thut toỏn ó c ci t sn Weka v d oỏn kt qu phõn lp ca mt vi b d liu cha bit giỏ tr ca thuc tớnh phõn lp. III. Cỏc bc thc hin 3.1. Tin x lý d liu D liu hin ti gm nhiu trng khỏc nhau: IncidntNum, Category, Descript, DayOfWeek, Date, Time, PdDistrict, Resolution, Address, X, Y, Location. ng dng Weka vo bi toỏn d bỏo ti phm T yờu cu bi toỏn nhúm tin hnh tin x lý d liu bng cỏch loi b mt s trng khụng cn thit, gi li cỏc trng sau: Dates, Category, Address, X, Y. 3.2. Phõn lp d liu v D bỏo ti phm Khi cú d liu ó c tin x lý, nhúm tin hnh phõn lp d liu da trờn cỏc gii thut cú sn Weka, sau ú so sỏnh kt qu thu c. Nhúm chia d liu thnh phn, dựng b d liu 20000 dũng train v test trờn b d liu 100 dũng. 10 ng dng Weka vo bi toỏn d bỏo ti phm Sau train, thu c model, nhúm tin hnh test trờn 100 b d liu, kt qu thu c cao nht l s dng thut toỏn Naùve Bayes, vi kt qu thu c l 30%. Kt qu thu c thp v cha tin cy, ú nhúm cn phõn tớch v trung nghiờn cu cỏc v mt xó hi liờn quan ti tõm lý ti phm, cng nh la chn li cỏc thuc tớnh s dng phõn lp. IV. Kt lun v Hng phỏt trin 4.1. Kt lun Trong qu thi gian hn hp ca mỡnh, hon thnh bi tiu lun nhúm ó tỡm hiu cỏc thut toỏn phõn lp nh Naùve Bayes, Decision Table, Tree J48 (cõy C4.5) Cng nh, tỡm hiu c bn cỏch s dng phn mm Weka phc v mc ớch x lý d liu v phõn lp d liu. T ú, s dng phn mm Weka v cỏc thut toỏn phõn lp gii quyt bi toỏn d bỏo ti phm t c mt s kt qu nht nh. 4.2. Hng phỏt trin Trong thi gian ti, nhúm s c gng x lý trờn nhng d liu ln hn (s mu d liu hun luyn ln hn) gúp phn tng tớnh chớnh xỏc ca mụ hỡnh phõn lp. Bờn 11 ng dng Weka vo bi toỏn d bỏo ti phm cnh ú, nhúm cng s c gng ỏp dng mt vi cụng c x lý d liu ln nh Hadoop MapReduce hay Apache Spark nõng cao tc x lý bi toỏn. Ngoi ra, vic ỏp dng cỏc thut toỏn mi hoc nghiờn cu ci tin cỏc thut toỏn c cng l hng m nhúm cng s c gng thc hin nhm tng tin cy ca kt qu d bỏo. V. Ti liu tham kho 1. Tom Mitchell, Machine Learning, McGraw-Hill Education, 1997. 2. https://www.kaggle.com/c/sf-crime - truy cp ngy 06/08/2015. 3. http://www.cs.waikato.ac.nz/ml/weka/documentation.html - truy 4. 06/08/2015. Phuc Do, Unit_1_DSS_Introduction_handout, UIT, 2015. 12 cp ngy [...]... để phân lớp IV Kết luận và Hướng phát triển 4.1 Kết luận Trong quỹ thời gian hạn hẹp của mình, để hoàn thành bài tiểu luận nhóm đã tìm hiểu các thuật toán phân lớp như Naïve Bayes, Decision Table, Tree J48 (cây C4.5)… Cũng như, tìm hiểu cơ bản cách sử dụng phần mềm Weka để phục vụ mục đích xử lý dữ liệu và phân lớp dữ liệu Từ đó, sử dụng phần mềm Weka và các thuật toán phân lớp để giải quyết bài toán. .. lớp để giải quyết bài toán dự báo tội phạm đạt được một số kết quả nhất định 4.2 Hướng phát triển Trong thời gian tới, nhóm sẽ cố gắng xử lý trên những tập dữ liệu lớn hơn (số mẫu dữ liệu huấn luyện lớn hơn) để góp phần tăng tính chính xác của mô hình phân lớp Bên 11 Ứng dụng Weka vào bài toán dự báo tội phạm cạnh đó, nhóm cũng sẽ cố gắng áp dụng một vài công cụ xử lý dữ liệu lớn như Hadoop MapReduce.. .Ứng dụng Weka vào bài toán dự báo tội phạm Sau khi train, thu được model, nhóm tiến hành test trên 100 bộ dữ liệu, kết quả thu được cao nhất là sử dụng thuật toán Naïve Bayes, với kết quả thu được là 30% Kết quả thu được thấp và chưa đủ độ tin cậy, do đó nhóm cần phân tích và tập trung nghiên cứu các vấn đề về mặt xã hội liên quan tới tâm lý tội phạm, cũng như lựa chọn lại các thuộc tính sử dụng. .. gắng áp dụng một vài công cụ xử lý dữ liệu lớn như Hadoop MapReduce hay Apache Spark để nâng cao tốc độ xử lý bài toán Ngoài ra, việc áp dụng các thuật toán mới hoặc nghiên cứu cải tiến các thuật toán cũ cũng là hướng mà nhóm cũng sẽ cố gắng thực hiện nhằm tăng độ tin cậy của kết quả dự báo V Tài liệu tham khảo 1 Tom Mitchell, Machine Learning, McGraw-Hill Education, 1997 2 https://www.kaggle.com/c/sf-crime . – CH1401024 LỚP : CH KHMT K09 Tp. HỒ CHÍ MINH – 08/2015 GV: PGS. TS. ĐỖ PHÚC NHẬN XÉT BÀI TRÌNH BÀY Tên bài trình bày: TÌM HIỂU PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG VÀO BÀI TOÁN DỰ BÁO TỘI PHẠM. Người. thuộc tính phân lớp là chưa biết. 5 Ứng dụng Weka vào bài toán dự báo tội phạm 1.3. Tiền xử lý dữ liệu Việc tiền xử lý dữ liệu cho quá trình phân lớp là một việc làm không thể thiếu và có vai. LUẬN CHUYÊN ĐỀ HỆ HỖ TRỢ QUYẾT ĐỊNH ĐỀ TÀI: TÌM HIỂU PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG VÀO BÀI TOÁN DỰ BÁO TỘI PHẠM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN LỚP CAO HỌC KHMT, KHÓA 09, THÁNG 08 NĂM 2015  MÔN:

Ngày đăng: 14/09/2015, 18:42

Từ khóa liên quan

Mục lục

  • 1. Nội dung trình bày (đúng với tiêu đề bài viết, súc tích) (50%)

  • 2. Tài liệu tham khảo (mới, phong phú) (10%)

  • 3. Trình bày trang chiếu (đẹp, đúng) (10%)

  • 4. Trình bày trước lớp (hấp dẫn, lôi cuốn, tự tin) (10%)

  • 5. Trả lời các câu hỏi (đúng, đầy đủ, thỏa đáng) (10%)

  • MỤC LỤC

  • I. Phân lớp dữ liệu

    • 1.1. Giới thiệu

    • 1.2. Các bước phân lớp dữ liệu

    • 1.3. Tiền xử lý dữ liệu

    • 1.4. So sánh các phương pháp phân lớp

    • II. Bài toán dự báo tội phạm.

      • 2.1. Giới thiệu Kaggle

      • 2.2. Bài toán dự báo tội phạm

      • 2.3. Giải bài toán dự báo tội phạm

      • III. Các bước thực hiện

        • 3.1. Tiền xử lý dữ liệu

        • Dữ liệu hiện tại gồm nhiều trường khác nhau: IncidntNum, Category, Descript, DayOfWeek, Date, Time, PdDistrict, Resolution, Address, X, Y, Location.

        • 3.2. Phân lớp dữ liệu và Dự báo tội phạm

        • Khi có dữ liệu đã được tiền xử lý, nhóm tiến hành phân lớp dữ liệu dựa trên các giải thuật có sẵn trong Weka, sau đó so sánh kết quả thu được.

        • Nhóm chia dữ liệu thành 2 phần, dùng bộ dữ liệu 20000 dòng để train và test trên bộ dữ liệu 100 dòng.

Tài liệu cùng người dùng

Tài liệu liên quan