Thông tin tài liệu
ĐẠI HỌC QUỐC GIA HÀ NỘI NGHIÊN CỬU PHƯƠNG PHÁP LỤA CHỌN CÁC THUỘC TÍNH ĐẶC TRƯNG NHẰM TÃNG CƯỜNG KHA n ă n g c h u ẩ n đ o n CỦA HỆ THỐNG CHUẮN ĐOÁN BỆNH UNG THƯ Mã số: QC 07.27 Chủ nhiệm đề tài: Nguyễn Hà Nam ẠI HỌC QUOC GIA HA NỌl ^ U N G TẨM T H Ò N G TIN THỰ VIEN J)r / Hà N ộ i - 0 m Muc luc ■ ■ i Giải thích c h ữ viết t ắ t ii D anh sách cán bô tham gia thưc hiên đề t i iii D anh m u c hỉnh v ẽ iv Danh m uc b ả n g số l i ê u V T ó m tắt k ết q u ả c h ính đề t i vi 5.1 Kết q uả v ề k h o a h o c vi 5.2 Kết q uà p h u c v u thưc t ế .vi 5.3 K et quà đ t a o vi 5.4 Kết n â n g cao tiềm lưc khoa h o c vi A b stra ct Báo cáo tổ n g k ế t 6.1 Đ ăt vấn đ ề 6.2 T ổ n g q uan vấn đề nghiên c ứ u i 6.2.1 Giới thiêu trích chon nơi d u n g ■> 6.2.2 T h u â t Toán di tru y ề n 6.2.3 T hu ât to án K P C A 6.2.4 T hu ât to án R F 6.3 Phưcm g p h áp đề n g h i 6.3.2 K e t q u ả v thảo l u â n 10 6.4 M u c tiêu v N ò i dun g nghiên c ứ u K et q u ả n g h iê n c ú n 11 6.4.1 C ác c ô n g bổ liên quan đến kết qu ả c ủ a đề t i 11 6.4.2 K et q u ả đ tao củ a đề tà i 11 6.5 K ết luân kiến n g h i 12 6.6 Tài liêu th a m k h ả o 13 Phụ lụ c ]4 i Giải thích chữ viết tắt CSDL PC A RF KPCA OOB ANN IDS KN N C sở d ữ liệu Principle C o m p o n en t A nalysis (kỹ thuật phân tích thành phần ban) R a n d o m F orest (Thuật tốn phân lóp d ự a C A R T ) Kernel P C A (P hương pháp nhân P C A) O u t o f bag (m ột kỹ thuật dùn g để giảin thiểu lỗi trinh học) M n g neu ron Intrusions D etection System (Hệ th ố n g phát xâm nhập trái phép) T h u ậ t toán K láng giênq gần Danh sách cán tham gia thực đề tài STT H o v tên N guyên H N am H ọ c h àm học vị TS T rịn h N h ậ t T iê n K h o a C ô n g n g h ệ t h ỏ n e tin , Đ H Công nghệ Đ H Q G H N (c h ủ n h iệ m đề tài) C q u a n c ô n g tác P G S T S K h o a C ô n g n g h ệ t h ô n g tin, Đ H Công nghệ Đ H Q G H N N guyên C âm Tú CN ( T h k ý đề tài) Lê H ồng Hải K h o a C ô n g n g h ệ t h ô n g tin Đ H C ôns nghệ Đ H Ọ G H N ThS K h o a C ô n g n g h ệ t h ô n g tin, Đ H C ône nghệ Đ H Q G H N D Phương H ạnh ThS " K h o a C ô n g n g h ẹ t h ô n e tin, Đ H Công nghệ Đ H Q G H N H H u y G iáp s v K48 K h o a C ô n g n g h ệ t h ô n s tin Đ H C ơna nehệ Đ H Q Ị H N " Danh mục hình vẽ e H ì n h 1: H n g ti ế p c ậ n f ilte r (c c t h u ộ c t ín h đ ợ c c h ọ n đ ộc lậ p với th u ậ t t o n k h a i p h d ữ liệu ) [ ] H ì n h 2: H n g t i ế p c ậ n w r a p p e r ( c c th u ộ c tín h đ ợ c c h ọ n p h ụ t h u ộ c th e o m ộ t n e h ĩ a n o đ ó v i t h u ậ t t o n k h a i p h d ữ iiệu ) [ ] H ì n h 3: B a c c h t i ế p c ậ n c b ả n c ủ a tríc h c h ọ n n ộ i d u n g P h ầ n tô m u x m c h o b i ế t c c t h n h p h ầ n m h n g tiếp c ậ n đ ó s d ụ n g để đ a k ết q u ả c u ố i c ù n g H ì n h 4: K i ế n tr ú c t ổ n g th ể c ủ a p h n g p h p đề n e h ị ( K P C A - R F ) v ói m ỏ h ì n h h ọ c đ ê t ì m h m n h â n tô t n h ấ t H ì n h 5: S o s n h k ế t q u ả đ o n n h ậ n g i ữ a c h ỉ sử đ ụ n g R F vớ i t h u ậ t to n đ ợ c cải ti ế n K P C A - R F t h ô n g q u a 50 lần t h ự c n g h i ệ m Đ n g đ ậ m t h ể h i ệ n k ế t q u ả c ủ a t h u ậ t to n c ủ a c h ú n g c ò n đ ò 'n g m ả n h thê h i ệ n k ế t q u c ủ a t h u ậ t to n R F 10 Danh mục òảna số liệu ■ B ả n g 1: W ■ S o s n h k ế t q u ả p h â n lớ p v ó i m ộ t số n g h i ê n c u t r c đ â v với p h n g p h p đ ề n g h ị trê n c ù n g b ộ d ữ l i ệ u V Tóm tắt kết đề tàỉ 5.1 Kết quà khoa học • Đ ã hoàn thàn h 01 báo cáo khoa học hội thảo quốc Ìa c ơn g n s h ệ th ô n g tin N h a Trang, 07/2007 5.2 Kết phục vụ thực tế C h ủ n g đ ã h o n t h n h c h n g t rìn h m p h ò n g th u ậ t to n p h â n lớ p d ự a írên tìm đ ặ c t r n g u c ủ a d ữ liệu đ ầ u v o t h ô n e q u a tố i u h m n h â n C c k ế t q u ả n g h i ê n c ứ u c ủ a đ ề tài c h o th ấ y , p h n g p h p c h ú n g đ ề n g h ị v cài đ ặt có k h ả n ă n g p h â n l p tố t h o n so v ới t h u ậ t t o n b a n đ ầu P h n g p h p n y c ó k h a n ă n g m r ộ n g k h ả n ă n g h ọ c b ằ n g c c h t h ê m cá c t h a m số h o ặ c ứ n g d ụ n g cho v iệ c p h â n l p cá c b ộ đ Hệu k h c m ộ t c c h d ễ d àn g 5.3 Kết đào tạo • Đ ã h n g dẫn tốt nghiệp 01 sinh viên đại học bảo vệ tháng 6/2007 đề tài trích chọn nội d u n g (xem bìa luận văn kèm theo) • Đ a n g h n g dẫn 01 sinh viên đại học đề tài trích chọn nội d u n a, dự kiến bâo vệ th án g 6/2008 5.4 Kết nâng cao tiềm lực khoa học N ghiên u th uật tốn trích chọn nội d u n g ú n g d ụ n g tro n g việc khai phá dũ' liệu lớn Đ ã h n g dẫn sinh v iên tổ chức sem in ar khoa học kỹ thuật trích chọn nội dung khai p h d ữ liệu từ năm 2007 N ă m 008-2009 nghiên cứu áp dụng đưa vào giảng dạy p h o n s pháp trích chọn nội d ung khn khổ chương trình cao học ng àn h hệ th ố n g th ô n g tin VI Abstract T h i s p a p e r p r o p o s e d a c o m b i n a t i o n o f k e r n e l f u n c ti o n s K e r n e l PrincÌDỈe C o m p o n e n t A n a l y s i s a n d its le a r n in g m e t h o d w h i c h is h e lp to n o t o n l y t r a n s f o r m th e input space classific atio n to a low er perform ance dim en sio n featu re W e d e f in e d th e soace co m b in ed but also kernel in c re a s e f u n c ti o n the as the w e i g h t e d s u m o f a s e t o f d i f f e r e n c e t y p e s o f b a s is k e r n e l fu n c tio n consisting, o f p o l y n o m i a l , g a u s i a n a n d n e u r a l k e r n e l s , w h i c h is tr a i n e d b v a n o v e l le a r n in g m e t h o d b a s e d o n g e n e t i c a l g o r i t h m T h e w e i g h t s o f b a s i s k e r n e l f u n c ti o n s in th e c o m b i n e d k e r n e l a r e d e t e r m i n e d in l e a r n i n g p h a s e a n d u s e d as t h e p a r a m e t e r s in th e d e c i s i o n m o d e l in t h e c l a s s i f i c a t io n p h a s e T h e u n i f i e d k e r n e l a n d th e le a r n in g m e t h o d w e r e a p p l i e d t o o b t a i n th e o p t i m a l d e c i s i o n m o d e l fo r th e c l a s s i f i c a t io n o f a p u b l i c d a t a s e t f o r d i a g n o s i s o f c a n c e r d i s e a s e s T h e e x p e r i m e n t s h o w e d fast c o n v e r g e n c e in l e a r n i n g p h a s e a n d r e s u lt e d in th e o p t i m a l d e c is i o n m o d e l w i t h the b e t t e r p e r f o r m a n c e t h a n o t h e r k e r n e ls T h e r e f o r e , th e p r o p o s e d k e r n e l f u n c ti o n h a s the g r e a t e r f l e x i b i l i t y in r e p r e s e n t i n g a p r o b l e m s p a c e t h a n o th e r k e r n e l fu n c tio n s Báo cáo tổng kết 6.1 Đặt vấn đề T r o n g lĩn h v ự c n g h i ê n c ứ u v ề k h a i p h d ữ liệ u n ói c h u n e c ũ n s n h t r o n s n g h i ê n c ứ u v ề c c t h u ậ t t o n p h â n ló p nói riê n g , v ấ n đề x lý d ữ liệ u lớ n n s ỵ c n g t r t h n h v a n đ ề c ấ p th iế t v đ ó n g vai t r ò c h ủ đ o tr o n g v iệ c s iả i q u y ế t b ài t o n t h ự c tế P h ầ n l n t h u ậ t t o n p h â n ló p đ ã p h t t r i ể n chi cỏ th ể eiải q u y ế t đ ợ c v i m ộ t l ợ n g sổ liệu g i i h n c ũ n g n h với m ộ t đ ộ p h ứ c tạ p d ữ liệu b iế t t r c T r o n g k h i đ ó l ợ n g d ữ liệ u m c h ủ n g ta th u th ậ p đ ợ c n a y c n a trờ n ê n p h o n g p h ú v đ a d n g n h c c s ự p h t tr iể n m n h m ẽ c ủ a k h o a h ọ c k ỹ th u ật M ặ c d ù r ấ t n h i ề u t h u ậ t t o n p h â n lớ p d ự a trê n n h i ề u n ề n t ả n g lý t h u y ế t k h c n h a u đ ã đ ợ c p h t tr iể n v ú n g d ụ n g t rấ t lâu, n h n g t h ự c tế c h o t h ấ y k ết q u a p h ụ t h u ộ c rấ t n h i ề u v o đ ặ c tín h d ữ liệu c ũ n g n h k h ả n ă n g x ỉý d ữ liệu t h ô c ủ a từ n g n h ó m n g h i ê n c ú n M ộ t đ i ề u h i ể n n h i ê n v i m ỗ i p h n g p h p có th ê đ p ứ n s x lý tố t tr ê n m ộ t v i d ữ liệ u v ứ n g d ụ n e c ụ th ể n o N g y n a y với trợ g i ú p c ủ a c c h ệ t h ố n g t ự đ ộ n g h ó a v h ệ t h ố n g t r ợ e i ú p c n g n e y c n g tin h vi h n , k h ố i l ợ n g d ữ liệ u c ầ n p h ả i x lý t ă n g v i m ộ t tốc đ ộ c h ó n g m ặ t N g i ta c đ o n r ằ n g l ợ n g t h ô n g tin t r ê n t o n c ầ u t ă n g e ẩ p đôi sau k h o ả n g hai n ă m t h e o đ ó s ổ l ợ n g c ũ n g n h kíclì c ỡ c ủ a cá c c s d ữ liệu ( C S D L ) c ũ n a tă n g lên m ột cách nhanh chóng T r o n g k h a i p h d ữ liệ u th ì p h o n g p h p tríc h c h ọ n đ ó n g m ộ t vai trò q u a n t r ọ n g đ ể t r í c h c h ọ n v c h u ẩ n bị d ữ liệu H n g tiê p c ậ n n y m lă n g h iệ u n ă n g th u n h ậ n tri t h ứ c t r o n g c c n g n h n h tin sinh, x lý d ữ liệu w e b , x lý t i ê n g nói h ìn h ả n h v i đ ặ c t í n h c ó r ấ t n h i ề u t h u ộ c t í c h (vài t r ă m c h o đ ế n v ài t r ă m n g n t h u ộ c t í n h ) n h n g t h n g c h ỉ c ó m ộ t số l ợ n g t n g đố i n h ỏ cá c m ẫ u d ù n g để h u ấ n l u y ệ n ( t h n g v i t ră m ) P h n g p h p tr íc h c h ọ n s ẽ g iú p g i ả m k í c h c ỡ củ a k h ô n g g i a n d ữ liệu, lo i b ỏ n h ũ n g t h u ộ c t í n h k h ô n g liê n q u a n v n h ữ n g th u ộ c tín h n h iễ u P h n g p h p n y c ó ả n h h n g n g a y lậ p tứ c đ ê n cá c ứ n g d ụ n g n h tă n g lôc đ ộ c ủ a t h u ậ t t o n k h a i p h d ữ liệu, cải t h i ệ n c h ấ t l ợ n g d ữ liệu v v ậ y tă n g h iệ u s u ấ t k h a i p h d ữ liệ u , k i ể m s o t đ ợ c k ế t q u ả c ù a t h u ậ t to án P h n g p h p đ ợ c g iớ i t h i ệ u t n h ữ n g n ă m t r o n g cá c tài liệu v ê x c s u â t t h ô n g kê h ọ c m y v k h a i p h d ữ l i ệ u [1-7 ] P r i n c i p a l C o m p o n e n t A n a l y s i s ( P C A ) [4] m ộ t p h n g p h p k h n ô i tiế n g h i ê u q u ả t r o n g q u t r ì n h l m g i ả m số th u ộ c t í n h c ủ a tậ p d liệ u đ â u v o G â n đ ây p h n g p h p h m n h â n đ ã đ ợ c p d ụ n g đ ể c ó th ể ứ n g d ụ n g P C A v o giải q u y ế t c c b ài t o n ph i t u y ế n tín h P h n g p h p n y đ ã đ ợ c S c h o l k h o f v đ ô n g n g h i ệ p c ủ a ô n g đ a v i tê n g ọ i K P C A [9] T r o n g đê tài n y c h ú n g tỏi trìn h bàv m ộ t ti ế p c ậ n m i d ự a t r ê n h m n h â n đ ể có th ể c h ọ n n h ữ n g th u ộ c t ín h tó t n h ấ t đẻ t ă n g k h ả n ă n g p h â n ló p c ù a t h u ậ t to n R a n d o m F o r e s t ( R F ) T r o n g p h n g p h p đ ề n g h ị c h ú n g tô i s d ụ n g g iải t h u ậ t di t r u y ề n đ ể t ìm h m n h â n tố i u c h o việc tìm r a c c h c h u y ể n đ ổ i p h i t u y ế n tố t n h ấ t n h m m tă n g k h ả n ă n g p h â n ló p c ủ a RJF 6.2 Tổng quan vấn đề nghiên cứu 6.2.1 Gi ới íhiệu trích chọn nội dung V ê c b ả n v iệ c b ó c t c h cá c t h u ộ c t ín h đ ặc t r n g b a o s m h p h â n ỉà x â y d ự n g c c t h u ộ c t í n h v l ự a c h ọ n t h u ộ c tín h đ ặc trư n g X â y d ự n e b ộ cá c th u ộ c tín h m ộ t c ô n g v i ệ c rấ t q u a n tr ọ n g tr o n g v iệ c x lý số liệu K h i x â v d ự n a d ữ liệu c h ú n g ta c ầ n p h ả i đ ả m b ả o k h ô n g đê m ấ t n h i ề u t h ô n g tin q u c ũ n g n h k h ô n q u tố n k é m v ề m ặ t c h i p h í P h ầ n t h ứ hai, c h ủ đề c h ín h c ủ a đ ề tài n y có m ụ c tiêu tìm n h ữ n g t h u ộ c t í n h đ i d i ệ n c h o đối t ợ n loại b ò nhừ na, t h u ộ c t ín h th a g â y n h i ễ u n h ằ m t ă n g h i ệ u s u ấ t c ủ a c c th u ậ t to n k h p h d ữ liệu C ó n h iề u p h n g p h p c ũ n g n h h n g tiế p c ậ n k h c n h a u b a o g m p h n g p h p k in h đ iể n [1-3] v i b ộ d ữ liệ u t n g đ ố i n h ỏ v h n g tiế p c ậ n h i ệ n đại [5-7], T u y v ậ y c h ú n g đ ề u có m ộ t số c c y ê u c ầ u c h u n g n h sau: G i ả m d ữ liệ u c ầ n lư u t r ữ v tă n g tố c đ ộ c ù a t h u ậ t to n ( tín h to n trê n d ữ liệ u đ ó ) G i ả m b ộ t h u ộ c t í n h n h ầ m tiết k i ệ m k h ô n g s i a n lư u t r ữ T ă n g c n g h i ệ u q u ả t h u ậ t to n : n h ằ m th u đưọ'c t ỷ lộ d ự đ o n đ ủ n g ca o h n C ó k i ế n t h ứ c d liệu: th u đ ợ c tri t h ứ c v ê d ữ liệu t h ô n a q u a p h n g p h p b ó c t c h d ữ liệu đ ể có th ể tạ o r a h a y b i ê u d iễ n d liệu dễ d n g v ề c b ả n c h ú n g ta c ó th ể p h â n loại cá c p h n g p h p tríc h c h ọ n th e o c c h tiế p c ậ n k h c n h a u f i l t e r / w r a p p e r , đ ọ ’c t r ì n h b y k ỹ t r o n g c c tài liệu [1, 2], L ợ c đ t h ự c h i ệ n c ủ a h a i c c h tiếp c ậ n n y đ ợ c g i ả n lư ợ c h ó a t r o n g h ìn h vẽ d i F e a tu r e su b se t selection In p u t fe a tu r e s H ì n h 1: In d u c tio n A lg o r ith m H n g tiếp cận filter (các thuộc tính đưọc chọn độc lập với thuật toán khai phá d ữ liệu) [1] ] lY iitiin ẹ '•et 11.'iiums 'êĩ J peil'oniKUKV FlmIih e '•i-1 eslini.iliou F e a tu r e selection search r t M iU K ‘íỂl liuluctior A lg o rith i F e a t u r e evaluation ie.mueser !, Hypothesis i n d u c tio n A lg o 111Inn31 E s lim a le d Tfsi -el H ìn h 2: Acnir.ìcy H n g tiế p cậ n w p p e r (các thuộc tính c họn p h ụ thuộc theo nghĩa với thu ật tốn khai phá d ữ liệu) [1] ... thuật trích chọn nội dung khai p h d ữ liệu từ năm 2007 N ă m 008-2009 nghiên cứu áp dụng đưa vào giảng dạy p h o n s pháp trích chọn nội d ung khn khổ chương trình cao học ng àn h hệ th ố n g... x â y d ự n e tập h u ấ n lu y ệ n v p h n o p h áp k iê m tra 6.3 Mục tiêu Nội dung nghiên cứu 6.3.1 Phương pháp đề nghị 6.3.1.1 T ổn g quan v ề mô hình học Perform ance validation V a l i d... n h m m tă n g k h ả n ă n g p h â n ló p c ủ a RJF 6.2 Tổng quan vấn đề nghiên cứu 6.2.1 Gi ới íhiệu trích chọn nội dung V ê c b ả n v iệ c b ó c t c h cá c t h u ộ c t ín h đ ặc t r n g b a
Ngày đăng: 30/03/2015, 15:44
Xem thêm: Nghiên cứu phương pháp lựa chọn các thuộc tính đặc trưng nhằm tăng cường khả năng chuẩn đoán của hệ thống chuẩn đoán bệnh ung thư = Feature Selecton approach fo151552, Nghiên cứu phương pháp lựa chọn các thuộc tính đặc trưng nhằm tăng cường khả năng chuẩn đoán của hệ thống chuẩn đoán bệnh ung thư = Feature Selecton approach fo151552, Giải thích chữ iết tắt, 4 Kết quả nâng cao tiềm lực khoa học, 2 Tổng quan các vấn đề nghiên cứu, 3 Mục tiêu và Nội dung nghiên cứu, 6 Tài liệu tham khảo