Ứng dụng giải thuật di truyền vào phân loại tài liệu dạng văn bản

85 552 2
Ứng dụng giải thuật di truyền vào phân loại tài liệu dạng văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG TRẦN THỊ THANH ỨNG DỤNG GIẢI THUẬT DI TRUYỀN VÀO PHÂN LOẠI TÀI LIỆU DẠNG VĂN BẢN LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH Thái Nguyên - 2012 LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Ứng dụng giải thuật di truyền vào phân loại tài liệu dạng văn bản” là công trình nghiên cứu của riêng tôi dƣới sự hƣớng dẫn của PGS.TS. Bùi Thế Hồng. Toàn bộ phần mềm do chính tôi lập trình và kiểm thử. Tôi xin chịu trách nhiệm về lời cam đoan của mình. Các số liệu và thông tin sử dụng trong luận văn này hoàn toàn là trung thực. Tác giả Trần Thị Thanh i Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC MỤC LỤC i DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT vi DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH VẼ viii MỞ ĐẦU 1 CHƢƠNG 1: TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU 3 1.1 Giớ i thiệ u chung 3 1.1.1. Giới thiệu 3 1.1.2. Khái niệm 3 1.1.3. Đặc điểm của bài toán khai phá dữ liệu 4 1.2. Qu trình khm ph tri thức trong cơ sở dữ liệu 6 1.2.1. Gom dữ liệu 7 1.2.2. Trích lọc dữ liệu 7 1.2.3. Làm sạch, tiền xử lý và chuẩn bị trƣớc dữ liệu 8 1.2.4. Chuyển đổi dữ liệu 9 1.2.5. Khai phá dữ liệu - Phát hiện và trích mẫu dữ liệu 9 1.2.6. Đnh gi kết quả mẫu 10 1.3. Khái quát các kỹ thuật khai phá dữ liệu 10 1.3.1. Kỹ thuật khai phá dữ liệu dự đon 10 1.3.1.1. Phân lớp dữ liệu 10 1.3.1.2. Hồi quy 12 1.3.2. Kỹ thuật khai phá dữ liệu mô tả 13 1.3.2.1 Phân cụm dữ liệu 13 1.3.2.2. Tóm tắt 14 ii Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1.3.3. So sánh các tiếp cận khai phá dữ liệu: phân cụm - phân lớp 14 1.3.4. Ứng dụng phân cụm 15 1.3.5. Ví dụ 15 1.4. Ý nghĩa thực tiễn và tình hình ứng dụng 17 1.4.1. Ý nghĩa thực tiễn 17 1.4.2. Tình hình ứng dụng 18 CHƢƠNG 2: TÌM HIỂU VỀ THUẬT GIẢI DI TRUYỀN 19 2.1. Tổng quan về giải thuật di truyền 19 2.1.1. Giới thiệu 19 2.1.2. Các tính chất quan trọng của giải thuật di truyền 20 2.1.3. Cơ sở sinh học của giải thuật di truyền 21 2.1.4. Sơ đồ thực hiện giải thuật di truyền 21 2.1.5. Ứng dụng 24 2.2. Các khái niệm chung về giải thuật di truyền 24 2.2.1. Chuỗi nhiễm sắc thể 24 2.2.2. Các cá thể 25 2.2.3. Phƣơng pháp mã hóa 25 2.2.4. Quần thể 25 2.2.5. Hàm thích nghi 26 2.2.6. Lai ghép, đột biến, tái sinh và chọn lọc 26 2.3. Các phép toán di truyền. 27 2.3.1. Mã hóa 27 2.3.1.1 Mã hóa nhị phân 27 2.3.1.2 Mã hóa hoán vị 28 iii Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2.3.1.3 Mã hóa giá trị 28 2.3.1.4 Mã hóa theo cây 28 2.3.2. Quá trình lai ghép 29 2.3.2.1. Lai ghép giá trị thực 29 2.3.2.2. Lai ghép giá trị nhị phân 31 2.3.3. Đột biến 32 2.3.3.1. Đột biến các giá trị thực 32 2.3.3.2 Đột biến các giá trị nhị phân 33 2.3.4. Phép chọn lọc 33 2.3.4.1. Phƣơng php chọn lọc dùng bánh xe Roulette 33 2.3.4.2. Phƣơng php chọn lọc Stochastic Universal Sampling 34 2.3.4.3. Phƣơng php chọn lọc địa phƣơng 35 2.3.4.4. Phƣơng php lựa chọn loại bỏ 36 2.4. Các tham số của thuật giải di truyền 36 2.4.1. Kích thƣớc quần thể 36 2.4.2. Xác suất lai giống 37 2.4.3. Xác suất đột biến 37 2.4.4. Số lƣợng thế hệ 38 CHƢƠNG 3: ỨNG DỤNG GIẢI THUẬT DI TRUYỀN VÀO PHÂN LOẠI 39 TÀI LIỆU DẠNG VĂN BẢN 39 3.1. Phân loại văn bản 39 3.1.1. Khái niệm 39 3.1.2. Quá trình phân loại văn bản 39 3.2. Giới thiệu bài toán phân loại văn bản 41 iv Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3.3. Cc phƣơng php biểu diễn văn bản 41 3.3.1. Mô hình không gian vector (Vector Space Model - VSM) 41 3.3.2. Mô hình BOOLEAN 43 3.3.3. Mô hình tần suất 44 3.3.3.1. Phƣơng php dựa trên tần số thuật ngữ (TF) 44 3.3.3.2. Phƣơng php dựa trên nghịch đảo tần số văn bản (TDF) 45 3.3.3.3. Phƣơng php TF × IDF 45 3.3.4. Phƣơng php xử lý vector thƣa 46 3.3.5 Mô hình đồ thị 46 3.4. Các thuật toán phân loại văn bản 48 3.4.1. Bộ phân loại Vector hỗ trợ (SVM) 48 3.4.2. Phân loại văn bản và SVM 53 3.4.3. Thuật toán k-NN (k-Nearest Neighbor) 60 3.5. Giải thuật di truyền phân loại văn bản 62 3.5.1. Lựa chọn mô hình biểu diễn văn bản 62 3.5.1.1. Biểu diễn vector của văn bản 63 3.5.1.2. Phép tính độ tƣơng tự giữa hai vector 63 3.5.1.3. Vector trọng tâm của một nhóm văn bản 63 3.5.1.4. Phép tính độ tƣơng tự giữa hai nhóm văn bản 63 3.5.2. Phƣơng n tch thuật ngữ 64 3.5.2.1. Đối với các ngôn ngữ đơn âm tiết (single-term) 64 3.5.2.2. Đối với các ngôn ngữ đa âm tiết (multi-term) 64 3.5.2.3. Loại nhiễu 65 3.5.2.4. Mã hóa ký tự 66 v Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3.5.2.5. Tách từ khóa 66 3.5.2.6. Loại từ dừng (Stop Words) 66 3.5.2.7. Thống kê từ khóa 66 3.5.3. Sử dụng thuật giải di truyền trích chọn từ khóa 67 3.5.3.1.Giới thiệu 67 3.5.3.2. Độ thích hợp của từ khóa 67 3.5.3.3. Ứng dụng giải thuật di truyền để tối ƣu hóa độ thích nghi của từ khóa 69 3.6. Cài đặt và thử nghiệm chƣơng trình 69 KẾT LUẬN 73 TÀI LIỆU THAM KHẢO 74 vi Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT Các từ viết tắt Nghĩa tiếng anh Nghĩa tiếng việt KDD Knowledge Discovery and Data Mining Kỹ thuật pht hiện tri thức và khai ph dữ liệu VSM Vector Space Model Mô hình không gian vector VC Vapnik-Chervonenkis Kích thƣớc VC SVM Support Vector Machine Bộ phân loại Vector hỗ trợ RBF Radial Basis Functions Bộ phân loại chức năng SMO Sequential Minimal Optimization Tối ƣu hóa tuần tự cực tiểu TF term frequency Tần suất từ k-NN k-Nearest Neighbor Thuật ton k-NN WFST Weighted Finite State Transducer Mô hình WFST kết hợp mạng Noron SW Stop Words Loại từ dừng vii Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC BẢNG Bảng 2.1: Biểu diễn cá thể trƣớc và sau đột biến 33 Bảng 2.2: Độ thích nghi và xác suất của cá thể 34 Bảng 3.1: Vector biểu diễn văn bản 1 và văn bản 2 theo tần suất xuất hiện 43 Bảng 3.2: Vector Boolean biểu diễn văn bản 1 44 Bảng 3.3: Các tham số tối ƣu tƣơng ứng với mỗi số lƣợng đặc trƣng. 58 Bảng 3.4: Độ chính xác phân loại trên mỗi lớp và trên toàn bộ 58 Bảng 3.5: Một số từ dừng trong tiếng Việt 66 viii Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC HÌNH VẼ Hình 1.1: Quá trình khám phá tri thức 7 Hình 1.2: Cc đƣờng biên phân loại đối với một láng giềng gần nhất 11 Hình 1.3: Đƣờng biên phân loại học bởi phân loại không tuyến tính 12 Hình 1.4: Một hồi quy tuyến tính đơn giản với tập dữ liệu vay nợ 12 Hình 1.5: Một phép phân cụm đơn giản của tập dữ liệu vào 3 cụm 14 Hình 1.6: Phân cụm cc điểm trong không gian 15 Hình 1.7: Phân cụm các ngôi nhà dựa vào khoảng cách địa lý 16 Hình 2.1: Giải quyết vấn đề bằng giải thuật di truyền. 20 Hình 2.2: Sơ đồ giải thuật di truyền. 22 Hình 2.3: Nguyên tắc thực hiện lai ghép chéo 31 Hình 2.4: Nguyên tắc thực hiện lai ghép đa điểm 32 Hình 2.5: Ảnh hƣởng của qu trình đột biến 32 Hình 2.6: Quá trình chọn lọc cá thể bằng phƣơng php bnh xe Roulette 34 Hình 2.7: Quá trình chọn lọc cá thể bằng phƣơng php Stochastic Universal Sampling 35 Hình 2.8: Mô tả các lân cận của cá thể 35 Hình 2.9: Mô tả các lân cận của cá thể 36 Hình 3.1: Cc bƣớc nhỏ trong qu trình đnh chỉ số 40 Hình 3.2: Biểu diễn cc vector văn bản trong không gian chỉ có 2 thuật ngữ 42 Hình 3.3: Đồ thị biểu diễn văn bản 47 Hình 3.4. Đồ thị đồng hiện của văn bản 48 Hình 3.5. Mặt phẳng tách các mẫu dƣơng khỏi các mẫu âm 49 Hình 3.8: Minh họa việc khoanh vùng k văn bản gần nhất với k = 5 60 Hình 3.9: Mô hình tách từ khoá từ văn bản thô 65 Hình 3.10: Giao diện chƣơng trình chính 70 Hình 3.11: Thực hiện phân tách từng văn bản định dạng txt 70 Hình 3.12: Quá trình loại bỏ các stop word có trong từng văn bản 70 Hình 3.13:Thực hiện học phân lớp thể thao và pháp luật 71 [...]... dữ liệu Đặc điểm của các bài toán khai phá dữ liệu và qui trình khám phá tri thức trong cơ sở dữ Chƣơng 2: Chƣơng 2 nghiên cứu giải thuật di truyền và ứng dụng vào phân loại tài liệu dạng văn bản Trong chƣơng này chúng ta tìm hiểu về các phép toán di truyền và các tham số của giải thuật di truyền Quá trình phân loại văn bản, bài toán phân loại văn bản, các phƣơng pháp biểu di n văn bản và các thuật. .. cận, giải thuật nhằm ứng dụng công nghệ khai phá dữ liệu vào công tác quản lý nguồn tài liệu văn bản trong đó giải thuật di truyền là một hƣớng đi mới có nhiều ƣu điểm trong kỹ thuật tìm kiếm lời giải tối ƣu đáp ứng yêu cầu của nhiều bài toán xử lý văn bản Luận văn cấu trúc gồm 3 chƣơng: Chƣơng 1: Chƣơng 1 chúng ta tìm hiểu tổng quan về khai phá dữ liệu, quá trình khai phá dữ liệu, các hƣớng tiếp...ix Hình 3.14: Trích chọn đặc trƣng theo giải thuật di truyền 71 Hình 3.15: Thực hiện biểu di n các văn bản trong từng phân lớp theo đặc trƣng đƣợc trích chọn dựa trên giaỉ thuật di truyền và biểu di n dƣới dạng vecto thƣa 72 Hình 3.16: Thực hiện phân loại từng văn bản theo từng thể loại 72 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 MỞ... phải giải quyết.Vì vậy, việc đòi hỏi thuật giải chất lƣợng cao và sử dụng kỹ thuật trí tuệ nhân tạo đặc biệt rất cần thiết khi giải quyết các bài toán có không gian tìm kiếm lớn .Giải thuật di truyền là một trong những kỹ thuật tìm kiếm lời giải tối ƣu đã đáp ứng đƣợc yêu cầu của nhiều bài toán và ứng dụng Từ những năm 1962, tại Mỹ, J.H.Holland đã đƣa ra các khái niệm đầu tiên của giải thuật di truyền. Tại... di truyền 2.1.2 Các tính chất quan trọng của giải thuật di truyền Giải thuật di truyền lập luận mang tính chất ngẫu nhiên để tìm giải pháp tối ƣu cho những vấn đề phức tạp, thay vì xác định nhƣ toán học giải tích Tuy nhiên đây là hình thức ngẫu nhiên có hƣớng dẫn bởi trị số thích nghi.Chính hàm số thích nghi giúp giải thuật di truyền tìm giải pháp tối ƣu trong rất nhiều giải pháp có thể có Giải thuật. .. Các kỹ thuật này gồm có: phân lớp, hồi quy… 1.3.1.1 Phân lớp dữ liệu Phân lớp dữ liệu là kĩ thuật dựa trên tập dữ liệu huấn luyện cho trƣớc và sự huấn luyện của con ngƣời, các giải thuật phân lớp sẽ học ra bộ phân lớp dùng để Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 11 phân dữ liệu mới vào một trong những lớp đã đƣợc xác định trƣớc Phân lớp cũng là tiên đoán loại. .. quyết định đƣợc có bao nhiêu bản ghi mới cần phân lớp Phân lớp thông thƣờng trong khai phá dữ liệu cũng dùng rất nhiều các giải thuật và giải thuật đặc thù đã dùng có thể tác động tới cách các bản ghi mới đƣợc phân lớp.Một tiếp cận phổ biến đối với các bộ phân loại là sử dụng các cây quyết định để phân chia và phân đoạn các bản ghi Các bản ghi mới có thể đƣợc phân lớp bằng cách đi theo cây... vực đó để đánh giá các cụm thu đƣợc Phân cụm dữ liệu đƣợc sử dụng nhiều trong các ứng dụng về phân loại thị trƣờng, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web… Khảo sát các cụm sẽ giúp khái quát, tổng kết nhanh chóng nội dung của khối dữ liệu lớn, do đó phân cụm dữ liệu còn có thể đƣợc sử dụng nhƣ một bƣớc tiền xử lý cho các thuật toán khai phá dữ liệu khác Debt Cluster 3 Cluster 1 Cluster... Quy hoạch chiến lƣợc - Quỹ đạo cho ngƣời máy - Lập trình di truyền - Tìm dạng của các phân tử protein - Bài toán ngƣời du lịch (Travelling Salesman Problems) và lập thời gian biểu - Giải những bài toán khó 2.2 Các khái niệm chung về giải thuật di truyền 2.2.1 Chuỗi nhiễm sắc thể Giải thuật di truyền là giải thuật tìm kiếm dựa trên sự mô phỏng di truyền học tự nhiên thông qua các cơ chế chọn lọc tự nhiên... nhị phân. Việc chuyển dữ liệu về dạng nhị phân không làm thay đổi thông tin của dữ liệu đầu vào Đây có thể xem nhƣ là một cách thể hiện khác của dữ liệu ban đầu Thực tế, có hai cách để thể hiện lại dữ liệu (dạng nhị phân và dạng số) trƣớc khi dùng nhƣ là đầu vào của thuật toán Cách chuyển dữ liệu về dạng nhị phân nói trên sẽ làm tăng số chiều dữ liệu nhƣng bù lại thuật toán dùng để khai phá trở . DỤNG GIẢI THUẬT DI TRUYỀN VÀO PHÂN LOẠI 39 TÀI LIỆU DẠNG VĂN BẢN 39 3.1. Phân loại văn bản 39 3.1.1. Khái niệm 39 3.1.2. Quá trình phân loại văn bản 39 3.2. Giới thiệu bài toán phân loại văn. Các thuật toán phân loại văn bản 48 3.4.1. Bộ phân loại Vector hỗ trợ (SVM) 48 3.4.2. Phân loại văn bản và SVM 53 3.4.3. Thuật toán k-NN (k-Nearest Neighbor) 60 3.5. Giải thuật di truyền phân. TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG TRẦN THỊ THANH ỨNG DỤNG GIẢI THUẬT DI TRUYỀN VÀO PHÂN LOẠI TÀI LIỆU DẠNG VĂN BẢN LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH

Ngày đăng: 08/11/2014, 21:44

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan