Nghiên cứu, xây dựng phương pháp trích chọn đặc trưng dựa trên giải thuật phân lớp random forest

Nghiên cứu, xây dựng phương pháp trích chọn đặc trưng dựa trên giải thuật phân lớp Random Forest Nguyễn Cương Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05 Người hướng dẫn: TS. Nguyễn Hà Ham Năm bảo vệ: 2010 Abstract: Luận văn trình bày một cách tổng quan về khai phá dữ liệu và chọn lựa thuộc tính nói chung, sau đó đi sâu vào nghiên cứu giải thuật phân lớp thuộc tính random forest. Đề xuất một phương pháp học máy dựa trên việc cải tiến giải thuật phân lớp Random Forest nhằm tăng hiệu quả phân lớp của giải thuật. Sau cùng, luận văn trình bày kết quả cài đặt, thử nghiệm đối với phương pháp học máy đề xuất, đưa ra các kết quả đánh giá tính hiệu quả của giải thuật trước và sau khi cải tiến, cmột số nhận xét, đánh giá về kết quả thực nghiệm này. Keywords: Dữ liệu; Giải thuật phân lớp; Khai phá dữ liệu; Công nghệ thông tin Content Tổng quan 1.1. Phát hiện tri thức và khai phá dữ liệu Từ thập niên 80 của thế kỷ trước với xuất hiện của máy tính và sau đó là sự phát triển mạnh mẽ của công nghệ thông tin và truyền thông, thì nhu cầu lưu trữ dữ liệu và trao đổi thông tin trong xã hội loài người ngày càng tăng lên mạnh mẽ. Tuy nhiên, đi cùng với lượng dữ liệu và thông tin ngày càng khổng lồ mà chúng ta có được thì việc biến đổi những dữ liệu sẵn có đó thành tri thức trở thành một đòi hỏi tất yếu trong đời sống hàng ngày. Từ nhu cầu thực tế trên, đòi hỏi chúng ta phải tìm kiếm và ứng dụng các kỹ thuật nhằm “khai phá” những thông tin hữu ích, những tri thức có ích từ những nguồn dữ liệu khồng lồ hiện có. Phát hiện tri thức và khai phá dữ liệu (KDD) là những công việc liên quan đến việc trích, lọc những thông tin có ích từ các nguồn dữ liệu [1]. Khai phá dữ liệu là một tập các kỹ thuật được sử dụng một cách tự động nhằm tìm kiếm, phát hiện và đưa ra những mối quan hệ phức tạp trong một tập dữ liệu lớn. Khai phá dữ liệu chủ yếu tập trung vào 3 nhiệm vụ chính sau: Giảm chiều dữ liệu: Giảm chiều dữ liệu là việc làm giảm chiều của không gian tìm kiếm dữ liệu, giảm chi phí thu thập và lưu trữ dữ liệu, nâng cao hiệu quả của việc khai phá dữ liệu 2 và làm đơn giản hóa các kết quả khai phá dữ liệu. Trong nhiệm vụ làm giảm chiều dữ liệu chúng ta cần xem xét hai khái nhiệm sau:  Trích chọn thuộc tính (Feature Extraction): Trích chọn thuộc tính là việc tìm ra một tập thuộc tính mới từ tập thuộc tính ban đầu nhằm nâng cao hiệu suất tính toán và độ chính xác phân lớp. Các kỹ thuật trích chọn thuộc tính thường liên quan đến các phép biến đổi phi tuyến (non-linear). Linear discriminant analysis (LDA) và principal components analysis (PCA) là hai kỹ thuật phổ biến dùng trong trích chọn thuộc tính.  Chọn lựa thuộc tính (Feature Selection): Chọn lựa thuộc tính là việc chọn ra một tập thuộc tính con từ tập thuộc tính ban đầu sao cho các tập thuộc tính con này thể thể hiện tốt nhất chức năng của một hệ thống quy nạp, chẳng hạn như một hệ thống phân lớp. Việc tìm kiếm một tập con thuộc tính tối ưu thường là rất khó và rất nhiều các vấn đề của chọn lựa thuộc tính là thuộc về lớp các bài toán NP-hard. Tuy nhiên, chọn lựa thuộc tính lại được sử dụng rộng rãi trong giảm chiều dữ liệu vì các kết quả dựa trên các thuộc tính được chọn lựa từ tập thuộc tính ban đầu thường dễ dàng lý giải hơn so với một tập các thuộc tính được biến đổi từ tập thuộc tính ban đầu. Phân cụm và phân lớp: Phân lớp và phân cụm là hai nhiệm vụ có mối quan hệ tương đối gần nhau trong khai phá dữ liệu. Một lớp là một tập các đối tượng có cùng một số đặc điểm hoặc mối quan hệ nào đó, tất cả các đối tượng trong lớp này được phân vào trong cùng một lớp tên nhằm mục đích là để phân biệt với các lớp khác. Một cụm là một tập các đối tượng tương tự nhau về mặt vị trí. Các cụm thường được được tạo ra nhằm mục đích để sau đó tiến hành phân lớp các đối tượng. Một tập dữ liệu với các lớp tên, phân tích dữ liệu nhằm mục đích xây dựng một bộ phân lớp, bộ phân lớp này đóng vai trò như một “người dự đoán” một đối tượng mới xuất hiện sẽ thuộc về lớp nào. Mô hình phân lớp được xây dựng dựa trên các dữ liệu sẵn có. Tiếp theo tiến hành dự đoán, phân lớp các đối tượng dựa vào mô hình máy học được xây dựng ở bước trên. Ví dụ, trong hoạt động của ngân hàng các thông tin cá nhân cũng và các hành vi tiêu dùng của khách hàng được thu thập nhằm xây dựng một mô hình phân lớp cho những khách hàng mới vào các lớp: có rủi ro tín dụng thấp, rủi ro tín dụng trung bình và rủi ro tín dụng cao. Trong trường hợp khác, chỉ có một số thông tin cơ bản về những khách hàng tiềm năng như: tuổi, trình độ chuyên môn và thu nhập. Chúng ta có thể sử dụng một số kỹ thuật phân cụm nhằm nhóm các đối tượng này vào các cụm theo một số tiêu chí về độ tương đồng nào đó, sau đó tiến hành dán nhãn cho các cụm được phân: mức độ rủi ro thấp, mức độ rủi trung bình và mức độ rủi ro cao dựa vào các tiêu chí kinh doanh. Nhìn chung, phân cụm thường được triển khai để xử lý với các dữ liệu không có lớp nhãn. Một số phương pháp phân lớp tiến hành phân cụm các đối tượng vào các nhóm nhỏ trước khi tiến hành phân lớp, chẳng hạn như trong mạng neural RBF (radial basis function). Trích chọn luật: Trích chọn luật tìm kiếm và đưa ra dữ liệu bằng cách tất cả các dữ liệu được đưa ra dựa trên các suy diễn/các quyết định mà các suy diễn/quyết định này được xây dựng từ các tri thức thu thập được từ dữ liệu đó. Đối với người sử dụng các kết quả của khai phá dữ liệu họ chỉ mong muốn có một cách giải thích đơn giản là tại sao có các kết quả phân lớp đó, thuộc tính nào ảnh hưởng đến kết quả khai phá dữ liệu…Tuy nhiên, bằng các tham số phân lớp rất khó để có thể diễn giải các tri thức đó theo cách mà người sử dụng có thể dễ dàng hiểu được. Do đó, trích chọn ra các luật IF-THEN để đưa ra các thông tin có giá trị là một cách diễn giải đơn giản và dễ hiểu nhất đối với người sử dụng. 3 Trích chọn luật có thể được nhóm vào hai kiểu chính. Một kiểu liên quan đến việc tìm ra mối quan hệ giữa các thuộc tính đầu vào và các lớp nhãn ở đầu ra trong tập dữ liệu đã được gán nhãn. Kiểu trích chọn luật còn lại là việc khai phá các luật quan hệ (accosiation rule), đây là việc tìm ra các mối quan hệ giữa các thuộc tính trong tập dữ liệu và điều này hoàn toàn không phụ thuộc vào lớp nhãn ở đầu ra. Các kỹ thuật trích chọn ra luật quan hệ thường được ứng dụng nhằm tìm kiếm các mối liên hệ giữa các đối tượng trong dữ liệu phiên. Khai phá các luật quan hệ có thể được áp dụng để phân tích hành vi khách hàng trong siêu thị. Ví dụ một khách hàng mua bơ cũng sẽ mua bánh mì với một xác suất nhất định nào đó. Khai phá dữ liệu thường được xem như là một bước đơn lẻ trong chu trình phát hiện tri thức và khai phá dữ liệu. Các bước khác trong chu trình này bao gồm: a) Kho dữ liệu, b) chọn lựa các dữ liệu đích, c) làm sạch dữ liệu, d) giảm chiều dữ liệu, e) chọn lựa mô hình phù hợp, f) khai phá dữ liệu, g) nhận xét và trình bày kết quả, h) kiểm tra các kết quả có được. Một cách đơn giản có thể hiểu như sau: kho dữ liệu cho phép dữ liệu được thu thập từ nhiều nguồn dữ liệu khác nhau và ở nhiều định dạng khác nhau và nguồn dữ liệu này được sử dụng trong một ứng dụng cụ thể; chọn lựa các dữ liệu đích nhằm tạo ra một dữ liệu cụ thể dùng cho ứng dụng; làm sạch số liệu nhằm loại bỏ nhiễu và các giá trị bất thường; giảm chiều dữ liệu nhằm chuyển dữ liệu thành một dạng dữ liệu phù hợp với ứng dụng; chọn lựa mô hình là chọn một giải thuật phù hợp; khai phá dữ liệu nhằm tìm ra các thông tin cần quan tâm; nhận xét và trình bày kết quả là việc giải thích các kết quả có được; kiểm tra các kết quả có được là việc chuyển các kết quả thành một dạng có thể kiểm tra lại và sử dụng lại. Hình 1.1 thể hiện các bước trong một chu trình phát hiện tri thức và khai phá dữ liệu Hình 1. 1: Mô hình chu trình phát hiện tri thức và khai phá dữ liệu Nếu xem xét các bước của chu trình khai phá dữ liệu trong ngữ cảnh của chọn lựa thuộc tính, chúng có thể được tổng hợp thành 4 bước cơ bản sau: 1) Kho dữ liệu (Data warehousing) - dữ liệu từ các nguồn khác nhau được tổng hợp, lưu trữ lại, 2)Tiền xử lý (Pre-processing) (các bước b, c, và d) – chọn lựa các dữ liệu phù hợp cho một ứng dụng cụ thể, 3) Khai phá dữ liệu (Data ming) (các bước e và f) – một giải thuật phai phá dữ liệu được chọn lựa và áp dụng trên bộ số liệu thu được ở bước 2, 4) Hậu xử lý (Post-processing) (các bước g và h) – Các tri thức thu được từ bước 3 được chọn lựa, nhóm… sao cho chúng có thể dễ dàng hiểu và sử dụng. Hình 1.2 dưới đây [2] thể hiện sự phát của khai phá dữ liệu trong những năm gần đây : 4 Hình 1. 2: Sự phát triển của khai phá dữ liệu trong những năm gần đây 1.2. Chọn lựa thuộc tính (CLTT) và vai trò của CLTT trong KDD Hiện nay có rất nhiều phương thức được sử dụng trong khai phá dữ liệu như phân lớp, ước lượng, phân cụm khái niệm và số, mối quan hệ, phân tích tuần tự…tuy nhiên đại bộ phận các phương thức này đều gặp vấn đề khi dữ liệu quá lớn hoặc quá nhỏ. Một điều hiển nhiên rằng dữ liệu sẽ không bao giờ là quá nhiều, nếu tất cả các dữ liệu là phù hợp. Tuy nhiên, trên thực tế điều này là rất ít khi có được bởi vì thông thường các dữ liệu thường được thu thập cho một mục đích chung nào đó hơn là được thu thập cho một mục đích riêng biệt, cụ thể. Do vậy, đối với một nhiệm vụ khai phá dữ liệu cụ thể, nếu số lượng các dữ liệu không phù hợp là lớn thì dữ liệu này sẽ ảnh hưởng rất lớn đến kết quả cũng như tốc độ thực hiện của việc khai phá dữ liệu trên. Đối với những trường hợp này, thì việc áp dụng một thuật toán chọn lựa thuộc tính để loại bỏ các dữ liệu không phù hợp là hết sức cần thiết. Trong trường hợp khác, chúng ta có thể gặp các vấn đề liên quan đến thiếu dữ liệu như: (i) các dữ liệu hiện có chỉ chiếm một phần rất nhỏ trong yêu cầu dữ liệu cần thiết để thực hiện một giải thuật phai phá dữ liệu nào đó nhằm tìm ra một tri thức hữu ích; (ii) hoặc số lượng thuộc tính là rất lớn tuy nhiên số lượng thực thể (bản ghi) lại nhỏ. Trên thực tế, khi chúng ta có quá ít dữ liệu hoặc quá nhiều thực thể thì lựa chọn thuộc tính có thể cung cấp cho chúng ta một giải thuật khai phá dữ liệu chỉ tập trung vào các thuộc tính liên quan. Do đó, các vấn đề đặt ra ở trên có thể được giải quyết trong điều kiện “tốt nhất” có thể có được. Thông thường có hai câu hỏi được đặt ra đối với việc chọn lựa thuộc tính là 1) Kết quả của chọn lựa thuộc tính là gì ?; 2) Tại sao cần chọn lựa thuộc tính ?. Trước đây, câu trả lời cho hai câu hỏi này chỉ đơn giản là: “muốn có một tập dữ liệu có số lượng thuộc tính nhỏ hơn”. Tuy nhiên, ngày nay câu trả lời cho hai câu hỏi trên lại hết sức đa dạng, câu trả lời có thể là: tôi muốn 1) cải thiện hiệu năng (tốc độ học, độ chính xác, hoặc đơn giản hóa các luật); 2) trực quan hóa dữ liệu để chọn lựa một mô hình phù hợp cho dữ liệu đó; hoặc/và để giảm chiều dữ liệu cũng như loại bỏ nhiễu trong dữ liệu hiện có… Từ những quan sát trên về chọn lựa thuộc tính chúng ta có nhận xét sau: Chọn lựa thuộc tính là một quá trình để tìm ra một tập con tốt nhất các thuộc tính theo một số tiêu chí nào đó. Ứng dụng của trích chọn thuộc tính là hữu ích đối với cả ba bước của chu trình phát hiện tri thức: tiền sử lý, khai phá và hậu sử lý. Cũng cần lưu ý là cả ba bước trên đều quan trọng như nhau đối với sự thành công của phát hiện tri thức và khai phá dữ liệu. Bước một đảm bảo rằng dữ liệu được cung cấp cho bước hai tốt về chất lượng và phù hợp về số lượng, bước hai đảm 5 bảo rằng khai phá dữ liệu được thực hiện một cách hiệu quả và hiệu nghiệm, bước ba đưa ra các kết quả tin cậy và đầy đủ như người sử dụng mong muốn. Chọn lựa thuộc tính đóng vai trò như là một công cụ quan trọng trong khai phá dữ liệu và là thể hiện của khoảng cách giữa sự xuất hiện các vấn đề mới và sự xuất hiện các lĩnh vực mới. Một số vấn đề mà trước đây không thể giải quyết được trong thống kê nay đã giải quyết được bởi học máy, và khai phá dữ liệu xuất hiện như một lĩnh vực mới chỉ quan tâm đến việc xử lý các vấn đề chưa xử lý được trong thống kê và học máy. Các công cụ mới được phát triển ngày càng nhiều, tuy nhiên mỗi công cụ lại có những hạn chế rất định do đó chúng ta mong muốn có thể “nối” được những công cụ này để tận dụng được “sức mạnh” của chúng. Chọn lựa thuộc tính có thể được xem như là một bộ công cụ đặc biệt để “nối” và cải thiện hiệu năng của các công cụ hiện có. Xem xét hai thành phần chính của phát hiện tri thức là các giải thuật khai phá và tập dữ liệu, các công cụ có rất nhiều cho cả hai thành phần này. Chọn lựa thuộc tính là các công cụ thao tác dữ liệu làm cho dữ liệu phù hợp với giải thuật khai phá mà không thay đổi bản chất của dữ liệu và là một công cụ hữu hiệu cho việc cải tiến các phương thức khai phá dữ liệu. 1.3. Chọn lựa thuộc tính và bài toán phân lớp Nhiệm vụ cơ bản của việc phân lớp là phân chia một tập các đối tượng thành n-hữu hạn lớp đã biết trước. Tập đối tượng cần phân lớp được đặc trưng bởi một tập các thuộc tính chứa các thông tin cần thiết liên quan đến các lớp, trong đó mỗi tập các thuộc tính được đại diện bởi một tập các thuộc tính – giá trị. Với một tập dữ liệu bao gồm một tập các đối tượng đã được phân lớp (thường gọi là tập tập huấn) nhiệm vụ đặt ra là từ tập huấn luyện cho trước xây dựng một bộ phân lớp cho các dữ liệu tương tự. Vấn đề đặt ra đối với bài toán phân lớp là số lượng các thuộc tính có thể rất lớn do những lý do sau:  Dữ liệu được thu thập không đơn giản chỉ phục vụ cho một tác nghiệp cụ thể chẳng hạn như khai phá dữ liệu. Do đó, đối với một ứng dụng cụ thể bộ dữ liệu có thể có rất nhiều các thuộc tính thừa hoặc không phù hợp.  Đôi khi thậm chí nếu chúng ta biết các thuộc tính được thiết kế cho một tác nghiệp cụ thể thì thuộc tính nào là thuộc tính có liên quan thường không được biết. Điều này là do bản chất của nghiên cứu. Chúng ta tiến hành thực nghiệm và thu thập số liệu vì chúng ta muốn biết nhiều hơn lĩnh vực mà chúng ta muốn tìm hiểu và chúng ta thông thường không có một ý niệm chính xác về các thuộc tính cần thiết. Do đó, chúng ta phải tìm các thuộc tính cần thiết nhiều nhất mà chúng ta có thể nghĩ đến thậm chí chúng có thể là các thuộc tính dư thừa hoặc không liên quan. Chúng ta chỉ có thể biết được thuộc tính nào là liên quan sau khi chúng ta nghiên cứu bộ số liệu đã được thu thập.  Một tác nghiệp có thể yêu cầu dữ liệu từ nhiều nguồn khác nhau. Nếu dữ liệu từ mỗi nguồn là lớn thì sau khi nối các nguồn dữ liệu trên chúng ta sẽ có một bộ dữ liệu khổng lồ. Nếu chúng ta biết được các thuộc tính liên quan thì chúng ta có thể giải quyết được vấn đề trên nhưng trên thực tế chúng ta thường không biết trước các thuộc tính nào là thuộc tính liên quan. Các thuộc tính không liên quan hoặc thừa có thể có những ảnh hưởng tiêu cực đối với các giải thuật phân lớp: (1) Có nhiều thuộc tính thông thường có nghĩa là cần nhiều thực thể, vì vậy chúng ta cần đảm bảo các ràng buộc thống kê giữa các thực thể trong các lớp khác nhau, (2) Các thuộc tính/dữ liệu thừa hoặc không liên quan có thể là nguyên nhân dẫn đến việc học của giải thuật không được chính xác hoặc dẫn đến hiện tượng overfitting trong mô hình, (3) 6 Thêm vào đó với sự có mặt của dữ liệu thừa hoặc dữ liệu không liên quan có thể làm cho bộ phân lớp trở lên phức tạp hơn. Điều này là gây ra những khó khăn không cần thiết cho chúng ta trong việc diễn giải các kết quả học được từ tập huấn luyện. Do chúng ta không biết được thuộc tính nào là liên quan trước khi chúng ta tiến hành thu thập dữ liệu, và các thuộc tính thừa hoặc không liên quan thường gây ra những ảnh hưởng tiêu cực đối với các giải thuật phân lớp, do đó chúng ta cần giải quyết vấn này đối với các bài toán phân lớp. Về cơ bản, chúng ta chỉ muốn lựa chọn các thuộc tính liên quan đến ứng dụng của chúng ta nhằm mục đích sao cho ứng dụng của chúng có được hiệu quả tốt nhất với các đo lường, tính toán là ít nhất, nói một cách đơn giản chúng ta mong muốn có một đầu vào cho mô hình là đơn giản nhất có thể nhưng lại cho kết quả ở đầu ra là tốt nhất có thể. Sử dụng trích chọn thuộc tính trong phân lớp cho ta những lợi thế sau:  Dữ liệu ít hơn do đó giải thuật phân lớp có thể học nhanh hơn;  Độ chính xác cao hơn do đó bộ phân lớp có thể cho những kết quả phân lớp tốt;  Các kết quả đơn giản hơn do đó các kết quả này có thể hiểu được dễ dàng hơn;  Ít thuộc tính hơn do đó trong các vòng thu thập số liệu sau, nếu có thể chúng ta có thể tiết kiệm được nhiều nguồn lực do việc loại bỏ các thuộc tính thừa và không liên quan. Trong các chương tiếp theo chúng ta sẽ đi vào tìm hiểu sâu các đặc điểm của trích chọn thuộc tính, một số giải thuật phân lớp được sử dụng phổ biến trong trích chọn thuộc tính và đi sâu tìm hiểu giải thuật phân lớp Random Forest. References Tài liệu Tiếng Việt [1] Nam, N. H. (2009). "Tối ưu hóa KPCA bằng GA để chọn các thuộc tính đặc trưng nhằm tăng hiệu quả phân lớp của thuật toán Random Forest." Tạp chí Khoa học ĐHQGHN, Khoa học Tự nhiên và Công nghệ 25(2009): tr 84-93. [2] Tuấn, N. V, Phân tích số liệu và tạo biểu đồ bằng R-Hướng dẫn thực hành, NXB KHKT, 2007. Tài liệu Tiếng Anh [1] L. NikhilR.Pal, Advanced Techniques in Knowledge Discovery and DataMining: Springer, 2005. [2] X. F. Lipo Wang, Data Mining with Computational Intelligence: Springer, 2005. [3] H. M. Huan Lui, Feature Selection for Knowledge Discovery and Data mining: Kluwer Acadamic Publishers, 2007. [4] S. IsabelleGuyon, MasoudNikraveshandLoftiA.Zadeh, Feature Selection: Springer, 2006. [5] E. F. Ian H.Witten, Data Mining: Practical Machine Learning Tools and Techniques, Second Edition ed.: Morgan KauFmann Publishers, 2005. [6] The Top Ten Algorithms in Data Mining: Chapman & Hall/CRC, 2009. [7] L. Breiman, "Random Forests," Machine Learning Journal Paper, vol. 45, 2001. [8] A. C. Leo Breiman. Random Forests. Available: http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm [9] H. Liu and H. Motoda, Computational Method of Feature Selection: Chapman & Hall/CRC, 2008. [10] P. I.Good, Resampling Methods: A Practical Guide to Data Analysis, Third Edition ed.: Birkhauser, 2006. 7 [11] B. Efron, The Jackknife, the Bootstrap and Other Resampling Plans 6ed.: Capital City Press, 1994. [12] M. K. Jiawei Han, Data Mining:Concepts and Techniques, Second Edition ed.: Diane Cerra, 2006. [13] T N. V. Ha-Nam Nguyen 1, Syng-Yup Ohn 1 ,Young-Mee Park 2 , Mi Young Han 3 , and Chul Woo Kim 4 . (2006) Feature Elimination Approach Based on Randon Forest for Cancer Diagnosis. MICAI 2006: Advances in Artificial Intelligence. [14] N. J. Marina Sokolova 1, and Stan Szpakowicz 3 , "Beyond Accuracy, F-score and ROC: a Family of Discriminant Measures for Performance Evaluation," Australian Artificial Intelligence, 2006. [15] (2003, Dataset for Seventeenth Annual Conference on Neural Information Processing Systems. Available: http://www.nipsfsc.ecs.soton.ac.uk/datasets/ [16] L. Rokach. (2008 )Genetic Algorithm-based Feature Set Partitioning for Classification Problems. Pattern Recognition. 1693-1717 Available: http://portal.acm.org/citation.cfm?id=1340831 [17] M. W. a. X. C. Heping Zhang*. (2009) Software Willows: a memory efficient tree and forest construction package. BMC Bioinformatics. Available: http://www.biomedcentral.com/content/pdf/1471-2105-10-130.pdf [18] P. Spector, Data Manipulation with R: Springer, 2008. [19] M. T. Pascal Poncelet, Florent Masseglia, Data Mining Patterns: New Methods and Applications: InformatIon science reference, 2008. [20] T. H. Jerome Friedman, Robert Tibshirani, The Elements of Statistical Learning: Data Mining, Inference and Prediction: Spinger, 2008. [21] C. V. Giovanni Felici, Mathematical Methods for Knowledge Discovery and Data Mining: Information science reference, 2008. [22] W. M. a. S. Kally, "An Optimum Random Forest Model for Prediction of Genetic Susceptibility to Complex Diseases," in Advances in Knowledge Discovery and Data Mining. vol. Volume 4426/2007, ed: Springer Berlin / Heidelberg, 2007, pp. 193-204. [23] D. Larose, Data mining methods and models: Willey-Interscience 2006. [24] F. Livingston, "Implementation of Breiman's Random Forest Machine Learning Algorithm " Machine Learning Journal Paper, 2005. [25] M. G. Dan Steinberg, N. Scott Cardell, A Brief Overview to RandomForests: Salford Systems, 2004. [26] L. Torgo, Data Mining with R: learning by case studies: LIACC-FEP, 2003. [27] A. Miller, Subset Selection in Regression, 2 ed.: Chapman & Hall/CRC, 2002. [28] L. Breiman. (2002, Manual On Setting Up, Using, And Understanding Random Forests V3.1. Available: http://oz.berkeley.edu/users/breiman/Using_random_forests_V3.1.pdf [29] A. D. Gordon, Classification, 2nd Edition ed.: Chapman & Hall/CRC, 1999. [30] B. Efron, The Jackknife, the Bootstrap and other Resampling Plans: Capital City Press, 1982. [31] X. Su. Bagging and Random Forests. Available: http://pegasus.cc.ucf.edu/~xsu/CLASS/STA5703/notes11.pdf . Nghiên cứu, xây dựng phương pháp trích chọn đặc trưng dựa trên giải thuật phân lớp Random Forest Nguyễn Cương Trường Đại học Công nghệ. và chọn lựa thuộc tính nói chung, sau đó đi sâu vào nghiên cứu giải thuật phân lớp thuộc tính random forest. Đề xuất một phương pháp học máy dựa trên việc cải tiến giải thuật phân lớp Random. tìm hiểu sâu các đặc điểm của trích chọn thuộc tính, một số giải thuật phân lớp được sử dụng phổ biến trong trích chọn thuộc tính và đi sâu tìm hiểu giải thuật phân lớp Random Forest. References

Nghiên cứu, xây dựng phương pháp trích chọn đặc trưng dựa trên giải thuật phân lớp random forest

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan