Tài liệu bộ dữ liệu

Tiểu luận khai phá dữ liệu: Sử dụng phần mềm weka khai phá bộ dữ liệu Adult với thuật toán phân lớp

Phần I: Mô tả bài toánCho cơ sử dữ liệu Adult là tập hợp bản ghi thực hiện bởi Barry Becker từ cuộc tổng điều tra dân số năm 1994. Tập hợp các bản ghi sạch được chiết xuất dựa trên các điều kiện sau đây (AGI>100) && (AFNLWGT>1)&& (HRSWK>0). Mục đích là dự đoán nhiệm vụ để xác định xem một người làm hơn 50.000 một năm. Bài toán dựa trên số liệu thống kê của 32561 người lớn và 15 thuộc tính. Em ...

18
3,323
14

Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho dataset AutoUniv

Danh mục: Lập trình

I.ĐẶT VẤN ĐỀAutoUniv (AU) là một công cụ để tạo ra các mô hình phân loại mà sau đó có thể đượcđược sử dụng để tạo ra các ví dụ được phân loại đánh giá học tập phân loại thuật toán.Động lực cho AU là để cung cấp một thay thế cho dữ liệu bộ có sẵn từ kho chẳng hạn như [1]. Kho cung cấp dữ liệu tập hợp nhiều nhất 'thực tế' một phần đã được hiến tặng của các doanh nghiệp hoặc các nhà nghiên cứu ...

19
537
2

Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho bộ dữ liệu golf dataset bằng cây quyết định C4.5

Danh mục: Lập trình

Tiểu luận về khai phá dữ liệuTHUẬT TOÁN PHÂN LỚP HỌC CÂY QUYẾT ĐỊNH C4.51.Giới thiệu:- Cây quyết định là phương pháp xấp xỉ hóa bằng hàm mục tiêu những giá trị rời rạc trong đó những hàm được học được thể hiện bằng cây quyết định . Học cây quyết định là một trong những phương pháp thực dụng và được sử dụng rộng rãi nhất cho phương pháp suy diễn qui nạp.- Giải thuật học cây quyết định được ...

11
1,087
7

Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka cho bộ dữ liệu forset fires dataset

Danh mục: Lập trình

I – Giới thiệu bài toánTheo Hiệp hội bảo tồn thế giới (IUCN) các vụ cháy rừng đang đặt ra mối đe dọa cho các khu vực phong phú về đa dạng sinh học, và một trong các nguyên nhân chính của mối đe dọa này là khí hậu thay đổi, nó hủy hoại môi trường sinh thái, gây thiệt hại nặng nề về kinh tế, ảnh hưởng trực tiếp tới môi trường sống của con người. Có nhiều nguyên nhân dẫn tới cháy rừng là do điều kiện ...

4
674
15

Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho dataset Titanic

Danh mục: Lập trình

I.ĐẶT VẤN ĐỀKhai phá dữ liệu là một ngành khoa học thực nghiệm. Nó được thiết kế sao cho bạn có thể nhanh chống thử nghiệm những cách thức hiện tại trên cơ sở dữ liệu mới một cách linh hoạt. Nó cung cấp nhiều sự hỗ trợ cho toàn bộ quá trình xử lý số liệu thực nghiệm, bao gồm chuẩn bị dữ liệu đầu vào, việc ước lượng học những sơ đồ thống kê, và hình dung dữ liệu ra và kết quả của việc học. Weka ...

20
578
4

Tiêu luận khai phá dữ liệu : Sử dụng Weka với bài toán phân cụm Dataset Optical Recognition of Handwritten Digits

Danh mục: Lập trình

MỤC LỤCI.Thông tin về bộ dữ liệu3II.Mô tả bài toán41.Phân cụm là gì ?42.Thuật toán K-means :5III.Thực hiện111.Preprocess112.Cluster113.So sánh với các thuật toán khác :14I.Thông tin về bộ dữ liệu Những người tạo ra bộ dữ liệu dùng một chương trình tiền xử lí có sẵn bởi NIST để trích xuất ra các ảnh bitmap tiêu chuẩn của các chữ viết tay từ một mẫu in sẵn. Có tổng cộng ...

14
1,005
4

Tiểu luận khai phá dữ liệu : Sử dụng Weka với bộ dữ liệu Semeion Handwritten Digit DataSet

Danh mục: Lập trình

1.Mô tả DatasetSomeion Handwritten Digit Data set là cơ sở dữ liệu về chữ số viết tay gồm 1593 bản ghi (1593 mẫu) được thu thập từ 80 người. Dữ liệu sau khi quét được đưa về định dạng ảnh xám 256 mức và kéo về kích thước 16*16. Ảnh này được chuyển đổi thành ảnh nhị phân với ngưỡng 127. Các pixel có giá trị mức xám nhỏ hơn và bằng 127 được đưa về 0, các pixel trên 127 được đưa về 1. Như vậy mỗi ...

13
642
5

Tiểu luận khai phá dữ liêu: sử dụng phần mềm weka khai phá bộ dữ liệu Breast Cancer Wisconsin (Diagnostic)

Danh mục: Lập trình

BÁO CÁO BÀI TẬP LỚN MÔN KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆUHọ và tên: Phan Tiến DũngLớp: Tin học 1- K42Chương 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU1.1 Giới thiệu về khai phá dữ liệu:Khai phá dữ liệu được định nghĩa là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu. Cụ thể hơn đó là tiến trình trích lọc, sản sinh những tri ...

25
1,838
3

Tiểu luận khai phá dữ liêu: Sử dụng phần mềm weka khai phá bộ dữ liệu Teaching Assistant Evaluation với thuật toán phân lớp

Danh mục: Lập trình

MỤC LỤCI.Mô tả bài toán3II.Trich trọn đặc tính31.Ý nghĩa và các phương pháp trích chọn đặc tính32.Trích chọn thuộc tính trong Weka4III.Tiền xử lý dữ liệu8A.Giới thiệu về tiền xử lý dữ liệu (Data Preprocessing)8B.Tiền xử lí dữ liệu với bài toán đã chọn9Lưu lại dưới file tae_data.arff10C.Thuật toán phân lớp101.Thực hiện thuật toán103.Đánh giá thuật ...

14
745
0

Tiểu luận khai phá dữ liêu: Sử dụng phần mềm weka khai phá bộ dữ liệu dataset university

Danh mục: Lập trình

HỌ VÀ TÊN:Đàm Văn KhánhLớp: Hệ thống thông tin 6BÁO CÁO MÔN KHAI PHÁ DỮ LIỆU1.Mô tả bài toánCho cơ sở dữ liệu về thông tin của học sinh, dữ liệu thu được qua các kỳ thi tuyển sinh, dữ liệu về yêu cầu của 1 trường đại học.Qua đó, quyết định xem học sinh đó có hay không chọn thi vào trường đại học đó hay khôngDataset gốc:universityDataset sau khi tiền xử lý dữ liệu: university12.Dữ liệu về ...

18
583
3

Tóm tắt Luận văn Thạc sĩ Công nghệ thông tin: Phương pháp phân cụm dựa trên tập thô và giải thuật di truyền

Danh mục: Thạc sĩ - Cao học

Luận văn trình bày khảo cứu một cách hệ thống của bài báo các kiến thức về phân cụm dữ liệu rõ, thô theo hướng KMeans và ứng dụng giải thuật di truyền để phân cụm dữ liệu thô. Trên cơ sở đó xây dựng chương trình thực nghiệm trên một số bộ dữ liệu, kết quả cho thấy ưu điểm của phương pháp mới. ... nghiệm với phân cụm K-Means thông thường Bảng 3.2 Kết thực nghiệm với phân cụm dựa tập thô giải thuật ...

30
83
0

Một số bộ dữ liệu kiểm thử phổ biến cho phát hiện xâm nhập mạng và đặc tính phân cụm

Danh mục: Cơ sở dữ liệu

Những năm qua, đã có rất nhiều nghiên cứu về học máy (Machine learning), học sâu (Deep learning) cho lĩnh vực phát hiện xâm nhập mạng máy tính (IDS - Intrusion Detection System), sử dụng các bộ dữ liệu để đánh giá, phân tích. Do sự đa dạng, phức tạp của các bộ dữ liệu nên vấn đề phân cụm, chia nhỏ bộ dữ liệu ra thành các tập con nhưng vẫn giữ được đặc trưng của chúng là rất cần thiết. Trong nghiên ...

7
72
0

Thuật toán tìm kiếm Hill climbing giải bài toán Cây Steiner nhỏ nhất

Danh mục: Cơ sở dữ liệu

Bài viết này đề xuất thuật toán Hill climbing search để giải bài toán Cây Steiner nhỏ nhất, trong đó đề xuất cách thức tìm kiếm lân cận tất định và cách thức kết hợp tìm kiếm lân cận tất định với tìm kiếm lân cận ngẫu nhiên để giải quyết bài toán Cây Steiner nhỏ nhất. ... 24] III THUẬT TOÁN HILL CLIMBING SEARCH A Ý tưởng thuật toán hill climbing search Thuật toán Hill climbing search kỹ thuật dùng ...

9
173
0

Tài liệu về " bộ dữ liệu " 13 kết quả