Nghiên cứu các kỹ thuật phân cụm dữ liệu và ứng dụng

69 1.9K 4
Nghiên cứu các kỹ thuật phân cụm dữ liệu và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẢM ƠN Để hoàn thành khóa luận này, trước hết em xin gửi lời cảm ơn sâu sắc tới PGS.TS Trịnh Đình Thắng, tận tình hướng dẫn, bảo, định hướng, đóng góp ý kiến quý báu suốt trình thực Em xin chân thành cảm ơn thầy, cô giáo khoa Công nghệ thông tin, trường ĐH Sư Phạm Hà Nội quan tâm dạy dỗ giúp đỡ em suốt bốn năm học vừa qua thời gian em làm khóa luận Là sinh viên ngành Công nghệ thông tin, em tự hào khoa học, thầy cô giáo Em xin kính chúc thầy, cô mạnh khỏe, hạnh phúc thành công Chúc khoa Công nghệ thông tin ngày khang trang, vững mạnh, góp phần to lớn nghiệp đào tạo chuyên nghiệp trường Đại học sư phạm Hà Nội Là sinh viên lần đầu nghiên cứu khoa học, chắn đề tài em không tránh khỏi thiếu sót, hạn chế Vì em mong đóng góp ý kiến thầy cô giáo bạn để đề tài em hoàn thiện Cuối cùng, em xin cảm ơn tới đại gia đình em, luôn động viên, khích lệ tinh thần tạo điều kiện tốt cho em hoàn thành khóa luận Hà Nội, tháng 05 năm 2013 Sinh viên Vũ Thị Bích Phương LỜI CAM ĐOAN Tên em là: Vũ Thị Bích Phương Sinh viên: K35 – CNTT, trường Đại học sư phạm Hà Nội Em xin cam đoan: Đề tài “Nghiên cứu kỹ thuật phân cụm liệu ứng dụng” kết tìm hiểu nghiên cứu riêng em, hướng dẫn PGS.TS Trịnh Đình Thắng Khóa luận hoàn toàn không chép từ tài liệu có sẵn công bố khác Kết không trùng với tác giả khác Nếu sai em xin hoàn toàn chịu trách nhiệm Hà Nội, tháng 05 năm 2013 Sinh viên Vũ Thị Bích Phương MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỞ ĐẦU CHƯƠNG Error! Bookmark not defined TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 11 1.1 Giới thiệu chung 11 1.2 Khám phá tri thức trình khám phá tri thức 12 1.3 Khai phá liệu 14 CHƯƠNG Error! Bookmark not defined PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN TRONGError! Bookmark not define PHÂN CỤM DỮ LIỆU Error! Bookmark not defined 2.1 Khái niệm phân cụm liệu 20 2.2 Các ứng dụng phân cụm .21 2.3 Các yêu cầu thuật toán phân cụm liệu 22 2.4 Các kiểu liệu phân cụm 23 2.5 Phép đo độ tương tự, phi tương tự .25 2.6 Các thuật toán phân cụm liệu 28 2.6.1 Thuật toán phân cụm liệu dựa vào phân cụm phân cấp 28 2.6.2 Thuật toán phân cụm liệu mờ 33 2.6.3 Thuật toán phân cụm liệu dựa vào cụm trung tâm 35 2.6.4 Thuật toán phân cụm liệu dựa vào lưới 38 2.6.5 Thuật toán phân cụm liệu dựa vào mật độ 42 2.6.6 Thuật toán phân cụm liệu dựa mẫu 48 CHƯƠNG 3: Error! Bookmark not defined ỨNG DỤNG CỦA PHÂN CỤM DỮ LIỆU 50 3.1 Phân đoạn ảnh 50 3.1.1 Định nghĩa phân đoạn ảnh 51 3.1.2 Phân đoạn ảnh dựa vào phân cụm liệu 52 3.2 Nhận dạng đối tượng ký tự 57 3.2.1 Nhận dạng đối tượng 57 3.2.2 Nhận dạng ký tự 60 3.3 Khai phá liệu 61 3.3.1 Khai phá liệu phương pháp tiếp cận 62 3.3.2 Khai phá liệu có cấu trúc lớn 63 3.3.3 Khai phá liệu Cơ sở liệu địa chất 64 KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN .66 TÀI LIỆU THAM KHẢO 69 MỞ ĐẦU Lý chọn đề tài Sự phát triển công nghệ thông tin ứng dụng công nghệ thông tin lĩnh vực đời sống, kinh tế, xã hội nhiều năm qua đồng nghĩa với lượng liệu quan thu thập lưu trữ ngày tích lũy nhiều lên Hơn nữa, công nghệ lưu trữ phục hồi liệu phát triển cách nhanh chóng sở liệu quan, doanh nghiệp, đơn vị ngày nhiều thông tin tiềm ẩn phong phú đa dạng Mặt khác, môi trường cạnh tranh, người ta ngày cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Với lý vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật kỹ thuật khám phá tri thức khai phá liệu Khám phá tri thức sở liệu coi trình tìm tri thức có ích, cần thiết, tiềm ẩn chưa biết sở liệu lớn Kỹ thuật khám phá tri thức khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới, Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu dần đưa vào ứng dụng năm gần Những vấn đề quan tâm phân lớp nhận dạng mẫu, luật kết hợp, phân cụm liệu, phần tử dị biệt, … Phân cụm sở liệu phương pháp quan trọng trình tìm hiểu tri thức Phân cụm đặc biệt hiệu ta thông tin cụm, ta quan tâm tới thuộc tính cụm mà ta chưa biết biết thông tin Phân cụm coi công cụ độc lập để xem xét phân bố liệu, làm bước tiền xử lý cho thuật toán khác Việc phân cụm liệu có nhiều ứng dụng tiếp thị, sử dụng đất, bảo hiểm, hoạch định thành phố… Hiện nay, phân cụm liệu hướng nghiên cứu nhiều Công nghệ thông tin Chính lý mà em chọn đề tài “Nghiên cứu kỹ thuật phân cụm liệu ứng dụng” hướng nghiên cứu cho khóa luận Mục đích nghiên cứu - Tìm hiểu qua trình khám phá tri thức khai phá liệu - Tìm hiểu phân cụm liệu thuật toán phân cụm liệu - Trên tảng lý thuyết khai phá liệu số thuật toán phân cụm liệu tiến tới sâu vào tìm hiểu, phân tích, đánh giá số thuật toán phương pháp phân cụm liệu Phạm vi nghiên cứu Data mining lĩnh vực thu hút nhiều quan tâm nhà nghiên cứu, với nhiều ngành ứng dụng Một hướng phân cụm liệu, với phương pháp phân cụm liệu khác Ở khóa luận này, em xin trình bày số phương pháp phân cụm liệu Ý nghĩa khoa học thực tiễn Nếu đề tài “Nghiên cứu kỹ thuật phân cụm liệu ứng dụng” nghiên cứu đạt hiệu phân cụm tối ưu, giúp xử lý liệu nhanh hơn, giảm thời gian, công sức để tìm kiếm, phát cụm, mẫu liệu tập liệu lớn để cung cấp thông tin trợ giúp việc định, dự đoán Phương pháp nghiên cứu a Phương pháp nghiên cứu lý luận Nghiên cứu qua việc đọc sách, báo tài liệu liên quan nhằm xây dựng sở lý thuyết đề tài biện pháp cần thiết để giải vấn đề đề tài b Phương pháp chuyên gia Tham khảo ý kiến chuyên gia để thiết kế chương trình phù hợp với yêu cầu thực tiễn, nội dung xử lý nhanh đáp ứng yêu cầu ngày cao người sử dụng c Phương pháp thực nghiệm Thông qua quan sát thực tế, yêu cầu sở, lý luận nghiên cứu kết đạt qua phương pháp Cấu trúc khóa luận Ngoài phần mở đầu, kết luận định hướng phát triển luận văn em bao gồm ba chương: Chương 1: Tổng quan khám phá tri thức khai phá liệu Chương 2: Phân cụm liệu thuật toán phân cụm liệu Chương 3: Ứng dụng phân cụm liệu DANH SÁCH CÁC HÌNH Hình 1: Quá trình khám phá tri thức Hình 2: Quá trình khai phá liệu Hình 3: Cây CF biểu diễn BIRCH Hình 4: Cụm liệu khai phá thuật toán CURE Hình 5: Các bước thuật toán Chameleon Hình 6: Các thiết lập để xác định danh giới cụm ban đầu Hình 7: Ví dụ hình dạng PCDL sau phân cụm K-means Hình 8: Mô hình cấu trúc liệu lưới Hình 9: Mô hình thuật toán STING Hình 10: Hình dạng cụm khám phá DBSCAN Hình 11: Mật độ - đến trực tiếp Hình 12: Mật độ - đến Hình 13: Mật độ - liên thông Hình 14: Cụm nhiễu Hình 15: Tính đại diện cho clustering Hình 16: Ảnh thang đo xám gốc Hình 17: Biểu đồ mức xám Hình 18: Kết việc tạo ngưỡng Hình 19: Phân đoạn ảnh phân cụm liệu Hình 20: Kết kết cấu phân đoạn ảnh Hình 21: Phân đoạn ảnh y tế đa quang phổ Hình 22: Phân đoạn ảnh LANDSAT Hình 23: Một tập ảnh cảnh Rắn hổ mang chọn từ 320 cảnh Hình 24: Cấu trúc nhóm gồm 320 cảnh tác phẩm điêu khắc rắn hổ mang Hình 25: Mã vùng so với đồ đơn vị địa tầng khu vực nghiên cứu DANH SÁCH CÁC CỤM TỪ VIẾT TẮT STT Viết tắt Cụm từ tiếng Anh Cụm từ tiếng Việt CNTT Information Technology Công nghệ thông tin CSDL Database Cơ sở liệu KDD Knowledge Discovery in Khám phá tri thức Database sở liệu KPDL Data mining Khai phá liệu PCDL Data Clustering Phân cụm liệu MTĐT Electronic Computer Máy tính điện tử 10 a) b) Hình 20: Kết kết cấu phân đoạn ảnh a) Một khảm kết cấu bao gồm bốn đầu vào kết cấu Brodatz phổ biến b) Phân khúc sản xuất tính lọc Gabor ghép để chứa thông tin không gian Phân cụm liệu sử dụng giai đoạn tiền xử lý để xác định lớp mẫu để phân loại giám sát Taxt Lundervold mô tả thuật toán clustering partitional kỹ thuật ghi nhãn hướng dẫn sử dụng để xác định lớp vật liệu (ví dụ: não tủy, chất lỏng, chất trắng, khối u) hình ảnh đăng ký người có năm kênh khác Một số phân cụm thu kết hợp với kiến thức tên miền (nhân lực chuyên môn) để xác định lớp khác 55 a) b) Hình 21: Phân đoạn ảnh y tế đa quang phổ a) Kênh ảnh đầu vào b) cụm phân đoạn ảnh a) b) Hình 22: Phân đoạn ảnh LANDSAT a) Bản gốc hình ảnh ESA/EURIMAGE/Sattelitbild b) Cảnh phân cụm 56 3.2 Nhận dạng đối tượng ký tự 3.2.1 Nhận dạng đối tượng Việc sử dụng phân nhóm để xem nhóm đối tượng 3D cho mục đích công nhận đối tượng phạm vi liệu mô tả Dorai Jain Các thuật ngữ dùng để xem hình ảnh phạm vi đối tượng thu từ quan điểm tùy ý Hệ thống xem xét, làm việc theo quan điểm phụ thuộc (hoặc xem trung tâm) cách tiếp cận vấn đề công nhận đối tượng, đối tượng công nhận đại diện điều khoản thư viện hình ảnh loạt đối tượng Có nhiều ý có đối tượng 3D mục tiêu công việc để tránh kết hợp đầu vào xem không rõ hình ảnh đối tượng Một chủ đề phổ biến công nhận đối tượng lập mục, xem chưa biết sử dụng để chọn tập hợp đối tượng sở liệu để so sánh, từ chối tất điểm khác đối tượng Một cách tiếp cận để đánh sử dụng khái niệm tầng lớp xem, lớp xem tập hợp điểm chất lượng tương tự đối tượng Xem đối tượng nhóm lại vào lớp dựa hình dạng giống tính phổ Mỗi hình ảnh đầu vào đối tượng xem sản lượng cô lập véc tơ tính mà mô tả Các tính véc tơ ml = ∑ (ℎ) (ℎ) hóa quang phổ phân phối, H(h) đối tượng xem thu từ liệu phạm vi cách xây dựng biểu đồ giá trị số hình dạng (có liên quan đến giá trị bề mặt cong) tích lũy tất đối tượng điểm ảnh mà rơi vào thùng Bởi bình thường hóa quang phổ diện tích tổng số đối tượng quy mô (size) khác mà tồn đối tượng khác gỡ bỏ Tại thời điểm ml tính toán mà có ý nghĩa H(h): 57 ml = ∑ (ℎ) (ℎ) Với moment trung tâm khác mp ≤ p ≤ 10 định nghĩa là: mp = ∑ (ℎ - ml)p H(h) Do véc tơ đặc tính biểu thị R = (m1, m2, …, m10) nằm khoảng [-1,1] Tại o = {O1, O2, …, On} lựa chọn n đối tượng 3D với cảnh nằm sở liệu MD, cảnh thứ i j đối tượng, liệu biểu thị ( , ) nơi đối tượng nhãn sở véc tơ đặc tính = {( Cho tập đối tượng đại diện , ), … ( , )} mà mô tả m cảnh i đối tượng, mục tiêu để lấy phần cảnh pi = { , ,…, } Mỗi cụm pi chứa cảnh đối tượng thứ i mà đối tượng cấp tương tự dựa không giống thời điểm tương ứng với tính hình quang phổ cảnh Các biện pháp D( , )=∑ định nghĩa: ( − )2 Phân cụm liệu Cảnh (Views) Hình cho thấy tập hợp điểm Rắn hổ mang sử dụng thử nghiệm Hình dạng quang phổ xem véc tơ đặc tính sau tính xác định Cảnh đối tượng tụ tập, dựa D không giống véc tơ thời điểm họ kết nối Đề án clustering thứ bậc (Jain Dubes 1988) Các nhóm thứ bậc thu với 320 cảnh đối tượng Rắn hổ mang hiển thị hình 23 Cảnh nhóm phân cấp đối tượng khác tương tự dendrogram hình 23 Dendrogram cắt mức độ không giống 58 0,1 để có nhỏ gọn cách cụm Các clustering thu theo cách chứng minh quan điểm đối tượng rơi vào vài cụm khác biệt Các trọng tâm cụm xác định trung bình véc tơ thời điểm lượt xem rơi vào cụm Hình 23: Một tập cảnh ảnh Rắn hổ mang chọn từ 320 cảnh Dorai Jain (1995) chứng minh phân nhóm dựa xem nhóm đối tượng phù hợp với điều kiện tính xác phân loại số lượng phù hợp cần thiết cho việc phân loại xem thử Xem đối tượng nhóm thành cụm xem nhỏ gọn đồng nhất, chứng tỏ sức mạnh cluster dựa sơ đồ tổ chức xem phù hợp với đối tượng có hiệu 59 Hình 24: Cấu trúc nhóm gồm 320 cảnh tác phẩm điêu khắc rắn hổ mang 3.2.2 Nhận dạng ký tự Kỹ thuật nhận dạng ký tự vào phân cụm liệu phát triển Connell Jain (1998) nhận biết lexemes văn viết tay cho mục đích nhà văn công nhận độc lập Sự thành công hệ thống nhận dạng chữ viết phụ thuộc vào việc chấp nhận người sử dụng tiềm Nhà văn phụ thuộc hệ thống cung cấp mức độ cao công nhận xác so với hệ thống nhà văn độc lập, đòi hỏi số lượng lớn liệu đào tạo Một nhà văn độc lập hệ thống phải có khả nhận nhiều phong cách văn nhằm đáp ứng người dùng cá nhân Khi biến thiên phong cách văn phải bắt giữ hệ thống tăng, trở nên khó khăn để phân biệt lớp khác số lượng chồng chéo không gian đặc tính Một giải pháp cho vấn đề để tách liệu từ phong cách viết khác cho lớp học vào lớp khác nhau, gọi lexemes, đại diện 60 cho phần liệu dễ dàng tách từ liệu tầng khác mà lexemes thuộc Trong hệ thống này, chữ viết bị bắt số hóa tọa độ (x, y) vị trí bút vị trí đặt điểm bút (lên xuống) với tỷ lệ lấy mẫu không đổi Sau số lấy lại mẫu, bình thường hóa, làm mịn, nét bút đại diện chuỗi dài biến điểm Một số liệu dựa đàn hồi mẫu lập trình phù hợp động, xác định phép khoảng cách hai nét để tính toán Sử dụng khoảng cách tính cách này, ma trận gần sử dụng loại chữ số Mỗi biện pháp ma trận khoảng cách lớp cho lớp chữ số cụ thể Chữ số lớp đặc biệt nhóm thực nghiệm để tìm số lượng nhỏ nguyên mẫu Phân cụm thực cách sử dụng chương trình CLUSTER phân nhóm tốt cho giá trị K số phạm vi, K số cụm liệu vào để phân vùng Theo dự đoán, có nghĩa lỗi bình phương (MSE) giảm đơn điệu chức K Các “tối ưu” giá trị K chọn cách xác định biểu đồ MSE K Khi đại diện cho cụm chữ số mẫu thử nghiệm nhất, tốt nhận diện kết công nhận thu cách sử dụng chữ số gần để tới trung tâm cụm Sử dụng sơ đồ này, tỷ lệ nhận diện xác lên đến 99,33 % 3.3 Khai phá liệu Trong năm gần thấy khối lượng liệu ngày tăng, với nhiều liệu có sẵn, cần thiết để phát triển thuật toán lấy thông tin từ cửa hàng có ý nghĩa rộng lớn Tìm kiếm nuggets hữu ích thông tin số lượng lớn liệu biết đến lĩnh vực khai phá liệu Khai phá liệu áp dụng cho quan hệ, giao dịch, sở liệu không gian, cửa hàng lớn liệu có cấu trúc World 61 Wide Web Có nhiều liệu hệ thống khai thác sử dụng ngày nay, ứng dụng bao gồm Cục Ngân khố Hoa Kỳ phát rửa tiền, Hiệp hội Bóng rổ Quốc gia huấn luyện viên phát xu hướng mô hình cầu thủ chơi cho cá nhân đội, phân loại mô hình trẻ em hệ thống chăm sóc nuôi dưỡng (Hedberg 1996) Một số tạp chí gần có vấn đề đặc biệt khai phá liệu (1996 Cohen, Cross 1996, Wall 1996) 3.3.1 Khai phá liệu phương pháp tiếp cận Khai phá liệu giống phân cụm liệu, hoạt động thăm dò, phương pháp phân cụm liệu thích hợp để khai phá liệu Phân cụm liệu thường bước khởi đầu quan trọng số trình khai phá liệu, số phương pháp khai phá liệu sử dụng phương pháp phân cụm liệu để sở liệu phân khúc, mẫu tiên đoán, trực quan hóa sở liệu Phân đoạn Phương pháp phân cụm liệu sử dụng khai phá liệu vào sở liệu phân khúc thành nhóm đồng Điều phục vụ mục đích nén liệu (làm việc với cụm cá nhân), để nhận biết đặc điểm dân số phụ thuộc mục đích cụ thể (ví dụ, tiếp thị cho người già) Thuật toán phân cụm liệu K-means (Faber 1994) sử dụng để phân cụm điểm ảnh hình ảnh Landsat (Faber 1994) Mỗi điểm ảnh ban đầu có giá trị từ vệ tinh khác nhau, bao gồm hồng ngoại Những giá trị khó khăn cho người để đồng hóa phân tích mà không cần trợ giúp Các điểm ảnh với giá trị tính nhóm thành 256 nhóm, sau điểm ảnh gán giá trị cụm trung tâm Hình ảnh sau hiển thị với thông tin không gian nguyên vẹn, người xem nhìn vào hình ảnh đơn xác định khu vực quan tâm (ví dụ, đường cao tốc rừng) nhãn khái niệm Hệ thống sau 62 xác định điểm ảnh khác nhóm ví dụ khái niệm Đoán trước mẫu Thống kê phương pháp phân tích liệu thường liên quan đến thử nghiệm mô hình giả thuyết nhà phân tích có tâm trí Khai thác liệu giúp người dùng phát giá thuyết tiềm trước sử dụng công cụ thống kê Đoán trước mô hình sử dụng phân nhóm để nhóm, sau infers quy tắc để characterize nhóm đề xuất mô hình Ví dụ, người đăng ký tạp chí nhóm dựa số yếu tố (tuổi tác, giới tính, thu nhập, …) sau đó, nhóm kết đặc trưng nỗ lực để tìm mô hình Hình ảnh Cụm sở liệu lớn sử dụng để hình dung, hỗ trợ nhà phân tích việc xác định nhóm nhóm có đặc trưng tương tự WinViz (Lee Ong 1996) công cụ khai thác liệu trực quan, nguồn gốc cụm xuất thuộc tính mà sau đặc trưng hệ thống Ví dụ, ngũ cốc ăn sáng nhóm theo calo, đạm, chất béo, natri, chất xơ, carbohydrate, đường, kali, vitamin nội dung phục vụ Khi thấy cụm kết quả, người sử dụng đề xuất cụm để WinViz thuộc tính Hệ thống cho thấy cụm đặc trưng nội dung kali cao, nhà phân tích người nhận cá nhân nhóm thuộc cám “gia đình ngũ cốc”, dẫn đến khái quát “ngũ cốc, cám nhiều chất kali” 3.3.2 Khai phá liệu có cấu trúc lớn Khai phá liệu thường thực sở liệu quan hệ giao dịch xác định lĩnh vực mà sử dụng tính năng, nghiên cứu gần sở liệu có cấu trúc lớn World Wide Web (Etzioni 1996) Ví dụ nỗ lực gần để phân biệt văn web cách sử dụng từ ngữ chức từ tính bao gồm Maarek 63 Shaull (1995) Tuy nhiên, tương đối nhỏ mẫu đào tạo có nhãn chiều hạn chế lớn thành công cuối tự động phân loại tài liệu web dựa từ tính Phương pháp phân cụm K-means có nghĩa phân nhóm sử dụng để nhóm từ 5190 thành 10 nhóm Một kết đáng ngạc nhiên trung bình 92% từ rơi vào cụm nhất, mà sau loại bỏ để khai thác liệu mục đích Điều sử dụng ngữ cảnh bình thường, điều kiện mà không xảy thường xuyên toàn tài liệu có xu hướng cụm thành nhóm thành viên lớn 4000, điều khoản sử dụng theo cách tương tự suốt toàn tài liệu Điều khoản sử dụng bối cảnh cụ thể xuất tài liệu phù hợp với điều kiện thích hợp khác cho sáng chế có xu hướng cụm lại với số nhóm từ, ngữ cảnh đặc biệt bật so với đám đông Sau discarding cluster lớn nhất, thiết lập nhỏ tính sử dụng để xây dựng truy vấn tài liệu khác có liên quan Web 3.3.3 Khai phá liệu Cơ sở liệu địa chất Khai phá sở liệu nguồn lực quan trọng việc thăm dò dầu mỏ sản xuất Nó phổ biến kiến thức ngành công nghiệp dầu mỏ mà chi phí điển hình khoan đắt, hệ thống khoan có định đáng kể làm giảm chi phí sản xuất chung Tiến công nghệ khoan phương pháp thu thập liệu có dẫn đến công ty dầu mỏ họ có thu nhập lượng lớn địa vật lý liệu địa chất từ giếng sản xuất trang web thăm dò, sau tổ chức chúng thành sở liệu lớn Kỹ thuật khai thác liệu gần sử dụng để lấy xác phân tích mối quan hệ tượng quan sát thông số Những mối quan hệ sau sử dụng để định lượng dầu khí đốt 64 Về chất lượng, trữ lượng tốt phục hồi có bão hòa hydrocarbon cao mắc kẹt trầm tích xốp (chứa porosity) bao quanh số lượng lớn loại đá cứng có ngăn chặn rò rỉ dầu khí từ xa Một khối lượng lớn trầm tích xốp quan trọng để dự trữ phục hồi tốt, phát triển đáng tin cậy xác phương pháp cho dự đoán trầm tích từ liệu thu thập để ước tính tiềm dầu khí Các quy tắc chung chuyên gia sử dụng cho tính toán độ xốp: Độ xốp = K.e-F(x1, x2, , x ).Depth m Hình 25: Mã vùng so với đồ đơn vị địa tầng khu vực nghiên cứu Thuật toán phân cụm liệu K-means sử dụng để xác định tập đồng cấu trúc địa chất nguyên thủy (g1, g2,…, gm) Những nguyên thủy sau ánh xạ vào mã đơn vị so với đồ đơn vị tầng học Hình mô tả phần đồ tập hợp giếng bốn cấu trúc nguyên thủy Bước trính phát triển xác định phần khu vực giếng tạo thành từ trình tự địa chất nguyên thủy Mỗi trình tự quy định Ci ngữ cảnh Từ phần đồ, C1 = g2 g1 g2 g3 xác định khu vực tốt (của 300 600 65 series) Sau bối cảnh xác định, liệu điểm thuộc bối cảnh nhóm lại với Thủ tục dẫn xuất derivation làm việc phân tích hồi quy (Sen Srivastava 1990) Phương pháp áp dụng cho tập liệu khoảng 2600 đối tượng tương ứng với mẫu đo thu thập từ giếng lưu vực Alaska K-means nhóm liệu đặt thành nhóm, chọn 138 đối tượng đại diện cho bối cảnh để phân tích Các tính định nghĩa cụm lựa chọn, chuyên gia surmised bối cảnh đại diện cho vùng độ xốp rỗng thấp, mô hình cách sử dụng thủ tục hồi quy 66 KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN Kết luận Data mining lĩnh vực nghiên cứu mới, đồng thời xu hướng nghiên cứu ngày phổ biến Do nhu cầu thực tế, với phát triển công nghệ máy tính, lĩnh vực kinh tế - xã hội lượng thông tin lưu trữ ngày tăng, nhu cầu khai thác thông tin, tri thức ngày lớn Do việc đọc, nghiên cứu phát triển phương pháp phân cụm liệu đóng vai trò quan trọng hoạt động khoa học công nghệ máy tính hoạt động thực tiễn Các vấn đề tìm hiểu luận văn Tổng hợp, nghiên cứu nét lý thuyết ứng dụng thực tiễn phân cụm liệu Với phát triển ngày lớn vũ bão Công nghệ thông tin, yêu cầu nghiên cứu hoàn thiện, áp dụng phương pháp, kỹ thuật phân cụm liệu cần thiết có ý nghĩa to lớn Trong chương 1, khóa luận trình bày tổng quan lý thuyết phân cụm liệu, số lý liên quan trực tiếp đến khai phá liệu Chương 2, giới thiệu tổng quan thuật toán phân cụm liệu, khóa luận trình bày thuật toán phổ biến, thông dụng Chương nói số ứng dụng tiêu biểu phân cụm liệu phân đoạn ảnh, nhận diện đối tượng ký tự, khai phá liệu Định hướng phát triển Nghiên cứu kỹ thuật phân cụm liệu ứng dụng hướng nghiên cứu cần thiết, quan trọng Tuy nhiên mảng rộng, bao hàm nhiều phương pháp, kỹ thuật, hình thành nhiều nhóm khác 67 Phát triển nghiên cứu thêm lý thuyết phân cụm liệu, xây dựng, phát triển thêm kỹ thuật, ứng dụng phân cụm liệu Trong trình nghiên cứu, thực khóa luận cố gắng tập trung nghiên cứu tham khảo nhiều tài liệu, báo cáo, tạp chí khoa học, trình độ nhiều giới hạn tránh khỏi thiếu sót hạn chế Em mong bảo đóng góp nhiều thầy, cô giáo bạn Một lần nữa, em xin chân thành gửi lời cảm ơn giúp đỡ thầy cô giáo khoa Công nghệ thông tin, đặc biệt PGS.TS Trịnh Đình Thắng toàn thể bạn lớp K35CNTT giúp đỡ em trình làm khóa luận tốt nghiệp 68 TÀI LIỆU THAM KHẢO [1] Nguyễn Trung Thông, Phương pháp phân cụm nửa giám sát, Nhà xuất giáo dục [2] Hà Quang Thụy (2009), Giáo trình khai phá liệu Web, Nhà xuất giáo dục Việt Nam [3] Kỹ sư Nguyễn Anh Trung - Trung tâm Công nghệ Thông tin, Ứng dụng kỹ thuật khai phá liệu vào lĩnh vực viễn thông [4] Hoàng Hải Xanh, Một số kỹ thuật phân cụm liệu Data Mining, Luận văn thạc sĩ, Trường Đại học Công nghệ (ĐHQGHN), Hà Nội [5] Hoàng Xuân Huấn, Nguyễn Thị Xuân Hương, Mở rộng thuật toán phân cụm K-Mean cho liệu hỗn hợp Một số vấn đề chọn lọc Công nghệ thông tin, Hải phòng 25-27 tháng năm 2005 69 [...]... thế, lợi ích và khả năng ứng dụng thực tế to lớn của khai phá dữ liệu Trong chương này đã trình bày một cách tổng quan về khám phá tri thức và khai phá dữ liệu 19 CHƯƠNG 2 PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU 2.1 Khái niệm về phân cụm dữ liệu Phân cụm dữ liệu là một kỹ thuật phát triển mạnh mẽ trong nhiều năm trở lại đây do các ứng dụng và lợi ích to lớn của nó đối với các lĩnh vực trong... thức tế Không có một thuật toán phân cụm nào là tốt nhất và thích hợp cho tất cả mọi ứng dụng mà với mỗi ứng dụng khác nhau người thì người ta phải lựa chọn ra một thuật toán phân cụm cụ thể thích ứng với ứng dụng đó Kết quả đánh giá cho từng thuật toán cũng phụ thuộc vào những yêu cầu của từng ứng dụng 2.2 Các ứng dụng của phân cụm Phân cụm dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh... giá các cụm thu được Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web … Ngoài ra, phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác 1.3.4.3 Phân lớp dữ liệu và hồi quy Mục tiêu của phương pháp phân lớp là dự đoán nhãn lớp cho các mẫu dữ liệu Quá trình phân. .. nghĩa phân cụm dữ liệu như sau: Phân cụm dữ liệu là một kỹ thuật trong Data Mining nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định Một cụm các đối tượng dữ liệu có thể xem như một nhóm trong nhiều ứng dụng, ví dụ: mô hình về phân cụm các trường dựa trên tiêu chuẩn về thu nhập và số nợ Cụm. .. Phân loại tài liệu, phân loại người dùng web 2.3 Các yêu cầu về thuật toán phân cụm dữ liệu Phân cụm dữ liệu là một thách thức trong lĩnh vực nghiên cứu vì những ứng dụng tiềm năng của chúng được đưa ra ngay chính trong những yêu cầu đặc biệt của phân cụm dữ liệu Do đặc thù của CSDL là lớn, phức tạp, và có dữ liệu nhiễu nên những thuật toán phân cụm được áp dụng phải thỏa mãn những yêu cầu sau: - Thuật. .. Người sử dụng có thể chờ đợi những kết quả phân cụm dễ hiểu, dễ lý giải và dễ sử dụng Nghĩa là, sự phân cụm có thể cần được giải thích ý nghĩa và ứng dụng rõ ràng Việc nghiên cứu cách để một ứng dụng đạt mục tiêu rất quan trọng có thể gây ảnh hưởng tới sự lựa chọn các phương pháp phân cụm 2.4 Các kiểu dữ liệu trong phân cụm Trong phân cụm, các đối tượng dữ liệu thường được diễn tả dưới dạng các đặc... tạo, … 1.3.4.2 Phân cụm dữ liệu Mục tiêu của phương pháp phân cụm dữ liệu là quá trình nhóm các điểm dữ liệu trong cơ sở dữ liệu thành các cụm sao cho những điểm dữ liệu trong cùng một cụm có độ tương đồng lớn và những điểm không cùng một cụm có sự tương đồng là rất nhỏ Điểm mạnh của phân cụm dữ liệu là đưa ra được những cấu trúc có ích hoặc những cụm có đối tượng tìm thấy trực tiếp từ dữ liệu mà không... nhưng vẫn đảm bảo hiệu chỉnh cây dữ liệu nhỏ hơn Bước 3: Thực hiện phân cụm: Các nút lá cây CF lưu trữ các đại lượng thống kê của các cụm con Trong bước này, BIRCH sử dụng các đại lượng thống kê này để áp dụng một số kỹ thuật phân cụm, ví dụ K-means và tạo ra một khởi tạo cho phân cụm Bước 4: Phân phối lại các đối tượng dữ liệu bằng cách dùng các đối tượng trọng tâm cho các cụm được khám phá từ bước 3:... Cập nhật các trung tâm V(j) = [ 3 Until { ( ) − ( ) ( ) , ( ) ,…., ( ) ]  } 4 Trình diễn các cụm kết quả; End 2.6.3 Thuật toán phân cụm dữ liệu dựa vào cụm trung tâm 2.6.3.1 Thuật toán K-means K-Means là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối tượng (objects) đã cho vào K cụm (K là số các cụm được... sở nào Giống như cách tiếp cận học máy, phân cụm dữ liệu được hiểu như là phương pháp “học không có 16 thầy” Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ Trong phương pháp này sẽ không biết kết quả các cụm thu được sẽ như ... phụ thuộc vào yêu cầu ứng dụng 2.2 Các ứng dụng phân cụm Phân cụm liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới, Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu dần đưa vào ứng dụng nhiều... dựa vào phân cụm phân cấp 28 2.6.2 Thuật toán phân cụm liệu mờ 33 2.6.3 Thuật toán phân cụm liệu dựa vào cụm trung tâm 35 2.6.4 Thuật toán phân cụm liệu dựa vào lưới 38 2.6.5 Thuật. .. cứu kỹ thuật phân cụm liệu ứng dụng hướng nghiên cứu cho khóa luận Mục đích nghiên cứu - Tìm hiểu qua trình khám phá tri thức khai phá liệu - Tìm hiểu phân cụm liệu thuật toán phân cụm liệu

Ngày đăng: 08/11/2015, 20:03

Từ khóa liên quan

Mục lục

  • LỜI CẢM ƠN

  • LỜI CAM ĐOAN

    • 1. Lý do chọn đề tài

    • 2. Mục đích nghiên cứu

    • 3. Phạm vi nghiên cứu

    • 4. Ý nghĩa khoa học và thực tiễn

    • 5. Phương pháp nghiên cứu

    • 6. Cấu trúc khóa luận

    • CHƯƠNG 1

    • TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU

      • 1.1 Giới thiệu chung

      • 1.2 Khám phá tri thức và quá trình khám phá tri thức

      • 1.3 Khai phá dữ liệu

      • 1.3.5 Thách thức – khó khăn trong khám phá tri thức và khai phá dữ liệu

      • 1.3.6 Ứng dụng của khai phá dữ liệu

      • 1.3.7 Kết luận

      • CHƯƠNG 2

      • PHÂN CỤM DỮ LIỆU VÀ CÁC

      • THUẬT TOÁN PHÂN CỤM DỮ LIỆU

        • 2.1 Khái niệm về phân cụm dữ liệu

        • 2.2 Các ứng dụng của phân cụm

        • 2.3 Các yêu cầu về thuật toán phân cụm dữ liệu

        • 2.4 Các kiểu dữ liệu trong phân cụm

Tài liệu cùng người dùng

Tài liệu liên quan