Bài tiểu luận môn Công nghệ tri thức CƠ SỞ KHAI THÁC DỮ LIỆU

26 348 1
Bài tiểu luận môn Công nghệ tri thức CƠ SỞ KHAI THÁC DỮ LIỆU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

CƠ SỞ TRI THỨC ỨNG DỤNG [GVHD: GS.TSKH HOÀNG KIẾM] GIỚI THIỆU Khai khoáng dữ liệu (data mining), hiện nay đang được rất nhiều người chú ý. Nó thực sự đã đem lại những lợi ích đáng kể trong việc cung cấp những thông tin tiềm ẩn trong các cơ sở dữ liệu lớn. Ngày nay đang trong tình trạng bùng nổ thông tin, lượng thông tin càng trở nên phong phú, đa dạng và khổng lồ. Thế nhưng để có được những thông tin quí giá, đáng quan tâm, chúng ta lại phải tốn rất nhiều công sức để tìm kiếm nó trong một khối lượng thông tin khổng lồ ấy. Xét về lĩnh vực này thì khối lượng thông tin càng lớn công việc càng trở nên khó khăn hơn. Những phương pháp thống kê truyền thống, phần lớn đều đã được định trước mục đích của công việc, và sau đó chỉ việc sử dụng những phương pháp thích hợp để có được những thông tin mà chúng ta cần. Đối với khai khoáng dữ liệu đúng nghĩa như tên gọi của nó, chúng ta đi tìm “mỏ”, không biết “có mỏ hay không?”. nếu có thì “mỏ đó là vàng hay bạc, hay chì ?”. Khai khoáng dữ liệu như là một công cụ, giúp chúng ta tìm ra “mỏ” trong những “dãy núi khổng lồ”, núi càng lớn, càng dài thì hy vọng tìm ra mỏ càng cao nhưng cũng hết sức khó khăn phức tạp. Tất nhiên khi tìm ra được những thông tin cuối cùng thì việc ứng dụng những thông tin đó vào trong thực tế lại đòi hỏi cả một quá trình vận dụng từ lý thuyết vào thực tiễn. Những luật kết hợp, những mẫu thông tin chưa từng gặp sẽ là tiền đề cho những dự đoán, để từ đó có được những hoạch định đúng cho hướng phát triển trong tương lai, đây chính là những yếu tố mà cơ quan đơn vị nào cũng cần tới nó, dù ở mức qui mô lớn hay nhỏ. Khai khoáng dữ liệu trong Giáo dục và Đào tạo thật sự là một việc làm có ý nghĩa, nó sẽ cung cấp những thông tin dựa trên những cơ sở khoa học đáng tin cậy, và đây cũng chính là những thông tin quí giá hỗ trợ rất nhiều trong công tác quản lý giáo dục. Hiện nay khai khoáng dữ liệu đã được ứng dụng rất nhiều trong thực tế, nhất là trong lĩnh vực kinh doanh, công nghệ sinh học Tuy nhiên trong lĩnh vực Giáo dục và Đào tạo, quả thật còn rất ít. Dữ liệu trong giáo dục có những đặc điểm riêng của nó, đòi hỏi chúng ta phải có những phương pháp khám phá phù hợp thì mới phát huy được tốc độ, cũng như không gian bộ nhớ. Mặt khác để có được những thông tin mang tính xã hội và thực tế cao thì việc đưa khái niệm tập mờ để đánh giá phân loại học sinh sẽ có tính thuyết phục hơn. Với phương pháp khai khoáng luật kết hợp mờ trong cơ sở dữ liệu là kết quả thi tốt nghiệp THPT. Trang 1 | Học viên: Bùi Thị Mai Châu CƠ SỞ TRI THỨC ỨNG DỤNG [GVHD: GS.TSKH HOÀNG KIẾM] PHẦN I: GIỚI THIỆU KHAI THÁC DỮ LIỆU CHƯƠNG 1: TỔNG QUAN Khai thác dữ liệu, khai thác thông tin dự báo ẩn từ cơ sở dữ liệu lớn, là một công nghệ mới mạnh mẽ với tiềm năng tuyệt vời để giúp các đối tượng cần quản lý tập trung vào các thông tin quan trọng nhất trong kho dữ liệu. Công cụ khai thác dữ liệu dự đoán xu hướng tương lai và thực hiện, cho phép các đối tượng quản lý để quyết định chủ động, kiến thức theo định hướng. Tự động phân tích tiềm năng được cung cấp bởi động thái khai thác dữ liệu vượt ra ngoài phân tích các sự kiện trong quá khứ được cung cấp bởi các công cụ truy vấn điển hình của hệ thống hỗ trợ quyết định. Công cụ khai thác dữ liệu có thể trả lời các câu hỏi quản lý truyền thống là quá tốn thời gian để giải quyết. Cơ sở dữ liệu cho các mô hình ẩn, tìm kiếm thông tin tiên đoán mà các chuyên gia có thể bỏ lỡ bởi vì nó nằm ngoài mong đợi của họ. Hầu hết các đối tượng quản lý đã thu thập và sàng lọc số lượng lớn dữ liệu. Kỹ thuật khai thác dữ liệu có thể được thực hiện nhanh chóng trên phần mềm và phần cứng hiện có nền tảng để nâng cao giá trị của tài nguyên thông tin hiện có, và có thể được tích hợp với sản phẩm mới và hệ thống khi chúng được đưa trên mạng. Khi thực hiện hiệu suất cao, khách hàng / máy chủ hoặc máy tính xử lý song song, các công cụ khai thác dữ liệu có thể phân tích cơ sở dữ liệu lớn để cung cấp nhu cầu đáp ứng. Giới thiệu về các công nghệ cơ bản của khai thác dữ liệu. Ví dụ về các ứng dụng có lợi nhuận cho thấy sự liên quan của nó đến môi trường kinh doanh ngày nay cũng như mô tả cơ bản của kiến trúc kho dữ liệu có thể phát triển để cung cấp những giá trị khai thác dữ liệu cho người dùng cuối. Trang 2 | Học viên: Bùi Thị Mai Châu CƠ SỞ TRI THỨC ỨNG DỤNG [GVHD: GS.TSKH HOÀNG KIẾM] CHƯƠNG 2: CƠ SỞ KHAI THÁC DỮ LIỆU 1. Kỹ thuật khai thác dữ liệu Kỹ thuật khai thác dữ liệu là kết quả của một quá trình lâu dài nghiên cứu và phát triển sản phẩm. Sự tiến hóa này bắt đầu khi dữ liệu kinh doanh lần đầu tiên được lưu trữ trên máy tính, tiếp tục với những cải tiến trong truy cập dữ liệu, và gần đây hơn, tạo ra công nghệ cho phép người dùng điều hướng thông qua các dữ liệu của họ trong thời gian thực. Khai thác dữ liệu có quá trình tiến hóa vượt ra ngoài truy cập dữ liệu hồi cứu và chuyển hướng cung cấp thông tin và chủ động tương lai. Khai thác dữ liệu đã sẵn sàng cho ứng dụng trong cộng đồng doanh nghiệp bởi vì nó được hỗ trợ bởi ba công nghệ hiện nay đủ trưởng thành: • Thu thập dữ liệu • Máy tính đa xử lý • Thuật tóan khai thác dữ liệu 2. Khảo sát dữ lịêu Cơ sở dữ liệu thương mại đang phát triển với tốc độ chưa từng thấy. META Nhóm khảo sát gần đây của dự án kho dữ liệu cho thấy rằng 19% số người trả lời là vượt quá mức 50 GB, trong khi 59% mong đợi để có quý thứ hai của 1.996,1 Trong một số ngành công nghiệp, chẳng hạn như bán lẻ, những con số này có thể lớn hơn nhiều. Sự cần thiết phải đi kèm cho các công cụ cải thiện tính toán có thể được đáp ứng một cách hiệu quả với công nghệ máy tính song song. Các thuật toán khai thác dữ liệu thể hiện các kỹ thuật đã tồn tại ít nhất 10 năm, nhưng chỉ gần đây mới được thực hiện như trưởng thành, đáng tin cậy, các công cụ dễ hiểu mà luôn tốt hơn phương pháp thống kê cũ. Trong quá trình tiến hóa từ các dữ liệu kinh doanh thông tin kinh doanh, từng bước tiến mới đã được xây dựng trên trước đó. Ví dụ, truy cập dữ liệu động là rất quan trọng cho khoan thông qua ứng dụng điều hướng dữ liệu, và khả năng lưu trữ cơ sở dữ liệu lớn là rất quan trọng để khai thác dữ liệu. Từ quan điểm của người sử dụng xem, bốn bước được liệt kê trong Bảng 1 là cách mạng bởi vì họ cho phép các câu hỏi doanh nghiệp mới được trả lời chính xác và nhanh chóng. Bước tiến hóa Câu hỏi kinh doanh Kích họat công nghệ Sản phẩm nhà cung cấp Đặc điểm Tập hợp dữ liệu Tổng doanh thu trong năm năm qua là gì? " Computers, tapes, disks IBM, CDC Hồi cứu, cung cấp dữ liệu tĩnh truy cập dữ liệu "Đơn vị bán hàng ở New England cuối tháng ba?" Cơ sở dữ liệu quan hệ (RDBMS), Structured Query Oracle, Sybase, Informix, Truy dữ liệu giao hàng, năng động ở Trang 3 | Học viên: Bùi Thị Mai Châu CƠ SỞ TRI THỨC ỨNG DỤNG [GVHD: GS.TSKH HOÀNG KIẾM] Language (SQL), ODBC IBM, Microsoft mức kỷ lục Kho dữ liệu & hỗ trợ quyết định Bán hàng đơn vị ở New England tháng Ba năm ngoái khoan để Boston.? " Phân tích xử lý trực tuyến (OLAP), cơ sở dữ liệu đa chiều, kho dữ liệu Pilot, Comshare, Arbor, Cognos, Microstrategy Truy, năng động, dữ liệu giao hàng ở nhiều cấp độ Khai thác dữ liệu "Có gì có thể xảy ra với doanh số bán hàng đơn vị Boston vào tháng tới?" Các thuật toán tiên tiến, máy tính đa năng, cơ sở dữ liệu khổng lồ Pilot, Lockheed, IBM, SGI, numerous startups (nascent industry) Tiềm năng, chủ động thông tin giao hàng Bảng 1.Các bước trong tiến trình của Khai thác dữ liệu. Các thành phần cốt lõi của công nghệ khai thác dữ liệu đã được phát triển trong nhiều thập kỷ, trong lĩnh vực nghiên cứu như số liệu thống kê, trí thông minh nhân tạo, và học máy. Ngày nay, sự trưởng thành của các kỹ thuật, cùng với động cơ hiệu suất cao cơ sở dữ liệu quan hệ và những nỗ lực tích hợp dữ liệu rộng, làm cho các công nghệ thiết thực cho các môi trường kho dữ liệu hiện tại. 3. Phạm vi khai thác dữ liệu : Khai thác dữ liệu có nguồn gốc tên của nó từ sự giống nhau giữa tìm kiếm thông tin kinh doanh có giá trị trong một cơ sở dữ liệu lớn - ví dụ, tìm kiếm sản phẩm liên kết trong gigabyte lưu trữ dữ liệu máy quét và khai thác một ngọn núi cho một tĩnh mạch quặng có giá trị. Cả hai quá trình yêu cầu hoặc là chọn lọc thông qua một số tiền khổng lồ của vật liệu, hoặc thăm dò để tìm giá trị chính xác nơi chứa thông tin dữ liệu. Trang 4 | Học viên: Bùi Thị Mai Châu CƠ SỞ TRI THỨC ỨNG DỤNG [GVHD: GS.TSKH HOÀNG KIẾM] 4. Ứng dụng chức năng: Với cơ sở dữ liệu kích thước đầy đủ và chất lượng, công nghệ khai thác dữ liệu có thể tạo ra các cơ hội kinh doanh mới bằng cách cung cấp những khả năng: a. Tự động dự báo xu hướng và thực hịên . Khai thác dữ liệu tự động hóa quá trình tìm kiếm thông tin dự đoán trong cơ sở dữ liệu lớn. Câu hỏi truyền thống yêu cầu tay-on mở rộng phân tích có thể được trả lời trực tiếp từ các dữ liệu một cách nhanh chóng. Một ví dụ điển hình của một vấn đề tiên đoán được nhắm mục tiêu tiếp thị. Khai thác dữ liệu sử dụng dữ liệu trên các thư quảng cáo trong quá khứ để xác định các mục tiêu có thể để tối đa hóa lợi nhuận trên đầu tư vào các thư trong tương lai. Các vấn đề khác tiên đoán bao gồm phá sản dự báo và các hình thức mặc định, và các phân đoạn xác định của một dân số có khả năng đáp ứng tương tự như sự kiện được đưa ra. b. Công cụ khai thác dữ liệu : quét qua cơ sở dữ liệu và xác định các mẫu trước đó ẩn trong một bước. Một ví dụ về mô hình phát hiện ra là việc phân tích các dữ liệu doanh số bán lẻ để xác định các sản phẩm dường như không liên quan với nhau. Các mô hình phát hiện ra vấn đề khác bao gồm phát hiện các giao dịch thẻ tín dụng gian lận và xác định các dữ liệu bất thường có thể do lỗi nhập từ bàn phím. c. Kỹ thuật khai thác dữ liệu : mang lại lợi ích của tự động hóa phần mềm và là nền tảng cho sự phát triển của phần cứng, và có thể được thực hiện trên hệ thống mới hiện tại được nâng cấp. Khi các công cụ khai thác dữ liệu được thực hiện trên các hệ thống xử lý song song hiệu năng cao, họ có thể phân tích cơ sở dữ liệu lớn trong vài phút. Xử lý nhanh hơn có nghĩa rằng người dùng có thể tự động thử nghiệm với các mô hình để hiểu các dữ liệu phức tạp. Tốc độ cao làm cho nó thực tế cho người sử dụng để phân tích một lượng lớn dữ liệu. Cơ sở dữ liệu lớn hơn, lần lượt, sản lượng dự đoán được cải thiện. 5. Các kỹ thuật phổ biến nhất được sử dụng trong khai thác dữ liệu a. Các thuật toán di truyền : Tối ưu hóa kỹ thuật sử dụng các quá trình như sự kết hợp di truyền, đột biến và chọn lọc tự nhiên trong một thiết kế dựa trên khái niệm của sự tiến hóa. b. Phương pháp hàng xóm gần nhất : Một kỹ thuật phân loại mỗi bản ghi trong một tập dữ liệu dựa trên sự kết hợp của các lớp học của các kỷ lục k (s) tương tự như trong một tập dữ liệu lịch sử (mà k ³ 1). Đôi khi được gọi là kỹ thuật hàng xóm k gần nhất. c. Quy tắc cảm ứng : Việc khai thác hữu ích nếu sau đó quy định từ dữ liệu dựa trên ý nghĩa thống kê. Nhiều người trong số các công nghệ này đã được sử dụng trong hơn một thập kỷ trong các công cụ phân tích chuyên môn làm việc với khối lượng tương đối nhỏ của dữ liệu. Những khả năng này được phát triển để tích hợp trực tiếp với tiêu chuẩn công nghiệp nền tảng kho dữ liệu và OLAP. 6. Sự họat động của khai thác dữ liệu Trang 5 | Học viên: Bùi Thị Mai Châu CƠ SỞ TRI THỨC ỨNG DỤNG [GVHD: GS.TSKH HOÀNG KIẾM] Làm thế nào chính xác là khai thác dữ liệu có thể cho bạn biết những điều quan trọng mà bạn không biết hay những gì sẽ xảy ra tiếp theo? . Kỹ thuật được sử dụng để thực hiện những kỳ công trong khai thác dữ liệu được gọi là mô hình hóa. Mô hình chỉ đơn giản là hành động của việc xây dựng một mô hình trong một tình huống mà bạn biết câu trả lời và sau đó áp dụng nó vào một tình huống mà bạn không biết. Ví dụ, nếu bạn đang tìm kiếm một thuyền buồm Tây Ban Nha bị chìm trên vùng biển cao, điều đầu tiên bạn có thể làm là nghiên cứu lần khi Tây Ban Nha kho báu đã được tìm thấy bởi những người khác trong quá khứ. Bạn có thể lưu ý rằng các tàu này thường có xu hướng được tìm thấy ngoài khơi bờ biển của Bermuda và có những đặc điểm nhất định để các dòng chảy đại dương, và các tuyến đường nhất định đã có thể được thực hiện bởi thuyền trưởng của con tàu trong thời đại đó. Bạn lưu ý những điểm tương đồng và xây dựng một mô hình bao gồm các đặc điểm được phổ biến đến các địa điểm của những kho tàng chìm đắm. Với các mô hình này trong tay bạn đi thuyền tìm kiếm kho báu mà mô hình của bạn cho thấy nó có khả năng nhất có thể được đưa ra một tình huống tương tự trong quá khứ. Hy vọng rằng, nếu bạn đã có một mô hình tốt, bạn tìm thấy kho báu của bạn. Đây là hành vi xây dựng mô hình như vậy, một cái gì đó mà mọi người đã được làm trong một thời gian dài, chắc chắn trước khi sự ra đời của máy tính hoặc khai thác dữ liệu công nghệ. Điều gì sẽ xảy ra trên máy tính, tuy nhiên, không phải là nhiều hơn so với cách mọi người xây dựng mô hình khác nhau. Máy tính được nạp với nhiều thông tin về một loạt các tình huống mà một câu trả lời được biết đến và sau đó phần mềm khai thác dữ liệu trên máy tính phải chạy thông qua các dữ liệu đó và chưng cất các đặc tính của dữ liệu có nên đi vào mô hình. Một khi mô hình được xây dựng sau đó có thể được sử dụng trong các tình huống tương tự mà bạn không biết câu trả lời. Ví dụ, nói rằng bạn là giám đốc tiếp thị cho một công ty viễn thông và bạn muốn để có được một số điện thoại đường dài khách hàng mới. Bạn có thể chỉ là ngẫu nhiên đi ra ngoài và gửi phiếu giảm giá cho dân số nói chung cũng giống như bạn ngẫu nhiên có thể đi thuyền biển tìm kiếm kho báu. Trong trường hợp không phải, bạn sẽ đạt được kết quả bạn mong muốn và tất nhiên bạn có cơ hội để làm tốt hơn nhiều hơn ngẫu nhiên - bạn có thể sử dụng kinh nghiệm kinh doanh của bạn được lưu trữ trong cơ sở dữ liệu của bạn để xây dựng một mô hình. Là giám đốc tiếp thị, bạn có thể truy cập đến rất nhiều thông tin về tất cả các khách hàng của bạn: tuổi tác, giới tính, lịch sử tín dụng và gọi điện thoại đường dài sử dụng. Các tin tốt là bạn cũng có rất nhiều thông tin về khách hàng tiềm năng của bạn: tuổi, giới tính, họ, lịch sử tín dụng, vv Vấn đề của bạn là bạn không biết cách sử dụng gọi điện thoại đường dài của những khách hàng tiềm năng (kể từ khi họ có khả năng nhất hiện nay khách hàng của đối thủ cạnh tranh của bạn). Bạn muốn tập trung vào những triển vọng những người có số lượng lớn của việc sử dụng khoảng cách dài. Bạn có thể thực hiện điều này bằng cách xây dựng một mô hình. Bảng 2 minh họa các dữ liệu được sử dụng để xây dựng một mô hình mới cho khách hàng khảo sát trong một nhà kho dữ liệu. Trang 6 | Học viên: Bùi Thị Mai Châu CƠ SỞ TRI THỨC ỨNG DỤNG [GVHD: GS.TSKH HOÀNG KIẾM] Khách hàng Triển vọng Thông tin chung Được biết Được biết Thông tin độc quyền Được biết Mục tiêu Bảng 2 - Khai thác dữ liệu cho khảo sát 7. Mục đích của sự khảo sát Mục đích của việc khảo sát là để làm cho một số dự đoán tính toán về những thông tin ở góc tọa độ dưới bên phải dựa trên mô hình mà chúng ta xây dựng từ thông tin khách hàng chung để thông tin khách hàng phần mềm sở hữu. Ví dụ, một mô hình đơn giản cho một công ty viễn thông có thể là: 98% khách hàng của tôi những người làm nhiều hơn $ 60.000 / năm chi tiêu nhiều hơn $ 80/month trên đường dài Mô hình này sau đó có thể được áp dụng cho các dữ liệu khách hàng tiềm năng để cố gắng nói điều gì đó về thông tin độc quyền mà công ty viễn thông này hiện tại không có quyền truy cập. Với mô hình này trong tay khách hàng mới có thể được lựa chọn nhắm mục tiêu. Kiểm tra tiếp thị là một nguồn tuyệt vời của dữ liệu cho các loại hình của mô hình. Khai thác các kết quả của một thị trường thử nghiệm đại diện cho một mẫu rộng lớn nhưng tương đối nhỏ của khách hàng tiềm năng có thể cung cấp một nền tảng để xác định triển vọng tốt trong thị trường tổng thể. Bảng 3 cho thấy một kịch bản phổ biến khác cho các mô hình xây dựng: dự đoán những gì sẽ xảy ra trong tương lai. Hôm qua Hôm nay Ngày mai Kế họach hiện tại Được biết Được biết Được biết Kế họach tương lai – thông tin có thay đổi Được biết Được biết Mục tiêu Bảng 3 - Khai thác dữ liệu cho dự báo Để tốt nhất áp dụng những kỹ thuật tiên tiến, phải được tích hợp đầy đủ với một nhà kho dữ liệu cũng như các công cụ phân tích kinh doanh tương tác linh hoạt. Nhiều công cụ khai thác dữ liệu đang hoạt động bên ngoài của kho, yêu cầu các bước bổ sung để chiết xuất, nhập khẩu, và phân tích dữ liệu. Hơn nữa, khi những hiểu biết mới yêu cầu hoạt động thực hiện, tích hợp với các kho hàng đơn giản hoá việc áp dụng các kết quả từ khai thác dữ liệu. Các kết quả phân tích kho dữ liệu có thể được áp dụng để cải thiện quy trình kinh doanh trong toàn bộ tổ chức, trong các lĩnh vực như quản lý chiến dịch quảng cáo, phát hiện gian lận, triển khai sản phẩm mới. Trang 7 | Học viên: Bùi Thị Mai Châu CƠ SỞ TRI THỨC ỨNG DỤNG [GVHD: GS.TSKH HOÀNG KIẾM] Điểm khởi đầu lý tưởng là một kho dữ liệu có chứa một sự kết hợp dữ liệu nội bộ theo dõi tất cả liên lạc của khách hàng cùng với các dữ liệu thị trường bên ngoài về hoạt động của đối thủ cạnh tranh. Bối cảnh thông tin về khách hàng tiềm năng cũng cung cấp một cơ sở tuyệt vời cho các khảo sát. Kho này có thể được thực hiện trong một loạt các hệ thống cơ sở dữ liệu quan hệ: Sybase, Oracle, Redbrick, và như vậy, và cần được tối ưu hóa cho việc truy cập dữ liệu linh hoạt và nhanh chóng. Một máy chủ OLAP (On-Line Analytical Processing) cho phép người dùng cuối một mô hình kinh doanh phức tạp hơn để được áp dụng khi điều hướng các kho dữ liệu. Các cấu trúc đa chiều cho phép người sử dụng để phân tích các dữ liệu như họ muốn xem kinh doanh của họ - tóm tắt bởi dòng sản phẩm, khu vực, và quan điểm quan trọng khác của kinh doanh của họ. Server Khai thác dữ liệu phải được tích hợp với các kho dữ liệu và máy chủ OLAP để nhúng ROI tập trung vào phân tích kinh doanh trực tiếp vào cơ sở hạ tầng này. Một tiên tiến, trung tâm siêu dữ liệu mẫu quá trình xác định mục tiêu khai thác dữ liệu cho các vấn đề kinh doanh cụ thể như quản lý chiến dịch, khảo sát, và tối ưu hóa khuyến mại. Tích hợp với các kho dữ liệu cho phép quyết định hoạt động được trực tiếp thực hiện và theo dõi. Khi các kho hàng phát triển với các quyết định và kết quả mới, tổ chức có thể tiếp tục khai thác tốt nhất và áp dụng chúng để quyết định tương lai. Thiết kế này đại diện cho một sự thay đổi cơ bản từ các hệ thống hỗ trợ quyết định thông thường. Thay vì chỉ đơn giản là cung cấp dữ liệu cho người dùng cuối thông qua các truy vấn và báo cáo phần mềm, Server Phân tích chi tiết áp dụng mô hình kinh doanh của người sử dụng trực tiếp với nhà kho và trả về một phân tích chủ động của các thông tin có liên quan nhất. Những kết quả này tăng cường các siêu dữ liệu trong các máy chủ OLAP cung cấp một lớp siêu dữ liệu năng động đại diện cho một cái nhìn cất dữ liệu. Với các công cụ phân tích khác sau đó có thể được áp dụng để lập kế hoạch hành động trong tương lai và xác nhận tác động của những kế hoạch đó. Trang 8 | Học viên: Bùi Thị Mai Châu CƠ SỞ TRI THỨC ỨNG DỤNG [GVHD: GS.TSKH HOÀNG KIẾM] CHƯƠNG 3: MỘT SỐ ỨNG DỤNG Các công ty đã triển khai ứng dụng thành công khai thác dữ liệu. Trong khi chấp nhận đầu tiên của công nghệ này có xu hướng được nhiều thông tin ngành công nghiệp như dịch vụ tài chính và tiếp thị thư trực tiếp, công nghệ này áp dụng đối với bất kỳ công ty tìm kiếm để sử dụng một kho dữ liệu lớn để quản lý tốt hơn các mối quan hệ khách hàng của họ. Hai yếu tố quan trọng cho sự thành công với các dữ liệu khai thác khoáng sản là: lớn, tích hợp các kho dữ liệu và sự hiểu biết một định nghĩa của quá trình kinh doanh mà trong đó khai thác dữ liệu được áp dụng (chẳng hạn như khách hàng khảo sát, lưu giữ, quản lý chiến dịch, và như vậy ). 1. Một số lĩnh vực ứng dụng thành công bao gồm : a. Một công ty dược phẩm có thể phân tích hoạt động gần đây lực lượng bán hàng và các kết quả của họ để cải thiện nhắm mục tiêu của các bác sĩ có giá trị cao và xác định các hoạt động tiếp thị sẽ có ảnh hưởng lớn nhất trong vài tháng tới. Dữ liệu cần phải bao gồm các hoạt động thị trường đối thủ cạnh tranh cũng như thông tin về hệ thống chăm sóc y tế địa phương. Các kết quả có thể được phân phối cho các lực lượng bán hàng thông qua một mạng diện rộng cho phép các đại diện để xem xét các khuyến nghị từ quan điểm của các thuộc tính quan trọng trong quá trình ra quyết định. , Phân tích năng động liên tục của các kho dữ liệu cho phép thực hành tốt nhất từ khắp tổ chức để được áp dụng trong các tình huống bán hàng cụ thể. b. Một công ty thẻ tín dụng có thể tận dụng kho rộng lớn của dữ liệu giao dịch của khách hàng để xác định khách hàng có thể là quan tâm đến một sản phẩm tín dụng mới. Sử dụng gửi thư thử nghiệm nhỏ, các thuộc tính của khách hàng với một sự ham thích cho sản phẩm có thể được xác định. Dự án gần đây đã chỉ ra nhiều hơn giảm 20 lần chi phí cho các chiến dịch gửi thư có mục tiêu qua các phương pháp thông thường. c. Một công ty vận tải đa dạng với một lực lượng lớn bán hàng trực tiếp có thể áp dụng khai thác dữ liệu để xác định các triển vọng tốt nhất cho các dịch vụ của nó. Sử dụng khai thác dữ liệu để phân tích kinh nghiệm khách hàng riêng của mình, công ty này có thể xây dựng một phân khúc duy nhất xác định các thuộc tính của khách hàng tiềm năng có giá trị cao. Áp dụng phân khúc này với một cơ sở dữ liệu kinh doanh nói chung như những người được cung cấp bởi Dun & Bradstreet có thể mang lại một danh sách ưu tiên của triển vọng của khu vực. d. Một người tiêu dùng lớn công ty gói hàng hóa có thể áp dụng khai thác dữ liệu để cải thiện quá trình bán hàng của mình cho các nhà bán lẻ. Dữ liệu từ các tấm tiêu dùng, vận chuyển, và hoạt động của đối thủ cạnh tranh có thể được áp dụng để hiểu lý do chuyển đổi thương hiệu và cửa hàng. Thông qua phân tích này, các nhà sản xuất có thể lựa chọn chiến lược quảng cáo tốt nhất đạt được các phân khúc khách hàng mục tiêu của họ 2. Kết luận : Trang 9 | Học viên: Bùi Thị Mai Châu CƠ SỞ TRI THỨC ỨNG DỤNG [GVHD: GS.TSKH HOÀNG KIẾM] - Kho dữ liệu toàn diện tích hợp dữ liệu hoạt động với khách hàng, nhà cung cấp, và thông tin thị trường đã dẫn đến một sự bùng nổ thông tin. - Cạnh tranh đòi hỏi phải phân tích kịp thời và tinh tế trên một cái nhìn tích hợp của dữ liệu. Tuy nhiên, có một khoảng cách ngày càng tăng giữa lưu trữ và hệ thống thu hồi và khả năng của người sử dụng có hiệu quả phân tích và hành động trên những thông tin chúng chứa. Cả hai công nghệ quan hệ và OLAP có khả năng to lớn để điều hướng các kho dữ liệu khổng lồ. - Một bước nhảy vọt công nghệ mới là cần thiết để cấu trúc và ưu tiên thông tin cho các vấn đề cụ thể của người dùng cuối. 3. Thuật ngữ của Điều khoản khai thác dữ liệu : phân tích mô hình Cấu trúc và quá trình phân tích một tập dữ liệu. Ví dụ, một cây quyết định là một mô hình để phân loại của một tập dữ liệu. dữ liệu bất thường Dữ liệu có lỗi (ví dụ, nhập dữ liệu lỗi keying) hoặc đại diện cho các sự kiện bất thường. Dữ liệu bất thường nên được kiểm tra cẩn thận vì nó có thể mang thông tin quan trọng. Hệ thống mạng Mô hình học thông qua đào tạo và tương tự như mạng lưới thần kinh sinh học trong cơ cấu. CART Cây phân loại và hồi quy. Kỹ thuật cây quyết định được sử dụng cho phân loại của một tập dữ liệu. Cung cấp tập hợp các quy tắc mà có thể áp dụng cho một tập dữ liệu mới (không được phân loại) để dự đoán các hồ sơ sẽ có một kết quả như thế nào. Phân đoạn một tập dữ liệu bằng cách tạo ra 2 cách chia tách. Cần chuẩn bị dữ liệu ít hơn CHAID. CHAID Tương tác phát hiện tự động.Kỹ thuật cây quyết định được sử dụng cho phân loại của một tập dữ liệu. Cung cấp một tập hợp các quy tắc mà bạn có thể áp dụng cho một tập dữ liệu mới (không được phân loại) để dự đoán các hồ sơ sẽ có một kết quả nào. Phân đoạn một tập dữ liệu bằng cách sử dụng kiểm tra chia vuông để tạo ra nhiều cách chia tách. Trước, và đòi hỏi phải chuẩn bị dữ liệu nhiều hơn, CART. Phân loại Phân chia theo từng thành phần cấu trúc trong dữ liệu. Phân nhóm Quá trình phân chia một tập dữ liệu thành các nhóm dữ liệu khác nhau. Tùy theo từng lọai yêu cầu mà các dữ liệu được phân chia theo nhóm khác nhau. Trang 10 | Học viên: Bùi Thị Mai Châu [...]...CƠ SỞ TRI THỨC ỨNG DỤNG [GVHD: GS.TSKH HOÀNG KIẾM] Làm sạch dữ liệu Quá trình đảm bảo rằng tất cả các giá trị trong một tập dữ liệu phù hợp và ghi lại một cách chính xác Khai thác dữ liệu Khai thác thông tin dự báo ẩn từ cơ sở dữ liệu lớn Dữ liệu định vị Quá trình xem kích thước khác nhau, lát, và mức độ chi tiết của một cơ sở dữ liệu đa chiều Dữ liệu trực quan Việc giải thích... môn Sử và học lực TB thì đậu tốt nghiệp THPT với độ tin cậy 91% Trang 25 | Học viên: Bùi Thị Mai Châu CƠ SỞ TRI THỨC ỨNG DỤNG [GVHD: GS.TSKH HOÀNG KIẾM] TÀI LIỆU THAM KHẢO:  Chuyên Đề Công Nghệ Tri Thức Và ứng Dụng – Giảng viên phụ trách: GS.TSKH Hòang Kiếm  Giáo Trình Các Hệ Cơ Sở Tri Thức – Biên sọan: GS.TSKH Hòang Kiếm; TS Đỗ Phúc; TS Đỗ Văn Nhơn  Nguyên Lý Các Hệ Cơ Sở Dữ Liệu Và Cơ Sở Tri Thức. .. tập dữ liệu Phân tích năng dữ liệu tiềm Phân tích dữ liệu có thể dự đoán xu hướng tương lai, hành vi, hoặc các sự kiện dựa trên dữ liệu lịch sử RAID Công nghệ lưu trữ song song hiệu quả của dữ liệu cho hệ thống máy tính hiệu suất cao Phân tích hồi cứu Phân tích dữ liệu cung cấp xu hướng, hành vi, hoặc các sự kiện đã dữ liệu xảy ra Quy tắc cảm ứng Việc khai thác hữu ích nếu sau đó quy định từ dữ liệu. .. thống trị của dữ liệu | Học viên: Bùi Thị Mai Châu CƠ SỞ TRI THỨC ỨNG DỤNG Trang 13 [GVHD: GS.TSKH HOÀNG KIẾM] | Học viên: Bùi Thị Mai Châu CƠ SỞ TRI THỨC ỨNG DỤNG [GVHD: GS.TSKH HOÀNG KIẾM] PHẦN II: ỨNG DỤNG KHAI KHOÁNG DỮ LIỆU VÀ TẬP MỜ TRONG VIỆC PHÂN LOẠI HỌC SINH CHƯƠNG 1: LUẬT KẾT HỢP MỜ Khai khoáng những luật kết hợp là một trong những vấn đề nghiên cứu quan trọng trong khai khoáng dữ liệu Một ví... trong các dữ liệu đa chiều Kho dữ liệu Một hệ thống để lưu trữ và cung cấp số lượng lớn dữ liệu Cây quyết định Một cấu trúc hình cây đại diện cho một tập hợp các quyết định Những quyết định này tạo ra quy tắc cho việc phân loại của một tập dữ liệu Xem CART và CHAID Kích thước Trong một cơ sở dữ liệu hoặc quan hệ, mỗi lĩnh vực trong một bản ghi đại diện cho một kích thước Trong một cơ sở dữ liệu đa chiều,... ngôn ngữ liên quan đến những tập hợp mờ Trang 15 | Học viên: Bùi Thị Mai Châu [GVHD: GS.TSKH HOÀNG KIẾM] CƠ SỞ TRI THỨC ỨNG DỤNG CHƯƠNG 2: MÃ HÓA DỮ LIỆU Để nâng cao hiệu suất khai khoáng dữ liệu chúng ta tiến hành mã hoá dữ liệu như sau: Sau bước chuẩn bị dữ liệu (đã số hoá các items) là đọc dữ liệu để xử lý Tuy nhiên, sẽ có hiện tượng giá trị số trong mỗi cột giống nhau nhưng thực tế nó lại là các... BOOLEAN một chiều để lưu giữ vị trí (mảng ghi vị trí) của item trong cơ sở dữ liệu Độ dài của mảng này chính bằng tổng các transaction trong cơ sở dữ liệu Giả sử cơ sở dữ liệu có max transaction Như vậy số bytes cần để lưu giữ vị trí của một item là (max DIV 8) + IF(max MOD 8 0, 1, 0) bytes Cụ thể như sau: Giả sử chúng ta có bảng dữ liệu: TID (Transaction ID) TOAN LY HOA 0 4 5 7 1 5 6 7 2 4 6 7 3 4... Châu [GVHD: GS.TSKH HOÀNG KIẾM] CƠ SỞ TRI THỨC ỨNG DỤNG Việc chuyển dữ liệu theo cách thức này sẽ tiêu tốn một thời gian đáng kể nhất là đối với dữ liệu khổng lồ, với cách mã hoá trên chúng ta sẽ tránh được công việc này CHƯƠNG 3: TÌM CÁC ITEMSETS THƯỜNG XUYÊN 1 Cấu trúc lưu giữ các items, itemsets Như trên chúng ta đã trình bày, tuỳ vào điều kiện thực tế của cơ sở dữ liệu mà chúng ta tìm chọn một phương... số Cơ sở dữ liệu đa Một cơ sở dữ liệu được thiết kế để xử lý phân tích trực tuyến Cấu chiều trúc như một hypercube đa chiều với một trục trung bình kích thước Máy tính đa xử lý Trang 11 Một máy tính bao gồm nhiều bộ xử lý kết nối mạng Xem như xử | Học viên: Bùi Thị Mai Châu CƠ SỞ TRI THỨC ỨNG DỤNG [GVHD: GS.TSKH HOÀNG KIẾM] lý song song Lân cận gần nhất Kỹ thuật phân loại mỗi bản ghi trong một tập dữ. .. tích luật là công việc của người dùng Theo nguyên tắc từ một itemset thường xuyên chúng ta có thể tìm ra được nhiều luật trên đó Trong danh sách các itemsets thường xuyên sẽ không có hiện tượng trùng lặp, như vậy về hình thức của các luật khi được đưa ra cũng sẽ không bị trùng lặp Trang 24 | Học viên: Bùi Thị Mai Châu [GVHD: GS.TSKH HOÀNG KIẾM] CƠ SỞ TRI THỨC ỨNG DỤNG KẾT LUẬN Khai khoáng dữ liệu mở ra . 2: CƠ SỞ KHAI THÁC DỮ LIỆU 1. Kỹ thuật khai thác dữ liệu Kỹ thuật khai thác dữ liệu là kết quả của một quá trình lâu dài nghiên cứu và phát tri n sản phẩm. Sự tiến hóa này bắt đầu khi dữ liệu. tính xử lý song song, các công cụ khai thác dữ liệu có thể phân tích cơ sở dữ liệu lớn để cung cấp nhu cầu đáp ứng. Giới thiệu về các công nghệ cơ bản của khai thác dữ liệu. Ví dụ về các ứng dụng. động cơ hiệu suất cao cơ sở dữ liệu quan hệ và những nỗ lực tích hợp dữ liệu rộng, làm cho các công nghệ thiết thực cho các môi trường kho dữ liệu hiện tại. 3. Phạm vi khai thác dữ liệu : Khai

Ngày đăng: 10/04/2015, 17:04

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan