Các công cụ và công nghệ của hệ thống cơ sở dữ liệu trong việc tự động thu thập tri thức đối với các hệ chuyên gia dựa trên luật

79 416 0
Các công cụ và công nghệ của hệ thống cơ sở dữ liệu trong việc tự động thu thập tri thức đối với các hệ chuyên gia dựa trên luật

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mục lục Mục lục Lời mở đầu Chương 1: Giới thiệu chung Chương 2: Cải tiến chất lượng liệu 2.1 Các vấn đề chất lượng liệu 10 2.1.1 Dữ liệu lớn .11 2.1.2 Dữ liệu nhỏ 12 2.1.3 Dữ liệu bị đứt đoạn .14 2.2 Các kế hoạch cải tiến chất lượng liệu 14 2.2.1 Kiểm soát chất lượng liệu .15 2.2.2 Kiểm tra chất lượng liệu 16 2.2.3.Truyền liệu 17 2.2.4 Thu thập thông tin .18 2.3 Các công cụ cải tiến chất lượng liệu 19 2.3.1 Cơng cụ dị tìm dị thường 19 2.3.2 Công cụ mô hình hố liệu .21 2.3.3 Công cụ ngôn ngữ liệu .22 2.4 Những mối quan tâm vấn đề chất lượng liệu 23 Chương 3: Ứng dụng công nghệ công cụ khai phá sở liệu phát triển hệ chuyên gia 30 3.1 Lược đồ khai phá luật 31 3.2 Các công cụ qui nạp 33 3.3 Các công cụ khai phá tri thức 35 Chương 4: Quá trình xác minh tri thức 41 4.1 Các vấn đề kết phổ biến khai phá tri thức 41 4.2 Sự mâu thuẫn sở tri thức 42 4.2.1 Tri thức dư thừa 42 4.2.2 Tri thức gộp 42 4.2.3 Tri thức mâu thuẫn 42 4.3 Các vấn đề với khai phá tri thức từ sở liệu quan hệ 43 4.3.1 Khai phá tri thức sai từ sở liệu quan hệ 43 4.3.2 Khai phá tri thức không đầy đủ từ sở liệu quan hệ 46 4.4 Xác minh tri thức khai phá 47 4.4.1 Cách tiếp cận để xác minh sở tri thức hệ chuyên gia 48 4.4.2 Cách tiếp cận để xác minh khai phá sở tri thức từ sở liệu 50 4.4.3 Xác minh khả chấp nhận luật sai dựa liệu tổng hợp .52 4.4.4 Xác minh luật mâu thuẫn dựa liệu lịch sử 55 4.4.5 Xác minh tri thức khai phá dựa tri thức lĩnh vực 58 4.4.6 Cơ chế xác minh 63 Chương 5: Kết hợp luật khai phá với luật tồn 68 Chương 6: Những mối quan tâm vấn đề thu thập tri thức tự động 71 6.1 Kích cỡ sở liệu 71 6.2 Cơ sở liệu động 71 6.3 Siêu liệu - metadata 72 6.4 Khó khăn cách tiếp cận thương mại với khai phá sở tri thức 73 Kết luận 76 Tài liệu tham khảo 79 Lời mở đầu Khai phá tri thức sở liệu (Knowledge Discovery in Databases) xu hướng quan trọng Công nghệ thơng tin giới Nó có khả ứng dụng vào nhiều lớp toán thực tế khác Feigenbaum nhận xét "Trong tri thức có quyền lực" ơng tiến hành xây dựng hệ thống cơng nghệ tri thức Từ khái niệm hệ thống dựa tri thức hay hệ chuyên gia bắt đầu đời Cho đến nay, đứng trước phát triển công nghệ thông tin phát triển công nghệ tri thức hệ chuyên gia, phủ nhận quyền lực tri thức xã hội loài người Trong thời đại ngày nay, sống giới ngập tràn tri thức Hầu hết tổ chức lớn sử dụng đến ứng dụng sở liệu để lưu trữ thông tin Nhiều ngành vần có máy móc trợ giúp cơng việc ngày máy móc khẳng định vị trí vai trị việc tăng xuất lao động Những điều khẳng định lịch sử phát triển loài người Khi người có trí tuệ địi hỏi thiết bị phải tự động thông minh Do máy móc phải có khả xử lý tình thu thập tri thức tự động giống người Vì cơng cụ cơng nghệ thu thập tri thức tự động quan tâm xây dựng phát triển Các công cụ công nghệ xây dựng phát triển nhằm mục đích hỗ trợ cho hệ chuyên gia thu thập tri thức để giúp cho trình tạo định tổ chức tri thức cho hệ chuyên gia Tuy có nhiều quan điểm khác vai trị người máy móc khơng thể phủ nhận vai trị máy móc sống người đại hôm nay, đặc biệt máy thông minh hay hệ chuyên gia Vì theo thời gian nhu cầu người hệ thống ngày cấp thiết Do đó, cơng cụ cơng nghệ thu thập tri thức cho hệ chuyên gia hoạt động tạo định vấn đề then chốt để xây dựng hệ chuyên gia hoàn chỉnh hoạt động chuyên gia Chương 1: Giới thiệu chung Các hệ chuyên gia dạng chấp nhận trí tuệ nhân tạo Các thành phần định hệ chuyên gia sở tri thức, chứa kiện cách giải vấn đề kinh nghiệm người chuyên gia lĩnh vực Các cấu trúc biểu diễn tri thức hệ chuyên gia thay đổi lớn bao gồm khung mạng ngữ nghĩa, hệ thống dựa luật chung nhiều hệ chuyên gia Các hệ thống bao gồm luật đặc biệt "Nếu điểm trung bình lớn học sinh giỏi" Các công nghệ thu thập tri thức bao gồm: - Sự theo dõi phía - Thảo luận phân tích toàn vấn đề - Miêu tả vấn đề, định rõ giao thức loại - Phân tích giao thức - Nguyên mẫu hệ thống lọc - Xem xét bên ngồi - Sự phân tích mục đích - Câu hỏi mở - Câu hỏi đóng - Phỏng vấn có cấu trúc - Phỏng vấn khơng có cấu trúc - Phỏng vấn trực tiếp - Chuyên gia hướng dẫn đưa thuyết trình - Bảng báo cáo - Nhận dạng phát sinh ví dụ - Thu tri thức theo sách Đây vấn đề quan trọng với công nghệ Các kỹ thuật sử dụng khơng bảo đảm tính tồn vẹn tính chắn sở tri thức Bởi cần sử dụng kết hợp nhiều kỹ thuật nhiều nhân công Các vấn đề khác bao gồm: đưa trọng số cho kiện gần lớn kiện khứ, lỗi để nhớ tới trường hợp luật, bảo thủ chuyên gia, sai số không bảo đảm, khơng có khả chun gia để giải thích luật giúp định, tổng hợp từ số lượng mẫu nhỏ Cơ sở liệu hợp Công cụ tách dị thường Công cụ mơ hình hố liệu logic Cơng cụ truy vấn ngôn ngữ Các công cụ cải tiến chất lượng liệu CSDL làm Các công cụ quy nạp Các công cụ khai phá tri thức Các luật phát sinh Các luật phát sinh Quá trình thẩm định tri thức Tri thức lĩnh vực Cơ sở tri thức dựa luật (Tri thức khai phá) Hình 1: Một khung làm việc sinh luật tự động Bởi kỹ thuật nhiều vấn đề khác có liên quan tới kỹ thuật vấn lời nói, kỹ sư tri thức tìm kiếm nghĩa khác để mở rộng tập hợp luật kiểm tra lại luật sẵn có sở tri thức Họ xem lại tài liệu chuẩn, xử lý dấu hiệu độc lập, vấn nhiều người khác, kiểm tra tri thức chung, tất phương pháp giai đoạn quan trọng chi phí cao Do đó, cố gắng để phát triển công nghệ thu thập tri thức tự động ý Các sở liệu liên kết chứa hàng chục gigabytes liệu cho vài hệ chuyên gia, thực bổ xung vào công nghệ thu thập tri thức truyền thống Thông qua sử dụng công cụ chiến lược thích hợp, tri thức cung cấp sở liệu chuyển đổi hiệu vào định dạng hệ thống dựa luật Dù nhiều cơng cụ khai phá có sẵn, sở liệu giới thực đưa khó khăn tính tự nhiên nội dung chúng hướng tới động, không đầy đủ, dư thừa, nhiễu, lớn Những vấn đề phải giải trước công cụ khai phá ứng dụng vào sở liệu liên kết việc tìm kiếm luật có ý nghĩa Trong chương này, miêu tả khung làm việc có sẵn công nghệ công cụ sở liệu ứng dụng cho sở liệu giới thực để tạo sở tri thức dựa luật để phát triển hệ chuyên gia Khung làm việc minh hoạ hình bao gồm thành phần sau: Các cơng cụ cải tiến chất lượng liệu: Chất lượng liệu phải cải tiến trước trình thu thập tri thức tự động để có kết dự kiến Các công cụ phát dị thường, công cụ thiết kế sở liệu logic Ngôn ngữ truy vấn quan hệ SQL sử dụng để phát mâu thuẫn mà tồn sở liệu Các công cụ phát luật:  Các công cụ qui nạp LogicGem First Class dùng để biến đổi liệu thành tập hợp luật  Các công cụ khai phá tri thức IDIS Knowledge Seeker thao tác liệu để phát quan hệ ẩn mà tồn thuộc tính trình bày thuộc tính định dạng luật Mặc dù, cơng cụ phân tích liệu để tách liệu dị thường (các thuộc tính mà có giá trị khơng bình thường) Quá trình thẩm định tri thức: thẩm định tri thức khai phá cần thống nhất, xác, đầy đủ, thích hợp Tri thức khai phá phải kết hợp cách đắn với tri thức tồn để sở tri thức thống đáng tin cậy thiết lập cho hệ chuyên gia theo lý thuyết Đối với sở liệu lớn, kết hợp cơng cụ cơng nghệ cung cấp môi trường tốt cho thu thập tri thức tự động Để phát tri thức có ích từ sở liệu, cần cung cấp liệu cho trình khai phá Phần lớn sở liệu có liệu dư thừa mâu thuẫn nhau, trường giá trị liệu, trường liệu mà khơng có quan hệ logic chứa quan hệ liệu giống Các công cụ công nghệ cải tiến chất lượng liệu xố bỏ phần lớn vấn đề này, chúng tăng thêm hội tạo luật phù hợp, xác, có ý nghĩa công cụ khai phá qui nạp Các công cụ khai phá quy nạp sử dụng độc lập để sinh luật Các công cụ quy nạp có hiệu với liệu nhỏ với vài thuộc tính, thuộc tính độc lập lẫn tất thuộc tính đưa q trình tạo định Mặt khác, công cụ khai phá tri thức có ích với số lượng lớn liệu với nhiều thuộc tính có quan hệ với Thêm vào đó, cơng cụ khai phá tri thức cho phép người dùng hướng dẫn trình khai phá cách tập trung vào thuộc tính chọn để xác nhận phần tri thức thu thập thông qua cơng nghệ thu thập tri thức truyền thống Nói chung, cơng cụ khai phá quy nạp bổ sung lẫn Chúng sử dụng thuật toán khác để xác định quan hệ thuộc tính ẩn sở liệu để sinh luật Sau đó, ứng dụng hai công cụ này, thích hợp thực được, giảm bớt lỗi luật tạo định từ sở liệu Tập hợp luật khai phá phải xác minh độ xác (những luật miêu tả sinh động sở liệu), mâu thuẫn (những luật không dư thừa hay mâu thuẫn), có ích (những luật đưa q trình tạo định) cho sở tri thức phát triển Hiện tại, khơng có cơng cụ có sẵn để hồn thành điều Q trình xác minh tri thức sử dụng phản hồi từ chuyên gia lĩnh vực miền tri thức sẵn có đặc biệt với ứng dụng xem xét cho phát triển hệ chuyên gia Tri thức lĩnh vực định nghĩa thông tin mà khơng trình bày rõ ràng sở liệu Trong sở liệu y học, chẳng hạn, tri thức "bệnh nhân nam mang thai" xem xét tri thức lĩnh vực Trong mục sau đây, mô tả tiện ích, khả năng, hạn chế cơng cụ, kỹ thuật, q trình xác định khung làm việc để thu thập tri thức tự động Những công cụ kỹ thuật minh hoạ cách người quản lý sở liệu cộng tác để phát triển vài hệ chuyên gia Khơng phải liệu có sở liệu có ích phát triển tất hệ chuyên gia không lợi từ thông tin lưu sở liệu Điều với kỹ thuật thu thập tri thức Kỹ thuật mô tả phần bổ sung tới công cụ truyền thống dùng để bắt đầu tìm kiếm cho kỹ thuật khác liên quan đến sử dụng sở liệu Chương 2: Cải tiến chất lượng liệu Mỗi sở liệu có đặc điểm tương ứng với kiểu liệu mà lưu trữ Bước để hiểu sở liệu phải hiểu bảng trường kiểu liệu mà chúng chứa Trong sở liệu lớn, cách biểu thị trường, kiểu phạm vi giá trị kiểu thường khó hiểu Cho trường hợp, sở liệu có trường "tuổi", đưa dự đoán dựa miền giá trị mà chứa Tuy nhiên, cho trường "chứng bệnh", khơng biết số chứng bệnh, chứng bệnh hay gặp, Trong khai phá tri thức, có phụ thuộc quan trọng vào cách sở liệu đặc trưng hoá cách tri thức thu thập cách tri thức tồn suy Cơ sở liệu giới thực đưa khó khăn nội dung tự nhiên chúng có xu hướng động, không đầy đủ, rườm rà, rộng Dữ liệu khơng đầy đủ thiếu giá trị trường ghi đặc biệt hoàn toàn thiếu trường liệu cần thiết để khai phá xác Trong sở liệu quan hệ, vấn đề xuất thường xun mơ hình quan hệ tất ghi quan hệ phải có trường giống nhau, chí giá trị hầu hết ghi khơng tồn Ví dụ, sở liệu bệnh viện với trường có phạm vi rộng kiểm tra phịng thí nghiệm thủ tục Nói chung, vài trường làm đầy bệnh nhân cho Các trường không đầy đủ mát quan hệ dẫn đến khai phá khơng có ý nghĩa Thêm vào đó, liệu thường xuất liên tiếp nhiều nơi khác sở liệu Một dạng phổ biến dư thừa phụ thuộc hàm trường định nghĩa hàm trường khác Cho ví dụ, Lợi_nhuận = Thu_nhập – Chi_phí Vấn đề thơng tin dư thừa bị khai phá cách sai lầm tri thức, chí thường sử dụng khơng thích hợp kỹ sư tri thức Chất lượng khai phá giải thích thơng tin phụ thuộc vào chất lượng liệu Chất lượng tính chất rộng lớn liệu sở liệu giới thực đưa vấn đề trọng tâm để khai phá tri thức Để vượt qua vấn đề chất lượng liệu cần sử dụng công cụ phân tích dị thường, làm hơn, lọc thiết kế sở liệu logic cần thiết 2.1 Các vấn đề chất lượng liệu Dữ liệu phạm vi đặc biệt thu dạng thuộc tính ký hiệu số Các nguồn liệu biến đổi từ người tới cảm biến với độ khác biệt phức tạp đáng tin cậy Phân tích liệu cho hiểu rõ lĩnh vực Trong phát triển hệ thống dựa tri thức, phân tích liệu thực để phát sinh tri thức để xây dựng sở tri thức toàn diện đáng tin cậy Sự tin cậy sở tri thức mà sinh công nghệ phân tích liệu phương pháp quy nạp, phụ thuộc vào liệu Vì vậy, chất lượng liệu trở thành vấn đề định sơ đồ thu thập tri thức tự động Giới hạn "Chất lượng liệu" định nghĩa "phù hợp để sử dụng" bao hàm khái niệm chất lượng liệu tương đối Tính tốn chất lượng liệu để phù hợp cho mục đích sử dụng khơng đủ chất lượng cho mục đích khác Thêm vào đó, thích hợp để sử dụng biểu thị cần tìm kiếm giới hạn quan tâm thường xuyên với độ xác liệu Dữ liệu tìm dựa hệ thống điều trị bệnh nhân xác khơng thích hợp để sử dụng chúng không xảy lúc Hơn nữa, sở liệu khác hoàn cảnh xác định phần khác tổ chức khơng thích hợp để sử dụng hợp chúng chúng có định dạng khơng thích hợp Một vấn đề liên quan tới liệu ngữ nghĩa liệu hiểu hồn tồn người thu thập chúng, tất người dùng khác Như vậy, giá trị đúng, dễ dàng bị hiểu sai 10 IF "0"

Ngày đăng: 03/08/2016, 15:58

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan