Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu

46 338 0
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu LỜI CẢM ƠN MỤC LỤC Tôi xin bày tỏ lòng kính trọng biết ơn sâu sắc tới PGS.TS Đặng Văn Đức, LỜI NÓI ĐẦU người trực tiếp hướng dẫn, giúp đỡ, động viên suốt thời gian thực luận văn Con cảm ơn Cha, Mẹ gia đình, người dạy dỗ, khuyến khích, động viên lúc khó khăn, tạo điều kiện cho nghiên cứu học tập Tôi xin chân thành cảm ơn thầy cô Viện Công nghệ Thông tin, thầy cô khoa Công Nghệ Thông Tin bạn bè, đồng nghiệp CHƯƠNG 1: TỔNG QUAN 1.1 ĐẶT VẤN ĐỀ 1.2 HỆ THỐNG THÔNG TIN ĐA PHƯƠNG TIỆN: 1.2.1 Khái niệm đa phương tiện 1.2.2 Media .9 1.2.3 Multimedia 10 1.2.4 CSDL Hệ quản trị CSDL 10 1.2.5 Truy tìm thông tin tài liệu văn 10 trường Dự bị Đại Học Dân tộc Trung Ương giúp đỡ nhiều trình 1.2.6 Chỉ mục truy tìm đa phương tiện 11 1.2.7 Trích chọn đặc trưng, Biểu diễn nội dung Xây dựng mục 11 học tập, sưu tầm, tìm tòi tài liệu công tác để hoàn thành luận 1.3 SỰ CẦN THIẾT PHẢI CÓ MIRS 11 1.3.1 Mô tả sơ lược liệu MM tính chất chúng 12 văn Dù cố gắng với tận tâm thầy giáo hướng dẫn song trình độ hạn chế nên khó tránh khỏi thiếu sót Rất mong nhận thông cảm góp ý thầy cô bạn 1.3.2 Hệ thống IR vai trò chúng truy tìm đa phương tiện 13 1.3.3 Tích hợp truy tìm số hóa thông tin đa phương tiện 13 1.4 KHÁI QUÁT VỀ MIRS 14 1.5 KHẢ NĂNG MONG ĐỢI VÀ CÁC ỨNG DỤNG CỦA MIRS 15 CHƯƠNG 2: HỆ TÌM KIẾM THÔNG TIN 18 2.1 KHÁI QUÁT CHUNG VỀ TÌM KIẾM THÔNG TIN 18 2.1.1 Hệ thống truy tìm thông tin – IR 20 2.1.2 Các thành phần hệ tìm kiếm thông tin 24 2.1.3 So sánh hệ thống IR với hệ thống thông tin khác 25 Thái Nguyên, tháng 11 năm 2008 Học viên Lưu Thị Hải Yến 2.1.4 Các hệ tìm kiếm văn đánh giá cao 27 2.2 HỆ TÌM KIẾM THÔNG TIN 28 2.2.1 Kiến trúc hệ tìm kiếm thông tin 28 2.2.2 Một số mô hình để xây dựng hệ tìm kiếm thông tin 30 2.2.3 Các bước để xây dựng hệ thống truy tìm thông tin – IR 38 2.3 LẬP CHỈ MỤC TÀI LIỆU 39 2.3.1 Khái quát hệ thống lập mục 40 2.3.2 Cấu trúc tệp mục lục 41 2.3.3 Phương pháp lập mục 45 Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu 2.3.4 Lập mục tự động cho tài liệu tiếng Anh 47 2.3.5 Lập mục cho tài liệu tiếng Việt 48 2.4 THƯỚC ĐO HIỆU NĂNG 51 CHƯƠNG 3: KỸ THUẬT PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG 53 3.1 KHÁI QUÁT VỀ PHÂN CỤM DỮ LIỆU 53 3.1.1 Khái niệm: 53 3.1.2 Mục tiêu phân cụm liệu tìm kiếm thông tin 54 3.1.3 Các yêu cầu phân cụm 56 3.2 CÁC KIỂU DỮ LIỆU TRONG PHÂN CỤM 58 3.2.1 Phân loại kiểu liệu dựa kích thước miền 59 3.2.2 Phân loại kiểu liệu dựa hệ đo 59 3.3 CÁC PHÉP ĐO ĐỘ TƯƠNG TỰ VÀ KHOẢNG CÁCH ĐỐI VỚI CÁC KIỂU DỮ LIỆU 60 3.3.1 Khái niệm tương tự phi tương tự 60 3.3.2 Thuộc tính khoảng 61 3.3.3 Thuộc tính nhị phân 65 3.3.4 Thuộc tính định danh 66 3.3.5 Thuộc tính có thứ tự 67 3.3.6 Thuộc tính tỉ lệ 67 3.4 MỘT VÀI KỸ THUẬT TIẾP CẬN TRONG PHÂN CỤM DỮ LIỆU 68 3.4.1 Phương pháp phân cụm phân hoạch 68 3.4.2 Phương pháp phân cụm phân cấp 74 3.4.3 Ứng dụng tìm kiếm văn đa phương tiện 78 CHƯƠNG 4: CHƯƠNG TRÌNH DEMO 81 4.1 MỤC TIÊU CỦA HỆ THỐNG TÌM KIẾM VĂN BẢN: 81 4.2 CHỨC NĂNG CỦA HỆ THỐNG 81 MỤC LỤC CÁC HÌNH VẼ 15 Hình 2.1: Mô hình tìm kiếm thông tin tổng quát 21 Hình 2.2: Tiến trình truy vấn tài liệu sở 23 Hình 2.3: Môi trường hệ tìm kiếm thông tin 24 Hình 2.4: Tổng quan chức hệ tìm kiếm thông tin 25 Bảng 2.1: So sánh IRS với hệ thống thông tin khác 27 Hình 2.5: Kiến trúc hệ tìm kiếm thông tin 29 Hình 2.6 Hệ tìm kiếm thông tin tiêu biểu 29 Bảng 2.2: Cách tập tin nghịch đảo lưu trữ 42 Bảng 2.3: Cách tập tin trực tiếp lưu trữ 42 Bảng 2.4: Thêm tài liệu vào tập tin nghịch đảo 43 Hình 2.7: Các từ theo thứ tự 46 Hình 2.8 Mô hình xử lý cho hệ thống lập mục 48 Hình 3.1: Phân cụm véctơ truy vấn 55 Hình 3.2: Hình thành cụm cha 56 Hình 3.3: Các tỉ lệ khác dẫn tới cụm khác 62 Hình 3.4: Khoảng cách Euclidean 64 Bảng 3.1: Bảng tham số 65 Hình 3.5: Các thiết lập để xác định ranh giới cụm ban đầu 70 Hình 3.6: Tính toán trọng tâm cụm 70 Hình 3.7: Ví dụ số hình dạng cụm liệu khám phá k-means 73 Hình 3.8: Các chiến lược phân cụm phân cấp 75 Hình 3.9: Cây CF sử dụng thuật toán BIRCH 76 Hình 4.1: Giao diện hình lập mục 85 Hình 4.2: Giao diện hình cập nhập mục 86 Hình 4.2: Giao diện hình tìm kiếm 87 4.3 CÀI ĐẶT CHƯƠNG TRÌNH 82 4.3.1 Lập mục 82 4.3.2 Tìm kiếm tài liệu 87 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 88 TÀI LIỆU THAM KHẢO 90 Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu DANH MỤC CÁC TỪ TIẾNG ANH VÀ VIẾT TẮT Từ gốc LỜI NÓI ĐẦU Nghĩa IR (Information Retrieval) MIRS (MultiMedia Information Retrieval System) nghiệp phần cứng làm cho khả thu thập lưu trữ thông tin hệ Hệ truy tìm thông tin đa phương tiện thống thông tin tăng nhanh cách chóng mặt Bên cạnh việc tin học hoá MM (MultiMedia) Truyền thông da phương tiện Exact match Đối sánh xác Cluster-based Cơ sở cụm DBMS (DatabaseManagementSystem) Trong năm gần đây, phát triển mạnh mẽ CNTT ngành công Truy tìm thông tin cách ạt nhanh chóng hoạt động sản xuất, kinh doanh nhiều lĩnh vực hoạt động khác tạo cho lượng liệu lưu trữ khổng lồ Với lượng thông tin vấn đề đặt phải sử dụng chúng vào mục đích hiệu vấn đề đặt Mặt khác, môi trường cạnh tranh , người ta ngày cần có nhiều thông tin với tốc độ Hệ quản trị sở liệu nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất Term Từ định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Với Doc Tài liệu lý vậy, cần phải có công cụ hỗ trợ để giúp cho việc tìm kiếm Docs Nhiều tài liệu thông tin nhanh hiệu Vì mục tiêu luận văn nhằm tìm hiểu Query Truy vấn xây dựng hệ thống tìm kiếm thông tin cụ thể tìm kiếm tài liệu văn DSS (DecisionSupportSystems) Hệ hỗ trợ định sở phân cụm liệu Nhằm đáp ứng nhu cầu cấp thiết thời đại IMS (InfomationManagementSystem) Hệ quản lý thông tin Bố cục luận văn gồm phần sau: QAS (QuestionAnserSystem) Hệ trả lời câu hỏi Text-partern Mẫu văn Ranking Xếp loại SC (Similarity Coeficient) Độ tương quan kiếm thông tin (IR), khác hệ thống tìm kiếm thông tin hệ thống Index Chỉ mục thông tin khác, mô hình th ường gặp hệ thống tìm kiếm thông tin Precision Độ xác Recall Khả tìm thấy + CHƯƠNG - TỔNG QUAN: Giới thiệu chung hệ thống thông tin đa phương tiện + CHƯƠNG - HỆ TÌM KIẾM THÔNG TIN: Giới thiệu hệ thống tìm + CHƯƠNG - KỸ THUẬT PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG : Khái quát chung phân cụm, kiểu liệu phân cụm ứng dụng kỹ thuật phân cụm liệu tìm kiếm thông tin + CHƯƠNG - CHƯƠNG TRÌNH DEMO: Cài đặt chương trình tìm kiếm thông tin sở lý thuyết trình bày + KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN: Trình bày kết đạt Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu nêu phương hướng phát triển đề án tương lai tự tập liệu vào cụm cho đối tượng thuộc lớp + TÀI LIỆU THAM KHẢO tương đồng đối tượng thuộc cụm khác không tương đồng CHƯƠNG 1: TỔNG QUAN 1.2 HỆ THỐNG THÔNG TIN ĐA PHƯƠNG TIỆN: Đa phương tiện gì? Đa phương tiện tích hợp văn bản, âm thanh, hình 1.1 ĐẶT VẤN ĐỀ Vài năm trước đây, nghiên cứu phát triển thuộc lĩnh vực đa phương tiện (MultiMedia) tập trung vào vấn đề như: truyền thông, authoring trình ảnh tất loại phần mềm có điều khiển môi trường thông tin số Dữ liệu đa phương tiện gồm liệu : diễn đa phương tiện  Văn bản; Trải qua nhiều năm có khối lượng lớn liệu Multimedia (ảnh, video, âm  Hình ảnh; thanh) thu thập lưu trữ dạng số, thí dụ:  Âm thanh; • Ảnh X quang,  Hình động • Các băng hình dạy học… 1.2.1 Khái niệm đa phương tiện • Điều tra cảnh sát giọng nói điện thoại… Con người có nhu cầu diễn tả trạng thái mình; họ có nhiều loại hình thể Con người có nhu cầu truyền thông, cách thể đường • Tài liệu văn bản, … Nghiên cứu năm gần tập trung chủ yếu vào: lưu trữ tìm kiếm hiệu liệu đa phương tiện Tình hình tương tự 30 năm trước nhiều liệu text lưu trữ khuôn dạng máy tính đọc Từ dẫn tới việc phát triển hệ thống quản trị sở liệu (DatabaseManagmentSystem) mà ngày đư ợc sử dụng hầu hết truyền quan trọng Trên Internet thông dụng với người, đẹp trang Web phải thể nội dung hình thức Đa phương tiện có nhiều loại, phương tiện công cộng đa phương tiện: Radio, vô tuyến, quảng cáo, phim, ảnh Nhu cầu tương tác người - máy đặt hệ thống thông tin Vấn quan, tổ chức Tuy nhiên hệ quản trị sở liệu quản lý liệu đa đề tương tác người - máy không quan hệ người với máy tính phương tiện cách hiệu tính chất liệu văn liệu đa mà người với người Con người có vai trò quan trọng hệ thống phương tiện khác Do vậy, dẫn tới việc nghiên cứu phát triển kỹ thuật thông tin truy tìm mục hệ thống quản trị sơ liệu việc phát triển hệ thống truy tìm tài liệu văn – phần liệu đa phương tiện không nằm xu Môi trường Thông tin Xử lý thông tin Luận văn tập trung nghiên cứu cách tìm kiếm văn sở phân cụm liệu Mục tiêu phương pháp phân cụm liệu nhóm đối tượng tương Phản hồi Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu tục Hay gọi chúng media đẳng thời (isochronous media) quan hệ đơn vị media thời gian cố định Hình 1.1: Hệ thống thông tin Định nghĩa Định nghĩa đa phương tiện (theo nghĩa rộng) bao gồm phương tiện: văn bản, hình vẽ tĩnh (vẽ, chụp), hoạt hình (hình ảnh động), âm 1.2.3 Multimedia Khái niệm multimedia (tiếng Latin: multus- tiếng Anh: numerous) đề cập đến Hay định nghĩa đa phương tiện; đa phương tiện kỹ thuật mô sử dụng đồng thời nhiều dạng phương tiện chuyển hoá thông tin tác phẩm từ kỹ thuật tập hợp kiểu media sử dụng chung, nh ất có kiểu media văn (nói cách khác có media ảnh, audio hay video) Khái niệm multimedia hiểu theo nghĩa tính từ: thông tin đa phương tiện, liệu đa phương tiện, hệ thống đa phương tiện, truyền thông đa phương tiện, ứng 1.2.2 Media dụng đa phương tiện Khái niệm liệu đa phương tiện đề cập đến biểu diễn Media (tiếng Latin: medius, tiếng Anh: means, intermediary) đề cập đến các kiểu media khác mà máy tính đọc Thông tin đa phương tiện loại thông tin hay loại trình diễn thông tin liệu văn bản, ảnh, âm đề cập đến thông tin truyền đạt kiểu media Đôi khái niệm liệu video đa phương tiện thông tin đa phương tiện sử dụng thay cho Phân loại media: Có nhiều cách phân loại, cách chung phân loại sở khuôn mẫu (format) vật lý hay quan hệ media với thời gian Qui định dẫn tới hai lớp media: tĩnh (static) động (dynamic) 1.2.4 CSDL Hệ quản trị CSDL Trong nhiều tài liệu hai khái niệm CSDL hệ quản trị CSDL hay sử dụng thay cho Ở ta sử dụng hai thuật ngữ sau: • Static media: Không có chiều thời gian, nôi dung ý nghĩa chúng không phụ thuộc vào thời gian trình diễn Media tĩnh bao gồm liệu văn bản, đồ • Cơ sở liệu - Database: Tập hợp ghi data hay mục media • Hệ quản trị sở liệu - DBMS: Toàn hệ thống quản trị Database họa • Dynamic media: Có chiều thời gian, ý nghĩa độ xác chúng 1.2.5 Truy tìm thông tin tài liệu văn phụ thuộc vào tốc độ trình diễn Dynamic media bao gồm annimation, video, audio Các hệ thống tự động truy tìm thông tin (IR - Information Retrieval) Media động phụ thuộc chặt chẽ vào tốc độ trình diễn Thí dụ để cảm nhận chuyển phát triển để quản lý khối lượng lớn tài liệu khoa học từ năm 40 kỷ động trơn tru, video phải trình chiếu với tốc độ 25 frame/sec (hay 30 XX Chức hệ thống IR lưu trữ quản trị khối lượng văn lớn frame/sec phụ thuộc vào loại hệ thống video) Tương tự, ta trình diễn (play) tiếng theo cách cho dễ dàng truy vấn ( query) tài liệu mà người sử dụng quan tâ m nói, âm nhạc, chúng cảm nhận tự nhiên đạt tốc độ định, Chú ý đồng nghĩa với IR text IR ý nghĩa đầy đủ khái niệm IR không chúng làm giảm chất lượng ý nghĩa âm Vì media phải đề cập đến truy tìm loại thông tin trình diễn liên tục tốc độ cố định chúng gọi media liên Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 10 http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu 1.2.6 Chỉ mục truy tìm đa phương tiện phương tiện Các kỹ thuật truy tìm thông tin giúp truy tìm đối tượng đa phương DBMS truy tìm thông tin ơc sở liệu có cấu trúc nhờ đối sánh tiện chúng chưa có khả quản lý hiệu liệu đa phương tiện xác (exact matching) IR gọi truy tìm sở văn Truy tìm theo nội dung: Đề cập đến truy tìm sở đặc trưng media màu, hình dạng thay cho mô tả văn media item Thông thường truy tìm 1.3.1 Mô tả sơ lược liệu MM tính chất chúng Chúng ta đối mặt với bùng nổ thông tin đa phương tiện Thí dụ tồn dựa tính tương tự thay cho đố i sánh xác gi ữa truy vấn tập số lượng lớn ảnh video Internet Rất nhiều tranh vẽ, ảnh chụp items CSDL chuyển sang dạng số để dễ xử lý phân tán hay bảo quản Các ảnh từ tin TV MIRS: Đề cập đến hệ thống sở, cung cấp khả truy tìm thông tin đa báo c ũng chuyển sang dạng số để dễ dàng quản lý Lượng lớn ảnh y phương tiện nhờ tổ hợp kỹ thuật DBMS, IR truy tìm sở nội dung tế, ảnh vệ tinh thu thập hàng ngày Xu thúc đẩy phát triển công Trong MIRS số nhiệm vụ versioning security control không cài nghệ số lưu trữ trình diễn Không thể sử dụng nhanh hiệu thông tin đa đặt đầy đủ phương ti ện chúng không tổ chức tốt để có khả truy tìm nhanh Một hệ thống MIRS đầy đủ gọi Hệ quản trị CSDL đa phương tiện Không khối lượng liệu đa phương tiện lưu trữ tăng nhanh mà kiểu liệu đặc tính chúng khác xa liệu chữ số Sau vài tính (MMDBMS – Multimedia DBMS) chất liệu đa phương tiện: 1.2.7 Trích chọn đặc trưng, Biểu diễn nội dung Xây dựng mục Một nhiệm vụ quan trọng MIRS trích chọn đặc trưng hay biểu diễn nội dung Trích chọn đặc trưng tiến trình tự động hay bán tự động • Khối lượng khổng lồ (đặc biệt với liệu audio video) Thí dụ 10 phút video không nén có dung lượng 1,5 GB Trong số tài liệu gọi tiến trình trích chọn đặc trưng làm mục (chỉ số • Audio video có thêm chiều thời gian hóa) • Dữ liệu ảnh, audio video thể dãy giá trị mẫu, Ta qui định sử dụng thuật ngữ “index” (chỉ mục) danh từ, đề cập đến cấu trúc liệu hay đề cập đến tổ chức đặc trưng trích chọn để tìm kiếm hiệu cấu trúc định để máy tính tự động nhận biết • Rất nhiều ứng dụng đa phương tiện đòi hỏi trình diễn đồng thời loại media khác Thí dụ, phim bao gồm ảnh đồng với âm 1.3 SỰ CẦN THIẾT PHẢI CÓ MIRS • Ý nghĩa liệu đa phương tiện mờ Ngày nhiều liệu đa phương tiện thu thập lưu trữ, đòi hỏi hệ thống truy tìm số hóa đủ tốt để sử dụng liệu hiệu Dữ liệu đa phương tiện có tính chất yêu cầu đặc biệt, khác xa với loại • Dữ liệu đa phương tiện giàu thông tin Đòi hỏi nhiều tham số để biểu diễn nội dung chúng liệu chữ số CSDL truyền thống không phù hợp việc quản lý liệu đa Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 11 http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 12 http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu 1.3.2 Hệ thống IR vai trò chúng truy tìm đa phương tiện liệu đa phương tiện để phát triển MIRS phù hợp hiệu Bổ sung vào DBMS có kiểu hệ thống quản trị thông tin khác mà tập trung vào truy tìm tài ệu li văn Kiểu hệ thống thông tin gọi hệ thống truy tìm thông tin Kỹ thuật IR quan trọng hệ thống quản trị thông tin đa phương tiện hai lý sau Thứ nhất, khối lượng văn lớn có sẵn quan thư viện Văn nguồn thông tin quan trọng tổ chức Để sử dụng hiệu thông tin tài liệu cần có hệ thống IR hiệu Thứ hai, văn sử dụng để mô tả loại media khác audio, ảnh video Các kỹ thuật IR quen thuộc sử dụng để truy tìm thông tin đa phương tiện Tuy nhiên việc sử dụng IR để quản lý liệu đa phương tiện có hạn chế sau: 1.4 KHÁI QUÁT VỀ MIRS Các thao tác MIRS mô tả hình Dữ liệu (các mục thông tin) CSDL tiền xử lý để trích chọn đặc trưng nội dung ngữ nghĩa Sau chúng số hóa sở đặc trưng ngữ nghĩa Trong truy tìm thông tin, câu truy vấn người sử dụng xử lý đặc trưng trích chọn Các đặc trưng sau so sánh với đặc trưng hay mục mục thông tin CSDL Các mục thông tin có đặc trưng gần giống với đặc trưng câu truy vấn tìm trình diễn cho người sử dụng Mẫu truy vấn mô tả sau: • Mô tả thường tiến trình thủ công tốn thời gian Chỉ mục: • Mô tả văn không đầy đủ chủ quan • Kỹ thuật IR không áp dụng cho truy vấn loại liệu khác văn Ảnh (I) > véctơ đặc trưng f(I): (f1, f2, fk) Véctơ truy vấn q: (q1, q2, qk) Truy vấn: • Một vài đặc trưng kết cấu ảnh (image texture) hình dạng ảnh khó mô tả văn Tính tương tự: 1.3.3 Tích hợp truy tìm số hóa thông tin đa phương tiện Đo khoảng cách: DBMS IR đề cập không đáp ứng đầy đủ yêu cầu truy tìm số hóa đa phương tiện, vậy, đòi hỏi kỹ thuật để quản lý tính chất đặc biệt d(f,q) Kết quả: liệu đa phương tiện Tuy nhiên ta nhận DBMS IR đóng vai trò quan trọng MMDBMS Nhiều phần liệu đa phương tiện ngày tạo lập, tác giả, v.v có cấu trúc Chúng quản lý kỹ thuật DBMS Mô tả (annotation) văn phương pháp hiệu để thu thập nội dung liệu đa phương tiện, kỹ thuật IR đóng vai trò quan trọng Tóm lại, cần phải tích hợp DBMS, IR kỹ thuật đặc biệt khác quản lý Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 13 http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 14 http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Ảnh (I) có giá trị d(f(I),q) nhỏ kiểu truy vấn mà chúng hỗ trợ Các loại truy vấn mong đợi MIRS sau: Các khoản mục thông tin Các câu hỏi Truy vấn sở meta-data Tiền xử lý số hoá Xứ lý trích rút đặc trưng Các đặc trưng truy vấn Các mục số thông tin Meta-data thuộc tính hình thức mục CSDL tên tác giả, ngày tạo lập Thí dụ truy vấn ứng dụng VOD (Video on Demand) “Liệt kê phim ông NAME đạo diễn vào năm 2004” Khả DBMS đáp ứng loại truy vấn Truy vấn sở mô tả Tính tương đồng Mô tả (annotation) đề cập đến miêu tả (description) văn nội dung mục CSDL Các câu truy vấn theo từ khóa hay free-text form, việc truy tìm thực sở tương tự câu truy vấn mô tả Thí dụ truy vấn “Chỉ Truy suất khoản mục tương tự đoạn video ACTOR xe đạp” Với loại truy vấn này, ta giả sử mục mô tả đầy đủ quản lý kỹ thuật IR Mô hình hình 1.2 cho thấy nhiều nhiệm vụ phải thực hiện, thí dụ: Truy vấn sở mẫu (pattern) hay đặc trưng • Các mục thông tin tổ hợp loại media Mẫu liệu thông tin tĩnh liệu đa phương tiện phân bổ màu, • Trích chọn đặc trưng từ mục media nào? cường độ âm thanh, mô tả kết cấu bề mặt Thí dụ loại truy vấn • Các đặc trưng lưu trữ cấu trúc để truy tìm hiệu quả? “Chỉ khung (frame) video với phân bổ màu THIS” Để trả lời loại truy vấn này, thông tin thống kê mục CSDL phải chuẩn bị lưu trữ trước • Đo tính “tương tự” hai mục media nào? • Thiết kế giao diện để chấp nhận câu truy vấn Truy vấn theo thí dụ (by example) Truy vấn đối tượng đa phương tiện ảnh, vẽ đoạn âm phức tạp, mờ mềm dẻo? Thí dụ truy vấn “Hãy phim có đoạn tương tự • So sánh hiệu hệ thống MIRS cách nào? THIS PICTURE” Loại truy vấn phức tạp bổ sung yếu tố quan • Làm để đáp ứng yêu cầu thời gian truyền tải hay trình diễn liệu MM? hệ thời gian không gian đối tượng Truy vấn ứng dụng cụ thể 1.5 KHẢ NĂNG MONG ĐỢI VÀ CÁC ỨNG DỤNG CỦA MIRS Rất nhiều loại truy vấn cụ thể theo ứng dụng Thí dụ, truy vấn sở MIRS cần phải mạnh mềm dẻo Khả chúng miêu tả Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 15 http://www.lrc-tnu.edu.vn thông tin chi tiết, cụ thể kích thước đối tượng hay tuổi cá nhân Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 16 http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Vì MIRS có khả hỗ trợ nhiều loại truy vấn có ứng dụng rộng rãi, bao gồm ứng dụng lĩnh vực sau đây: • Y tế : Bác sỹ có ảnh siêu âm mới, ông ta muốn tìm ảnh to tâm thất trái tương tự CSDL ảnh siêu âm • An ninh: Cảnh sát đưa vào hệ thống ảnh mặt người muốn tìm ảnh khác hồ sơ liên quan đến người tương tự với ảnh CSDL thông tin an ninh • Giáo dục: Sinh viên quét ảnh động vật muốn tìm tính chất (bao gồm âm thanh, ảnh mô tả văn loại động vật từ CSDL giáo dục Thí dụ khác, sinh viên mô âm muốn tìm ảnh thông tin mô tả loại động vật • Báo chí: Phóng viên viết báo nhân vật ông ta muốn tìm ảnh nhân vật với thông tin liên quan mà xuất mặt báo TV khoảng 20 năm trước • Giải trí: Người xem muốn tìm video clíp tương tự với họ xem từ CSDL video lớn CHƯƠNG 2: HỆ TÌM KIẾM THÔNG TIN 2.1 KHÁI QUÁT CHUNG VỀ TÌM KIẾM THÔNG TIN • Đăng ký tên thương mại : Một nhân viên xử lý trường hợp đăng ký tên thương mại, muốn xác định tên thương mại tương tự đăng ký trước không Tìm kiếm thông tin tìm kiếm tập tài liệu để lấy thông tin mà người tìm kiếm quan tâm Kỹ thuật truy vấn tài liệu văn gọi chung kỹ thuật truy tìm thông Cuối cùng, MIRS tập trung vào thông tin thay cho tập trung vào loại media trình diễn thông tin ánh xạ hay chuyển đổi từ loại media sang loại media khác Có nghĩa rằng, thí dụ, truy tìm tài liệu video video, text, nhạc, tiếng nói hay tương tự Điều phụ thuộc vào môtơ tìm kiếm để đối sánh liệu câu truy vấn với mục CSDL trọng hai lý sau đây:  Đang tồn số lượng lớn tài liệu văn thư viện Văn tài nguyên quan trọng quan tổ chức Cần có IR đủ tốt để sử dụng có hiệu thông tin lưu trữ tài liệu Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên tin (IR – Information Retrieval) Kỹ thuật IR hệ thống đa phương tiện quan 17 http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 18 http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu  Văn sử dụng để mô tả media khác video, audio, ảnh tính, nhiều ý tưởng lớn đưa nhằm cung cấp hệ thống tìm kiếm thông để sử dụng kỹ thuật IR qui ước vào việc truy vấn thông minh xác Tuy nhiên, vấn đề tìm kiếm cho hiệu chưa giải tin đa phương tiện Về nguyên tắc, việc lưu trữ thông tin tìm kiếm thông tin đơn giản Giả Nhiệm vụ thiết kế hệ thống IR để nhằm giải vấn đề là: sử có kho chứa tài liệu người muốn tìm tài liệu liên quan đến  Trình diễn truy vấn tài liệu yêu cầu Người đọc tất tài liệu kho, giữ lại tài  So sánh tính tương đồng tài liệu biểu diễn truy vấn liệu liên quan bỏ tài liệu không liên quan Rõ ràng giải pháp không Các mô hình truy vấn xác định hai kh ía cạnh Có bốn mô hình truy vấn hay sử dụng, là: thực tế tốn nhiều thời gian Với đời máy vi tính tốc độ cao, máy tính “đọc” thay cho  Đối sánh xác (exact match), người để trích tài liệu có liên quan toàn tập liệu Tuy nhiên  Không gian véctơ, vấn đề lúc để xác định tài liệu liên quan đến câu hỏi Mục  Xác suất  Trên sở cụm (cluster-based) đích hệ thống tìm kiếm thông tin tự động truy lục tất tài liệu có liên quan đến yêu cầu Trong kỹ thuật đối sánh xác (hoàn toàn), mô hình Boolean hay sử dụng Mặc dù mô hình truy vấn khác nhau, sử dụng trình diễn mục tài liệu khác nhau, nói chung tiến trình mục sử dụng chúng tương tự Để nâng cao hiệu truy vấn, việc xử lý ngôn ngữ tự nhiên kỹ thuật trí tuệ nhân tạo áp dụng 2.1.1 Hệ thống truy tìm thông tin – IR Các hệ thống tự động truy tìm thông tin (IR - Information Retrieval) phát triển để quản lý khối lượng lớn tài liệu khoa học từ năm 40 kỷ XX Chức hệ thống IR lưu trữ quản trị khối lượng văn lớn theo cách cho dễ dàng truy vấn ( query) tài liệu mà người sử dụng quan tâm Chú ý đồng nghĩa với IR text IR ý nghĩa đầy đủ khái niệm IR đề cập đến truy tìm loại thông tin Vì tính nhập nhằng tồn nhiều biến thể ngôn ngữ tự nhiên, truy vấn tài liệu (items) liên quan hay loại tài liệu Tìm kiếm thông tin lĩnh vực nghiên cứu nhằm tìm giải pháp giúp người sử dụng tìm thấy thông tin cần khối lượng lớn không liên quan Do vậy, thước đo hiệu IR quan trọng liệu Nhiệm vụ hệ thống tìm kiếm thông tin tương tự nhiệm vụ tổ chức Một số vấn đề tìm kiếm thông tin phân loại tài liệu phục vụ việc tra cứu thư viện Một hệ thống tìm kiếm Kể từ năm 40, vấn đề việc lưu trữ thông tin tìm kiếm thông tin có hai chức chính: lập mục (indexing) tra cứu (interrogation) thông tin thu hút ý lớn Với lượng thông tin khổng lồ việc tìm Lập mục giai đoạn phân tích tài liệu (document) để xác định mục kiếm xác nhanh chóng trở nên khó khăn Với đời máy (term / index term) biểu diễn nội dung tài liệu Việc lập mục dựa vào cấu trúc phân lớp có sẵn (control vocabulary) cách làm nhân viên Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 19 http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 20 http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu dist q ( x, y ) = n ∑ (x i =1 i Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu − yi ) ; khoảng cách hai đối tượng trường hợp đặc biệt q =  Khoảng cách Manhattan:  n  dist q ( x, y ) =  ∑ xi − yi  ;  i =1  khoảng cách trung bình hai đối tượng trường hợp đặc biệt q =  Khoảng cách Chebychev: Hình 3.4: Khoảng cách Euclidean dist ∞ ( x, y ) = max in=1 xi − yi ; trường hợp q = ∞, hữu ích để định nghĩa đối tượng phi tương tự tương tự cách thay nhóm cho thuộc tính thứ i đối tượng đo chẳng hạn kho ảng cách Euc1idean, khoảng cách Manhattan, bình phương chúng khác kích thước biến đổi  Bình phương khoảng cách Euclidean n nhóm B có vectơ trung ình b (1) i =1 ] [ ] B = x b1 , x b , , x bn , cáchđo khoảng cách Euclidean hai nhóm định nghĩa là: ( ) 1/ 2  n dist ( A, B) =  ∑ x − x bi   i =1  Tỉ lệ khác Giả sử biến tuyệt đối dist ( x, y ) = (Number (x ≠ y )) / i [ Mahalanobis Ví dụ, giả sử nhóm A có vectơ trung bình A = x a1 , x a , , x an dist q ( x, y ) = ∑ ( xi − yi )  Tuy nhiên nguyên c tổng quát để chọn phép đo áp dụng cho toán Một cách đơn giản để đo độ tương tự nhóm khung (2) Khoảng cách Euclidean sử dụng phổ biến để độ tương tự khoảng cách Minkowski Giả sử có hai trường hợp, C1 C2, có biến liên tục x (3) Cách tiếp cận khác để khoảng cách phần tử gần phần tử xa Cách tiếp sử dụng thuật toán phân cụm phân cấp chẳng hạn liên y, lấy giá trị (x1, yl) (x2, y2) tương ứng, vẽ đồ thị hai trường kết đơn liên kết đầy đủ Vấn đề với hai cách tiếp cận giống không cảm nhận mâu thuẫn định lượng không tính toán cho yếu tố hợp không gian x-y (Hình 3.4): phần tử nhóm Cách tiếp cận khác, trung bình nhóm, sử dụng phép đo tương tự nhóm Cách tiếp cận này, giống nhóm đo cách lấy giá trị trung bình tất phép đo đối tượng cho cặp đối tượng nhóm khác Ví dụ, trung bình phi tương tự nhóm A B định nghĩa là: Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 63 http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 64 http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu a tổng số thuộc tính có giá trị hai đối tượng x, y  nx nb  dist ( A, B) = ∑∑ d ( xi , yi ) / n  i =1 j =1  (4) b tổng số thuộc tính có giá trị x giá trị y đó, n tổng số đối tượng cặp, n = nx × ny, nx ny số đối tượng đối tượng xi yi, d(xi, yi) phi tương tự cặp đối tượng xi yi, xi ∈ A, yi ∈ B Hàm phi tương tự dễ dàng chuyển đổi sang hàm tương tự cách thay đổi cho c tổng số thuộc tính có giá trị x giá trị y d tổng số thuộc tính có giá trị hai đối tượng x, y p tổng tất thuộc tính hai đối tượng x, y Các phép đo độ tương tự trường hợp với liệu thuộc tính nhị phân 3.3.3 Thuộc tính nhị phân thực cách sau: Tất phép đo định nghĩa đa số thích hợp cho biến liên tục Cho biến danh nghĩa, “phép đo khoảng cách” trường hợp có giá trị danh nghĩa, trường hợp có giá trị danh nghĩa khác nhau, với độ đo tương tự (nếu trường hợp có giá trị danh nghĩa)  a+d ; hai đối tượng có vai trò p nhau, nghĩa chúng đối xứng có trọng số  (nếu không giống nhau) Hệ số đối sánh đơn giản: d ( x, y ) = Hệ số Jaccard: d ( x, y ) = a ; tham số bỏ qua số đối sánh a+b+c Do xem xét p biến định danh, đánh giá độ tương tự 0-0 Công thức sử dụng trường hợp mà trọng số thuộc tính có giá trường hợp số biến mà có giá trị giống Nói chung định nghĩa với trị đối tượng liệu cao nhiều so với thuộc tính có giá trị 0, biến nhị phân từ biến danh nghĩa, việc nhóm nhãn danh thuộc tính nhị phân không đối xứng nghĩa thành hai lớp, nhãn 1, nhãn khác Xây dựng xem xét bảng ngẫu nhiên kiện xảy định nghĩa thuộc tính đối tượng x, y biến số nhị phân 1: Bảng 3.1: Bảng tham số y d ( x, y ) = a p d ( x, y ) = a b+c d ( x, y ) = a 2a + b + c Các giá trị định nghĩa khoảng [0, 1] biến đổi sang độ đo 1 a b a+b c d c+d a+c b+d p=a+b+c+d phi tương tự biểu thức: ds(x, y) = 1- d(x, y) x Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 3.3.4 Thuộc tính định danh Độ đo phi tương tự hai đối tượng x y định nghĩa sau: d ( x, y ) = 65 http://www.lrc-tnu.edu.vn p−m p Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 66 http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu đó, m số thuộc tính đối sánh tương ứng trùng nhau, p tổng số thuộc tính d ( x, y ) = n ∑ w (x i =1 3.3.5 Thuộc tính có thứ tự i i − yi ) Có thể chuyển đổi mô hình cho kiểu liệu trên, ví dụ liệu Phép đo độ phi tương tự đối tượng liệu với thuộc tính thứ tự kiểu hạng mục chuyển đổi thành liệu nhị phân ngược lại Thế nhưng, thực sau: Giả sử i thuộc tính thứ tự có Mi giá trị (M i kích thước giải pháp tốn chi phí tính toán, vậy, cần phải cân nhắc áp miền giá trị): dụng cách thức Các trạng thái M i thứ tự nhau: [1 Mi], thay giá trị thuộc tính giá trị loại ri với ri ∈ {1 Mi} Mỗi thuộc tính có thứ tự có miền giá trị khác nhau, phải chuyển đổi chúng miền giá trị [0, 1] cách thực phép biến đổi sau cho thuộc tính: Z i( j ) = ri( f ) − M i −1 xác, đảm bảo khách quan quan trọng, góp phần xây dựng thuật toán PCDL có hiệu cao việc đảm bảo chất lượng chi phí tính toán 3.4 MỘT VÀI KỸ THUẬT TIẾP CẬN TRONG PHÂN CỤM DỮ LIỆU Các kỹ thuật phân cụm có nhiều cách tiếp cận ứng dụng thực Sử dụng công thức tính độ phi tương tự thuộc tính khoảng tế Các kỹ thuật phân cụm hướng tới hai mục tiêu chung: chất lượng cụm khám phá tốc độ thực thuật toán Tuy nhiên phân loại giá trị Z i( j ) , độ phi tương tự thuộc tính có thứ tự thành loại dựa phân loại phương pháp Hiện nay, kỹ thuật 3.3.6 Thuộc tính tỉ lệ phân cụm phân loại theo cách tiếp cận sau: Có nhiều cách khác để tính độ tương tự thuộc tính tỉ lệ Một số sử dụng công thức tính logarit cho thuộc tính xi, ví dụ q i = log(xi), lúc qi đóng vai trò thuộc tính khoảng Phép biến đổi logarit 3.4.1 Phương pháp phân cụm phân hoạch Kỹ thuật phân hoạch tập hợp liệu có n phần tử thành k nhóm xác định số cụm thiết lập Số cụm thiết lập đặc thích hợp trường hợp giá trị thuộc tính số mũ Trong thực tế, tính độ độ tương tự liệu, xem xét phần thuộc tính đặc trưng kiểu liệu đánh trọng số cho tất thuộc tính liệu Trong số trường hợp, loại bỏ đơn vị đo thuộc tính liệu cách chuẩn hóa chúng, gán trọng số cho thuộc tính giá trị trung bình, độ lệch chuẩn Các trọng số sử dụng độ đo khoảng cách trên, ví dụ với thuộc tính liệu gán trọng số tương ứng w i (1 ≤ i ≤ k), độ tương đồng liệu xác định sau: trưng lựa chọn trước Phương pháp tốt cho việc tìm cụm hình cầu không gian Euc1idean Ngoài ra, phương pháp ũng cphụ thuộc vào khoảng cách điểm để lựa chọn điểm liệu có quan hệ gần với điểm khác điểm liệu quan hệ có quan hệ xa so với điểm khác Tuy nhiên, phương pháp xử lí cụm có hình dạng kỳ quặc cụm có mật độ điểm dầy đặc Các thuật toán phân hoạch liệu có độ phức tạp lớn xác định nghiệm tối ưu toàn cục cho vấn đề PCDL, phải tìm kiếm tất cách phân hoạch Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Tóm lại, tùy trường hợp liệu cụ thể mà sử dụng mô hình tính độ tương tự khác Việc xác định độ tương đồng liệu thích hợp, 67 http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 68 http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Chính vậy, thực tế thường tìm giải pháp tối ưu cục cho vấn đề cách sử dụng hàm tiêu chuẩn để đánh giá chất lượng cụm để hướng dẫn cho trình tìm kiếm phân hoạch liệu Với chiến lược này, thông thường bắt đầu khởi tạo phân hoạch ban đầu cho tập liệu theo phép ngẫu nhiên Heuristic, liên tục tinh chỉnh thu phân hoạch mong muốn, thỏa mãn ràng buộc cho trước Các thuật toán phân cụm phân hoạch cố gắng cải tiến tiêu chuẩn phân cụm, cách tính giá trị đo độ tương tự đối tượng liệu xếp giá trị này, sau thuật toán lựa chọn giá trị dãy xếp cho hàm tiêu chuẩn đạt giá trị tối thiểu Như vậy, ý tưởng thuật toán phân cụm phân hoạch tối ưu cục sử dụng chiến lược ăn tham (Greedy) để tìm kiếm nghiệm Hình 3.5: Các thiết lập để xác định ranh giới cụm ban đầu Trong phương pháp k-means, chọn giá trị k sau chọn ngẫu nhiên k trung tâm đối tượng liệu Tính toán khoảng cách đối tượng liệu trung bình cụm để tìm kiếm phần tử tương tự thêm vào cụm Từ khoảng cách tính toán trung bình cụm lặp lại trình đối tượng liệu phận cụm k Mục đích thuật toán k-means sinh k cụm liệu {C1, C2, , Ck} từ tập liệu chứa n đối tượng không gian d chiều Xi = {xi1, xi2, , xid}, i = ÷ n, cho hàm tiêu chuẩn: k E = ∑∑ x∈C D ( x − mi ) đạt giá trị tối thiểu, Thuật toán k-means i =1 K-means thuật toán phân cụm mà định nghĩa cụm trọng tâm c i đó: mi trọng tâm cụm Ci, D khoảng cách hai đối tượng phần tử Phương pháp dựa độ đo khoảng cách đối tượng liệu cụm Trong thực tế, đo khoảng cách tới giá trị trung bình đối tượng liệu cụm Nó xem trung tâm cụm Như vậy, cần khởi tạo tập trung tâm trung tâm cụm ban đầu, thông qua lặp lại bước gồm gán đối tượng tới cụm mà trung tâm gần, tính toán tung tâm cụm sở gán cho đối tượng Quá trình lặp dừng trung tâm hội tụ Hình 3.6: Tính toán trọng tâm cụm Trọng tâm cụm vectơ, giá trị phần tử trung bình cộng thành phần tương ứng đối tượng vectơ liệu cụm xét Tham số đầu vào thuật toán số cụm k, tham số đầu thuật toán trọng tâm cụm liệu Độ đo khoảng cách D đối tượng liệu thường sử dụng khoảng cách Euclidean mô hình Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 69 http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 70 http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu khoảng cách nên dễ lấy đạo hàm xác định cực trị tối thiểu Hàm tiêu chuẩn  Nhập k cụm liệu độ đo khoảng cách xác định cụ thể tùy vào ứng dụng  MSE = +∞ quan điểm người dùng Thuật toán k-means bao gồm bước sau:  For i = to k mi = xi+(i-l)*[n/k]; //khởi tạo k trọng tâm Input: Số cụm k trọng tâm cụm {m j } j =1 k  Do { Output: Các cụm C[i] (1 ≤ i ≤ k) hàm tiêu chuẩn E đạt giá trị tối thiểu  OldMSE = MSE; Begin  MSE' = 0; Bước : Khởi tạo  For j = to k Chọn k trọng tâm {m j }k j =1 ban đầu không gian Rd (d số chiều  {m'[j] = 0; n’[j] = 0} liệu) Việc lựa chọn ngẫu nhiên theo kinh nghiệm  Endfor Bước 2: Tính toán khoảng cách  For i = to n Đối với điểm Xi (1 ≤ i ≤ n), tính toán khoảng cách tới trọng tâm mj (1 ≤ j ≤ k) Sau tìm trọng tâm gần điểm  For j = to k Tính toán khoảng cách Euc1idean bình phương:  Bước 3: Cập nhật lại trọng tâm D2(x[i]; m[j])  Endfor bình cộng vectơ đối tượng liệu  Tìm trọng tâm gần m[h] tới X[i] Điều kiện dừng:  m’[h] = m’[h] + X[i]; n’[h] = n’[h] + l;  MSE' = MSE' + D2(x[i]; m[j]); Đối với ≤ j ≤ k, cập nhật trọng tâm cụm m j cách xác định trung Lặp lại bước trọng tâm cụm không thay đổi End K-means biểu diễn cụm trọng tâm đối tượng cụm Thuật toán k-means chi tiết trình bày sau: BEGIN  Nhập n đối tượng liệu  Endfor  n[j] = max(n'[j], 1); m[j] = m’[j]/n[j];  MSE = MSE'  } While (MSE < OldMSE) END Các khái niệm biến hàm sử dụng thuật toán k-means: Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 71 http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 72 http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu MSE (Mean Squared Error): Được gọi sai số bình phương trung tham số đầu vào như: số cụm k k trọng tâm khởi tạo ban đầu Trong trường hợp bình hay gọi hàm tiêu chuẩn MSE dùng để lưu giá trị hàm tiêu chuẩn trọng tâm khởi tạo ban đầu mà lệch so với trọng tâm cụm tự nhiên cập nhật qua lần lặp Thuật toán dừng giá trị MSE tăng lên so kết phân cụm k-means thấp, nghĩa cụm liệu khám phá với giá trị MSE cũ vòng lặp trước đó; lệch so với cụm thực tế Trên thực tế chưa có giải pháp tối ưu  để chọn tham số đầu vào, giải pháp thường sử dụng thử nghiệm  D (xi, mj): Là khoảng cách Euclide từ đối tượng liệu thứ i tới trọng tâm j;  OldMSE, m'[j], n'[j]: Là biến tạm lưu giá trị cho trạng thái trung gian với giá trị đầu vào k khác sau chọn giải pháp tốt cho biến tương ứng: giá trị hàm tiêu chuẩn, giá trị vectơ tổng đối 3.4.2 Phương pháp phân cụm phân cấp tượng cụm thứ j , số đối tượng cụm thứ j Phương pháp xây dựng phân cấp sở đối tượng liệu Thuật toán k-means chứng minh hội tụ có độ phức tạp tính toán O ((3nkd )τT flop ) Trong đó, n số đối tượng liệu, k số cụm liệu, d số chiều, τ số vòng lặp, T flop thời gian để thực phép tính sở phép tính nhân, chia, Trong thi hành, vấn đề gỡ nút thắt trường hợp mà có nhiều trung tâm với khoảng cách từ đối tượng Trong trường hợp này, gán đối tượng ngẫu nhiên cho cụm thích hợp xáo trộn đối tượng để vị trí không gây nút thắt Như vậy, k -means phân tích phân cụm đơn giản nên áp dụng tập liệu lớn.Tuy nhiên, nhược điểm k-means áp dụng với liệu có thuộc tính số khám phá cụm có dạng hình cầu, k-means nhạy cảm với nhiễu phần tử ngoại lai liệu Hình 3.7 mô xem xét Nghĩa xếp tập liệu cho thành cấu trúc có dạng hình cây, phân cấp xây dựng theo kỹ thuật đệ quy Có hai cách tiếp cận phổ biến kỹ thuật này: hòa nhập nhóm, thường gọi tiếp cận BottomUp, phân chia nhóm, thường gọi tiếp cận Top-Down Kỹ thuật tiếp cận Bottom-Up: Bắt đầu xuất phát với đối tượng liệu khởi tạo tương ứng với cụm riêng biệt sau tiến hành hòa nhập nhóm đối tượng theo độ đo tương tự (như khoảng cách hai trung tâm hai nhóm), trình thực tất nhóm hòa nhập vào nhóm (mức cao phân cấp) diều kiện kết thúc thỏa mãn Cách tiếp cận sử dụng chiến lược ăn tham trình phân cụm Kỹ thuật tiếp cận Top-Down: Bắt đầu với tất đối tượng liệu xếp cụm kỹ thuật tiến hành chia nhỏ cụm số hình dạng cụm liệu khám phá k-means: Bottom-Up Hình 3.7: Ví dụ số hình dạng cụm liệu khám phá k-means Hơn nữa, chất lượng PCDL thuật toán k-means phụ thuộc nhiều vào Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 73 http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 74 http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Hình 3.8: Các chiến lược phân cụm phân cấp Mỗi vòng lặp thành công, cụm tách thành cụm nhỏ theo giá trị phép đo tương tự đối tượng liệu cụm riêng biệt điều kiện dừng thỏa mãn Cách tiếp cận sử dụng chiến lược chia để trị Thực tế áp dụng, có nhiều trường hợp kết hợp hai phương pháp phân cụm phân hoạch phân cụm phân cấp, nghĩa kết thu phương pháp phân cấp cải tiến thông qua bước phân cụm phân hoạch Phân cụm phân hoạch phân cụm phân cấp hai phương pháp PCDL cổ điển, có nhiều thuật toán cải tiến dựa hai phương pháp áp dụng phổ biến Hình 3.9: Cây CF sử dụng thuật toán BIRCH Cây CF chứa nút nút lá, nút nút chứa nút nút Thuật toán BIRCH Thuật toán phân cụm khác cho tập liệu lớn, gọi BIRCH Ý tưởng thuật toán không cần lưu toàn đối tượng liệu cụm nhớ mà lưu đại lượng thống kê Thuật toán đưa hai khái niệm để theo dõi cụm hình thành, phân cụm đặc trưng tóm tắt thông tin cụm Nút lưu trữ tổng đặc trưng cụm (CF) nút co n Một CF đặc trưng hai tham số: Yếu tố nhánh (Branching Factor - B): Nhằm xác định số tối đa nút nút phân cụm đặc trưng (cây CF) cân sử dụng lưu trữ cụm đặc trưng Ngưỡng (Threshold - T): Khoảng cách tối đa cặp đối tượng (được sử dụng để mô tả cụm tóm tắt) Trước tiên gọi cụm đặc trưng, nút cây, khoảng cách gọi đường kính cụm ba (n, LS, SS), n số điểm phân hoạch cụm con, LS tổng lưu nút số giá trị thuộc tính SS tổng bình phương điểm Đặc trưng CF, mà đơn giản cân mà lưu ba Hình 3.9 biểu thị ví dụ CF Có thể thấy rằng, tất nút lưu tổng đặc trưng cụm CF, nút con, nút lưu trữ đặc trưng cụm liệu Hai tham ốs có ảnh hưởng đến kích thước CF Thuật toán BIRCH thực gồm hai giai đoạn sau: Giai đoạn 1: BIRCH quét tất đối tượng CSDL để xây dựng CF khởi tạo, mà lưu trữ nhớ Trong giai đoạn này, đối tượng chèn vào nút gần CF (nút đóng vai trò cụm con), sau chèn xong tất nút CF cập nhật thông tin Nếu đường kính cụm sau chèn lớn ngưỡng T, nút tách Quá trình lặp tất đối tượng chèn vào Ở cho thấy rằng, đối tượng đọc lần, để lưu toàn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 75 http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 76 http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu CF nhớ cầ n phải điều chỉnh kích thước CF thông qua điều áp dụng tập CSDL lớn, BIRCH có hiệu áp dụng với chỉnh ngưỡng T tập liệu tăng trưởng theo thời gian BIRCH thực tính toán tốt, độ phức Giai đoạn 2: BIRCH lựa chọn thuật toán phân cụm (như thuật toán phân cụm phân hoạch chẳng hạn) để thực phân cụm cho nút CF tạp tính toán BIRCH tuyến tính tỉ lệ với số đối tượng, BIRCH duyệt toàn liệu lần với lần quét thêm tùy chọn (thực phân cụm lại nút CF), đo thời gian O(n) với n số đối tượng Thuật toán BIRCH thực qua bước sau: liệu Thuật toán kết hợp cụm gần xây dựng lại CF, nhiên Các đối tượng liệu chèn vào CF, sau chèn hết nút CF lưu trữ số hữu hạn kích thước đối tượng thu CF khởi tạo Một đối tượng chèn vào BIRCH có hạn chế: thuật toán không xử lí tốt cụm nút gần tạo thành cụm Nếu đường kính cụm lớn dạng hình cầu, sử dụng khái niệm bán kính đường kính để T nút tác h Khi đối tượng thích hợp chèn vào nút lá, kiểm soát ranh giới cụm chất lượng cụm khám phá không tất nút trỏ tới gốc cập nhật với thông tin cần thiết tốt Nếu BIRCH sử dụng khoảng cách Euc1ide, thực tốt với liệu   Nếu CF thời đủ nhớ tiến hành xây dựng CF nhỏ hơn: Kích thước CF điều khiển tham số T việc chọn giá trị lớn cho hòa nhập số cụm thành cụm, điều làm cho CF nhỏ Bước không cần yêu cầu đọc liệu lại từ đầu đảm bảo hiệu chỉnh liệu nhỏ số Mặt khác, tham số vào T có ảnh hưởng lớn tới kích thước tính tự nhiên cụm Việc ép đối tượng liệu làm cho đối tượng cụm đối tượng kết thúc cụm khác, đối tượng gần bị hút cụm khác chúng biểu diễn cho thuật toán theo thứ tự khác BIRCH không thích hợp với liệu đa chiều 3.4.3 Ứng dụng tìm kiếm văn đa phương tiện Thực phân cụm: Các nút CF lưu trữ đại lượng thống kê Giả sử ta có tập tài liệu lưu trữ máy tính kí hiệu D1, D2, cụm Trong bước này, BIRCH sử dụng đại lượng thống kê …, Dn câu truy vấn Q , tài liệu câu truy vấn gồm nhiều từ kí hiệu để áp dụng số kỹ thuật phân cụm, ví dụ k-means tạo term1, term2, …, termm Coi tài liệu biểu diễn vectơ khởi tạo cho phân cụm véctơ biểu diễn cho câu hỏi   Phân phối lại đối tượng liệu cách dùng đối tượng trọng Sử dụng công thức tính trọng số mô hình không gian vectơ , thành lập bảng trọng số từ tập tài liệu câu hỏi tâm cho cụm khám phá từ bước 3: Đây bước tùy chọn để duyệt lại tập liệu gán lại nhãn cho đối tượng liệu tới trọng tâm gần Bước nhằm để gán nhãn cho liệu khởi tạo loại bỏ đối tượng ngoại lai Quay lại ví dụ chương 2, gồm có tài liệu D1: “ani gnu ani bee”, D2: “dog bee dog hog dog ani dog gnu”, D3: “bee cat gnu dog eel fox” câu truy vấn Q: “ani dog” Xây dựng bảng trọng số từ tài liệu: Với cấu trúc CF sử dụng, BIRCH có tốc độ thực PCDL nhanh Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 77 http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 78 http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu cosinθ để tính nhiều thời gian, sử dụng phương pháp phân cụm để tìm kiếm Tài liệu D1 D2 D3 ani 0.3522 0.1761 bee 0 cat 0 0.4771 dog 0.7044 0.1761 eel 0 0.4771 Cụm thứ gồm tài liệu D1, D4, D10; cụm thứ gồm tài liệu D2, Giả sử có D1, D2, …, D10 tài liệu câu truy vấn Q sau phân tích Từ thành Tm từ, sử dụng mô hình không gian vectơ để tính trọng số Tm tài liệu câu truy vấn (hình thành bảng trọng số) Từ bảng trọng số sử dụng thuật toán phân cụm để nhóm tài liệu vào cụm, giả sử tách làm cụm fox 0 0.4771 D5, D6, D9 cụm thứ gồm tài liệu D3, D7, D8 Trong cụm ta tìm tài gnu 0 liệu đại diện tâm cụm Sau tính độ tương quan câu truy vấn Q hog 0.4771 đại diện cụm, thấy câu truy vấn Q gần với tâm củ a cụm tiếp tục tính độ tương quan câu truy vấn Q với tài liệu lại cụm Bảng trọng số câu truy vấn: Truy vấn Q Từ ani 0.1761 bee cat dog 0.1761 eel fox gnu hog Sau đối sánh Q với Di cách sử dụng phép tính cosin θ để tìm tài liệu tương đồng với câu truy vấn ta kết là: D1, D2, D3 Ví dụ gồm có tài liệu nên sử dụng cosinθ để tính khoảng cách vectơ Di Q Nhưng thực tế Dn, Tm lớn dùng Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 79 http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 80 http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu T×m kiÕm User CHƯƠNG 4: CHƯƠNG TRÌNH DEMO 4.3 CÀI ĐẶT CHƯƠNG TRÌNH 4.1 MỤC TIÊU CỦA HỆ THỐNG TÌM KIẾM VĂN BẢN: Đầu vào: Có nhiều tệp lài liệu lưu trữ máy tính, tài liệu không nén Nhiệm vụ: Tìm tài liệu có chứa từ cụm từ cho trước câu truy vấn Đầu ra: Danh sách tệp thoả mãn yêu cầu  Ngôn ngữ lập trình: C#  Công cụ lập trình: Microsoft Visual Studio NET 2005  Lưu trữ liệu: tập tin nhị phân  Ứng dụng: Xây dựng hệ thống tìm kiếm thông tin dựa nội dung  Hệ thống tìm kiếm xây dựng theo mô hình không gian Vector Chương trình tìm kiếm thực qua bước sau  Lập mục từ tạo nên tài liệu Chương trình tìm kiếm xây dựng modul  Tính trọng số từ tài liệu câu truy vấn 4.3.1 Lập mục  Tính độ tương quan câu hỏi câu truy vấn sau xếp Các funtion tài liệu tìm theo độ tương quan giảm dần Tách lọc từ dùng làm mục  Hiển thị tài liệu tìm Chức năng: Tách từ loại bỏ từ nghĩa lấy từ có giá trị để lập mục 4.2 CHỨC NĂNG CỦA HỆ THỐNG * Thuật toán - Người quản trị: //Tham số truyền vào thư mục chứa tập tài liệu cần mục, Mảng định dạng file dùng để mục LË p chØmôc Arrylist BreakWords(String content) { Admin Arraylist words CË p nhË p chØmôc //Chuyển chuỗi content thành mảng từ nhờ khoảng trắng - Người sử dụng: //và kí tự đặc biệt Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 81 http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 82 http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Regex regEx = new Regex("([ \\t{}():;.,| \n\r\\s*])"); Tách từ từ tài liệu riêng rẽ tạo thành danh sách từ tạo nên toàn tài string [] strArray = regEx.Split(sString.ToLower()); liệu Kết trả cho funtion danh sách tất từ tạo nên tài liệu foreach(string term in strArray) { * Thuật toán if( term StopList) Arraylist CollectDocuments(Directory path) words.add(term); { else String [ ] patterns = new {Cácịnh đ dạng file tài liệu Vd : Loại bỏ *.doc,*.htm}; } foreach(String pattern in patterns) Return words; { } + Lấy danh sách tài liệu có định dạng pattern Thêm tài liệu foreach(Danh sách tài liệu) * Thuật toán { Void AddDocument(Document doc,String content) Gọi phương thức AddDocument() { } + Tách từ: Gọi phương thức BreakWords cho tài liệu cần thêm } + Nối (combine) mảng từ vừa tách với mảng từ tách } tài liệu trước thành mảng từ chung tập tài liệu + Sắp xếp lại mảng từ vừa nối Tạo mục + Xây dựng từ điển cho tài liệu void CreateDocumentIndex(Document doc,String content) { } Tập hợp tài liệu + Gọi phương thức BreakWords để tách từ từ nội dung tài liệu Funtion có chức tập hợp tài liệu dùng làm mục tìm kiếm + Tính toán tần suất xuất từ xuất tài liệu.Giá Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 83 http://www.lrc-tnu.edu.vn trị dùng làm trọng số để mục Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 84 http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu + Duyệt tất từ từ danh sách tất từ tập tài liệu So sánh tất từ tài liệu Nếu từ có thêm trọng số tính Nếu gán trọng số Giao diện hình cập nhập mục + Trả vecto mục tài liệu xét } Giao diện hình lập mục Hình 4.2: Giao diện hình cập nhập mục Hình 4.1: Giao diện hình lập mục Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 85 http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 86 http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 4.3.2 Tìm kiếm tài liệu Giao diện hình tìm kiếm KẾT LUẬN Mục đích việc nghiên cứu tìm kiếm thông tin nhằm tìm giải pháp giúp cho người sử dụng tìm thấy thông tin cần khối lượng thông tin khổng lồ Để hiển thị thông tin người sử dụng cần hệ thống tìm kiếm thông tin phải thực qua bước sau:  Phân tích tài liệu thành từ riêng biệt lập mục cho văn  Sử dụng mô hình không gian vector để tính toán độ tương quan câu hỏi tài liệu cách tính trọng số độ tương quan câu hỏi (câu truy vấn) người dùng yêu cầu với tài liệu cập nhật để tạo mục  Sử dụng thuật toán phân cụm để nhóm mục thông tin tương tự thành cụm Mỗi cụm biểu diễn vectơ đặc trưng cụm Sau tính toán độ tương tự vectơ truy vấn với vectơ đặc trưng cụm tính toán k mục gần xếp hạng xem kết cho lại Hình 4.2: Giao diện hình tìm kiếm Hệ thống có số ưu điểm sau:  Đơn giản dễ dàng sử dụng, giao diện thân thuộc  Tìm kiếm định dạng tệp thông dụng file word, file excel, file html, file txt Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 87 http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 88 http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu  Sau bước lập mục Dùng mục để tìm kiếm chương trình tìm kiếm nhanh cho kết xác Tuy nhiên hệ thống khuyết điểm:  Lập mục chậm đặc tính hệ thống tìm kiếm nói chung phải duyệt từ để chọn từ có giá trị làm mục TÀI LIỆU THAM KHẢO Nhưng trình xử lý offline trước người sử dụng sử dụng chương trình tìm kiếm nên không ảnh hưởng lớn đến tính hiệu Tiếng Việt trình tìm kiếm Đặng Văn Đức (2004/05), “Multimedia Database Management  Hệ thống sử dụng mô hình tìm kiếm mô hình vectơ System” Chương 1, Chương nên không so sánh hiệu mô hình Đặng Văn Đức (2007), “Nâng cao hiệu MMDMS (Multimedia  Hệ thống chưa có khả tự cập nhập định kì chưa có khả tự thu thập tài liệu Database Management System)”, Bài Tiếng Anh  Hệ thống chưa tìm kiếm liệu thuật toán phân cụm C.J van Rijsbergen, “Information Retrieval” liệu C.Ordonez, “Clustering binary data streams with k-means” ACM HƯỚNG PHÁT TRIỂN DMKD Workshop, 2003 Đây đề tài có tính thực tế Với nhiệm vụ nghiên cứu luận văn David Hand, Heikki Mannila and Padhraic Smyth: “Principles of đáp ứng số yêu cầu hệ thống Tuy nhiên để trở thành ứng Data Mining”, The MIT Press, 2001 dụng thực tế cho người sử dụng đòi hỏi cần thêm nhiều chức mở rộng để Gerard chương trình hoàn thiện Do hướng phát triển ứng dụng sau: Salton, Michael J.McGill, “Introduction to Modern Information Retrieval”  Nghiên cứu cách tách từ mục tài liệu tiếng Việt Hệ thống K Mali and S.Mitra, “Clustering of Symbolic Data and its chưa có khả tách từ tiếng Việt theo nghĩa validation”, AFSS 2002  Thêm chức tự thu thập tài liệu định kì cập nhập mục Mark S Aldenderfer, Roger K Blashfield, “Cluster Analysis”  Tăng tốc độ lập mục Website  Sử dụng thuật toán phân cụm để làm tăng tốc độ tìm kiếm Từ điển bách khoa toàn thư http://vi.wikipedia.org Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 89 http://www.lrc-tnu.edu.vn Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 90 http://www.lrc-tnu.edu.vn Nghiên cứu phát triển hệ thống đa phương tiện sở phân cụm liệu Các trang giáo dục http://www.miislita.com Trang mã nguồn mở http://www.codeProject.com http://www.SourceForge.com Học viên: Lưu Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 91 http://www.lrc-tnu.edu.vn

Ngày đăng: 10/08/2016, 19:03

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan