XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN PHẦN 1

38 537 0
XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN PHẦN 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

PHẦN 0: LỜI NÓI ĐẦU 1 MỤC TIÊU VÀ Ý NGHĨA CỦA ĐỀ TÀI Máy tính đóng góp phần khơng nhỏ vào đời sống, trở nên phổ dụng Trong lĩnh vực lưu trữ liệu, cần ổ cứng 10x15x3 cm lưu trữ số lượng sách tương ứng với thư viện sách khổng lồ Theo đó, vấn đề tra cứu liệu kho liệu Cũng việc tổ chức thư viện, việc lưu trữ tài liệu điện tử máy tính chia thành loại sách, chủ đề lớn khác Hiện xu người đọc sách coi sách nguồn để tra cứu vấn đề quan tâm, khơng phải học kiến thức sách mang đến Vấn đề đặt tư vấn cho người dùng sách liên quan nhiều tới chủ đề người dùng yêu cầu (thông qua từ khóa nhập) phân tích nội dung lịch sử truy cập người dùng trước Luận văn đực thực nhằm đề xuất phương thức xây dựng hệ thống hỗ trợ tư vấn với kết sau: - Tư vấn hoàn toàn tự động tài liệu cho người dùng theo từ khóa, lịch sử truy cập người dùng người dùng khác sở thích họ Kết tư vấn ngày xác hệ thống có phân tích cập nhật lịch sử truy cập người dùng - Giới thiệu tài liệu có độ tương tự định với tài liệu nghiên cứu để người dùng lựa chọn tài liệu nghiên cứu - Hệ thống khảo sát (survey) để thu thập ý kiến đánh giá người dùng tương tự tài liệu hệ thống gợi ý Qua đó, thu thập nhiều đánh giá, kết tư vấn cho người dùng sát với vấn đề người ta đặt - Người dùng không thiết phải đăng ký thông tin với hệ thống Hệ thống gợi ý cho người dùng thơng qua phân tích nội dung lịch sử truy cập hệ thống - Đáp ứng yêu cầu tìm kiếm trang web (tìm kiếm site riêng internet) Hệ thống hướng tới việc tìm kiếm xây dựng sở liệu động từ internet VẤN ĐỀ GIẢI QUYẾT Có phương pháp chủ đạo dùng hệ tư vấn: Phương pháp lọc cộng tác: phương pháp tập hợp đánh giá quan điểm người dùng, nhận dạng tương đồng người dùng sở phiên giao dịch họ Phiên giao dịch người dùng người dùng đánh từ khóa có tín hiệu search Kết thúc phiên làm việc với từ khóa nhập Phương pháp lọc cộng tác ước lượng hàm đánh giá R(u,i) item i với user u dựa sở đánh giá R(u’,i) user u’ cho item i mà u u’ tương tự Phương pháp lọc cộng tác có vấn đề như: Sự thưa thớt: thực tế vấn đề người dùng quan tâm (từ khóa) chiếm phần nhỏ đánh giá tương đồng cho tài liệu nhỏ so với nhiều tài liệu hệ thống Với hệ thống gợi ý luận văn này, đánh giá, nhận định lưu lại dần dần, loại bỏ dần kết khơng xác Vấn đề tài nguyên mới: Hệ thống không ngừng cập nhật tài liệu cho kho liệu Mỗi lần thêm tài liệu mới, hệ thống tính lại (off-line) phân tích độ tương đồng ngữ nghĩa văn (kỹ thuật LSA) để tìm tập láng giềng gần sách Vấn đề người dùng mới: Như đề cập, hệ thống phân tích lưu trữ lại lịch sử tất phiên làm việc, kết hợp phân tích nội dung hệ thống để lọc tương đồng, liên quan xác tài liệu Nên hệ thống hồn tồn gợi ý tư vấn cho người dùng Khi người dùng cung cấp cho hệ thống sở thích, hệ thống lọc sở thích đó, để cung cấp kết xác Phương pháp lọc dựa nội dung: giải thuật hướng nghiên cứu lọc thông tin, phương pháp lọc dựa nội dung ước lượng hàm đánh giá R(u,i) item i với user u thiết lập dựa sở đánh giá R(u,i’) user u cho item i’ mà i i’ tương tự mặt nội dung Nhược điểm phương pháp giả định thuật ngữ độc lập Trong thực tế, thuật ngữ thường có liên quan với hiểu điều dẫn đến việc tính độ liên quan tốt Tính đồng nghĩa: có nhiều cách để đến đối tượng, ví dụ: car automobile • Các sản phẩm tương tự đối xử theo cách khác • Tăng thưa thớt, làm tính chất bắc cầu từ khóa 10 • Sinh kết có chất lượng thấp Tính nhiều nghĩa từ: hầu hết từ có nhiều nghĩa, ví dụ: model, python, chip 11 • Độ xác thấp 12 CÁCH GIẢI QUYẾT Sử dụng phương pháp lọc cộng tác, hệ thống đưa phương án giải nhược điểm trình bầy Về sử dụng phương pháp lọc dựa nội dung, hệ thống sử dụng phương pháp: 3.1 Phân tách tài liệu thành từ khóa (Filter ) Các tài nguyên tài liệu thể dạng văn sách, tạp chí, hay báo, diễn văn điện tử Với tài liệu tiếng Anh, từ thường có âm tiết, ta dễ dàng xác định từ dựa vào dấu cách (space) dấu câu Việc phân tách văn tiếng anh thành từ khóa khơng khó khăn Với văn tiếng việt, từ có một, hai nhiều số lượng âm tiết Việc phân tách thành từ khóa văn tiếng việt phải dựa từ điển thuật tốn đọc từ khóa cho nghĩa câu Thí dụ: Học sinh học sinh học hệ thống tách thành Học sinh, học, sinh học Sau đó, loại bỏ từ dừng (Stopword – Những từ mang ý nghĩa cảm thán, đại từ…như anh, bạn, đó…), từ khơng mang nhiều ý nghĩa nội dung Bước tiếp theo, dùng kỹ thuật TF-IDF để lọc bỏ bớt số lượng từ khóa tài liệu 3.2 Phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analystic-LSA) Kỹ thuật LSA lý thuyết phương thức cho việc trích rút thể ngữ cảnh sử dụng ngữ nghĩa từ dựa việc tính tốn thơng kê Kỹ thuật cho phép ứng dụng kho liệu văn lớn Ý tưởng kỹ thuật tổng hợp tất văn cảnh từ, đó, từ đưa khơng định biểu lộ tập ràng buộc lẫn Những tập ràng buộc cho phép xác định tương đồng nghĩa từ tập hợp từ khác Tập từ khóa tài liệu bước phân tích dùng làm đầu vào cho hàng ma trận Theo đó, từ khóa tài liệu dùng làm cột, tài liệu làm hàng, cell ma trận khởi tạo tần suất xuất từ khóa-thuật ngữ tài liệu LSA dùng kỹ thuật phân tích giá trị riêng (SVD-singular value decomposition) để giảm bớt để giảm bớt kích thước ma trận thuật ngữ-tài liệu, không gian N-chiều giảm bớt xuống không gian K chiều, K

Ngày đăng: 03/10/2013, 12:20

Hình ảnh liên quan

Mô hình này áp dụng cho những lần gợi ý đầu tiên, cho khi người dùng nhập từ khóa. - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN PHẦN 1

h.

ình này áp dụng cho những lần gợi ý đầu tiên, cho khi người dùng nhập từ khóa Xem tại trang 5 của tài liệu.
5.2 Mô hình tìm tư vấn dựa trên phân tích ngữ nghĩa tiềm ẩn - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN PHẦN 1

5.2.

Mô hình tìm tư vấn dựa trên phân tích ngữ nghĩa tiềm ẩn Xem tại trang 6 của tài liệu.
Hìn h: Cấu trúc giải thuật LSA5.3 Mô hình tư vấn dựa trên lịch sử phiên truy cập của người dùng - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN PHẦN 1

n.

h: Cấu trúc giải thuật LSA5.3 Mô hình tư vấn dựa trên lịch sử phiên truy cập của người dùng Xem tại trang 7 của tài liệu.
Hìn h: Mô hình sơ đồ hệ thống gợi ý cho người dùng - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN PHẦN 1

n.

h: Mô hình sơ đồ hệ thống gợi ý cho người dùng Xem tại trang 11 của tài liệu.
Hìn h: Sơ đồ tổng quát hệ thống - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN PHẦN 1

n.

h: Sơ đồ tổng quát hệ thống Xem tại trang 12 của tài liệu.
bảng mã Unicode, cũng như việc chọn Unicode cho bộ mã chuẩn tiếng Việt (nhân đây cũng xin nói thêm, do chưa ý thức về chuẩn, rất nhiều cán bộ CNTT, nhiều cơ quan nhà nước vẫn chưa chịu đổi thói quen cũ để dùng bộ mã chuẩn Unicode, một việc rất quan trọng  - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN PHẦN 1

bảng m.

ã Unicode, cũng như việc chọn Unicode cho bộ mã chuẩn tiếng Việt (nhân đây cũng xin nói thêm, do chưa ý thức về chuẩn, rất nhiều cán bộ CNTT, nhiều cơ quan nhà nước vẫn chưa chịu đổi thói quen cũ để dùng bộ mã chuẩn Unicode, một việc rất quan trọng Xem tại trang 17 của tài liệu.
Hình Giao diện tìm kiếm Ask Jeeves - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN PHẦN 1

nh.

Giao diện tìm kiếm Ask Jeeves Xem tại trang 26 của tài liệu.
Bảng chữ cái của ôtômát âm tiết là bảng chữ cái tiếng Việt, mỗi cung chuyển được ghi trên đó một ký tự - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN PHẦN 1

Bảng ch.

ữ cái của ôtômát âm tiết là bảng chữ cái tiếng Việt, mỗi cung chuyển được ghi trên đó một ký tự Xem tại trang 34 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan