XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

85 1.1K 7
XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN ──────── * ─────── ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN ĐỀ TÀI: XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN Sinh viên thực hiện: Nguyễn Cơng Chính Lớp: HTTTA-K48 Giáo viên hướng dẫn: TS Lê Thanh Hương Hà nội, tháng năm 2008 LỜI CÁM ƠN Lời đầu tiên, em muốn gửi lời cám ơn chân thành tới cô TS Lê Thanh Hương, người trực tiếp hướng dẫn em hoàn thành đồ án Em muốn gửi lời cám ơn tới thầy cô môn Hệ thống Thông Tin, khoa Công nghệ thông tin thầy cô trường tận tình dạy dỗ suốt năm học vừa qua Tôi xin gửi lời cám ơn đặc biệt đến bạn Kiều Văn Cường, người chung đồ án với tôi, giúp nhiều lúc nghiên cứu, xây dựng chương trình Tơi xin cám ơn bạn lớp Tin HTTT A cung cấp tài liệu, gợi ý giải thuật để hoàn thành đồ án Con xin cảm ơn Bố, Mẹ, người thân ln bên cạnh động viên khích lệ mặt tinh thần vật chất để giúp hoàn thành tốt năm học đại học đồ án Hà Nội Tháng năm 2008 Sinh viên Nguyễn Công Chính NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… Ngày tháng 05 năm 2008 Ký tên NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… Ngày tháng 05 năm 2008 Ký tên MỤC LỤC PHẦN 0: LỜI NÓI ĐẦU .10 PHẦN I: VẤN ĐỀ VÀ THỰC TRẠNG 18 PHẦN II: CƠ SỞ LÝ THUYẾT 36 PHẦN III: GIẢI PHÁP KỸ THUẬT 52 PHẦN IV: XÂY DỰNG CHƯƠNG TRÌNH, CÀI ĐẶT CHẠY DEMO .57 DANH MỤC HÌNH VÀ BẢNG DANH MỤC HÌNH VÀ BẢNG Hình 1: Hình minh họa tập tách văn 14 Hình 2: Cấu trúc giải thuật LSA .15 5.3 Mơ hình tư vấn dựa lịch sử phiên truy cập người dùng 16 Hình 3: Quy trình truy vấn .17 Hình 4: Giao diện trang chủ chương trình 17 Hình 5: Tìm kiếm thơng tin – So sánh gợi ý người máy 19 Hình 6: Mơ hình sơ đồ hệ thống gợi ý cho người dùng 21 Hình 7: Sơ đồ tổng quát hệ thống .22 Hình 8: Giao diện tìm kiếm Amazone.com .24 Hình 9: Giao diện kết trả lại 25 Hình 10: Giao diện kết tìm kiếm Amazone.com .26 Hình 11: Sơ đồ cấu trúc từ Nguyễn Tài Cẩn 29 Hình 12: Giao diện tìm kiếm Google 36 Hình 13: Giao diện tìm kiếm Yahoo 37 Hình 14 Giao diện tìm kiếm Ask Jeeves 38 Hình 15: Giao diện tìm kiếm All the web 39 Table 1: : Tần suất xuất độ dài từ tiếng Việt trang Vdict.com 44 Table 2: Tần số tài liệu số từ thông dụng tiếng Việt 45 Table 3: Ví dụ MI n-gram 46 Hình 16: Xây dựng ơtơmát âm tiết 48 Hình 17: Xây dựng ơtơmát từ vựng 49 49 Hình 18: Một tình nhập nhằng 51 Hình 19: Giải thuật tách từ từ câu 55 Table 4: Bảng số ví dụ cấu trúc lưu trữ từ điển 55 Hình 20: Biểu đồ use-case hệ thống 57 Hình 21: Use-case tìm kiếm Hình 22: Biểu đồ cộng tác chức tìm kiếm .58 Lớp biên: .58 Hình 23: Biểu đồ tiến trình chức tìm kiếm .58 Hình 24: Use-case quản lý tài liệu 59 Lớp biên: .59 Hình 25: Biểu đồ cộng tác 59 Hình 26: Biểu đồ tiến trình chức thêm tài liệu .60 Hình 27: Biểu đồ tiến trình chức sửa tài liệu 60 Hình 28:Biểu đồ tiến trình chức xóa tài liệu 61 Hình 29: Biểu đồ cộng tác quản lý tài liệu .61 Hình 30: Use-Case quản lý tác giả 62 Hình 31: Biểu đồ tiến trình thêm tác giả 62 Hình 32: Biểu đồ tiến trình sửa tác giả .63 Chức xoá tác giả: 63 Hình 33: Biểu đồ tiến trình xóa tác giả .64 Hình 34: Biểu đồ cộng tác quản lý tác giả 64 Hình 35: User-Case quản lý NXBLớp biên: 64 Hình 36: Biểu đồ tiến trình thêm NXB .65 Hình 38: Biểu đồ tiến trình xóa thơng tin NXB .66 Hình 39: Biểu đồ công tác quản lý NXB 66 Hình 40: Biểu đồ usercase quản lý thành viên 67 Lớp biên: .67 Chức chỉnh sửa thông tin: 68 Hình 42: Biểu đồ tiến trình chỉnh sửa user .68 Hình 43: Biểu đồ tiến trình xóa user 69 Hình 44: Biểu đồ cộng tác quản lý user 69 Hình 45: Biểu đồ cộng tác quản lý user 70 Table 5: Bảng thực thể .71 Table 6: Bảng quan hệ thực thể 72 Table 7: Danh sách bảng 75 Mô tả chi tiết bảng .76 Table 8: Mô tả bảng tài liệu A01 76 Table 9: Mô tả bảng Catalogue A02 77 Table 10: Mô tả bảng tác giả A04 77 Table 11: Mô tả bảng NXB A05 78 Table 12: Mô tả bảng User A06 78 Table 13: Mô tả bảng subCatalogue A07 79 Table 14: Mô tả bảng Child A08 79 Table 15: Mô tả bảng A11 80 Table 16: Mô tả bảng A12 80 PHẦN 0: LỜI NÓI ĐẦU 1 MỤC TIÊU VÀ Ý NGHĨA CỦA ĐỀ TÀI Máy tính đóng góp phần khơng nhỏ vào đời sống, trở nên phổ dụng Trong lĩnh vực lưu trữ liệu, cần ổ cứng 10x15x3 cm lưu trữ số lượng sách tương ứng với thư viện sách khổng lồ Theo đó, vấn đề tra cứu liệu kho liệu Cũng việc tổ chức thư viện, việc lưu trữ tài liệu điện tử máy tính chia thành loại sách, chủ đề lớn khác Hiện xu người đọc sách coi sách nguồn để tra cứu vấn đề quan tâm, khơng phải học kiến thức sách mang đến Vấn đề đặt tư vấn cho người dùng sách liên quan nhiều tới chủ đề người dùng yêu cầu (thông qua từ khóa nhập) phân tích nội dung lịch sử truy cập người dùng trước Luận văn đực thực nhằm đề xuất phương thức xây dựng hệ thống hỗ trợ tư vấn với kết sau: - Tư vấn hoàn toàn tự động tài liệu cho người dùng theo từ khóa, lịch sử truy cập người dùng người dùng khác sở thích họ Kết tư vấn ngày xác hệ thống có phân tích cập nhật lịch sử truy cập người dùng - Giới thiệu tài liệu có độ tương tự định với tài liệu nghiên cứu để người dùng lựa chọn tài liệu nghiên cứu - Hệ thống khảo sát (survey) để thu thập ý kiến đánh giá người dùng tương tự tài liệu hệ thống gợi ý Qua đó, thu thập nhiều đánh giá, kết tư vấn cho người dùng sát với vấn đề người ta đặt - Người dùng không thiết phải đăng ký thông tin với hệ thống Hệ thống gợi ý cho người dùng thơng qua phân tích nội dung lịch sử truy cập hệ thống - Đáp ứng yêu cầu tìm kiếm trang web (tìm kiếm site riêng internet) Hệ thống hướng tới việc tìm kiếm xây dựng sở liệu động từ internet VẤN ĐỀ GIẢI QUYẾT Có phương pháp chủ đạo dùng hệ tư vấn: Phương pháp lọc cộng tác: phương pháp tập hợp đánh giá quan điểm người dùng, nhận dạng tương đồng người dùng sở phiên giao dịch họ Phiên giao dịch người dùng người dùng đánh từ khóa có tín hiệu search Kết thúc phiên làm việc với từ khóa nhập Phương pháp lọc cộng tác ước lượng hàm đánh giá R(u,i) item i với user u dựa sở đánh giá R(u’,i) user u’ cho item i mà u u’ tương tự Phương pháp lọc cộng tác có vấn đề như: Sự thưa thớt: thực tế vấn đề người dùng quan tâm (từ khóa) chiếm phần nhỏ đánh giá tương đồng cho tài liệu nhỏ so với nhiều tài liệu hệ 10 # Tên Tên thực thể Miêu tả tài liệu Danh mục phân cấp 1-23 Danh mục cấp lớn nhất, danh mục danh mục cấp 1, danh mục danh muc cấp A03 A04 Tác giả Chứa thông tin tác giả A05 Nhà xuất Chứa thông tin nhà xuất A06 Người dùng Chứa thông tin người dùng A07 Danh mục cấp Chứa thông tin loại tài liệu Danh mục phân cấp 1-23 Danh mục cấp lớn nhất, danh mục danh mục cấp 1, danh mục danh muc cấp A08 Danh mục cấp Chứa thông tin loại tài liệu Danh mục phân cấp 1-23 Danh mục cấp lớn nhất, danh mục danh mục cấp 1, danh mục danh muc cấp A09 10 A10 Cấu hình hệ thống Chứa thông tin liên quan tới cấu hình hoạt động hệ thống 11 A11 Tài liệu liên quan Chứa tài liệu liên quan mặt thống kế số lần xem 12 A12 Kết phân tích LSA Chứa kết phép phân tích LSA .Table 5: Bảng thực thể 71 Bảng quan hệ thực thể # Parent Type Child Description A01 N:N A04 Một tài liệu có nhiều tác giả, tác giả có nhiều tài liệu A05 1:N A01 Một nhà xuất xuất nhiều sách Một sách nhà xuất sản xuất A02 1:N A07 Danh mục cấp có nhiều danh mục cấp A07 1:N A08 Danh mục cấp có nhiều danh mục cấp A01 1:N A11 Tài liệu có nhiều tài liệu liên quan mặt nội dung A01 1:N A12 Tài liệu có nhiều kết LSA với tài liệu khác Table 6: Bảng quan hệ thực thể Danh sách bảng # Tên Mô tả Lệnh SQL A01 Tài liệu: Chứa thông tin tài liệu CREATE TABLE [dbo].[A01] ( [A01_ID] [int] IDENTITY (1, 1) NOT NULL , [A01_Name] [nvarchar] (100) NULL , [A01_Code] [char] (8) NOT NULL , [A01_Description] [ntext] NULL , [A05_ID] [int] NOT NULL , [A01_DatePublished] [datetime] NULL , 72 # Tên Mô tả Lệnh SQL [IsActive] [bit] NULL , [A01_LinkDown] [Varchar] NULL , [A01_RelatedDocs] [text] NULL , [A01_LSA] [text] NULL , [A01_KeyWords] [text] NULL ) ON [PRIMARY] TEXTIMAGE_ON [PRIMARY] GO A02 Danh mục cấp 1: Chứa CREATE TABLE [dbo].[A02] ( thông tin loại [A02_ID] [int] IDENTITY (1, 1) NOT NULL , tài liệu Danh mục [A02_Name] [nvarchar] (50) NULL , phân cấp 1-2-3 Danh [A02_Code] [char] (3) NOT NULL , mục cấp lớn nhất, [IsActive] [bit] NULL danh mục danh mục cấp 1, ) ON [PRIMARY] GO danh mục danh muc cấp A04 Tác giả: Chứa CREATE TABLE [dbo].[A04] ( thông tin tác [A04_ID] [int] IDENTITY (1, 1) NOT NULL , giả [A04_Name] [nvarchar] (100) NULL , [A04_Birthday] [datetime] NULL , [A04_Address] [nvarchar] (100) NULL , [A04_NativePlace] [nvarchar] (100) NULL , [A04_Phone] [int] NULL , [A04_Email] [varchar] (100) NULL , [IsActive] [bit] NULL ) ON [PRIMARY] GO A05 Nhà xuất bản: Chứa thông tin nhà xuất CREATE TABLE [dbo].[A05] ( [A05_ID] [int] IDENTITY (1, 1) NOT NULL , [A05_Name] [nvarchar] (100) NULL , [A05_Address] [nvarchar] (100) NULL , [A05_Phone] [int] NULL , [A05_Email] [varchar] (100) NULL , 73 # Tên Mô tả Lệnh SQL [A05_Remark] [ntext] NULL , [IsActive] [bit] NULL ) ON [PRIMARY] TEXTIMAGE_ON [PRIMARY] GO A06 Người dùng: Chứa CREATE TABLE [dbo].[A06] ( thông tin [A06_ID] [int] IDENTITY (1, 1) NOT NULL , người dùng [A06_Name] [nvarchar] (100) NULL , [A06_UseName] [nvarchar] (100) NOT NULL , [A06_PassWord] [nvarchar] (100) NOT NULL , [A06_Phone] [int] NULL , [A06_Email] [varchar] (100) NULL , [IsActive] [bit] NULL ) ON [PRIMARY] GO A07 Danh mục cấp 2: Chứa CREATE TABLE [dbo].[A07] ( thông tin loại [A07_ID] [int] IDENTITY (1, 1) NOT NULL , tài liệu Danh mục [A07_Name] [nvarchar] (100) NULL , phân cấp 1-2-3 Danh [A07_Code] [char] (5) NOT NULL , mục cấp lớn nhất, [A02_ID] [int] NOT NULL , danh mục [IsActive] [bit] NULL danh mục cấp 1, ) ON [PRIMARY] danh mục GO danh muc cấp A08 Danh mục cấp 3: Chứa CREATE TABLE [dbo].[A08] ( thông tin loại [A08_ID] [int] IDENTITY (1, 1) NOT NULL , tài liệu Danh mục [A08_Name] [nvarchar] (100) NULL , phân cấp 1-2-3 Danh [A08_Code] [char] (8) NOT NULL , mục cấp lớn nhất, [A07_ID] [int] NOT NULL , danh mục [IsActive] [bit] NULL danh mục cấp 1, ) ON [PRIMARY] danh mục GO danh muc cấp A09 Bảng quan hệ: Thành lập quan hệ nhiều nhiều giửa bảng A01 CREATE TABLE [dbo].[A09] ( [A01_ID] [int] NOT NULL , 74 # Tên Mô tả A04 Lệnh SQL [A04_ID] [int] NOT NULL ) ON [PRIMARY] GO A10 Bảng chứa thông tin hệ thống CREATE TABLE [dbo].[A10] ( [A10_ID] [int] IDENTITY (1, 1) NOT NULL , [A10_NumberOfDimensionReduce] [int] NOT NULL , [A10_MaxOfWords] [int] NOT NULL , [A10_MaxOfResultOfLSA] [int] NOT NULL , [A10_MaxOfRelatedDocs] [int] NOT NULL , [A10_DegreeOfAccuracy] [float] NOT NULL ) ON [PRIMARY] 10 A11 Bảng chứa thông tin tài liệu liên quan tới tài liệu CREATE TABLE [dbo].[A11] ( [A11_ID] [int] IDENTITY (1, 1) NOT NULL , [A01_ID] [int] NOT NULL , [A11_RelatedID] [int] NOT NULL , [A11_Index] [float] NOT NULL , [A11_StandIndex] [float] NOT NULL ) ON [PRIMARY] 11 A12 Bảng chứa kết CREATE TABLE [dbo].[A12] ( LSA [A12_ID] [int] IDENTITY (1, 1) NOT NULL , [A01_ID] [int] NOT NULL , [A12_RelatedID] [int] NOT NULL , [A12_Index] [int] NOT NULL , [A12_StandIndex] [float] NOT NULL ) ON [PRIMARY] Table 7: Danh sách bảng 75 Mô tả chi tiết bảng Bảng A01 # Tên trường Kiểu liệu Cho phép Giá Khố null trị mặ c địn h Kho Ghi ngoà i A01_ID INT NOT NULL Yes No A01_Name NVARCHA R(100) NULL No No A01_Code CHAR(8) NOT NULL No No A01_LinkDow VARCHAR( NULL n 100) No No A01_Decriptio NTEXT n NULL No No A05_ID INT NOT NULL No Yes IsActive BIT NULL No No A01_KeyWord NTEXT s NULL No No Chứa từ khoá đại diện cho nôi dung vb A01_RelatedD NTEXT ocs NULL No No Chứa tài liệu liên quan tới tài liệu mặt nội dung 10 A01_LSA NULL No No Chứa kết phân tích LSA NTEXT Table 8: Mô tả bảng tài liệu A01 76 Chứa link liên kết cho phép download tài liệu A02 # Tên trường Kiểu liệu Cho phép Giá trị Kho Kho Ghi null mặc định á chín ngo h ài A02_ID INT NOT NULL A02_Name Yes No NVARCHAR(100) NULL No A02_Code CHAR(3) NOT NULL No No No IsActive BIT NULL No No Kho chín h Kho Ghi ngo ài Table 9: Mô tả bảng Catalogue A02 A04 # Tên trường Kiểu liệu Cho phép null A04_ID INT NOT NULL Yes No A04_Name NVARCHAR(100) NULL No A04_Birthday DATETIME NULL No No No A04_Address NVARCHAR(100) NULL No No A04_NativePlace NVARCHAR(100) NULL No No A04_Phone INT NULL No No A04_Email NVARCHAR(100) NULL No No IsActive BIT NULL No No Table 10: Mô tả bảng tác giả A04 77 Giá trị mặc định Bảng A05 # Tên trường Kiểu liệu Cho phép null A05_ID INT A05_Name Giá trị mặc định Kho chín h Kho Ghi ngo ài NOT NULL Yes No NVARCHAR(100) NULL No A04_Address NVARCHAR(100) NULL No No No A04_Remark NTEXT NULL No No A04_Phone INT NULL No No A04_Email NVARCHAR(100) NULL No No IsActive BIT NULL No No Giá trị mặc định Khố Kho Ghi ngo ài Table 11: Mô tả bảng NXB A05 Bảng A06 # Tên trường Kiểu liệu Cho phép null A06_ID INT NOT NULL Yes No A06_Name NVARCHAR(100) NULL No A06_UseName NVARCHAR(100) NOT NULL No No No A06_PassWord NVARCHAR(100) NOT NULL No No A04_Phone INT NULL No No A04_Email NVARCHAR(100) NULL No No IsActive BIT NULL No No Table 12: Mô tả bảng User A06 Bảng A07 78 # Tên trường Kiểu liệu Cho phép Giá trị null mặc định Khoá Kho Ghi ngo ài A07_ID INT NOT NULL Yes No A07_Name NVARCHAR(100) NULL No A07_Code CHAR(5) NOT NULL No No No IsActive BIT NULL No No A02_ID INT NOT NULL No Yes Table 13: Mô tả bảng subCatalogue A07 Bảng A08 # Tên trường Kiểu liệu Cho phép null A08_ID INT NOT NULL A08_Name Kho chín h Kho Ghi ngo ài Yes No NVARCHAR(100) NULL No A08_Code CHAR(3) NOT NULL No No No IsActive BIT NULL No No A07_ID INT NOT NULL No Yes Table 14: Mô tả bảng Child A08 Bảng A11 79 Giá trị mặc định # Tên trường Kiểu liệu Cho phép Giá trị Kho Kho Ghi null mặc định á chín ngo h ài A11_ID INT NOT NULL Yes No A01_ID INT NOT NULL No Yes A11_RelatedID INT NOT NULL No No A11_Index FLOAT NULL 0.0 No No A11_StandIndex FLOAT NULL 0.0 No No Table 15: Mô tả bảng A11 Bảng A12 # Tên trường Kiểu liệu Cho phép Giá trị Kho Kho Ghi null mặc định á chín ngo h ài A12_ID INT NOT NULL Yes No A01_ID INT NOT NULL No Yes A12_RelatedID INT NOT NULL No No A12_Index INT NULL No No A12_StandIndex FLOAT NULL 0.0 No No Table 16: Mô tả bảng A12 80 CÁC MODUL 2.1 Modul đọc định dạng tài liệu Có thể xem lại phần để hiểu rõ cách modul đọc tài liệu Modul thiết kế thành file dll để hàm thư viện dùng chương trình Có số điểm cần ý sử dụng modul này: • Cú pháp sử dụng: Add reference file EPocalipse.Ifilter.dll Using EPocalipse.Ifilter TextReader reader=new FilterReader(fileName); using (reader) { textBox1.Text=reader.ReadToEnd(); } • fileName đường dẫn tuyệt đối file ổ đĩa bao gồm tên phẩn mở rộng • Với file pdf, ý version acrobat reader mà ta cài Chú ý nên dùng file pdf với version 7.0.1 2.2 Modul tách từ Modul gồm lớp chính: Lớp clsDictionary:  public static void Init(string path) Lớp khởi tạo từ điển phương thức Init với path đường dẫn tuyệt đối file từ điển Cũng phương thức này, ta định nghĩa cách lưu trữ từ điển (như trình bày trên) để tăng tốc độ cho giải thuật tìm kiếm Trong lớp ý phương thức sau: Đọc file từ điển theo bảng mã Unicode: StreamReader sr = new StreamReader(path, System.Text.Encoding.Unicode); 81 Sắp xếp tăng dần để phục vụ cho giải thuật tìm kiếm nhị phân: arl.Sort(); Phương thức phương thức sẵn có C# cho mảng Nó xếp theo thứ tự tăng dần mã ASCII phần tử Do đó, xếp mảng số mảng string  public static int Term2Id(string Term) Phương thức tiến hành tìm kiếm xâu Term có thuộc từ điển hay khơng Nếu có, trả lại Id, không trả Trong phương thức này, tơi cài đặt thuật giải tìm kiếm nhị phân (một giải thuật để tăng tốc độ tìm kiếm) Lớp clsPunctuator.cs Lớp thực bước chuẩn hóa văn Nhận biết ký tự dấu chấm câu, dấu chấm mail, hay số hàng nghìn Tách nhiều khoảng trống thành khoảng Chia văn thành đoạn câu Lớp clsSentence.cs Lớp thể cho câu với thuộc tính định Lớp clsTermSplitter.cs Lớp thể giải thuật tách câu thành từ, cụm từ để kiểm tra có từ điển hay khơng Thuật tốn đọc từ thuật “từ trái sang”, trình bày phần Có thể tối ưu giải thuật từ phương thức lớp Lớp clsStopWordRemover.cs Lớp cuối thực phương thức tách câu  public clsStopWordRemover(string path) Lớp khởi tạo với phương thức này, với path file+đường dẫn đầy đủ đến file stopword Lớp lưu file vào biến mảng lớp  public string[] RemoveStopWord(string doc,string pathDic) Lớp gọi tiếp phương thức sau để thực việc tách văn thành từ khóa: clsTermSplitter Splitter = new clsTermSplitter(); 82 clsPunctuator Punctuator = new clsPunctuator(); clsDictionary.Init(pathDic); Phương thức trả mảng từ khóa văn Trong phương thức loại bỏ từ stopword từ mảng từ stopword lưu phương thức khởi tạo stopword Modul tách từ gọi cách using Utils.Spliter; clsStopWordRemover swr = new clsStopWordRemover(this.lbStopFile.Text); string[] result = swr.RemoveStopWord(detail, dicfile); Với dicfile file từ điển gồm đường dẫn detail string văn mà ta đọc vào từ bước trước this.lbStopFile.Text đường dẫn tuyệt đối đến file stopword 83 2.3 Modul LSA Modul thiết kế lớp Util Đầu vào modul tập tài liệu tập từ khóa, đầu cập nhật sở liệu thông tin độ tương đồng tài liệu Thông tin chi tiết xin tham khảo bên đồ án Mr Cường CÀI ĐẶT Chương trình thiết kế với giao diện website Ta cài đặt CSDL, với file backup cung cấp, mã nguồn đưa vào IIS Thư mục website trỏ tới thư mục SS01 84 PHẦN V: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Ngày nay, internet chở thành cách mạng lớn nhân loại mà động lực phát triển kinh tế mang tính tồn cầu Nhưng phát triển đòi hỏi ngày nhiều sở lưu trữ liệu dẫn đến việc khai thác hiệu liệu trở nên khó khăn Để nâng cao khả sử lý liệu liệu phải chọn lọc trước Một hướng chọn lọc liệu hiểu phân tích ngữ nghĩa văn Tồn văn cô đọng ngữ nghĩa Chính phân tích ngữ nghĩa văn giảm khối lượng lớn câu chữ không hàm chứa thông tin Việc nghiên cứu ngữ nghĩa văn mở hướng phát triển khai thác thông tin liệu Ngữ nghĩa văn mang lại nhiều thuận lợi để thật hiểu rõ phương pháp nghiên cứu phân tích ngữ nghĩa không dễ dàng Do mục tiêu đồ án đặt gồm hài vấn đề sau: Về lý thuyết: Mục tiêu tìm hiểu, nghiên cứu ngữ nghĩa văn bao gồm phần như: Phân tích, tách văn thành tập từ khố, lọc tách từ khố văn nhằm đọng từ khoá đặc trưng cho ngữ nghĩa văn bản, thống kê trích lọc văn có ngữ nghĩa tương đồng Về phần ứng dụng minh hoạ: Mục tiêu xây dựng ứng dụng mang tính demo khả thi kỹ thuật phân tích ngữ nghĩa Nội dung đề tài đưa rộng thực thiện vòng tháng để hoàn tất đề tài chúng em gặp nhiều khó khăn mặt tìm kiếm tài liệu, đọc hiểu tài liệu số kỹ thuật để vận dụng kiến thức tìm hiểu Nhưng bù đắp lại khó khăn vất vả chúng em tiếp thu nhiều kiến thức lạ bổ ích ứng dụng ngữ nghĩa văn công nghệ thông tin – mở hướng phát triển giớ cơng nghệ thơng tin Kết xứng đáng chúng em hồn thành mục tiêu, yêu cầu đề đồ án 85 ... niệm Sử dụng kết bước này, ta thu tập tài liệu có tương đồng ngữ nghĩa định với tài liệu xét Là nguồn quan trọng việc đưa gợi ý tài liệu tương tự với tài liệu người dùng đọc 3.3 Phân tích lịch... LSA, áp dụng việc phân tích nội dung tài liệu 2.3.3 Nhận xét, kết luận Phân tích ngữ nghĩa khâu quan trọng hệ thống gợi ý Bước tách từ vựng tách tài liệu thành từ khóa đặc trưng cho tài liệu Hệ... 39 2.1 Chiến lược tìm kiếm 2.1.1 Cơng nghệ tìm kiếm ngữ nghĩa giới Hầu hết hiệu gần cơng cụ tìm kiếm dựa vào ngữ nghĩa phụ thuộc vào công nghệ xử lý ngôn ngữ tự nhiên để phân tích hiểu câu truy

Ngày đăng: 18/08/2012, 08:59

Hình ảnh liên quan

5.3 Mô hình tư vấn dựa trên lịch sử phiên truy cập của người dùng - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

5.3.

Mô hình tư vấn dựa trên lịch sử phiên truy cập của người dùng Xem tại trang 16 của tài liệu.
Hình 6: Mô hình sơ đồ hệ thống gợi ý cho người dùng - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Hình 6.

Mô hình sơ đồ hệ thống gợi ý cho người dùng Xem tại trang 21 của tài liệu.
Hình 7: Sơ đồ tổng quát hệ thống - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Hình 7.

Sơ đồ tổng quát hệ thống Xem tại trang 22 của tài liệu.
Hình 9: Giao diện kết quả trả lại - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Hình 9.

Giao diện kết quả trả lại Xem tại trang 25 của tài liệu.
Hình 10: Giao diện kết quả tìm kiếm của Amazone.com - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Hình 10.

Giao diện kết quả tìm kiếm của Amazone.com Xem tại trang 26 của tài liệu.
Hình 12: Giao diện tìm kiếm của Google - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Hình 12.

Giao diện tìm kiếm của Google Xem tại trang 36 của tài liệu.
Hình 13: Giao diện tìm kiếm Yahoo - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Hình 13.

Giao diện tìm kiếm Yahoo Xem tại trang 37 của tài liệu.
1.1Mô hình use-case và đặc tả use-case - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

1.1.

Mô hình use-case và đặc tả use-case Xem tại trang 57 của tài liệu.
Hình 21: Use-case tìm kiếm Hình 22: Biểu đồ cộng tác chức năng tìm kiếm - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Hình 21.

Use-case tìm kiếm Hình 22: Biểu đồ cộng tác chức năng tìm kiếm Xem tại trang 58 của tài liệu.
Hình 23: Biểu đồ tiến trình chức năng tìm kiếm - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Hình 23.

Biểu đồ tiến trình chức năng tìm kiếm Xem tại trang 58 của tài liệu.
Hình 24: Use-case quản lý tài liệu - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Hình 24.

Use-case quản lý tài liệu Xem tại trang 59 của tài liệu.
Hình 26: Biểu đồ tiến trình chức năng thêm mới tài liệu - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Hình 26.

Biểu đồ tiến trình chức năng thêm mới tài liệu Xem tại trang 60 của tài liệu.
Hình 29: Biểu đồ cộng tác quản lý tài liệu - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Hình 29.

Biểu đồ cộng tác quản lý tài liệu Xem tại trang 61 của tài liệu.
Hình 31: Biểu đồ tiến trình thêm mới tác giả - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Hình 31.

Biểu đồ tiến trình thêm mới tác giả Xem tại trang 62 của tài liệu.
Hình 32: Biểu đồ tiến trình sửa tác giả - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Hình 32.

Biểu đồ tiến trình sửa tác giả Xem tại trang 63 của tài liệu.
Hình 33: Biểu đồ tiến trình xóa tác giả - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Hình 33.

Biểu đồ tiến trình xóa tác giả Xem tại trang 64 của tài liệu.
Hình 36: Biểu đồ tiến trình thêm mới NXB - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Hình 36.

Biểu đồ tiến trình thêm mới NXB Xem tại trang 65 của tài liệu.
Hình 37: Biểu đồ tiến trình chỉnh sửa thôngtin NXB - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Hình 37.

Biểu đồ tiến trình chỉnh sửa thôngtin NXB Xem tại trang 66 của tài liệu.
Hình 38: Biểu đồ tiến trình xóa thôngtin NXB - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Hình 38.

Biểu đồ tiến trình xóa thôngtin NXB Xem tại trang 66 của tài liệu.
Hình 40: Biểu đồ usercase quản lý thành viên - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Hình 40.

Biểu đồ usercase quản lý thành viên Xem tại trang 67 của tài liệu.
Hình 42: Biểu đồ tiến trình chỉnh sửa user - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Hình 42.

Biểu đồ tiến trình chỉnh sửa user Xem tại trang 68 của tài liệu.
Hình 45: Biểu đồ cộng tác quản lý user - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Hình 45.

Biểu đồ cộng tác quản lý user Xem tại trang 70 của tài liệu.
Bảng các quan hệ thực thể - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Bảng c.

ác quan hệ thực thể Xem tại trang 72 của tài liệu.
Table 9: Mô tả bảng Catalogue A02 - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

able.

9: Mô tả bảng Catalogue A02 Xem tại trang 77 của tài liệu.
Bảng A05 - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

ng.

A05 Xem tại trang 78 của tài liệu.
Table 13: Mô tả bảng subCatalogue A07 - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

able.

13: Mô tả bảng subCatalogue A07 Xem tại trang 79 của tài liệu.
Table 15: Mô tả bảng A11 - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

able.

15: Mô tả bảng A11 Xem tại trang 80 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan