XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

84 269 0
XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN ──────── * ─────── ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN ĐỀ TÀI: XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN Sinh viên thực hiện: Nguyễn Công Chính Lớp: HTTTA-K48 Giáo viên hướng dẫn: TS Lê Thanh Hương Hà nội, tháng năm 2008 LỜI CÁM ƠN Lời đầu tiên, em muốn gửi lời cám ơn chân thành tới cô TS Lê Thanh Hương, người trực tiếp hướng dẫn em hoàn thành đồ án Em muốn gửi lời cám ơn tới thầy cô môn Hệ thống Thông Tin, khoa Công nghệ thông tin thầy cô trường tận tình dạy dỗ suốt năm học vừa qua Tôi xin gửi lời cám ơn đặc biệt đến bạn Kiều Văn Cường, người chung đồ án với tôi, giúp nhiều lúc nghiên cứu, xây dựng chương trình Tôi xin cám ơn bạn lớp Tin HTTT A cung cấp tài liệu, gợi ý giải thuật để hoàn thành đồ án Con xin cảm ơn Bố, Mẹ, người thân bên cạnh động viên khích lệ mặt tinh thần vật chất để giúp hoàn thành tốt năm học đại học đồ án Hà Nội Tháng năm 2008 Sinh viên Nguyễn Công Chính NHẬN XÉT CỦA GIÁO VIÊN HƢỚNG DẪN …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… Ngày tháng 05 năm 2008 Ký tên NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… Ngày tháng 05 năm 2008 Ký tên MỤC LỤC PHẦN 0: LỜI NÓI ĐẦU 10 MỤC TIÊU VÀ Ý NGHĨA CỦA ĐỀ TÀI 10 VẤN ĐỀ GIẢI QUYẾT 10 CÁCH GIẢI QUYẾT 11 3.1 Phân tách tài liệu thành từ khóa (Filter) 11 3.2 Phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analystic-LSA) 12 3.3 Phân tích lịch sử truy cập người dùng .12 CÁC ĐÓNG GÓP CHÍNH CỦA LUẬN VĂN 13 CÀI ĐẶT 14 5.1 Tách tài liệu thành từ khóa Tìm kiếm dựa từ khóa .14 5.2 Mô hình tìm tư vấn dựa phân tích ngữ nghĩa tiềm ẩn 15 GIAO DIỆN TRANG CHỦ CHƢƠNG TRÌNH 16 PHẦN I: VẤN ĐỀ VÀ THỰC TRẠNG 18 ĐẶT BÀI TOÁN 18 CÁC VẤN ĐỀ VÀ CÁC GIẢI PHÁP HIỆN TẠI 21 2.1 Các hệ thống gợi ý (recommender systems - RS) 21 2.1.1 Các khái niệm Recommender System 21 2.1.2 Các hệ thống recommender tiêu biểu 22 2.2 Xử lý tài liệu tiếng Việt .26 2.2.1 Các nghiên cứu cấu nhà nghiên cứu Việt Nam 26 2.2.2 Tóm tắt đặc trưng cấu trúc ngữ pháp tiếng Việt, Anh .29 2.3 Xử lý tài liệu theo ngữ nghĩa .30 2.3.1 Đặt vấn đề 30 2.3.2 Phân tích ngữ nghĩa tiềm ẩn (LSA) 31 2.3.3 Nhận xét, kết luận 31 2.4 Thu thập thông tin người dùng 32 2.4.1 Ưu điểm hệ thống tự học 32 2.4.2 Phân tích logfile 32 2.4.3 Phân tích dựa thông tin người dùng 32 2.4.4 Kết luận .33 2.5 Vấn đề lưu trữ liệu 33 PHẦN II: CƠ SỞ LÝ THUYẾT 34 CÁC BỘ MÁY TÌM KIẾM 34 1.1 Một số engine thông dụng 34 1.2 Chiến lược tìm kiếm 37 1.2.1 Công nghệ tìm kiếm ngữ nghĩa giới .37 1.2.2 Chiến lược tìm kiếm 38 XỬ LÝ VĂN BẢN TIẾNG VIỆT 40 2.1 Từ cấu trúc từ tiếng Việt 40 2.1.1 Định nghĩa từ .40 2.1.2 Cấu trúc từ tiếng Việt 40 2.1.3 Các phương pháp tách từ tiếng Việt nghiên cứu 41 2.2 Thuật toán, otomat tách từ .44 PHẦN III: GIẢI PHÁP KỸ THUẬT 48 Giải pháp đọc định dạng tài liệu Error! Bookmark not defined 1.1 Giao diện Ifilter 48 1.2 Chương trình EPocalipse.IFilter .48 Giải pháp tách từ Error! Bookmark not defined 2.1 Giải pháp tách từ Tiếng Anh .49 2.2 Giải pháp cho Tiếng Việt 50 Giải pháp LSA Error! Bookmark not defined Giải pháp phân tích lịch sử làm việc người dùng Error! Bookmark not defined Giải pháp công nghệ Error! Bookmark not defined PHẦN IV: XÂY DỰNG CHƢƠNG TRÌNH, CÀI ĐẶT CHẠY DEMO 53 Phân tích hệ thống Error! Bookmark not defined 1.1 Mô hình use-case đặc tả use-case 53 1.2 Về sở liệu 66 Các modul Error! Bookmark not defined 2.1 Modul đọc định dạng tài liệu 77 2.2 Modul tách từ 77 2.2 Modul LSA Error! Bookmark not defined PHẦN V: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 80 Kết luận Error! Bookmark not defined Hướng phát triển 82 DANH MỤC HÌNH VÀ BẢNG DANH MỤC HÌNH VÀ BẢNG Hình 1: Hình minh họa tập tách văn 14 Hình 2: Cấu trúc giải thuật LSA 15 Hình 3: Quy trình truy vấn 16 Hình 4: Giao diện trang chủ chương trình 17 Hình 5: Tìm kiếm thông tin – So sánh gợi ý người máy 18 Hình 6: Mô hình sơ đồ hệ thống gợi ý cho người dùng 20 Hình 7: Sơ đồ tổng quát hệ thống 21 Hình 8: Giao diện tìm kiếm Amazone.com 22 Hình 9: Giao diện kết trả lại 23 Hình 10: Giao diện kết tìm kiếm Amazone.com 24 Hình 11: Sơ đồ cấu trúc từ Nguyễn Tài Cẩn 27 Hình 12: Giao diện tìm kiếm Google 34 Hình 13: Giao diện tìm kiếm Yahoo 35 Hình 14 Giao diện tìm kiếm Ask Jeeves 36 Hình 15: Giao diện tìm kiếm All the web 36 Table 1: : Tần suất xuất độ dài từ tiếng Việt trang Vdict.com 40 Table 2: Tần số tài liệu số từ thông dụng tiếng Việt 41 Table 3: Ví dụ MI n-gram 42 Hình 16: Xây dựng ôtômát âm tiết 44 Hình 17: Xây dựng ôtômát từ vựng 45 Hình 18: Một tình nhập nhằng 47 Hình 19: Giải thuật tách từ từ câu 50 Table 4: Bảng số ví dụ cấu trúc lưu trữ từ điển 51 Hình 20: Biểu đồ use-case hệ thống 53 Hình 21: Use-case tìm kiếm Hình 22: Biểu đồ cộng tác chức tìm kiếm 54 Hình 23: Biểu đồ tiến trình chức tìm kiếm 54 Hình 24: Use-case quản lý tài liệu 55 Hình 25: Biểu đồ cộng tác 55 Hình 26: Biểu đồ tiến trình chức thêm tài liệu 56 Hình 27: Biểu đồ tiến trình chức sửa tài liệu 56 Hình 28:Biểu đồ tiến trình chức xóa tài liệu 57 Hình 29: Biểu đồ cộng tác quản lý tài liệu 57 Hình 30: User-Case quản lý tác giả 58 Hình 31: Biểu đồ tiến trình thêm tác giả 58 Hình 32: Biểu đồ tiến trình sửa tác giả 59 Hình 33: Biểu đồ tiến trình xóa tác giả 59 Hình 34: Biểu đồ cộng tác quản lý tác giả 60 Hình 35: User-Case quản lý NXBLớp biên: 60 Hình 36: Biểu đồ tiến trình thêm NXB 61 Hình 38: Biểu đồ tiến trình xóa thông tin NXB 62 Hình 39: Biểu đồ công tác quản lý NXB 62 Hình 40: Biểu đồ usercase quản lý thành viên 63 Hình 42: Biểu đồ tiến trình chỉnh sửa user 64 Hình 43: Biểu đồ tiến trình xóa user 64 Hình 44: Biểu đồ cộng tác quản lý user 65 Hình 45: Biểu đồ cộng tác quản lý user 66 Table 5: Bảng thực thể 67 Table 6: Bảng quan hệ thực thể 68 Table 7: Danh sách bảng 71 Table 8: Mô tả bảng tài liệu A01 72 Table 9: Mô tả bảng Catalogue A02 73 Table 10: Mô tả bảng tác giả A04 73 Table 11: Mô tả bảng NXB A05 74 Table 12: Mô tả bảng User A06 74 Table 13: Mô tả bảng subCatalogue A07 75 Table 14: Mô tả bảng Child A08 75 Table 15: Mô tả bảng A11 76 Table 16: Mô tả bảng A12 76 PHẦN 0: LỜI NÓI ĐẦU MỤC TIÊU VÀ Ý NGHĨA CỦA ĐỀ TÀI Máy tính đóng góp phần không nhỏ vào đời sống, trở nên phổ dụng Trong lĩnh vực lưu trữ liệu, cần ổ cứng 10x15x3 cm3 lưu trữ số lượng sách tương ứng với thư viện sách khổng lồ Theo đó, vấn đề tra cứu liệu kho liệu Cũng việc tổ chức thư viện, việc lưu trữ tài liệu điện tử máy tính chia thành loại sách, chủ đề lớn khác Hiện xu người đọc sách coi sách nguồn để tra cứu vấn đề quan tâm, học kiến thức sách mang đến Vấn đề đặt tư vấn cho người dùng sách liên quan nhiều tới chủ đề người dùng yêu cầu (thông qua từ khóa nhập) phân tích nội dung lịch sử truy cập người dùng trước Luận văn đực thực nhằm đề xuất phương thức xây dựng hệ thống hỗ trợ tư vấn với kết sau: - Tư vấn hoàn toàn tự động tài liệu cho người dùng theo từ khóa, lịch sử truy cập người dùng người dùng khác sở thích họ Kết tư vấn ngày xác hệ thống có phân tích cập nhật lịch sử truy cập người dùng - Giới thiệu tài liệu có độ tương tự định với tài liệu nghiên cứu để người dùng lựa chọn tài liệu nghiên cứu - Hệ thống khảo sát (survey) để thu thập ý kiến đánh giá người dùng tương tự tài liệu hệ thống gợi ý Qua đó, thu thập nhiều đánh giá, kết tư vấn cho người dùng sát với vấn đề người ta đặt - Người dùng không thiết phải đăng ký thông tin với hệ thống Hệ thống gợi ý cho người dùng thông qua phân tích nội dung lịch sử truy cập hệ thống - Đáp ứng yêu cầu tìm kiếm trang web (tìm kiếm site riêng internet) Hệ thống hướng tới việc tìm kiếm xây dựng sở liệu động từ internet VẤN ĐỀ GIẢI QUYẾT Có phương pháp chủ đạo dùng hệ tư vấn: Phƣơng pháp lọc cộng tác: phương pháp tập hợp đánh giá quan điểm người dùng, nhận dạng tương đồng người dùng sở phiên giao dịch họ Phiên giao dịch người dùng người dùng đánh từ khóa có tín hiệu search Kết thúc phiên làm việc với từ khóa nhập Phương pháp lọc cộng tác ước lượng hàm đánh giá R(u,i) item i với user u dựa sở đánh giá R(u’,i) user u’ cho item i mà u u’ tương tự Phương pháp lọc cộng tác có vấn đề như: Sự thƣa thớt: thực tế vấn đề người dùng quan tâm (từ khóa) chiếm phần 10 # Tên Mô tả Lệnh SQL [IsActive] [bit] NULL ) ON [PRIMARY] TEXTIMAGE_ON [PRIMARY] GO A06 Người dùng: Chứa CREATE TABLE [dbo].[A06] ( thông tin [A06_ID] [int] IDENTITY (1, 1) NOT NULL , người dùng [A06_Name] [nvarchar] (100) NULL , [A06_UseName] [nvarchar] (100) NOT NULL , [A06_PassWord] [nvarchar] (100) NOT NULL , [A06_Phone] [int] NULL , [A06_Email] [varchar] (100) NULL , [IsActive] [bit] NULL ) ON [PRIMARY] GO A07 Danh mục cấp 2: CREATE TABLE [dbo].[A07] ( Chứa thông tin [A07_ID] [int] IDENTITY (1, 1) NOT NULL , loại tài liệu Danh [A07_Name] [nvarchar] (100) NULL , mục phân cấp 1-2-3 [A07_Code] [char] (5) NOT NULL , Danh mục cấp lớn [A02_ID] [int] NOT NULL , nhất, danh mục [IsActive] [bit] NULL danh mục cấp 1, danh mục ) ON [PRIMARY] danh muc cấp GO A08 Danh mục cấp 3: CREATE TABLE [dbo].[A08] ( Chứa thông tin [A08_ID] [int] IDENTITY (1, 1) NOT NULL , loại tài liệu Danh [A08_Name] [nvarchar] (100) NULL , mục phân cấp 1-2-3 [A08_Code] [char] (8) NOT NULL , Danh mục cấp lớn [A07_ID] [int] NOT NULL , nhất, danh mục [IsActive] [bit] NULL danh mục cấp 1, danh mục ) ON [PRIMARY] danh muc cấp GO A09 Bảng quan hệ: Thành lập quan hệ nhiều nhiều giửa bảng A01 CREATE TABLE [dbo].[A09] ( [A01_ID] [int] NOT NULL , [A04_ID] [int] NOT NULL 70 # Tên Mô tả A04 Lệnh SQL ) ON [PRIMARY] GO A10 Bảng chứa thông tin hệ thống CREATE TABLE [dbo].[A10] ( [A10_ID] [int] IDENTITY (1, 1) NOT NULL , [A10_NumberOfDimensionReduce] [int] NOT NULL , [A10_MaxOfWords] [int] NOT NULL , [A10_MaxOfResultOfLSA] [int] NOT NULL , [A10_MaxOfRelatedDocs] [int] NOT NULL , [A10_DegreeOfAccuracy] [float] NOT NULL ) ON [PRIMARY] 10 A11 Bảng chứa thông tin tài liệu liên quan tới tài liệu CREATE TABLE [dbo].[A11] ( [A11_ID] [int] IDENTITY (1, 1) NOT NULL , [A01_ID] [int] NOT NULL , [A11_RelatedID] [int] NOT NULL , [A11_Index] [float] NOT NULL , [A11_StandIndex] [float] NOT NULL ) ON [PRIMARY] 11 A12 Bảng chứa kết LSA CREATE TABLE [dbo].[A12] ( [A12_ID] [int] IDENTITY (1, 1) NOT NULL , [A01_ID] [int] NOT NULL , [A12_RelatedID] [int] NOT NULL , [A12_Index] [int] NOT NULL , [A12_StandIndex] [float] NOT NULL ) ON [PRIMARY] Table 7: Danh sách bảng 71 Mô tả chi tiết bảng Bảng A01 # Tên trƣờng Kiểu liệu Cho phép Giá Khoá null trị mặ c địn h Kho Ghi ngoà i A01_ID INT NOT NULL Yes No A01_Name NVARCHA R(100) NULL No No A01_Code CHAR(8) NOT NULL No No A01_LinkDow VARCHAR( NULL n 100) No No A01_Decriptio NTEXT n NULL No No A05_ID INT NOT NULL No Yes IsActive BIT NULL No No A01_KeyWord NTEXT s NULL No No Chứa từ khoá đại diện cho nôi dung vb A01_RelatedD NTEXT ocs NULL No No Chứa tài liệu liên quan tới tài liệu mặt nội dung 10 A01_LSA NULL No No Chứa kết phân tích LSA NTEXT Table 8: Mô tả bảng tài liệu A01 72 Chứa link liên kết cho phép download tài liệu A02 # Tên trƣờng Kiểu liệu Cho phép Giá trị Kho Kho Ghi null mặc định á chín ngo h ài A02_ID INT NOT NULL A02_Name Yes No NVARCHAR(100 NULL ) No No A02_Code CHAR(3) NOT NULL No No IsActive BIT NULL No No Kho chín h Kho Ghi ngo ài Table 9: Mô tả bảng Catalogue A02 A04 # Tên trƣờng Kiểu liệu Cho phép null A04_ID INT NOT NULL Yes No A04_Name NVARCHAR(100) NULL No A04_Birthday DATETIME NULL No No No A04_Address NVARCHAR(100) NULL No No A04_NativePlace NVARCHAR(100) NULL No No A04_Phone INT NULL No No A04_Email NVARCHAR(100) NULL No No IsActive BIT NULL No No Table 10: Mô tả bảng tác giả A04 73 Giá trị mặc định Bảng A05 # Tên trƣờng Kiểu liệu Cho phép null A05_ID INT A05_Name Giá trị mặc định Kho chín h Kho Ghi ngo ài NOT NULL Yes No NVARCHAR(100) NULL No A04_Address NVARCHAR(100) NULL No No No A04_Remark NTEXT NULL No No A04_Phone INT NULL No No A04_Email NVARCHAR(100) NULL No No IsActive BIT NULL No No Giá trị mặc định Khoá Kho Ghi ngo ài Table 11: Mô tả bảng NXB A05 Bảng A06 # Tên trƣờng Kiểu liệu Cho phép null A06_ID INT NOT NULL Yes No A06_Name NVARCHAR(100) NULL No A06_UseName NVARCHAR(100) NOT NULL No No No A06_PassWord NVARCHAR(100) NOT NULL No No A04_Phone INT NULL No No A04_Email NVARCHAR(100) NULL No No IsActive BIT NULL No No Table 12: Mô tả bảng User A06 74 Bảng A07 # Tên trƣờng Kiểu liệu Cho phép Giá trị null mặc định Khoá Kho Ghi ngo ài A07_ID INT NOT NULL Yes No A07_Name NVARCHAR(100) NULL No A07_Code CHAR(5) NOT NULL No No No IsActive BIT NULL No No A02_ID INT NOT NULL No Yes Table 13: Mô tả bảng subCatalogue A07 Bảng A08 # Tên trƣờng Kiểu liệu Cho phép null A08_ID INT NOT NULL A08_Name Kho chín h Kho Ghi ngo ài Yes No NVARCHAR(100) NULL No A08_Code CHAR(3) NOT NULL No No No IsActive BIT NULL No No A07_ID INT NOT NULL No Yes Table 14: Mô tả bảng Child A08 75 Giá trị mặc định Bảng A11 # Tên trƣờng Kiểu liệu Cho phép Giá trị Kho Kho Ghi null mặc định á chín ngo h ài A11_ID INT NOT NULL Yes No A01_ID INT NOT NULL No Yes A11_RelatedID INT NOT NULL No No A11_Index FLOAT NULL 0.0 No No A11_StandIndex FLOAT NULL 0.0 No No Table 15: Mô tả bảng A11 Bảng A12 # Tên trƣờng Kiểu liệu Cho phép Giá trị Kho Kho Ghi null mặc định á chín ngo h ài A12_ID INT NOT NULL Yes No A01_ID INT NOT NULL No Yes A12_RelatedID INT NOT NULL No No A12_Index INT NULL No No A12_StandIndex FLOAT NULL 0.0 No No Table 16: Mô tả bảng A12 76 CÁC MODUL 2.1 Modul đọc định dạng tài liệu Có thể xem lại phần để hiểu rõ cách modul đọc tài liệu Modul thiết kế thành file dll để hàm thư viện dùng chương trình Có số điểm cần ý sử dụng modul này: Cú pháp sử dụng: Add reference file EPocalipse.Ifilter.dll Using EPocalipse.Ifilter TextReader reader=new FilterReader(fileName); using (reader) { textBox1.Text=reader.ReadToEnd(); } fileName đường dẫn tuyệt đối file ổ đĩa bao gồm tên phẩn mở rộng Với file pdf, ý version acrobat reader mà ta cài Chú ý nên dùng file pdf với version 7.0.1 2.2 Modul tách từ Modul gồm lớp chính: Lớp clsDictionary:  public static void Init(string path) Lớp khởi tạo từ điển phương thức Init với path đường dẫn tuyệt đối file từ điển Cũng phương thức này, ta định nghĩa cách lưu trữ từ điển (như trình bày trên) để tăng tốc độ cho giải thuật tìm kiếm Trong lớp ý phương thức sau: Đọc file từ điển theo bảng mã Unicode: StreamReader sr = new StreamReader(path, System.Text.Encoding.Unicode); Sắp xếp tăng dần để phục vụ cho giải thuật tìm kiếm nhị phân: arl.Sort(); Phương thức phương thức sẵn có C# cho mảng Nó xếp theo thứ tự tăng dần mã ASCII phần tử Do đó, xếp mảng số mảng string  public static int Term2Id(string Term) Phương thức tiến hành tìm kiếm xâu Term có thuộc từ điển hay không Nếu có, trả lại Id, không trả Trong phương thức này, cài đặt thuật giải tìm kiếm nhị phân (một giải thuật để tăng tốc độ tìm kiếm) Lớp clsPunctuator.cs 77 Lớp thực bước chuẩn hóa văn Nhận biết ký tự dấu chấm câu, dấu chấm mail, hay số hàng nghìn Tách nhiều khoảng trống thành khoảng Chia văn thành đoạn câu Lớp clsSentence.cs Lớp thể cho câu với thuộc tính định Lớp clsTermSplitter.cs Lớp thể giải thuật tách câu thành từ, cụm từ để kiểm tra có từ điển hay không Thuật toán đọc từ thuật “từ trái sang”, trình bày phần Có thể tối ưu giải thuật từ phương thức lớp Lớp clsStopWordRemover.cs Lớp cuối thực phương thức tách câu  public clsStopWordRemover(string path) Lớp khởi tạo với phương thức này, với path file+đường dẫn đầy đủ đến file stopword Lớp lưu file vào biến mảng lớp  public string[] RemoveStopWord(string doc,string pathDic) Lớp gọi tiếp phương thức sau để thực việc tách văn thành từ khóa: clsTermSplitter Splitter = new clsTermSplitter(); clsPunctuator Punctuator = new clsPunctuator(); clsDictionary.Init(pathDic); Phương thức trả mảng từ khóa văn Trong phương thức loại bỏ từ stopword từ mảng từ stopword lưu phương thức khởi tạo stopword Modul tách từ gọi cách using Utils.Spliter; clsStopWordRemover swr = new clsStopWordRemover(this.lbStopFile.Text); string[] result = swr.RemoveStopWord(detail, dicfile); Với dicfile file từ điển gồm đường dẫn detail string văn mà ta đọc vào từ bước trước this.lbStopFile.Text đường dẫn tuyệt đối đến file stopword 78 2.3 Modul LSA Modul thiết kế lớp Util Đầu vào modul tập tài liệu tập từ khóa, đầu cập nhật sở liệu thông tin độ tương đồng tài liệu Thông tin chi tiết xin tham khảo bên đồ án Mr Cường CÀI ĐẶT Chương trình thiết kế với giao diện website Ta cài đặt CSDL, với file backup cung cấp, mã nguồn đưa vào IIS Thư mục website trỏ tới thư mục SS01 79 PHẦN V: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN KẾT LUẬN Ngày nay, internet chở thành cách mạng lớn nhân loại mà động lực phát triển kinh tế mang tính toàn cầu Nhưng phát triển đòi hỏi ngày nhiều sở lưu trữ liệu dẫn đến việc khai thác hiệu liệu trở nên khó khăn Để nâng cao khả sử lý liệu liệu phải chọn lọc trước Một hướng chọn lọc liệu hiểu phân tích ngữ nghĩa văn Toàn văn cô đọng ngữ nghĩa Chính phân tích ngữ nghĩa văn giảm khối lượng lớn câu chữ không hàm chứa thông tin Việc nghiên cứu ngữ nghĩa văn mở hướng phát triển khai thác thông tin liệu Ngữ nghĩa văn mang lại nhiều thuận lợi để thật hiểu rõ phương pháp nghiên cứu phân tích ngữ nghĩa không dễ dàng Do mục tiêu đồ án đặt gồm hài vấn đề sau: Về lý thuyết: Mục tiêu tìm hiểu, nghiên cứu ngữ nghĩa văn bao gồm phần như: Phân tích, tách văn thành tập từ khoá, lọc tách từ khoá văn nhằm cô đọng từ khoá đặc trưng cho ngữ nghĩa văn bản, thống kê trích lọc văn có ngữ nghĩa tương đồng Về phần ứng dụng minh hoạ: Mục tiêu xây dựng ứng dụng mang tính demo khả thi kỹ thuật phân tích ngữ nghĩa Nội dung đề tài đưa rộng thực thiện vòng tháng để hoàn tất đề tài chúng em gặp nhiều khó khăn mặt tìm kiếm tài liệu, đọc hiểu tài liệu số kỹ thuật để vận dụng kiến thức tìm hiểu Nhưng bù đắp lại khó khăn vất vả chúng em tiếp thu nhiều kiến thức lạ bổ ích ứng dụng ngữ nghĩa văn công nghệ thông tin – mở hướng phát triển giớ công nghệ thông tin Kết xứng đáng chúng em hoàn thành mục tiêu, yêu cầu đề đồ án 80 Kết mặt nghiên cứu Qua trình nghiên cứu tìm hiều lĩnh vực ứng dụng ngữ nghĩa văn bản, chúng em hiểu ghi nhận lại số kết đạt sau: Tìm kiếm nhiều tài liệu hay bổ ích ngữ nghĩa văn Nắm kỹ thuật phân tích ngữ nghĩa văn bản, hướng nghiên cứu công nghệ thông tin tương lai Đông thời ý tưởng xuất phát mang lại nhiều lợi ích cho người phát triển kinh tế Kết đạt nghiên cứu ngữ nghĩa văn sau:  Nắm rõ kỹ thuật tách văn với định dạng  Nắm vững kỹ thuật lọc tách từ khoá đặc trưng cho nội dung văn  Tìm hiểu nắm kỹ thuật thống kê trích lọc văn có ngữ nghĩa tương đồng  Tìm hiểu kỹ thuật phân tích logfile Kết mặt phát triển ứng dụng Đối với ứng dụng minh hoạ chúng em hoàn tất mục tiêu đồ án đề nắm vững kỹ thuật: Tổ chức, lưu trữ liệu truy vấn liệu SQL Cách sử dụng kỹ thuật tách văn để tách văn định dạng thành tập từ khoá đại diện cho ngữ nghĩa Cài đặt phát triển kỹ thuật lọc từ khoá cho phép loại bỏ từ khoá hàm chứa ngữ nghĩa văn Cài đặt phát triển kỹ thuật LSA cho phép so sánh độ tương đồng ngữ nghĩa văn Về mặt chương trình kết thu hai phân hệ: Một phân hệ dành cho người sử dụng, phân hệ dành cho người quản trị: Đối với phân hệ người dùng: Hệ thống hỗ trợ việc tìm kiếm tài liệu gợi ý tài liệu dựa ngữ nghĩa vủa văn Cho phép người dùng đăng ký thành viên nhắm nâng cao khả hỗ trợ hệ thông người dùng Đối với phân hệ người quản trị: Hệ thống hỗ trợ việc cập nhập thông tin đối tượng hệ thống thêm, sửa, xoá văn bản, thành viên, cấu hình hệ thống Sau hoàn tất ứng dụng chúng em nắm thêm kiến thức công nghệ: Net, JavaScript, SQLserver, quan trọng chúng em nắm khả phân tích ngử nghĩa văn bản, từ tự động trích rút văn đồng nghĩa 81 Hướng phát triển Vì thời gian phát triển đồ án không nhiều nên chúng em tập trung vào vấn đề đồ án phân tích ngữ nghĩa văn Việc phát triển thuật toán so sánh độ tương đồng văn khai thác liệu đạt nhiều thành công Dựa vào thành mở hướng nhằm tối ưu hoá thuật toán nâng cao độ xác kết Đồng thời mở rộng nguồn liệu nhờ trực tiếp tìm kiếm liệu mạng hay cải thiện tính tìm kiếm nhờ sử dụng engine có sẵn Dựa khả phát triển đó, đồ án hoàn thiện có thêm tính sau: Thu thập liệu trực tuyến Dữ liệu trực tuyến mạng tài nguyên gần vô hạn Nếu có chế cho phép khai thác liệu mạng đầu vào cho hệ thống chức hệ thống đạt hiệu cao phong phú Hơn nữa, việc có nguồn liệu động công việc cập nhập liệu không cần thiết, việc lý liệu coi tiến hành tự động Tóm lại, hệ thống cần module cho phép lấy liệu trực tuyến Đây hướng phát triển chủ chốt củ đồ án nhằm làm cho đồ án hoàn thiện có tính ứng dụng thực tế cao Thông tin ngƣời dùng Thông tin người dùng hệ thống website đơn tổ chức lưu trữ dạng bảng liệu Thông tin người dùng đáp ứng vai trò xác thực hệ thống chưa góp phần thể nhu cầu cá nhân Việc nghiên cưa thức tổ chức lưu trữ thông tin người dùng hiệu đem lại kết bất ngờ, giúp hệ thống gợi ý tìm kiếm nhân người dùng Đây điển nhấn hệ web mới, hướng tới cá nhân người dùng Vậy cách thức tổ chức lưu trữ thông tin người dùng hướng mở đồ án Đồng thời việc thu thập thông tin người dùng kỹ thuật cần phải nghiên cứu Hiện chúng em ý tới hai cách thức thu thập thông tin người dùng Một thu thập tĩnh, dựa form đăng ký feedback người dùng Hai thu thập động, dựa kỹ thuật trích lọc thông tin thông qua phân tích logfile Các kỹ thuật phân tích logfile phát triển ứng dụng từ internet đời Tuy nhiên tuỳ vào mục đích hệ thống việc phân tích logfile sử dụng kỹ thuật khác Ở chúng em muốn nhấn mạnh tới khả mà phân tích logfile đáp ứng thu thập thông tin người dùng Phát triển module cho phép quản lý thông tin người dùng có ích cho hệ thông tìm 82 kiếm, gợi ý Hệ thông mang tính hướng người dùng kết hệ thống lọc dựa thông tin quan tâm người dùng Sử dụng search engine Ngày nay, kỹ thuật tìm kiếm không đạt độ xác cao mà đạt tốc độ cao Tốc độ tiêu chuẩn cạnh tranh cho hệ thống tìm kiềm Google lên site tìm kiếm toàn cầu với độ xác cao nhanh Không Google cho phép hệ thống khác sử dụng thành module search engine Module cho phép hệ thống lấy kết tìm kiếm cách nhanh chóng dựa tài nguyên mà máy chủ google cung cấp Nếu hệ thống sử dụng module hiệu tìm kiếm nâng cao Đây hướng phát triển hệ thống tương lai 83 TÀI LIỆU THAM KHẢO [1] Cải tiến giải thuật CYK cho toán phân tích cú pháp tiếng Việt -Đinh ThịPhương Thu, Huỳnh Quyết Thắng, Hoàng Vĩnh Sơn [2] Gán nhãn từ loại cho tiếng Việt dựa văn phong - Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ [3] Kết hợp xử lý ngôn ngữ tự nhiên mạng Kohonen để nâng cao khả gom cụm văn tiếng Việt -Đỗ Phúc, Mai Xuân Hùng, Nguyễn Thị Kim Phụng [4] A case study of the probabilistic tagger QTAG for Tagging Vietnamese Texts Nguyen Thi Minh Huyen,Vu Xuan Luong, Le Hong Phuong [5] Dinh Dien, Từ tiếng Việt, Vietnam National University, HCMC, Vietnam, 2000 [6] Dinh Dien, Hoang Kiem, Nguyen Van Toan, Vietnamese Word Segmentation, The Sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan 2001, pp749-756 [7] Automata and Formal Language An Introduction – Dean Kelley – Prentice Hall, Englewood Cliffs, New Jersey 07632 [8] Compilers : Principles, Technique and Tools - Alfred V.Aho, Jeffrey D.Ullman Addison - Wesley Publishing Company, 1986 [9] Compiler Design – Reinhard Wilhelm, Dieter Maurer - Addison - Wesley Publishing Company, 1996 [10] Design of Compilers : Techniques of Programming Language Translation - Karen A Lemone - CRC Press, Inc, 1992 [11] Modern Compiler Implementation in C - Andrew W Appel - Cambridge University Press, 1997 [12] Hoàng Văn Hành.1997 Ngữ nghĩa học – Các khuynh hướng phương pháp phân tích ngữ nghĩa Hà nội [13] PTS Vương Tất Đạt Logich hình thức Trường Đại học Sư Phạm Hà Nội [14] Đặng Thị Hưởng Semantics, TP.Hồ Chí Minh 1997 (Tài liệu lưu hành nội bộ) [15] Trương Gia Vinh Những giảng Cơ sở Ngôn ngữ học BXB Đại Học mở Bán công TP.HCM.(Tài liệu lưu hành nội bộ) [16] Nguyễn Thiện Giáp (chủ biên) Dẫn luận Ngôn ngữ học NXB Giáo dục 2000 [17] Trần Văn Cơ Ngôn ngữ Đại học sư phạm TP.Hồ Chí Minh.1986 [18] Roderick A Jacobs English syntax A Grammar for English language professionals Oxford American English [19] A.S Hornby Guide to patterns and usage in English Second edition 84 [...]... là phân tích ngữ nghĩa tiềm ẩn (LSA), là phần kia của đồ án Xin vui lòng xem đồ án của Mr Cường sẽ có trình bầy chi tiết về phương pháp LSA, và áp dụng của nó trong việc phân tích nội dung của tài liệu 2.3.3 Nhận xét, kết luận Phân tích ngữ nghĩa là một khâu rất quan trọng trong hệ thống gợi ý Bước tách từ vựng đã tách tài liệu thành các từ khóa và nó đặc trưng cho tài liệu đó Hệ thống sẽ tìm kiếm trong. .. chọn một tài liệu (A), hệ thống gợi thống gợi ý các tài liệu có liên quan (dựa vào phân tích LSA trước và phân tích lịch sử phiên làm việc) Khi người dùng chọn một tài liệu (B) tiếp theo trong phần của hệ thống gợi ý để đọc, hệ thống ghi nhận tài liệu B có liên quan nhất trong phiên làm việc đó với tài liệu A Và cứ thế, hệ thống sẽ cập nhật và đánh giá lại sự liên quan nhất định của các tài liệu qua... bộ tập dữ liệu, để thấy những tài liệu khác chứa một số từ tương được với các từ đó LSI được phát triển đầu tiên ở Bellcore trong cuối những năm 80 LSI xem các tài liệu có nhiều từ thông dụng là có nghĩa, và xem những tài liệu ít từ thông dụng là ít có nghĩa Mặc dù thuật giải LSI không hiểu tí gì về nghĩa của các từ, nó nhận ra các khuân mẫu Khi bạn tìm kiếm một CSDL chỉ mục LSI, công cụ tìm kiếm này... các tài liệu mà nó nghĩ là thích hợp nhất với câu truy vấn Bởi vì hai tài liệu có thể rất gần nghĩa với nhau thậm chí nếu chúng không cùng chung một từ khóa đặc biệt, LSI không yêu cầu một sự phân tích lấy tương xứng để trả về các kết quả hữu dụng Ở những vị trí mà một tìm kiếm theo từ khóa đơn giản sẽ không thực hiện được nếu không có phân tích lấy tương xứng, thì LSI sẽ thường trả về những tài liệu. .. một tài liệu mà hệ thống đưa ra để gợi ý cho tài liệu đang đọc, hệ thống sẽ cập nhật hệ số tương quan giữa 2 tài liệu đó, phục vụ cho các kết quả tư vấn ở lần tiếp theo Nhận và tiền xử lý query Hiển thị kết quả ra browser Câu truy vấn Tài liệu trả về Xử lý tác thao tác người dùng Xử lý query, tạo kết quả trả Tài liệu chứa từ khóa trong query Tài liệu có liên quan với tài liệu kết quả Truy vấn CSDL (tài. .. đồng cho tài liệu là rất nhỏ so với rất nhiều tài liệu của hệ thống Với hệ thống gợi ý trong luận văn này, các đánh giá, các nhận định sẽ được lưu lại dần dần, loại bỏ dần những kết quả không chính xác Vấn đề tài nguyên mới: Hệ thống không ngừng cập nhật các tài liệu mới cho kho dữ liệu của mình Mỗi lần thêm một tài liệu mới, hệ thống sẽ tính lại (off-line) là phân tích độ tương đồng về ngữ nghĩa giữa... lưu trữ tài liệu dần chuyển sang lưu trữ số trên máy tính Các hệ thống thư viện điện tử, thư viện trực tuyến ngày càng được sử dụng rộng rãi Theo đó, là các vấn đề liên quan đến tìm kiếm, chia theo danh mục và gợi ý nội dung đọc Ebook cho người dùng Trên internet, chúng ta đã có rất nhiều các công cụ tìm kiếm và gợi ý các tài liệu cần đọc và những tài liệu liên quan Thí dụ như công cụ tìm kiếm của... trên ngữ liệu kết hợp với tri thức có sẵn là hướng tiếp cận đang được nhiều nhà ngôn ngữ học – máy tính quan tâm 30 2.3.2 Phân tích ngữ nghĩa tiềm ẩn (LSA) Cũng liên quan tới mảng ngữ nghĩa của từ, trong đồ án tốt nghiệp này, chúng tôi khai thác chiều khác của phân tích về mặt ngữ nghĩa Ngoài việc tương đồng từ khóa về mặt hình thức (về bản mặt từ), chúng tôi còn đề cập tới tương đồng về nội dung của tài. .. xuống một không gian K chiều, K

Ngày đăng: 10/04/2016, 17:32

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan