hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

133 432 0
hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

nghiên cứu về hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ViệtAnhHoa MỤC LỤC MỤC LỤC 1 MỞ ĐẦU 3 Chương 1: TỔNG QUAN . 5 1.1 Giới thiệu mô hình tìm kiếm thông tin (Information Retrieval): 5 1.2 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR): .9 1.2.1 Khái niệm: 9 1.2.2 Các vấn đề của CLIR: .10 1.3 Các hướng tiếp cận: 11 1.3.1 Dịch máy (Machine Translation for Text Translation): 11 1.3.2 Dựa trên từ điển đa ngữ (Multilingual Thesauri): .14 1.3.3 Dựa trên ngữ liệu (Corpus-based techniques): .22 1.4 Một số công trình nghiên cứu trong và ngoài nước: .30 1.4.1 Ở Việt Nam: .30 1.4.2 Trên thế giới: .31 1.5 Kết luận: 32 Chương 2: CƠ SỞ LÝ THUYẾT . 35 2.1 Giới thiệu về MRD (Machine Readable Dictionary) .35 2.1.1 Sơ lược lịch sử phát triển MRD trên thế giới: 35 2.1.2 Vai trò và cấu trúc của MRD: 39 2.1.3 Khai thác tài nguyên từ điển: .41 2.1.4 Xây dựng từ điển tự động: 42 2.1.5 Cấu trúc vĩ mô và vi mô của từ điển MRD: 43 2.1.6 Một số từ điển MRD: 43 2.2 Các phương pháp tách từ: .51 2.2.1 Mô hình WFST: .51 2.2.2 Mô hình MMSEG: 57 2.3 Các phương pháp khử nhập nhằng: .64 2.3.1 Giới thiệu: 64 2.3.2 Khử nhập nhằng: .65 2.4 Kết luận: 70 Chương 3: PHÂN TÍCH và THIẾT KẾ . 72 3.1 Tổng quan hệ thống: .72 3.1.1 Phát biểu bài toán: 72 3.1.2 Mô hình hệ thống: .72 3.1.3 Phát sinh quản lý: 73 3.2 Phân tích – thiết kế hệ thống: 76 3.2.1 Mô hình Usecase: .76 3.2.2 Đặc tả usecase: .77 3.2.3 Sơ đồ tuần tự: 78 3.2.4 Thiết kế lớp: .81 3.2.5 Thiết kế giao diện: .94 GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 1 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ViệtAnhHoa 3.3 Xây dựng hệ thống: 97 3.3.1 Tổ chức các MRD: .97 3.3.2 Phương pháp tìm kiếm dựa trên MRD: 106 3.3.3 Tìm kiếm tài liệu bằng công cụ tìm kiếm: .110 CHƯƠNG 4: CÀI ĐẶT VÀ THỬ NGHIỆM . 112 4.1 Cài đặt: .112 4.1.1 Tiền xử lý: 112 4.1.2 Cấu trúc dữ liệu: 112 4.1.3 Dịch từ từ điển: 113 4.1.4 Khử nhập nhằng : 113 4.1.5 Tìm kiếm: .116 4.2 Thử nghiệm: 117 4.2.1 Module dịch và khử nhập nhằng: 117 4.2.2 Chương trình demo trên web: 117 4.3 Đánh giá : .119 4.3.1 Module dịch và khử nhập nhằng: 119 4.3.2 Chương trình tìm kiểm trên Web: .120 Chương 5: KẾT LUẬN và HƯỚNG PHÁT TRIỂN . 122 5.1 Kết luận: 122 5.2 Huớng phát triển: .122 5.2.1 Đối với từ điển và ngữ liệu: 122 5.2.2 Đối với IR Engine: .123 5.2.3 Mở rộng ngôn ngữ tìm kiếm cho hệ thống: 124 PHỤ LỤC . 125 TÀI LIỆU THAM KHẢO 132 GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 2 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ViệtAnhHoa MỞ ĐẦU Với sự phát triển nhanh chóng của công nghệ tin học, khối lượng thông tin được lưu trữ trên máy tính ngày càng nhiều. Vì vậy cần có các hệ thống tìm kiếm thông tin (Information Retrieval) cho phép người dùng tìm kiếm một cách chính xác và nhanh nhất các thông tin mà họ cần trên kho tư liệu khổng lồ này. Hơn nữa, trong xu thế toàn cầu hóa như hiện nay, rất nhiều các tổ chức, các công ty quốc tế hình thành, lại xuất hiện một nhu cầu mới trong việc tìm kiếm thông tin đó là tìm kiếm thông tin đa ngữ để người dùng có thể khai thác một cách hiệu quả nhất kho tài liệu đa ngữ mà họ có. Một ví dụ cụ thể về kho tư liệu đa ngữ là Internet. Các trang Web bằng nhiều ngôn ngữ khác nhau xuất hiện ngày càng nhiều, trong khi các công cụ tìm kiếm đơn ngữ (search engine) chỉ có thể trả về các tài liệu được viết cùng ngôn ngữ với ngôn ngữ của câu truy vấn (query). Do đó vấn đề đặt ra là liệu có thể xây dựng một hệ tìm kiếm thông tinthông tin trả về là tất cả các tài liệu ở các ngôn ngữ khác nhau trong kho tư liệu có liên quan đến câu truy vấn (không phụ thuộc vào ngôn ngữ của câu truy vấn). Đây chính là bài toán đặt ra cho việc nghiên cứu các hệ tìm kiếm đa ngữ/ xuyên ngữ (multilanguage IR/ cross language IR). Mục tiêu của các hệ thống tìm kiếm xuyên ngữ là cung cấp công cụ cho người dùng để có thể mô tả nhu cầu tìm kiếm thông tinngôn ng ữ mà mình diễn đạt giỏi nhất (thường là tiếng mẹ đẻ), hệ thống sẽ phải trả về tất cả các tài liệu ở tất cả các ngôn ngữ có trong kho tư liệu đang tìm kiếm có liên quan đến nhu cầu thông tin của người dùng. Trên đây là nhu cầu chung của hầu hết các ngôn ngữ và tiếng Việt của chúng ta cũng không phải là ngoại lệ. Khác với các ngôn ngữ khác, tiếng Việt có nhiều đặ c điểm riêng biệt và rất khó xử lý bằng máy tính, nên các đề tài nghiên cứu hay các chương trình ứng dụng liên quan đến các hệ thống tìm kiếm bằng tiếng Việt còn rất ít. Mà nhu cầu tìm kiếm tài liệu trên kho tàng kiến thức của thế giới của người Việt là rất lớn. Với mong muốn phát triển nhiều hơn nữa các hệ thống tìm kiếm xuyên ngôn ngữ bằng tiếng Việt, chúng tôi xây dựng “Hệ thố ng tìm kiếm thông tin xuyên ngôn ngữ Việt – GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 3 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ViệtAnhHoa Anh – Hoa” cho phép người dùng nhập câu truy vấn bằng tiếng Việt và trả về các tài liệu có liên quan bằng tiếng Việt, tiếng Anh và tiếng Hoa. Trong luận văn này chúng tôi lựa chọn tiếng Anh và tiếng Hoa là hai đại diện tiêu biểu cho hai loại hình ngôn ngữ biến hình và đơn lập. Từ đó cho thấy rằng hệ thống tìm kiếm thông tin xuyên ngữ có thể thực thi trên hai loại hình ngôn ngữ khác nhau. Bố cục của luận văn gồm các chương sau: • Chương 1 – TỔNG QUAN : giới thiệu tổng quan về hệ thống tìm kiếm (IR), hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR), các hướng tiếp cận và các vấn đề cần giải quyết của hệ thống. • Chương 2 – CƠ SỞ LÝ THUYẾT: trình bày cơ sở lý thuyết và các phương pháp đã nghiên cứu trong luận văn. • Chương 3 – PHÂN TÍCH VÀ THIẾT KẾ: phân tích và thiết kế hệ thống. • Ch ương 4 – CÀI ĐẶT VÀ KIỂM TRA: cài đặt, kiểm thử chương trình. • Chương 5 – KẾT LUẬN và HƯỚNG PHÁT TRIỂN: trình bày các kết quả đạt được, các đánh giá về hệ thống và hướng phát triển trong tương lai. • Phần TÀI LIỆU THAM KHẢO và PHỤ LỤC: trình bày các thông tin có liên quan được sử dụng trong luận văn. GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 4 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ViệtAnhHoa Chương 1: TỔNG QUAN Trong chương này, chúng tôi sẽ trình bày khái quát về các hệ thống tìm kiếm (Information Retrieval), hệ thống tìm kiếm thông tin xuyên ngôn ngữ (Cross-Language Information Retrieval) và một số khảo sát về tình hình nghiên cứu trong và ngoài nước. Cuối chương chúng tôi sẽ rút ra kết luận chung và lựa chọn hướng tiếp cận cho hệ thống của mình. Nội dung trình bày bao gồm: 9 Giới thiệu mô hình tìm kiếm thông tin. 9 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ. 9 Một số công trình nghiên cứu trong và ngoài nước. 9 K ết luận. 1.1 Giới thiệu mô hình tìm kiếm thông tin (Information Retrieval): Hệ thống tìm kiếm thông tin xuyên ngữ (Cross Language Information Retrieval - CLIR) có liên hệ rất mật thiết với hệ thống tìm kiếm thông tin (Information Retrieval - IR) và cũng có rất nhiều đặc trưng của hệ thống này (IR). Qui trình của hệ thống tìm kiếm thông tin như sau: • Người dùng muốn xem những tài liệu liên quan đến một chủ đề nào đó. • Người dùng cung cấp một mô tả về chủ đề đó dưới dạng câu truy vấn. • Từ câu truy vấn này hệ thống sẽ lọc ra những cụm từ chỉ mục. • Những cụm từ chỉ mục này sẽ được so khớp với những cụm từ chỉ mục của các tài liệu đã được xử lý trước đó. • Những tài liệu nào có mức độ liên quan cao nhất sẽ được trả về cho người dùng. GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 5 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ViệtAnhHoa Mục đích của IR là hiển thị cho người dùng một tập các thông tin thỏa mãn nhu cầu của họ. Chúng ta định nghĩa chính xác cho thông tin cần thiết là “câu truy vấn”(query), và các thông tin được chọn là “tài liệu” (documents). Mỗi cách tiếp cận trong IR bao gồm 2 thành phần chính: một là các kỹ thuật để biểu diễn thông tin (câu truy vấn, tài liệu), và hai là phương pháp so sánh các cách biểu diễn này. Mục đích là để tự động qui trình kiểm tra các tài liệu bằng cách tính toán độ tương quan giữa các câu truy vấn và tài liệu. Qui trình tự động này thành công khi nó trả về các kết quả giống với các kết quả được con người tạo ra khi so sánh câu truy vấn với các tài liệu. Có một vấn đề thường xảy ra đối với hệ thống tìm kiếm là những từ mà người dùng đưa ra trong câu truy vấn thường khác xa những từ trong tập tài liệu chứa thông tin mà họ tìm kiếm. Trường hợp như thế gọi là “paraphrase problem” (vấn đề về di ễn giải). Để giải quyết vấn đề này hệ thống đã tạo ra các hàm biểu diễn xử lý các câu truy vấn và các tài liệu một cách khác nhau để đạt đến một độ tương thích nào đó. d Hàm biểu diễn câu truy vấn Không gian biểu diễn R [ 0,1 ] Xử lý của con người j Hàm biểu diễn tài liệu Câu truy vấn Biểu diễn 2 Tài liệu c Hàm so sánh q Biểu diễn 1 [ 0,1 ] Không gian tài liệu D Không gian câu truy vấn Q GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 6 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ViệtAnhHoa Hình 1.1: Mô hình hệ thống tìm kiếm thông tin Gọi miền xác định của hàm biểu diễn câu truy vấn q là Q, tập hợp các câu truy vấn có thể có; và miền giá trị của nó là R, không gian thống nhất biểu diễn thông tin. Gọi miền xác định của hàm biểu diễn tài liệu d là D, tập hợp các tài liệu; và miền giá trị của nó là R 2 . Miền xác định của hàm so sánh c là R x R và miền giá trị của nó là [0,1], tập các số thực từ 0 đến 1. Trong một hệ thống tìm kiếm lí tưởng: c(q(query), d(doc)) = j(query, doc) , ∀query∈ Q, ∀doc ∈ D, khi j: Q x D --> [0,1] biểu diễn việc xử lý của người dùng giữa các mối quan hệ của 2 thông tin, được tính dựa trên một tiêu chuẩn nào đó (ví dụ: sự giống nhau về nội dung hay sự giống nhau về kiểu …). Hình 1.1 minh họa mối quan hệ này. Có hai kiểu hệ thống tìm kiếm: tìm kiếm dựa trên so khớp chính xác và dựa trên sắp xếp. Mô hình trên đây có thể mô tả cả 2 cách tiếp cận. Trong hệ thống tìm kiếm dựa trên so khớp chính xác, miền giá trị của c được giới hạn từ 0 đến 1, và nó được chuyển sang nhị phân để quyết định liệu 1 tài liệ u có thỏa biểu thức bool được xác định bởi câu truy vấn hay không? Các IR dựa trên so khớp chính xác thường cung cấp các tài liệu không sắp xếp thỏa câu truy vấn của người dùng, hầu hết các hệ thống tìm kiếm hiện nay đều dùng cách này. Cách hoạt động chi tiết của hệ thống sẽ được mô tả ở phần sau. Đối với hệ thống IR dựa trên sắp xếp, thì các tài liệu sẽ được sắp xếp theo th ứ tự giảm dần về mức độ liên quan. Có 3 loại hệ thống tìm kiếm dựa trên sắp xếp: “ranked Boolean”, “probabilistic” và “similarity based”. Trong 3 cách trên miền giá trị của c là [0,1], tuy nhiên chúng khác nhau ở cách tính “giá trị trạng thái tìm kiếm” (“retrieval status value”): • Trong hệ thống dựa trên “ranked Boolean” giá trị này là mức độ mà thông tin thỏa mãn biểu thức bool được chỉ ra bởi các thông tin còn lại. GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 7 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ViệtAnhHoa • Trong hệ thống dựa trên “probabilistic” , khái niệm này hơi khác một chút, giá trị này là xác suất mà thông tin có liên quan đến một câu truy vấn. Rất nhiều hệ thống tìm kiếm dựa trên xác suất được thiết kế để chấp nhận câu truy vấn được diễn tả bằng ngôn ngữ tự nhiên hơn là một biểu thức bool. • Trong hệ thống tìm kiếm dựa trên sự giống nhau, giá trị trạng thái tìm kiếm được tính bằ ng cách tính mức độ giống nhau của nội dung thông tin. Trong các hệ thống tìm kiếm dựa trên so khớp chính xác, việc đánh giá hệ thống chủ yếu dựa trên việc đánh giá mức độ liên quan. Giả sử j là giá trị nhị phân và được cho trước. Nói cách khác, ta giả sử rằng các tài liệu hoặc có hoặc không có liên quan đến câu truy vấn, và độ liên quan giữa tài liệu và câu truy vấn do con người xác định là chính xác. Theo giả định này, tính hiệu quả của các hệ thống tìm kiếm dựa trên so khớp chính xác được đánh giá dựa trên 2 đại lượng thống kê là “độ chính xác” (precision) và “độ bao phủ” (recall). Độ chính xác là tỉ lệ các tài liệu được chọn, các tài liệu thực sự liên quan đến các thông tin mà người dùng cần, độ bao phủ là tỉ lệ tài liệu có liên quan được sắp xếp chính xác theo độ liên quan bởi hệ thống tìm kiếm. Nói cách khác, độ chính xác bằng 1 trừ đi tỉ lệ cảnh báo sai, trong khi đó độ bao phủ đo mức độ hoàn chỉnh của việc tìm kiếm. Bảng 1.1 minh họa cho các mối quan hệ này. Actually is Selected as Relevant Not relevant Relevant Found False alarm Not Relevant Missed alarmFalseFound Found ecision + =Pr MissedFound Found call + =Re GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 8 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ViệtAnhHoa Bảng 1.1: Tính độ hiệu quả của hệ thống tìm kiếm thông tin Việc đánh giá tính hiệu quả của hệ thống tìm kiếm dựa trên sắp xếp thì phức tạp hơn. Một cách tính độ hiệu quả phổ biến cho các hệ thống này là “độ chính xác trung bình”. Nó được tính bằng cách chọn một tập lớn hơn các tài liệu ở đầu danh sách có giá trị bao phủ giữa 0 và 1. Phương pháp thường được sử d ụng là phương pháp tính dựa trên 5, 7, 11 điểm theo độ bao phủ. Độ chính xác sau đó sẽ được tính cho từng tập một. Qui trình sẽ được lặp lại cho từng câu truy vấn, và tương ứng mỗi độ chính xác trung bình sẽ cho một độ bao phủ. Mỗi giá trị trung bình của những số này sau đó sẽ được tính toán và ghi nhận như là một đặc trưng của hệ thống. Độ chính xác trung bình càng lớn thì càng tốt, và việc so sánh chỉ thực sự có ý nghĩa khi chúng ta sử dụng cùng một tập tài liệu và câu truy vấn. Tuy nhiên độ chính xác trung bình cũng làm giảm đi mức độ thay đổi của các câu truy vấn có các đặc tính khác nhau (ví dụ như số lượng tài liệu có liên quan khác nhau). Hơn thế nữa, các tài liệu có liên quan thường tập trung ở đầu danh sách sắp xếp nên thông thường độ chính xác sẽ giảm mỗi khi tập tài liệu được mở rộng để tăng độ bao phủ. 1.2 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR): 1.2.1 Khái niệm: Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR) là hệ thống tìm kiếm (IR) cho phép người dùng nhập câu truy vấn bằng một ngôn ngữ để tìm kiếm các tài liệu trong một ngôn ngữ khác. Đối tượng sử dụng hệ thống tìm kiếm thông tin xuyên ngữ (CLIR) là: • Những người có khả năng đọc các tài liệu tiếng nước ngoài, nhưng gặp khó khăn khi tạo câu truy vấn bằng ngôn ngữ đó. • Những người gặp khó kh ăn khi đọc/ tìm kiếm các tài liệu tiếng nước ngoài nhưng lại cần một số lượng giới hạn các tài liệu được tìm kiếm bằng CLIR để sử dụng trong các hệ thống dịch máy (MT), thay vì phải dịch toàn bộ tập hợp các tài liệu. GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 9 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ViệtAnhHoa • Những người biết các từ khóa hoặc cụm từ tiếng nước ngoài, và muốn đọc các tài liệu có liên quan với những từ khóa hoặc cụm từ đó bằng ngôn ngữ bản xứ. 1.2.2 Các vấn đề của CLIR: Vì câu truy vấn do người dùng nhập vào và các tài liệu được tìm kiếm ở hai ngôn ngữ khác nhau nên CLIR cần phải có qui trình chuyển ngữ cùng với qui trình tìm kiếm theo cách tìm kiếm truyền thống của các hệ đơn ngữ. Các hệ tìm kiếm đơn ngữ hiện nay thực hiện rất tốt qui trình tìm kiếm đơn ngữ. Và vấn đề chính chúng ta cần quan tâm ở đây làm thế nào để qui trình chuyển ngữ có thể được thực hiện tốt nhất. Chính qui trình chuyển ngữ này đã làm phát sinh rất nhiều vấn đề trong CLIR. Vấn đề đầu tiên là làm sao biết được một từ trong ngôn ngữ này được viết như thế nào trong ngôn ngữ khác? Vấn đề thứ hai là làm sao quyết định được cách dịch nào sẽ được giữ lại? Vấn đề thứ ba là làm sao xác định được tầm quan trọng khác nhau giữa các bản dịch khi có nhiều bản dịch được giữ lại. Hai vấn đề đầu tiên, làm sao để dịch và làm sao để loại bỏ bớt bản dịch, là hai vấn đề của các hệ thống dịch máy . Hệ thống CLIR có thể loại bỏ một vài cách dịch và giữ lại một số khác bằng cách khử nhập nhằng. Tuy nhiên, việc giữ lại một số cách dịch nhập nhằng giúp cho hệ thống tìm kiếm gia tăng độ bao phủ của nó. Vấn đề thứ ba của CLIR có liên quan đến cách xử lý các bản dịch tương đương, là điều giúp chúng ta phân biệt CLIR với dịch máy và tìm kiếm thông tin đơn ngữ. Giả sử rằng câu truy vấn ban đầu có hai từ phân biệt. Nếu từ đầu tiên có thể được dịch sang nhiều cách khác nhau, và nếu từ thứ hai chỉ có thể được dịch sang một cách duy nhất, thì hệ thống tìm kiếm sẽ không tăng trọng số cho từ đầu tiên, bởi vì nó có nhi ều lựa chọn khi dịch. Điều này minh họa cho vấn đề tính trọng số của các cách dịch, đặc biệt là đối với hệ thống CLIR. Một tài liệu chứa một cách dịch của mỗi từ trong câu truy GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 10 [...]... điển cho hệ thống tìm kiếm xuyên ngữ , “Kỹ thuật dịch ngữ và mở rộng câu truy vấn cho hệ thống tìm kiếm xuyên ngữ , “Giải quyết việc khử nhập nhằng cho GVHD: TS Hồ Bảo Quốc TS Đinh Điền 31 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ViệtAnhHoa tìm kiếm xuyên ngữ Trong đó, họ đã sử dụng từ điển song ngữ Anh- Tây Ban Nha để tìm kiếm các... quan hệ gấn nhất với hệ thống tìm kiếm xuyên ngữ hiện tại Bảng 1.2 cho thấy một vài kiểu từ điển đồng nghĩa phổ biến được sử dụng trong các hệ thống tìm kiếm xuyên ngữ Các thông tin chi tiết hơn về từ điển xuyên ngữ sẽ được trình bày ở phần sau GVHD: TS Hồ Bảo Quốc TS Đinh Điền 14 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ViệtAnh – Hoa. .. Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ViệtAnhHoa Hình 1.2 Tích hợp tìm kiếm xuyên ngữ với dịch máy Có lẽ hầu hết các hướng tiếp cận trực tiếp đến tìm kiếm xuyên ngôn ngữ là việc thực thi q hoặc d bằng cách sử dụng hệ thống dịch hoàn toàn tự động để mang câu truy vấn và tài liệu vào không gian biểu diễn R dựa trên một ngôn ngữ nhất định... cuối cùng là cho phép hệ thống NLP nhận bất cứ đầu vào nào của ngôn ngữ đang xét Điều này là một thách thức lớn khi xét đến kho thành ngữ sẵn có trong tiếng Anh và một số ngôn ngữ khác đặc biệt là văn nói GVHD: TS Hồ Bảo Quốc TS Đinh Điền 35 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ViệtAnhHoa Tuy nhiên để hệ thống NLP có thể giải... các hệ thống thương mại đều sử dụng hướng tiếp cận tìm kiếm dựa trên so khớp chính xác Các từ điển đa ngữ phức tạp đã và đang được phát triển trong 4 9 ngôn ngữ là: Đan Mạch, Hà Lan, Anh, Pháp, Đức, Hy Lạp, Ý, Bồ Đào Nha và Tây Ban Nha GVHD: TS Hồ Bảo Quốc TS Đinh Điền 17 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ViệtAnhHoa nhiều ngôn. .. này không cần con người xây dựng Giống như các kỹ thuật tìm kiếm xuyên ngôn GVHD: TS Hồ Bảo Quốc TS Đinh Điền 23 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ViệtAnhHoa ngữ khác, kỹ thuật xây dựng từ điển tự động là một nghiên cứu quan trọng kế thừa từ ngữ cảnh của tìm kiếm đơn ngữ Một số lượng đáng kể các nghiên cứu về đề tài này đã... xuất xuyên ngữ là các cụm từ ban đầu sẽ bị loại ra khỏi câu truy vấn mở rộng nếu nó không mang cùng một nghĩa trong cả 2 ngôn ngữ GVHD: TS Hồ Bảo Quốc TS Đinh Điền 19 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ViệtAnhHoa Một khía cạnh khác của dự án EMIR[2] là việc ứng dụng việc phân rã nhanh nhưng không sâu để tận dụng thông tin ngữ. .. nghĩa xuyên ngữ 2 Các mối 2 Đặc tả của đồng nghĩa xuyên ngữ có thể không hoàn toàn vì có một số cụm từ có thể không có bản dịch trực tiếp trong một ngôn ngữ khác GVHD: TS Hồ Bảo Quốc TS Đinh Điền 15 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ViệtAnhHoa quan hệ kế thừa về khái niệm (cụm từ rộng hơn, hay hẹp hơn) và mối quan hệ kết... cách dịch nào có cùng từ loại 1.3.2.1 Hệ thống vốn từ được quản lí: Trước năm 1973 người ta cho rằng cả hệ thống vốn từ được quản lý và hệ thống tìm kiếm khái niệm bằng từ điển đa ngữ đều có thể thực thi xuyên ngữ giống như là việc thực thi bên trong một ngôn ngữ với cùng kỹ thuật Trước năm 1977 đã có 4 hệ thống tìm kiếm xuyên ngữ được thực thi ở châu Âu Từ các hệ thống này, nổi lên 6 tiêu chí 3 Giải... Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ViệtAnhHoa Nói cách khác, những từ ngữ không quan trọng bị bỏ đi và những từ ngữ quan trọng có liên quan ngày càng được chuẩn hóa tốt hơn Trong thí nghiệm TREC-4, Davis và Dunning[3] đã thử 3 kỹ thuật dịch vector cho các thuật ngữ khá phức tạp Sử dụng 80.000 cặp câu đã gióng hàng trong một ngữ liệu bao . kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Bảng 1.1: Tính độ hiệu quả của hệ thống tìm kiếm thông tin Việc đánh giá tính hiệu quả của hệ thống tìm kiếm. nhiều hơn nữa các hệ thống tìm kiếm xuyên ngôn ngữ bằng tiếng Việt, chúng tôi xây dựng Hệ thố ng tìm kiếm thông tin xuyên ngôn ngữ Việt – GVHD: TS.

Ngày đăng: 12/04/2013, 13:24

Hình ảnh liên quan

9 Giới thiệu mô hình tìm kiếm thông tin. - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

9.

Giới thiệu mô hình tìm kiếm thông tin Xem tại trang 5 của tài liệu.
Hình 1.2 Tích hợp tìm kiếm xuyên ngữ với dịch máy. - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Hình 1.2.

Tích hợp tìm kiếm xuyên ngữ với dịch máy Xem tại trang 12 của tài liệu.
Bảng 1.2 Các kiểu từ điển đan gữ - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Bảng 1.2.

Các kiểu từ điển đan gữ Xem tại trang 15 của tài liệu.
Hình 1.3 So sánh tìm kiếm đơn ngữ của SPIRIT, tìm kiếm song ngữ của EMIR và dịch câu truy vấn của SYSTRAN  - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Hình 1.3.

So sánh tìm kiếm đơn ngữ của SPIRIT, tìm kiếm song ngữ của EMIR và dịch câu truy vấn của SYSTRAN Xem tại trang 21 của tài liệu.
Hình 1.4 Biểu diễn các từ trong vector chuẩn so với vector tối giản LSI - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Hình 1.4.

Biểu diễn các từ trong vector chuẩn so với vector tối giản LSI Xem tại trang 29 của tài liệu.
Bảng 2.1. Một số mục từ của EDic - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Bảng 2.1..

Một số mục từ của EDic Xem tại trang 47 của tài liệu.
Trong mô hình này, tầng tiền xử lý có nhiệm vụ xử lý định dạng văn bản: như tiêu đề, - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

rong.

mô hình này, tầng tiền xử lý có nhiệm vụ xử lý định dạng văn bản: như tiêu đề, Xem tại trang 52 của tài liệu.
Bảng 2.3: Phân bố các mục từ trên các file - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Bảng 2.3.

Phân bố các mục từ trên các file Xem tại trang 60 của tài liệu.
Bảng 2.4: Kết quả so sánh hai phương pháp khử nhập nhằng - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Bảng 2.4.

Kết quả so sánh hai phương pháp khử nhập nhằng Xem tại trang 69 của tài liệu.
Hình 3.1 Mô hình hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt– Anh – Hoa Công việc chính của hệ thống là chuyển ngữ câu truy vấn sang tiế ng Anh và ti ế ng  Hoa - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Hình 3.1.

Mô hình hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt– Anh – Hoa Công việc chính của hệ thống là chuyển ngữ câu truy vấn sang tiế ng Anh và ti ế ng Hoa Xem tại trang 73 của tài liệu.
Bảng 3.1 Bảng phân kế hoạch thực hiện - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Bảng 3.1.

Bảng phân kế hoạch thực hiện Xem tại trang 76 của tài liệu.
Dựa trên đặc tả của bài toán và mô hình hệ thống chúng ta có mô hình usecase như - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

a.

trên đặc tả của bài toán và mô hình hệ thống chúng ta có mô hình usecase như Xem tại trang 77 của tài liệu.
Hình 3.4: Usecase chuyển ngữ - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Hình 3.4.

Usecase chuyển ngữ Xem tại trang 79 của tài liệu.
Hình 3.6: Usecase sắp xếp tài liệu - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Hình 3.6.

Usecase sắp xếp tài liệu Xem tại trang 81 của tài liệu.
Hình 3.7: Sơ đồ lớp - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Hình 3.7.

Sơ đồ lớp Xem tại trang 82 của tài liệu.
Hình 3.8: Màn hình chính - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Hình 3.8.

Màn hình chính Xem tại trang 95 của tài liệu.
3.2.5.2 Màn hình kết quả: - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

3.2.5.2.

Màn hình kết quả: Xem tại trang 96 của tài liệu.
thống vì từ điển Việt– Anh là thể hiện của từ điển song ngữ có loại hình ngôn ngữ - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

th.

ống vì từ điển Việt– Anh là thể hiện của từ điển song ngữ có loại hình ngôn ngữ Xem tại trang 97 của tài liệu.
Hình 3.10: Cấu trúc cây của mục từ trong từ điển Việt– Anh  - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Hình 3.10.

Cấu trúc cây của mục từ trong từ điển Việt– Anh Xem tại trang 98 của tài liệu.
Hình 3.11: Cấu trúc cây của mục từ trong từ điển Việt– Hoa - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Hình 3.11.

Cấu trúc cây của mục từ trong từ điển Việt– Hoa Xem tại trang 99 của tài liệu.
3.3.1.2.2 Cấu trúc dữ liệu của VEDic: - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

3.3.1.2.2.

Cấu trúc dữ liệu của VEDic: Xem tại trang 102 của tài liệu.
Bảng 3.2: Ví dụ một số mục từ của từ điển Việt– Hoa - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Bảng 3.2.

Ví dụ một số mục từ của từ điển Việt– Hoa Xem tại trang 104 của tài liệu.
Để tách từ câu truy vấn chúng tôi sử dụng module tách từ dựa trên mô hình MMSEG (áp dụng cho tiếng Việt) của nhóm VCL13 - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

t.

ách từ câu truy vấn chúng tôi sử dụng module tách từ dựa trên mô hình MMSEG (áp dụng cho tiếng Việt) của nhóm VCL13 Xem tại trang 106 của tài liệu.
Hình 3.12: Mô hình khử nhập nhằng dựa trên ngữ liệu đơn ngữ và song ngữ - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Hình 3.12.

Mô hình khử nhập nhằng dựa trên ngữ liệu đơn ngữ và song ngữ Xem tại trang 108 của tài liệu.
như hình 4.1 - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

nh.

ư hình 4.1 Xem tại trang 117 của tài liệu.
Hình 4.2 Màn hình giao diện - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Hình 4.2.

Màn hình giao diện Xem tại trang 118 của tài liệu.
Hình 4.3 Màn hình kết quả - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Hình 4.3.

Màn hình kết quả Xem tại trang 119 của tài liệu.
Bảng 4.1: Kết quả dịch và khử nhập nhằng tiếng Anh - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Bảng 4.1.

Kết quả dịch và khử nhập nhằng tiếng Anh Xem tại trang 120 của tài liệu.
Hình 5.1 Mô hình của hệ thống truy xuất xuyên ngữ Việt– Anh – Hoa (dùng ba IR Engine)  - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Hình 5.1.

Mô hình của hệ thống truy xuất xuyên ngữ Việt– Anh – Hoa (dùng ba IR Engine) Xem tại trang 124 của tài liệu.
28. tấm ảnh, tranh, bảng, bìa - hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

28..

tấm ảnh, tranh, bảng, bìa Xem tại trang 129 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan