Xây dựng hệ thống trợ giúp người Cơ Tu học tin học văn phòng

25 203 0
Xây dựng hệ thống trợ giúp người Cơ Tu học tin học văn phòng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Header Page of 126 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG BÙI THANH PHÚ XÂY DỰNG HỆ THỐNG TRỢ GIÚP NGƯỜI CƠ TU HỌC TIN HỌC VĂN PHÒNG Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2013 Footer Page of 126 Header Page of 126 Công trình hoàn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS PHAN HUY KHÁNH Phản biện 1: TS HUỲNH CÔNG PHÁP Phản biện 2: TS NGUYỄN MẬU HÂN Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật họp Đại học Đà Nẵng vào ngày 18 tháng năm 2013 Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại Học Đà Nẵng Footer Page of 126 Header Page of 126 MỞ ĐẦU Lý chọn đề tài Văn hóa Cơtu có từ lâu đời, văn hóa Làng, văn hóa cộng đồng văn hóa dân gian lành mạnh, sáng Văn hóa dân tộc Cơtu nói chung, chữ viết người Cơtu nói riêng phận cấu thành tạo nên “Nền văn hóa Việt Nam đậm đà sắc dân tộc” Tiếng Cơtu có nguy bị mai Đặc biệt, hệ trẻ ngày nhiều người tiếp cận văn hóa đại từ nhỏ nên tiếng mẹ đẻ Nguy thất truyền chữ viết đồng bào Cơtu vấn đề cấp thiết, cần giải pháp nhằm bảo tồn chữ viết đồng bào Các địa phương miền Trung tổ chức dạy học nội trú cho em đồng bào Cơtu Nhằm giúp đồng bào có nhiều kinh nghiệm phát triển kinh tế, chăm sóc sức khoẻ, bảo tồn phát huy giá trị văn hoá đặc sắc dân tộc, giữ vững an ninh biên giới Quá trình dạy giáo viên học sinh người Cơtu gặp nhiều khó khăn, lớp học em thường có số điểm thấp em học sinh khác Đồng thời trở ngại mặt ngôn ngữ nên em học sinh người Cơtu khó khăn việc tiếp thu kiến thức, đặt biệt môn tự nhiên, có môn Tin học Ngày nay, tìm thấy văn thức nhà nước mà không thực máy tính Việc soạn thảo văn trở nên quen thuộc với tất người Tuy nhiên, nắm vững nguyên tắc gõ văn nhất, đa số sinh viên tốt nghiệp trường đại học không nắm vững qui tắc này! Từ thực tế đó, đề xuất đề tài: “Xây dựng hệ thống trợ giúp học sinh người Cơtu học tin học văn phòng” Footer Page of 126 Header Page of 126 2 Mục tiêu đề tài c tiêu mà đề tài hướng đến nghiên cứu vấn đề xử lý ngôn tiếng Việt kỹ thuật tách từ tiếng Việt, kho ngữ vựng song ngữ, xây dựng hệ thống hỏi-đáp tự động Xây dựng kho ngữ vựng Cơtu có cấu trúc mở dễ kế thừa để ph c v cho chương trình xử lý ngôn ngữ tự nhiên (Việt-Cơtu) khác Khai thác kho ngữ vựng để xây dựng hệ hỏi-đáp tự động ViệtCơtu ngữ cảnh hạn chế để hỗ trợ cho học sinh người Cơtu học tin học văn phòng Đối tượng phạm vi nghiên cứu Để đáp ứng m c tiêu nêu, đề tài giải vấn đề sau Tìm hiểu lý thuyết Tìm hiểu đặc trưng ngữ pháp tiếng Việt, tiếng Cơtu Tìm hiểu đặc điểm khác tiếng Việt tiếng Cơtu Tìm hiểu lý thuyết hệ thống hỏi-đáp tự động, kỹ thuật tách từ tiếng Việt, sở liệu đa ngữ, cách tổ chức kho ngữ vựng song ngữ XML Phân tích cấu trúc câu hỏi thường gặp đưa cấu trúc câu Việt-Cơtu tương ứng cho câu Cập nhật kho ngữ vựng Cơtu Thu thập liệu từ mẫu câu, trích rút từ vựng từ mẫu câu để xây dựng kho ngữ vựng Việt-Cơtu ph c v cho hệ thống hỏiđáp tự động Xây dựng ứng dụng Xây dựng hệ thống hỏi-đáp tự động Việt-Cơtu để hỗ trợ học sinh người Cơtu học tin học văn phòng Footer Page of 126 Header Page of 126 Giả thiết nghiên cứu Hệ thống phát huy hết tác d ng đầu tư sở vật chất nguồn nhân lực công nghệ thông tin địa phương hoàn thiện Việc ứng d ng tin học vào sống quyền địa phương quan tâm tạo điều kiện để phát triển Đồng bào nhiệt tình hưởng ứng sử d ng hệ thống máy tính để tìm hiểu văn hóa sống Phương pháp nghiên cứu Thu thập liệu từ học sinh trình học Phân tích từ vựng mẫu câu Việt-Cơtu tương ứng Xây dựng kho ngữ vựng có cấu trúc dạng X L để ta miêu tả dễ dàng nội dung tài liệu truy xuất, mở rộng, chuyển đổi định dạng liệu Tìm hiểu công c phù hợp để ph c v cho công việc lập trình, Khai thác kho ngữ vựng để xây dựng ứng d ng hỏi-đáp tự động Kiểm thử chương trình, nhận xét đánh giá kết Ý nghĩa khoa học thực tiễn đề tài: Ý nghĩa khoa học: Nắm bắt vấn đề xử lý tiếng Việt, tiếng Cơtu Đây tiền đề cho toán xử lý ngôn ngữ tự nhiên cho ngôn ngữ dân tộc thiểu số (như hỏi-đáp tự động, từ điển, website đa ngữ…) Ý nghĩa thực tiễn: Ph c v cho công tác dạy học thầy trò trường THPT Phạm Phú Thứ nhằm tạo thuận lợi cho học sinh việc tiếp thu kiến thức khoa học, góp phần nâng cao dân trí cho đồng bào người Cơtu Cấu trúc luận văn áo cáo luận văn tổ chức thành chương Footer Page of 126 Header Page of 126 Chương Nghiên cứu tổng quan: Trình bày vấn đề tổng quan hệ thống hỏi-đáp tự động phương pháp phân tích câu hỏi tìm kiếm câu trả lời hệ thống hỏi-đáp tự động Các quy tắc soạn thảo văn Chương Tìm hiểu ngôn ngữ : Chương tìm hiểu đặc điểm hai ngôn ngữ tiếng Việt tiếng Cơtu So sánh giống khác hai ngôn ngữ Chương Xây dựng hệ thống hỏi-đáp tự động Việt-Cơtu nhằm hỗ trợ học sinh người Cơtu học tin học văn phòng: Đề xuất giải pháp rút trích từ khóa, gom c m tìm kiếm câu trả lời Footer Page of 126 Header Page of 126 CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 HỆ THỐNG HỎI-ĐÁP TỰ ĐỘNG Những thắc mắc người dùng dạng truy vấn tìm kiếm trả cách ngắn gọn, súc tích, xác mà họ mong muốn Đó m c tiêu hệ thống hỏiđáp tự động Phần trình bày vấn đề sau 1.1.1 Giới thiệu hệ thống hỏi-đáp tự động lịch sử phát triển a) Giới thiệu hệ thống hỏi-đáp tự động Hệ thống hỏi-đáp tự động liên quan đến lĩnh vực lớn xử lý ngôn ngữ tự nhiên (Natural Language Processing), tìm kiếm thông tin (Information Retrieval) rút trích thông tin (Information Extraction) Có hai loại hệ thống hỏi-đáp: • Hệ thống hỏi-đáp lĩnh vực hẹp • Hệ thống hỏi-đáp lĩnh vực rộng b) Sơ lược lịch sử phát triển 1.1.2 Kiến trúc hệ thống hỏi-đáp tự động Mô hình hệ thống IR có kiến trúc sau: Hình 1.2 - Hệ thống tìm kiếm thông tin Footer Page of 126 Header Page of 126 Các hệ thống IR thường không giúp người sử d ng tìm xác thông tin mà người dùng cần, tổng hợp thông tin tồn hệ thống tìm văn có liên quan đến yêu cầu người sử d ng Tính bước tiến gần để xây dựng hệ thống hỏi-đáp Kiến trúc chung hệ thống hỏi-đáp thường có dạng sau: Hình 1.3- Kiến trúc hệ thống hỏi-đáp a) Giao diện người dùng (User Interface) b) Phân tích câu hỏi (Question Analyzer) c) Tìm kiếm liệu (Data Retrieval) d) Rút trích câu trả lời (Answer Extraction) e) Chiến lược xếp hạng (Ranking) f) Xác minh câu trả lời (Answer Verification) 1.1.3 Một số vấn đề quan tâm xây dựng hệ thống hỏiđáp tự động  Loại câu hỏi  Xử lý câu hỏi  Ngữ cảnh hệ thống hỏi đáp  Nguồn liệu cho hệ thống hỏi đáp Footer Page of 126 Header Page of 126  Trích xuất câu trả lời 1.2 CÁC PHƯƠNG PHÁP PHÂN TÍCH CÂU HỎI VÀ TÌM KIẾM CÂU TRẢ LỜI Ba bước quan trọng hệ thống hỏi-đáp là: phân tích câu hỏi, tìm kiếm tài liệu có chứa câu trả lời rút trích câu trả lời từ tài liệu Do m c tiêu luận văn hướng đến hệ thống hỏi-đáp tự động cho miền c thể tin học văn phòng với đặc thù trình bày phần mở đầu, nhu cầu rút trích thông tin câu trả lời từ tài liệu, nên trình bày chương hai nội dung phương pháp phân tích câu hỏi phương pháp tìm kiếm câu trả lời 1.2.1 Phương pháp phân tích câu hỏi Phân tích câu hỏi đóng vai trò quan trọng loại hình hệ thống hỏi-đáp Trong giai đoạn này, câu hỏi phân tích xử lý để trích lọc nhiều thông tin tốt để sử d ng giai đoạn tìm kiếm liệu sau Có hai phương pháp phân tích câu hỏi, xem hai phương pháp hệ thống hỏi-đáp tự động Đó phương pháp nông phương pháp sâu a) Phương pháp nông (Shallow Method) b) Phương pháp sâu (Deep Method) 1.2.2 Tìm kiếm thông tin Để tìm kiếm thông tin có hiệu quả, tài liệu thường chuyển đổi thành cách biểu diễn tài liệu thích hợp Có nhiều phương pháp khác đề xuất, tổng hợp sau:  Các mô hình lý thuyết tập hợp  Các mô hình đại số  Các mô hình xác suất  Mô hình không gian vector Footer Page of 126 Header Page 10 of 126 1.2.3 Phương pháp gom cụm liệu a) Thuật toán K-Means Input: K, liệu n mẫu sở liệu Output: ột tập K c m cho cực tiểu tổng bình phương sai Thuật toán:  ước 1: Chọn ngẫu nhiên K mẫu vào K c m Coi tâm c m mẫu có c m  ước 2: Tìm tâm c m  ước 3: Gán (gán lại) mẫu vào c m cho khoảng cách từ mẫu đến tâm c m nhỏ  ước 4: Nếu c m thay đổi sau thực bước chuyển sang bước 5, ngược lại chuyển sang bước  Bước 5: Dừng thuật toán b) Thuật toán HAC HAC (Hierarchical Agglomerative Clustering) thuật toán phân c m không giám sát (không cần biết trước số c m cần phân vào) phải cung cấp điều kiện dừng Thuật toán HAC tóm gọn sau: Giả sử có N phần tử ma trận khoảng cách N*N  ước 1: Bắt đầu cho phần từ vào phân vùng Nếu có N phần tử có N phân vùng khởi tạo  ước 2: Tìm cặp phân vùng có khoảng cách nhỏ hợp lại thành phân vùng Lúc số phân vùng giảm  ước 3: Tính khoảng cách phân vùng với phân vùng lại  ước 4: Lặp lại bước 2, lại phân vùng thỏa mản điều kiện dừng Footer Page 10 of 126 Header Page 11 of 126 1.3 MỘT SỐ QUY TẮC SOẠN THẢO VĂN BẢN CƠ BẢN 1.3.1 Khái niệm ký tự, từ, câu, dòng, đoạn 1.3.2 Nguyên tắc tự xuống dòng từ 1.3.3 Một số quy tắc gõ văn 1.3.4 Các dấu mở ngoặc mở nháy Được hiểu ký tự đầu từ, ký tự phải viết sát vào bên phải dấu Tương tự, dấu đóng ngoặc đóng nháy phải hiểu ký tự cuối từ viết sát vào bên phải ký tự cuối từ bên trái Kết luận Trong chương này, trình bày ba vấn đề hệ thống hỏi-đáp tự động, phân tích câu hỏi tìm kiếm câu trả lời hệ thống hỏi-đáp tự động số quy tắc soạn thảo văn Footer Page 11 of 126 Header Page 12 of 126 10 CHƯƠNG TÌM HIỂU NGÔN NGỮ CƠTU Phần định cho hệ thống hỏi-đáp tự động ta cần nắm rõ đặc điểm ngôn ngữ Trong luận văn này, nghiên cứu thực hai ngôn ngữ tiếng Việt tiếng Cơtu Như vậy, trước hết ta cần tìm hiểu rõ đặc trưng tiếng Cơtu, số vấn đề tiếng Việt so sánh cấu trúc ngữ pháp hai ngôn ngữ này, từ đề xuất giải pháp xây dựng hệ thống hỏi-đáp tự động ViệtCơtu 2.1 TÌM HIỂU TIẾNG VIỆT 2.1.1 Lịch sử hình thành tiếng Việt 2.1.2 Đặc điểm tiếng Việt Tiếng Việt thuộc ngôn ngữ đơn lập, tức tiếng (âm tiết) phát âm tách rời thể bừng chữ viết Đặc điểm thể rõ rệt tất ngữ âm, từ vựng, ngữ pháp 2.1.3 Chữ viết Tiếng Việt a) Bảng chữ Trong Tiếng Việt có 29 chữ cái, bao gồm 17 ph âm đơn 12 nguyên âm b) Dấu tiếng Việt Tiếng Việt bao gồm sáu âm chia làm hai loại trắc 2.1.4 Ngữ pháp tiếng Việt a) Từ tiếng Việt Từ đơn vị nhỏ có nghĩa, có kết cấu vỏ ngữ âm bền vững, hoàn chỉnh, có chức gọi tên, vận d ng độc lập, tái tự lời nói để tạo câu Footer Page 12 of 126 Header Page 13 of 126 11 b) Vấn đề phân tích câu hỏi ngôn ngữ tiếng Việt Việc phân tích câu hỏi ngôn ngữ tự nhiên ph thuộc nhiều vào đặc trưng ngôn ngữ l o i ngôn ngữ khác 2.1.5 Hiện tượng nhập nhằng tiếng Việt Nhập nhằng ngôn ngữ học tượng thường gặp, giao tiếp hàng ngày người để ý đến họ xử lý tốt tượng Nhưng ứng d ng liên quan đến xử lý ngôn ngữ tự nhiên phải thao tác với ý nghĩa từ vựng mà điển hình hỏi-đáp tự động nhập nhằng trở thành vấn đề nghiêm trọng a) Nhập nhằng lỗi tả viết b) Nhập nhằng ranh giới từ c) Nhập nhằng tính đa nghĩa từ d) Nhập nhằng từ đồng âm khác nghĩa e) Nhập nhằng cách phân biệt từ loại f) Nhập nhằng phân tích cú pháp g) Nhập nhằng ngữ cảnh 2.2 TÌM HIỂU TIẾNG CƠTU 2.2.1 Giới thiệu dân tộc Cơtu lịch sử tiếng cơtu a) Giới thiệu dân tộc Đồng bào Cơtu cư trú chủ yếu ba huyện Đông Giang, Tây Giang, Nam Giang làng Yều huyện Đại Lộc (tỉnh Quảng Nam); hai huyện Nam Đông, A Lưới (tỉnh Thừa Thiên - Huế); xã Hoà Phú, Hoà Bắc (huyện Hoà Vang, thành phố Đà Nẵng), với tổng số gần 60 ngàn người, xếp thứ 28 dân số dân tộc nước Ở bên Lào, dân tộc Cơtu cư trú địa bàn rộng thuộc ba tỉnh Xalavan, Xêcông Chămpaxắc với 20 ngàn người Như vậy, Lào vùng miền núi miền Trung có gần 80 ngàn người Cơtu sinh sống Ngoài ra, có nhiều hộ dân người Cơtu di cư tự Footer Page 13 of 126 Header Page 14 of 126 12 nhiều năm qua sống rải rác số nơi thuộc tỉnh Quảng Ngãi, Kon Tum, Đắc Lắc (chưa thống kê được) b) Lịch sử tiếng Cơtu Chữ viết Cơtu sáng tạo, hoàn chỉnh vào thực tiễn đời sống trở thành ngôn ngữ giao tiếp cộng đồng dân tộc Cơtu hàng ch c thập niên qua 2.2.2 Một vài nét tiếng Cơtu chữ viết Cơtu a) Một vài nét tiếng Cơtu Tiếng Cơtu nhà dân tộc học nhà ngôn ngữ học xếp vào tiểu nhóm Cơtuic thuộc nhóm Môn-Khmer, ngữ hệ Nam Á b) Chữ viết Cơtu Chữ viết Cơtu chủ yếu phiên âm từ chữ phổ thông, việc sử d ng nguyên âm, ph âm gốc (chữ Quốc ngữ) không thay đổi 2.2.3 Đặc điểm ngữ pháp tiếng Cơtu Về hoạt động ngữ pháp, tiếng Cơtu ngôn ngữ hệ biến hoá hình thái, tiếng Cơtu sử d ng phương tiện ngữ pháp bên từ phương tiện trật tự, hư từ ngữ điệu ngôn ngữ đơn lập a) Từ tiếng Cơtu Đơn vị cấu tạo từ Cơtu vừa từ theo phương thức ph gia lại vừa hình vị có khả độc lập tạo từ đơn (từ đơn đơn tiết) tạo từ theo phương thức ghép láy b) Đặt câu đơn có nghĩa c) Đặt câu phức 2.2.4 Hiện tượng giao thoa ngôn ngữ phát triển từ vựng Cơtu Footer Page 14 of 126 Header Page 15 of 126 13 a) Hiện tượng giao thoa ngôn ngữ Hiện tượng giao thoa ngôn ngữ tượng thiếu lịch sử phát triển ngôn ngữ Trong trình phát triển không nói thứ tiếng dân tộc có số dân đông hơn, mạnh hơn, nhu cầu sống, việc học song ngữ đẩy mạnh, học song ngữ thuận với nhu cầu phát triển kinh tế, văn hóa đồng thời góp phần vào giữ gìn ngôn ngữ mẹ đẻ dân tộc b) Phát triển tiếng nói người Cơtu Vốn từ vựng giới hạn phạm vi “cái rừng, núi”, nghĩa vốn từ khoa học công nghệ đại, kinh tế thị trường, trị Vì mà hệ trẻ người Cơtu, muốn mở mang tri thức, muốn nắm bắt khoa học, hay muốn tiến thân nghiệp thành phố lớn họ phải sử d ng ngôn ngữ phổ thông tiếng Việt để tìm hiểu, để giao tiếp Điều lâu dài, gây nên việc đồng hóa ngôn ngữ Trong câu nói người Cơtu xuất nhiều từ tiếng Việt xen lẫn 2.2.5 Tình hình sử dụng tiếng Cơtu a) Nhu cầu học tiếng Cơtu để bảo tồn chữ viết Nhu cầu giảng dạy, phổ cập chữ viết tiếng Cơtu cho đồng bào đội ngũ cán ngày trở nên thiết b) Giải thoát tình trạng “đói thông tin” Tình trạng thiếu thông tin kéo dài hàng ch c năm qua chưa khắc ph c làm cho tình hình kinh tế - xã hội nơi chậm phát triển c) Ý nghĩa việc xây dựng kho ngữ vựng Cơtu hệ thống hệ thống hỏi đáp tự động tiếng Cơtu Việc xây dựng kho ngữ vựng Việt-Cơtu có tính mở, dễ khai thác, cập nhật giúp cho việc xây dựng ứng d ng ph c v Footer Page 15 of 126 Header Page 16 of 126 14 cho nhiều m c đích học tập, nghiên cứu bảo tồn chữ viết Cơtu từ điển đa ngữ, giáo trình điện tử hỗ trợ dạy học tiếng Cơtu, chương trình hỏi đáp tự động Việt-Cơtu ph c v cho việc dạy học nhằm giúp đồng bào thoát khỏi tình trạng “đói” thông tin d) Nhận xét hai ngôn ngữ Nhìn chung, tiếng Việt tiếng Cơtu có nhiều nét tương đồng Chỉ khác số điểm phần ngữ pháp 2.3 VẤN ĐỀ XÂY DỰNG HỆ TRỢ GIÚP TIẾNG CƠTU 2.3.1 Học sinh Cơtu học tin học văn phòng Hiện nay, trường THPT Phạm Phú Thứ có 61 học sinh người Cơtu, học sinh khối 12 là: 27 học sinh, học sinh khối 11 là: 14 học sinh, học sinh khối 10 là: 20 học sinh, số học sinh nam là: 32 học sinh, số học sinh nữ là: 29 học sinh Số lượng học sinh tham gia học theo chương trình phổ thông không phân ban, có môn Tin học gồm môn S Word 200 , S Excel 2003, MS Access 2003 2.3.2 Nhu cầu xây dựng hệ trợ giúp Dù quan tâm nhiệt tình em ngại việc hỏi kiến thức em nhà nghĩ hè lượng kiến thức học bị quên nhiều, xin đề xuất xây dựng hệ thống hỏi-đáp tự động để hỗ trợ em em địa phương 2.3.3 Hệ thống hỏi-đáp tiếng Việt-Cơtu Lĩnh vực hỏi-đáp tiếng Việt mẻ quan tâm vài năm gần Footer Page 16 of 126 Header Page 17 of 126 15 CHƯƠNG XÂY DỰNG HỆ THỐNG HỎI-ĐÁP TỰ ĐỘNG TRỢ GIÚP NGƯỜI CƠ TU HỌC TIN H ỌC VĂN PHÒNG Chương trình bày m c tiêu, giải pháp, kế họach thử nghiệm kết thử nghiệm hệ thống hỏi-đáp tự động 3.1 MỤC TIÊU VÀ GIẢI PHÁP 3.1.1 Mục tiêu M c tiêu luận văn xây dựng hệ thống hỏi-đáp tự động ph c v cho miền xác định trợ giúp người Cơtu học tin học văn phòng M c tiêu xây dựng hệ thống hỏi-đáp tiếng Cơtu nhằm trợ giúp người Cơtu học tin học văn phòng với kết chấp nhận 3.1.2 Giải pháp a) Mô hình hệ thống Hệ thống chia thành giai đoạn chính:  Giai đoạn phân tích truy vấn  Giai đoạn so khớp câu hỏi  Giai đoạn so khớp câu trả lời Footer Page 17 of 126 Header Page 18 of 126 16 Hình 3.1: Kiến trúc hệ thống Footer Page 18 of 126 Header Page 19 of 126 17 b) Giai đoạn phân tích truy vấn c) Giai đoạn so khớp câu hỏi  Xây dựng vector câu hỏi  Xác định c m câu hỏi  So khớp câu hỏi xếp hạng d) Giai đoạn so khớp câu trả lời e) Xây dựng kho liệu thử nghiệm Bộ giữ liệu gồm câu hỏi thử nghiệm 100 câu hỏi 3.2 CHƯƠNG TRÌNH CÀI ĐẶT Hệ thống hỏi-đáp tự động ph c trợ giúp người Cơtu học tin học văn phòng cài đặt gồm chức như: Hình 3.2: Chức hệ thống 3.3 THỬ NGHIỆM 3.3.1 Mục tiêu thử nghiệm Với m c tiêu thử nghiệm đánh giá kết phương pháp sử d ng, kết bước làm tảng để thử nghiệm bước tiếp theo, hướng đến m c tiêu chung hệ thống xây dựng hệ thống hỏi-đáp trợ giúp người Cơtu học tin học văn phòng để đạt kết hiển thị cho người dùng chấp nhận được, đề m c tiêu chi tiết sau  Thử nghiệm, so sánh, đánh giá hiệu rút trích từ khóa dựa vào từ điển Footer Page 19 of 126 Header Page 20 of 126 18  So sánh, đánh giá hiệu hệ thống sử d ng phương pháp gom c m khác  So sánh, đánh giá hiệu hệ thống với hai phương pháp xây dựng vector đặc trưng khác sử d ng độ đo Tf độ đo tổng hợp Tf- Idf  Đánh giá hiệu sử d ng tìm kiếm câu trả lời dựa mô hình đề xuất, với ngưỡng T khác 3.3.2 Giao diện hệ thống Các câu hỏi học sinh nhập vào chương trình Chương trình tự động dịch trả lời tiếng Việt tiếng Cơtu qua giao diện chương trình Hình 3.3: Giao diện hệ thống hỏi-đáp Việt-Cơtu 3.3.3 Kế hoạch thử nghiệm 3.3.4 Kết thử nghiệm a) Hiệu rút trích từ khóa Trong phần thử nghiệm này, thử nghiệm hiệu hệ thống hai trường hợp: Trường hợp 1: Không sử d ng danh sách c m từ xuất Footer Page 20 of 126 Header Page 21 of 126 19 nhiều ý nghĩa Trường hợp 2: Có sử d ng thêm danh sách c m từ xuất nhiều ý nghĩa Kết thử nghiệm trình bày bảng 3.1 Bảng 3.1: Thử nghiệm danh sách cụm từ xuất nhiều Đánh giá Phương pháp Trường hợp Số lượng từ khóa thu 574 528 Thời gian chạy trung bình câu hỏi (giây) 4.35 4.15 Thời gian xây dựng vector đặc trưng (cho 100 cặp hỏi-đáp) (phút) 1.87 1.75 Độ xác (100 câu thử nghiệm) 100% 100% Độ xác (100 câu thử nghiệm) sử 77.72% d ng vector trọng số tf-idf có chuẩn hóa Trường hợp 79.52% b) Hiệu gom cụm Thử nghiệm phương pháp gom c m k-means HAC dựa vector câu hỏi cặp hỏi-đáp với số lượng c m nC= 30, kết bảng bên dưới: Footer Page 21 of 126 Header Page 22 of 126 20 Phương pháp Đánh giá K-means HAC Số cặp c m (tối đa) 79 Thời gian gom c m (100 cặp) (giây) Độ xác (100 câu thử nghiệm) sử d ng vector trọng số tf-idf có chuẩn hóa 78 0.63 45 79.52% 79.42% c) Hiệu tìm kiếm câu trả lời Trong phần này, thử nghiệm hiệu hệ thống với hai phương pháp đánh trọng số tf tf-idf kết hợp với chuẩn hóa Trong phần thử nghiệm thử nghiệm với ngưỡng T=0.5, δ=0.5 Kết thử nghiệm sau: Đánh giá Phương pháp Thời gian Độ chạy trung Độ phủ xác bình (1 câu hỏi)(giây) Sử d ng Tf-Idf chưa chuẩn 77.41% 80.70% 3.91 hóa Sử d ng Tf-Idf có chuẩn 79.52% 81.67% 4.15 hóa Sử d ng Tf có chuẩn hóa 49,93% 61,03% 1.43 Sử d ng Tf có chuẩn hóa, tăng ngưỡng T=0.55 53% 61.03% 1.43 d) Thử nghiệm hiệu thay đổi ngưỡng Với m c tiêu tăng độ xác hệ thống, thử nghiệm thay đổi ngưỡng T với 100 câu hỏi thử nghiệm: Footer Page 22 of 126 Header Page 23 of 126 21 Bảng 3.5: Bảng kết thử nghiệm thay đổi ngưỡng Ngưỡng Độ xác Độ phủ 0.4 63.3% 83.83% 0.45 73.03% 80.67% 0.5 79.52% 81.67% 0.55 75.56% 73.22% 0.6 74.9% 70.26% Ta có biểu đồ so sánh sau Footer Page 23 of 126 Header Page 24 of 126 22 KẾT LUẬN Qua trình thử nghiệm, có nhận xét sau: Thứ nhất, việc trích từ khóa giai đoạn phân tích câu hỏi quan trọng, ảnh hưởng đến chất lượng hệ thống Tôi đưa phương pháp bổ sung danh sách c m từ xuất nhiều ý nghĩa nhằm rút trích từ khóa xác hơn, nâng cao hiệu hệ thống Thứ hai, gom c m liệu đóng vai trò quan trọng hệ thống hỏi-đáp làm giảm không gian tìm kiếm câu trả lời Tuy nhiên, thân liệu không phương pháp gom c m không phát huy tác d ng Thứ ba, kết xác chấp nhận (khoảng 80%) chứng tỏ mô hình không gian vector phương pháp khả quan cho hệ thống hỏi-đáp miền xác định Luận văn tập trung nghiên cứu hệ thống hỏi-đáp tự động phương pháp tiếp cận lĩnh vực xử lý ngôn ngữ tiếng Việt, tiếng Cơtu tìm kiếm thông tin tinh thần hệ thống hỏi-đáp tự động, xây dựng thử nghiệm hệ thống hỏi-đáp tự động trợ giúp học sinh người Cơtu, đưa số qui định soạn thảo văn máy tính Tuy kết ban đầu giới hạn, luận văn đạt yêu cầu đề Kết đạt làm sở lý thuyết thực nghiệm cho việc xây dựng hệ hỏi-đáp thực tế hoạt động hiệu sau Footer Page 24 of 126 Header Page 25 of 126 23 HƯỚNG PHÁT TRIỂN CỦA LUẬN VĂN Qua thử nghiệm nhận thấy việc phân tích câu hỏi tìm kiếm thông tin dựa từ khóa cho kết chưa cao Chúng ta nâng cao hiệu hệ thống cách bổ sung xử lý ngôn ngữ sâu thêm từ đồng nghĩa thêm việc phân tích ngữ pháp câu hỏi Đó hướng phát triển luận văn Thử nghiệm cho thấy, số chiều vector đặc trưng cho cặp hỏi-đáp hệ thống lớn tăng theo tỷ lệ thuận với số lượng từ khóa toàn kho liệu hệ thống Số chiều giảm xuống nhờ phương pháp rút trích đặc trưng Đây hướng phát triển luận văn Footer Page 25 of 126 ... luận văn xây dựng hệ thống hỏi-đáp tự động ph c v cho miền xác định trợ giúp người C tu học tin học văn phòng M c tiêu xây dựng hệ thống hỏi-đáp tiếng C tu nhằm trợ giúp người C tu học tin học văn. .. hai ngôn ngữ tiếng Việt tiếng C tu So sánh giống khác hai ngôn ngữ Chương Xây dựng hệ thống hỏi-đáp tự động Việt-C tu nhằm hỗ trợ học sinh người C tu học tin học văn phòng: Đề xuất giải pháp rút... tiếng C tu có nhiều nét tương đồng Chỉ khác số điểm phần ngữ pháp 2.3 VẤN ĐỀ XÂY DỰNG HỆ TRỢ GIÚP TIẾNG C TU 2.3.1 Học sinh C tu học tin học văn phòng Hiện nay, trường THPT Phạm Phú Thứ có 61 học

Ngày đăng: 07/05/2017, 14:31

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan