slike thuyết trình báo cáo sư lỹ ngôn ngữ tự nhiên đề tài xác định biên giới câu

22 611 0
slike thuyết trình báo cáo sư lỹ ngôn ngữ tự nhiên đề tài xác định biên giới câu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đề Tài: Xác Định Biên Giới Câu Nhóm sinh viên thực • Phạm Khương Duy • Đặng Vũ Hạnh • Chu Gia Khôi • Lê Công Quyền • Trần Bá Tùng SHSV: 20080459 SHSV: 20080899 SHSV: 20081409 SHSV: 20082136 SHSV: 20083041 Nội Dung Trình Bày Mở đầu Tách câu HEURISTICS 2.1 Xử lý dấu chấm 2.2 Xử lý dấu câu ngoặc Tách câu mạng NEURAL 3.1 Bộ phận tách token 3.2 Bộ phận xác định từ loại 3.3 Xây dựng mảng mô tả cho từ 3.4 Kiến trúc mạng 3.5 Nhận xét Demo chương trình Mở Đầu • Trong văn tiếng Anh hay ngôn ngữ thông dụng khác, thông thường người ta dùng dấu chấm (.), chấm than (!), chấm hỏi (?) số dấu khác để nhận biết kết thúc câu (ta gọi dấu dấu báo hiệu kết thúc câu hay dấu chấm câu) • Tuy nhiên tính nhập nhằng dấu báo hiệu kết thúc câu (chẳng hạn dấu kết thúc câu từ viết tắt, …) nên việc xác định ranh giới câu không đơn giản nghó • Để nhận diện dấu chấm câu, người ta dùng heuristics mô hình học phức tạp hơn, như: mạng neural, TBL, Maximum Entropy 2 Tách câu HEURISTICS 2.1 Xử Lý Dấu Chấm Dấu chấm “.” dấu có nhiều trường hợp mơ hồ Sau trường hợp dấu chấm xuất hiện: • Dấu chấm kết thúc câu văn • Dấu chấm thập phân chữ số (1,234.567) • Dấu chấm biểu thị viết tắt (Mr., Dr.,…) • Dấu chấm trường hợp khác số tài khoản, địa Internet, email… (www.abc.com hay nbc@hcm.vnn.vn) 2.1 Xử Lý Dấu Chấm Để phân biệt trường hợp trên, ta dựa vào số đặc trưng riêng cách trình bày trường hợp sau: • Nếu dấu chấm không thuộc trường hợp lại (trường hợp 2,3 4), dấu hiệu để nhận biết kết thúc câu là: “luôn có khoảng trắng sau dấu chấm ký tự chữ viết hoa.” • Ta nhận biết dấu chấm thập phân cách đọc toàn phần liền trước liền sau dấu chấm để phát số có dấu chấm thập phân • Để nhận biết dấu chấm trường hợp từ viết tắt, ta xây dựng danh sách từ viết tắt để tra cứu cần • Trường hợp trường hợp có cách trình bày đa dạng nhất, có tính chất chung dấu chấm không nằm cuối từ, hai ký tự (nghóa khoảng trắng liền sau) nên dễ dàng phân bieät 2.2 Xử Lý Dấu Câu Ngoặc - Khi tách câu gặp dấu mở ngoặc đơn, ngoặc kép, quét đoạn văn xét để tìm dấu đóng tương ứng + Nếu tìm thấy, toàn phần ngoặc giữ nguyên, tìm dấu kết thúc câu dấu ngoặc + Nếu không tìm thấy dấu đóng tương ứng, dấu mở bị bỏ qua xử lý tiếp ký tự sau dấu mở bình thường 3 Tách Câu Bằng Mạng NEURAL 3.1 Bộ phận tách token • Token dãy ký tự bảng chữ cái, dãy số ký tự không nằm bảng chữ • Nhiệm vụ phận tách token chia văn đầu vào (là dãy ký tự) thành token rời rạc, token dùng để làm đầu vào cho phận tìm kiếm từ loại để tính vector xác suất 3.1 Bộ phận tách token • Ví dụ chuỗi “that’s” token mà phải chia thành token “that” “is” • Nhưng có chuỗi như: “e.g” tách thành token “e”, “.” “g” mà phải giữ nguyên token Bộ phận tách token có chứa danh sách từ viết tắt thông dụng, chuỗi thuộc từ viết tắt xem token khỏi phải tách nhỏ Các token sau tách phải có ý nghóa, nghóa chúng phải có từ điển 3.1 Bộ phận tách token Mô tả thuật toán tách văn thành token sau: • Bước 1: Tách chuỗi từ văn đầu vào (nhờ vào khoảng trắng) • Bước 2: Nếu chuỗi không tồn (hết văn bản) kết thúc • Bước 3: Kiểm tra xem chuỗi tồn từ điển hay không Nếu có từ điển ta token chuyển đến bước • Bước 4: Tách chuỗi thành n chuỗi (n >= 1) nhờ vào dấu câu chuỗi Nếu tồn chuỗi có từ điển ta n token, không ta token • Bước 5: Quay lại bước 3.2 Bộ Phận xác định từ loại 3.2.1 Biểu Diễn Ngữ Cảnh + Ngữ cảnh xung quanh dấu chấm câu biễu diễn nhiều cách khác + Ở đây, đưa cách tiếp cận xấp xỉ ngữ cảnh xung quanh dấu chấm câu + Ngữ cảnh xấp xỉ việc sử dụng từ loại cho từ + Mỗi từ ngữ cảnh xấp xỉ xác suất cao tất xác suất từ loại có từ 3.2.2 Từ Điển Dữ Liệu + Một thành phần quan trọng hệ thống tách câu mạng neural tự điển liệu chứa tần suất xuất từ loại từ + Nếu từ không tìm thấy từ điển, hệ thống sử dụng heuristics sau để cố gắng tìm từ loại hợp lý gán cho từ + Những heuristics thay đổi dễ dàng thích hợp với ngôn ngữ cụ thể 3.3 Xây dựng mảng mô tả cho từ 3.3 Xây Dựng Mảng Mơ Tả cho Một Từ • Với token văn đầu vào cần xây dựng vector xác suất để số hóa việc mô tả token • Những từ loại trả phận tìm kiếm ánh xạ thành 18 từ loại tổng cộng với mảng mô tả từ chứa thêm hai cờ cho biết từ có bắt đầu ký tự hoa hay không từ có sau dấu chấm câu hay không Như có tất hai mươi thành phần mảng mô tả cho từ • Khi tần suất cho từ loại cộng lại từ tần suất từ loại ánh xạ Thuật Toán Xây Dựng Mảng Mô Tả cho Một Từ • Bước 1: Tìm kiếm từ từ điển • Bước 2: Kiểm tra xem từ có từ điển hay không Nếu chuyển sang bước • Bước 3: Ánh xạ từ loại từ tìm thành 18 từ loại tổng quát Chuyển sang bước • Bước 4: Heuristics cho từ không tìm thấy • Bước 5: Cộng thêm cờ trình bày mảng mô tả Tính kết mạng neural 3.4 Kiến trúc mạng 3.4 Kiến Trúc Mạng • Đầu vào mạng k * 20 đơn vị nhập • Đầu mạng giá trị đơn nằm khoảng từ đến 1, biểu thị cho khả kết thúc câu dấu báo hiệu kết thúc câu xuất ngữ cảnh Kiến Trúc Mạng NEURAL cho Việc Tách Câu 3.5 Nhận Xét • Một điểm mạnh phương pháp tiếp cận theo mạng neural để tách câu trình bày tương thích với loại văn thể thức chuẩn văn toàn chữ hoa văn toàn chữ thường • Sau chuyển văn thành dạng chữ hoa, hệ thống cho kết 97.4% 4 Demo chương trình ... dấu báo hiệu kết thúc câu hay dấu chấm câu) • Tuy nhiên tính nhập nhằng dấu báo hiệu kết thúc câu (chẳng hạn dấu kết thúc câu từ viết tắt, …) nên việc xác định ranh giới câu không đơn giản nghó...Nội Dung Trình Bày Mở đầu Tách câu HEURISTICS 2.1 Xử lý dấu chấm 2.2 Xử lý dấu câu ngoặc Tách câu mạng NEURAL 3.1 Bộ phận tách token 3.2 Bộ phận xác định từ loại 3.3 Xây dựng... nhờ vào dấu câu chuỗi Nếu tồn chuỗi có từ điển ta n token, không ta token • Bước 5: Quay lại bước 3.2 Bộ Phận xác định từ loại 3.2.1 Biểu Diễn Ngữ Cảnh + Ngữ cảnh xung quanh dấu chấm câu biễu diễn

Ngày đăng: 23/10/2014, 23:25

Từ khóa liên quan

Mục lục

  • Đề Tài: Xác Định Biên Giới Câu

  • Slide 2

  • 1. Mở Đầu

  • 2. Tách câu bằng các HEURISTICS

  • 2.1 Xử Lý Dấu Chấm

  • 2.1 Xử Lý Dấu Chấm

  • 2.2 Xử Lý Dấu Câu trong Ngoặc

  • 3. Tách Câu Bằng Mạng NEURAL

  • 3.1 Bộ phận tách token

  • 3.1 Bộ phận tách token

  • 3.1 Bộ phận tách token

  • 3.2 Bộ Phận xác định từ loại

  • 3.2.1 Biểu Diễn Ngữ Cảnh

  • 3.2.2 Từ Điển Dữ Liệu

  • 3.3 Xây dựng mảng mơ tả cho một từ

  • 3.3 Xây Dựng Mảng Mơ Tả cho Một Từ

  • Thuật Toán Xây Dựng Mảng Mô Tả cho Một Từ

  • 3.4 Kiến trúc mạng

  • 3.4 Kiến Trúc Mạng

  • Kiến Trúc Mạng NEURAL cho Việc Tách Câu

Tài liệu cùng người dùng

Tài liệu liên quan