Thông tin tài liệu
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Vũ Minh Đức
MỞ RỘNG BỘ DỮ LIỆU HUẤN LUYỆN CHO QUÁ
TRÌNH XỬ LÝ NHẬP NHẰNG NGHĨA CỦA TỪ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2010
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Vũ Minh Đức
MỞ RỘNG BỘ DỮ LIỆU HUẤN LUYỆN CHO QUÁ
TRÌNH XỬ LÝ NHẬP NHẰNG NGHĨA CỦA TỪ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hƣớng dẫn: Tiến sĩ Nguyễn Phƣơng Thái
HÀ NỘI - 2010
Mở rộng bộ dữ liệu cho quá trình xử lý nhập nhằng nghĩa của từ
i
LỜI CẢM ƠN
Lời đầu tiên, tôi xin bày tỏ lòng biết ơn chân thành đến các thầy cô giáo trƣờng Đại
học Công Nghệ, Đại học Quốc Gia Hà Nội nói chung và các thầy cô trong bộ môn Khoa
học Máy Tính nói riêng. Trong suốt bốn năm học tập trong trƣờng, các thầy cô không
những tận tình truyền đạt kiến thức mà còn luôn động viên giúp đỡ tôi trong học tập cũng
nhƣ trong cuộc sống.
Đặc biệt, tôi muốn gửi lời cảm ơn sâu sắc đến thầy giáo, tiến sĩ Nguyễn Phƣơng
Thái, ngƣời đã tận tình chỉ bảo, hƣớng dẫn tôi trong suốt quá trình nghiên cứu và hoàn
thiện khóa luận tốt nghiệp.
Tôi cũng xin cảm ơn các bạn sinh viên K51, đã luôn cùng tôi nghiên cứu và học tập,
đã cho tôi những ý kiến đóng góp giá trị trong suốt thời gian học tập cũng nhƣ trong quá
trình nghiên cứu đề tài khóa luận tốt nghiệp.
Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc đến gia đình và bạn bè, những ngƣời luôn
động viên giúp đỡ tôi vƣợt qua những khó khăn trong cuộc sống.
Hà Nội, ngày 21 tháng 5 năm 2010
Sinh viên
Vũ Minh Đức
Mở rộng bộ dữ liệu cho quá trình xử lý nhập nhằng nghĩa của từ
ii
TÓM TẮT KHÓA LUẬN
Trong các chủ đề thuộc lĩnh vực xử lý ngôn ngữ tự nhiên, xử lý nhập nhằng nghĩa
của từ là một chủ đề dành đƣợc nhiều sự quan tâm chú ý của những nhà nghiên cứu, phát
triển, ứng dụng khoa học máy tính. Lý do là mặc dù nếu đứng một mình, xử lý nhập
nhằng nghĩa của từ ít đem lại lợi ích cụ thể trong đời sống hàng ngày, nhƣng nó lại có một
vai trò quan trọng trong nhiều ứng dụng xử lý ngôn ngữ tự nhiên hữu ích khác nhƣ dịch
máy, tìm kiếm thông tin, khai phá dữ liệu, … Do vậy đã có rất nhiều cách tiếp cận để giải
quyết vấn đề xử lý nhập nhằng nghĩa của từ đƣợc đƣa ra nhƣ sử dụng bộ cở sở tri thức, áp
dụng các luật để xử lý nhập nhằng, hoặc sử dụng các thuật toán học máy có giám sát để
phân lớp nghĩa của từ … Trong tất cả các cách tiếp cận trên, lớp phƣơng pháp dựa vào
các thuật toán học máy có giám sát tỏ ra là có đƣợc một kết quả xử lý nhập nhằng tốt
nhất. Tuy vậy lớp phƣơng pháp này có một nhƣợc điểm đó là yêu cầu một bộ dữ liệu huấn
luyện (thƣờng là lớn) các trƣờng hợp xuất hiện của từ đã đƣợc gán nhãn nghĩa sẵn. Nếu
phải chuẩn bị bộ dữ liệu huấn luyện này một cách thủ công thì ta phải tốn rất nhiều công
sức, thời gian và chi phí do vậy tìm kiếm một giải pháp cho phép tự động hóa giai đoạn
này là một nhu cầu thực tế. Nắm bắt đƣợc nhu cầu trên, đề tài khóa luận của tôi đƣợc thực
hiện nhằm mục đích tìm hiểu phƣơng pháp xây dựng một hệ thống xử lý nhập nhằng
nghĩa của từ, đóng vai trò nhƣ một công cụ cho phép mở rộng bộ dữ liệu nhỏ đã gán
nghĩa cho các trƣờng hợp xuất hiện của từ đang cần mở rộng dữ liệu huấn luyện thành
một bộ dữ liệu huấn luyện đủ lớn nhƣng chỉ đòi hỏi rất ít công sức của con ngƣời, hỗ trợ
cho quá trình xử lý nhập nhằng nghĩa của những từ mang nội dung trong ngôn ngữ tự
nhiên.
Mở rộng bộ dữ liệu cho quá trình xử lý nhập nhằng nghĩa của từ
iii
MỤC LỤC
LỜI CẢM ƠN i
TÓM TẮT KHÓA LUẬN ii
MỤC LỤC iii
DANH MỤC HÌNH VẼ vi
DANH MỤC BẢNG BIỂU vii
Chƣơng 1: Mở đầu 1
1.1. Đặt vấn đề 1
1.2. Mục tiêu đề tài 2
1.3. Đối tƣợng và phƣơng pháp nghiên cứu 3
1.4. Cấu trúc khóa luận 5
Chƣơng 2: Các đặc tính của từ liên quan đến mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa
của từ 7
2.1. Một nghĩa trong một nhóm từ đồng xuất hiện 7
2.2. Một nghĩa trong một văn bản 8
Chƣơng 3: Các thuật toán trong phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng 10
3.1. Thuật toán học máy có giám sát Naive Bayes 10
3.1.1. Giới thiệu về Naïve Bayes 10
3.1.2. Ƣớc lƣợng xác suất 11
3.2. Thuật toán mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa của từ 13
3.2.1. Giới thiệu 13
3.2.2. Các bƣớc của thuật toán 14
3.3. Lựa chọn từ cho nhóm từ đồng xuất hiện trên quan điểm lý thuyết 18
3.3.1. Khoảng cách lân cận của từ đang cần xử lý nhập nhằng nghĩa 19
3.3.2. Xử lý từ trong nhóm từ đồng xuất hiện 19
Mở rộng bộ dữ liệu cho quá trình xử lý nhập nhằng nghĩa của từ
iv
3.3.3. Chuyển đổi từ trong nhóm từ đồng xuất hiện thành thuộc tính của bộ phân lớp
20
Chƣơng 4: Cấu trúc và định dạng của dữ liệu 22
4.1. Dữ liệu đầu vào 22
4.1.1. Dữ liệu chuẩn đã gán nghĩa 22
4.1.2. Dữ liệu chƣa gán nghĩa – BNC 23
4.2. Dữ liệu sử dụng trong quá trình chạy chƣơng trình 25
4.3. Định dạng file kết quả thực nghiệm 25
Chƣơng 5: Công cụ khảo sát, kiểm tra phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng
nghĩa. 27
5.1. Bộ công cụ NLTK 27
5.2. Công cụ khảo sát, kiểm tra phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng
nghĩa của từ. 27
5.2.1. Các công cụ chuẩn bị dữ liệu 28
5.2.2. Hàm công cụ test 29
5.2.3. Các hàm phân lớp và mở rộng bộ dữ liệu 30
5.2.4. Các hàm công cụ khác 31
Chƣơng 6: Kết quả thực nghiệm 32
6.1. Dữ liệu thực nghiệm 32
6.2. Thí nghiệm 1 34
6.2.1. Bố trí thí nghiệm 34
6.2.2. Kết quả thực nghiệm 35
6.2.3. Nhận xét 36
6.3. Thí nghiệm 2 37
6.3.1. Bố trí thí nghiệm 37
6.3.2. Kết quả thực nghiệm 38
6.3.3. Nhận xét 38
Chƣơng 7: Kết luận 40
7.1. Các kết quả đạt đƣợc và hạn chế 40
Mở rộng bộ dữ liệu cho quá trình xử lý nhập nhằng nghĩa của từ
v
7.2. Các công việc trong tƣơng lai 41
Tài liệu tham khảo 42
Mở rộng bộ dữ liệu cho quá trình xử lý nhập nhằng nghĩa của từ
vi
DANH MỤC HÌNH VẼ
Hình 1: Sơ đồ các dữ liệu và công cụ sử dụng trong nghiên cứu, khảo sát phƣơng pháp
mở rộng dữ liệu huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ 4
Hình 2: Sơ đồ các bƣớc của phƣơng pháp mở rộng bộ dữ liệu huấn luyện cho quá trình xử
lý nhập nhằng nghĩa của từ 15
Mở rộng bộ dữ liệu cho quá trình xử lý nhập nhằng nghĩa của từ
vii
DANH MỤC BẢNG BIỂU
Bảng 1: Các nghĩa và số lƣợng từ tƣơng ứng của từ “line” trong dữ liệu chuẩn 32
Bảng 2: Các nghĩa và số lƣợng từ tƣơng ứng của từ “hard” trong dữ liệu chuẩn 33
Bảng 3: Các nghĩa và số lƣợng từ tƣơng ứng của từ “interest” trong dữ liệu chuẩn 33
Bảng 4: Các nghĩa và số lƣợng từ tƣơng ứng của từ “serve” trong dữ liệu chuẩn 33
Bảng 5: Số lƣợng các từ “line”, “hard”, “serve”, “interest” trong BNC 34
Bảng 6: Kết quả thí nghiệm 1 của từ “line” 35
Bảng 7: Kết quả thí nghiệm 1 của từ “hard” 35
Bảng 8: Kết quả thí nghiệm 1 của từ “serve” 36
Bảng 9: Kết quả thí nghiệm 1 của từ “interest” 36
Bảng 10: Kết quả thí nghiệm 2 của từ “line” 38
Bảng 11: Kết quả thí nghiệm 2 của từ “serve” 38
Chƣơng 1: Mở đầu
1
Chƣơng 1: Mở đầu
1.1. Đặt vấn đề
Xử lý nhập nhằng nghĩa của từ là một trong những vấn đề đƣợc rất nhiều nhà nghiên
cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên quan tâm đến. Vấn đề này đƣợc nêu lên nhƣ
một bài toán riêng biệt lần đầu tiên là vào những năm cuối thập kỷ 40 của thế kỷ 20 và
đƣợc coi nhƣ là một trong những vấn đề lâu đời nhất của lĩnh vực xử lý ngôn ngữ tự
nhiên [1]. Nhận đƣợc nhiều sự quan tâm và từ sớm nhƣ vậy là do xử lý nhập nhằng nghĩa
của từ đóng vai trò quan trọng trong rất nhiều các bài toán khác của xử lý ngôn ngữ tự
nhiên. Ta có thể lấy ví dụ nhƣ trong dịch máy, hệ xử lý nhập nhằng nghĩa của từ làm
nhiệm vụ chọn đúng từ trong ngôn ngữ đích cho những từ trong ngôn ngữ gốc có các cách
dịch sang ngôn ngữ đích là khác nhau với các nghĩa khác nhau [1]. Ngoài ra ta có thể thấy
sự xuất hiện của hệ xử lý nhập nhằng nghĩa của từ trong các hệ thống tìm kiếm thông tin,
khai phá dữ liệu và rất nhiều các ứng dụng hữu ích khác.
Đƣợc quan tâm nhƣ vậy nên ta có thể thấy rất nhiều các phƣơng pháp xử lý nhập
nhằng nghĩa của từ đã đƣợc các nhà nghiên cứu đề xuất. Phƣơng pháp đầu tiên cần nói tới
là phƣơng pháp sử dụng bộ cở sở tri thức để xử lý nhập nhằng nghĩa của từ. Nó không
dùng đến các yếu tố trong văn bản mà hoàn toàn căn cứ vào bộ cơ sở tri thức có sẵn [1].
Điểm yếu của phƣơng pháp này là bộ cơ sở tri thức thƣờng sẽ rất lớn, hơn nữa với sự
phức tạp của ngôn ngữ tự nhiên thì việc dùng các luật để xử lý nhập nhằng cũng chỉ đạt
đƣợc độ chính xác có giới hạn.
Phƣơng pháp dùng các thuật toán không giám sát cũng đang là một hƣớng đi rất
đƣợc chú ý để giải quyết bài toán xử lý nhập nhằng nghĩa của từ. Nó sẽ phân cụm các
trƣờng hợp xuất hiện của từ trong văn bản và từ đó đƣa ra nghĩa của từ [9]. Phƣơng pháp
này có thể là một phƣơng pháp có nhiều cải tiến và hy vọng phát triển trong tƣơng lai tuy
nhiên trong hiện tại nó vẫn chƣa phải phƣơng pháp có độ chính xác cao nhất.
Phƣơng pháp có độ chính xác phân lớp nghĩa của từ cao nhất trong thời điểm hiện
tại vẫn là phƣơng pháp sử dụng các thuật toán học máy có giám sát [9]. Phƣơng pháp này
dựa vào giả thiết rằng văn cảnh xung quanh cho ta đủ cơ sở để có thể kết luận chính xác
[...]... nhằng nghĩa của từ Chƣơng 2: Các đặc tính của từ liên quan đến mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa của từ Chƣơng này chỉ ra những đặc tính của từ liên quan đến nghĩa của nó, giúp ích cho quá trình mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa của từ một cách tự động Chƣơng 3: Các thuật toán trong phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa của từ Chƣơng này nêu lên các thuật toán học máy... dạng dữ liệu chuẩn dùng để huấn luyện và kiểm thử bộ xử lý nhập nhằng nghĩa của từ và bộ dữ liệu không gán nhãn dùng cho quá trình mở rộng tự động bộ dữ liệu huấn luyện chuẩn ban đầu Chƣơng 5: Công cụ khảo sát, kiểm tra phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa Chƣơng này giới thiệu sơ lƣợc về công cụ đƣợc sử dụng để nghiên cứu, kiểm tra phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa. .. xác để huấn luyện các hàm phân lớp xử lý nhập nhằng nghĩa của từ Để đạt đƣợc các yêu cầu đó, phƣơng pháp này chỉ có thể đƣợc xây dựng dựa vào sức mạnh tự động của máy tính, tức là, sử dụng máy tính để mở rộng tự động bộ dữ liệu huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ Nói đến bài toán xử lý nhập nhằng nghĩa của từ thì ta có xử lý nhập nhằng nghĩa cho những từ mang nội dung (của câu, của. .. nghĩa của từ đó đã đƣợc gán trƣớc Thứ hai, ta cần có một bộ dữ liệu chƣa đƣợc gán nghĩa của từ Bộ dữ liệu này càng lớn thì khả năng mở rộng bộ dữ liệu huấn luyện ban đầu càng cao Dữ liệu đầu ra của thuật toán là một bộ dữ liệu lớn, mở rộng từ bộ dữ liệu nhỏ ban đầu Đi vào chi tiết, thuật toán có các bƣớc nhƣ sau 14 Chƣơng 3: Các thuật toán trong phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng Huấn luyện. .. với các nghĩa của từ đang 8 Chƣơng 2: Các đặc tính của từ liên quan đến mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa của từ cần gán nghĩa Hơn nữa, đặc tính này còn cho phép sửa lỗi có trong các dữ liệu ban đầu hoặc phát sinh trong quá trình tự động bị gán nghĩa sai Chi tiết cách thức ứng dụng đặc tính này trong phƣơng pháp mở rộng bộ dữ liệu cho quá trình xử lý nhập nhằng nghĩa của từ sẽ đƣợc trình bày... của từ trong bộ dữ liệu huấn luyện ban đầu Chƣơng 7: Kết luận Chƣơng này nêu lên và đánh giá những kết quả đã đạt đƣợc, đồng thời đƣa ra những công việc cần làm trong tƣơng lai để cải tiến mở rộng thêm phƣơng pháp tự động mở rộng bộ dữ liệu huấn luyện xử lý nhập nhằng nghĩa của từ 6 Chƣơng 2: Các đặc tính của từ liên quan đến mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa của từ Chƣơng 2: Các đặc tính của. .. phương pháp mở rộng dữ liệu huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ 4 Chƣơng 1: Mở đầu 1.4 Cấu trúc khóa luận Khóa luận đƣợc tổ chức thành các chƣơng nhƣ sau: Chƣơng 1: Mở đầu Chƣơng này nhằm nêu bật sự cần thiết, ý nghĩa thực tiễn, đối tƣợng, phƣơng pháp nghiên cứu, mục tiêu của đề tài phƣơng pháp tự động mở rộng bộ dữ liệu huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ Chƣơng... trong quá trình gán nghĩa cho từ trong bộ dữ liệu Từ yêu cầu thực tế đó, mục tiêu của đề tài khóa luận là trình bày một thuật toán bán giám sát xử lý nhập nhằng nghĩa của từ đóng vai trò nhƣ một hệ thống mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa của từ một cách tự động, do đó con ngƣời chỉ cần chuẩn bị một lƣợng dữ liệu nhỏ đƣợc gán nghĩa cho các trƣờng hợp xuất hiện của từ đang cần gán 2 Chƣơng 1: Mở. .. nhóm từ đồng xuất hiện của từ đang cần gán nghĩa, đóng vai trò làm nhân cho thuật toán mở rộng bộ dữ liệu xử lý nhập nhằng để phần nào cải tiện đƣợc hiệu suất chung của toàn bộ hệ thống, đồng thời tăng thêm độ chính xác cho bộ dữ liệu huấn luyện đƣợc mở rộng ở đầu ra 3.2.2 Các bƣớc của thuật toán Dữ liệu đầu vào của thuật toán là một bộ dữ liệu huấn luyện nhỏ có các câu chứa từ đang cần gán nghĩa và nghĩa. .. văn bản Chuẩn bị dữ liệu (liệt kê, định dạng) (3.2.2.1) Dữ liệu chƣa gán nghĩa của từ đang xét Loại bỏ những trƣờng hợp có xác suất quá thấp (3.2.2.4 Bƣớc 2) Chƣa thỏa mãn điều kiện dừng, tiếp tục huấn luyện Điều kiện dừng (3.2.2.5) Dữ liệu gán nghĩa mở rộng của từ đang xét Hình 2: Sơ đồ các bước của phương pháp mở rộng bộ dữ liệu huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ 15 Chƣơng 3: Các . pháp
mở rộng dữ liệu huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ 4
Hình 2: Sơ đồ các bƣớc của phƣơng pháp mở rộng bộ dữ liệu huấn luyện cho quá. bộ dữ liệu
huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ.
Chƣơng 2: Các đặc tính của từ liên quan đến mở rộng bộ dữ liệu xử lý nhập
nhằng nghĩa
Ngày đăng: 18/02/2014, 00:04
Xem thêm: mở rộng bộ dữ liệu huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ, mở rộng bộ dữ liệu huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ