Nghiên cứu kỹ thuật gán nhãn cho dữ liệu dạng chuỗi và ứng dụng

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TẬP ĐOÀN BƯU CHÍNH VIỄN THÔNG VIỆT NAM HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG BÙI ĐỨC TRUNG NGHIÊN CỨU KỸ THUẬT GÁN NHÃN CHO DỮ LIỆU DẠNG CHUỖI VÀ ỨNG DỤNG CHUYÊN NGÀNH : TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH MÃ SỐ: 60.48.15 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT HÀ NỘI – 2010 Luận văn được hoàn thành tại: Học viện Công nghệ Bưu chính Viễn thông Tập đoàn Bưu chính Viễn thông Việt Nam Người hướng dẫn khoa học: PGS.TS. TỪ MINH PHƯƠNG Phản biện 1: …………………………………………………… …………………………………………………… Phản biện 2: …………………………………………………… …………………………………………………… Luận văn sẽ được bảo vệ trước hội đồng chấm luận văn tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: giờ ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu chính Viễn thông 1 LỜI MỞ ĐẦU Dữ liệu dạng chuỗi là một tập các phần tử được sắp thứ tự s:= a 1 , a 2 , a n . Trong đó mỗi phần tử a i có thể là kiểu số hoặc có thể nhận giá trị rời rạc. Độ dài n của chuỗi là không cố định, chuỗi được sắp theo thứ tự thời gian hoặc vị trí và có thể sắp đều hoặc không. Bài toán gán nhãn cho dữ liệu dạng chuỗi là một phần quan trọng của vấn đề phân loại giám sát, khi mà các nhãn cho một bộ các biến mục tiêu sẽ được dự đoán đồng thời với nhãn các biến khác trong chuỗi. Có nhiều bài toán trong thực tế được giải quyết dựa trên vấn đề gán nhãn cho dữ liệu dạng chuỗi. Gán nhãn cho dữ liệu dạng chuỗi có vai trò cốt lõi, quan trọng trong ba bài toán cơ bản sau: thông tin, nhận dạng giọng nói, ngôn ngữ và chữ viết. Các ứng dụng cổ điển của bài toán gán nhãn cho dữ liệu dạng chuỗi là về giọng nói với chuỗi các âm vị, ngôn ngữ với chuỗi các từ và khoảng trắng và chữ viết tay với chuỗi các nét chữ. Ngoài ra, hiện nay một số ứng dụng mới của phương pháp này như Tin sinh học với các bài toán về dự đoán gen, các ứng dụng trong viễn thông về cảnh báo lỗi, gán nhãn cho các gói dữ liệu … Mô hình Markov ẩn đã thành công với bài toán gán nhãn cho dữ liệu dạng chuỗi này trong nhiều năm. Gần đây, một số mô hình có điều kiện như Maximum Entropy Markov Model (MEMM) và Conditional Random Field (CRF) được sử dụng nhiều bởi khả năng cho phép các tính năng chồng chéo. Đặc biệt là CRF được coi như là một phương pháp rất triển vọng đối với bài toán gán nhãn cho chuỗi. Bưu điện tỉnh Lạng Sơn là một doanh nghiệp kinh doanh các dịch vụ Bưu chính, viễn thông trên địa bàn tỉnh Lạng Sơn, các dữ liệu dạng chuỗi ngày càng 2 xuất hiện nhiều trong quá trình sản xuất kinh doanh tại đơn vị và cho thấy có thể có nhiều ứng dụng. Vì lý do đó, tôi chọn đề tài: “Nghiên cứu kỹ thuật gán nhãn cho dữ liệu dạng chuỗi và ứng dụng” Mục đích nghiên cứu: Nghiên cứu các dạng dữ liệu dạng chuỗi, các kỹ thuật gán nhãn cho dữ liệu dạng chuỗi và các ứng dụng trong các bài toán có cấu trúc trong thực tế. Với mục tiêu cụ thể như sau: - Nghiên cứu bài toán gán nhãn cho dữ liệu dạng chuỗi. - Nghiên cứu một sỗ kỹ thuật gán nhãn cho dữ liệu dạng chuỗi cụ thể là máy vecto hỗ trợ (Support Vector Machines –SVM) s , Mô hình Markov ẩn (Hidden Markov Model – HMM), Mạng Markov với lề cực đại (Max Margin Markov Network -M3N) và Trường ngẫu nhiêu điều kiện (Conditional Random Field – CRF). - Minh hoạ các kỹ thuật trên bằng hai bài toán thường gặp. Đối tượng và phạm vi nghiên cứu: Luận văn tập trung vào nghiên cứu các dữ liệu dạng chuỗi có cấu trúc, các kỹ thuật gán nhãn cho dữ liệu dạng chuỗi, đây là một lĩnh vực giành được nhiều sự chú ý trong Machine Learning và lĩnh vực mới thu hút sự quan tâm của nhiều đối tượng. Kỹ thuật gán nhãn cho dữ liệu dạng và ứng dụng cụ thể của kỹ thuật này. Phương pháp nghiên cứu: Nghiên cứu lý thuyết trong các kỹ thuật gán nhãn cho dữ liệu dạng chuỗi, nghiên cứu cụ thể kỹ thuật SVM, HMM, M3N và CRF. Nghiên cứu bài toán “Gán nhãn từ loại” và bài toán “Nhận dạng ký tự viết tay” cùng với các ứng dụng trong thực tế từ đó có hướng giải quyết cụ thể. 3 Luận văn này được trình bày trong ba chương: Chương 1: Tổng quan Chương 1 giới thiệu chung về dữ liệu dạng chuỗi, bài toán gán nhãn cho dữ liệu dạng chuỗi và các ứng dụng trong trí tuệ nhân tạo hiện nay. Chương này cũng đề cập đến các công nghệ đã và đang được ứng dụng bài toán gán nhãn cho dữ liệu dạng chuỗi. Chương 2: Một số mô hình giải bài toán gán nhãn cho dữ liệu dạng chuỗi Chương này sẽ giới thiệu một số mô hình để giải bài toán gán nhãn cho dữ liệu dạng chuỗi. Trong chương này ta sẽ xem xét các phương pháp được ứng dụng nhiều hiện nay là SVM, HMM, M3N và CRF. Ta cũng xem xét cụ thể cách mô hình bài toán gán nhãn cho dữ liệu dạng chuỗi đối với các phương pháp này. Chương 3: Thiết kế thử nghiệm và phân tích Trong phần này ta sẽ áp dụng các thuật toán đã đề cập trong các phần trước để mô hình hai bài toán học có cấu trúc đã được biết rộng rãi là: gán nhãn từ loại (Part-of-speech (POS) tagging) và nhận dạng ký tự viết tay (handwritten character recognition - OCR). 4 Chương 1 TỔNG QUAN 1.1 DỮ LIỆU DẠNG CHUỖI Dữ liệu dạng chuỗi là một tập các phần tử được sắp thứ tự s:= a 1 , a 2 , a n . Trong đó mỗi phần tử a i có thể là kiểu số hoặc có thể nhận giá trị rời rạc. Độ dài n của chuỗi là không cố định, chuỗi được sắp theo thứ tự thời gian hoặc vị trí và có thể sắp đều hoặc không. Ngày nay, dữ liệu dạng chuỗi được ứng dụng thực tế trong nhiều ngành và có vai trò quan trọng trong các bài toán phân loại hay nhận dạng. 1.2 BÀI TOÁN GÁN NHÃN CHO DỮ LIỆU DẠNG CHUỖI Gán nhãn cho chuỗi là xác định nhãn phân loại cho từng thành phần trong chuỗi quan sát được. Để xác định nhãn cho các thành phần của một chuỗi, ta có thể xác định nhãn cho từng thành phần độc lập với các thành phần khác. Khi đó, bài toán có thể coi như là một tập các nhiệm phụ phân lớp độc lập đối với các thành phần của chuỗi. Tuy nhiên, có thể nhận thấy nhãn phân loại của mỗi thành phần lại phụ thuộc vào nhãn các thành phần xung quanh. Vì vậy, việc gán nhãn cho chuỗi cần được thực hiện theo phương pháp cho phép tính tới sự phụ thuộc giữa các nhãn trong chuỗi với nhau. Từ đây dẫn tới nhu cầu phát triển và sử dụng kỹ thuật phân loại đặc thù cho dữ liệu có dạng chuỗi. Trong bài toán gán nhãn cho dữ liệu dạng chuỗi, đầu ra là chuỗi của các nhãn y = (y 1 , y 2 , …, y T ) tương ứng với một chuỗi quan sát x = (x 1 , x 2 , …, x T ). Nếu mỗi nhãn có thể nhận giá trị từ tập ∑ thì đầu ra có thể coi như là một vấn đề phân loại đa lớp với |∑| T các lớp khác nhau. Bài toán có thể được đưa ra như sau: Bài toán: Cho trước 5 Đầu vào: x = (x 1 , x 2 , …, x T ) Và các nhãn tương ứng: y = (y 1 , y 2 , …, y T ) Khi đó, với mỗi x, hãy tiên đoán y. Gán nhãn cho dữ liệu dạng chuỗi được sử dụng nhiều trong các bài toán gán nhãn từ loại, nhận dạng hình ảnh, âm thanh hay các bài toán về dự đoán gen. Mô hình Markov ẩn đã thành công trong một thời gian dài với bài toán gán nhãn cho dữ liệu dạng chuỗi. Gần đây, một số mô hình có điều kiện như Maximum Entropy Markov Model (MEMM) và Conditional Random Field (CRF) được sử dụng nhiều bởi khả năng cho phép các tính năng chồng chéoTrong đó CRF là phương pháp được chú ý nhiều nhất. Sự quan tâm dành cho bộ môn Trí tuệ nhân tạo cũng như bài toán gán nhãn cho dữ liệu dạng chuỗi trong những năm gần đây là rất đáng kể. Nhiều công trình nghiên cứu trong và ngoài nước đã và đang sử dụng gán nhãn cho dữ liệu dạng chuỗi và có những ứng dụng nhất định. Trong những năm gần đây, việc giải bài toán gán nhãn cho dữ liệu dạng chuỗi với dữ liệu có cấu trúc thu hút được nhiều sự chú ý trong các vấn đề về xử lý ngôn ngữ tự nhiên. Mục đích của bài toán học có cấu trúc là dự đoán được các cấu trúc phức tạp như chuỗi, cây hay đồ thị. 6 Chương 2 MỘT SỐ MÔ HÌNH GIẢI BÀI TOÁN GÁN NHÃN CHO DỮ LIỆU DẠNG CHUỖI Chương này giới thiệu một số mô hình để giải bài toán gán nhãn cho dữ liệu dạng chuỗi. Trong chương này ta sẽ xem xét các phương pháp được ứng dụng nhiều hiện nay là SW, SVM, HMM, M3N và CRF. Ta cũng xem xét cụ thể cách mô hình bài toán gán nhãn cho dữ liệu dạng chuỗi đối với các phương pháp này. 2.1 MÔ HÌNH CỬA SỔ TRƯỢT (SW) Đối với bài toán gán nhãn cho dữ liệu dạng chuỗi nêu trên, có một số mô hình thích hợp dùng để giải như Mô hình Markov ẩn (Hidden Markov Model – HMM), mô hình máy vector hỗ trợ (Support Vector Machine – SVM), mô hình Cửa sổ trượt (Sliding Window) hay mô hình Các trường điều kiện ngẫu nhiên (Conditional Random Fields – CRFs). Trong đó có thể nói mô hình cửa sổ trượt là một mô hình đơn giản nhất. Mô hình cửa sổ trượt chuyển vấn đề học có giám sát một chuỗi thành mô hình học có giám sát kinh điển. Phương pháp này xây dựng một bộ phân loại cửa sổ h w mà sắp xếp một cửa sổ đầu vào w với một giá trị đầu ra y riêng. Cụ thể, lấy d = (w-1)/2 là một nửa độ dài của cửa sổ. Khi đo cửa sổ h w sẽ dự đoán phần tử y i,t sử dụng cửa sổ <x i,t-d , x i,t-d+1 , …, x i,t , …, x i,t+d-1 , x i,t+d >. Kết quả là với mỗi chuỗi đầu vào x i được thêm vào một giá trị d null ở cuối và sau đó được chuyển thành N i mẫu riêng biệt. 7 Phương pháp cửa sổ trượt cho kết quả tương đối tốt trong một số ứng dụng. tuy nhiên phương pháp này không cho phép tính đến sự phụ thuộc giữa giá trị của y t với các giá trị y khác gần đó. Một cách để cải tiến mô hình cửa sổ trượt đã nêu ở trên là làm cho nó hồi quy. Trong mô hình cửa sổ trượt hồi quy, các giá trị được dự đoán  , được cung cấp như là đầu vào để hỗ trợ trong việc dự đoán giá trị y i,t+1 . Cụ thể, với một cửa sổ của nửa độ dài d, hầu hết các dự đoán d gần đây  , , , ,…, , được sử dụng như là các đầu vào (cùng với cửa sổ trượt <x i,t-d , x i,t-d+1 , …, x i,t , …, x i,t+d-1 , x i,t+d >) để dự đoán y y,t . 2.2 PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ (SVM) Lấy = {( ̅  ,  ) ,…, ( ̅  ,  )} là một tập gồm m mẫu huấn luyện. Giả sử rằng mỗi mẫu ̅  là được đưa vào từ miền  ⊆   và mỗi nhãn   là một giá trị nguyên từ tập = { 1,…, } . Một bộ phân loại đa lớp là một hàm : → mà ánh xạ một ̅ tới một phần tử y trong . Trong phần này ta tập trung vào nền tảng mà sử dụng bộ phân loại được cho bởi   ( ̅ ) = arg   {    .̅ } Để xây dựng được bộ dự đoán, ta thay thế lỗi phân loại sai của một mẫu ([  ( ̅ ) ≠]) bằng các phần biên tuyến tính sau đây max     .̅+ 1 −  , −    .̅ Phương pháp SVM có thể sử dụng cho bài toán gán nhãn cho dữ liệu dạng chuỗi. Thay vì sử dụng chuỗi cặp (x,y) làm các mẫu huấn luyện, SVM sử dụng mỗi cặp dấu hiệu nhãn (x, y) trong chuỗi làm mẫu huấn luyện. Với ánh xạ đặc trưng  ( , ) =     …  | Σ |   ở đây   = (= ), SVM học vector trọng số w và biến lỏng ξ cho vấn đề tối ưu bậc hai sau đây 8 min , 1 2 ‖  ‖  +       Với điều kiện ∀,∀∈ \  : 〈 , ( (  ,  ) −(  ,)) 〉 ≥1 −   SVM sử dụng phưong pháp lát cắt để xử lý vấn đề tối ưu này lặp đi lặp lại việc thêm hầu hết các hạn chế vi phạm vào tập hợp các hạn chế được tối ưu cho công thức kép. Sau đó ta được w đã học và ξ, sự phân loại của mẫu x mới được thực hiện bởi  (  ) = arg ∈ 〈 , ( , ) 〉 với sự tìm kiếm đầy đủ của nhãn y. Phương pháp này bao gồm một tham số điều chỉnh C là sự thoả hiệp giữa lỗi huấn luyện và biên 2.3 MÔ HÌNH MARKOV ẨN (HMM) Ta đã biết mô hình Markov là mô hình mà mỗi trạng thái tương ứng với một sự kiện có thể quan sát được. Tuy nhiên các mô hình như vậy có ứng dụng rất hạn chế trong các bài toán thực tế. Do đó, mô hình được mở rộng bao gồm cả những trường hợp thống kê chồng kép với một quá trình thống kê mà bên trong không quan sát được (ẩn sâu bên trong), chỉ có thể quan sát được thông qua một tập các quá trình thống kê khác, các quá trình mà tạo ra dãy quan sát được. Mô hình như vậy được gọi là mô hình Markov ẩn (HMM). Một mô hình Markov ẩn học một mô hình có khả năng sinh qua các cặp đầu vào, mỗi cặp gồm một chuỗi của các quan sát và chuỗi của các nhãn. Mô hình Markov ẩn đã có được nhiều thành công trước đây, các mô hình Markov ẩn khó mô hình các đa đặc trưng không độc lập. Đúng ra thì, cho trước một chuỗi quan sát, ta có thể tìm được tuyến trạng thái có khả năng nhất cho chuỗi quan sát bằng thuật toán Viterbi. [...]... toán phổ biến trong vấn đề gán nhãn cho dữ liệu dạng chuỗi đó là Gán nhãn từ loại” và “Nhận dạn ký tự viết tay” Qua các bài toán thực tế cho thấy, mô hình CRF cho kết quả tốt nhất trong các mô hình trên đối với các bài toán gán nhãn cho dữ liệu dạng chuỗi Luận văn đã tập trung nghiên cứu và đưa ra các kết quả sau:  Trình bày tổng quan bài toán gán nhãn cho dữ liệu dạng chuỗi  Trình bày một số mô... toán gán nhãn cho dữ liệu dạng chuỗi  Đưa ra bài toán và so sánh các kết quả đạt được khi giải bài toán bằng các mô hình khác nhau Luận văn này có thể được phát triển theo một số hướng:  Tìm hiểu kỹ hơn một số mô hình để giải bài toán gán nhãn cho dữ liệu dạng chuỗi  Xây dựng một số ứng dụng khác sử dụng các phương pháp gán nhãn cho dữ liệu dạng chuỗi Mặc dù có rất nhiều cố gắng trong nghiên cứu. .. là một phương thức tốt nhất để gán nhãn cho dữ liệu dạng chuỗi Trong chương 3 ta sẽ mô hình một ứng dụng sử dụng CRF để gán nhãn cho dữ liệu dạng chuỗi 13 Chương 3 THIẾT KẾ THỬ NGHIỆM VÀ PHÂN TÍCH Dữ liệu gán nhãn từ loại được lấy từ http://www.cs.cornell.edu/~nhnguyen/data.rar, chia thành 5 tập huấn luyện riêng biệt với kích thước khác nhau: 500, 1000, 2000, 4000, và 8000 câu Đối với mỗi kích thước... thấy CRF đã cho hiệu quả tốt nhất trong việc giải bài toán gán nhãn từ loại cũng như bài toán nhận dạng ký tự viết tay Bên cạnh đó, các phương pháp SVM và M3N cũng thực hiện tương đối tốt công việc này 17 KẾT LUẬN Gán nhãn cho dữ liệu dạng chuỗi là một chủ đề rộng lớn Luận văn này đã mô tả và so sánh một số mô hình khác nhau trong việc gán nhãn cho dữ liệu dạng chuỗi là SW, SVM, HMM, M3N và CRF Luận... viết tay Trong chương này ta đã nghiên cứu ứng dụng của các mô hình giải bài toán dữ liệu dạng chuỗi vào hai bài toán học có cấu trúc nổi tiếng cụ thể là bài toán gán nhãn từ loại và bài toán nhận dạng ký tự viết tay Đối với bài toán nhận dạng ký tự viết tay, ta thấy mô hình Markov ẩn có được hiệu tương đối tốt, qua đó ta có thể cho rằng tuỳ thuộc vào bài toán, ta có thể áp dụng các mô hình một cách linh... đối với bài toán gán nhãn từ loại với các kích thước tập dữ liệu khác nhau (tính theo %) Với phạm vi của bài toán nhận dạng ký tự viết tay, ta chỉ xét dữ liệu là các chuỗi toạ độ không gắn với nhãn thời gian và được xử lý với tốc độ đồng nhất 15 Trong bài toán nhận dạng ký tự viết tay, công đoạn tiền xử lý bao gồm các chức năng lọc nhiễu và chuẩn hoá hình ảnh đầu vào Với đầu vào là các chuỗi quan sát,... 600 dữ liệu huấn luyện, 100 dữ liệu xác thực và xấp xỉ 5.400 mẫu kiểm tra Các đặc trưng đầu vào cho mỗi tín hiệu là một vector miêu tả bằng một hình ảnh nhị phân 16 x 8 của chữ cái Để đánh giá hiệu suất của tất cả các mô hình, ta sử dụng lỗi trung bình (AverageLoss) trên chuỗi: = ở đây và 1 1 (( ) ≠ ( ) lần lượt là chuỗi được dự đoán và chuỗi thực tế; N là tổng số các mẫu kiểm tra; Li là độ dài của chuỗi. .. loại bỏ 10% các chuỗi là dữ liệu xác thực Các đặc trưng đầu vào cho mỗi dấu hiệu (trong POS là một từ) thay đổi theo vị trí của nó trong câu Trong bài toán nhận dạng ký tự viết tay, tập dữ liệu cũng được lấy từ http://www.cs.cornell.edu/~nhnguyen/data.rar, chứa khoảng 6.000 chữ viết tay, với độ dài xấp xỉ 8 ký tự, từ 150 người khác nhau, dữ liệu này được thu thập bởi Kassel Tập dữ liệu này được chia... Chương trình bậc hai cơ bản đối với M3N sử dụng công thức giống như trong công thức (2.4.6) Tuy nhiên M3N cũng cung cấp một cách thông số hoá các biến đôi để có được các ưu điểm của cấu trúc mạng của vấn đề gán nhãn cho dữ liệu dạng chuỗi 2.5 MÔ HÌNH CÁC TRƯỜNG ĐIỀU KIỆN NGẪU NHIÊN (CRF) CRF đưa ra một định nghĩa tốt về sự phân bổ xác suất dựa trên khả năng gán nhãn, được huấn luyện bởi khả năng lớn nhất... thông tin quan trọng nhất của dữ liệu quan sát và mối quan hệ giữa dữ liệu đầu vào với đầu ra Vấn đề lựa chọn đặc trưng được biết đến một cách rộng rãi trong học máy đối với các không gian đầu ra không có cấu trúc Nói rộng ra, có ba hướng tiếp cận đối với vấn đề này Tiếp cận theo hướng lọc sử dụng một số thuật toán heuristic nhanh và đơn giản để chọn các đặc trưng theo một vài tiêu chuẩn độc lập Tiếp . tài: Nghiên cứu kỹ thuật gán nhãn cho dữ liệu dạng chuỗi và ứng dụng Mục đích nghiên cứu: Nghiên cứu các dạng dữ liệu dạng chuỗi, các kỹ thuật gán nhãn. Nghiên cứu lý thuyết trong các kỹ thuật gán nhãn cho dữ liệu dạng chuỗi, nghiên cứu cụ thể kỹ thuật SVM, HMM, M3N và CRF. Nghiên cứu bài toán Gán nhãn

Ngày đăng: 17/02/2014, 08:40

Xem thêm: Nghiên cứu kỹ thuật gán nhãn cho dữ liệu dạng chuỗi và ứng dụng, Nghiên cứu kỹ thuật gán nhãn cho dữ liệu dạng chuỗi và ứng dụng

Nghiên cứu kỹ thuật gán nhãn cho dữ liệu dạng chuỗi và ứng dụng

Thông tin tài liệu

Hình ảnh liên quan

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan