Tiểu luận môn Máy học và ứng dụng TÌM HIỂU CONDITIONAL RANDOM FIELDS VÀ GIỚI THIỆU CÔNG CỤ CRF+ + TRONG BÀI TOÁN TRÍCH CHỌN THÔNG TIN

15 721 0
Tiểu luận môn Máy học và ứng dụng TÌM HIỂU CONDITIONAL RANDOM FIELDS VÀ GIỚI THIỆU CÔNG CỤ CRF+ + TRONG BÀI TOÁN TRÍCH CHỌN THÔNG TIN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  BÀI TIỂU LUẬN MƠN MÁY HỌC VÀ ỨNG DỤNG TÊN ĐỀ TÀI: TÌM HIỂU CONDITIONAL RANDOM FIELDS VÀ GIỚI THIỆU CÔNG CỤ CRF+ + TRONG BÀI TỐN TRÍCH CHỌN THƠNG TIN Giảng viên hướng dẫn: PGS TS Vũ Thanh Nguyên Họ tên học viên: Đặng Thị Mỹ Hạnh Mã số học viên: CH1301012 CHƯƠNG TÌM HIỂU CONDITIONAL RANDOM FIELDS (CRF) Nguồn gốc CRF giới thiệu vào năm 2001 Lafferty đồng nghiệp [14] [11] CRF mơ hình dựa xác xuất điều kiện, thường sử dụng gán nhãn phân tích liệu ví dụ ký tự, ngơn ngữ tự nhiên Khác với mơ hình MEMM (Mơ hình Markov cực đại hóa Entropy – Maximum Entropy Markov Model), CRF mơ hình đồ thị vơ hướng Điều cho phép CRF định nghĩa phân phối xác suất tồn chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước thay phân phối trạng thái với điều kiện biết trạng thái trước quan sát mơ hình MEMM Chính tính chất CRF mà mơ hình giải vấn đề “label bias” - gán nhãn Định nghĩa 2.1 Định nghĩa trường ngẫu nhiên Cho đồ thị vơ hướng khơng có chu trình G(V,E), V tập đỉnh đồ thị E tập cạnh vô hướng nối đỉnh đồ thị thỏa mãn: P(vi | Yvj, vi≠ vj ) = P(vi | Yvk, vi≈ vk ) V gọi trường ngẫu nhiên Hình: Một trường ngẫu nhiên P(Y5 | YYi) = P(Y5 | Y4, Y6) Vậy Y= {Y5 , Y4 , Y6} trường ngẫu nhiên 2.2 Trường ngẫu nhiên có điều kiện - CRF - Trường ngẫu nhiên có điều kiện phát biểu sau: X biến ngẫu nhiên nhận giá trị chuỗi liệu cần phải gán nhãn Y biến ngẫu nhiên nhận giá trị chuỗi nhãn tương ứng Mỗi thành phần Y i Y biến ngẫu nhiên nhận giá trị tập hữu hạn trạng thái S Các đỉnh V biểu diễn thành phần biến ngẫu nhiên Ysao cho tồn ánh xạ - đỉnh thành phần Yv Y - Hay CRFs mơ hình trạng thái tuyến tính vơ hướng (máy trạng thái hữu hạn huấn luyện có điều kiện) tuân theo tính chất Markov thứ + Gọi o = (o1, o2, …, oT) chuỗi liệu quan sát cần gán nhãn Gọi S tập trạng thái, trạng thái liên kết với nhãn Đặt s = (s1, s2,…, sT) chuỗi trạng thái đó, CRFs xác định xác suất điều kiện chuỗi trạng thái biết chuỗi quan sát sau: + Gọi thừa số chuẩn hóa tồn chuỗi nhãn fkxác định hàm đặc trưng trọng số liên kết với đặc trưng fk.Mục đích việc học máy với CRFs ước lượng trọng số + Ở đây, ta có hai loại đặc trưng fk : đặc trưng trạng thái (per-state) đặc trưng chuyển (transition) (2) (3) + Ở δ Kronecker- δ Mỗi đặc trưng trạng thái (2) kết hợp nhãn l trạng thái st vị từ ngữ cảnh - hàm nhị phân xk(o,t) xác định ngữ cảnh quan trọng quan sát o vị trí t Một đặc trưng chuyển (3) biểu diễn phụ thuộc chuỗi cách kết hợp nhãn l’ trạng thái trước st-1 nhãn l trạng thái st - Ngồi hiểu Conditional random fields probabilistic framework (theo xác suất) cho việc gán nhãn phân đoạn liệu Thay sử dụng xác suất độc lập chuỗi nhãn chuỗi quan sát, ta sử dụng xác suất có điều kiện P(Y|X) toàn chuỗi nhãn đưa chuỗi chuỗi quan sát X CRF mơ hình đồ thị vơ hướng định nghĩa phân bố tuyến tính đơn chuỗi nhãn (trình tự nhãn) đưa chuỗi quan sát CRFs thuận lợi mơ hình Markov MEMM Nó làm tốt MEMM HMM (Mơ hình Markov ẩn – Hiden Markov Model) sốlượng chuỗi gán nhãn lớn Ví dụ: xét ngơn ngữ tự nhiên, việc gán nhãn cho từ câu tương ứng với loại từ vựng Ở câu liệu nhãn cần gán từ loại: [NP He] [VP reckons] [NP the current account deficit] [VP will narrow] [PP to] [NP only # 1.8 billion ] [PP in ] [NP September ] Trong ý nghĩa nhãn là: NP: nounse phrase, VP: verb phrase… Punctuation Tags # $ '' ( ) , : `` - Một phát biểu khác CRF: (Y|X) trường ngẫu nhiên điều kiện (Conditional Random Field) với điều kiện X ta tính xác xuất có điều kiện P(Yi| Xi) với Yi⊂Y Xi⊂ X với Xi ta chọn argmaxYi P(Yi|Xi) Trong toán liệu dạng chuỗi, G biểu diễn sau: G = ( V={1,2,3,…m}, E={i,i+1}i=1…m-1) Kí hiệu X=(X1, X2…Xn), Y=(Y1, Y2,…Yn) Ta có mơ hình đồ thị vơ hướng CRF có dạng sau: Hình: Đồ thị vơ hướng mơ tả cho CRF Tính chất trường ngẫu nhiên có điều kiện - Mơ hình phân biệt (discriminative models) - Mơ hình chuỗi (sequential models) - Mơ hình đồ thị vơ hướng (Undirected graphical models) Mục đích - CRFs chứng minh thành công cho toán gán nhãn cho chuỗi tách từ, gán nhãn cụm từ, xác định thực thể, gán nhãn cụm danh từ ⇒ sử dụng phương pháp CRF kết hợp với vài phương pháp xử lý khác (như xử lý ngôn ngữ tự nhiên) giúp nâng cao hiệu trích xuất thơng tin web - Người ta thường huấn luyện CRFs cách làm cực đại hóa hàm likelihood theo liệu huấn luyện sử dụng kĩ thuật tối ưu Việc lập luận (dựa mô hình học) tìm chuỗi nhãn tương ứng chuỗi quan sát đầu vào Đối với CRFs, người ta thường sử dụng thuật toán qui hoạch động điển hình (Viterbi) để thực lập luận với liệu - Cách giải vấn đề: Giả sử cần rút trích thơng tin từ trang web cho trước, cần xác định mục tiêu + Xác định trang web có chứa tin tức hay khơng? + Xác định vùng thông tin chứa tin tức? + Xác định tin tức thuộc loại tin tức nào?  Có thể xem mục tiêu đặt diễn giải sau: Cho trang web x tập DOM (document object model), nút x 1, …,xk x Đặt = y1,…,yk nhãn gán cho x1,…,xk với y1,…,yk nội dung nút x1,…,xk Lần lượt xét nút đặc trưng chứa tin tức (xác định) để duyệt nhãn chọn nhãn có nội dung tin tức cần tìm  Khi giải mục tiêu đề ta gặp vấn đề cụ thể: + Công việc xác định trang web chứa tin tức nghĩa nhập trang web ta phải xác định trang web có nội dung chứa tin tức hay khơng? + Nếu trang web có chứa tin tức, tìm kiếm vùng liệu mà nội dung có chứa tin tức + Qua vùng tin tức ta cần xác định tin tức tin tức thuộc thể loại  Để giải vấn đề ta gặp số khó khăn như: + Việc xác định vùng nội dung chứa tin tức xác định dựa nội dung tin tức, điều liên quan đến vấn đề xử lý văn tiếng Việt (nếu rút trích văn tiếng Việt) Đây vấn đề khó khăn rút trích + Quá trình xử lý trang web thực thông qua nhiều tầng lần, dễ xảy cố  Để giải khó khăn nêu trên, phương pháp áp dụng để xử lý là: + Xử lý tiếng việt xảy bước xác định từ loại điều giúp vấn đề trở nên đơn giản + Xác định ngữ pháp câu + Sự giúp đỡ từ điển tiếng Việt Thuật toán gán nhãn cho liệu dạng chuỗi - Hai vấn đề quan trọng cần phải đề cập đến nghiên cứu mô hình CRF là: thứ đưa chuỗi nhãn y chuỗi quan sát x làm tìm tham số λ CRF để làm cực đại hóa xác suất p(y|x, λ) vấn đề tạm gọi huấn luyện (training) Thứ hai đưa chuỗi quan xát x tham số λ làm để tìm chuỗi nhãn y phù hợp tạm gọi vấn đề quy nạp (inference) - Mục đích việc gán nhãn tìm chuỗi y* cho cực đại hóa xác suất p(y|x, λ) Hay nói cách khác mục đích thuật tốn tìm chuỗi nhãn phù hợp với chuỗi liệu quan sát - Thay việc tính xác suất tổng xác suất ta cần tính giá trị lớn xác suất dịch chuyển Khi chuỗi trạng thái y* mô tả tốt cho chuỗi liệu quan sát x nghiệm phương trình (**) - Vì Z(x) không phụ thuộc vào nhãn riêng biệt x số mũ hàm đơn điệu Nên ta bỏ qua Z(x) cơng thức (**) Để tìm y*, thỏa mãn (**) gặp phải khó khăn thời gian tính tốn, thời gian tính tốn hàm mũ - Chuỗi y* xác định thuật toán Virterbi Định nghĩa ∂ i(y) xác suất chuỗi trạng thái độ dài i kết thúc trạng thái y có xác suất lớn biết chuỗi quan sát x Trong ∂1(yk) xác suất trạng thái y k Ta định nghĩa Ψi(y) để ghi lại nhãn thứ i-1 có xác suất lớn Thuật tốn dừng Ψi(y) có giá trị Thuật tốn Viterbi mơ tả qua bước sau: Bước 1: Khởi tạo ∂1(yk) =∑k sk(y, x) , ∀y∈Y Bước 2: Đệ quy i+1 (yk) = max (∂i(y’) + ∑λ k tk(y’, y, x) + ∑k sk(y, x)), ∀y∈ Y Ψi(y) = arg max(∂i(y’) + ∑λ k tk(y’, y, x) + ∑k sk(y, x)), ∀y∈ Y Bước 3: Dừng Đệ quy dừng i=n chiều dài chuỗi Ứng dụng - Một ứng dụng trội CRFs rút trích thông tin (Information Extraction – IE) Dưới module mơ tả việc rút trích thơng tin phương pháp CRFs Hình: Module rút trích thơng tin phương pháp CRFs Hình: Mơ hình xây dựng IE theo mơ hình máy học - Lợi ích việc dùng CRF để trích chọn thơng tin + Tiết kiệm thời gian Mỗi tin đăng website khác có định dạng khác nhau: Có thể định dạng văn thơng thường, dạng bảng biểu, đường liên kết Với cách thể văn việc tìm thơng tin văn loại gì: Kế hoạch, Cơng văn, Đề xuất; đơn vị lập; Nội dung gì; Thời gian nào…là việc tương đối khó khăn Với tốn trích chọn thơng tin văn tiết kiệm thời gian nhiều cho người quản lý văn + Có thể tìm kiếm thơng tin xác nhiều (Vấn đề tin có nhập nhằng nội dung Kế hoạch hay Cơng văn v.v Việc trích chọn giảm bớt nhập nhằng thơng tin này) + Nói rộng tốn trích chọn thơng tin văn toán nhỏ Từ toán ta thấy ý nghĩa việc trích chọn thông tin tiếng Việt + Giúp cho việc tóm tắt văn xác chủ đề văn rõ + Tự tạo trường liên quan cách tự động sở liệu lấy từ văn + Một số ứng dụng điển hình trích chọn thơng tin: sử dụng trích chọn thơng tin thư viện số - DL (Digital Libraries) - thư viện số hiểu văn hình ảnh… Rút trích thơng tin từ thư điện tử Trích chọn tiểu sử người (có thể chân dung, vịtrí, email, địa chỉ, số điện thoại, số fax…) CHƯƠNG GIỚI THIỆU CRF++ TOOLKIT Giới thiệu - CRF ++ công cụ cài đặt mơ hình CRF phân phối dạng mã nguồn mở dùng để phân đoạn gán nhãn liệu - CRF++ thiết kế cho mục đích phổ dụng ứng dụng tốn xử lý ngôn ngữ tự nhiên nhận dạng thực thể tên, trích chọn thơng tin đóng khung văn - Hệ thống hoạt động theo phương pháp học nửa giám sát thực gồm bước sau: 10 Bước 1: Tạo liệu huấn luyện bé Bước thực tay Bước 2: Sử dụng mơ hình CRFs để huấn luyện tập liệu Bước 3: Tạo tập test sử dụng CRFs để gán nhãn Bước 4: Bộ liệu sinh cách bổ sung nhãn cho tập liệu test - CRF++ chia làm modulo mơ tả sau: Hình: Mơ hình hoạt động CRF++ Tính - Có thể định nghĩa lại tính có, ta tùy biến để thêm đặc trưng phù hợp với toán cụ thể - Viết C++, phần mềm mã nguồn mở - Bộ nhớ nhỏ sử dụng kiểm tra phân tích - Có thể đưa xác suất lề cho tất đầu vào Cài đặt cách sử dụng Cài đặt - Chuyển vào thư mục chứa công cụ CRF++ - Dùng chmod 777 /configure - make clean && make 11 File định dạng huấn luyện test Để sử dụng CRF++ ta cần phải có file liệu, file dùng cho trình huấn luyện, file cịn lại dùng cho q trình kiểm tra Cả file huấn luyện kiểm tra cần có định dạng riêng CRF++ để làm việc Thông thường file huấn luyện file kiểm tra chứa đựng nhiều từ tố Mỗi từ tố phải viết dịng, ngồi từ tố cịn có cột chứa thơng tin khác dùng để mô tả từ tố chẳng hạn từ loại từ tố cột cuối chứa nhãn từ tố Để định nghĩa từ tố phụ thuộc vào công việc, hầu hết trường hợp điển hình chúng từ Mỗi từ tố dòng, cột phân chia khoảng trắng Trình tự từ tố tạo thành câu Một dòng trắng để phân biệt câu Dưới ví dụ file huấn luyện Với cột thứ thân từ đó, cột thứ hai từ loại cột cuối nhãn cần gán Ví dụ 1: Input: Data He PRP B-NP reckons VBZ B-VP the DT B-NP current JJ I-NP account NN I-NP deficit NN I-NP will MD B-VP narrow VB I-VP to TO B-PP only RB B-NP # # I-NP 1.8 CD I-NP billion CD I-NP in IN B-PP September NNP B-NP O 12 He PRP B-NP reckons VBZ B-VP Ví dụ 2: Ke NN B-NP hoach NN I-NP bien VB B-VP soan VB I-VB giao NN B-NN trinh NN I-NN nam NN B-NN hoc NN I-NN 2011 CD B-CD 2012 CD I-VP Template type File mô tả đặc trưng sử dụng huấn luyện kiểm tra Mỗi dòng trong file template template, template có dạng sau %x[row,col] dùng để định nghĩa từ liệu đầu vào File template xây dựng tùy vào toán cụ thể tùy vào file huấn luyện file kiểm tra Ví dụ với liệu đầu vào sau file template xây dựng sau: Dữ liệu đầu vào He PRP B-NP reckons VBZ B-VP the DT B-NP

Ngày đăng: 21/05/2015, 12:49

Từ khóa liên quan

Mục lục

  • Punctuation Tags

Tài liệu cùng người dùng

Tài liệu liên quan