Nghiên cứu bài toán phân loại câu hỏi

23 611 0
Nghiên cứu bài toán phân loại câu hỏi

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu bài toán phân loại câu hỏi

Nghiên cứu toán phân loại câu hỏi Mục Lục Mục Lục Phụ lục 16 A Danh sách stop words .16 B Nhãn từ loại .18 C Cú pháp Regular Expression 20 Tài liệu tham khảo: 22 Cơ sở lý thuyết phương pháp: a Phân loại câu hỏi : QA system (Question & Answer system): hệ thống đóng vai trò phổ biến việc tìm kiếm thông tin xác hiệu Nó đưa câu trả lời đầy đủ xác ứng với yêu cầu người dùng câu trả lời thể ngôn ngữ tự nhiên Người dùng nhanh chóng lấy thông tin cần thiết thay tìm kiếm thông tin khối lượng lớn văn Trong hệ thống QA bao gồm nhiều thành phần : thành phần phân tích câu hỏi , thành phần phân loại câu hỏi , thành phần truy vấn dựa tập tài liệu liên quan đến câu truy vấn , … Page Nghiên cứu toán phân loại câu hỏi Trong thành phần nêu , thành phần phân loại câu hỏi đóng vai trò quan trọng hệ thống QA [1-4] Người dùng đưa vào hệ thống câu hỏi, câu hỏi sau phân tích để tìm từ khóa tìm kiếm định dạng thành loại câu truy vấn xuống sở liệu chứa thông tin Kết trả trình trả câu trả lời xác Trên thực tế đưa tập câu trả lời đề cử có liên quan đến vấn đề hỏi Vậy, công việc phân loại câu hỏi lọc loại bỏ câu trả lời không phù hợp, dựa số tiêu chí để đánh giá xếp hạng câu trả lời theo mức độ liên quan đến câu hỏi Ngoài ra, phân loại câu hỏi giúp ta xác định kiểu câu trả lời ta biết phân loại Việc giúp hệ thống đưa câu trả lời gần gũi với ngôn ngữ tự nhiên Ví dụ : “Who is the author of Harry Potter ? “ loại câu hỏi người (tác giả) Câu trả lời phải danh từ riêng liên quan đến người (tức tên tác giả Harry Potter) “J K Rowling is …” Thông thường câu hỏi phân loại theo mục thô 50 mục mịn (Bảng 1) Các mục dưa Li Roth (2002) Các báo nghiên cứu sau phân loại câu hỏi đựa mục để nghiên cứu đánh giá [1,2,12,14] Mục thô ABBR DESC ENTY Mục mịn abbreviation,expansion definition, description, manner, reason animal, body, color, creation, currency, disease, event, food, instrument, language, letter, other, plant, product, religion, sport, subtance, symbol, HUM LOC NUM technique, term, vehicle, word description, group, individual, title city, country, mountain, other, state Code, count, date, distance, money, order, other, percent, period, speed, temperature, size, weight Bảng – Phân loại mục thô 50 mục mịn Hiện có số hệ thống QA system biết tới : Page Nghiên cứu toán phân loại câu hỏi + NSIR : hệ thống hỏi đáp phát triển từ CLAIR – nhóm thuộc đại học Michigan Hệ thống câu hỏi mẫu lấy từ TREC (http://tangra.si.umich.edu/clair/NSIR/html/html/about.html) +AnswerBus : hệ thống QA system cho nhiều lĩnh vực , hỗ trợ câu hỏi cho nhiều thứ tiếng Anh, Đức, Pháp , Tây Ban Nha,… câu trả lời đường link đến câu trả lời không đưa đáp áp cụ thể (http://www.answerbus.com/about/index.shtml) b Các phương pháp phân loại Việc tiếp cận phân loại câu hỏi phân biệt qua ba nhóm : dựa luật (rulebased) , mô hình hóa ngôn ngữ (language modeling) dựa máy học ( machine learning based) Đó ba hướng tiếp cận [2] Đối với tiếp cận dựa luật : việc phân loại câu hỏi dựa vào số luật tay Các luật có đề xuất từ chuyên gia Đối với cách tiếp cận , loạt biểu thức thông dụng (regular expression) tạo để so khớp với câu hỏi từ định phân loại câu hỏi loại câu trả lời Nhưng có số hạn chế sau : + Sự phân loại dựa luật viết gặp nhiều khó khăn tốn nhiều thời gian xử lý Do dựa kiến thức chủ quan người tập liệu câu hỏi + Có giới hạn mức độ bao quát phức tạp việc mở rộng phạm vi loại câu trả lời Page Nghiên cứu toán phân loại câu hỏi Trong cách tiếp cận máy học : kiến thức chuyên môn được thay thế bằng một tập lớn các câu hỏi được gán nhãn kết sẵn (một tập liệu mẫu ) Từ tập này , classifier (bộ phân lớp) sẽ được học một cách có kiểm soát không kiểm soát tập mẫu Các thuật toán máy học thường dùng bao gồm : Mạng nơ-ron (Neural NetWork), tính xác suất Naïve Bayes, Maximum Entropy , định (decision Tree) , lân cận (NearestNeighbors), Sparse Network of Winnows(SNoW), Support Vector machine(SVM) Với cách tiếp cận máy học , ta dễ dàng thấy giải quyết được nhiều hạn chế từ cách tiếp cận dựa những luật Những thuận lợi cách tiếp cận này gồm : + Thời gian tạo dựng ngắn , không tốn thời gian để đề luật.s + Bộ phân loại được tạo tự động thông qua việc học từ tập liệu huấn luyện ; việc cung cấp luật không cần thiết + Mở rộng độ bao phủ : bằng cách thu được từ các ví dụ huấn luyện + Nếu có nhu cầu , bộ phân loại có thể tái cấu trúc lại (học lại) một cách linh hoạt để phù hợp với quy luật mới Hiện tại , phân loại thường được sử dụng phương pháp máy học là Support Vector Machine Dựa kiểm thử đánh giá với số phương pháp máy học khác Zhang Lee [12] cho thấy Support Vector Machine có phần vượt trội so với phương pháp máy học khác Nearest-Neighbors Ý tưởng thuật toán dựa mức độ giống trường hợp chưa gán nhãn phân loại với thực thể tập liệu học ( gán nhãn ) Tức câu hỏi cần phân loại đem so sánh với thực thể tập huấn luyện dựa đặt trưng Câu hỏi có độ tương tự gần giống với thực thể lấy nhãn thực thể Điều , đơn giản so sánh trùng lặp đặc trưng hai câu hỏi Page Nghiên cứu toán phân loại câu hỏi Naive Bayes Là mô hình tiếp cận cho việc phân loại dựa định lý sác xuất Bayes Mô hình giả định đặc trưng tồn độc lập phân loại câu hỏi , sác xuất chúng độc lập Mô hình tính sác xuất đặc trưng câu hỏi xem tỉ lệ sác xuất cao để phân loại câu hỏi Công thức tính sác xuất có điều kiện Bayes sau: P(A/B) = P(B/A) x P(A) / P (B) Xác xuất biến cố A tồn biến cố B Tức , với đặc trưng B phân loại A, ta tính sác xuất P(A) tập liệu huấn luyện = số trường hợp A / tổng số trường hợp Tiếp theo tính xác xuất đặc trưng B phân loại A : P(B/A) = số đặc trưng B xuất A / Số trường hợp A Xác xuất P(B) ( Tham khảo thêm ví dụ http://www.statsoft.com/textbook/naive-bayes-classifier/ ) Decision Tree Cây định mô tả cấu trúc , , đại diện cho phân loại cành đại diện cho thuộc tính kết hợp dẫn đến phân loại Các liệu đưa vào học có dạng : (x,y) = (x1,x2,x3 xk,y) Trong y giá trị mà hướng tới để phân loại Tập biến x1,x2,x3 xk thuộc tính mà ta dựa vào để thực việc phân loại Vd : Một tập liệu mẫu thói quen chơi cuối tuần : Set of Atributes (x1,x2,x3) Weekend (Example)WeatherParentsMone y Yes No Yes Sunny Sunny Windy Page Decision Variable y (Category) Rich Rich Rich Cinema Tennis Cinema Nghiên cứu toán phân loại câu hỏi Rainy Yes Poor Cinema Sau có tập liệu mẫu , số thuật toán áp dụng để xây dựng định ID3 Quinlan (ý tưởng chung chọn thuộc tính sau cho phân thực thể thành tập (các nhánh) cho có nhiều thực thể loại ) (tham khảo thêm http://www.doc.ic.ac.uk/~sgc/teaching/v231/lecture11.html ) Support Vector Machine Phương pháp dựa ý tưởng từ tập huấn luyện cho trước, dùng mặt phẳng để chia điểm không gian thành hai lớp riêng biệt Trong điểm đặc trưng mà ta rút trình huấn luyện Khoảng cách mặt phẳng tới điểm liệu gần phân loại định chất lượng mặt phẳng Khoảng cách gọi biên Nếu có tập liệu : Là tập vector xi ci có giá trị -1 Chúng ta có phương trình mặt phẳng : Vector w vector pháp tuyến: vuông góc với siêu phẳng Biến xác định độ lệch siêu phẳng từ gốc theo vector pháp tuyến Ta có thêm hai mặt phẳng điểm biên : Page Nghiên cứu toán phân loại câu hỏi Bằng phương pháp hình học, người ta tính khoảng cách hai mặt phẳng Vì thế, để cực đại khoảng cách biên phải phải cực tiểu hóa ||w|| Chúng ta có ràng buộc sau : thuộc phân loại thứ thuộc phân loại thứ Có thể viết lại : Cuối bài toán đưa việc cực tiểu hóa w tìm b cho thỏa điều kiện (1) c Đặc trưng phân loại Trong phương pháp tiếp cận máy học, từ tập liệu có sẵn ta rút đặc trưng phân loại đề từ đưa huấn luyện Các đặc trưng đơn giản nhiều từ nằm câu hỏi Chúng không định câu hỏi thuộc phân loại nào, sở để qua qua trình học dự đoán câu hỏi thuộc phân loại Trong phân loại câu hỏi, đặc trưng đặc trưng nhị phân Điều có nghĩa giá trị đặc trưng 1hoặc -1: tức đặc trưng thuộc phân loại ngược lại -1 Vì thế, đặc trưng rút từ câu hỏi để huấn luyện có giá trị nhị phân Có nhiều loại đặc trưng cho toán phân loại câu hỏi, có số đặc trưng thông dụng thường sử dụng Một số khác số tác giả đề xuất, sau đánh giá kiểm thử để biết mức độ xác phân loại áp dụng đặc trưng Các đặc trưng trình bày rõ phần bên Page Nghiên cứu toán phân loại câu hỏi i Bag of words BOW đặc trưng thường sử dụng Vì đơn giản dễ hiểu Các từ vựng câu hỏi coi đặc trưng phân loại Một câu hỏi coi túi chứa đặc trưng Thông thường stopwords : what, is có vai trò việc tìm kiếm liệu chủ yếu việc dựa key-word Nhưng phân loại câu hỏi stop words đóng vai trò quan trọng cần giữ lại Điều có lẽ rõ ràng câu hỏi stop words What, Who, When, Where góp phần lớp việc định phân loại (danh sách stop words tham khảo phục lục A ) ii N-gram Câu hỏi coi danh sách từ liên tiếp Dựa ý tưởng thế, ta có loại n-gram thường sử dụng unigram, bigram, trigram +unigiram : tương tự bag of words +bigram : lấy từ liên tiếp câu +trigram : lấy từ liên tiếp câu iii Tận dụng tính ngữ nghĩa Wordnet Wordnet kho từ điển ngữ nghĩa tiếng Anh Các danh từ, động từ, tính từ nhóm thành các nhóm từ đồng nghĩa gọi synset Ngoài ra, kể đến cấu trúc từ bao hàm hypernym Wordnet, từ có liên quan đến từ khác mang nghĩa bao hàm rộng Ví dụ cho cấu trúc hypernym : dog, domestic dog, Canis familiaris => canine, canid => carnivore => placental, placental mammal, eutherian, eutherian mammal => mammal => vertebrate, craniate => chordate Page Nghiên cứu toán phân loại câu hỏi => animal, animate being, beast, brute, creature, fauna => Như ví dụ {dog, domestic dog, Canis familiaris} tập synset Hypernym dog canine.Hypernym canine carnivore Cấu trúc từ nghĩa cụ thể đến nghĩa khái quát : => canine => carnivore => => animal => Do cách thức tổ chức từ vựng Wordnet mà sử dụng nhiều xử lý ngôn ngữ tự nhiên Hypernym tính mà sử dụng nhiều việc chọn làm đặc trưng phân loại Nó có ý nghĩa khái quát hóa ý nghĩa từ, từ khác có nghĩa khái quát chung iv Nhận diện thực thể đặt tên Trong câu hỏi, thực thể đặt tên danh từ riêng đến nhân vật đó, tên tổ chức, ngôn ngữ, từ viết tắt Để hỗ trợ câu trả lời tổng quát, mà câu trả lời thực thể đặt tên (Named Entity) hay danh từ chung, có hướng tiếp cận sử dụng từ điển từ vựng Wordnet Wordnet mô hình lớn, Ontology đuợc xây dựng tay thường sử dụng rộng rãi việc xử lý ngôn ngữ tự nhiên Nó cho phép phân loại nghĩa từ quan hệ với 155327 từ vựng mà sử dụng cho việc phân loại ngữ nghĩa giúp cho việc phân loại thực thể Tuy nhiên kho từ điển hạn chế số lượng từ vựng Cho nên, kho liệu Wikipedia bách khoa toàn thư sử dụng để mở rộng vốn từ vựng cho việc nhận diện thực thể đặt tên Các thực thể đặt tên xếp vào 25 lexicophaper Wordnet Một danh từ wordnet thuộc 25 nhóm (bàng 2) Việc lấy đặc trưng dựa 25 nhóm person communication arfitact act food Page cognition time event possession attribute quantity location object motive subtance process animal state phenomenon body Bảng – 25 lexicographer Wordnet feeling shape plant relation group Nghiên cứu toán phân loại câu hỏi v Các đặc trưng khác Trong báo gần đây, tác giả Huang đưa đặc trưng Headword dựa ý tưởng từ câu hỏi đại diện cho đối tượng cần hỏi đến [14] Ngoài ra, Huang kết hợp với hypernym wordnet, đặc trưng hypernym phụ thuộc vào headword lấy được.Thêm vào đó, có đặc trưng khác nhắc tới wh-word, word shape Trước đó, Skowron Araki (2005) đề xuất ba đặc trưng : subordinate word category, Question focus, Syntactic-Semantic Structure [2] Trong đó, đặc trưng subordinate word category dựa hypernym danh từ câu hỏi, tìm hypernym có mức độ khái quát cao Kế tiếp đặt trưng Question focus, kết đặc trưng rút từ trọng tâm câu hỏi (focus word) thông qua số pattern (regular expression) lấy từ làm đặc trưng Cuối đặc trưng Syntactic-Semantic Structure dựa cấu trúc ngữ nghĩa câu hỏi lặp lặp lại, lấy cấu trúc câu hỏi làm đặc trưng Các đặc trưng tác giả tự đề xuất Sau đó, chúng đưa vào thử nghiệm đánh giá Các kết từ đặc trưng thuyết phục Vậy giới hạn số lượng loại đặc trưng phân loại câu hỏi Các nghiên cứu ứng dụng liên quan a LIBSVM LIBSVM thư viện đơn giản dễ sử dụng hiệu dành cho phân loại SVM Đây mã nguồn mở cung cấp cho nhiều ngôn ngữ khác : Java, Python, Perl, Ruby Phiên libsvm 2.91 dành cho Java (http://www.csie.ntu.edu.tw/~cjlin/libsvm/ ) Để bắt đầu sử dụng với thư viện này, ta cần phải xây dựng tập tin huấn luyện theo dịnh dạng Định dạng tập tin chứa liệu huấn luyện tập tin kiểm thử là: : : Trong đó: giá trị đích tập huấn luyện Đối với việc phân loại, số nguyên xác định lớp số nguyên Cụ thể toán phân loại đại diện cho đặt trưng Page 10 Nghiên cứu toán phân loại câu hỏi số thực Giá trị thể mức độ liên quan đặc trưng phân loại nằm khoảng [-1,1] Do đặc trưng phân loại câu hỏi đặc trưng nhị phân nên lúc huấn luyện giá trị Sau có tập tin huấn luyện định dạng, nhiệm vụ libsvm huấn luyện dựa tập tin định dạng cho kết trả tập tin có đuôi model Tập tin mô hình xây dựng dựa việc huấn luyện Từ ,ta việc xử dụng lại mô hình để dự đoán liệu kiểm thử ( Quá trình đưa liệu kiểm thử giống huấn luyện, phải xây dựng tập tin kiểm thử theo định dạng trên) Đối với việc thiết lập biến thông số, số lượng đặc trưng phân loại câu hỏi lớn số lượng trường hợp huấn luyện, ta nên để mặc định thông số chọn kernel cho SVM LINENEAR (Huang 2008) [14] b Wordnet WordNet dạng từ điển ngữ nghĩa tiếng Anh, tạo từ năm 1985 trì phòng thí nghiệm khoa học nhận thức Đại học Princeton hướng dẫn giáo sư tâm lý học A George Miller WordNet hỗ trợ từ Quỹ khoa học quốc gia, DARPA, DTO (trước Advanced Research and Development Activity), REFLEX Đến năm 2006, sở liệu chứa khoảng 150.000 từ tổ chức vào 115.000 synsets cho tổng số 207.000 cặp word-sense; dạng nén, khoảng 12 M WordNet phân biệt danh từ, động từ, tính từ trạng từ Mỗi Synset chứa nhóm từ đồng nghĩa collocations (collocation một chuỗi từ mà với để tạo ý nghĩa cụ thể, chẳng hạn "car pool"); nghĩa khác từ nằm synsets khác Ý nghĩa synsets làm rõ với việc định nghĩa lời thích ngắn (gloss) (định nghĩa / hay câu ví dụ) Các mối quan hệ Wordnet : +Danh từ Holonym (chứa): Y gọi Holonym với X X phần Y Ví dụ: “book” có quan hệ holonym với “page” Meronym (thành phần): X gọi meronym với Y X phần Y Ví dụ “page” có quan hệ meronym với “book” Page 11 Nghiên cứu toán phân loại câu hỏi Hypernym: Y xem hypernym với X X dạng Y Ví dụ: “animal” có quan hệ hypernym với “lion” Hyponym: X xem có quan hệ hyponym với Y X dạng Y Ví dụ: “lion” có quan hệ hyponym với “animal” Coordinate: X Y có quan hệ Coordinate X Y có hypernym Ví dụ: “lion” “cat” có quan hệ coordinate với có hypernym “animal” +Động từ Hypernym: Y hypernym với X hành động X dạng Y, ví dụ: perceive có quan hệ hypernym với listen listen dạng perceive Coordinate: X Y có quan hệ Coordinate X Y có hypernym Entailment: X có quan hệ Entailment với Y X hoàn thành Y hoàn thành Ví dụ: “tiêu hóa” có quan hệ entailment với “ăn” Troponym (hyponym): X có quan hệ troponym với Y hành động X trường hợp (dạng, cách) làm hành động Y, ví dụ “nói ngọng” có quan hệ troponym với “nói” +Tính từ Similar:X Y có quan hệ đồng nghĩa Participle of verb: mô tả tính từ có nguồn gốc từ động từ theo dạng khứ, quan hệ tính từ động từ Ví dụ: collected participle collect Related noun: mô tả tính từ có nguồn gốc từ danh từ, quan hệ tính từ danh từ Ví dụ: weekly có quan hệ với week +Trạng từ Root adj: mô tả trạng từ có nguồn gốc từ tính từ, quan hệ trạng từ tính từ Ví dụ: kindly có quan hệ với kind c POS tagger Trong phân loại câu hỏi, việc gán nhãn từ loại (POS tagger) đóng vai trò quan trọng Các danh từ câu hỏi đại diện cho đối tượng hay thực thể cần hỏi tới Vì thế, ta cần xác định từ loại từ câu hỏi Đó nhiệm vụ việc gán nhãn từ loại Page 12 Nghiên cứu toán phân loại câu hỏi Wordnet số công cụ ta sử dụng việc gán nhãn từ loại Ngoài chương trình GATE có hỗ trợ tron vấn đề Wordnet GATE hai công cụ phổ biến xử lý ngôn ngữ tự nhiên Vậy gán nhãn từ loại đóng vai trò quan trọng xử lý ngôn ngữ tự nhiên (Các nhãn từ loại theo hệ thống Penn Treebank , tham khảo phụ lục B) d Một số vấn đề liên quan khác +Bộ phân tích cú pháp (parser) Nhiệm cụ phân tích cú pháp phân tích câu đưa vào thành thành phần chủ từ, động từ, chủ ngữ, động ngữ, Kết trả phân tích cú pháp cú pháp có nút gốc ROOT Các nút khác thành phần câu nói kèm theo nhãn từ loại Mỗi từ câu đóng vai trò nút Ví dụ : cú pháp cho câu “What Canadian city has the largest population ?” Vai trò phân tích cú pháp việc phân loại phân tích thành phần cú pháp câu mối quan hệ từ câu Điều giúp ích phần việc rút trích đặc trưng câu Một số phân tích cú pháp mà nhóm biết tới Stanford Parser Berkerley Parser Cả hai phân tích cú pháp mã nguồn mở viết ngôn ngữ java +Biểu thức thông dụng ( regular expression) : Khái niệm regular expression xuất nhiều ngôn ngữ lập trình Java, Ruby, Perl, PHP Trong ngôn ngữ, lại định nghĩa khác Tuy nhiên xét mặt chung nhất, regular expression là một chuỗi được dùng để miêu tả hoặc so khớp với một tập các chuỗi khác dựa những luật cú pháp (Theo định nghĩa của Wikipedia http://en.wikipedia.org/wiki/Regular_expression_examples ) Page 13 Nghiên cứu toán phân loại câu hỏi Việc tạo biểu thức nhằm để so sánh, hay nói so khớp với đoạn văn chuỗi tìm kiếm xem vị trí chuỗi văn phù hợp với điều kiện mà biểu thức đề Trong xử lý ngôn ngữ tự nhiên, regular expression sử dụng để kiểm trang định dạng : ngày tháng, địa email, kiểu số Việc tạo biểu thức giúp ích nhiều việc tìm kiếm câu, chữ văn , thực thao tác đếm tầng số xuất chúng Nhưng để tạo biểu thức cần nắm cú pháp regular expression.(Cú pháp regular expression tham khảo phụ lục C ) Hướng tiếp cận nhóm a Dữ liệu huấn luyện kiểm thử Hiện nay, có hai tập liệu câu hỏi thường dùng TREC UIUC Đối với tập liệu TREC cung cấp loại câu hỏi dạng tập tin theo định dạng giống XML Trên trang web UIUC cung cấp tập tin danh sách câu hỏi mà câu hỏi gán nhãn phân loại sẵn Ví dụ : “DESC:def What is compounded interest ?” Ngoài ra, tập tin xếp theo thứ tự 1000,2000, 3000,4000 5500 câu hỏi gán nhãn Thêm vào đó, UIUC cung cấp tập tin để kiểm tra gồm 500 câu hỏi TREC 10 Từ đó, nhóm định chọn tập huấn luyện dựa kho liệu câu hỏi UIUC tiện dụng nêu b Phương pháp Phương pháp máy học phương pháp sử dụng nhiều báo [1,2,3,12] Việc xây dựng phân loại phương pháp máy học tốn thời gian so với phương pháp đề luật tay thủ công Và cần áp dụng đặc trưng mới, ta cần huấn luyện lại phân loại Vì thế, phương pháp máy học chọn làm hướng tiếp cận nhóm phân loại câu hỏi Page 14 Nghiên cứu toán phân loại câu hỏi Đối với phân loại, nhóm chọn SVM để phân loại câu hỏi Hai tác giả Lee Zhang (2003) chứng minh vượt trội so với phân loại khác Ngoài ra, SVM phương pháp máy học thường tác giả chọn để sử dụng Để xây dựng phân loại SVM, thư viện LIBSVM áp dụng trình huấn luyện kiểm thử c Đặc trưng Rõ ràng, giới hạn số lượng loại đặc trưng Vì thế, nhóm đề số đặc trưng dựa theo số đặc trưng tác giả Kho từ điển Wordnet coi trọng sử dụng nhiều việc rút đặc trưng Cụ thể nhóm tận dụng mối quan hệ hypernym wordnet Huang (2008) cho thấy mức độ hiệu sử dụng trực tiếp hypernym kết hợp với đặc trưng Head word ( đạt độ xác 89% phân lớp mịn) Skowron Araki (2005) cho thấy việc hiệu kết hợp đặc trưng với Cho nên, hướng tiếp cận nhóm kết hợp đặt trưng lại với nhau, hy vọng nâng cao độ xác từ 1-2% Ngoài ra, số đặc trưng khác : thực thể đặt tên, wh-word, n-gram đáng lưu ý tận dụng d Mô hình cho toán phân loại câu hỏi Page 15 Nghiên cứu toán phân loại câu hỏi Phụ lục A Danh sách stop words Bảng danh sách stopword tiếng anh : (lấy từ trang http://armandbrahaj.blog.al/2009/04/14/list-of-english-stop-words/ ) STT a about above across after afterwards Page 16 List of stop words elsewhere moreover empty most enough mostly etc move even much ever must the their them themselves then thence Nghiên cứu toán phân loại câu hỏi 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 again against all almost alone along already also although always am among amongst amoungst amount an and another any anyhow anyone anything anyway anywhere are around as at back be became because become becomes becoming been before beforehand behind being below beside besides Page 17 every everyone everything everywhere except few fifteen fify fill find fire first five for former formerly forty found four from front full further get give go had has hasnt have he hence her here hereafter hereby herein hereupon hers herse” him himse” his my myse” name namely neither never nevertheless next nine no nobody none noone nor not nothing now nowhere of off often on once one only onto or other others otherwise our ours ourselves out over own part per perhaps please put rather re there thereafter thereby therefore therein thereupon these they thick thin third this those though three through throughout thru thus to together too top toward towards twelve twenty two un under until up upon us very via was we well were what whatever when Nghiên cứu toán phân loại câu hỏi 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 between beyond bill both bottom but by call can cannot cant co computer could couldnt cry de describe detail done down due during each eg eight either eleven else how however hundred i ie if in inc indeed interest into is it its itse” keep last latter latterly least less ltd made many may me meanwhile might mill mine more same see seem seemed seeming seems serious several she should show side since sincere six sixty so some somehow someone something sometime sometimes somewhere still such system take ten than that B Nhãn từ loại Danh sách nhãn từ loại hệ thống Penn Treebank : (http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/CQP- HTMLDemo/PennTreebankTS.html ) STT Từ loại CC Page 18 Giải thích Coordinating conjunction whence whenever where whereafter whereas whereby wherein whereupon wherever whether which while whither who whoever whole whom whose why will with within without would yet you your yours yourself yourselves Nghiên cứu toán phân loại câu hỏi 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 CD DT EX FW IN JJ JJR JJS LS MD NN NNS NP NPS PDT POS PP PP$ RB RBR RBS RP SYM TO UH VB VBD VBG VBN VBP VBZ WDT WP WP$ WRB Page 19 Cardinal number Determiner Existential there Foreign word Preposition or subordinating conjunction Adjective Adjective, comparative Adjective, superlative List item marker Modal Noun, singular or mass Noun, plural Proper noun, singular Proper noun, plural Predeterminer Possessive ending Personal pronoun Possessive pronoun Adverb Adverb, comparative Adverb, superlative Particle Symbol to Interjection Verb, base form Verb, past tense Verb, gerund or present participle Verb, past participle Verb, non-3rd person singular present Verb, 3rd person singular present Wh-determiner Wh-pronoun Possessive wh-pronoun Wh-adverb Nghiên cứu toán phân loại câu hỏi C Cú pháp Regular Expression Danh sách cú pháp bên dựa cú pháp ngôn ngữ Perl Đối với ngôn ngữ lập trình khác giống Các phiên regular expression theo chuẩn ISO/IEC 9945-2:1993 (http://www.wdvl.com/Authoring/Languages/Perl/PerlfortheWeb/perlintro2_table1.html) Cú pháp Ý nghĩa Bất kỳ ký tự Ví dụ "do." -> "dog", "dot", "doe” , Không có ký tự "d r" -> "door","deer",… "do.*" -> "dog", "done", trước "doppleganger",… Một ký tự trước "to*" -> "to" ,"too" "fre+ " -> "freak", "freeze", ? Không có có ký tự trước "fresh" "ton?e" -> "toe" ,"tone" () [] Nhóm lại Bất kì ký tự tập (dog|cat) -> "dog" ,"cat" "ta[pb]" -> "tap" , "tab" * + "r[aeiou]t" -> "rat", "ret", "rot", [^] Không ký tự "rut" "t[^aeiou]+.*s" -> "thanks", "this", {min,max} tập Phạm vi xuất "trappings", [a-z]{3} : ba ký tự thường liên tiếp [0-9]{3} : ba chữ số liên tiếp [A-Z]{2,5} : chữ in hoa xuấ liên tiếp thời điểm 2,3,4,5 Ngoài cú pháp , regular expression có lớp ký tự gọi Character Class mà ta thường sử dụng Character Classes \d \D Page 20 Ý nghĩa Bất kì ký tự thuộc 0-9 Bất kì ký tự không thuộc 0-9 , ngược lại với \d Nghiên cứu toán phân loại câu hỏi \w \W \s \S Bất kì ký tự chữ lẫn số [a-zA-Z0-9] Ngược lại với \w Khoảng trắng Ngược lại với \s Vậy ta thấy : \D tương đương [^\d] \W tương đương [^\w] \S tương đương [^\s] Ngoài có số ký hiệu khác gọi Anchor Sequences (tạm dịch “đánh dấu trình tự” ) Anchor Sequences ^ $ \b \B Page 21 Ý nghĩa Bắt đầu chuỗi ký tự Kết thúc chuỗi ký tự Biên (giới) từ Ngược lại , đâu trừ biên từ Nghiên cứu toán phân loại câu hỏi Tài liệu tham khảo: [1] Question Classification by Ensemble Learning, LiXin, Huang Xuan Jing,Wu Lid-de, 2006 [2] Effectiveness of Combined features for machine learning based question classification ,Marcin Skowron and Kenji Araki , 2005 [3] Question Classification in Social Media – 2009 [4] Minimally supervised question classification and answering base on wordnet and wikipedia_2009 [5] Learning Surface Text Patterns for a Question Answering System,Deepak Ravichandran and Eduard Hovy, 2002 [6] YAGO: A Core of Semantic Knowledge Unifying WordNet and Wikipedia [7] http://gate.ac.uk/releases/gate-5.1-build3431-ALL/doc/tao/splitap7.html#x32609000G [8] http://www.wdvl.com/Authoring/Languages/Perl/PerlfortheWeb/perlintro2_table1 html [9] http://java.sun.com/docs/books/tutorial/essential/regex/intro.html [10] Xử Lý Ngôn Ngữ Tự Nhiên, Đinh Điền, 2006 , trang 239 [11] Trang chủ GATE http://gate.ac.uk/ [12] Question Classification using Support Vector Machine, Dell Zhang and Wee Sun Lee, 2003 [13] Learning Question Classifier, Li and Roth, 2002 Page 22 Nghiên cứu toán phân loại câu hỏi [14] Question classification using Head word and their Hypernyms, Zhiheng Huang, Marcus Thint and Zeng Chang Qin ,2008 Page 23 [...]... chọn làm hướng tiếp cận của nhóm trong phân loại câu hỏi Page 14 Nghiên cứu bài toán phân loại câu hỏi Đối với bộ phân loại, nhóm chọn SVM để phân loại câu hỏi Hai tác giả Lee và Zhang (2003) đã chứng minh được sự vượt trội của nó so với các bộ phân loại khác Ngoài ra, SVM cũng là một phương pháp máy học thường được các tác giả chọn để sử dụng Để xây dựng bộ phân loại SVM, thư viện LIBSVM được áp dụng... Trong phân loại câu hỏi, việc gán nhãn từ loại (POS tagger) cũng đóng một vai trò quan trọng Các danh từ trong câu hỏi đại diện cho các đối tượng hay các thực thể cần hỏi tới Vì thế, ta cần xác định từ loại của các từ trong câu hỏi Đó là nhiệm vụ chính của việc gán nhãn từ loại Page 12 Nghiên cứu bài toán phân loại câu hỏi Wordnet là một trong số những công cụ ta có thể sử dụng trong việc gán nhãn từ loại. . .Nghiên cứu bài toán phân loại câu hỏi là một số thực Giá trị này thể hiện mức độ liên quan của đặc trưng đối với một phân loại nằm trong khoảng [-1,1] Do các đặc trưng trong phân loại câu hỏi đều là đặc trưng nhị phân nên lúc huấn luyện giá trị này sẽ là 1 Sau khi có được tập tin huấn luyện đúng định dạng,... nhau, hy vọng sẽ nâng cao độ chính xác từ 1-2% Ngoài ra, một số đặc trưng khác như : thực thể đặt tên, wh-word, n-gram cũng đáng được lưu ý và tận dụng d Mô hình cho bài toán phân loại câu hỏi Page 15 Nghiên cứu bài toán phân loại câu hỏi Phụ lục A Danh sách các stop words Bảng danh sách các stopword trong tiếng anh : (lấy từ trang http://armandbrahaj.blog.al/2009/04/14/list-of-english-stop-words/... các loại câu hỏi dưới dạng các tập tin theo định dạng giống như XML Trên trang web của UIUC thì cung cấp tập tin danh sách các câu hỏi mà trong đó các câu hỏi đã được gán nhãn phân loại sẵn Ví dụ : “DESC:def What is compounded interest ?” Ngoài ra, các tập tin được sắp xếp theo thứ tự 1000,2000, 3000,4000 và 5500 câu hỏi đã được gán nhãn Thêm vào đó, UIUC cung cấp một tập tin để kiểm tra gồm 500 câu hỏi. .. trong câu như đã nói trên kèm theo đó là các nhãn từ loại Mỗi từ trong câu đóng vai trò như một nút lá Ví dụ : một cây cú pháp cho câu “What Canadian city has the largest population ?” Vai trò bộ phân tích cú pháp trong việc phân loại là nó sẽ phân tích các thành phần cú pháp trong câu và chỉ ra mối quan hệ giữa các từ trong câu Điều này sẽ giúp ích phần nào trong việc rút trích các đặc trưng trong câu. .. tả hoặc so khớp với một tập các chuỗi khác dựa trên những luật cú pháp (Theo định nghĩa của Wikipedia http://en.wikipedia.org/wiki/Regular_expression_examples ) Page 13 Nghiên cứu bài toán phân loại câu hỏi Việc tạo ra các biểu thức nhằm để so sánh, hay nói đúng hơn là so khớp nó với một đoạn văn bản hoặc một chuỗi nào đó hoặc tìm kiếm xem vị trí của chuỗi nào trong văn bản phù hợp với... một phần của Y Ví dụ: “book” có quan hệ holonym với “page” Meronym (thành phần): X được gọi là meronym với Y nếu X là một phần của Y Ví dụ “page” có quan hệ meronym với “book” Page 11 Nghiên cứu bài toán phân loại câu hỏi Hypernym: Y được xem là hypernym với X nếu X là một dạng của Y Ví dụ: “animal” có quan hệ hypernym với “lion” Hyponym: X được xem là có quan hệ hyponym với Y nếu X là một dạng của... 3 4 5 6 a about above across after afterwards Page 16 List of stop words elsewhere moreover empty most enough mostly etc move even much ever must the their them themselves then thence Nghiên cứu bài toán phân loại câu hỏi 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 again against all almost alone along already also although... third this those though three through throughout thru thus to together too top toward towards twelve twenty two un under until up upon us very via was we well were what whatever when Nghiên cứu bài toán phân loại câu hỏi 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 between beyond bill both bottom but by call can cannot cant co computer con could couldnt

Ngày đăng: 01/06/2016, 12:08

Từ khóa liên quan

Mục lục

  • Mục Lục

  • Phụ lục

    • A. Danh sách các stop words

    • B. Nhãn từ loại

    • C. Cú pháp trong Regular Expression

    • Tài liệu tham khảo:

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan