Nlp Trí tuệ nhân tạo

52 6 0
Nlp Trí tuệ nhân tạo

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trí tuệ nhân tạo, kĩ thuật xử lí ngôn ngữ tự nhiên trong bài toán trí tuệ nhân tạo. Trí tuệ nhân tạo, kĩ thuật xử lí ngôn ngữ tự nhiên trong bài toán trí tuệ nhân tạo. Trí tuệ nhân tạo, kĩ thuật xử lí ngôn ngữ tự nhiên trong bài toán trí tuệ nhân tạo. Trí tuệ nhân tạo, kĩ thuật xử lí ngôn ngữ tự nhiên trong bài toán trí tuệ nhân tạo.

lOMoARcPSD|32919683 NLP TAD - NLP Trí Tuệ Nhân Tạo (Trường Đại học Bách khoa Hà Nội) Studocu is not sponsored or endorsed by any college or university Downloaded by V? Hồng (dohoangvu.nt1806@gmail.com) lOMoARcPSD|32919683 CHƯƠNG Mơ hình xử lý ngơn ngữ tự nhiên 1.1 Hoạt động Các mơ hình NLP hoạt động cách tìm mối quan hệ phần cấu thành ngơn ngữ - ví dụ: chữ cái, từ câu tìm thấy tập liệu văn Kiến trúc NLP sử dụng phương pháp khác để tiền xử lý liệu, trích xuất tính mơ hình hóa 1.1.1 Tiền xử lý liệu:  Stemming lemmatization: hai kỹ thuật rút gọn từ NPL o Stemming rút gọn từ cách loại bỏ hậu tố từ VD: o Lemmatization trình rút gọn từ (lemma) từ dựa từ loại ngữ cảnh từ (So với stemming, lemmatization cung cấp kết xác giữ lại số thơng tin ngữ nghĩa từ) VD: Trong câu "Cats are chasing mice", từ "chasing" rút gọn thành "chase" lemmatization, "chase" dạng từ "chasing" Tuy nhiên, từ "chasing" xuất câu "I am chasing a dream", khơng rút gọn thành "chase", mà giữ nguyên trường hợp này, "chasing" sử dụng động từ  Sentence segmentation - Phân đoạn: trình tách câu văn thành đoạn văn ngắn hơn, gọi câu  Stop word removal: nhằm mục đích loại bỏ từ phổ biến không thêm nhiều thông tin vào văn Ví dụ: "the", "a", "an", v.v Downloaded by V? Hồng (dohoangvu.nt1806@gmail.com) lOMoARcPSD|32919683  Tokenization: Tokenization trình chuyển đổi văn thành đơn vị nhỏ hơn, gọi token Các token thường từ ký tự đơn có nhiều tùy thuộc vào mục đích sử dụng Downloaded by V? Hoàng (dohoangvu.nt1806@gmail.com) lOMoARcPSD|32919683 1.1.2 Feature extraction Feature extraction: trình tạo đặc trưng mơ tả tài liệu tập văn chứa Các đặc trưng thường số tạo kỹ thuật Bagof-Words, TF-IDF, kỹ thuật trích xuất đặc trưng chung độ dài tài liệu, tính từ tích cực tiêu cực từ siêu liệu Các kỹ thuật gần bao gồm Word2Vec, GLoVE học đặc trưng trình huấn luyện mạng neural 1.1.1.1 Bag-of-Words Bag-of-Words đếm số lần từ n-gram (kết hợp n từ) xuất tài liệu Ví dụ, đây, mơ hình Bag-of-Words tạo biểu diễn số học tập liệu dựa số lần xuất từ word_index tài liệu Downloaded by V? Hoàng (dohoangvu.nt1806@gmail.com) lOMoARcPSD|32919683 1.1.2.1 TF- IDF Trong Bag-of-Words, đếm số lần xuất từ n-gram tài liệu Ngược lại, với TF-IDF, trọng số hóa từ theo độ quan trọng Để đánh giá tầm quan trọng từ, xem xét hai điều: o Term Frequency (TF): Tỷ lệ quan trọng từ tài liệu TF(word in a document) = Số lần xuất từ tài liệu / Tổng số từ tài liệu o Inverse Document Frequency (IDF): Tỷ lệ quan trọng từ tồn tập văn IDF(word in a corpus) = log(Tổng số tài liệu tập văn / Số tài liệu chứa từ đó) Một từ quan trọng xuất nhiều lần tài liệu Tuy nhiên, điều tạo vấn đề, từ "a" "the" thường xuất nhiều Vì vậy, điểm số TF chúng cao Chúng ta giải vấn đề cách sử dụng IDF, điều cao từ thấp từ phổ biến toàn tập văn Điểm số TF-IDF thuật ngữ tích TF IDF Downloaded by V? Hoàng (dohoangvu.nt1806@gmail.com) lOMoARcPSD|32919683 1.1.2.2 Word2Vec Word2Vec sử dụng mạng neural để học word embeddings có số chiều cao từ văn thơ Có hai biên thể Skip-Gram CBOW  Mơ hình Skip-Gram: Mơ hình skip-gam giả định từ sử dụng để sinh từ xung quanh chuỗi văn Ví dụ, giả sử chuỗi văn “the”, “man”, “loves”, “his” “son” Ta sử dụng “loves” làm từ đích trung tâm đặt kích thước cửa sổ ngữ cảnh Như mô tả hình dưới, với từ đích trung tâm “loves”, mơ hình skip-gram quan tâm đến xác suất có điều kiện sinh từ ngữ cảnh (“the”, “man”, “his” “son”) nằm khoảng cách không từ: Ta giả định rằng, với từ đích trung tâm cho trước, từ ngữ cảnh sinh độc lập với Trong trường hợp này, cơng thức viết lại thành: Downloaded by V? Hoàng (dohoangvu.nt1806@gmail.com) lOMoARcPSD|32919683 Trong mơ hình Skip-Gram, từ biểu diễn hai vector -chiều để tính xác suất có điều kiện Giả sử số từ từ điển , vector từ biểu diễn từ từ đích trung tâm từ ngữ cảnh Gọi c o số từ đích trung tâm từ ngữ cảnh Ta có: Huấn luyện mơ hình skip-gram: Các tham số mơ hình skip-gram vector từ đích trung tâm vector từ ngữ cảnh cho từ riêng lẻ Trong trình huấn luyện, học tham số mơ hình cách cực đại hóa hàm hợp lý, cịn gọi ước lượng hợp lý cực đại Việc tương tự với việc giảm thiểu hàm mát sau đây: Ta dùng SGD (Stochastic Gradient Decent) để tối ưu hàm Downloaded by V? Hoàng (dohoangvu.nt1806@gmail.com) lOMoARcPSD|32919683 Trong vòng lặp ta chọn chuỗi nhỏ việc lấy mẫu ngẫu nhiên để tính tốn mát cho chuỗi Sau tính Gradient để cập nhật mơ hình: Sau huấn luyện xong, với từ có số từ điển, ta nhận tập hai vector từ Trong ứng dụng xử lý ngôn ngữ tự nhiên, vector từ đích trung tâm mơ hình skip-gram thường sử dụng để làm vector biểu diễn từ  Mơ hình túi từ liên tục (Continuous bag of words - CBOW): Mơ hình tương tự mơ hình skip-gram Khác biệt lớn mơ hình CBOW giả định từ đích trung tâm tạo dựa từ ngữ cảnh phía trước sau chuỗi văn Với chuỗi văn gồm từ “the”, “man”, “loves”, “his” “son”, “love” từ đích trung tâm, với kích thước cửa sổ ngữ cảnh 2, mơ hình CBOW quan tâm đến xác suất có điều kiện để sinh từ đích “love” dựa từ ngữ cảnh “the”, “man”, “his” “son” Downloaded by V? Hoàng (dohoangvu.nt1806@gmail.com) lOMoARcPSD|32919683 Vì có q nhiều từ ngữ cảnh mơ hình CBOW, ta lấy trung bình vector từ chúng sau sử dụng phương pháp tương tự mơ hình skipgram để tính xác suất có điều kiện Giả sử vector từ ngữ cảnh vector từ đích trung tâm từ có số i từ điển Gọi c số từ đích trung tâm , số từ ngữ cảnh từ điển Do đó, xác suất có điều kiện sinh từ đích trung tâm dựa vào từ ngữ cảnh cho trước Huấn luyện mơ hình CBOW: Q trình huấn luyện mơ hình CBOW giống với q trình huấn luyện mơ hình skip-gram Uớc lượng hợp lý cực đại mơ hình CBOW tương đương với việc cực tiểu hóa hàm mát: Downloaded by V? Hoàng (dohoangvu.nt1806@gmail.com) lOMoARcPSD|32919683 Với Tính đạo hàm: Sau đó, ta sử dụng phương pháp để tính gradient cho vector từ khác Khơng giống mơ hình skip-gam, mơ hình CBOW ta thường sử dụng vector từ ngữ cảnh làm vector biểu diễn từ Downloaded by V? Hoàng (dohoangvu.nt1806@gmail.com)

Ngày đăng: 19/01/2024, 13:10

Tài liệu cùng người dùng

Tài liệu liên quan