Nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản tiếng việt luận văn ths công nghệ thông tin 60 48 0

81 433 1
Nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản tiếng việt   luận văn ths  công nghệ thông tin  60 48 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ LÝ NGHIÊN CỨU PHƯƠNG PHÁP TRÍCH CHỌN THÔNG TIN THỜI TIẾT TỪ VĂN BẢN TIẾNG VIỆT LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN Hà nội, 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ LÝ NGHIÊN CỨU PHƯƠNG PHÁP TRÍCH CHỌN THÔNG TIN THỜI TIẾT TỪ VĂN BẢN TIẾNG VIỆT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Nguyễn Trí Thành Hà nội, 2015 Lời cam đoan Tôi cam đoan công trình nghiên cứu riêng tôi, thực hướng dẫn khoa học Phó Giáo sư, Tiến sĩ Nguyễn Trí Thành Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Tôi xin chịu trách nhiệm nghiên cứu Học viên Vũ Thị Lý i MỤC LỤC Lời cam đoan i Danh sách bảng iv Danh sách hình vẽ v Danh sách từ viết tắt, kí hiệu, thuật ngữ vi Chương 1: GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu đề tài 1.2 Ý nghĩa khoa học 1.3 Ý nghĩa thực tiễn 1.4 Ứng dụng đề tài Chương 2: BÀI TOÁN TRÍCH CHỌN THÔNG TIN THỜI TIẾT TRONG VĂN BẢN TIẾNG VIỆT 2.1 Mô tả toán ý tưởng giải 2.2 Xây dựng mô hình hệ thống 2.2.1 Thu thập liệu 2.3.2 Tiền xử lý gán nhãn liệu 10 2.3.3 Lựa chọn trích chọn đặc trưng 14 2.3.4 Trích chọn đặc trưng xây dựng mô hình 15 Chương 3: MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TOÁN TRÍCH CHỌN THÔNG TIN TRONG VĂN BẢN 17 3.1 Một số nghiên cứu trích chọn thông tintừ trang tin 17 3.2 Phương pháp trích chọn thông tin dựa biểu thức quy 21 3.3 Trích chọn thông tin dựa vào mô hình 23 3.3.1 Mô hình Markov ẩn 23 3.3.2 Mô hình Maximum Entropy Markov 25 3.3.3 Trường ngẫu nhiên có điều kiện 27 3.4 Nhận xét 47 3.5 Tóm tắt chương 47 Chương 4: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 49 4.1 Kết thực nghiệm 49 4.1.1 Thu thập liệu 49 4.1.2 Tiền xử lý liệu 51 3.1.3 Lựa chọn trích chọn đặc trưng 61 ii 4.1.4 Mô hình kết với tập liệu kiểm thử 63 4.2 Đánh giá 65 KẾT LUẬN 70 TÀI LIỆU THAM KHẢO 72 Tiếng Việt 72 Tiếng Anh 72 iii Danh sách bảng Bảng 1: Mẫu liệu thông tin website Bảng 2: Tập nhãn từ loại sử dụng Bảng 3: Bảng nhãn đối tượng sử dụng hệ thống Bảng 4: Các mẫu biểu thức quy sử dụng hệ thống 51 Bảng 5: Danh sách tập nhãn đối tượng 61 Bảng 6: So sánh kết mô hình mong muốn 65 Bảng 7: Kết văn có độ xác thấp 68 iv Danh sách hình vẽ Hình 1: Mẫu thông tin có cấu trúc Hình 2: Mẫu thông tin bán cấu trúc Hình 3: Mẫu thông tin phi cấu trúc Hình 4: Ví dụ thông tin thời tiết trang tin tức Hình 5: Mô hình trích chọn thông tin thời tiết Hình 6: Hỗ trợ gán nhãn từ loại 12 Hình 7: Hỗ trợ gán nhãn đối tượng 14 Hình 8: Ví dụ kết gán nhãn đối tượng 14 Hình 9: Sự phân hóa cấu trúc loại tài liệu 20 Hình 10: So sánh hiệu suất kết sử dụng luật (biểu thức quy) CRF với số loại thực thể 22 Hình 11: Ví dụ số biểu thức quy sử dụng để trích chọn số loại thực thể 22 Hình 12: Các tham số xác suất mô hình Markov ẩn 24 Hình 13: Tổng quan mô hình xác suất: Naïve Bayes (NB), Markov ẩn (HMM), cực đại entropy (ME), trường ngẫu nhiên có điều kiện (CRF) Các khía cạnh minh họa xác suất chung hay điều kiện, dự đoán lớp đơn hay dự đoán liệu chuỗi 27 Hình 14: Mô hình đồ thị có hướng 30 Hình 15: Bộ phân loại Naïve Bayes 30 Hình 16: Đồ thị độc lập đồ thị thành phần cho mô hình Markov ẩn 31 Hình 17: Bộ phân loại cực đại Entropy 32 Hình 18: Trường ngẫu nhiên có điều kiện chuỗi tuyến tính 33 Hình 19: Một dạng kết hợp CRF chuỗi tuyến tính 35 Hình 20: Ví dụ máy trạng thái hữu hạn ngẫu nhiên 37 Hình 21: Ví dụ cấu trúc CRF 44 Hình 22: Ví dụ CRF cách quãng cho chuỗi x=(2,3,4,5,6) theo công thức… 46 Hình 23: Nguồn thông tin [4] 49 Hình 24: Lấy thông tin từ internet 50 Hình 25: Tiền xử lý liệu (1) 54 Hình 26: Tiền xử lý liệu (2) 55 v Danh sách từ viết tắt, kí hiệu, thuật ngữ Từ viết tắt IR IE WI CRF NER HMM MEMM CMM SFSA Ý nghĩa, mô tả Information Retrieve: Truy vấn thông tin Information Extract: Trích chọn thông tin Wrapper Induction: Condition Random Fields: Trường ngẫu nhiên có điều kiện Named Entity Recognition: Nhận dạng thực thể tên Hidden Markov Model: Mô hình Markov ẩn Maximum Entropy Markov Model: Mô hình Markov cực đại Entropy Conditional Markov Model: Mô hình Markov có điều kiện Schochatics Finite State Automaton: Máy trạng thái hữu hạn ngẫu nhiên vi Chú ý Chương 1: GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu đề tài Thông tin dự báo thời tiết thông tin quan trọng cần cập nhật hàng ngày cho người.Nó ảnh hưởng lớn tới sống sinh hoạt người dân, quan tổ chức.Việc dự báo thông tin gần đúng, kịp thời có vai trò vô cần thiết quan trọng Đối với sống hàng ngày, thông tin thời tiết giúp người dân có chuẩn bị cần thiết lại Đối với ngành phụ thuộc vào thời tiết đánh bắt thủy hải sản, nông nghiệp thông tin thời tiết giúp họ có chuẩn bị phù hợp trình sản xuất Do mức độ quan trọng thông tin thời tiết, việc nghiên cứu phương pháp để trích chọn thông tin thời tiết, từ văn bản, trang tin tức hàng ngày giúp ích cho nhiều người Phạm vi luận văn nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản, trang tin tức tiếng Việt Các thông tin thời tiết có sẵn nhiều trang tin tức tiếng Việt, trình bày với nhiều dạng khác [4] Thông tin thời tiết dạng có cấu trúc (bảng thông tin lượng mưa, nhiệt độ vùng miền thời điểm – Hình 1: Mẫu thông tin có cấu trúc), phi cấu trúc (như dạng tin tóm tắt, chi tiết thông tin thời tiết vùng miền thời điểm – Hình 3: Mẫu thông tin phi cấu trúc), dạng bán cấu trúc (danh sách thông tin thời tiết chung chung, gồm nhiệt độ, độ ẩm, tình trạng nắng mưa số vùng miền – Hình 2: Mẫu thông tin bán cấu trúc) Ngoài ra, thông tin thời tiết cung cấp không đầy đủ (một số thông tin không có), không đồng (các đơn vị đo khác nhau) Do đó, nhiệm vụ trích chọn thông tin phức tạp hoán đổi thuộc tính lỗi đánh máy xảy trình đưa tin lên trang tin Hình 1: Mẫu thông tin có cấu trúc Hình 2: Mẫu thông tin bán cấu trúc Trường hợp mục từ chưa có sở liệu, hệ thống để trống phần từ loại, người dùng sử dụng context menu tự gán nhãn từ loại hộp thoại sửa chương trình.Ví dụ, từ TRUNG TÂM chưa có từ loại, người huấn luyện gán từ loại danh từ tay (thêm //NN vào sau từ này), sử dụng context menu, lựa chọn từ loại hệ thống cập nhật thay TRUNG TÂM DỰ BÁO//VB KHÍ TƯỢNG//NN 128|VB 10 THỦY VĂN//NN TRUNG ƯƠNG//NN Thứ//NC Ba, 06/01/2015, 22:35//NN (GMT+7)//NN Thời tiết//NN tại//NN 163|IN 13|JJ : Đà Nẵng//NP 190|NN 10 24°C//NN 151|D 13 Hải Phòng//NP 156|NN 10 20°C//NN 102|D 12 Nha Trang//NP 152|NN 10 25°C//NN 35|D Pleiku//NP 134|NN 20°C//NN 102|D 12 Sơn La//NP 20°C//NN 102|D 12 T.P Hồ Chí Minh//NP 24°C//NN 151|D 13 Hà Nội//NP 312|NN 10 22°C//NN 53|D Vinh//NP 146|NN 10 22°C//NN 53|D Để cập nhật văn vào hệ thống, công cụ tích hợp phần kiểm tra xem từ có từ loại hết chưa, trước tiến hành cập nhật thực Gán nhãn đối tượng thời tiết 59 TRUNG TÂM//NN//S DỰ BÁO//VB//S KHÍ TƯỢNG//NN//S THỦY VĂN//NN//S TRUNG ƯƠNG//NN//S Thứ Ba//NN//S ,//,//S 06/01/2015//NN//S_DATETIME ,//,//S 22:35//NN//S_DATETIME (GMT+7)//NN//S_DATETIME Thời tiết//NN//S tại//JJ//S ://://S Đà Nẵng//NP//S_LOCATION 24°C//NN//S_TEMPARATURE Hải Phòng//NP//S_LOCATION 20°C//NN//S_TEMPARATURE Nha Trang//NP//S_LOCATION 25°C//NN//S_TEMPARATURE Pleiku//NP//S_LOCATION 20°C//NN//S_TEMPARATURE Sơn La//NP//S_LOCATION 20°C//NN//S_TEMPARATURE T.P Hồ Chí Minh//NP//S_LOCATION 24°C//NN//S_TEMPARATURE Hà Nội//NP//S_LOCATION 22°C//NN//S_TEMPARATURE Vinh//NP//S_LOCATION 22°C//NN//S_TEMPARATURE Trong bảng bên trên, từ loại gán nhãn đối tượng.Tham khảo bảng để biết thêm chi tiết đối tượng sử dụng hệ thống.Ngoài số mẫu đối tượng hỗ trợ từ biểu thức quy, đối tượng lại cần người huấn luyện xem xét gán nhãn cho chúng Hình 21 minh họa cách sử dụng trợ giúp hệ thống để gán nhãn cho đối tượng.Có tất nhãn đối tượng, giúp người dùng gán nhãn cho thành phần đối tượng (thẻ B_, M_, E_) Trong phạm vi hệ thống tới thời điểm này, có khoảng 23 tệp tin, với 700 câu tin thu thập, tách từ gán nhãn liệu (bao gồm gán nhãn từ loại gán nhãn đối tượng) Nguồn thông tin sử dụng để huấn luyện xây dựng mô hình 60 3.1.3 Lựa chọn trích chọn đặc trưng Các tham số huấn luyện mô hình lấy từ giá trị mặc định thư viện CRFSharp [23], sau: int max_iter = 1000; int min_feature_freq = 2; double min_diff = 0.0001; double slot_usage_rate_threshold = 0.95; int threads_num = 1; string strTemplateFileName = null; //template file name string strTrainingCorpus = null; //training corpus file name string strEncodedModelFileName = null; //encoded model file name bool bDebugMode = false; Các nhãn đối tượng thời tiết gồm có Bảng 5: Danh sách tập nhãn đối tượng Nhãn đối tượng DATETIME Ví dụ nhãn thuộc đối tượng S_DATETIME: mục tin thời gian B_DATETIME: bắt đầu đối tượng thời gian M_DATETIME: thông tin thuộc đối tượng thời gian, bắt đầu kết thúc E_DATETIME: thông tin cuối đánh dấu kết thúc đối tượng thời gian LENGTH S_LENGTH, B_LENGTH, M_LENGTH, E_LENGTH RAINFALL_MEA S_RAINFALL_MEA B_RAINFALL_MEA, M_RAINFALL_MEA E_RAINFALL_MEA FLOWSPEED S_FLOWSPEED, B_FLOWSPEED, M_FLOWSPEED, E_FLOWSPEED WATER_LEVEL S_WATER_LEVEL B_WATER_LEVEL, M_WATER_LEVEL, E_WATER_LEVEL LOCATION S_LOCATION B_LOCATION, M_LOCATION, E_LOCATION WEATHER S_WEATHER, B_WEATHER, M_WEATHER, E_WEATHER RAINFALL S_RAINFALL, B_RAINFALL, M_RAINFALL, E_RAINFALL HUMIDITY_PERCENTAGE S_HUMIDITY_PERCENTAGE, B_HUMIDITY_PERCENTAGE, 61 M_HUMIDITY_PERCENTAGE, E_HUMIDITY_PERCENTAGE WINDSPEED, B_WINDSPEED, M_WINDSPEED, E_WINDSPEED S_TEMPERATURE, B_TEMPERATURE, M_TEMPERATURE, E_TEMPERATURE WINDSPEED TEMPERATURE Với tập liệu chuẩn bị từ bước trước, thư viện CRFSharp, hệ thống thực nghiệm xây dựng mô hình mẫu, với đặc trưng mô hình ví dụ sau: B 4182 U01:% 369648 U01:& 434452 U01:( 24480 U01:(*) 341122 U01:(_o_C) 433568 U01:) 25466 U01:+ 311610 U01:, 2924 U01:- 13804 U01: - 278936 U01:-27% 142086 U01:-30% 141270 U01:-37% 140182 U01:-7% 142970 U01: 17238 … U04:2015/ở 221238 U04:2015/ở 228956 U04:20°C/Hải_Phòng 283084 U04:20°C/Nha_Trang 309706 U04:20°C/Sơn_La 310216 62 U04:20°C/T.P_Hồ_Chí_Minh 310386 U04:21/, 421090 U04:21/- 302362 U04:21/20 411332 U04:21/7/: 76636 U04:21/9/: 80240 U04:21/o_C 364480 U04:21/độ 304164 U04:21:51/(GMT+7) 430712 U04:21:53/(GMT+7) 353906 U04:21°C/Cập_nhật 335512 U04:21°C/Hải_Phòng 280228 U04:21°C/Pleiku 283322 U04:22/01/2015/, 3332 U04:22/21 411230 U04:22/22 433466 U04:22/5/) 105910 U04:22/o_C 358462 U04:22/độ 291822 U04:22/– 400622 U04:22:16/( 367336 4.1.4 Mô hình kết với tập liệu kiểm thử Mô hình xây dựng với tập huấn luyện gồm 1200 câu (tương ứng với 25 văn tiếng Việt), việc thực kiểm thử tiến hành với 10 văn tiếng Việt, độc lập với tập liệu huấn luyện (tương đương với 400 câu), thu kết sau: -Văn kiểm thử (30 câu), độ xác nhãn thực thể 97%, xác số nhãn 97% -Văn kiểm thử (~46 câu), độ xác nhãn thực thể 61%, xác số nhãn 64% -Văn kiểm thử (~64 câu), độ xác nhãn thực thể 60%, xác số nhãn 60% -Văn kiểm thử (~9 câu), độ xác nhãn thực thể số nhãn 86% 63 -Văn kiểm thử (~10 câu), độ xác nhãn thực thể 95% số nhãn 94% - Văn kiểm thử (~68 câu), độ xác nhãn thực thể 86% số nhãn 87% -Văn kiểm thử (~35 câu), độ xác nhãn thực thể 53% số nhãn 52% -Văn kiểm thử (~27 câu), độ xác nhãn thực thể 59% số nhãn 62% -Văn kiểm thử (~71 câu), độ xác nhãn thực thể 66% số nhãn 66% -Văn kiểm thử 10 (~40 câu), độ xác nhãn thực thể 95% số nhãn 96% - Văn kiểm thử 11 (~39 câu), độ xác nhãn thực thể số nhãn 94% - Văn kiểm thử (~10 câu), độ xác nhãn thực thể số nhãn 94% Trong đó: + Độ xác nhãn thực thể số thực thể gán nhãn (với trường hợp gán nhãn “B_” mà không gán nhãn lại đối tượng, không coi nhãn đúng) + Độ xác số nhãn đúng, trường hợp hệ thống nhận diện xác nhãn (không quan tâm xem nhãn có cấu thành đối tượng hay không) Tổng hợp độ xác văn kiểm thử (~400 câu) với mô hình xây dựng từ 1200 câu sau Number of label matches: 1460/1872=77 Number of DATETIME object matches: 112/245=45 Number of LOCATION object matches: 449/457=98 Number of TEMPERATURE object matches: 256/305=83 Number of WEATHER object matches: 198/203=97 Number of WATER_LEVEL object matches: 192/302=63 Number of RAINFALL_MEA object matches: 3/45=6 Number of WINDSPEED object matches: 13/14=92 Number of RAINFALL object matches: 2/6=33 Number of HUMIDITY_PERCENTAGE object matches: 13/16=81 TOTAL MODEL: 1238/1593=77 64 4.2 Đánh giá Dựa khoảng 10 mẫu kiểm thử (khoảng tổng cộng khoảng 400 câu), với liệu kiểm thử độc lập với liệu huấn luyện thấy việc trích chọn thông tin mô hình trường ngẫu nhiên có điều kiện khả quan Tuy vậy, để áp dụng vào thực tế cần phải đánh giá tập liệu rộng hơn, bước xử lý cần chặt chẽ để đánh giá tham số tối ưu cho mô hình -Với tập liệu kiểm thửcó độ xác số nhãn gán độ xác đối tượng giống nhau, thấy đối tượng từ đơn, nhãn đối tượng Đối tượng thời gian có độ xác thấp chúng thường cấu thành từ nhiều nhãn -Với tập liệu có đối tượng cấu thành từ từ đơn độ xác giảm mẫu đa dạng Một số nhãn đối tượng nhận đạng thành phần lại không nhận dạng đúng, không tính nhãn thực thể nhận dạng xác Các mẫu liệu kiểm thử sử dụng có số mẫu liệu có định dạng chung so với mẫu liệu dùng để huấn luyện, mẫu cho độ xác cao so với mẫu khác Ngoài ra, số mẫu liệu có độ xác thấp hơn, ví dụ văn kiểm thử số 2,3,7,8 văn có cấu trúc hoàn toàn khác so với mẫu dùng huấn luyện, có dạng liệt kê, thống kê liệu nên độ xác thấp Trong bảng số so sánh kết nhận dạng không cao, giá trị số không nhận dạng đối tượng thời tiết thông tin thống kê nhiệt độ lượng mưa, cấu trúc hoàn toàn khác với mẫu huấn luyện sử dụng mô hình Hơn nữa, liên kết đặc trưng với số từ khóa Nhiệt độ Lượng mưa “khoảng cách xa” Do đó, đối tượng thời tiết không nhận mong muốn Với trường hợp này, mẫu liệu phải xây dựng đa dạng nữa, mô hình CRF cần cải tiến để nhận đặc trưng “khoảng cách xa” Dữ liệu theo định dạng mắt thường thường trình bày dạng bảng bán cấu trúc Bảng 6: So sánh kết mô hình mong muốn Kết mô hình Nhãn đối tượng mong muốn [Vinh:S_LOCATION] 24.1 23.5-24.5 67 50-80 [Vinh:S_LOCATION] [24.1:S_TEMPERATURE] [23.5-24.5:S_TEMPERATURE] [67:S_RAINFALL_MEA] [50-80:S_RAINFALL_MEA] 65 [Huế:S_LOCATION] 25.9 25.5-26.5 55 40-70 [Đà_Nẵng:S_LOCATION] 26.3 26.0-27.0 40 30-50 [Nha_Trang:S_LOCATION] 27.3 27.0-28.0 30 20-40 [Buôn_Ma_Thuột:S_LOCATION] 26.2 26.0-27.0 104 70-90 10 [Châu_Đốc:S_LOCATION] 28.4 28.0-29.0 83 60-70 * Bản_tin cập_nhật [ngày:B_DATETIME] [01/4/2015:E_DATETIME] Dự_báo mực_nước [sông_Hồng:S_LOCATION] [Hà_Nội:S_LOCATION] ( tính_theo số_liệu [Huế:S_LOCATION] [25.9:S_TEMPERATURE] [25.5-26.5:S_TEMPERATURE] [55:S_RAINFALL_MEA] [40-70:S_RAINFALL_MEA] [Đà_Nẵng:S_LOCATION] [26.3:S_TEMPERATURE] [26.0-27.0:S_TEMPERATURE] [40:S_RAINFALL_MEA] [30-50:S_RAINFALL_MEA] [Nha_Trang:S_LOCATION] [27.3:S_TEMPERATURE] [27.0-28.0:S_TEMPERATURE] [30:S_RAINFALL_MEA] [20-40:S_RAINFALL_MEA] [Buôn_Ma_Thuột:S_LOCATION] [26.2:S_TEMPERATURE] [26.0-27.0:S_TEMPERATURE] [104:S_RAINFALL_MEA] [70-90:S_RAINFALL_MEA] 10 [Châu_Đốc:S_LOCATION] [28.4:S_TEMPERATURE] [28.0-29.0:S_TEMPERATURE] [83:S_RAINFALL_MEA] [60-70:S_RAINFALL_MEA] * Bản_tin cập_nhật [ngày:B_DATETIME] [01/4/2015:E_DATETIME] Dự_báo mực_nước [sông_Hồng:S_LOCATION] [Hà_Nội:S_LOCATION] ( tính_theo số_liệu 66 lưu_lượng xả dự_kiến ) : Trị_số Dự_báo Thời_gian Ngày 10/2 Ngày 11/2 17h 19h 21h 23h 1h 3h 5h 7h 9h 11h 13h 15h H (cm) 88 [85:S_WATER_LEVEL] [82:S_WATER_LEVEL] [80:S_WATER_LEVEL] [78:S_WATER_LEVEL] [75:S_WATER_LEVEL] [72:S_WATER_LEVEL] [70:S_WATER_LEVEL] [100:S_WATER_LEVEL] [120:S_WATER_LEVEL] [150:S_WATER_LEVEL] 150 Thời_gian Ngày 11/2 Ngày 12/2 lưu_lượng xả dự_kiến ) : Trị_số Dự_báo Thời_gian [Ngày:B_DATETIME] [10/2:E_DATETIME] [Ngày:B_DATETIME] [11/2:E_DATETIME] [17h:S_DATETIME] [19h:S_DATETIME] [21h:S_DATETIME] [23h:S_DATETIME] [1h:S_DATETIME] [3h:S_DATETIME] [5h:S_DATETIME] [7h:S_DATETIME] [9h:S_DATETIME] [11h:S_DATETIME] [13h:S_DATETIME] [15h:S_DATETIME] H (cm) 88 [85:S_WATER_LEVEL] [82:S_WATER_LEVEL] [80:S_WATER_LEVEL] [78:S_WATER_LEVEL] [75:S_WATER_LEVEL] [72:S_WATER_LEVEL] [70:S_WATER_LEVEL] [100:S_WATER_LEVEL] [120:S_WATER_LEVEL] [150:S_WATER_LEVEL] [150:S_WATER_LEVEL] Thời_gian [Ngày:B_DATETIME] [11/2:E_DATETIME] [Ngày:B_DATETIME] [12/2:E_DATETIME] 67 17h 19h 21h 23h 1h 3h 5h 7h 9h 11h 13h 15h H (cm) 152 [153:S_WATER_LEVEL] [154:S_WATER_LEVEL] [155:S_WATER_LEVEL] [157:S_WATER_LEVEL] [160:S_WATER_LEVEL] [162:S_WATER_LEVEL] [165:S_WATER_LEVEL] [175:S_WATER_LEVEL] [195:S_WATER_LEVEL] [205:S_WATER_LEVEL] [210:S_WATER_LEVEL] [17h:S_DATETIME] [19h:S_DATETIME] [21h:S_DATETIME] [23h:S_DATETIME] [1h:S_DATETIME] [3h:S_DATETIME] [5h:S_DATETIME] [7h:S_DATETIME] [9h:S_DATETIME] [11h:S_DATETIME] [13h:S_DATETIME] [15h:S_DATETIME] H (cm) [152:S_WATER_LEVEL] [153:S_WATER_LEVEL] [154:S_WATER_LEVEL] [155:S_WATER_LEVEL] [157:S_WATER_LEVEL] [160:S_WATER_LEVEL] [162:S_WATER_LEVEL] [165:S_WATER_LEVEL] [175:S_WATER_LEVEL] [195:S_WATER_LEVEL] [205:S_WATER_LEVEL] [210:S_WATER_LEVEL] Độ xác nhãn thực thể toàn liệu kiểm thử từ mô hình xây dựng sau: Bảng 7: Kết văn có độ xác thấp Nhãn thực thể DATETIME LOCATION TEMPERATURE WEATHER WATER_LEVEL RAINFALL_MEA WINDSPEED RAINFALL HUMIDITY_PERCENTAGE Độ xác 112/245=45% 449/457=98% 256/305=83% 198/203=97% 192/302=63% 3/45=6% 13/14=92% 2/6=33% 13/16=81% 68 Để tăng độ xác với mẫu đối tượng cấu thành từ nhiều từ, cần tập liệu đủ lớn, tập huấn luyện đủ nhiều để mô hình xây dựng xác hơn.Như bảng kết quả, độ xác lượng mưa số đo lượng mưa thấp, thông tin thường liệt kê dạng bảng, liên kết đặc trưng lỏng lẻo khó phát Ngoài số liệu đa dạng thay đổi liên tục, nên liên kết với thông tin giá trị “Lượng mưa”, “Nhiệt độ” có tính liệt kê Độ xác thông tin địa điểm, tượng thời tiết thường đạt độ xác cao, từ xác định thông tin thời tiết rõ ràng, có thay đổi thể đầu câu, viết hoa thường viết tắt nên đặc trưng “nổi bật” thông tin khác Hơn nữa, độ xác mô hình xây dựng phụ thuộc vào chủ quan người xây dựng từ điển huấn luyện, việc gán nhãn từ loại đánh giá chủ quan người quản lý để phân định từ loại hay đối tượng thời tiết cần quan tâm Do đó, việc rà soát lại từ điển huấn luyện, từ điển kiểm thử nhiệm vụ cần thiết để đánh giá xác mô hình nhờ sử dụng phương pháp 69 KẾT LUẬN Luận văn hệ thống hóa số vấn đề lý thuyết trích chọn thông tin, bái toàn nhận dạng đối tượng thực thể thông tin thời tiết đồng thời trình bày, phân tích, đánh giá số hướng tiếp cận toán trích chọn thông tin thời tiết Một số vấn đề giải pháp với toán trích chọn thông tin thời tiết từ văn tiếng Việt dựa mô hình CRF đề xuất, thực nghiệm thu kết khả quan Sau số nét mà luận văn giải Thông tin thời tiết nguồn thông tin quý giá cá nhân tổ chức Tuy nhiên, thông tin thời tiết có sẵn không tổng hợp, chọn lọc, thu thập cách tự động Do đó, phạm vi luận văn nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản, trang tin tiếng Việt Từ nhu cầu thực tế, đánh giá ý nghĩa khoa học, thực tiễn ứng dụng đề tài, để thấy cần thiết phải có hệ thống trích chọn thông tin thời tiết từ nguồn tin có sẵn Dựa nhìn khái quát trích chọn thông tin, luận văn đưa hướng tiếp cận khác để giải toán Các phương pháp bao gồm: dựa biểu thức quy, sử dụng mô hình (mô hình xác suất) HMM, MEMM, CRF Luận văn đưa thông tin khái quát phương pháp, đánh giá đưa so sánh phương pháp áp dụng với toán nhận dạng thực thể, cho thấy thiếu linh hoạt, khó bảo trì phương pháp sử dụng biểu thức quy, vấn đề nhãn mờ mô hình MEMM gặp phải Những đánh giá lý giải cho phương pháp học máy CRF chọn làm sở xây dựng hệ thống trích chọn thông tin thời tiết Từ đánh giá cách tiếp cận giải toán, luận văn đưa bước xây dựng mô hình để giải toán đặt phần Các bước gồm có: thu thập thông tin từ động từ trang tin có sẵn, tiền xử lý liệu, gán nhãn cho từ tiếng Việt, sau lựa chọn thuộc tính cho việc nhận dạng thực thể thời tiết Hệ thống thu thập trích chọn thông tin thời tiết xây dựng kiểm thử với liệu thực tế, cần nhiều hỗ trợ từ phía người dùng, việc gán nhãn từ loại xem xét đánh giá làm liệu, cho thấy tiềm để xây dựng hệ thống tốt việc thu thập trích chọn, khai phá liệu thông tin thời tiết Cuối cùng, luận văn trình bày hệ thống trích chọn thông tin thời tiết từ văn tiếng Việt, đưa kết hệ thống qua số lần thực nghiệm liệu thực tế Với lượng liệu ỏi so với thực tế (dữ liệu thu thập khoảng thời gian ngắn), cho thấy kết khả quan cải tiến nhiều để xây dựng hệ thống áp dụng thực tế 70 Công việc nghiên cứu tương lai Mặc dù kết trích chọn thông tin thời tiết khả quan, kết tốt nữa, tăng độ xác hệ thống với liệu từ trang tin, từ sử dụng lại kết cho hệ thống khai phá, dự báo thời tiết Ngoài ra, việc gán nhãn cho từ loại cải thiện tự động hóa nữa, nhờ xem xét đánh giá lại thực trạng hệ thống, đưa giải pháp tập luật dựa kinh nghiệm hệ thống Để dễ dàng phân tích thông tin đạt được, hệ thống tích hợp với hệ thống đồ địa lý, nhằm minh họa thông tin sinh động cụ thể hơn, dễ so sánh Hơn nữa, bước tiền xử lý thông tin hệ thống chưa đầy đủ, thông tin bị thiếu bị bỏ qua, chưa sử dụng phương pháp nội suy để điền thông tin bổ sung liệu cho phù hợp đầy đủ 71 TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Trí Thành.Bài giảng khai phá liệu, K17HTTT, Đại học Công Nghệ, Đại học Quốc Gia Hà Nội, 2010-2011 2.Hà Quang Thụy, Bài giảng Khai phá liệu kho liệu, K17HTTT, Đại học Công Nghệ, Đại học Quốc Gia Hà Nội, 2010-2011 Website http://vnlp.net/?attachment_id=166 Kho liệu gán nhãn từ loại tiếng Việt Website http://www.nchmf.gov.vn/web/vi-VN/43/Default.aspx Trung tâm dự báo khí tượng thủy văn trung ương Tiếng Anh Li, Yunyao, et al "Regular expression learning for information extraction." Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics, 2008 J.Lafferty, A.McCallum, and F.Pereira “Conditional random fields: probalistic models for segmenting and labeling sequence data” In Proc ICML, pages 282290,2001 William W Cohen, Andrew McCallum Slides “Information Extraction from the World Wide Web”, KDD 2003 Jenny Rose Finkel “Named Entity Recognition and the Standford NER Software” slides Standford University March 09, 2007 Ian Fette “Combining n-gram based statistics with traditional methods for named entit recognition” School of Computer Science, Carnegie Mellon University, 2007 10 McCallum, Andrew, Dayne Freitag, and Fernando CN Pereira “Maximum Entropy Markov Models for Information Extraction and Segmentation.” ICML Vol 17 2000 11 Dan Klein and Chris Manning.“Maxent models, Conditional Estimation, and Optimization” slides Standford Universtiy HLT-NAACL 2003 and ACL 2003 Tutorial 12 Sarawagi, Sunita, and William W Cohen “Semi-markov conditional random fields for information extraction.”Advances in Neural Information Processing Systems 2004 72 13 Charles Sutton, Andrew McCallum “An introduction to Conditional Random Fields for Relational Learning”.Introduction to Statistical Relational Learning, page 93-130 14 Yasemin Altun, Alex J Smola, Thomas Hoffmann “Exponential Families for Conditional Random Fields”.AUAI Press Arlington, Virginial, US 2004.ISBN:09749039-0-6, Page 2-9 15 Walter F.Mascarenhas “The BFGS method with exact line searches fails for nonconvex objective functions” Mathematical Programming, January 2004, Volume 99, Issue 1, pp 49-61 16 Mark Johnson “A brief introduction to Conditional Random Fields”.Macqurie University 2010 17 Trevor Cohn “Conditional Random Fields” Slide ALTW 2005.December 2013 18 Roman Klinger, Katrin Tomanek “Classical Probalistic Models and Conditional Random Fields.”Algorithm Engineering Report TR07-2-013, ISSN 1864-4503 19 Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, Khaled Shaalan “A survey of Web information extraction systems”, IEEE Transactions on Knowledge and Data Engineering, TKDE-0475- 1104.R3 20 Website http://www.cs.cornell.edu/.The natural language processing courses 21 Website http://www-nlp.stanford.edu/~manning/papers/.Papers about natural processing language techniques and applications, CRFs 22 Website http://nlp.stanford.edu/projects/project-ner.shtml.The Standford Natural Language Processing Group 23 Website https://crfsharp.codeplex.com/ Conditional Random Fields implemented by NET (C#) 24 Website https://code.google.com/p/crawler4j/ Open source Web Crawler for Java 73 [...]... sinh động, và chi tiết 4 Chương 2: BÀI TOÁN TRÍCH CHỌN THÔNG TIN THỜI TIẾT TRONG VĂN BẢN TIẾNG VIỆT 2.1 Mô tả bài toán và ý tưởng giải quyết Bài toán trích chọn thông tin thời tiết cũng như nhiều bài toán trích chọn thông tin khác, gồm các bước chính: thu thập dữ liệu từ các trang tin, xử lý dữ liệu để tăng hiệu suất của hệ thống trích chọn thông tin, xây dựng mô hình để trích chọn thông tin một cách bán... Mẫu thông tin phi cấu trúc Mục tiêu của luận văn là xây dựng một hệ thống bán tự động, nhằm lấy thông tin từ các trang bản tin, và sau đó đưa vào hệ thống xử lý dữ liệu đầu vào, và xây dựng mô hình để trích chọn các thông tin thời tiết Từ mô hình đó, các bản tin có thể được đưa vào và hệ thống sẽ cho ra kết quả liệt kê các đối tượng thời tiết mà chúng ta quan tâm 1.2 Ý nghĩa khoa học Việc trích chọn thông. .. thừa kế từ thư viện này 16 Chương 3: MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TOÁN TRÍCH CHỌN THÔNG TIN TRONG VĂN BẢN 3.1 Mộtsố nghiên cứu về trích chọn thông tintừ các trang tin Với sự tăng trưởng bùng nổ và phổ biến của web thì lượng thông tin trên internet ngày nay đã vô cùng lớn [19] Tuy nhiên, do sự không đồng nhất và thiếu cấu trúc của các nguồn thông tin web, việc truy cập tới lượng thông tin. .. xử lý Lựa chọn thuộc tính đặc trưng Trích chọn đặc trưng và Xây dựng mô hình Kết quả và đánh giá Hình 5: Mô hình trích chọn thông tin thời tiết 2.2 Xây dựng mô hình của hệ thống 2.2.1 Thu thập dữ liệu Nguồn thông tin cho bài toán có thể là các trang tin về thời tiết Tuy nhiên, trong phạm vi luận văn, nguồn thông tin chủ yếu được lấy từ trang thông tin của Trung tâm dự báo khí tượng thủy văn trung ương... các thông tin được trích chọn có thể thực hiện việc lọc tin theo từng loại thuộc tính để cung cấp cho người dùng một cách tự động và ngay khi có tin tức mà họ cần biết Đối với các hệ thống dự báo thời tiết, các thông tin được trích chọn sẽ làm cơ sở để họ xây dựng thêm, ví dụ như mô hình hóa các thông tin lên bản đồ một cách trực quan, sinh động.Các thông tin thời tiết cung cấp cho hệ thống thông tin. .. thông tin thời tiết có ý nghĩa lớn về mặt khoa học .Từ các thông tin thời tiết được chọn lọc bởi mô hình, chúng có thể được dùng để thống kê và lưu trữ lại làm cơ sở tham khảo về sau.Việc lưu trữ thông tin thời tiết và các thông tin liên quan (thời gian xảy ra, địa điểm xảy ra các hiện tượng thời tiết) , có ích cho việc đánh giá và đưa ra con số để xem xét thực tế Ngoài ra, việc lưu trữ các thông tin thời. .. các thông tin không liên quan cần có xử lý cẩn thận và tùy từng trường hợp 9 2.3.2 Tiền xử lý và gán nhãn dữ liệu 2.3.2.1 Loại bỏ các thông tin không liên quan Trong các bản tin tiếng Việt từ internet, có thể thấy có rất nhiều thông tin không liên quan chứa trong các bản tin này.Để loại bỏ những thông tin không liên quan, hệ thống sẽ sử dụng các biểu thức chính quy để chỉ lọc các thông tin về thời tiết. .. các công cụ trích chọn thông tin thành 4 loại khác nhau, bao gồm     các hệ thống cần lập trình viên các hệ thống cần các chú thích và ví dụ minh họa hệ thống không cần chú thích hệ thống bán giám sát Nếu phân loại các công cụ trích chọn thông tin dựa trên dữ liệu đầu vào và cấu trúc để trích chọn mẫu thì sẽ chia thành 3 nhóm  nhóm 1 trích chọn thông tin văn bản phi cấu trúc sử dụng mẫu trích chọn. .. ngôn ngữ tự nhiên như từ vựng và ngữ pháp, trong khi hệ thống trích chọn thông tin web thường áp dụng kĩ thuật học máy và học mẫu để khai thác mẫu cú pháp hoặc cấu trúc bố cục của tài liệu dựa trên mẫu Trong phần tiếp theo thì chúng ta đưa ra nghiên cứu về việc trích chọn thông tin trong các tài liệu bán cấu trúc Có 5 nhiệm vụ chính được định nghĩa cho trích chọn thông tin văn bản bao gồm:     ... báo thời tiết được trình bày thành các phần gồm có menu chính, khung chuyển trang (thanh các mục lục ở bên trái), chính giữa là các thông tin chi tiết về các bản tin, và các liên kết ở cuối trang Thông tin trong trang tin được trình bày chủ yếu ở dạng văn bản tiếng việt, minh họa bằng hình vẽ.Một số thông tin được trình bày ở dạng bảng hoặc danh sách 8 Trong quá trình thu thập dữ liệu, các thông tin ... ĐẠI HỌC CÔNG NGHỆ VŨ THỊ LÝ NGHIÊN CỨU PHƯƠNG PHÁP TRÍCH CHỌN THÔNG TIN THỜI TIẾT TỪ VĂN BẢN TIẾNG VIỆT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 604 8010 4 LUẬN VĂN THẠC... trọng thông tin thời tiết, việc nghiên cứu phương pháp để trích chọn thông tin thời tiết, từ văn bản, trang tin tức hàng ngày giúp ích cho nhiều người Phạm vi luận văn nghiên cứu phương pháp trích. .. pháp trích chọn thông tin thời tiết từ văn bản, trang tin tức tiếng Việt Các thông tin thời tiết có sẵn nhiều trang tin tức tiếng Việt, trình bày với nhiều dạng khác [4] Thông tin thời tiết dạng

Ngày đăng: 19/12/2015, 03:07

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan