Pháp hiện quan hệ ngữ nghĩa giữa các thực thể trong một hoặc giữa các văn bản pháp quy

21 1K 0
Pháp hiện quan hệ ngữ nghĩa giữa các thực thể trong một hoặc giữa các văn bản pháp quy

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Pháp hiện quan hệ ngữ nghĩa giữa các thực thể trong một hoặc giữa các văn bản pháp quyPháp hiện quan hệ ngữ nghĩa giữa các thực thể trong một hoặc giữa các văn bản pháp quyPháp hiện quan hệ ngữ nghĩa giữa các thực thể trong một hoặc giữa các văn bản pháp quyPháp hiện quan hệ ngữ nghĩa giữa các thực thể trong một hoặc giữa các văn bản pháp quyPháp hiện quan hệ ngữ nghĩa giữa các thực thể trong một hoặc giữa các văn bản pháp quyPháp hiện quan hệ ngữ nghĩa giữa các thực thể trong một hoặc giữa các văn bản pháp quyPháp hiện quan hệ ngữ nghĩa giữa các thực thể trong một hoặc giữa các văn bản pháp quyPháp hiện quan hệ ngữ nghĩa giữa các thực thể trong một hoặc giữa các văn bản pháp quyPháp hiện quan hệ ngữ nghĩa giữa các thực thể trong một hoặc giữa các văn bản pháp quyPháp hiện quan hệ ngữ nghĩa giữa các thực thể trong một hoặc giữa các văn bản pháp quy

1 MỞ ĐẦU Tính cấp thiết đề tài Ngày với phát triển mạnh kinh tế với bùng nổ Internet, nhu cầu trao đổi, tìm kiếm thơng tin trở thành vấn đề thiếu người sử dụng internet Khối lượng tài ngun ngày nhiều cách tìm kiếm thơng tin theo từ khóa đơn gian khơng cịn hiệu Hơn ngồi việc tìm kiếm thơng tin người dùng cần quan tâm đến mối quan hệ ngữ nghĩa thông tin, đặc biệt văn pháp quy Tổng quan vấn đề nghiên cứu Phân loại văn bước sở quan trọng cho bước rút trích thơng tin tiếp sau Rút trích thơng tin có nhiều ứng dụng nhiều lĩnh vực Với tốn rút trích thực thể, phương pháp phổ biến phương pháp dựa luật phương pháp máy học:  Phương pháp dựa luật xây dựng tập luật để nhận dạng thực thể tập sách để điều khiển thực thi luật  Trích chọn thực thể theo phương pháp máy học thực phân rã văn khơng có cấu trúc thành thành phần gán nhãn Các phương pháp thường dùng rút trích mối quan hệ thực thể sau:  Các phương pháp dựa luật: xây dựng luật dựa vào tập luật để xác định mối quan hệ  Các phương pháp dựa đặc trưng: rút trích tập đặc tính từ đầu vào, sau kết hợp với phân loại định  Các phương pháp dựa nhân: thiết kế hàm nhân đặc biệt để nắm bắt tương tự cấu trúc Mục tiêu nghiên cứu Xuất phát từ nhu cầu thực tế này, luận văn đề cập đến kỹ thuật rút trích tự động mối quan hệ nhằm xác định quan hệ ràng buộc hay nhiều văn pháp quy Từ mục tiêu luận văn thiết kế xây dựng hệ thống tìm kiếm mối quan hệ ngữ nghĩa điều mục hay nhiều văn qui phạm pháp luật có liên quan Hình 1: Tổng quan mục tiêu luận văn u cầu cụ thể Website có chức sau:  Quản lý từ điển ngữ nghĩa  Phân tích văn Hỗ trợ người dùng xác định mối quan hệ ngữ nghĩa hay nhiều văn pháp quy  Trích quan hệ ngữ nghĩa điều mục văn pháp quy  Cho phép người dùng tra cứu văn theo nhiều cách khác nhau, kết tìm kiếm thể mối quan hệ phát văn văn văn pháp quy  Hỗ trợ cập nhật Áp dụng rút trích thơng tin vào lĩnh vực văn pháp quy, vấn đề đặt nhận dạng thực thể văn điều khoản văn pháp quy, rút trích mối quan hệ văn pháp quy điều khoản văn Đối tƣợng phạm vi nghiên cứu  Đối tượng nghiên cứu o o o o Kỹ thuật xử lý văn Kỹ thuật tìm kiếm thơng tin Kỹ thuật rút trích thơng tin, mối quan hệ ngữ nghĩa Các mơ hình từ điển ngữ nghĩa o Ontology, kỹ thuật xây dựng quản lý Ontology  Phạm vi nghiên cứu o Chỉ khảo sát văn pháp quy lĩnh vực giáo dục đào tạo o Chỉ xử lý văn có định dạng thông dụng như: doc, docx, pdf, txt, htm, html o Ngôn ngữ văn tiếng Việt Giải pháp tổng quan Trước giải toán rút trích thơng tin, chúng tơi sử dụng cơng cụ vnTagger để tách từ gán nhãn từ loại, tiếp áp dụng kỹ thuật phân loại để xác định loại văn bản, việc phân loại giới hạn phạm vi nhận biết thực thể quan hệ mối quan hệ ngữ nghĩa thực thể làm tăng tính xác việc rút trích thơng tin Hình 2: Mơ hình tổng quan xác định mối quan hệ thực thể Giới thiệu bố cục Bố cục luận văn gồm chƣơng với nội dụng khái quát nhƣ sau: Chương giới thiệu: khảo sát cơng trình nghiên cứu liên quan tới lĩnh vực phân loại văn rút trích thơng tin Chương trình bày kỹ thuật phân loại rút trích thơng tin văn bản: nghiên cứu số thuật tốn phân loại văn bản, phân tích ưu nhược điểm thuật tốn Chương trình bày xây dựng hệ thống phát quan hệ ngữ nghĩa các thực thể văn pháp quy Chương trình bày thử nghiệm đánh giá hệ thống CHƢƠNG - GIỚI THIỆU 1.1 Khảo sát cơng trình liên quan Cùng với phát triển xã hội, khối lượng tài liệu số ngày nhiều, nhu cầu cấp thiết phân loại tài liệu cho việc quản lý dễ dàng, tìm kiếm thơng tin, tìm kiếm mối quan hệ ngữ nghĩa Trong nước, có nhiều quan tâm nghiên cứu như: Hướng tiếp cận việc tách từ để phân loại văn tiếng Việt sử dụng giải thuật di truyền thống kê internet[1], phân loại văn tiếng việt với phân loại véctơ hỗ trợ SVM[2]  Xây dựng hệ thống xác định mối quan hệ ngữ nghĩa văn pháp quy lỉnh vực giáo dục[3] Luận văn phân tích phần đầu phần cuối văn pháp quy Trên giới có nhiều cơng trình nghiên cứu lĩnh vực phân loại tài liệu Text classification using machine learning[5] Machine Learning in Automated Text Categorization[6] 1.2Những vấn đề tồn Bài tốn rút trích thơng tin (nhận dạng thực thể rút trích mối quan hệ thực thể) áp dụng cho văn tiếng Việt tốn mở dù có nhiều giải pháp đưa để áp dụng cho văn tiếng Anh, văn tiếng Việt Việc xác định ngữ nghĩa từ, nhận dạng thực thể văn xác định mối quan hệ chúng vấn đề phức tạp 1.3 Những vấn đề luận văn quan tâm Áp dụng rút trích thông tin vào lĩnh vực văn pháp quy Luận văn cần khảo sát nghiên cứu thể loại văn thuộc lĩnh vực giáo dục đào tạo như: quy chế, quy định, dự thảo… đồng thời xây dựng từ điển ngữ nghĩa riêng cho lãnh vực giáo dục đào tạo 1.4 Kết luận Chương khảo sát số cơng trình nghiên cứu lĩnh vực phân loại văn rút trích thơng tin 5 CHƢƠNG - PHẦN LÝ THUYẾT XỬ LÝ VĂN BẢN 2.1 Bài toán phân loại văn Phân lớp văn dựa cách tiếp cận máy học: theo phương pháp này, trình phân lớp gồm bước: bước huấn luyện, thực xây dựng mơ hình phân lớp dựa tập liệu huấn luyện, tập huấn luyện bao gồm tập văn phân lớp tương ứng chúng 2.2 Quá trình phân loại văn Để phân loại văn thơng thường có bước sau: - Chuẩn bị tập liệu huấn luyện, tập liệu kiểm thử - Tiền xử lý văn – tách từ, loại bỏ chấm câu, loại bỏ từ vơ nghĩa… - Vector hóa văn - Trích chọn đặc trưng - Áp dụng thuật tốn phân loại văn 2.2.1 Chuẩn bị tập liệu huấn luyện, kiểm thử Quá trình thực giai đoạn chuẩn bị tập liệu huấn luyện, giai đoạn quan trọng định tính xác phân loại văn Tập liệu lớn độ xác việc phân loại văn cao 2.2.2 Tiền xử lý văn Văn trước sử dụng phải tiến hành xử lý, đơn giản chuyển văn thành dạng tập tin txt, tách từ loại bỏ thành phần không tạo nên nghĩa văn 2.2.3 Vector hóa văn Một văn thường biểu diễn dãy từ Tập tất từ tập huấn luyện gọi từ vựng hay từ đặc trưng Các văn biểu diễn khơng gian có số chiều lớn, chiều không gian tương ứng với từ văn Do văn D biểu diễn dạng véc tơ ⃗ (véc tơ đặc trưng cho văn D) Trong ⃗= (x1, x2, …, xn) với n số từ đặc trưng văn D xi trọng số đặc trưng thứ i văn D 2.2.4 Trích chọn đăc trƣng Mục tiêu phương pháp trích chọn đặc trưng giảm số chiều tập liệu cách loại bỏ đặc trưng khơng thích hợp cho việc phân loại Thủ tục chuyển đổi đem lại số thuận lợi kích thước tập liệu nhỏ hơn, u cầu tính tốn cho thuật tốn phân loại hơn, phục vụ mục đích tăng độ xác q trình phân loại Tần suất xuất từ văn theo công thức 2.1: tf td = t gs t u t hi g s t tr Kết hợp t su t hi t tr gv tf-i f, the ô g thứ ô g thứ 2.2: t t gv t (2.1) su t u t hi gượ v ( ) (2.2) 2.2.5 Áp dụng thuật toán phân loại Sau trình chọn lựa biến đổi, tài liệu biểu diễn dạng dễ áp dụng thuật toán máy học Các thuật toán thường áp dụng như: k láng giềng gần (k-NN), Naïve Bayes (NB), định, SVN … Mặc dù, nhiều hướng tiếp cận đề xuất việc phân loại văn tự động vấn đề thu hút nhiều quan tâm tính hiệu phân loại cần tiếp tục cải tiến 2.3 Một số thuật toán phân loại văn 2.3.1 Naïve Bayes Ý tưởng cách tiếp cận Nạve Bayes sử dụng xác suất có điều kiện từ chủ đề để dự đoán xác suất chủ đề văn cần phân loại Thuật tốn Nạve Bayes dựa định lý Bayes phát biểu theo công thức 2.3: ( | ) ( ) ( ) ( | ) ( ) ( ) (2.3) Trong đó:  Y giả thuyết, giả thuyết xảy biết X xảy  P(X): xác suất X xảy  P(Y): xác suất Y xảy 2.3.2 Thuật toán k láng giềng gần (k-Nearest Neighbor) Ý tưởng thuật toán so sánh độ phù hợp văn d với nhóm chủ đề, dựa k văn mẫu tập huấn luyện mà có độ tương tự với văn d lớn Có vấn đề cần quan tâm phân lớp văn thuật toán k - láng giềng gần xác định khái niệm gần, cơng thức để tính mức độ gần Khi độ tương tự hai văn X Y tính theo cơng thức 2.4: Sim ( X , Y )  cos ine( X , Y , W )   tT  tT ( xt  wt )  ( yt  wt ) ( xt  wt )  tT ( yt  wt ) (2.4) 2.3.3 Thuật toán định Cây định dạng có cấu trúc, node biểu thị cho phép phân nhánh tương ứng cho thuộc tính, nhánh biểu thị kết phép thử, node biểu thị cho lớp phân bố lớp 2.3.4 Kết luận Sau khảo sát ba thuật toán máy học phổ biến áp dụng cho lĩnh vực phân loại văn Thuật toán Bayes đơn giản lại có kết tốt Vì chất lượng đặc trưng ảnh hưởng lớn tới q trình phân loại nên chúng tơi tập trung nhiều vào việc phát đặc trưng phù hợp loại văn pháp quy 2.4 Bài toán rút trích thơng tin Mục đích hệ thống rút trích thơng tin chuyển văn khơng có cấu trúc dạng có cấu trúc, thơng tin trích xuất từ nhiều nguồn khác thu thập biểu diễn hình thức thống 8 2.4.1 Nhận dạng thực thể Là xác định thực thể từ văn khơng có cấu trúc phân loại chúng vào phân lớp định nghĩa sẵn lớp người, lớp tổ chức 2.4.2 Hƣớng tiếp cận dựa luật Một tập luật định nghĩa thủ công Văn so sánh với luật có trùng khớp luật thực 2.4.3 Hƣớng tiệp cận máy học Bài toán nhận dạng thực thể định danh phát biểu lại sau: Chuỗi ( , quan sát ký hiệu , , ), thông thường quan sát biểu diễn tập vector đặc trưng Mục tiêu đặt gán nhãn với chuỗi 2.4.4 Mơ hình Markov ẩn (Hidden Markov Models – HMM) [11] HMM mơ hình máy trạng thái hữu hạn với tham số biểu diễn xác suất chuyển trạng thái xác suất sinh liệu quan sát trạng thái ( , Chuỗi gán nhãn tốt ( , , , , , ) cho chuỗi quan sát ) chuỗi làm cực đại xác suất điều kiện ( ) xác suất đồng thời ( , ) tính theo cơng thức 2.5: ( , ) ( ) ( ) (2.5) 2.4.5 Mơ hình Markov entropy cực đại (Maximum Emtropy Markov Model - MEMM)[11] Mơ hình Markov entropy cực đại thay xác suất chuyển trạng thái xác suất sinh quan sát HMM hàm xác suất ( | xác suất để trạng thái liệu quan sát , theo công thức 2.6: ( | ) Trong đó: , : : , với điều kiện trạng thái trước , , , , ∏ ( | , )(2.6) , ), 2.4.6 Mơ hình CRFs (Conditional Random Fields) CRFs mơ hình rời rạc khác cho hướng tiếp cận gán nhãn CRFs có dạng đồ thị vơ hướng, nhãn quan sát khơng phụ thuộc nhãn trước mà cịn phụ thuộc vào nhãn tương lai ( | ) tính theo cơng thức 2.7: ( ⁄ ) ( ) (∑ ∑ ( , , , )) (2.7) 2.5 Rút trích quan hệ ngữ nghĩa thực thể Các khái niệm văn ln có mối liên hệ với nhau, việc phát mối quan hệ thực cần thiết Ngoài việc làm giàu thêm sở tri thức tại, việc nhận diện mối quan hệ tạo nên sở tri thức Rút trích mối quan hệ xem phương pháp hiệu để đưa phương pháp xử lý cho hệ thống hỏi đáp 2.5.1 Quan hệ ngữ nghĩa Quan hệ ngữ nghĩa (semantic relation) khái niệm ngôn ngữ học Việc xác định quan hệ ngữ nghĩa nhận nhiều quan tâm từ nhà nghiên cứu ngôn ngữ học xử lý ngôn ngữ tự nhiên 2.5.2 Phƣơng pháp dựa luật Xem xét cấu trúc quanh hai thực thể, xây dựng luật để rút trích mối quan hệ hai thực thể câu Phương pháp tương tự phương pháp rút trích thực thể định danh đề cập phần trước 2.5.3 Phƣơng pháp dựa đặc trƣng Bất kỳ cặp thực thể xuất câu xem xét ứng viên cho mối quan hệ Mục tiêu đặt gán nhãn phân lớp tới thực thể gán nhãn “nil” cặp thực thể khơng có quan hệ với 2.5.4 Phân loại dựa nhân Thông tin thể quan hệ hai thực thể có tên câu biểu diễn đường ngắn hai thực thể đồ thị phụ thuộc 10 Hàm nhân mà hai Razvan C Bunescu Raymond J Mooney đưa sau: gọi x = x1 x2 … xm y = y1 y2 … yn hai quan hệ, xi biểu diễn vector đặc trưng ứng với từ nằm vị trí thứ i quan hệ Khi đó, hàm nhân số đặc trưng trùng x y tính theo cơng thức 2.8: ( , ) Trong đó: ( , { ∏ : ếu ( , ): ếu } (2.8) ) số đặc trưng chung vị trí thứ i , 2.5.5 Kết luận Phần trình bày số kỹ thuật để giải hai nhiệm vụ lớn toán rút trích thơng tin: nhận dạng thực thể rút trích mối quan hệ thực thể 11 CHƢƠNG - XÂY DỰNG HỆ THỐNG XÁC ĐỊNH QUAN HỆ NGỮ NGHĨA GIỮA CÁC VĂN BẢN PHÁP QUY Dựa trình nghiên cứu lý thuyết, luận văn tiếp tục khảo sát thực tế, phân tích, thiết kế, cài đặt thử nghiệm hệ thống xác định mối quan hệ ngữ nghĩa văn pháp quy Các bước pháp triển ghi lại làm sở để phát triển 3.1 Khảo sát hệ thống văn pháp quy Việt Nam Theo điều Luật 17/2008/QH12 Ban hành văn quy phạm pháp luật, hệ thống văn quy phạm pháp luật bao gồm: “1 Hiến pháp, luật, nghị Quốc hội Pháp lệnh, nghị Ủy ban thường vụ Quốc hội Lệnh, định Chủ tịch nước Nghị định Chính phủ Quyết định Thủ tướng Chính phủ Nghị Hội đồng Thẩm phán Tòa án nhân dân tối cao, Thông tư Chánh án Tịa án nhân dân tối cao Thơng tư Viện trưởng Viện kiểm sát nhân dân tối cao Thông tư Bộ trưởng, Thủ trưởng quan ngang Quyết định Tổng Kiểm toán Nhà nước 10 Nghị liên tịch Ủy ban thường vụ Quốc hội Chính phủ với quan trung ương tổ chức trị - xã hội 11 Thơng tư liên tịch Chánh án Tịa án nhân dân tối cao với Viện trưởng Viện kiểm sát nhân dân tối cao; Bộ trưởng, Thủ trưởng quan ngang với Chánh án Tòa án nhân dân tối cao, Viện trưởng Viện kiểm sát nhân dân tối cao; Bộ trưởng, Thủ trưởng quan ngang 12 12 Văn quy phạm pháp luật Hội đồng nhân dân, Ủy ban nhân dân.” Mỗi loại văn có cách thức trình bày khác nhau, quy cách nêu rõ Thông tư số 01/2011/TT-BNV “Hướng dẫn thể thức kỹ thuật trình bày văn hành chính” Trong luận văn khảo sát số loại văn Trong đó: (1) Tên quan, tổ chức chủ quản trực tiếp (nếu có) (2) Tên quan, tổ chức ban hành nghị (3) Chữ viết tắt tên quan, tổ chức ban hành nghị (4) Địa danh (5) Trích yếu nội dung nghị (6) Nội dung nghị (7) Chữ viết tắt tên đơn vị soạn thảo văn số lượng lưu (nếu cần) (8) Ký hiệu người đánh máy, nhân số lượng phát hành (nếu cần) Trong đó: (1) Tên quan, tổ chức chủ quản trực tiếp (nếu có) (2) Tên quan, tổ chức ban hành nghị (3) Chữ viết tắt tên quan, tổ chức ban hành nghị (4) Địa danh (5) Trích yếu nội dung nghị (6) Nội dung nghị (7) Chữ viết tắt tên đơn vị soạn thảo văn số lượng lưu (nếu cần) (8) Ký hiệu người đánh máy, nhân số lượng phát hành (nếu cần) Trong đó: 13 (1) Tên Bộ, quan ngang Bộ, Viện Kiểm sát nhân dân tối cao Toà án nhân dân tối cao (2) Năm ban hành (3) Chữ viết tắt tên Bộ, quan ngang Bộ, Viện Kiểm sát nhân dân tối cao Toà án nhân dân tối cao (4) Trích yếu nội dung thơng tư (5) Căn pháp lý để ban hành; mục đích (nếu có) phạm vi điều chỉnh thơng tư (6) Nội dung thông tư (7) Hoặc chức danh Thủ trưởng quan ngang Bộ, Viện trưởng (Viện Kiểm sát nhân dân tối cao) Chánh án (Toà án nhân dân tối cao); trường hợp cấp phó giao ký thay người đứng đầu quan ghi chữ viết tắt “KT” vào trước chức vụ người đứng đầu, bên ghi chức vụ người ký (8) Chữ viết tắt tên đơn vị soạn thảo chủ trì soạn thảo văn số lượng lưu (nếu cần) (9) Ký hiệu người đánh máy, nhân số lượng phát hành (nếu cần) Dựa vào mẫu văn giới thiệu, phần thấy loại văn khác có cấu trúc khác nhau, tùy theo loại văn mà có quy định khác cách bố cục ngôn từ sử dụng soạn thảo văn 3.2 Phân tích Kế thừa phát triển phát triển luận văn thạc sỹ “xây dựng hệ thống xác định mối quan hệ ngữ nghĩa văn pháp quy lĩnh vục giáo dục”[3] Chúng tơi tiếp tục phân tích phần văn với mong muốn phát mối ràng buộc ngữ nghĩa điều khoản có thay đổi rút trích từ phần đầu Đưa chi tiết thay đổi ảnh hưởng việc thay đổi có văn phân tích văn khác tồn 14 3.3 Khảo sát WordNet, phân tích xây dựng từ điển ngữ nghĩa WordNet sở liệu tri thức ngữ nghĩa từ vựng tiếng Anh Người ta xây dựng WordNet dựa lý thuyết ngôn ngữ tâm lý theo cách liên tưởng từ ngữ người Từ WordNet phân loại thành danh từ, động ừ, tính từ, trạng từ 3.3.1 Mơ hình Wordnet WordNet loại từ điển tương tự từ điển đồng nghĩa WordNet phân chia từ vựng thành loại: noun, verb, adjective, adverb funtion words, thực tế chứa noun, verb, adjective, adverb 3.3.2 Xây dựng từ điển ngữ nghĩa Trọng tâm WordNet ý niệm từ vựng hóa (ngữ nghĩa từ, tạm gọi gọi là: ý niệm từ vựng), WordNet quan tâm đến cách biểu diễn nghĩa (hay ý niệm) Chúng ta tìm hiểu phân tích số loại văn quy phạm pháp luật trình bày Để xây dựng từ điển thuật ngữ tiếng việt, trước hết tìm hiểu Wordnet 3.0, cách thức lưu trữ cho biễu diễn tính đa nghĩa biễu diễn mối quan hệ từ với 3.4 Thiết kế Quy trình trích chọn mối quan hệ ngữ nghĩa văn pháp quy Hình 3.1: Quy trình trí h họ m i qu h giữ v pháp quy 15 Các mối quan hệ phổ biến văn điều khoản văn bao gồm: quan hệ cứ, sửa đổi bổ sung, bãi bỏ phần, phần cuối thường chứa quan hệ bãi bỏ, thay 3.4.1 Phân loại văn Chúng tơi áp dụng thuật tốn Bayes để phân loại văn bản, trình phân loại gồm hai giai đoạn: huấn luyện phân loại Trước thực phân loại, phải qua bước tiền xử lý văn sau:  Chuyển văn dạng file text, bước áp dụng công cụ mã nguồn mã java pdfbox, POI để chuyển văn dạng doc, docx, pdf  Như phân tích trên, đặc trưng văn tập trung phần đầu phần cuối văn bản, bước lược bỏ phần giữa, giữ lại phần đầu phần cuối  Sử dụng vnTagger nhóm chúng tơi Lê Hồng Phương Nguyễn Thị Minh Tuyền để tách từ gán nhãn từ loại  Tìm vector đặc trưng cho văn 3.4.2 Phân tích cấu trúc văn Cấu trúc văn phân tích dựa phần phần cuối văn Mỗi văn tách theo Chương, Mục, Điều, Khoản; văn có phạm vi hẹp tách theo Điều Dựa vào tính Chương, Mục, Điều, Khoản (Chương I, Chương II ; Mục 1, Mục ; Điều 1, Điều 2; Khoản 1, Khoản ) luận văn tách văn bản, loại bỏ chương, mục, điều, khoản không tạo nên cấu trúc văn phân tích 3.4.3 Kiểm tra quan hệ Sau phát văn điều khoản bãi bỏ, bổ sung, thay thế, sửa đổi… Tìm kiếm văn có liên quan dựa vào số hiệu tìm kiếm văn phân tích Dựa vào từ điển ngữ nghĩa, kiểm tra thay đổi có cụm từ sữ dụng văn pháp quy khác khơng, từ xác 16 định mối quan hệ ngữ nghĩa điều khoản văn hay văn với 3.4.4 Ontology văn pháp quy Chúng tạo ontology (hình 3.2 hình 3.3) thể loại quan ban hành loại văn bản, mối quan hệ ban hành quan ban hành văn pháp quy Bảng 3.1: Danh sách loại văn quan ban hành tƣơng ứng với loại văn STT Loại văn Ký hiệu (Loại Cơ quan ban hành VB ) tƣơng ứng _LOAIVBL Quốc hội _CQBHQH Quốc hội, Ủy ban _CQBHQH, Thường vụ Quốc hội, _CQBHUBTVQH, Hội đồng thẩm phán _CQBHHĐTP Chính phủ _CQBHCP Chủ tịch nước, Thủ _CQBHCTN, Luật Nghị Nghị định Quyết định Thông tư _LOAIVBNQ _LOAIVBNĐ _LOAIVBQĐ _LOAIVBTT Ký hiệu (CQBH) tướng Chính phủ, Kiểm _CQBHTTg, toán Nhà nước _CQBHKTNN Bộ (thủ tưởng quan _CQBHBGDĐT (Tạm ngang bộ), Chánh án thời quan tâm tới Tòa án Nhân dân, Viện Bộ Giáo dục Đào kiểm sát tạo) Sau mơ hình ontology thể mối quan hệ quan ban hành, loại văn văn pháp quy: 17 Hình 3.2: O t gy v với qu pháp quy (qu h giữ v hà h ại v pháp quy ) Mỗi văn tuân theo cấu trúc tổng quát Chương, Mục, Điều, Khoản; ontology tổ chức để lưu trữ cấu trúc Mỗi Chương gồm nhiều Mục, Mục gồm nhiều Điều, Điều gồm nhiều Khoản Giữa văn điều khoản văn có mối quan hệ: văn bản, sửa đổi bổ sung văn bản, thay bãi bỏ phần văn bản, thay bãi bỏ toàn văn bản; sửa đổi bổ sung điều, thay bãi bỏ điều Luận văn xây dựng ontology để lưu lại mối quan hệ Hình 3.3: Mơ t O t gy v pháp quy 3.5 Cài đặt Hệ thống xác định mối quan hệ ngữ nghĩa văn pháp quy xây dựng dựa việc giải hai toán: phân loại văn (áp dụng thuật toán Bayes với đặc trưng văn pháp quy) rút trích thơng tin (dựa 18 tập luật thiết kế sở tính khn mẫu văn pháp quy, xác định quan hệ ngữ nghĩa dựa cấu trúc văn pháp quy từ điển ngữ nghĩa); hệ thống cài đặt java, sử dụng phần mềm mã nguồn mở pdfbox, POI, vnTagger Protégé, với giao diện gồm có:  Giao diện phân tích văn bản: người dùng chọn văn cần phân tích, văn tải lên máy chủ, thực bước phân loại văn bản, rút trích quan hệ văn  Hệ thống hỗ trợ chức tìm kiếm với nhiều tiêu chí khác với giao diện  Hệ thống hỗ trợ chức quản lý từ điển ngữ nghĩa với giao diện 19 CHƢƠNG - THỬ NGHIỆM VÀ ĐÁNH GIÁ Hệ thống pháp mối quan hệ ngữ nghĩa thực thể văn pháp quy kết hợp hai toán phân loại văn rút trích thơng tin kết hợp với từ điển ngữ nghĩa 4.1 Thử nghiệm Phần thử nghiệm thực với 200 văn bản, cho loại văn khác nhau: Luật, Nghị định, Nghị quyết, Quyết định, Thông tư lãnh vực giáo dục Hệ thống sử dụng thuật toán Naïve Bayes để cài đặt phân loại, kết thu sau: B Loại văn g 4.1: Kết qu phâ ại v Độ xác Độ phủ Luật 97,5% 97,5% Nghị định 97,44% 95% Nghị 97,5% 97,5% Quyết định 97.5% 97,5% Thông tư 97,5% 97,5% Các mối quan hệ văn pháp quy điều khoản mà luận văn quan tâm: cứ, bãi bỏ, bãi bỏ phần, sửa đổi bổ sung Kết rút trích mối quan hệ với 200 văn sở so sánh với thông tin website Bộ tư pháp sau: B g 4.2: Kết qu rút trí h m i qu h giữ v pháp quy Mối quan hệ Độ xác (giữa văn bản) Độ phủ (giữa văn bản) Độ xác (trên văn bản) Độ phủ (trên văn bản) Căn 98.33% 81.94% 97.8% 80% 20 Bãi bỏ/thay 94.74% 81.82% 95.64% 82.74% Sửa đổi bổ sung 100% 88.89% 98.93% 87.65% Bãi bỏ phần 98.33% 86.76% 97.32% 85.45% Sửa đổi điều 99.39% 82.32% 99.12% 81.37% Bãi bỏ điều 98.33% 86.76% 98.85% 85.23% 4.2 Đánh giá hệ thống Hệ thống chạy với độ xác 90%, số văn bị lỗi tả: thiếu dấu nháy kép, thiếu dấu chấm chuyển thành dạng text bị ký tự xuống dịng, làm ảnh hưởng tới kết rút trích thơng tin 4.3 Kết luận Với mục tiêu xây dựng hệ thống xác định mối quan hệ ngữ nghĩa văn pháp quy, xây dựng ontology văn pháp quy, luận văn tập trung nghiên cứu kỹ thuật rút trích phân loại văn bản, kỹ thuật rút thông tin Những kết đạt tiêu biểu sau:  Trang bị kiến thức phân loại văn bản, rút trích thơng tin  Nắm phương pháp xây dựng ontology web ngữ nghĩa  Đề xuất phương pháp rút trích mối quan hệ ngữ nghĩa văn pháp quy, xây dựng ontology văn pháp quy Xây dựng từ điển ngữ nghĩa làm nguồn ngữ liệu cho mục đích khác  Xây dựng website phân tích văn rút trích quan hệ văn pháp quy, cung cấp chức tìm kiếm theo nhiều tiêu chí khác nhau, hỗ trợ đắt lực cho người dùng tra cứu thông tin liên quan tới văn pháp quy Phát mối quan hệ ràng buộc văn chỉnh sửa văn 21 KẾT LUẬN VÀ KHUYẾN NGHỊ Kết luận văn Với mục tiêu xây dựng hệ thống phát mối quan hệ ngữ nghĩa văn pháp quy Luận văn xây dựng website chức  Quản lý từ điển ngữ nghĩa  Phân tích văn Hỗ trợ người dùng xác định mối quan hệ ngữ nghĩa hay nhiều văn pháp quy  Trích quan hệ ngữ nghĩa điều mục văn pháp quy  Cho phép người dùng tra cứu văn theo nhiều cách khác nhau, kết tìm kiếm thể mối quan hệ phát văn văn văn pháp quy Hƣớng phát triển Bài tốn rút trích thơng tin sử dụng phương pháp dựa tập luật có nhiều hạn chế mối quan hệ xuất dạng khác Văn khơng định dạng(sai tả, sai cấu trúc ) gây lỗi trình sử lý, khả chịu lỗi hệ thống chưa có Hệ thống xử lý chậm với văn có cấu trúc dài, nhiều chương mục Việc xác định quan hệ ngữ nghĩa cụm từ làm thủ cơng Xây dựng website hồn thiện xử dụng thực tế Tập trung vào kỹ thuật rút trích thơng tin khác linh hoạt hơn, góp phần nâng cao tính xác, cho hệ thống linh hoạt nhanh Trích chọn xác mối quan hệ ngữ nghĩa từ ngữ định nghĩa văn tự động ... mối quan hệ ngữ nghĩa hay nhiều văn pháp quy  Trích quan hệ ngữ nghĩa điều mục văn pháp quy  Cho phép người dùng tra cứu văn theo nhiều cách khác nhau, kết tìm kiếm thể mối quan hệ phát văn văn... dạng thực thể rút trích mối quan hệ thực thể 11 CHƢƠNG - XÂY DỰNG HỆ THỐNG XÁC ĐỊNH QUAN HỆ NGỮ NGHĨA GIỮA CÁC VĂN BẢN PHÁP QUY Dựa trình nghiên cứu lý thuyết, luận văn tiếp tục khảo sát thực. .. liên quan tới văn pháp quy Phát mối quan hệ ràng buộc văn chỉnh sửa văn 21 KẾT LUẬN VÀ KHUYẾN NGHỊ Kết luận văn Với mục tiêu xây dựng hệ thống phát mối quan hệ ngữ nghĩa văn pháp quy Luận văn

Ngày đăng: 18/12/2016, 00:08

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan