0

phan cum van ban tieng viet

Phân cụm văn bản tiếng việt bằng phương pháp k means

Phân cụm văn bản tiếng việt bằng phương pháp k means

Hệ thống thông tin

... k-means phụ thuộc nhiều vào tham số đầu vào như: số cụm k k trọng tâm khởi tạo ban đầu Trong trường hợp trọng tâm khởi tạo ban đầu mà lệch so với trọng tâm cụm tự nhiên Page 25 kết phân cụm k-means ... bình đối tượng liệu cụm Nó xem trung tâm cụm Như vậy, cần khởi tạo tập trung tâm trung tâm cụm ban đầu, thông qua lặp lại bước gồm gán đối Page 22 tượng tới cụm mà trung tâm gần, tính toán tung ... cho đối tượng Quá trình lặp dừng trung tâm hội tụ Hình: Các thiết lập để xác định ranh giới cụm ban đầu Trong phương pháp K-means, chọn giá trị k sau chọn ngẫu nhiên k trung tâm đối tượng liệu...
  • 40
  • 1,141
  • 6
Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt

Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt

Khoa học xã hội

... hạn treebank tiếng Anh chọn báo Wall Street Journal, treebank tiếng Trung chọn báo XinHua Thực gán nhãn Với tiếng Việt, treebank nghiên cứu xây dựng khuôn khổ đề tài VLSP có tên vietreebank Mục ... dựng treebank cho tiếng Việt 3.2 Nội dung quy trình dựng kho ngữ liệu có giải cú pháp (treebank) Kho ngữ liệu (treebank) ngân hàng câu giải cấu trúc ngữ pháp Quy trình xây dựng treebank thường ... xây dựng khuôn khổ đề tài VLSP có tên vietreebank Mục tiêu vietreebank xây dựng lược đồ giải thích cú pháp 10.000 câu Tập nhãn vietreebank thiết kế gồm có: • Tập nhãn từ loại Về nguyên tắc, thông...
  • 43
  • 1,354
  • 13
Một cách tiếp cận trong phân tích văn bản tiếng Việt. doc

Một cách tiếp cận trong phân tích văn bản tiếng Việt. doc

Hóa học - Dầu khí

... sanh cac t ir van ban va t ir die'n [6], VO'i tieng Viet , cluing ta co BKED, VIETRES dua tren lu~t cau t ao am tiet cua tieng Vi~t de' tlrn cac chir khOng phai la am tiet tieng Vi~t, VIET BIT su: ... trlnh phan tich cll phap, Hinh ve du'ai day se cho ta thay bu:c tranh ve qua trlnh xac dinh t5 hq-p tir dung ctl.a m ABGDE Phan lai (tail) se dtroc quan ly thOng qua bien expect (di kern theo m6i phan tti' cua bang] Tai hrct phan tich sau cua bang phan tich,...
  • 10
  • 927
  • 1
XÂY DỰNG hệ THỐNG PHÂN LOẠI văn bản TIẾNG VIỆT sử DỤNG PHƯƠNG PHÁP máy véc tơ hỗ TRỢ kết hợp các PHƯƠNG PHÁP tối ưu KÍCH THƯỚC dữ LIỆU

XÂY DỰNG hệ THỐNG PHÂN LOẠI văn bản TIẾNG VIỆT sử DỤNG PHƯƠNG PHÁP máy véc tơ hỗ TRỢ kết hợp các PHƯƠNG PHÁP tối ưu KÍCH THƯỚC dữ LIỆU

Hệ thống thông tin

... biểu diễn phương pháp tần suất là: D = (0,0,1,1,1,1) 2.4 Mô hình nghịch đảo tần số văn (Inverse Document Frequency - IDF) Trong phương pháp này, giá trị wij tính theo công thức sau: m  log h = ... loại văn Quy trình toán phân loại văn dựa kỹ thuật học máy biểu diễn qua bước sau: - Từ tập liệu ban đâu, chuẩn bị tập liệu huấn luyện (Training Data) tập liệu kiểm tra (Test Data) - Tách từ văn ... mong muốn đánh giá hiệu phân loại chúng Bởi vậy, trước xây dựng phân loại người ta chia tập văn ban 15 đầu thành tập hợp, số văn hai tập hợp không thiết phải nhau: - Tập huấn luyện (training (-and-validation)...
  • 72
  • 1,758
  • 15
Báo cáo nghiên cứu khoa học:

Báo cáo nghiên cứu khoa học: "NGHIÊN CỨU ỨNG DỤNG TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP VÀO BÀI TOÁN PHÂN LOẠI VĂN BẢN TIẾNG VIỆT CÓ XEM XÉT NGỮ NGHĨA" pdf

Báo cáo khoa học

... ASSOCIATION RULES TO SEMANTIC VIETNAMESE DOCUMENT CLASSIFICATION Do Phuc Center of Information Technology Development, VNU-HCM ABSTRACT: Today, the volume of electronic documents in the Internet is ... Diệp Quang Ban, Hoàng Văn Thung (2000), Ngữ pháp tiếng Việt, NXB Giáo dục Trang 31 Science & Technology Development, Vol 9, No.2 - 2006 [5] Dinh Dien, Nguyen Van Toan, Hoang Kiem (2001), Vietnamese ... association rules to the document classification problem We have applied these algorithms in i) Using the frequent sets and association rules for generating the document feature vectors, and...
  • 10
  • 598
  • 1
phân loại văn bản tiếng việt sử dụng phương pháp máy hỗ trợ vector (support vector machine – svms)

phân loại văn bản tiếng việt sử dụng phương pháp máy hỗ trợ vector (support vector machine – svms)

Ngân hàng - Tín dụng

... liệu Vietnamnet 51 Bảng 4-2: Kết thực nghiệm liệu VnExpress 52 Bảng 4-3: Kết thực nghiệm trích chọn tập đặc trưng báoVietnamnet 55 Bảng 4-4: Kết thực nghiệm phân loại đa lớp liệu báo Vietnamnet ... (báo Vietnamnet, VnExpress, Hanoimoi, Laodong) 58 ix KÍ HIỆU CÁC CỤM TỪ VIẾT TẮT CSDL: Database Cơ sở liệu DM: Data Mining ML: Machine Learning Khai phá liệu Học máy IDF: Inverse Document ... chức kiểm tra hiệu SVMs 49 Hình 4-4: Biểu đồ biến thiên thời gian phân tách từ tập liệu báo Vietnamnet 51 Hình 4-5: Biểu đồ biến thiên thời gian phân tách từ tập liệu báo VnExpress 52 viii...
  • 79
  • 650
  • 1
XÂY DỰNG THỬ NGHIỆM TẬP MẪU VÀ PHẦN MỀM PHÂN TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT

XÂY DỰNG THỬ NGHIỆM TẬP MẪU VÀ PHẦN MỀM PHÂN TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT

Hệ thống thông tin

... be of the thesis is the construction vietnamese text collection to assay be with the number of the texts and many the subclassings Construct a automatic vietnamese text categorization software ... sau biu din cú th khụi phc li theo cõu trỳc ban u ), v phng phỏp phõn loi bn khụng th khụi phc c ( bn sau biu din khụng th khụi phc li c cu trỳc nhu ban u ) Trong phn ny s trỡnh by v mt s phng ... sai sút Tp bn mu RCV1 theo nhúm nghiờn cu ca Giỏo s Lewis cú mt s im hn ch sau: ớt document, thiu full document text, cú s mõu thun hoc cha hon thin nhim v phõn lp v gp nhiu hn ch v kh nng Nhng...
  • 96
  • 992
  • 5
Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt

Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt

Hệ thống thông tin

... programming) 34 toỏn di truy n (Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese - IGATEC) 34 3.4 So sỏnh cỏc ph 3.5 K t lu n 37 Ch ng ng ... Internet v thu t toỏn di truy n (Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese - IGATEC) 3.3.5.1 N i dung Ph ng phỏp IGATEC H.Nguy n et al (2005) gi i thi u l ... h tr n m t ph ng quy t nh l Khi cỏc i m w khỏc b xúa i thỡ thu t toỏn v n cho k t qu gi ng nh ban u Chớnh c i m ny lm cho SVM khỏc v i cỏc thu t toỏn khỏc nh kNN,LLSF, NNet v NB vỡ t t c d li...
  • 132
  • 560
  • 2
Đồ án tốt nghiệp - Phân loại văn bản tiếng Việt với giải thuật K-NN

Đồ án tốt nghiệp - Phân loại văn bản tiếng Việt với giải thuật K-NN

Lập trình

... ra, t thut ng ban u T tp, mụt T ca cỏc thut ng tng hp, cho hiu qu thu c l ln nht Lý s dng cỏc thut ng tng hp l, tớnh nhiu ngha, ng ngha hin tng ng õm ca cỏc thut ng, nờn cỏc thut ng ban u cú th ... K-NN gian cú s chiu thp hn, cỏc chiu ca nú t c nh l s kt hp cỏc chiu ban u bng cỏch xem xột cỏc mu ca chỳng Hm ỏnh x cỏc vector ban u thnh cỏc vector mi t c bng cỏch ỏp dng phõn tớch mt giỏ tr n ... qu ca chỳng Bi vy, trc xõy dng phõn loi ca chỳng Bi vy, trc xõy dng phõn loi ngi ta chia d liu ban u thnh hp - Tp hun luyn (training (- and- validation) set) Tr = {d , , d TV } Phõn lp cho cỏc...
  • 71
  • 1,042
  • 5
Báo cáo hệ chuyên giaxử lý ngôn ngữ tự nhiên và phân tích văn bản tiếng việt

Báo cáo hệ chuyên giaxử lý ngôn ngữ tự nhiên và phân tích văn bản tiếng việt

Hệ thống thông tin

... Phương, 2009] JvnTagger [Phan Xuân Hiếu, VLSP, 2009] xây dựng theo phương pháp học máy thống kê (Maxmimum Entropy Conditional Rundom Fields), sử dụng ngữ liệu mẫu Vietreebank [Nguyễn Phương Thái, ... xây dựng khuôn khổ đề tài cấp nhà nước VLSP với liệu huấn luyện khoảng 10.000 câu 20,000 câu Viet Treebank Thử nghiệm với phương pháp 5-fold cross validation VTB-10,000 cho thấy kết gán nhãn với ... với CRFs Maximum Entropy 3.2.5.1 Kết gán nhãn từ loại với CRFs Maxent tập VTB-10.000 Dữ liệu VietTreebank gồm 10,000 câu chia thành folds Đánh giá gán nhãn từ loại với CRFs Maximum Entropy với...
  • 32
  • 750
  • 3
Đồ Án Nghiên Cứu Phân Loại Văn Bản Tiếng Việt

Đồ Án Nghiên Cứu Phân Loại Văn Bản Tiếng Việt

Lập trình

... Internet and Genetics Algorithm-based Text Categorization for Document in Vietnamese , 2005 [7] Le An Ha : A method for word segmentation Vietnamese , 2003 [8] R Shepard , P Arabie : Clustering : ... thuật giải di truyền – IGATEC (Internet and Genetics Algorithm based Text Categorization for Documents in Vietnamese) H Nguyễn đề xuất năm 2005 hướng tiếp cận tách từ với mục đích phân loại văn mà ... thể ban đầu gần với điểm hội tụ giúp giảm bớt số hệ tiến hóa d Khởi tạo cá thể phương pháp Maximum Matching : Forward / Backward Phương pháp có độ xác cao nên sử dụng để khởi tạo cá thể ban...
  • 39
  • 548
  • 0
Khảo sát giá trị liên kết và ngữ nghĩa của các từ nối theo phạm trù tương phản trong văn bản tiếng Việt (Trên cơ sở dữ liệu truyện ngắn của ba tác giả Nam Cao, Nguyễn Huy Thiệp, Nguyễn Ngọc Tư)

Khảo sát giá trị liên kết và ngữ nghĩa của các từ nối theo phạm trù tương phản trong văn bản tiếng Việt (Trên cơ sở dữ liệu truyện ngắn của ba tác giả Nam Cao, Nguyễn Huy Thiệp, Nguyễn Ngọc Tư)

Văn học - Ngôn ngữ học

... tác giả đại diện cho hƣớng nghiên cứu Diệp Quang Ban, Hồ Lê, Hoàng Trọng Phiến, Nguyễn Kim Thản,… Trong số định nghĩa câu, đáng ý định nghĩa Uỷ ban Khoa học xã hội: “Câu đơn vị dùng từ hay hơn, ... Anh” (1976), 16 đƣợc Diệp Quang Ban khai thác công trình nghiên cứu “Văn liên kết tiếng Việt” [2] Cụ thể định nghĩa liên kết hai tác giả Trần Ngọc Thêm Diệp Quang Ban nhƣ sau: Trần Ngọc Thêm cho ... Halliday, D.Crystal , D.Nunan,… Ở Việt Nam có nhiều nhà nghiên cứu nhƣ Trần Ngọc Thêm, Diệp Quang Ban, Nguyễn Thị Việt Thanh, Phạm Văn Tình,… Mỗi nhà nghiên cứu lại có quan niệm, cách hiểu khác...
  • 209
  • 611
  • 2
phân lớp văn bản tiếng việt theo hướng tiếp cận lexical chain

phân lớp văn bản tiếng việt theo hướng tiếp cận lexical chain

Cao đẳng - Đại học

... sang dạng sở tri thức luật Nếu Thì ƒ Nhược điểm: ƒ Cây thu thưòng phức tạp, phù hợp với tập mẫu ban đầu ƒ Khi áp dụng với liệu gây sai số lớn Thuật toán Lexical Chain ƒ Bước 1: Đọc từ w văn ƒ ... Các văn phù hợp (có kèm chủ đề) Thiết kế liệu ¾Từ điển Tiếng Việt (nguồn: trung tâm từ điển học Vietlex): cá quả composite word ... nhanh Thiết kế liệu ¾Cây phân cấp nghĩa (nguồn: trung tâm từ điển học Vietlex): Organization Root/ConcreteThing/LivingThing/People/Organization Giao diện ƒ Lưu Lexical...
  • 6
  • 253
  • 0
Nghiên cứu bài toán phân lớp văn bản tiếng Việt

Nghiên cứu bài toán phân lớp văn bản tiếng Việt

Lập trình

... ngụn ng C+ + Hn th na, ngụn ng C# h tr kiu XML, cho phộp chốn cỏc tag XML phỏt sinh t ng cỏc document cho lp C# cng h tr giao din Interface, nú c xem nh mt cam kt vi mt lp cho nhng dch v m giao ... n ny c m rng bi tớnh a k tha nhiu giao din 21 CHNG Gii thiu v phõn lp bn 2.1 Mt sụ khai niờm c ban Trc ht chỳng ta tỡm hiu mt cỏch s lc cỏc thut ng v khỏi nim c trỡnh by ỏn ny T khoỏ, thut ng ... nhc im ca phng phỏp TF, ú l phng phỏp IDF b Phng phỏp da trờn nghch o tn sut bn (IDF Inverse Document Frequency) Trong phng phỏp ny, giỏ tr wij c tớnh theo cụng thc sau: m log = log(m) log(hi...
  • 69
  • 494
  • 2
Hướng tiếp cận mới trong việc tách từ để phân loại văn bản tiếng việt sử dụng giải thuật di truyền và thống kê trên internet

Hướng tiếp cận mới trong việc tách từ để phân loại văn bản tiếng việt sử dụng giải thuật di truyền và thống kê trên internet

Kĩ thuật Viễn thông

... 2005, p.21 [5] Dinh Dien, Từ tiếng Việt, University, HCMC, Vietnam, 2000 Vietnam National [6] Dinh Dien, Hoang Kiem, Nguyen Van Toan, Vietnamese Word Segmentation, The Sixth Natural Language Processing ... Text Categorization for Documents in Vietnamese, Research, Innovation and Vision of the Future, the 3rd International Conference in Computer Science, (RIVF 2005), Can Tho, Vietnam, 2005 [16] Yiming ... Vector Machines: Learning with Many Relevant Features, European Conferences on Machine Learning (ECML’98), 1998 [9] Le An Ha, A method for word segmentation in Vietnamese, Proceedings of Corpus Linguistics...
  • 8
  • 603
  • 2
Nghiên cứu lý thuyết Naive Bayes và ứng dụng trong phân loại văn bản tiếng Việt

Nghiên cứu lý thuyết Naive Bayes và ứng dụng trong phân loại văn bản tiếng Việt

Thạc sĩ - Cao học

... Là cách tìm tập hợp biến ban đầu (còn gọi tính thuộc tính) Trong số trƣờng hợp, phân tích liệu nhƣ hồi quy phân loại đƣợc thực không gian đƣợc giảm chiều xác không gian ban đầu Số hóa Trung tâm ... (Singular Value Decomposition) Nhƣ LSI/SVD ngắt mối quan hệ ban đầu liệu đƣa vào thành phần độc lập tuyến tính Các véc tơ thuật ngữ ban đầu đƣợc biểu diễn véc tơ đơn bên trái véc tơ tài liệu véc ... support véc tơ) mà có khoảng cách đến là:  Khi điểm khác bị xóa không ảnh hƣởng đến kết || w || ban đầu 1.2 Các nghiên cứu liên quan Các nghiên cứu phân loại văn tập trung vào việc áp dụng phƣơng...
  • 70
  • 768
  • 2

Xem thêm