phân cụm từ đồng nghĩa

39 914 0
phân cụm từ đồng nghĩa

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1     !"#  $%&'( )*+,!  /01234567 89:;: 2 3     !"#  $%&'( )*+,!  /01234567 <=>?-@A/BC-D5E>F-G 89:;: H4I6 Tự động xây dựng và phân cụm từ đồng nghĩa là một vấn đề có ý nghĩa quan trọng trong nghiên cứu và ứng dụng. Đã có nhiều nghiên cứu về vấn đề này cho các ngôn ngữ như tiếng Anh, Trung, v.v Tuy nhiên với tiếng Việt thì đây là vấn đề mới. Hai từ đồng nghĩa với nhau thường xuất hiện trong các ngữ cảnh giống nhau. Mức độ giống nhau về ý nghĩa của các từ được xác định bằng một độ đo tương tự như độ đo thông tin tương hỗ trong lý thuyết thông tin (Lin, 1998). Chúng tôi áp dụng phương pháp này trên kho ngữ liệu khoảng 15 triệu từ (tương ứng với khoảng 700, 000 câu) lấy từ ba báo điện tử khác nhau. Kho ngữ liệu này đã được phân tích cú pháp tự động bằng công cụ phân tích cú pháp tiếng Việt mới nhất. Kết quả thu được là khả quan với độ chính xác (precision) xấp xỉ 50%. Việc đánh giá được thực hiện bán tự động, tức là sử dụng từ điển tiếng Việt cho máy tính kết hợp với người đánh giá. JKH1/ từ đồng nghĩa, phân tích cú pháp, quan hệ ngữ pháp, kho ngữ liệu (corpus), kho ngữ liệu được chú giải cú pháp (treebank). 4 %L3L3 5 >F-;/G?G6GMDC Mục tiêu chúng tôi nghiên cứu là xây dựng từ điển đồng nghĩa, trái nghĩa một cách bán tự động. Từ điển được xây dựng một cách bán tự động sẽ mang lại nhiều thuận lợi hơn so với việc xây dựng những bộ từ điển đồng nghĩa, trái nghĩa theo phương pháp thủ công bởi vì xây dựng theo phương pháp thủ công phụ thuộc rất nhiều vào kinh nghiệm của người xây dựng và cả kho ngữ liệu mà họ sử dụng. Thông thường từ điển đồng nghĩa, trái nghĩa thông dụng phải bao gồm các từ tương đương về ngữ nghĩa mà có thể rất ít khi xuất hiện trong kho ngữ liệu riêng biệt hoặc một loại dữ liệu chuyên ngành. Một ứng dụng khác trong việc tự động trích ra các từ đồng nghĩa là giúp giải quyết vấn đề dữ liệu thưa trong xử lý ngôn ngữ tự nhiên bằng phương pháp thống kê. Khi tần xuất xuất hiện của một từ không thể xác định chính xác thông qua văn cảnh ta có thể tính xấp xỉ giá trị tần xuất đó thông qua tần xuất xuất hiện của các từ tương đương. Nghĩa của từ có quan hệ chặt chẽ với văn cảnh mà chúng xuất hiện trong đó. Những từ có nghĩa tương tự nhau thường xuất hiện trong những văn cảnh giống nhau. Dựa trên tính chất này mà nhiều phương pháp xác định từ đồng nghĩa và phân cụm từ đã được nghiên cứu. Quá trình phát hiện từ đồng nghĩa trong kho ngữ liệu tiếng Việt bao gồm các bước: - Thu thập dữ liệu tiếng Việt dưới dạng văn bản. - Tách câu và tách từ cho văn bản. - Phân tích cú pháp cho các câu trong văn bản. - Trích rút các bộ ba từ những câu được phân tích. - Từ tập dữ liệu sau khi làm mịn là các bộ ba áp dụng phương pháp thống kê để đưa ra danh sách các từ tương đồng về nghĩa. Cấu trúc của báo cáo này như sau: Đầu tiên chúng tôi xin trình bày một số kiến thức ngôn ngữ học cơ bản liên quan đến từ tiếng Việt như: nghĩa của từ trong văn bản, việc nhận diện và phân loại từ tiếng Việt, văn cảnh và việc phân tích ngữ nghĩa, hiện tượng đa nghĩa, hiện tượng đồng âm, hiện tượng đồng nghĩa, hiện tượng trái nghĩa, v.v Phần tiếp theo chúng tôi xin trình bày về phương pháp của Dekang Lin sử dụng để tính độ tương tự về nghĩa của các cặp từ trong văn bản tiếng Anh. Sau đó chúng tôi sẽ trình bày về quá trình phân tích và áp dụng cho bài toán trong tiếng Việt, đưa ra kết - 6 - quả khi sử dụng mô hình của Dekang Lin trong tiếng Việt khi phân tích tìm ra danh sách các từ tương tự về nghĩa từ tập dữ liệu thô ban đầu là các văn bản, các đánh giá liên quan đến kết quả của chương trình như khả năng đoán nhận từ đồng nghĩa, tính chính xác của chương trình, một số ý kiến nhận xét của nhóm nghiên cứu và đề ra những dự kiến cho công việc trong tương lai. Cuối cùng, Chúng tôi xin nêu ra một ứng dụng về việc sử dụng từ đồng nghĩa để tính độ tương tự giữa 2 văn bản với nhau. - 7 - >F-9/J6GN-#GM6 9C;CO@GMP.QRS0TG33UFPV6JPW-6GN-#GM6 9C;C;CV-X1/ Từ là đơn vị nhỏ nhất có nghĩa, có kết cấu vỏ ngữ âm bền vững, hoàn chỉnh, có chức năng gọi tên, được vận dụng độc lập, tái hiện tự do trong lời nói để tạo câu. Ví dụ: ngôi nhà, dòng sông, rừng, núi. 9C;C9C>F-6Y33ZD6T0/ Từ tiếng Việt được cấu tạo từ một hay nhiều âm tiết, những từ có cấu tạo từ một âm tiết được gọi là từ đơn (đơn âm tiết), những từ có cấu tạo từ hai âm tiết trở lên được gọi là từ ghép (đa âm tiết). Từ đơn: nhà, cửa, sông, suối. Từ ghép: đồng hồ, máy bay, máy tính. 9C;C[CRS0TG6J-\Q: Dựa vào mối quan hệ về nghĩa giữa các thành tố cấu tạo, có thể phân loại từ ghép tiếng Việt thành hai loại là từ ghép đẳng lập và từ ghép chính phụ. 9C;C[C;CJ-\QU]-SOQ/ là những từ mà các thành tố cấu tạo có quan hệ bình đẳng với nhau về nghĩa. Ở đây, có thể lưu ý tới hai khả năng. Thứ nhất, các thành tố cấu tạo trong từ đều rõ nghĩa. Khi dùng mỗi thành tố như vậy để cấu tạo từ đơn thì nghĩa của từ đơn và nghĩa của các thành tố này không trùng nhau. Thứ hai, một thành tố rõ nghĩa tổ hợp với thành tố không rõ nghĩa. Trong hầu hết các trường hợp, những yếu tố không rõ nghĩa này vốn rõ nghĩa nhưng bị bào mòn dần đi ở các mức độ khác nhau. Bằng con đường tìm tòi từ nguyên và lịch sử, người ta thường xác định được nghĩa của chúng. Ví dụ: chợ búa, bếp núc, đường xá, sầu muộn, gà qué, xe cộ, v.v 9C;C[C9CJ-\Q37QL/ là những từ ghép mà có thành tố cấu tạo này phụ thuộc vào thành tố cấu tạo kia, đều được gọi là từ ghép chính phụ. Thành tố phụ có vai trò phân loại, chuyên biệt hoá và sắc thái hoá cho thành tố chính. Ví dụ: tàu hoả, đường sắt, sân bay, hàng không, nông sản, cà chua, đỏ rực, ngay thẳng, thẳng tắp, v.v Từ ghép đẳng lập biểu thị ý nghĩa khái quát và tổng hợp. Đây là một trong những điểm làm cho nó khác với từ ghép chính phụ. - 8 - 9C;C[C[CJS5/ Phương thức tổ hợp các tiếng trên cơ sở hoà phối ngữ âm cho ta các từ láy. Từ láy tiếng Việt có độ dài tối thiểu là hai tiếng, tối đa là bốn tiếng và còn có loại ba tiếng. Tuy nhiên, loại đầu tiên là loại tiêu biểu nhất cho từ láy và phương thức láy của tiếng Việt. Một từ sẽ được coi là từ láy khi các yếu tố cấu tạo nên chúng có thành phần ngữ âm được lặp lại, nhưng vừa có lặp (còn gọi là điệp) vừa có biến đổi (còn gọi là đối). Ví dụ: đỏ đắn: điệp ở âm đầu, đối ở phần vần. Vì thế, nếu chỉ có điệp mà không có đối (chẳng hạn như: người người, nhà nhà, ngành ngành, v.v thì ta có dạng láy của từ chứ không phải là từ láy. Ví dụ: đo đỏ, xinh xắn, vi vu, xào xạc, v.v 9C;C[C^CJ-AD_Q/ là lớp từ mà người bản ngữ hiện nay không thấy giữa các thành tố cấu tạo của chúng có quan hệ gì về ngữ âm hoặc ngữ nghĩa. Vì vậy, từ góc độ phân loại, cần tách chúng ra với ngụ ý: các tiếng tổ hợp với nhau ở đây một cách ngẫu nhiên. Lớp từ này có thể bao gồm: - Những từ gốc thuần Việt: bồ câu, bồ hòn, bồ nông, mồ hóng, mồ hôi, kì nhông, cà nhắc, mặc cả, v.v - Những từ vay mượn gốc Hán (Hán Việt): mâu thuẫn, hi sinh, trường hợp, kinh tế, kinh tế, câu lạc bộ, mì chính, tài xế, vằn thắn, v.v - Những từ vay mượn gốc Ấn-Âu: a-xít, mit tinh, sơ mi, tùng bê, mùi xoa, xà phòng, cao su, ca cao, hắc ín, sô-cô-la, v.v Bộ phận từ này trong những năm gần đây có xu hướng gia tăng do các mối quan hệ quốc tế mở rộng, tạo điều kiện cho sự tiếp xúc, vay mượn và du nhập từ ngữ, nhất là trong lĩnh vực thông tin, khoa học và kĩ thuật. 9C;C^C`GN6a3b16J/ Trong khi được sử dụng, một số từ tiếng Việt có thể có biến đổi về cấu trúc. Tuy nhiên, đó không phải là những biến đổi theo nguyên tắc hình thái học. Có nghĩa rằng, những biến đổi ấy không thường xuyên ở tất cả mọi từ. Chúng chỉ xảy ra ở một số từ trong một số trường hợp sử dụng và chúng có những dạng biến đổi như sau: - Biến một từ có cấu trúc lớn, phức tạp hơn sang cấu trúc nhỏ, đơn giản hơn. Thực chất đây là sự rút gọn một từ dài thành từ ngắn hơn. Ví dụ: ki-lô-gam → ki lô/ kí lô, (ông) tú tài → (ông) tú. - Phá vỡ cấu trúc của từ, phân bố lại yếu tố cấu tạo từ và thêm những yếu tố khác. - 9 - Ví dụ: khổ sở → lo khổ lo sở, ngặt nghẽo → cười ngặt cười nghẽo. Vấn đề đầu tiên chúng ta gặp phải đó là làm thế nào để tách các từ trong một văn bản thành các từ riêng biệt để có thể tiến hành mô hình hóa bài toán. Để tách các từ chúng ta có thể sử dụng một số mô hình như Ngram, v.v để huấn luyện máy tính có thể học và phân loại như thế nào là một từ, như thế nào là một ngữ để có thể tách từ văn bản thuần túy ra các từ riêng biệt phục vụ mô hình hóa bài toán. 9C9C#c3dP.PGM3QR673-e-X1 Văn cảnh là những từ bao quanh, hay đi kèm một từ, tạo cho nó tính xác định về nghĩa. Chẳng hạn từ xuân có nghĩa khác nhau trong những văn cảnh sau: Xuân nay là xuân năm thìn (Hồ Chí Minh) Xuân này kháng chiến đã năm xuân. (Hồ Chí Minh) Sáu mươi tuổi hãy còn xuân chán So với ông Bành vẫn thiếu niên (Hồ Chí Minh) Trong câu đầu xuân chỉ mùa đầu tiên trong một năm, trong câu thứ hai, từ xuân thứ nhất vẫn chỉ mùa như trên, nhưng từ xuân thứ hai có nghĩa là năm. Còn từ xuân thứ ba lại có nghĩa là trẻ. Chính những từ ngữ đi kèm theo các từ xuân đã giúp chúng ta phân biệt được các nghĩa như vậy. Nói đến văn cảnh chúng ta cần phân biệt một văn cảnh lớn và văn cảnh nhỏ không vượt ra khỏi phạm vi một câu. Cũng cần phân biệt văn cảnh hẹp và văn cảnh rộng, trong đó văn cảnh hẹp là những kết hợp tối thiểu nào đó xác định nghĩa của từ. Nếu văn cảnh hẹp chưa xác định được ý nghĩa của từ thì chuyển sang văn cảnh rộng. Có nhiều khi văn cảnh là cả một câu cũng chưa thể xác định được nghĩa của từ. Chẳng hạn câu “tôi thử thách anh”, thử thách có thể được hiểu theo hai cách: thử thách với nghĩa là “kiểm nghiệm tài trí, đạo đức, phẩm chất của người, sự vật nào đó” và thử thách là một cụm từ, trong đó, thách là động từ với nghĩa “đố, thách thức”. Trong những trường hợp như vậy, cần phải sử dụng đến ngữ cảnh hay hoàn cảnh sử dụng để tìm ra được nghĩa chính xác của từ. - 10 - [...]... thái 15 U Từ đơn lẻ 16 Y Từ viết tắt 17 X Các từ không phân loại được Khi gán nhãn, nhãn từ viết tắt sẽ là nhãn kép Chẳng hạn nếu từ viết tắt là HIV thì nhãn của nó là Ny vì HIV viết đầy đủ là danh từ Nhãn cụm từ: ST T Tên Chú thích 1 NP Cụm danh từ 2 VP Cụm động từ 3 AP Cụm tính từ 4 RP Cụm phụ từ 5 PP Cụm giới từ 6 QP Cụm từ chỉ số lượng 7 MDP Cụm từ tình thái 8 UCP Cụm từ gồm hai hay nhiều thành... tách từ: Học trò là tác phẩm của tôi Sau khi tách từ: Học_trò là tác_phẩm của tôi 4.1.2 Tập nhãn được sử dụng phân tích cú pháp Nhãn từ loại: STT Tên Chú thích 1 N Danh từ 2 Np Danh từ riêng 3 Nc Danh từ chỉ loại 4 Nu Danh từ đơn vị 5 V Động từ 6 A Tính từ 7 P Đại từ 8 L Định từ (lượng từ) 9 M Số từ 10 R Phụ từ - 24 - 11 E Giới từ 12 C Liên từ 13 I Thán từ 14 T Trợ từ, tiểu từ, từ tình thái 15 U Từ. .. ý nghĩa khác nhau Các ý nghĩa có thể có như: i) di chuyển đến một địa điểm mới, ii) đã chết, iii) thất bại trong một việc gì đó, v.v 2.3.2 Hiện tượng đồng âm: là hiện tượng những từ phát âm giống nhau hay cách phát âm giống nhau, nhưng nghĩa hoàn toàn khác nhau Từ đồng âm xuất hiện nhiều trong tiếng Hán, tiếng Việt Từ đồng âm rất dễ bị nhầm với từ nhiều nghĩa vì từ nhiều nghĩa cũng là từ có các nghĩa. .. Các từ đối lập nhưng biểu hiện các khái niệm không tương liên thì không phải là các từ trái nghĩa Từ trái nghĩa tiếng Việt thường gắn liền với tính cân xứng, nghĩa là dung lượng ngữ nghĩa của các từ trái nghĩa phải tương đương với nhau trong khi hướng theo các chiều khác nhau Cũng giống như hiện tượng đồng nghĩa, thực chất của trái nghĩa là so sánh các nghĩa chứ không không phải các từ nói chung Các từ. .. Trong đó: - Số lượng từ được đánh giá TRUE(1): 21 từ - Số lượng từ được đánh giá TRUE(2): 41 từ - Số lượng từ được đánh giá TRUE(3): 17 từ - Số lượng từ được đánh giá TRUE(4): 17 từ - Số lượng từ được đánh giá TRUE(5): 144 từ (Chú ý: trong 1 từ có thể có nhiều từ được đưa ra có nghĩa tương tự là đúng) Số lượng các từ được đánh giá thêm (kiểm tra bỏ sót): 43 từ Precision = - 36 - ... từ, 2173 động từ và 2632 tính từ, trạng từ xuất hiện ít nhất 100 lần Qua bộ ngữ liệu được sử lý như trên Lin tính ra sự tương tự giữa tất cả các cặp đôi danh từ, động từ, tính từ và trạng từ bằng cách sử dụng công thức tính độ tương tự như đã đề cập ở trên Với mỗi từ, DeKang Lin đưa ra một danh mục các từ được cho là có nghĩa gần giống nó nhất để có thể tạo ra một mục lục từ điển đồng nghĩa Ngoài cách... tiếng Việt sử dụng để phân loại và tách các từ đồng nghĩa trái nghĩa Các công việc liên quan đến việc giải quyết bài toán bao gồm việc tách các từ trong văn bản thành các từ ngữ Sau đó đưa ra mẫu phân tích cú pháp cho từng câu qua đó ta có thể tách ra thành các bộ ba để áp dụng phương pháp tính của DeKang Lin Quy trình thực hiện Chúng ta có thể mô hình hóa bài toán phân tích từ đồng nghĩa trong tiếng Việt... nhất các từ trên cơ sở những đặc điểm chung nhất về ý nghĩa của chúng 2.3 Một số hiện tượng trong tiếng Việt 2.3.1 Hiện tượng đa nghĩa: Từ đa nghĩa (cách gọi khác từ nhiều nghĩa) là những từ có một số nghĩa biểu thị những đặc điểm, thuộc tính khác nhau của một đối tượng, hoặc biểu thị những đối tượng khác nhau của thực tại Hiện tượng từ đa nghĩa tồn tại ở hầu hết các ngôn ngữ trên thế giới Từ đa nghĩa. .. nghĩa khác từ đồng âm ở chỗ các từ đa nghĩa thường có một nét nghĩa chung hay nói cách khác chúng có cùng một nguồn gốc, sau đó mới chia tách ra như hiện tại Từ đa nghĩa là một trong các nguyên nhân gây nhập nhằng trong xử lý ngôn ngữ tự nhiên Để xác định chính xác nghĩa của một từ đa nghĩa phải thực hiện phân tích ngữ cảnh Ví dụ: trong câu “Anh ấy đi rồi” thì tùy từng văn cảnh cụ thể mà từ “đi” có... tượng: nhạc – rock, pop 4- Quan hệ nghĩa trừu tượng – nghĩa cụ thể: ngược lại với 3 5- Tương tự về nghĩa: không thuộc các loại (1), (2), (3) và (4) và được coi là đồng nghĩa yếu Từ từ điển ta chỉ lấy được các cặp từ thuộc quan hệ (1) hoặc (2) Với mỗi từ w ta xét n từ có nghĩa tương tự gần với nó nhất Nếu một trong n từ này thỏa mãn được một trong năm loại đánh giá trên thì từ đó được coi là đúng Công thức . dựng từ điển đồng nghĩa, trái nghĩa một cách bán tự động. Từ điển được xây dựng một cách bán tự động sẽ mang lại nhiều thuận lợi hơn so với việc xây dựng những bộ từ điển đồng nghĩa, trái nghĩa. nhau. Dựa trên tính chất này mà nhiều phương pháp xác định từ đồng nghĩa và phân cụm từ đã được nghiên cứu. Quá trình phát hiện từ đồng nghĩa trong kho ngữ liệu tiếng Việt bao gồm các bước: -. văn bản, việc nhận diện và phân loại từ tiếng Việt, văn cảnh và việc phân tích ngữ nghĩa, hiện tượng đa nghĩa, hiện tượng đồng âm, hiện tượng đồng nghĩa, hiện tượng trái nghĩa, v.v Phần tiếp theo

Ngày đăng: 13/07/2014, 17:14

Từ khóa liên quan

Mục lục

  • Chương 1: Giới thiệu.

  • Chương 2: Từ tiếng Việt

    • 2.1. Nhận diện và phân loại các đơn vị từ vựng tiếng Việt

    • 2.2. Văn cảnh và việc phân tích ngữ nghĩa

    • 2.3. Một số hiện tượng trong tiếng Việt

    • Chương 3: Phương pháp tính độ tương tự về nghĩa giữa hai từ

      • 3.1. Công thức tính độ tương tự

      • 3.2. Đánh giá công thức

      • 3.3. Các quan hệ ngữ pháp

      • Chương 4: Thực nghiệm với dữ liệu tiếng Việt.

        • 4.1. Tìm hiểu mô hình phân tích và thực nghiệm

          • 4.1.1. Phân tích văn bản thô thành văn bản được phân tách từ, câu

          • 4.1.2. Tập nhãn được sử dụng phân tích cú pháp

          • 4.1.3. Phân tích văn bản phân tách từ, câu thành văn bản được phân tích cú pháp

          • 4.1.4. Thời gian thực hiện việc phân tích cú pháp.

          • 4.1.5. Phân tích văn bản được phân tách cú pháp thành tập các bộ ba.

          • 4.1.6. Xây dựng tập các từ có quan hệ về nghĩa từ tập các bộ ba.

          • 4.2. Kết quả thực nghiệm và đánh giá.

            • 4.2.1 Tiêu chí đánh giá

            • 4.2.2. Kết quả của chương trình.

            • 4.2.3. Phân tích lỗi của kết quả

            • 4.2.4. Đánh giá kết quả của chương trình.

            • 4.3. Kết luận việc đánh giá kết quả.

            • Chương 5: Kết luận

            • Tài liệu tham khảo

Tài liệu cùng người dùng

Tài liệu liên quan