Thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản.

Ngày nay, cơ sở dữ liệu đã trở thành một phần không thể thiếu của xã hội loài người. Trong kỉ nguyên thông tin này, các thông tin được lưu trữ và xử lý hiệu quả hầu hết là thông qua cơ sở dữ liệu.

Trang 1

Website: http://www.docs.vn Email : lienhe@docs.vn Tel (: 0918.775.368

II Cơ sở lý thuyết 7

1 Khái niệm Text Mining 7

a Khai phá dữ liệu (Data Mining) 7

b Khai phá dữ liệu văn bản (Text Mining) 8

2 Bài toán phân loại văn bản (Text categorization) 10

a Khái niệm phân loại văn bản 10

b Các phương pháp phân loại văn bản 11

b.1 Sử dụng từ điển phân cấp chủ đề 11

b.1.1 Giải thuật phân lớp và phân cấp chủ đề 11

b.1.2 Sự phù hợp và sự phân biệt của các trọng số 12

b.2 Phương pháp cây quyết định (Decision tree) 13

3 Bài toán thu thập thông tin (Information retrieval - IR) 14

a Khái niệm thu thập thông tin 14

b Các phương pháp thu thập thông tin 16

b.1 Các phương pháp chuẩn 16

b.1.1 Mô hình Boolean 16

b.1.2 Mô hình không gian vec-tơ (Vector space model - VSM) 18

b.2 Các phương pháp dựa trí tuệ nhân tạo (AI-based method) 21

b.2.1 Kỹ thuật mạng Nơ-ron (Neural network) 22

4 Một số công cụ phân tích văn bản tiếng Anh 26

III Các giải pháp áp dụng cho Vietnamese Text Mining 29

1 Đặc trưng của văn bản tiếng Việt 29

a Các đơn vị của tiếng Việt 29

a.1 Tiếng và đặc điểm của tiếng 29

a.1.1 Tiếng và giá trị ngữ âm 29

a.1.2 Tiếng và giá trị ngữ nghĩa 29

a.1.3 Tiếng và giá trị ngữ pháp 29

a.2 Từ và các đặc điểm của từ 30

a.2.1 Từ là đơn vị nhỏ nhất để đặt câu 30

a.2.2 Từ có nghĩa hoàn chỉnh và cấu tạo ổn định 30

a.3 Câu và các đặc điểm của câu 30

a.3.1 Câu có ý nghĩa hoàn chỉnh 30

a.3.2 Câu có cấu tạo đa dạng 30

b Các phương tiện ngữ pháp của tiếng việt 31

Trang 2

b.1 Trong phạm vi cấu tạo từ 31

b.2 Trong phạm vi cấu tạo câu 31

c Từ tiếng việt 32

c.1 Từ đơn - từ ghép 32

c.2 Từ loại 32

c.3 Dùng từ cấu tạo ngữ 33

d Câu tiếng việt 34

d.1 Câu đơn 34

d.2 Câu ghép 35

d.2.1 Câu ghép song song 35

d.2.2 Câu ghép qua lại 35

d.2.3 Các thành phần câu 35

e Các đặc điểm chính tả và văn bản tiếng Việt 36

2 Các giải pháp, đánh giá hiệu quả, đề ra giải pháp cho phân tích văn bản tiếng Việt36 a Bài toán phân loại văn bản tiếng Việt 36

b Bài toán thu thập thông tin từ văn bản tiếng Việt 37

IV Xây dựng thử chương trình tách thuật ngữ tiếng Việt theo phương pháp cổ điển 38

1 Chương trình và bài toán được giải quyết 38

2 Kết quả chạy chương trình 38

TÀI LIỆU THAM KHẢO 39

PHỤ LỤC 40

Các thông tin về báo cáo 40

Cách chạy chương trình demo 40

TỪ ĐIỂN THUẬT NGỮ 41

Trang 3

BẢNG DANH MỤC HÌNH HOẠ

Hình 1: Một ví dụ về cây quyết định Hình 2 Mô hình thu thập thông tin chuẩn

Hình 3 Đồ thị biểu diễn các vec-tơ của bài báo D1 và D2

Hình 4: Đồ thị biểu diễn quan hệ giữa truy vấn (query) và các tài liệu D1, D2 Hình 5 Mạng nơ-ron: toán tử AND (a) và toán tử OR (b)

Hình 6 Mạng nơ-ron với lớp ẩn: toán tử NOR Hình 7: Mô hình biểu diễn mạng nơ-ron Hình 8: Minh hoạ công cụ TextAnalyst

Hình 9: Minh hoạ công cụ TextAnalyst nhúng trên Internet Explorer

Trang 4

LỜI GIỚI THIỆU

Ngày nay, cơ sở dữ liệu đã trở thành một phần không thể thiếu của xã hội loài người Trong kỉ nguyên thông tin này, các thông tin được lưu trữ và xử lý hiệu quả hầu hết là thông qua cơ sở dữ liệu Sau gần 50 năm phát triển, cơ sở dữ liệu đã có những bước tiến vô cùng quan trọng trong lịch sử Công nghệ thông tin Từ mô hình Cơ sở dữ liệu quan hệ do E.Codd đề xuất từ những năm 60, các ứng dụng công nghệ thông tin đã thực sự biến việc lưu trữ dữ liệu trở thành lưu trữ thông tin thông qua các công cụ quản lý và xử lý cơ sở dữ liệu Ngày nay, nhu cầu lưu trữ và xử lý thông tin có mặt ở khắp mọi nơi Ở bất cứ một tổ chức nào, với bất kỳ một mô hình hay quy mô nào cũng đều có những nhu cầu về lưu trữ và khai thác thông tin Khái niệm thông tin ở đây bao gồm cả thông tin về nội tại của tổ chức và thông tin về môi trường và tổ chức hoạt động.

Việc nghiên cứu lý thuyết về cơ sở dữ liêu đã trở thành một ngành khoa học ứng dụng Do những tiến bộ vượt bậc trong nghiên cứu lý thuyết cũng như cài đặt thực tế, các hệ quản trị cơ sở dữ liệu đã trở thành nền tảng, là phần cốt yếu trong hoạt động của các tổ chức Nhờ chúng mà các tổ chức hoạt động hiệu quả hơn Việc ứng dụng cơ sở dữ liệu đã giúp làm giảm rất nhiều công sức lao động của con người và nhờ đó hiệu suất lao động của họ cao hơn Hệ quản trị cơ sở dữ liệu ngày nay không còn đơn thuần chỉ là một cơ cấu cho phép lưu trữ số liệu mà còn kèm theo đó là các công cụ, tiện ích hay các phương pháp luận để chuyển đổi số liệu thành thông tin Tập tất cả các công cụ do người dùng phát triển hoặc do các nhà cung cấp phần mềm tung ra để phục vụ cho mục đích hoạt động của tổ chức, được tối ưu theo những yêu cầu nghiệp vụ của tổ chức được gọi là các ứng dụng hỗ trợ xử lý tác nghiệp Cao hơn nữa, khi các nhu cầu sử dụng thông tin ở mức cao cấp hơn để hỗ trợ các nhu cầu phân tích của các nhà lãnh đạo, các nhà lập chiến lược trong một tổ chức, một loại ứng dụng mới ra đời phục vụ cho các mục đích này với tên gọi “hệ phân tích và xử lý trực tuyến” Ở các ứng dụng này, thông tin được lưu trữ, xử lý và kết xuất theo các mục đích cụ thể dưới dạng hướng chủ đề Nhờ các thông tin ở dạng này mà các phân tích, các nhà lãnh có thể đưa ra các quyết định hoạt động một cách hiệu quả nhất.

Khi các mô hình dữ liệu phát triển ở mức độ cao hơn, các thông tin lưu trữ dưới dạng dữ liệu phong phú đa dạng hơn, người ta nhận ra còn rất nhiều tri thức còn tiềm ẩn trong dữ liệu mà các mức phân tích trước đó không phát hiện ra Lý do của vấn đề này là các phân tích trước đó chỉ mới hướng mục đích cụ thể của con người Các mục đích này là cố định và các phân tích này hoàn toàn do con người đưa ra trong hoàn cảnh cụ thể Khi các thông tin phản ánh môi trường thay đổi thì con người không nhận ra để điều chỉnh các phân tích và đưa ra các phân tích mới Các tri thức đó có thể là hướng kinh doanh, các dự báo thị trường, cũng có thể là mối quan hệ giữa các trường hay nội dung dữ liệu mà con người không hình dung ra được khi tiến hành mô hình hoá các hệ thống Vì thế, ngành nghiên cứu về Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database) ra đời với bài toán Khai phá dữ liệu (DataMining) làm trung tâm nghiên cứu Các tư tưởng nghiên cứu và các thuật toán về Trí tuệ nhân tạo và Hệ chuyên gia đã được áp dụng và thu được những kết quả rất quan trọng như: cây quyết định, mạng nơ-ron

Hầu hết các thuật toán nghiên cứu cho DataMining là tập trung trên các nguồn số liệu có cấu trúc (structured data) Nhưng phần lớn thông tin mà chúng ta lưu trữ và trao

Trang 5

đổi hằng ngày lại được lưu trữ dưới các dạng dữ liệu bán cấu trúc (semi-structured data) hoặc phi cấu trúc (non-structured data) Ví dụ như trong các nhà xuất bản, hệ thống các trang web trên một website, tập các công văn, giấy tờ, báo cáo, thư tín điện tử trong một công ty Thậm chí ta có thể nhận thấy rằng trong một hệ quản trị cơ sở dữ liệu (nơi mà dữ liệu được lưu trữ có cấu trúc) thì dữ liệu kiểu text vẫn chiếm một tỷ lệ cao Do đó một vấn đề đặt ra là làm thế nào để có thể tìm kiếm và khai thác tri thức từ nguồn dữ liệu như vậy Các kỹ thuật để giải quyết vấn đề này được gọi là kỹ thuật "TextMining" hay Khai phá dữ liệu văn bản Bài toán Khai phá dữ liệu văn bản không chỉ tập trung vào một hay một nhóm các thông tin được lưu trữ dưới dạng văn bản, vấn đề đặt ra là làm thế nào có thể Khai phá được các thông tin theo lịch sử, từ quá khứ hướng dự đoán tương lai Những tri thức tưởng trừng như vô ích trong quá khứ nhưng có thể được phát hiện để sử dụng cho các mục đích sau này.

Một số bài toán quan trọng trong Khai phá dữ liệu văn bản hay được xét đến như là các bài toán “Text Classification”, “Text Sumarization”, và “Text Categorization”.

Trên thế giới đã có rất nhiều thành công trong đề tài phân lớp văn bản như các nghiên cứu của hãng IBM, trong các phòng thí nghiệm ở MIT hay ở các viện nghiên cứu của các trường đại học ở Mỹ, Pháp, Nhật Bản, Canada Tuy nhiên, các thành công đó chủ yếu tập trung vào vấn đề nghiên cứu về các văn bản tiếng Anh, tiếng Pháp Những ngôn ngữ này là các ngôn ngữ tương đối thuận lợi khi xử lý.

Hiện nay, chưa có một công cụ nào được coi là hiệu quả trong lĩnh vực khai phá văn bản tiếng Việt Nền Công nghệ thông tin của nước ta được phát triển hết sức mạnh mẽ Do nhu cầu hội nhập, nhu cầu phát triển kinh tế, văn hoá, Xã hội ngày càng tăng, các thông tin được xử lý thông qua văn bản điện tử, qua web, qua email phát triển với tốc độ chóng mặt Từ đó, nhu cầu nghiên cứu và xây dựng các công cụ Khai phá dữ liệu văn bản tiếng Việt đang được hết sức coi trọng.

Trong đề tài thực tập này, em xin trình bày các nghiên cứu tổng quan của em về

Text Mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân

loại dữ liệu văn bản Mục đích của đề tài là hướng tới phát triển các công cụ phân loại

văn bản tiếng Việt ở các nghiên cứu sau trong đề tài luận văn tốt nghiệp.

Em xin chân thành cảm ơn thầy Nguyễn Ngọc Bình đã giúp em rất nhiều trong quá trình hướng dẫn em nghiên cứu về đề tài Em xin cảm ơn anh Lưu Anh Tuấn đã giúp em một số định hướng trong quá trình nghiên cứu đề tài.

Trang 6

I Đặt vấn đề

Như chúng ta đã biết, hầu hết các thông tin được trao đổi hiện nay nằm dưới dạng tài liệu văn bản Các thông tin đó có thể là các bài báo, các tài liệu kinh doanh, các thông tin kinh tế, các bài nghiên cứu khoa học Dù áp dụng Cơ sở dữ liệu vào trong hoạt động của tổ chức là rất phổ biến và đem lại nhiều lợi ích khi lưu trữ và xử lý, nhưng ta không thể quên được rằng còn rất nhiều dạng thông tin khác được lưu trữ dưới dạng văn bản Thậm chí ngay cả trong các thông tin được lưu trong các cơ sở dữ liệu thì phần lớn trong số chúng cũng được tổ chức dưới dạng văn bản Hiện nay, các tổ chức đã áp dụng công nghệ thông tin vào quản lý hệ thống công văn giấy tờ, ví dụ các hệ thống sử dụng Lotus Node Tuy nhiên đó chỉ thực sự là cách quản lý luồng dữ liệu văn bản, cung cấp các công cụ kho chứa, còn dữ liệu vẫn thực sự nằm dưới dạng văn bản Chúng ta chưa có các giải thuật phân loại, tìm kiếm tài liệu, các công cụ trích lọc thông tin nhằm mục đích thống kê, phát hiện tri thức, ra quyết định trực tiếp trên các nguồn dữ liệu kiểu này.

Với thực tế đó, vấn đề đặt ra là làm thế nào chúng ta có thể khai thác được những thông tin hữu ích từ các nguồn tài liệu văn bản nói chung Các nguồn dữ liệu này phải được xử lý như thế nào để người dùng có thể có những công cụ tự động hoá trợ giúp trong việc phát hiện tri thức và khai thác thông tin Rõ ràng, chúng ta phải hiểu rõ bản chất của dữ liệu văn bản, hiểu rõ các đặc trưng của các dữ liệu loại này để có thể có được những phương pháp luận cần thiết.

Việc khai thác thông tin từ các nguồn dữ liệu văn bản trong các tổ chức Việt Nam chắc chắn phải dựa vào những kết quả nghiên cứu về văn bản nói chung, về dữ liệu văn bản và các kỹ thuật xử lý đã được phát triển trên thế giới Tuy nhiên, những văn bản tiếng Việt lại có những đặc trưng riêng của nó Ta có thể nhận thấy được ngay sự khác biệt về mặt kí pháp, cú pháp và ngữ pháp tiếng Việt trong các văn bản so với các ngôn ngữ phổ biến trên thế giới như tiếng Anh, tiếng Pháp Vậy thì những đặc trưng này ảnh hưởng thế nào đến các kỹ thuật khai phá dữ liệu văn bản, ta cần phải có những ký thuật mới nào để có thể tận dụng được những ưu thế của tiếng Việt cũng như giải quyết được những phức tạp trong tiếng Việt.

Để trả lời được những câu hỏi này, đồ án sẽ đi từ những bước nghiên cứu về Khai phá dữ liệu văn bản, tìm hiểu những đặc trưng của tiếng Việt, từ đó đề ra phương hướng giúp giải quyết bài toán phân loại văn bản tiếng Việt phức tạp ở các nghiên cứu cao hơn Các kết quả của nghiên cứu trong đề tài thực tập này sẽ là nhưng bước tiến đầu tiên cho

luận văn tốt nghiệp của em với đề tài “Phân loại văn bản tiếng Việt bằng phương phápphân tích cú pháp.”

Trang 7

II Cơ sở lý thuyết 1 Khái niệm Text Mining

a Khai phá dữ liệu (Data Mining)

Việc sử dụng cơ sở dữ liệu vào hoạt động của một tổ chức đã được phát triển trong vòng 60 năm trở lại đây Với dữ liệu được thu thập trong suốt quá trình hoạt động của một tổ chức, một nhu cầu được đặt ra là tìm kiếm và khai thác tri thức từ những dữ liệu đó Đó chính là xuất phát điểm của bài toán Phát hiện tri thức từ cơ sở dữ liệu Người ta nhận thấy rằng có rất nhiều tri thức mà chúng ta không lường trước đang còn tiềm ẩn trong dữ liệu, nhiệm vụ của chúng ta là phát hiện, khám phá các tri thức đó, phục vụ cho những nhu cầu sử dụng thông tin cao hơn, ví dụ như trong các hệ chuyên gia hay hệ hỗ trợ quyết định.

Khai phá dữ liệu là giai đoạn chủ yếu của quá trình Phát hiện tri thức từ cơ sở dữ liệu Quá trình khai phá tri thức được thực hiện sau các quá trình thu thập và tinh lọc dữ liệu, có nghĩa là chỉ tìm các mẫu tri thức (pattern) có ý nghĩa trên tập dữ liệu có hy vọng chứ không phải là trên toàn bộ CSDL như các phương pháp thống kê trước đây.

Vì vậy khai phá dữ liệu bao gồm việc thử tìm mô hình phù hợp với dữ liệu vàtìm kiếm các mẫu hình tri thức từ dữ liệu theo mô hình đó Mặc dù mẫu hình có thể

tìm được từ bất kì một CSDL nào nhưng chỉ những mẫu phù hợp với mục đích tìm kiếm

mới được gọi là tri thức Ta sẽ có những hàm số để đánh giá các tiêu chí mẫu như mới, cólợi, đáng được xem xét.

Độ mới của mẫu hình phụ thuộc vào khung phạm vi quy chiếu, có thể đối với hệ thống hoặc đối với người dùng Ví dụ với dữ liệu của một công ty, quá trình Khai phá dữ liệu tìm ra được một luật như Lợi tức thu được giảm vào mùa thu ở vùng phía Bắc, đối với hệ thống thì rất mới, trước kia chưa hề có nhưng bất cứ một cán bộ lập kế hoạch nào cũng nhận ra được điều này qua các báo cáo tài chính.

Tính hữu dụng của mẫu có thể đo được qua sự liên quan đến mục đích tìm kiếm Với một cán bộ phụ trách bảo trì máy tính ở công ty thì luật trên không có giá trị, mặc dù là mới đối với anh ta.

Có thể qua công đoạn khai phá tri thức có rất nhiều mẫu được lấy ra nhưng không phải mẫu nào cũng có giá trị, có thể là mới, hữu ích nhưng lại tầm thường, đặc biệt là khi áp dụng các kỹ thuật dựa trên thống kê Do đó luôn phải có các tiêu chí và các hàm đánh các mẫu đáng xem xét, không tầm thường.

Tóm lại, Khai phá dữ liệu thực ra có thể coi là một quá trình xác định mẫu từ các Datawarehouse, sử dụng các kỹ thuật sẵn có như học máy, nhận dạng, thống kê, phân oại và các kỹ thuật được phát triển bởi ngành nghiên cứu trí tuệ nhân tạo như Mạng

Trang 8

nơ-ron nhân tạo (neutral network), các thuật toán di truyền (generic algorithm), quy nạp luật rule reduction)

Ta có thể xét đến một số bài toán chính đối với nghiên cứu về Khai phá dữ liệu - Bài toán phân lớp (classification): Tìm một ánh xạ (phân loại) từ một mẫu dữ

liệu vào một trong các lớp cho trước.

- Bài toán hồi quy (regression): Tìm một ánh xạ hồi quy từ một mẫu dữ liệu vào

một biến dự đoán có giá trị thực

- Bài toán lập nhóm ( clustering): Là việc mô tả chung để tìm ra các tập xác định

hữu hạn các nhóm hay các loại để mô tả dữ liệu.

- Bài toán tổng kết (summarization): Là việc đi tìm kiếm một mô tả chung tóm tắt

cho một tập con dữ liệu.

b Khai phá dữ liệu văn bản (Text Mining)

Khai phá dữ liệu văn bản hay phát hiện tri thức từ các cơ sở dữ liệu văn bản (textual databases) đề cập đến tiến trình trích lọc các mẫu hình thông tin (pattern) hay tri thức (knowledge) đáng quan tâm hoặc có giá trị (non-trivial) từ các tài liệu văn bản phi cấu trúc Quá trình này có thể được coi là việc mở rộng kỹ thuật Khai phá dữ liệu truyền thống, vì như ch úng ta đã thấy (đã được đề cập ở trên) kỹ thuật Khai phá dữ liệu truyền thống (DataMining) hướng tới việc phát hiện tri thức từ các cơ sở dữ liệu có cấu trúc.

Thông tin được lưu trữ dưới dạng nguyên sơ nhất chính là văn bản Thậm chí ta có thể thấy rằng dữ liệu tồn tại dưới dạng văn bản còn có khối lượng lớn hơn rất nhiều so với các dữ liệu có cấu trúc khác Thực tế, những nghiên cứu gần đây đã cho thấy rằng có đến 80% thông tin của một tổ chức nằm dưới dạng văn bản Đó có thể là các công văn giấy tờ, các biểu mẫu điều tra, các phiếu đặt hàng, các yêu cầu khiếu nại, giải quyết quyền lợi, các thư tín điện tử (email), các thông tin trên các website thương mại Khi các nghiên cứu về cơ sở dữ liệu ra đời vào những năm 60, người ta tưởng rằng có thể lưu mọi loại thông tin dưới dạng dữ liệu có cấu trúc Nhưng trên thực tế sau gần 50 năm phát triển, người ta vẫn dùng các hệ thống lưu trữ ở dạng văn bản và thậm trí còn có xu hướng dùng thường xuyên hơn Từ đó người ta có thể tin rằng các sản phẩm Khai phá dữ liệu văn bản có thể có giá trị thương mại cao hơn rất nhiều lần so với các sản phẩm Khai phá dữ liệu truyền thống khác Tuy nhiên ta cũng có thể thấy ngay rằng các kỹ thuật Khai phá dữ liệu văn bản phức tạp hơn nhiều so với các kỹ thuật Khai phá dữ liệu truyền thống bởi vì phải thực hiện trên dữ liệu văn bản vốn đã ở dạng phi cấu trúc và có tính mờ (fuzzy)

Một ví dụ cho bài toán khai phá dữ liệu văn bản, khi phân tích các bài báo nghiên cứu khoa học, ta có các thông tin sau:

- “stress là một bệnh liên quan đến đau đầu”

- “stress xuất hiện có thể do thiếu Magê trong máu” - “Canxi có thể ngăn cản một số chứng đau đầu”

- “Magê là một nguyên tố điều hoà canxi tự nhiên trong máu”

Trang 9

Sau khi phân tích các thông tin quan trọng này, hệ thống cần phải đưa ra các suy luân cụ thể mang tính cách mạng:

- “Thiếu hụt Magê có thể gây ra một số bệnh đau đầu”

Rõ ràng ở đây có sự phân tích suy luận ở mức độ cao Để đạt được khà năng như vậy cần phải có những công trình nghiên cứu về trí tuệ nhân tạo tiên tiến hơn.

Bài toán Khai phá dữ liệu văn bản là một bài toán nghiên cứu đa lĩnh vực, bao gồm rất nhiều kỹ thuật cũng như các hướng nghiên cứu khác nhau: thu thập thông tin (information retrieval), phân tích văn bản (text analysis), chiết xuất thông tin (information extraction), lập đoạn (clustering), phân loại văn bản (categorization), hiển thị trực quan (visualization), công nghệ cơ sở dữ liệu, học máy (machine learning) và bản thân các kỹ thuật Khai phá dữ liệu.

Trong đề tài này em chủ yếu đề cập đến hai bài toán cụ thể, đó là bài toán phân loại

dữ liệu văn bản (Text categorization) và bài toán thu thập thông tin (information

retrieval) Các nghiên cứu mới chỉ dừng lại ở bước tìm hiểu, khảo sát, so sánh là tiền đề cho các nghiên cứu cụ thể sau này mà mục đích trước mắt là phục vụ cho luận văn tốt nghiệp

Với một hệ thống Khai phá văn bản thường bao gồm ba bước chính:

- Bước tiền xử lý: Ở bước này, hệ thống sẽ chuyển văn bản từ dạng phi cấu

trúc về dạng có cấu trúc Ví dụ, với văn bản Tổ chức này to lắm, hệ thốngsẽ cố gắng phân tích thành Tổ chức|này|to|lắm Các từ được lưu riêng rẽ

một cách có cấu trúc để tiện cho việc xử lý.

- Loại bỏ các thông tin không cần thiết Ở bước này, bộ phân tích tìm cách loại bỏ các thông tin vô ích từ văn bản Bước này phụ thuộc rất nhiều vào ngôn ngữ đang được phân tích và kỹ thuật sẽ được dùng để phân tích ỏ bước tiếp theo Ví dụ, nếu kỹ thuật phân tích văn bản chỉ dựa vào xác xuất

xuất hiện từ khoá, khi đó ta có thể loại bỏ các từ phụ như: nếu, thì, thế

nhưng, như vậy…

- Khai phá dữ liệu đã được giản lược với các kỹ thuật khai phá dữ liệu (data mining) truyền thống.

Có rất nhiều kỹ thuật và phương pháp tốt được sử dụng cho Text Mining để tìm ra các kiến trúc mới, các mẫu mới, và các liên kết mới Các bước tiền xử lý là các kỹ thuật rất phức tạp nhằm phân tích một phân lớp đặc biệt thành các thuộc tính đặc biệt, sau đó tiến hành áp dụng các phương pháp khai phá dữ liệu kinh điển tức là phân tích thống kê và phân tích các liên kết Các bước còn lại sẽ khai phá cả văn bản đầy đủ từ tập các văn bản, ví dụ như phân lớp văn bản.

Mục tiêu cuối cùng của Text Mining thường là đường lối hiệu quả, hoàn thiện, và đặc trưng để trình diễn và tìm kiếm các tập hợp rộng lớn của các văn bản Do đó, các kỹ thuật chính của Text Mining có thể được phân phân ra thành các nhiệm vụ mà chúng thực hiện khi xử lý khai phá văn bản: loại thông tin mà chúng có thể trích ra và loại phân tích được thực hiện bởi chúng.

Trang 10

Các loại thông tin được trích ra có thể là:

- Các nhãn: Giả sử, được liên kết với mỗi văn bản là tập các nhãn các thao

tác khai phá tri thức được thực hiện trên các nhãn của mỗi văn bản Nói chung, có thể giả sử rằng các nhãn tương ứng với các từ khoá, mỗi một từ khoá có quan hệ với một chủ đề cụ thể nào đó.

- Các từ: Ở đây giả sử rằng một văn bản được gán nhãn với từng từ xuất

hiện trong văn bản đó.

- Các thuật ngữ: Ở đây với mỗi văn bản tìm thấy các chuỗi từ, chuỗi từ đó

thuộc về một lĩnh vực nào đó và do đó việc tìm khai phá văn bản được thực hiện trên các khai niệm được gán nhãn cho mỗi văn bản Ưu điểm của phương pháp này là các thuật ngữ được tách ra ít và có xu hướng tập trung vào các thông tin quan trọng của văn bản hơn hai phương pháp trước đây.

Các loại kết hợp:

- Kết hợp thông thường: Một số thuật toán trước đây giả sử rằng dữ liệu

nguyên mẫu được tạo lập chú dân để trợ giúp cho các kỹ thuật xử lý ngôn ngữ tự nhiên Các cấu trúc có chú dẫn trên thực tế có thể được sử dụng như một cơ sở cho việc xử lý khai phá tri thức

- Các phân cấp thuật ngữ: Ở đây mỗi văn bản được đính với các thuật ngữ

lấy ra từ một phân cấp các thuật ngữ Sau đó, một hệ thống sẽ phân tích sự phân bố nội dung của các thuật ngữ hậu duệ của từng thuật ngữ liện quan đến các hậu duệ khác do các phân bố liên kết và các phép đo khác nhằm khai thác các quan hệ mới giữa chúng Loại liên kết này có thể cũng được sử dụng để lọc và tổng hợp chủ đề của các tin tức.

- Khai phá văn bản đầy đủ: Không giống như loại liên kết thông thường

thực hiện thao tác mù quáng trên các chú dẫn của văn bản, kỹ thuật này sử dụng lợi thế của nội dụng nguyên mẫu của các văn bản Kỹ thuật này được gọi là “trích văn bản nguyên mẫu”.

2 Bài toán phân loại văn bản (Text categorization)

a Khái niệm phân loại văn bản

Phân loại văn bản (Text categorization) là xử lý nhóm các tài liệu thành các lớp khác nhau hay các phân nhóm (categories) Đây là một tác vụ phân lớp liên quan đến việc ra quyết định xử lý Với mỗi xử lý phân nhóm, khi đưa ra một tài liệu, một quyết định được đưa ra nó có thuộc một lớp nào hay không Nếu nó thuộc một phân lớp nào đó thì phải chỉ ra phân lớp mà nó thuộc vào Ví dụ, đưa ra một chủ đề về thể thao, cần phải đưa

ra quyết định rằng chủ đề đó thuộc các phân lớp cờ vua, quần vợtt, cầu lông, bơi lội hay

bất cứ một môn thể thao nào khác Các hệ thống phân loại văn bản thường làm việc với

một thuật toán tự học (learning algorithm) Thuật toán đó được cung cấp một tập mẫu để

phục vụ cho việc dạy học Tập mẫu này bao gồm một tập các thực thể có gán nhãn được phân lớp trước có dạng (x, y) ở đó x là thực thể được phân lớp, y là nhãn (hay phân lớp) được gán cho nó Với cơ cấu cơ sở như vậy, khi một thực thể được cung cấp cho hệ thống, nó sẽ cố gắng suy ra một hàm toán học từ tập đào tạo mẫu và ánh xạ thực thể mới

Trang 11

đó vào một phân lớp Phân lớp văn bản là bài toán hay và đang có những bước phát triển hết sức quan trọng mà nguyên nhân chủ yếu do sự phát triển mạnh mẽ gần đây của các thông tin nguyên trực tuyến.

b Các phương pháp phân loại văn bản b.1 Sử dụng từ điển phân cấp chủ đề

Một phương pháp thống kê phân lớp văn bản được điều khiển bởi một từ điển chủ đề có phân cấp được đề xuất Phương pháp này sử dụng một từ điển với một cấu trúc đơn giản Từ điển này có thể dạy được dễ dàng trên một tập hợp tài liệu được phân lớp bằng tay và có thể dịch được tự động sang nhiều ngôn ngữ khác nhau

Chúng ta xem xét nhiệm vụ phân loại văn bản bởi chủ đề của tài liệu: ví dụ, một số tài liệu về những động vật, và một số khác nói về vấn đề công nghiệp Chúng ta giả sử rằng danh sách chủ đề là lớn nhưng cố định Giải thuật của chúng ta không thu được những chủ đề từ thân của tài liệu nhưng thay vào đó, nó liên hệ tài liệu với một trong những chủ đề được liệt kê trong từ điển hệ thống Kết quả là phép đo (về phần trăm) sự tương ứng của tài liệu với mỗi từngchủ đề có sẵn.

Có một vấn về xuất hiện là độ tối ưu, hay độ hợp lý, độ chi tiết cho phân loại như vậy Ví dụ, khi phân loại tin tức trên internet với một người đọc “bình thường”, những phân loại như các loài động vật hoặc nghành công nghiệp thì khá phù hợp, trong khi phân lớp các chủ đề về động vật học giống như một cuốn từ điển như vậy sẽ đưa ra một câu trả lời chung chung rằng tất cả các chủ đề đó đều nói về động vật Hay nói cách khác, với một người đọc tin tức trên internet bình thường, thật không thích hợp dùng để phân loại những tài liệu với những chủ đề chi tiết hơn như những động vật có vú, động vật có xương sống, động vật thân nhiệt.

Trong bài nghiên cứu này, chúng ta sẽ bàn luận về cấu trúc của từ điển chủ đề, cách chọn lựa và cách sử dụng các trọng số của các nút riêng lẻ trong phân cấp, và một số khía thực tế về việc biên soạn điển chủ đề.

b.1.1 Giải thuật phân lớp và phân cấp chủ đề

Trong bài nghiên cứu của các tác giả Guzmán và Arenas vào năm 1997 và 1998, hai ông đề xuất việc sử dụng một từ điển có phân cấp để xác định những đề tài chính của một tài liệu [1] Về mặt kỹ thuật, từ điển bao gồm hai phần: các nhóm từ khóa đại diện cho các chủ đề riêng biệt, và một biểu diễn phân cấp của các chủ đề này.

Một nhóm từ khóa là một danh sách các từ hoặc các biểu thức liên quan đến tình trạng tham chiếu bởi tên của chủ đề Ví dụ, chủ đề tôn giáo liệt kê các từ như nhà thờ, thầy tu, nến, kinh thánh, cầu nguyện, người hành hương,…Chú ý rằng những từ này không được liên kết với đầu mục tôn giáo hay liên kết với nhau bởi bất kỳ quan hệ ngữ nghĩa tiêu chuẩn nào như kiểu con, phần,…

Cây chủ đề được tổ chức thành một phân cấp, hay nói chung là tổ chức thành một mạng (khi đó một số chủ đề có thể thuộc một vài nút của cây phân cấp).

Giải thuật tìm kiếm chủ đề trên từ điển cũng gồm có hai phần : tìm kiếm chủ đề đơn (chủ đề lá) và sự truyền lan trọng số của chủ đề trên cây Thực tế, nó trả lời, cho câu hỏi sau: tới mức độ nào thì tài liệu này sẽ phù với chủ đề đã cho? Một câu hỏi như vậy được

Trang 12

trả lời cho mỗi chủ đề riêng biệt Trong trường hợp đơn giản nhất, trọng số của một chủ đề là số (tần suất) các từ tương ứng, trong danh sách từ, được tìm thấy trong tài liệu [1].

Phần thứ hai của giải thuật có trách nhiệm lan truyền các tần suất tìm thấy trên cây [1] Với phần giải thuật này, chúng ta có thể chỉ ra rằng một tài liệu đề cập đến chủ về những động vật có vú, những động vật thân mềm, những động vật giáp sát ở nút lá, phù hợp với chủ đề về những động vật, các sinh vật sống và tự nhiên không ở nút lá.

b.1.2 Sự phù hợp và sự phân biệt của các trọng số

Thay vì các danh sách từ đơn giản, một số trọng số có thể được sử dụng bởi giải thuật để định nghĩa (1) phép đo định lượng sự phù hợp của các từ với các chủ đề và (2) đo mức quan trọng của các nút của thuộc cây phân cấp [1].

Loại trọng số đầu tiên, chúng ta gọi là các trọng số sự phù hợp, có liên hệ với các liên kết giữa các từ và các chủ đề và các liên kết giữa các nút trên cây Ví dụ, nếu tài liệu

đề cập đến từ “bộ chế hòa khí” thì nó đang nói về ô tô Làm sao phù hợp hoá từ “bộ chế

hòa khí” hoặc “bánh lái” cho những chủ đề về ô tô, độ mạnh trong các quan hệ này như

thế nào? Về trực giác, đóng góp của từ “bộ chế hòa khí” vào chủ đề ô tô lớn hơn sự đónggóp của từ “bánh lái”; như vậy, mối liên kết giữa “bánh lái” và chủ đề ô tô được gán

một trọng số nhỏ hơn.

Có thể thấy rằng, trọng số ik

w của một liên kết như vậy (giữa một từ k và một chủ đề j, hay giữa một chủ đề k và chủ đề cha j của nó trên cây) có thể được định nghĩa như độ phù hợp trung bình cho chủ đề của những tài liệu được đưa ra chứa từ này:

n là số lần xuất hiện của từ hay chủ đề k trong tài liệu i.

Không may, chúng ta không thành thạo bất cứ giải thuật đáng tin cậy nào để tìm ra phép đo độ phù hợp j

r của các tài liệu cho các lĩnh vực một cách độc lập Thay vào đó, một phép đo như vậy được đánh giá bằng tay bởi chuyên gia, và sau đó hệ thống được huấn luyện trên hợp các tài liệu Các chuyên gia có thể phải thường xuyên gán những trọng số thích hợp bằng tay cho các tài liệu.

Cả hai cách tiếp cận này yêu cầu rằng được làm băng tay Để tránh điều đó, với một phép toán gần đúng, với những đề tài đủ hẹp, có thể giả thiết rằng những văn bản trên về chủ đề này gần như không bao giờ xuất hiện trong những văn bản thông thường Khi đó biểu thức của các trọng số có thể được đơn giản hóa: 

Yêu cầu chính cho loại thứ hai của các trọng số - sự phân biệt các trọng số - là khả năng phân biệt giữa chúng: một chủ đề cần phải tương ứng tới một tập con (đáng kể) những tài liệu Mặt khác, những chủ đề mà tương ứng với gần như tất cả các tài liệu trong cơ sở dữ liệu thì chúng là vô ích vì chúng không cho phép đưa ra bất kỳ kết luận phù hợp nào với các tài liệu tương ứng.

Trang 13

Như vậy, trọng số wjcủa một nút j trên cây có thể được đánh giá như độ biến đổi

của độ phù hợp wj chủ đề qua những tài liệu trong cơ sở dữ liệu Một cách đơn giản để tính toán một khả năng phân biệt là đo nó một cách rời rạc: 

xác định bởi giải thuật này mà không tính đến giá trị wj Trong một yêu cầu chính xác hơn, lý thuyết thông tin có thể được áp dụng cho phép tính các trọng số Ở đây chúng ta không bàn luận về ý tưởng này.

Với cách tiếp cận này, với một cơ sở dữ liệu sinh vật, trọng số của các chủ đề như các động vật, các sinh vật sống, thiên nhiên sẽ thấp vì tất cả các tài liệu đề cập bằng nhau về các chủ đề này Mặt khác, do có sự pha trộn trong các tờ báo trọng s ố của chúng sẽ cao, do nhiều tài liệu trong đó không tương ứng tới những chủ đề này, nhưng vẫn góp phần đề cập đáng kể đến các chủ đề này.

b.2 Phương pháp cây quyết định (Decision tree)

Phương pháp phân lớp văn bản Cây quyết định (decision tree - DT) được Mitchell

đưa ra vào năm 1996 [2] Trên cây gồm các nút trong được gán nhãn bởi các thuật ngữ, các nhánh cây chứa nút được gán nhãn bằng các trọng số của thuật ngữ tương ứng đối với tài liệu mẫu, và các lá cây được gắn nhãn bởi các phân lớp Một hệ thống phân lớp như

vậy sẽ phân loại một tài liệu dj bởi phép thử đệ quy các trọng số mà các thuật ngữ được gán nhãn cho các nút trong với vec-tơ 

d cho đến khi với tới một nút lá Khi đó, nhãn

của nút này được gán cho dj Đa số các phướng pháp phân loại như vậy sử dụng biểu diễn

Trang 14

văn bản ở dạng nhị phân, và như vậy các cây cũng được biểu diễn dưới dạng nhị phân Một ví dụ về cây quyết định được minh hoạ trong Hình 1

Một phương pháp khả thi dùng để huấn luyện một cây quyết định phân loại ci nằm

ở chiến lược “chia và trị” [2] Chiến lược này sẽ kiểm tra xem liệu tất cả các khái niệm

huấn luyện có cùng nhãn với nó (hoặc ci hoặc 

c ); nếu không, lựa chọn một khái niệm

tk, phân chia cây thành các lớp tài liệu có cùng giá trị tk và chèn vào mỗi lớp như vậy một cây con riêng biệt Quá trình đệ quy lặp lại trên các cây con cho đến khi mỗi lá của cây

phát sinh chứa các khái niệm huấn luyên gán cho cùng phạm trù ci, khi đó nó được chọn

như là nhãn của lá đó Bước quyết định là việc chọn thuật ngữ tk ở đó sẽ xảy ra thao tác

chia, một phương pháp lựa chọn là chọn theo lợi ích thông tin hay entropi Tuy nhiên,

một cây "quá lớn lên" có thể bị sập, nếu như các nhánh cây quá đặc biệt với dữ liệu huấn luyện

Đa số các phướng pháp dạy cây quyết định như vậy bao gồm một phương pháp thêm cây và một phương pháp xén bớt cây để loại bỏ những nhánh quá đặc biệt [2]

3 Bài toán thu thập thông tin (Information retrieval - IR)

a Khái niệm thu thập thông tin

Thu thập thông tin (Information Retrieval) là một trong những bài toán khai phá dữ liệu văn bản Bài toán này chủ yếu tập trung vào việc tìm ra các tài liệu trong một tập hợp các tài liệu có sẵn theo một điều kiện nào đó Các điều kiện này có thể là một truy vấn hay một văn bản

Khi điều kiện đưa vào là một truy vấn, bài toán sẽ đưa ra các suy luận để tìm ra đặc trưng của câu truy vấn đó, sau đó so sánh với các đặc trưng của các tài liệu có sẵn để tìm ra các tài liệu phù hợp nhất với câu truy vấn đó Trong bài toán này, mô hình của bài toán gần với bài toán Search Engine Tuy nhiên, bài toán thu thập thông tin là bài toán được phát triển ở mức độ cao hơn Đối với bài toán Search Engine, câu truy vấn đưa vào là tập hợp các niệm Nhưng với bài toán thu thập thông tin, câu truy vấn đưa vào có thể là một câu văn có ngữ nghĩa Hệ thống sẽ tìm cách phân tích ngữ nghĩa của câu truy vấn để tìm ra đặc trưng của nó.

Trang 15

Khi thu thập dữ liệu, chúng ta thường cố gắng tìm kiếm các dữ liệu chính xác Trong các trường hợp khác, chúng ta kiểm tra để xem một thông tin có trong một tệp tin hay không Khi thu thập thông tin, kết quả chính xác thường được quan tâm, nhưng thông thường chúng ta muốn tìm kiếm một cách tương đối chính xác với một thông tin đặc biệt được đưa vào Sau đó chúng ta sẽ tự chọn thông tin phù hợp nhất từ các kết quả của phép xử lý trước đó Nếu chúng ta so sánh nó với các kiểu hệ thống khác nhau, chúng ta sẽ thấy rằng trong nội dung các truy vấn cơ sở dữ liệu, một phép tìm kiếm thực chất là để làm thoả mãn một truy vấn, là câu hỏi để tìm ra câu trả lời (được biết đến với khái niệm trích xuất thông tin) đặc biệt là với một câu hỏi đặc biệt Trong thu thập thông tin, một phép tìm kiếm nhằm tìm ra một tài liệu mà người dùng đang cần Các hệ thống thu thập thông tin (IR systems) được sử dụng để thu thập các tài liệu liên quan đến các yêu cầu rõ ràng Vấn đề với thu thập thông tin là việc xử lý các văn bản có nội dung liên quan nội tại đến các văn bản được sử dụng trước đó Hình 2 đưa ra một mô hình tương tác thu thập thông tin chuẩn Hiển nhiên, việc thu thập thông tin là quá trình xử lý lặp lại, với xử lý đầu vào và đầu ra bao gồm vòng lặp tính toán lại yêu cầu

Thao tác này chuyển đổi truy vấn theo một chiến lược có sẵn nhằm tăng tính phù hợp của tài liệu đã nhận được.

Việc thu thập thông tin có thể được định nghĩa cho bất cứ một loại thông tin nào ví dụ như kiểu văn bản, hình ảnh, âm thanh Tuy nhiên, ở đây chúng ta chỉ đề cập đến việc

Thông tin cần thiết

Trang 16

thu thập văn bản bởi văn bản là một loại thông tin mà phương thức thực hiện và kỹ thuật xử lý đơn giản hơn Có thể nhấn mạnh rằng các kỹ thuật này cũng có thể được áp dụng cho thu thập thông tin đa phương tiện.

Các kỹ thuật thu thập thông tin có thể được chia ra thành hai loại: - Các kỹ thuật chuẩn

- Các kỹ thuật có áp dụng trí tuệ nhân tạo.

Nhóm đầu tiên bao gồm các kỹ thuật dựa trên các phương thức thuật toán và toán học truyền thống Nhóm thứ hai cố gắng thu thập tri thức bằng các kỹ thuật áp dụng trí tuệ nhân tạo để giành được các kết quả tốt hơn.

b Các phương pháp thu thập thông tin

Ngày nay, các thông tin đang được phát triển mạnh mẽ về số lượng và chủ yếu là từ Internet Internet đã trở thành nơi lưu trữ, quản lý và đặc biệt là nơi thu nhận thông tin nhanh chóng và tiện lợi Lợi ích trung tâm là các thông tin thu nhận được phù hợp với nhu cầu người dùng Đó là lý do của các nghiên cứu chuyên sâu trong các lĩnh vực như khai phá dữ liệu (DataMining), trích xuất thông tin (Information Extraction), thu thập thông tin (Information Retrieval)

Rất nhiều các phương pháp thu thập thông tin được phát triển và kết quả mà chúng đem lại khá tốt Trong đó có rất nhiều phương pháp tồn tại ở dạng chuẩn Các phương pháp này thường dựa theo các phương pháp toán học cổ điển Một số phương pháp khác được phát triển theo hướng dựa trí tuệ nhân tạo Sau đây, chúng ta sẽ tìm hiểu sâu hơn về các phương pháp thu thập thông tin.

b.1 Các phương pháp chuẩn

Phần lớn các kỹ thuật chuẩn được phát triển từ những năm 1960 đến những năm 1970, và phần lớn trong số chúng dựa trên các thuật toán và công thức toán học truyền

thống Trong bài nghiên cứu này chỉ đề cập đến các mô hình mô hình Boolean (Boolean

model), mô hình không gian vec-tơ (vector space model).b.1.1 Mô hình Boolean

Boolean là mô hình nghiên cứu chiến lượng, đơn giản nhất, và được thể hiện để đưa ra ý tưởng cơ bản cho các chiến lượng xa hơn [4] Hầu hết đồng ý rằng tất cả các chiến lược nghiên cứu dựa trên việc so sánh giữa câu truy vấn và các tài liệu được lưu trữ Mô

hình Boolean nghiên cứu chiến lược thu thập các tài liệu được gán giá trị “true” ứng với

truy vấn đó Giả sử tài liệu dj được biểu diễn thành tập các thuật ngữ dj t1,t2, ,tk , ở đó ti là một thuật ngữ xuất hiện trong tài liệu dj Một truy vấn được biểu diễn bằng một biểu thức logic của các thuật ngữ bao gồm các toán tử AND, OR, và NOT.

Ví dụ với truy vấn:

Q=(K1 AND (NOT K2)) OR K3

Ở đây phép tìm kiếm Boolean sẽ nhận được tất cả các tài liệu có liên kết với K1 nhưng không liên kết với K2 hoặc các tài liệu có liên kết với K3.

Cụ thể hơn, với một câu truy vấn:

Trang 17

Q=(“TextMining” AND ((“Information Retrieval”) AND (NOT “Categorization”))

Hệ thống sẽ cố gắng tìm ra tất cả các tài liệu thuộc chủ đề “TextMining”, mà cụ thể

hơn là các phương pháp thu thập thông tin chứ không phải là các phương pháp phân lớp văn bản.

b.1.1.1 Các hàm so sánh

Liên kết giữa truy vấn và tài liệu có thể được hiểu theo nghĩa một hàm so sánh Các

hàm này thường rất đơn giản Một triến lược được sử dụng gọi là chiến lược đơn giản

hoá phép so sánh.

Chiến lược này được sử dụng trong bộ biến đổi của phép tìm kiếm Boolean, ở đó chỉ có các toán tử logic AND Ý tưởng chính của chiến lược này được đưa ra khi xem xét số lượng của các thuật ngữ chung trong câu truy vấn và trong tài liệu Số này được gọi là mức đồng sắp xếp và có thể được sử dụng như một hàm so sánh.

Ví dụ, các từ khoá K1, K2, K3 được liên kết với các tài liệu D1, D2, D3, D4 theo

Kỹ thuât tìm kiếm tuần tự là cơ sở của mô hình Boolean Tuy nhiên ngày nay nó rất thường xuyên được sử dụng mặc dù nó khá chậm Nhưng với bất cứ cách nào, nó cho thấy cách mà các hàm so sánh được sử dụng [4].

Đưa ra một tập các tài liệu và một truy vấn D1,D2, ,DN và một truy vấn Q,

chúng ta đi tính N giá trị của hàm so sánh M(Q,Di) Để nhận được các tài liệu liên quan,

chúng ta cần sắp xếp các tài liệu giảm dần của hàm so sánh và bỏ đi tất cả các tài liệu ứng

với hàm so sánh nhỏ hơn một ngưỡng cắt cho trước Ngưỡng này có thể được định nghĩanhư một giá trị hàm so sánh M hoặc là một gí trị so sánh với một văn bản nào đó Thách

thức lớn nhất của kỹ thuật này là tìm được cách chọn giá trị ngưỡng cắt phù hợp

Để thực hiện mô hình tìm kiếm Boolean, chúng ta có thể sử dụng một số kỹ thuật hiệu quả Tuy nhiên, các thuật toán đó không được đề cập trong bài nghiên cứu này.

b.1.1.3 Thực hiện

Mỗi một tài liệu cần được đánh chỉ mục (index) bởi một số thuật ngữ, mỗi thuật ngữ này miêu tả nội dung của tài liêu Các thuật ngữ này thường được gọi là các thuật ngữ đã gắn chỉ mục hay các từ khoá Để việc thu thập được thực hiện nhanh chóng,

chúng ta nên sắp xếp các từ này Các từ khoá được lưu trữ trong tệp tin chỉ mục, và với

Trang 18

mỗi từ khoá thuộc bộ từ vựng sẽ có danh sách các tài liệu chứa từ khoá này Để thoả mãn một truy vấn, chúng ta sẽ thực hiện tìm kiếm trên file chỉ mục này.

Kỹ thuật này được sử dụng bởi nhiều hệ thống thương mại với các độ tối ưu khác nhau của tệp tin chỉ mục tìm kiếm (ví dụ B-trees)

Các nhược điểm của kỹ thuật này là:

- Lưu trữ quá nhiều (có thể cần không gian lưu trữ lên đến 300% so với kích thước ban đầu)

- Giá thành cập nhật và tổ chức lại chỉ mục cao

- Giá thành hợp các danh sách tài liệu cao nếu chúng quá dài Tuy nhiên, chúng cũng có các ưu điểm riêng:

- Thực hiện dễ dàng

- Dễ dàng hỗ trợ các từ đồng nghĩa

b.1.2 Mô hình không gian vec-tơ (Vector space model - VSM)

Mô hình không gian vec-tơ được mở rộng từ mô hình Boolean trong việc thể hiện các thuật ngữ của tài liệu [4] Giống như mô hình Boolean, chúng ta gán nhãn các tài liệu bởi tập các thuật ngữ Nhưng trên thực tế, điểm khác nhau được ẩn trong việc

biểu diễn tài liêu Tài liệu D được biểu diễn bởi một vec-tơ m-chiều với các thông số

ứng với mỗi chiều là trọng số ứng với từng thuật ngữ cụ thể Trong trường hợp này, m là tổng sô thuật ngữ được đinh nghĩa để xác định nội dung của tài liệu Trọng số được tính bởi xác suất xuất hiện và độ quan trọng của từ khoá.

D=(w1, w2, , wN)

Ví dụ, khi phân tích hai tài liệu D1 và D2 là hai bài nghiên cứu, liên quan đến bệnh đâu đầu, ta có hai vec-tơ được hinh hoạ trên đồ thị 2-chiều như sau:

Các trọng số trên mỗi vec-tơ biểu diễn xác suất xuất hiện của các thuật ngữ trong

mỗi bài báo Tài liệu D1, thuật ngữ Đau đầu, Magê xuất hiện với xác suất lần lượt là

Trang 19

0.75, 0.25 Tài liệu D2, thuật ngữ Đau đầu, Magê xuất hiện với xác suất lần lượt là 0.2,

Trong mô hình này, một truy vấn được đối xử như một tài liệu [4] (xem hình 4) Hay nói cách khác, chúng ta sẽ biểu câu truy vấn bởi một vec-tơ trọng số của các thuật ngữ Sau khi thực hiện việc phân tích câu truy vấn ta sẽ thu được một vec-tơ Việc thực hiện câu truy vấn này thực chất là việc so sách vec-tơ của câu truy vấn với các vec-tơ đại diện cho các tài liệu theo một tiêu chuẩn nào đó Kết quả ta sẽ thu được một danh sách

các tài liệu có quan hệ “gần” với câu truy vấn đã đưa ra Tất nhiên, các tài liệu đó sẽđược sắp xếp theo trình tự giảm dần và sẽ bị cắt ở một ngưỡng nào đó.

Để tính vec-tơ biểu diễn một tài liệu, các từ riêng biệt trong tài liệu được tổ hợp lại Trên thực tế, việc thực hiện được thực hiện theo cách sau:

- Các từ phụ được soá đi

- Phân biệt các từ bởi khoảng trắng

Đối với Anh ngữ hoặc Pháp ngữ, mỗi từ được tách biệt bởi các khoảng trắng Nhưng ngôn ngữ tiếng Việt lại nảy sinh vấn đề từ đơn và từ ghép Đây cũng là một vấn

đề khó khăn khi phân tách từ trong tiếng Việt Ví dụ, với từ company trong tiếng Anh,ứng với nó là từ công ty trong tiếng Việt Do vấn đề về từ ghép nên gay nhiều hiểu nhầmtrong tiếng Việt Các vấn đề đó gọi là sự mập mờ trong tiếng Việt Ví dụ, với câu thuộc

địa bàn, ta có thể có hai cách phân tách thuộc địa|bàn và thuộc|địa bàn.

Như vậy, đối với tiếng Việt, chúng ta cần có các phương pháp tách từ đặc biệt hơn.

b.1.2.1 Tiếp cận phương thức TF * IDF

Trọng số của một thuật ngữ có thể được xác định theo nhiều cách Cách tiếp cận

chung là sử dụng phương thức tf * idf, ở đó trọng số được tổng hợp bởi hai yếu tố:

- Xác suất thuật ngữ (term frequency - tf) - đặc trưng cho xác suất xuất hiện thuật ngữ trong tài liệu

- Nghịch đảo xác suất của tài liệu (inverse document frequency - idf) - đặc trưng cho xác suất của thuật ngữ trong toàn bộ tập hợp các tài liệu Hay nói

Trang 20

cách khác, một thuật ngữ hiếm khi xuất hiện trong các tài liệu thì idf sẽ cao,còn nếu nó xuất hiện thường xuyên trong các tài liệu thì idf sẽ thấp.

Ví dụ: công thức dưới đây được đề xuất có thể được dùng để tính các giá trị đã nói

ở đó fi là xác suất xuất hiện thuật ngữ xi trong tài liệu Phân số trong idf được tính

toán bằng phương pháp giải tích với khả năng xuất hiện xi trong tài liệu này.

b.1.2.2 Độ tương đồng (similarity)

Khi các trọng số các thuật ngữ được xác định, chúng ta cần một hàm sắp xếp để định giá độ tương đồng giữa các vec-tơ truy vấn và tài liệu Một số phép đo độ tương đồng được thể hiện dưới đây Ở đó Q và D lần lượt là các tập thuật ngữ trong truy vấn và trong văn bản:

Một đánh giá độ tương đồng thông thường, được biết đến như đánh giá consin [4], xác định góc giữa vec-tơ tài liệu và vec-tơ truy vấn bởi phép tính toán như một kết quả nội tại Đặc biệt, đánh giá này thường được tính với độ dài của vec-tơ Độ tương đồng được xác định theo công thức dưới đây [4]:

Giả sử cả truy vấn và tài liệu được chuẩn hoá bởi độ dài của chúng, công thức sẽ trở nên đơn giản hơn:

Thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản.

Thông tin tài liệu

Từ khóa liên quan

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan