Thông tin tài liệu
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
TIỂU LUẬN PHƯƠNG PHÁP LUẬN
SÁNG TẠO KHOA HỌC
(Giải pháp tổ chức lưu trữ và xử lý tài liệ
u
văn bản tiếng việt có ngữ nghĩa)
Giảng viên phụ trách : GS. TSKH. Hoàng Kiếm
Học viên thực hiện : Châu Kim Hùng – CH1101013
Lớp : CH.CNTT.K6
Khóa : 06
Tp HCM, Tháng 04 năm 2012
Lời cảm ơn
Đầu tiên, em xin bày tỏ lòng biết ơn chân thành đến thầy Hoàng Văn Kiếm, người
đã tận tình hướng dẫn, tạo mọi điều kiện thuận lợi để em hoàn thành tốt chuyên đề này.
Thầy đã định hướng cho chúng em từ cách đặt vấn đề, phương pháp nghiên cứu khoa học
cho đến những công việc cụ thể nhất.
Em xin chân thành cảm ơn các thầy cô phòng đào tạo sau đại học, những người đã
giúp đỡ, tạo điều kiện tốt cho em trong quá trình học tập thực hiện chuyên đề.
Xin gửi lời cảm ơn đến gia đình, cảm ơn các anh chị, bạn bè, những người luôn sát
cánh, động viên chúng em trên bước đường học tập cũng như trong cuộc sống. Xin chân
thành biết ơn sự tận tình dạy dỗ và sự giúp đỡ của tất cả quý thầy cô tại trường Đại học
Công Nghệ Thông Tin. Tất cả các kiến thức mà nhà trường và quý thầy cô đã truyền đạt
là hành trang to lớn để chúng em mang theo trên con đường học tập, làm việc và nghiên
cứu cũng như trong quá trình hoàn thiện nhân cách của mình.
TP HCM, ngày 14 tháng 04 năm 2012
Học viên
Châu Kim Hùng
Lời nói đầu
Để có được định hướng, mục tiêu và mong muốn trên con đường nghiên cứu khoa
học, việc tìm hiểu và nắm rõ “Phương pháp luận nghiên cứu Khoa học” là một điều cần
thiết cho những người nghiên cứu để có thể nắm rõ những nguyên tắc, và phương pháp
làm khoa học.
Phương pháp luận nghiên cứu Khoa học là lý thuyết về phương pháp nghiên cứu
khoa học, lý thuyết về con đường nhận thức, khám phá và cải tạo hiện thực.
Phương pháp luận nghiên cứu khoa học là kết quả của quá trình khái quát lý thuyết
và thực tiễn nghiên cứu khoa học và trở thành công cụ sắc bén để chỉ dẫn các nhà khoa
học, các nhà quản lý trong công tác tổ chức, quản lý và thực hành nghiên cứu khoa học
một cách sang tạo.
Nghiên cứu khoa học là một quá trình nhận thức chân lý khoa học, một quá trình lao
động trí tuệ phức tạp, gian khổ nhưng đầy hào hứng, đầy hứa hẹn những triển vọng lớn
lao trong việc nghiên cứu “những điểm trắng” của khoa học.
Nắm vững phương pháp luận nghiên cứu khoa học là nắm vững lý thuyết về con
đường sáng tạo, giúp người nghiên cứu có cách tiếp cận đúng trong việc thiết kế và thi
công công trình nghiên cứu khoa học, tìm chọn phương pháp nghiên cứu hợp lý để thực
hiện nhiệm vụ nghiên cứu và đạt được mục đích nghiên cứu.
Qua những kiến thức và định hướng khoa học, để làm rõ tính chất quan trọng cũng
như ứng dụng của phương pháp luận sáng nghiên cứu khoa học trong việc giải quyết vấn
đề trong tin học, tiểu luận chuyên đề “Phương pháp luận sáng tạo khoa học” sẽ vận dụng
kiến thức về phương pháp luận, phương pháp sáng tạo để giải quyết một vấn đề cụ thể
trong tin học, vấn đề tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt.
MỤC LỤC
Phần 1 CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC 6
1.1. Khoa học 6
1.2. Nghiên cứu khoa học 6
1.3. Đề tài nghiên cứu khoa học 7
1.3.1. Khái niệm đề tài 7
1.3.2. Đối tượng nghiên cứu và phạm vi nghiên cứu 7
1.3.3. Mục đích và mục tiêu nghiên cứu 8
1.4. Các nguyên tắc sáng tạo cơ bản 8
1.4.1. Tổng quan 8
1.4.2. Ứng dụng thực tiển 10
Phần 2 PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ - BÀI TOÁN TRONG TIN HỌC 13
2.1. Phương pháp trực tiếp 14
2.2. Phương pháp gián tiếp 15
2.2.1. Phương pháp thử sai 15
2.2.2. Phương pháp Heuristic 16
2.2.3. Phương pháp trí tuệ nhân tạo 16
Phần 3 GIẢI PHÁP TỔ CHỨC VÀ XỬ LÝ TÀI LIỆU VĂN BẢN TIẾNG VIỆT CÓ NGỮ
NGHĨA 18
3.1. Giới thiệu 18
3.2. Đồ thị khái niệm (conceptual graph) 19
3.3. Ontology 22
3.3.1. Xây dựng ontology 22
3.3.2. Các tiêu chuẩn thiết kế một ontology 22
3.4. Mô hình Named-Entity (thực thể có tên) 24
3.4.1. Định nghĩa Named-Entity 24
3.4.2. Kết cấu của Named-Entity 24
3.4.3. Sự thay đổi mô hình không gian vector truyền thống 25
3.5. Đề xuất các giải pháp kĩ thuật 27
3.5.1. Ontology và cơ sở tri thức 27
3.5.2. Xây dựng chức năng rút trích thông tin và chú giải ngữ nghĩa 29
3.5.3. Xây dựng chức năng hỗ trợ cho chức năng tìm kiếm 29
3.5.4. Xây dựng chức năng truy hồi thông tin theo thực thể có tên 30
3.5.5. Xây dựng chức năng nhận diện thực thể có tên và quan hệ 32
3.5.6. Đồ thị khái niệm 34
3.5.7. Chức năng xây dựng vá phát triển tri thức 38
3.5.8. Phương pháp ghom cụm tài liệu theo thực thể có tên 38
Phần 4 TỔNG KẾT 40
TÀI LIỆU THAM KHẢO 42
Phần 1
CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP NGHIÊN CỨU
KHOA HỌC
1.1. Khoa học
Khoa học là quá trình nghiên cứu nhằm khám phá ra những kiến thức mới, học
thuyết mới,…về tự nhiên và xã hội. Những kiến thức hay học thuyết mới này, tốt hơn, có
thể thay thế dần những cái cũ, không còn phù hợp. Thí dụ: Quan niệm thực vật là vật thể
không có cảm giác được thay thế bằng quan niệm thực vật có cảm nhận.
Như vậy, khoa học bao gồm một hệ thống tri thức về qui luật của vật chất và sự
vận động của vật chất, những qui luật của tự nhiên, xã hội, và tư duy. Hệ thống tri thức
này hình thành trong lịch sử và không ngừng phát triển trên cơ sở thực tiễn xã hội. Phân
biệt ra 2 hệ thống tri thức: tri thức kinh nghiệm và tri thức khoa học.
1.2. Nghiên cứu khoa học
Nghiên cứu khoa học là một họat động tìm kiếm, xem xét, điều tra, hoặc thử
nghiệm. Dựa trên những số liệu, tài liệu, kiến thức,… đạt được từ các thí nghiệm NCKH
để phát hiện ra những cái mới về bản chất sự vật, về thế giới tự nhiên và xã hội, và để
sáng tạo phương pháp và phương tiện kỹ thuật mới cao hơn, giá trị hơn. Con người muốn
làm NCKH phải có kiến thức nhất định về lĩnh vực nghiên cứu và cái chính là phải rèn
luyện cách làm việc tự lực, có phương pháp từ lúc ngồi trên ghế nhà trường.
1.3. Đề tài nghiên cứu khoa học
1.3.1. Khái niệm đề tài
Đề tài là một hình thức tổ chức NCKH do một người hoặc một nhóm người thực
hiện. Một số hình thức tổ chức nghiên cứu khác không hoàn toàn mang tính chất nghiên
cứu khoa hoc, chẳng hạn như: Chương trình, dự án, đề án. Sự khác biệt giữa các hình
thức NCKH nầy như sau:
* Đề tài: được thực hiện để trả lời những câu hỏi mang tính học thuật, có thể
chưa để ý đến việc ứng dụng trong hoạt động thực tế.
* Dự án: được thực hiện nhằm vào mục đích ứng dụng, có xác định cụ thể hiệu
quả về kinh tế và xã hội. Dự án có tính ứng dụng cao, có ràng buộc thời gian và nguồn
lực.
* Đề án: là loại văn kiện, được xây dựng để trình cấp quản lý cao hơn, hoặc gởi
cho một cơ quan tài trợ để xin thực hiện một công việc nào đó như: thành lập một tổ
chức; tài trợ cho một hoạt động xã hội, Sau khi đề án được phê chuẩn, sẽ thành những
dự án, chương trình, đề tài theo yêu cầu của đề án.
* Chương trình: là một nhóm đề tài hoặc dự án được tập hợp theo một mục đích
xác định. Giữa chúng có tính độc lập tương đối cao. Tiến độ thực hiện đề tài, dự án trong
chương trình không nhất thiết phải giống nhau, nhưng nội dung của chương trình thì phải
đồng bộ.
1.3.2. Đối tượng nghiên cứu và phạm vi nghiên cứu
Đối tượng nghiên cứu: là bản chất của sự vật hay hiện tượng cần xem xét và làm
rõ trong nhiệm vụ nghiên cứu.
Phạm vi nghiên cứu: đối tượng nghiên cứu được khảo sát trong trong phạm vi nhất
định về mặt thời gian, không gian và lĩnh vực nghiên cứu.
1.3.3. Mục đích và mục tiêu nghiên cứu
Khi viết đề cương nghiên cứu, một điều rất quan trọng là làm sao thể hiện được
mục tiêu và mục đích nghiên cứu mà không có sự trùng lấp lẫn nhau. Vì vậy, cần thiết để
phân biệt sự khác nhau giữa mục đích và mục tiêu.
* Mục đích: là hướng đến một điều gì hay một công việc nào đó trong nghiên
cứu mà người nghiên cứu mong muốn để hoàn thành, nhưng thường thì mục đích khó có
thể đo lường hay định lượng. Nói cách khác, mục đích là sự sắp đặt công việc hay điều gì
đó được đưa ra trong nghiên cứu. Mục đích trả lời câu hỏi “nhằm vào việc gì?”, hoặc “để
phục vụ cho điều gì?” và mang ý nghĩa thực tiển của nghiên cứu, nhắm đến đối tượng
phục vụ sản xuất, nghiên cứu.
* Mục tiêu: là thực hiện điều gì hoặc hoạt động nào đó cụ thể, rõ ràng mà người
nghiên cứu sẽ hoàn thành theo kế hoạch đã đặt ra trong nghiên cứu. Mục tiêu có thể đo
lường hay định lượng được. Nói cách khác, mục tiêu là nền tảng hoạt động của đề tài và
làm cơ sở cho việc đánh giá kế hoạch nghiên cứu đã đưa ra, và là điều mà kết quả phải
đạt được. Mục tiêu trả lời câu hỏi “làm cái gì?”.
1.4. Các nguyên tắc sáng tạo cơ bản
1.4.1. Tổng quan
Cải tiến công nghệ phục vụ cho cuộc sống là phương châm, động lực phát triển
cho xã hội loài người trong thời gian qua.Từ khi con người có ý thức thì sự tìm tòi học
hỏi và khả năng tư duy chính là đặc điểm đưa loài người ra khỏi lớp động vật. Đặc điểm
nổi bật nhất của sự tìm tòi học hỏi hay khả năng tư duy là sự sáng tạo, tiềm lới giả cho
những vần đề được đặt ra. Hơn 2000 năm qua hàng triệu phát minh cải tiến ra đời thay
đổi gần như toàn bộ cuộc sống của con người. Qua từng thới kỳ các phát minh, sáng kiến
có thể khác nhau tùy thuộc vào từng bối cảnh xã hội nhưng có thể nói đều dựa trên 40
nguyên tắc sáng tạo cơ bản được Alshuller G.S tổng hợp và tác giả Phan Dũng đề cập đến
trong sách Các Thủ Thuật (Nguyên Tắc) Sáng Tạo Cơ Bản được xuất bản 2007. Đây có
thể nói là sự tổng hợp kiến thức của nhân loại trong thời gian qua, vì dựa vào 40 phương
pháp này cộng với khả năng tư duy thì mọi vấn đề rồi sẽ tiềm được lới giải. Công nghệ
thông tin cũng không nằm ngoài quy luật đó, tuy công nghệ thông tin ra đời sau so với
các công nghệ khác nhưng cũng cùng chung quy luật của sự sáng tạo
Có 40 thủ thuật (nguyên tắc) sáng tạo cơ bản:
1. Nguyên tắc phân nhỏ
2. Nguyên tắc “tách khỏi”
3. Nguyên tắc phẩm chất cục bộ
4. Nguyên tắc phản (bất) đối xứng
5. Nguyên tắc kết hợp
6. Nguyên tắc vạn năng
7. Nguyên tắc “chứa trong”
8. Nguyên tắc phản trọng lượng
9. Nguyên tắc gây ứng suất (phản tác động) sơ bộ
10. Nguyên tắc thực hiện sơ bộ
11. Nguyên tắc dự phòng
12. Nguyên tắc đẳng thế
13. Nguyên tắc đảo ngược
14. Nguyên tắc cầu (tròn) hóa
15. Nguyên tắc năng động
16. Nguyên tắc tác động bộ phận và dư thừa
17. Nguyên tắc bộ xung chiều khác
18. Sự dao động cơ học
19. Nguyên tắc tác đông theo chu kỳ
20. Nguyên tắc tác đông liên tục hữu hiệu
21. Nguyên tắc vượt nhanh
22. Nguyên tắc chuyển hại thành thắng
23. Nguyên tắc quan hệ phản hồi
24. Nguyên tắc sử dụng trung gian
25. Nguyên tắc tự phục vụ
26. Nguyên tắc sao chép (copy)
27. Nguyên tắc rẻ thay cho đắt
28. Nguyên tắc thay thế sơ đồ cơ học
29. Nguyên tắc sử dụng các kết cấu thủy và khí
30. Sử dụng bao mềm dẻo và mềm mỏng
31. Sử dụng vật liệu nhiều lỗ
32. Nguyên tắc đổi màu
33. Nguyên tắc đồng nhất
34. Nguyên tắc loại bỏ và tái sinh từng phần
35. Đổi các thông số hóa lý của đối tượng
36. Sử dụng chuyển pha
37. Sử dụng nở nhiệt
38. Sử dụng các chất oxy hóa
39. Sử dụng môi trường trơ
40. Sử dụng vật liệu tổng hợp (composit)
1.4.2. Ứng dụng thực tiển
1.4.2.1. Ứng dụng nguyên tắc kết hợp – Bài học từ chiếc Cassette Sony Walkman
Năm 1979, công ty Sony sáng chế ra một sản phẩm mới: máy cassette âm thanh
nổi siêu nhỏ (bỏ túi) với tên ọi là Sony Walkman. Từ lúc ra đời vào năm 1979, đến năm
1981, công ty đã bán được 1,5 triệu chếc. Đến nửa đầu của năm 1982, số lượng đã bán là
4 triệu chiếc. Mức tiêu thụ sản phẩm này tăng vọt gần như theo chiều thẳng đứng.
Vậy nguyên nhân nào làm cho sản phẩm được tiêu thụ nhanh như vậy? Câu trả lời
là công ty Sony đã biết áp dụng một cách linh hoạt nguyên tắc Kết hợp. Vào thời điểm
đó, trong xã hội đang thịnh hành các hoạt động rèn luyện sức khỏe ngoài trời. Công ty
Sony đã tung ra loại máy cassette rất phù hợp với nhu cầu này, tức giúp cho mọi người có
thể vừa tập thể dục, chạy nhảy ngoài trời, vừa thưởng thức âm nhạc. Ở đây, 2 nhu cầu
khác nhau của người tiêu dùng đã được kết hợp một cách khá hoàn hảo.
[...]... Phần 3 GIẢI PHÁP TỔ CHỨC VÀ XỬ LÝ TÀI LIỆU VĂN BẢN TIẾNG VIỆT CÓ NGỮ NGHĨA 3.1 Giới thiệu Như chúng ta đã thấy, đối với người thường xuyên sử dụng máy tính nói chung và với các nhà nghiên cứu khoa học nói riêng thì việc lưu trữ các tài liệu văn bản dùng cho mục đích riêng của từng người là rất quan trọng Sự tăng nhanh về số lượng tài liệu trong kho lưu trữ đã đặt ra một vấn đề lớn: làm sao quản lý hiệu... năng rút trích thông tin và chú giải ngữ nghĩa Đây là tập hợp các module có chức năng cập nhập một tài liệu mới, phân tích tìa liệu để rút trích ra các khối văn bản mang tin tức chính Từ những khối văn bản đó, module này sẽ tiến hành nhận dạng các thực thể có tên và chú thích ngữ nghĩa cho các thực thể đó Kết quả là từ một tài liệu mà chỉ có người mới hiểu được, ta được một tài liệu giống hoàn toàn về... được thông tin trên các tài liệu văn bản, trong khi các tài liệu của chúng ta là các văn bản thô mà chỉ con người mới đọc hiểu được Bài tiểu luận này trình bày ý tưởng về việc nghiên cứu kĩ thuật tổ chức và tìm kiếm thông tin văn bản có ngữ nghĩa với hi vọng có thể xây dựng một chương trình máy tính hỗ trợ tốt cho người dùng trong việc quản lý và tìm kiếm thông tin văn bản Mục 2, 3, 4 trình bày các... những tài liệu chứa những thực thể có tên là “China” nhưng không có ý nghĩa là People’s Republic of China mà có ý nghĩa khác như China town thì không phải là tài liệu đích Trường hợp 3, những tài liệu có keyword là Shenyang nhưng không phải là tài liệu đích mà nó có ý nghĩa khác như Shenyang city hoặc Shenyang hotel Trong khi đó, trường hợp 4 tài liệu đích là một định danh chính xác của thực thể có tên,... “thủ đô của Việt Nam”, thực thể Việt Nam không có ngữ liệu, hơn nữa vì đây là một thực thể tồn tại trong cơ sở tri thức, ta cần nhận diện được cả định danh của nó Trong trường hợp này, giải pháp tốt là phải xây dựng một chức năng trong ứng dụng rút trích thông tin và chú giải ngữ nghĩa để nó có thể nhận diện chính xác các thực thể có tên trong một đoạn văn bản tiếng Việt Tuy nhiên, ta có thể sử dụng... phần class, name, id của thực thể có tên và tổ hợp nó một cách tốt nhất… 3.5.4 Xây dựng chức năng truy hồi thông tin theo thực thể có tên Từ khái tưởng quản lý tài liệu có ngữ nghĩa ta xây dựng chức năng thực hiện truy vấn trên cơ sở tri thức trong kho các tài liệu có chú thích ngữ nghĩa của chương trình Đây là một số đề xuất về các cách thức truy vấn: + Dùng ngôn ngữ truy vấn của Sesame là SeRQL [Error!... thích ngữ nghĩa giúp chương trình có thể xử lý được 3.5.3 Xây dựng chức năng hỗ trợ cho chức năng tìm kiếm Bài toán tìm kiếm là một bài toán quen thuộc và ta có thể sử dụng bộ thư viện Lucene để hổ trợ trong chức năng này Tuy nhiên, Lucene chỉ hỗ trợ việc đánh chỉ mục và tìm kiếm theo khóa chứ không theo thực thể có tên Việc xử lý, tìm kiếm và đánh giá trong truy hồi thông tin theo thực thể có tên có. .. bộ tài liệu có ngữ nghĩa phục vụ cho quá trình đánh chỉ mục và truy vấn thì trước hết, tài liệu cần được chú thích ngữ nghĩa Để biểu diễn một chú thích ngữ nghĩa cho thực thể trong tài liệu, chúng ta cần phải : - Một Ontology định nghĩa các lớp thực thể - Cơ sở tri thức chứa các thông tin chi tiết về thực thể 3.5.1.1 Ontology Ontology là một tập các khái niệm và quan hệ giữa các khái niệm được định nghĩa. .. thống không thỏa trong tài liệu ngữ nghĩa dùng thực thể có tên Ví dụ: (1) tài liệu bàn về cities; (2) tài liệu bàn về People’s Republic of China; (3) tài liệu bàn về Shenyang University, (4) tài liệu bàn về Shenyang Red River Trường hợp 1, tài liệu đích không cần thiết chứa keyword “city” mà chỉ cần một số thực thể có tên có loại là City Trường hợp 2, tài liệu đích có lẽ đề cập về People’s Republic of... này được tổ chức thành nhiều nhóm, mỗi nhóm có một kiểu chính (majorType) và kiểu phụ (minorType) Khi Gazetteer xử lý một đoạn văn bản, những từ nằm trong danh sách sẽ được chú thích kèm theo kiểu của nhóm Dựa vào điều này, ta sẽ xây dựng tập ngữ liệu như sau: trong ontology hiện tại có khoảng trên 300 lớp, ứng với mỗi lớp sẽ có một tập các ngữ liệu dùng để nhận diện lớp đó Như vậy ta sẽ có khoảng .
TIỂU LUẬN PHƯƠNG PHÁP LUẬN
SÁNG TẠO KHOA HỌC
(Giải pháp tổ chức lưu trữ và xử lý tài liệ
u
văn bản tiếng việt có ngữ nghĩa)
Giảng viên.
2.2.2. Phương pháp Heuristic 16
2.2.3. Phương pháp trí tuệ nhân tạo 16
Phần 3 GIẢI PHÁP TỔ CHỨC VÀ XỬ LÝ TÀI LIỆU VĂN BẢN TIẾNG VIỆT CÓ NGỮ
NGHĨA 18
3.1.
Ngày đăng: 09/03/2014, 01:43
Xem thêm: giải pháp tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt có ngữ nghĩa, giải pháp tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt có ngữ nghĩa