...
19
BÀI GiẢNG KHAI PHÁ DỮ LIỆU WEB
CHƯƠNG 1. GIỚI THIỆU CHUNG
PGS. TS. HÀ QUANG THỤY
HÀ NỘI 1 0-2 010
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA HÀ NỘI
1
2. Sự cần thiết của khai phá Web
Web cũng rất ... quan
25
Nội dung
1. Giới thiệu về khai phá text
2. Giới thiệu về khai phá web
2
1. Giới thiệu về khai phá text
Khái niệm
Sự cần thiế...
... toán
Agrawal & Srikant 19 94, Mannila, và cộng sự 19 94
BÀI GiẢNG KHAI PHÁ DỮ LIỆU WEB
CHƯƠNG 2. KHAI PHÁ SỬ DỤNG WEB
VÀ KHAI PHÁ CẤU TRÚC WEB
PGS. TS. HÀ QUANG THỤY
HÀ NỘI 1 0-2 010
TRƯỜNG ĐẠI HỌC CÔNG ... tiêu đề: 590 bài (khoảng)
270 bài (2006 – nay)
Ở mọi nơi: 15 .700 bài (khoảng)
Nội dung
1. Khai phá sử dụng Web
2. Khai phá cấu trúc web...
...
1( 2): 17 3 -1 80, 2006.
BÀI GIẢNG KHAI PHÁ DỮ LIỆU WEB
CHƯƠNG 3. MỘT SỐ KIẾN THỨC
TOÁN HỌC BỔ TRỢ
CHƯƠNG 4. MỘT SỐ BÀI TOÁN XỬ LÝ
NGÔN NGỮ TỰ NHIÊN NỀN TẢNG
PGS. TS. HÀ QUANG THỤY
HÀ NỘI 1 0-2 010
TRƯỜNG ...
13
Mạng xã hội: ví dụ
14
http://www.uvm.edu/~pdodds/teaching/courses/200 8-0 1UVM-
295/docs/200 8-0 1UVM-295smallworldnetworks-slides-handout.pdf
Social Network...
... thi hành hiệu quả trong nhiều trường hợp.
Độ đo tương tự nội dung văn bản
So sánh hai túi từ
19
BÀI GIẢNG KHAI PHÁ DỮ LIỆU WEB
CHƯƠNG 5. BIỂU DIỄN WEB
PGS. TS. HÀ QUANG THỤY
HÀ NỘI 0 2-2 011
TRƯỜNG ... giữa hai vector: không yêu cầu chuẩn hóa
17
∑∑
∑
==
=
==
n
i
i
n
i
n
i
i
ww
ww
vv
vv
ddsim
i
1
2
2
1
2
1
1 21
21
21
21
*
*
),(
),(
1
Mô hình không gian vector
1...
... khác.
19
KHAI PHÁ WEB
CHƯƠNG 6. TÌM KIẾM WEB
Giảng viên: Hà Quang Thụy
email: thuyhq@coltech.vnu.vn
Hà Nội, 1 1- 2 010
1
MÁY TÌM KIẾM ALTA VISTA
•
Log câu hỏi
–
Mục tiêu: Hướng người dùng (Khai phá ... KIẾM
•
19 94
–
Máy tìm kiếm đầu tiên WWWW (WWW Worm)
–
McBryan
–
Index chừng 11 0.000 trang web
–
3 /19 9 4-4 /19 94: nhận 15 00 câu hỏi hàng ngày
•
19 97 (khi...
... ghi
BÀI GIẢNG KHAI PHÁ DỮ LIỆU WEB
CHƯƠNG 7. PHÂN LỚP WEB
PGS. TS. HÀ QUANG THỤY
HÀ NỘI 1 0-2 010
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA HÀ NỘI
1
1
Yes
System
Process
Timetable
Yes
No No
0
1
0
1
0
1. ... lớp 1 (chính xác: TP)
–
Theo phương án (precision, recall) có
ρ= 1/ 10=0 .1; π =1/ 1 =1; f
1
= 2*0 .1/ (0 .1+ 1.0)= 0 .18
–
Theo phương án (accurary, error rate)...
... thức !
BÀI GiẢNG KHAI PHÁ DỮ LIỆU WEB
CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ KHAI
PHÁ DỮ LIỆU
PGS. TS. HÀ QUANG THỤY
HÀ NỘI 0 3-2 011
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA HÀ NỘI
1
March 18 , 2 013 36
Phân ...
http://www.procul.org/blog/2009/07/03/t%e1%ba%a3n-m%e1%ba%a1n-v%e1%bb
% 8 1- c%c6%a1-h%e1%bb%99i-trong-nganh-th%e1%bb%91ng-ke-va-khmt/
18
Ngành kinh tế định hướng dữ...
... lớn dữ
liệu
KDD và KPDL: tên gọi lẫn lộn? theo hai tác giả |Khai phá dữ liệu
Data Mining là một bước trong quá trình KDD
BÀI GiẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU
CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ KHAI ... KHAI
PHÁ DỮ LIỆU
PGS. TS. HÀ QUANG THỤY
HÀ NỘI 0 2-2 011
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA HÀ NỘI
1
February 21, 2 014 20
Quá trình KDD [FPS96]
[FPS96] Usama...
... vực khai phá dữ liệu và khám phá tri thức.
Chương 3 trình bày một số hướng nghiên cứu trong khai phá dữ liệu Web
như khai phá tài liệu Web, khai phá theo sử dụng Web, khai phá cấu trúc Web ... Authoritie
Khai phá dữ liệu Web bằng kỹ thuật phân cụm
Hoàng Văn Dũng
2
Chương 1 trình bày một cách tổng quan các kiến thức cơ bản về khai...