Dự báo WEBSITE truy cập tiếp theo dựa trên sự kết hợp thuật toán phân cụm và mô hình MARKOV

10 411 1
Dự báo WEBSITE truy cập tiếp theo dựa trên sự kết hợp thuật toán phân cụm và mô hình MARKOV

Đang tải... (xem toàn văn)

Thông tin tài liệu

trờng Đại học Vinh Tạp chí khoa học, tập 41, số 2A-2012 87 Dự BáO WEBSITE TRUY CậP TIếP THEO DựA TRÊN Sự KếT HợP THUậT TOáN PHÂN CụM HìNH MARKOV NGUYễN CÔNG NHậT (a) Tóm tắt. Khai phá Web là việc sử dụng các kỹ thuật khai phá dữ liệu để tự động hoá quá trình khám phá trích rút những thông tin hữu ích từ các tài liệu, các dịch vụ cấu trúc Web. Dự đoán website truy cập tiếp theo đạt đợc tầm quan trọng do tần suất truy cập máy tìm kiếm web ngày càng gia tăng. Bài viết trình bày sự kết hợp giữa kỹ thuật phân cụm hình Markov để dự đoán website truy cập tiếp theo nhằm giảm thiểu độ trễ cải thiện hiệu suất máy chủ Web. I. Mở ĐầU Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập niên 80 của thế kỷ 20, là lĩnh vực đợc nghiên cứu nhằm tự động khai thác thông tin, tri thức mới hữu ích. Với sự phát triển nhanh chóng của công nghệ thông tin trên World Wide Web, Khai phá dữ liệu Web đã từng bớc trở nên quan trọng hơn trong lĩnh vực khai phá dữ liệu. Có nhiều khái niệm khác nhau về khai phá Web, nhng có thể tổng quát hoá nh sau: Khai phá Web là việc sử dụng các kỹ thuật Khai phá dữ liệu để tự động hoá quá trình khám phá trích rút những thông tin hữu ích từ các tài liệu, các dịch vụ cấu trúc Web. Lĩnh vực khai phá web đã thu hút đợc nhiều quan tâm nghiên cứu phát triển ứng dụng ([6]). Khai phá Web thờng đợc phân thành ba lĩnh vực chính: Khai phá nội dung Web (Web content mining), khai phá cấu trúc Web (Web structure mining) Khai phá việc sử dụng Web (Web usage mining) ([6]). Mỗi ngày, máy chủ Web phải thu nhận một số lợng lớn các dữ liệu. Việc rút ra các dấu vết ngời sử dụng so sánh chúng với mục đích sử dụng web của ngời dùng để dự đoán truy cập ngời sử dụng nhằm chuẩn bị sẵn các tài nguyên phù hợp với thao tác tiếp theo của ngời dùng, có thể giúp tối u hóa cấu trúc mạng. Nếu dự đoán chính xác truy cập tiếp theo của ngời sử dụng chuẩn bị sẵn tài nguyên phù hợp thì độ trễ mạng có thể đợc giảm đáng kể ([5]). Trên thực tế đã có rất nhiều kỹ thuật đợc sử dụng để khai phá sử dụng web nhằm dự đoán truy cập ngời sử dụng nh hình Markov, Xích Markov, luật kết hợp ([4]). Tuy nhiên, sử dụng hình Markov bậc thấp thì cho kết quả dự đoán độ chính xác không cao; sử dụng hình Markov bậc cao hơn hoặc Xích Markov sẽ cho kết quả dự đoán độ chính xác cao nhng chúng phải tính toán với không gian trạng thái phức tạp; sử dụng luật kết hợp có nhợc điểm là có quá nhiều luật, không dễ dàng để tìm thấy các tập luật thích hợp để đa ra các dự đoán ([5]). Yêu cầu đặt ra là tìm ra một phơng pháp khai phá sử dụng Web nhằm dự đoán web truy cập tiếp theo bởi ngời sử dụng cho kết quả dự đoán độ chính xác cao ít ảnh hởng bởi không gian trạng thái phức tạp. II. Kỹ THUậT PHÂN CụM Phân cụm là phơng pháp học không giám sát thờng không đợc sử dụng để phân loại. Sử dụng kỹ thuật phân cụm nhóm các phiên ngời dùng có lịch sử Nhận bài ngày 16/3/2012. Sửa chữa xong ngày 11/6/2012. NGUYễN CÔNG NHậT Dự BáO WEBSITE TRUY CậP TIếP THEO, TR. 87-96 88 duyệt Web tơng tự nhau, các cụm này đợc dùng làm tham số đầu vào cho hệ thống dự báo. Tơng tự với các hình dự báo khác, hình phân cụm cố gắng khám phá mối tơng quan thống kê giữa các trang Web đợc truy cập khai phá từ WebLog. Việc dự đoán đợc thực hiện trên tập các cụm hiệu quả hơn thực hiện trên các phiên cụ thể. Vấn đề chính ảnh hởng đến độ chính xác phân cụm là việc lựa chọn tính năng để phân cụm. Trong hình kết hợp thuật toán phân cụm K-means do MacQueen đề xuất trong lĩnh vực thống kê năm 1967, là thuật toán rất quan trọng đợc sử dụng phổ biến trong kỹ thuật phân cụm. T tởng chính của thuật toán K-Means là sinh ra k cụm dữ liệu {C1, C2, ., Ck} từ một tập dữ liệu ban đầu gồm n đối tợng trong không gian d chiều Xi =(x i1 , x i2 ,,x id ) ( ni ,1= ), sao cho hàm tiêu chuẩn: ( ) = = k i Cx i i mxDE 1 2 đạt giá trị tối thiểu, trong đó: m i là trọng tâm của cụm C i , D là khoảng cách giữa hai đối tợng. Trọng tâm của một cụm là một vector, trong đó giá trị của mỗi phần tử là trung bình cộng các thành phần tơng ứng của các đối tợng vector dữ liệu trong cụm đang xét. Tham số đầu vào của thuật toán là số cụm k, tập cở sở dữ liệu gồm n phần tử tham số đầu ra của thuật toán là các trọng tâm của các cụm dữ liệu. Độ đo khoảng cách D giữa các đối tợng dữ liệu thờng đợc sử dụng dụng là khoảng cách Euclide, bởi vì đây là hình khoảng cách dễ để lấy đạo hàm xác định các cực trị tối thiểu. Hàm tiêu chuẩn độ đo khoảng cách có thể đợc xác định cụ thể hơn tuỳ vào ứng dụng hoặc các quan điểm của ngời dùng. Một số hình dạng phân cụm dữ liệu bởi K-Means ([10]). Phân cụm liên quan đến việc phân chia các trang hoặc các phiên vào trong các nhóm có điểm tơng đồng. Việc dự đoán diễn ra dựa trên các nhóm này. Quá trình này dẫn đến giảm độ chính xác bởi vì nó không sử dụng tất cả các trang một cách trực tiếp. Phân cụm đợc xây dựng dựa trên các tính năng cũng nh nội dung, ngữ nghĩa hoặc cấu trúc liên kết cũng đều gặp phải vấn đề này. ([8]) đã chứng minh rằng phơng pháp tối u là các cụm đợc xây dựng dựa trên bit vector. Tuy nhiên, ngay cả việc lựa chọn tính năng đợc cải thiện thì không phải lúc nào cũng đạt đợc các cụm đợc phân chia hợp lý. Tham số K (số Cluster) phải đợc xác định trớc khi triển khai thuật toán. Việc này này hởng rất lớn đến kết quả phân cụm của thuật toán. Một khó khăn là hiện nay cha có giải pháp nào đợc xem là tốt (về tính khoa học) để chọn tham số này. Việc chọn tham số K phù hợp với hình có thể sử dụng một số phơng pháp sau: Thử với các giá trị của K, từ đó chọn K cho kết quả phân cụm tốt nhất; Sử dụng ý kiến của chuyên gia; Sử dụng kỹ thuật Cross- Validation n-fold để kiểm định hình từ đó chọn tham số. Tuy nhiên chi phí thực hiện cho các giải pháp này rất lớn do cơ sở dữ liệu đối tợng xử lý là rất lớn. Một giải pháp chọn K thích hợp nhất đợc định nghĩa bởi ([3]). III. HìNH MARKOV Theo [5] hình Markov thờng đợc sử dụng để xác định trang tiếp theo đợc truy cập bởi ngời sử dụng dựa trên chuỗi các trang đợc truy cập trớc đó. Các hình Markov đợc đề xuất để giảm thiểu độ trễ hoặc cải thiện hiệu suất máy chủ trờng Đại học Vinh Tạp chí khoa học, tập 41, số 2A-2012 89 Web ([3]). Các hình này cũng đợc sử dụng để khám phá các đờng dẫn điều hớng ngời dùng truy cập web với xác suất cao. Cho P={P 1 , P 2 , , P m } là tập các thành phần trong một trang Web. Cho W i là một phiên ngời dùng bao gồm một chuỗi các trang đợc truy cập bởi ngời dùng trong một lần truy cập. Giả sử ngời dùng truy cập l trang thì Prob(P i W i ) là xác suất ngời dùng truy cập trang P i tiếp theo. Trang P i+1 mà ngời dùng sẽ truy cập tiếp theo đợc ớc tính bằng: P i+1 =argmax{Prob(P i =P/W)}=argmax{Prob(P i =P|P i ,P i-1 ,.,P 1 )}, Xác suất này, Prob(P i W) đợc ớc tính bằng cách sử dụng tất cả các chuỗi W của tất cả các ngời dùng trong quá khứ (hoặc dữ liệu huấn luyện), ký hiệu là W. Vì vậy, i càng dài W càng rộng thì xác suất Prob(P i W) càng chính xác. Tiến trình Markov đặt ra một giới hạn số trang đợc truy cập trớc đó là k. Nói cách khác, xác suất truy cập một trang P i không phụ thuộc vào tất cả các trang trong phiên nhng chỉ trên một nhóm nhỏ k trang có trớc, trong đó k<< l. Biểu thức trở thành P i+1 =argmax{Prob(P i+1 =P|P i ,P i-1 , ,P 1 )}. Số k, các trang có trớc là bậc của hình Markov. hình kết quả của biểu thức này gọi là hình Markov bậc k. hình Markov thực hiện tính xác suất cao nhất của trang web cuối cùng đợc truy cập trong suốt phiên duyệt web. Cho k j S là trạng thái với k trang web có trớc xác định bậc của hình Markov j là số các trang duy nhất trên trang weblog. k j S =(P 1 -(k-1),P 1 -(k-2), ,P 1 ). Sử dụng nguyên tắc khả năng tối đa [9], xác suất điều kiện của P(P i | k j S ) đợc ớc tính từ tập dữ liệu (huấn luyện) trong quá khứ nh sau )( ),( )|( k j i k j k Ji Sfrequency PSfrequency SPP = . Công thức này tính xác suất điều kiện nh là tỷ số giữa tần số của chuỗi xảy ra trong tập huấn luyện tần số của các trang xảy ra trực tiếp sau chuỗi Các giả định cơ bản của hình dự đoán Markov dự đoán trạng thái tiếp theo dựa trên k trạng thái cho trớc. Thực tế k càng lớn thì dự đoán càng chính xác. Tuy nhiên, tăng k dẫn đến 2 vấn đề: Phạm vi hoạt động của hình bị giới hạn loại bỏ nhiều trạng thái không đợc xét; Độ phức tạp của hình trở nên không kiểm soát đợc. Việc đánh giá này cho thấy có đến 90% trạng thái có thể đợc hiệu chỉnh dẫn đến không gian trạng thái ít phức tạp tăng phạm vi hoạt động nhng độ chính xác vẫn không thay đổi. Giải pháp này đợc đề xuất cho không gian trạng thái phức tạp của hình Markov k bậc không khả thi trong một vài trờng hợp, đặc biệt khi nó bao gồm các tập dữ liệu rất lớn, đòi hỏi rất nhiều thời gian công sức để xây dựng các hình k bậc hiệu chỉnh các trang theo tiêu chí trên. NGUYễN CÔNG NHậT Dự BáO WEBSITE TRUY CậP TIếP THEO, TR. 87-96 90 IV. KếT HợP THUậT TOáN PHÂN CụM HìNH MARKOV Dự ĐOáN WEBSITE TRUY CậP TIếP THEO hình Markov phân cụm là 2 kỹ thuật đợc sử dụng để dự đoán trang tiếp theo đợc truy cập bởi ngời sử dụng Web. Một số kỹ thuật đợc thể hiện bởi [7], kết hợp hầu hết các hình dự báo (mô hình Markov, các luật kết hợp tuần tự, luật kết hợp phân cụm để cải thiện việc gọi dự đoán). hình đợc đề xuất làm tốt hơn các kỹ thuật khai phá web sử dụng các kỹ thuật cổ điển. Tuy nhiên, hình mới phụ thuộc vào nhiều yếu tố nh sự tồn tại của một cấu trúc liên kết trang web phụ thuộc ngỡng hỗ trợ. Những yếu tố này ảnh hởng đến thứ tự của hình hiệu suất của hình. Các bài viết khác kết hợp phân cụm với hình Markov [1], [2] phân chia các trang ngời dùng sử dụng hình dựa trên phơng pháp phân cụm trong đó họ thực thi hình Markov bậc 1 sử dụng thuật toán kỳ vọng cực đại. Sau khi phân vùng các phiên ngời dùng vào trong các cụm, chúng hiển thị đờng dẫn của ngời dùng trong mỗi cụm. Một kỹ thuật khác đợc trình bày bởi [2], xây dựng hình Markov từ tệp log sử dụng việc kết hợp kết nối các đặc điểm giống nhau để đo các mối quan hệ khái niệm giữa các trang Web. hình kết hợp thuật toán phân cụm hình Markov đợc thể hiện trong hình 1. Hình 1. Sơ đồ tiến trình phân cụm trớc khi thực thi hình Markov 4.1. Động cơ của việc kết hợp Dự đoán trang Web tiếp theo đợc truy cập bởi ngời sử dụng tức là dự đoán liên kết Web mà ngời dùng sẽ click tiếp theo khi duyệt trang web. Ví dụ, sự chuyển đổi mà ngời dùng Web truy cập một trang bán máy tính có khả năng sẽ mua một pin dự phòng khi mua một chiếc laptop, hoặc có thể sự thay đổi lớn hơn, ngời sử dụng sẽ mua một ổ mềm bên ngoài để thay thế. Dữ liệu các phiên duyệt web trong quá khứ của ngời dùng là nền tảng trong việc chiết xuất thông tin dự đoán tiếp Lựa chọn tính năng phân loại phiên Độ đo tơng tự Số các cụm (k) Gom nhóm Thực thi hình Markov Phiên ngời dùng Phân cụm trờng Đại học Vinh Tạp chí khoa học, tập 41, số 2A-2012 91 theo. Ví dụ, sử dụng các thuật toán phân cụm, chúng ta có thể cá nhân hoá ngời sử dụng theo kinh nghiệm duyệt web của họ. Những ngời dùng khác với hành vi duyệt web khác đợc tập hợp lại với nhau quá trình dự đoán đợc thực hiện dựa trên đờng dẫn liên kết của ngời sử dụng trong cụm thích hợp. Loại dự đoán tơng tự là sử dụng hình xác xuất có điều kiện Markov. Ví dụ, nếu 50% ngời sử dụng truy cập trang D sau khi truy cập trang A, B, C, thì có 1/2 khả năng một ngời sử dụng truy cập các trang A, B, C sẽ truy cập vào trang D tiếp theo. Việc dự báo trang Web truy cập tiếp theo trên trạng thái không gian phức tạp đợc thực hiện bằng cách kết hợp cả hình Markov kỹ thuật phân cụm dựa trên việc chia các phiên Web thành nhóm theo dịch vụ Web thực hiện phân tích hình Markov trên mỗi cụm của phiên thay vì toàn bộ tập dữ liệu. Việc làm này rất hiệu quả vì sử dụng hình Markov cho một nhóm nhỏ, đợc giả sử là đồng nhất hơn so với toàn bộ tập dữ liệu. Kết quả là, thực hiện phân tích hình Markov trên một phiên liên quan theo chức năng dẫn đến dự báo chính xác hơn việc thực hiện phân tích trên toàn bộ tập dữ liệu. hình Markov là kỹ thuật hiệu quả để dự đoán trang web truy cập rất nhiều nhà nghiên cứu nhấn mạnh tầm quan trọng trong lĩnh vực khai phá dữ liệu của hình Markov ([4]). Các nhà nghiên cứu khác sử dụng hình markov để nâng cao hiệu quả truy cập dịch vụ web bằng cách sử dụng phơng pháp tìm nạp. hình Markov bậc thấp đợc biết đến với độ chính xác thấp do hạn chế về lịch sử duyệt Web ngời dùng. hình Markov bậc cao hơn đạt đợc độ chính xác cao hơn nhng lại đợc kết hợp với không gian trạng thái phức tạp hơn. Mặc các kỹ thuật phân cụm đợc sử dụng cho mục đích cá nhân bằng cách khám phá cấu trúc trang web trích xuất các thông tin hữu dụng ([2]), thông thờng các kỹ thuật này không thực sự thành công trong việc đạt kết quả tốt. Phân cụm thích hợp nhóm các phiên ngời dùng với lịch sử duyệt Web, điều này thuận tiện cho việc phân loại. Quá trình dự đoán đợc thực hiện trên các tập hợp cụm thay vì các phiên thực tế. Hình 2. Kiến trúc hình kết hợp Sử dụng hình Markov bậc thấp tránh đợc không gian trạng thái phức tạp. Để tăng độ chính xác cho hình Markov bậc thấp ta sử dụng kỹ thuật phân Response Web requests Client 1 Client 1 Client 1 Internet WWW Server Web logs Phân cụm hình Markov hình dự đoán NGUYễN CÔNG NHậT Dự BáO WEBSITE TRUY CậP TIếP THEO, TR. 87-96 92 cụm. Các phiên Web đầu tiên đợc xác định phân nhóm theo chức năng sử dụng các tính năng có nghĩa. Sau đó, các phiên Web đợc nhóm thành một số các cụm. Tiến trình chính của phân cụm phiên web sử dụng thuật toán K-Means là xác định số lợng các cụm. Gom nhóm phân cụm các phiên web thích hợp giúp tăng độ chính xác dự báo truy cập trang web. Kiến trúc kết nối hình Markov phân cụm đợc tả trong Hình 2. 4.2. Các bớc kết hợp Tiến trình huấn luyện diễn ra nh sau: Sử dụng tính năng lựa chọn, phân bổ các phiên Web tơng tự nhau vào các lớp thích hợp. Chọn thuật toán K- means, độ đo khoảng cách phù hợp. Chọn số cụm k phân vùng các phiên Web thành các cụm. For mỗi cụm - Trả về trạng thái ban đầu của dữ liệu cha phân cụm phần mở rộng của nó. - Thực hiện hình Markov phân tích trên mỗi cụm. EndFor Tiến trình dự đoán hoặc giai đoạn thử nghiệm bao gồm các bớc sau: For mỗi tiến trình đến - Tìm cụm gần nhất. - Sử dụng hình Markov tơng ứng để dự đoán. EndFor 4.3. Thu thập dữ liệu Sử dụng các tập tin access log trên Web Server, thờng các tập tin này lu tự động theo ngày trong th mục C:\WINDOWS\system32\Logfiles\W3SVC1, các tập tin này ghi nhận khi có ngời dùng truy cập đến một trang Web bất kỳ thuộc Web Server, thông tin thờng đợc lu trữ dới dạng các hàng (records) theo chuẩn Apache. Tập dữ liệu D1: WebLog lấy từ http://www.stat.ucla.edu/~cocteau/access_log.txt gồm các thông tin logs truy cập Website http://www.stat.ucla.edu/ - là trang thông tin của trờng Đại học UCLA trong ngày 20/2/2012 bao gồm 3387 yêu cầu. Tập dữ liệu D2: WebLog lấy từ http://68.119.15.136/log/access_log.txt gồm các thông tin truy cập Website http://68.119.15.136/ từ ngày 03/03/2011 đến ngày 09/08/2011 bao gồm 6500 yêu cầu. Trớc khi sử dụng dữ liệu log, các tập dữ liệu này cần phải đợc tiền xử lý dữ liệu. Trong việc chuẩn bị dữ liệu, chúng tôi loại bỏ các trang sai sót không hợp lệ. Chúng bao gồm các mã lỗi HTTP 400, 500, lỗi HTTP 1.0 cũng nh các lỗi HTTP 302 304 bao gồm các yêu cầu mà không có trả lời từ máy chủ. Chúng tôi cũng loại bỏ các tập tin đa phơng tiện nh gif, jpg scrip nh js cgi; lu trữ các truy cập này vào cơ sở dữ liệu để thuận tiện cho việc xử lý dữ liệu. Tiền xử lý dữ liệu Sử dụng một công cụ lọc log file trên Web Server: WebLogCleaning [WebCleaner], là một công cụ mã nguồn mở đợc lấy từ trang Web trờng Đại học Vinh Tạp chí khoa học, tập 41, số 2A-2012 93 http://webcleaner.sourceforge.net/ Các chức năng của WebLogCleaning: - Làm sạch lu trữ dữ liệu từ log file ghi các truy cập trang Web trên web server vào cơ sở dữ liệu. - Thu thập lu trữ tên máy (host name) địa chỉ IP. - Tạo các tập dữ liệu từ cơ sở dữ liệu theo thời gian, ngời dùng, giao thức . - Tạo, xóa cơ sở dữ liệu. - Tạo Dataset Hình 3. Sơ đồ chức năng của WebLogCleaning Công cụ sẽ lọc các records trong access_log file, loại bỏ các thông tin không hợp lệ ghi vào các bảng dữ liệu nh sau: - ProtocolDimTbl(ProtocolID,ProtocolName,MethodName,Status): bảng lu các giao thức truy cập Web. - PathDimTbl(PathID,PathName,FileName,FileType): chứa mã các thông tin trang web đợc truy cập. - UserDimTbl(UserID,IPAddress,HostName,UserName): chứa thông tin ngời dùng. - LogFactTbl(Time ID,UserID,ProtocolID,PathID,SessionID,nbyte): chứa các sự kiện truy cập web. 4.4. Khám phá mẫu Xác định số cụm k đối với toàn bộ tập dữ liệu là công việc rất khó khăn, theo đánh giá ở trên chúng tôi lựa chọn k theo ([3]). Thực thi hình Markov hình Markov đợc thực thi trên mỗi cụm. Mỗi tập dữ liệu đợc chia vào tập huấn luyện tập thử nghiệm độ chính xác của hình Markov đợc tính toán theo. Sau đó, sử dụng tập thử nghiệm, mỗi trạng thái chuyển đợc xem nh là một điểm độ đo khoảng cách đợc tính toán để xác định số cụm theo điểm đó. Tiếp theo, độ chính xác dự đoán hình Markov bậc 2 đợc lấy lại nh đợc tính toán trong giai đoạn thử nghiệm. Tất cả các dự đoán trong dữ liệu thử nghiệm nếu không tồn tại trong tập dữ liệu huấn luyện đều đợc kết lận là sai đợc cho giá trị là 0. Output Input Access_log file WebLogCleaning Data set Tables: UserDimTbl ProtocolDimTbl PathDimTbl LogFactTbl Generate NGUYễN CÔNG NHậT Dự BáO WEBSITE TRUY CậP TIếP THEO, TR. 87-96 94 Hình 4. Phân cụm trong cơ sở dữ liệu (với tậpdữ liệu D1, k=7) 4.5. Kết quả thực nghiệm Chơng trình thực nghiệm hình Markov kết hợp với kỹ thuật phân cụm đợc thực hiện bằng ngôn ngữ C#. Dữ liệu sau khi đã đợc cho vào cơ sở dữ liệu làm đầu vào cho chơng trình. Với bộ dữ liệu D1: WebLog lấy từ http://www.stat.ucla.edu/~cocteau/access_log.txt. Theo hình 4, quy trình vận hành của chơng trình thì các dữ liệu thu đợc khi chạy chơng trình nh sau: Xét liên kết http://www.stat.ucla.edu/~frederic/ là trang cá nhân một giảng viên. Với số cụm là 7, các trang có tiền tố ~frederic sẽ đợc phân thành một cụm. Trang http://www.stat.ucla.edu/~frederic/qual2012/data/ có xác suất truy cập cao nhất nên đợc dự đoán là trang tiếp theo sẽ đợc truy cập trong lần truy cập tiếp theo. Tuy nhiên, khi xem xét http://www.stat.ucla.edu/~frederic/ thì không có liên kết trực tiếp đến trang /qual2012/data, có nghĩa là ngời dùng đã qua một số trang trờng Đại học Vinh Tạp chí khoa học, tập 41, số 2A-2012 95 phụ thờng quay lại xem trang /qual2012/data. Từ đây nếu là một ngời quản trị thì nên tạo liên kết /qual2012/data để tiện cho ngời dùng xem. Với bộ dữ liệu D2: WebLog lấy từ http://68.119.15.136/log/access_log.txt gồm các thông tin truy cập Website http://68.119.15.136/ từ ngày 03/03/2011 đến ngày 09/08/2011. Với bộ dữ liệu này, chúng tôi thấy phân thành 15 cụm cho kết quả dự đoán chính xác nhất. Với số cụm 15, các trang có tiền tố phs sẽ đợc phân thành một cụm, bao gồm các trang: /phs/applied-math, /phs/computer, /phs/electronics/, . Xét liên kết http:// http://68.119.15.136/phs, trang http://68.119.15.136/phs/dd có xác suất truy cập cao nhất nên sẽ đợc dự đoán là trang sẽ truy cập tiếp theo sau khi truy cập vào trang phs. V. Kết luận Sau khi tiến hành thực nghiệm trên tập dữ liệu lấy từ 70 mốc thời gian khác nhau chúng tôi nhận thấy kết quả dự đoán của hình kết hợp chỉ ra danh sách các website có khả năng truy cập tiếp theo cô đọng hơn. Kết quả này hoàn toàn là tập con của tập kết quả nếu sử dụng hình Markov để dự đoán website truy cập tiếp theo. Nh vậy việc kết hợp thuật toán phân cụm hình Markov cho kết quả dự đoán chính xác hơn. TàI LIệU THAM KHảO [1] I. Cadez, D. Heckerman, C. Meek, P. Smyth & S. White, Visualization of navigation patterns on a web site using model based clustering, ACM SIGMOD Intl Conf on Knowledge Discover and Data Mining, 2000, pp. 280284. [2] I. Cadez, D. Heckerman, C. Meek, P. Smyth & S. White, Model based clustering and visualization of navigation patterns on a web site, Data Mining and Knowledge Discovery 7(4), 2003, pp. 399424. [3] D. T. Pham, S. S. Dimov and C. D. Nguyen, Selection of K in K-means clustering. Mechanical Engineering Science, vol 219, 2005. [4] M. Deshpande & G. Karypis, Selective markov models for predicting web page accesses, Transactions on Internet Technology 4, 2004, pp. 163184. [5] Habel Kurian, A Markov model for Web request prediction, A report submitted in partial fulfillment of the requirements for the degree Master of Science, Kansas State University, 2008. [6] Hiroyuki Kawano, Applications of Web mining - from Web search engine to P2P filtering, ACM, 2003. [7] D. Kim, N. Adam, V. Alturi, M. Bieber & Y. Yesha, A clickstreambased collaborative filtering personalization model: Towards a better performance, WIDM, 2004, pp. 8895. [8] J. Vellingiri et al., A Survey on Web Usage Mining. [Trực tuyến] Global Journal of Computer Science and Technology, Volume 11 Issue 4 Version 1.0 March 2011. Địa chỉ: http://globaljournals.org/GJCST_Volume11/9-A-Survey-on-Web- Usage-Mining.pdf. NGUYÔN C¤NG NHËT B¸O WEBSITE TRUY CËP TIÕP THEO…, TR. 87-96 96 [9] L. Lu, M. Dunham & Y. Meng, Discovery of significant usage patterns from clusters of clickstream data, WebKDD, 2005, pp. 139–142. [10] Vipin Kumar, The k-means algorithm, Parallel Issues in Data Mining, VECPAR 2002. SUMMARY INTEGRATIon of CLUSTERING AND MARKOV MODEL FOR PREDICTING WEB PAGE ACCESSES Web mining is the application of data mining techniques to automate the process of exploring and extracting useful information from documents, services and Web structure. Predicting the next Web page Accesses has gained importance due to the frequency of access to web search engines is increasing. This paper presents an integration of clustering and Markov model for predicting the next Web page access to minimize latency and improve performance of Web server. (a) Khoa C«ng nghÖ th«ng tin, Tr−êng §¹i häc Vinh.

Ngày đăng: 28/12/2013, 20:18

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan