Hiểu dữ liệu kdd cup 2007 who rated what

11 419 0
Hiểu dữ liệu kdd cup 2007 who rated what

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BÁO CÁO MÔN HỌC KHAI PHÁ DỮ LIỆU NỘI DUNG KDD CUP 2007 I HIỂU ĐỀ BÀI 1.Thách thức năm 2.Mô tả nhiệm vụ II HIỂU DỮ LIỆU 1.Tìm hiểu liệu Netflix Prize 2.Mô tả liệu 3.Đánh giá I HIỂU ĐỀ BÀI Thách thức năm KDD Cup năm tập trung vào việc dự đoán khía cạnh hành vi đánh giá phim Có hai nhiệm vụ, phát triển với Netflix, chọn để thu hút người tham gia từ học viện ngành công nghiệp Người tham gia chọn để cạnh tranh trong hai hai nhiệm vụ I HIỂU ĐỀ BÀI Mô tả nhiệm vụ Cuộc thi năm bao gồm hai nhiệm vụ: Task (Who rated what in 2006): dự báo người dùng đánh giá phim năm 2006 Có 100000 cặp (user_id, movie_id) users movie được lấy từ Netflix Prize Không cặp đánh giá tập huấn luyện Nhiệm vụ task dự đoán xác suất mà cặp đánh giá vào năm 2006 (tức là, xác suất mà user_id đánh giá movie_id vào năm 2006) Task (How many ratings in 2006): dự đoán số xếp hạng thêm user từ tập liệu huấn luyện Netflix Prize cho tập hợp movie tập liệu huấn luyện Có 8863 movie_ids rút từ tập liệu huấn luyện Netflix Prize Bạn cần phải dự đoán ratings tăng thêm mà tất users tập liệu huấn luyện Netflix Prize cung cấp năm 2006 cho tựa phim II HIỂU DỮ LIỆU Tìm hiểu liệu Netflix Prize Netflix cung cấp tập liệu huấn luyện gồm 100.480.507 xếp hạng 480.189 người dùng đánh giá 17.770 phim Mỗi rating huấn luyện thành phần dạng Các trường user movie IDs số nguyên, trường grade 1-5  Training set (99.072.112 ratings không bao gồm tập thăm dò, 100.480.507 bao gồm tập thăm dò)  Probe set (1.408.395 xếp hạng)  Qualifying set (2.817.131 xếp hạng) gồm: • Test set (1.408.789 xếp hạng), dùng để xác định người thắng • Quiz set (1.408.342 xếp hạng), sử dụng để tính điểm số bảng xếp hạng II HIỂU DỮ LIỆU Mô tả liệu a Training dataset file description (file “training_set.tar”) File “training_set.tar” file tar chứa 17770 files, file movie Định dạng file sau: movieID: CustomerID,Rating,Date II HIỂU DỮ LIỆU Mô tả liệu b.Movies file description (File “movies_titles.txt”) Định dạng: MovieID,YearOfRelease,Title II HIỂU DỮ LIỆU Mô tả liệu c Qualifying and prediction dataset file description * File “qualifying.txt” Định dạng: MovieID1: CustomerID11,Date11 CustomerID12,Date12 MovieID2: CustomerID21,Date21 CustomerID22,Date22 II HIỂU DỮ LIỆU Mô tả liệu c Qualifying and prediction dataset file description * Prediction file: định dạng file phải dựa vào movie, customer id date tập qualifying Và, rating dự đoán phải tương ứng, sau: Ví dụ, tập liệu sát hạch giống sau: 111: 3245,2005-12-19 5666,2005-12-23 6789,2005-03-14 225: 1234,2005-05-26 3456,2005-11-07 Thì file dự đoán giống sau: 111: 3.0 3.0 4.0 225: 1.0 2.0 II HIỂU DỮ LIỆU Mô tả liệu d probe.txt Định dạng: MovieID1: CustomerID11 CustomerID12 MovieID2: CustomerID21 CustomerID22 II HIỂU DỮ LIỆU Đánh giá Người trúng giải xác định, cho hai nhiệm vụ, cách tính RMSE dự đoán cá nhân bạn câu trả lời Đó là, dự đoán bạn cho item Y, câu trả lời xác cho item X ta có n items, RMSE = sqrt ((sum (for all items(X-Y)^2))/n) Đầu vào với RMSE nhỏ đánh giá người chiến thắng; trường hợp hòa, đầu vào với ngày nộp sớm đánh giá người chiến thắng • Trong trường hợp " Who rated what in 2006", câu trả lời xác movie đánh giá cao người dùng, ngược lại • Trong trường hợp "How many ratings in 2006", câu trả lời xác số rating thực tế nhận Tuy nhiên, RMSE tính khác so với task Giả sử số ratings thực tế nhận X, để tính RMSE, sử dụng ln (1 + X), "ln" logarit tự nhiên Điều áp dụng số dự đoán bạn Đó là, giả sử số dự đoán bạn Y, sử dụng ln (1 + Y) [...]...II HIỂU DỮ LIỆU 3 Đánh giá Người trúng giải sẽ được xác định, cho cả hai nhiệm vụ, bằng cách tính RMSE giữa dự đoán cá nhân của bạn và các câu trả lời đúng Đó là, nếu dự đoán của bạn cho một item là Y, câu trả... items(X-Y)^2))/n) Đầu vào với RMSE nhỏ nhất sẽ được đánh giá là người chiến thắng; trong trường hợp hòa, đầu vào với ngày nộp sớm nhất sẽ được đánh giá là người chiến thắng • Trong trường hợp của " Who rated what in 2006", câu trả lời chính xác là 1 nếu movie được đánh giá cao bởi người dùng, 0 nếu ngược lại • Trong trường hợp của "How many ratings in 2006", câu trả lời chính xác là số rating thực tế

Ngày đăng: 20/08/2016, 10:04

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan