Ứng Dụng Bảng Quyết Định Dàn Phủ Vào Lọc Cộng Tác Và Phân Lớp Đa Nhãn.pdf

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phan Văn Tuấn

ỨNG DỤNG BẢNG QUYẾT ĐỊNH DÀN PHỦ VÀO LỌCCỘNG TÁC VÀ PHÂN LỚP ĐA NHÃN

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phan Văn Tuấn

ỨNG DỤNG BẢNG QUYẾT ĐỊNH DÀN PHỦ VÀO LỌCCỘNG TÁC VÀ PHÂN LỚP ĐA NHÃN

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin

Cán bộ hướng dẫn: PGS TS Hà Quang Thụy

Cán bộ đồng hướng dẫn: Ths Vương Thị Hồng

HÀ NỘI – 2021

Trang 3

Lời cảm ơn

Lời đầu tiên, tôi xin gửi lời biết ơn chân thành đến thầy giáo PGS TS Hà Quang Thụy và ThS Vương Thị Hồng đã tận tình hướng dẫn, chỉ bảo em trong suốt quá trình em thực hiện khóa luận.

Em cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phòng thí nghiệm công nghệ tri thức và khoa học dữ liệu (DS&KTLab) đã giúp đỡ em rất nhiều để hoàn thành tốt khóa luận.

Cuối cùng, em muốn gửi lời cảm ơn tới gia đình, bạn bè và tập thể lớp K62CC đã luôn bên cạnh, động viên, giúp đỡ trong quá trình học tập và thực hiện đề tài khóa luận.

Xin chân thành cảm ơn!

Hà Nội, ngày tháng năm 2021 Sinh viên

Phan Văn Tuấn

Trang 4

TÓM TẮT

Tóm tắt: Lý thuyết tập thô phủ là một mở rộng quan trọng của lý thuyết tập thô của

Pawlak, trong đó, nhiều nghiên cứu áp dụng tập thô phủ giải quyết các bài toán thực tiễn đã được tiến hành Từ năm 2017 tới nay, một số mô hình áp dụng giải pháp rút gọn tập thô phủ vào lọc cộng tác đã được Z Zhang và cộng sự đề xuất Việc áp dụng lý thuyết tập thô phủ vào lọc cộng tác trong hệ tư vấn vẫn cần được tiếp tục nghiên cứu, hơn nữa, bảng quyết định tập thô phủ hiện được đề cập ở mức độ sơ bộ Nhóm nghiên cứu thuộc Trường Đại học Công nghệ đã đề xuất mô hình bảng quyết định dàn phủ, xác định hai bài toán ứng dụng điển hình là rút gọn bảng quyết định dàn phủ và áp dụng bảng quyết định dàn phủ vào phân lớp đa nhãn Các nghiên cứu này hiện vẫn ở dạng thuật toán mà cần phải được triển khai thực nghiệm.

Khóa luận này tham gia vào các nghiên cứu về bảng quyết định dàn phủ với đóng góp chính là triển khai thực nghiệm các mô hình, thuật toán hiện có, thông qua đó, phát hiện các nội dung cần được bổ sung cho các mô hình và thuật toán hiện đó Khóa luận đã triển khai các phần mềm thi hành thuật toán rút gọn dàn phủ vào bài toán lọc cộng tác người dùng trong hệ tư vấn và thuật toán phân lớp đa nhãn khai phá quan điểm Kết quả thực nghiệm của cả hai bài toán chỉ ra tính hợp lý của hai thuật toán trong bảng quyết định dàn phủ.

Từ khóa: Lọc cộng tác dựa trên người dùng, lý thuyết tập thô, phân lớp đa nhãn, bảng quyết định dàn phủ.

Trang 5

Lời cam đoan

Tôi xin cam đoan các kỹ thuật sử dụng để giải quyết vấn đề khởi đầu nguội trong tư vấn xã hội được trình bày trong khóa luận này do tôi thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thụy và ThS Vương Thị Hồng.

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh sách mục tài liệu tham khảo trong khóa luận Trong khóa luận này không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo.

Sinh viên

Phan Văn Tuấn

Trang 6

Mục lục

Lời cảm ơn i

TÓM TẮT ii

Lời cam đoan iii

Danh sách các thuật ngữ và từ viết tắt vi

2.2.1 Rút gọn điều kiện lọc cộng tác người dùng 15

2.2.2 Rút gọn thích nghi danh sách mục tư vấn 16

2.3 Áp dụng bảng quyết định dàn phủ vào phân lớp đa nhãn 16

Trang 7

2.3.1 Mô hình bảng quyết định cho phân lớp đa nhãn 16

2.3.2 Thuật toán phân lớp đa nhãn 17

2.3.3 Độ phức tạp thuật toán 18

2.4 Ý tưởng về mô hình giải quyết bài toán khóa luận 19

2.4.1 Bài toán lọc cộng tác trong hệ tư vấn 19

2.4.2 Bài toán phân lớp đa nhãn 19

Tóm tắt chương 2: 20

Chương 3 Mô hình giải quyết bài toán 21

3.1 Mô hình áp dụng rút gọn bảng quyết định dàn phủ vào lọc cộng tác 21

3.1.1 Các bước trong mô hình 21

3.1.2 Chi tiết các bước trong mô hình 22

3.2 Mô hình áp dụng bảng quyết định dàn phủ vào phân lớp đa nhãn 25

Tóm tắt chương 3: 25

Chương 4 Thực nghiệm và đánh giá kết quả 27

4.1 Mô tả thực nghiệm 27

4.1.1 Môi trường cài đặt thực nghiệm 27

4.1.2 Project thực hiện quá trình thực nghiệm 28

Trang 8

Danh sách các thuật ngữ và từ viết tắt

Tiếng Anh Từ viết tắt Tiếng Việt/Cụm từ đầy đủ

rating_score Điểm đánh giá timestamp Thời gian đánh giá

learning step Bước học mô hình

training dataset Dữ liệu huấn luyện CL Dàn điều kiện DL Dàn quyết định

Trang 9

Danh sách bảng

Bảng 1.1: Một số hệ thống có chứa thành phần tư vấn Bảng 4.1 Thiết bị cài đặt thực nghiệm

Bảng 4.2 Các công cụ, phần mềm sử dụng

Bảng 4.3: Phân bố của mục và đánh giá của tập dữ liệu MovieLens Bảng 4.4: Đánh giá mô hình dựa trên các độ đo

Bảng 4.5: Đánh giá kịch bản thực nghiệm 1 Bảng 4.6: Đánh giá kịch bản thực nghiệm 2

Trang 10

Danh sách hình vẽ

Hình 1.1: Khung phân loại kỹ thuật hệ thống tư vấn [2] Hình 1.2: Mô tả về hệ tư vấn dựa trên lọc cộng tác Hình 3.1: Các bước chính trong mô hình lọc cộng tác

Hình 3.2 Mô hình phân lớp đa nhãn đánh giá khách sạn tiếng Việt Hình 4.1 Project thực hiện quá trình thực nghiệm.

Hình 4.2 Một phần dữ liệu tập MovieLens Hình 4.3 Phân bố người dùng đánh giá các mục [4] Hình 4.4: Một phần dữ liệu tập kiểm thử Hình 4.5: Một phần dữ liệu huấn luyện Hình 4.6: Một phần dữ liệu sau khi rút gọn phủ Hình 4.7: Biểu đồ rút gọn phủ chi tiết.

Trang 11

Mở đầu

Ngày nay, sự phát triển nhanh chĩng về kinh tế, cơng nghệ và các phương tiện xã hội trở nên phổ biến như: Youtube, Facebook, Amazone, … và nhiều dịch vụ web khác dẫn tới lượng thơng tin người dùng cung cấp ngày càng một lớn lên gĩp phần làm giàu nguồn tài nguyên cho khai phá dữ liệu Lượng thơng tin cung cấp đĩ cũng là một nguyên liệu cho hệ thống tư vấn Hệ thống tư vấn chính là hệ thống cĩ khả năng gợi ý tới những đối tượng với sự cá nhân hĩa cao Hệ thống tư vấn gĩp phần nâng cao chất lượng phục vụ khách hàng cũng như đem lại giá trị thương mại và tiềm năng lớn vì vậy nĩ ngày càng cĩ ý nghĩa trong những năm gần đây.

Hệ thống tư vấn sử dụng dữ liệu thu thập được từ người dùng tiến hành lọc cộng tác, luật kết hợp, … từ đĩ đưa ra dự đốn và gợi ý cho người dùng ở những mục (mục ở đây cĩ thể là dịch vụ, video, hay bài hát) Nghiên cứu cải tiến hệ thống tư vấn giúp đưa ra chính xác và hiệu quả hơn trong việc đưa ra gợi ý cho người dùng

Hệ tư vấn cũng đứng trước nhiều thách thức khi cĩ rất nhiều bài tốn quan trọng đặt ra để cải thiện hiệu suất của nĩ Như một vấn đề khi dữ liệu thơng tin người dùng ngày càng được mở rộng thì một hệ quả dẫn tới việc ma trận đánh giá của người dùng cũng theo đĩ ngày càng lớn dần Vì vậy, bài tốn rút gọn dàn điều kiện làm giảm độ phức tạp tính tốn và bài tốn thích nghi dàn quyết định tập danh sách tập mục cần tư vấn cho người dùng được đặt ra Vậy phải làm thế nào để giải quyết được vấn đề nêu ra?

Ngồi ra, việc dữ liệu thu thập và được lưu trữ với lượng rất lớn tuy nhiên thơng tin lại nghèo nàn như hiện tượng “ngập trong dữ liệu nhưng thiếu thơng tin” Do đĩ, vấn đề đặt ra là làm thế nào để các tổ chức, cá nhân cĩ thể thu được các tri thức từ những thơng tin được lưu trữ Để giải quyết vấn đề này ta cần phải phân lớp cho dữ liệu đĩ Trong các thuật tốn khai phá dữ liệu điển hình, cĩ một số thuật tốn liên quan tới thuật tốn phân lớp đĩ là: Thuật tốn C4.5, thuật tốn k-láng giềng gần nhất, thuật tốn Bayes “ngây thơ” (Nạve Bayes) … Thực tế, việc phân lớp các dữ liệu từ kho dữ liệu khổng lồ đĩ, tức là gán cho nĩ một nhãn và đặt nĩ vào một lớp cụ thể nào đĩ Trong nghiên cứu của khĩa luận đề xuất một thuật tốn “học” trong phân lớp đa nhãn để gắn nhãn cho dữ liệu.

Cĩ nhiều phương pháp khác nhau đã được đưa ra để giải quyết các vấn đề trên và khĩa luận tập trung vào việc áp dụng bảng quyết định dàn phủ vào lọc cộng tác trong

Trang 12

Khóa luận được trình bày theo các chương như sau:

Chương 1: Giới thiệu chung về bảng quyết định dàn phủ, lọc cộng tác và phân

lớp đa nhãn: Giới thiệu tổng thể về hệ thống tư vấn, các lý thuyết về bảng quyết định dàn phủ và phát biểu về bài toán cho khóa luận.

Chương 2: Áp dụng bảng quyết định dàn phủ vào lọc cộng tác và phân lớp đa

nhãn: Trình bày về lý thuyết rút gọn trong bảng quyết định dàn phủ, đề xuất phương pháp, thuật toán giải quyết các vấn đề được nêu ra

Chương 3: Mô hình giải quyết bài toán: Trình bày chi tiết các bước trong bài

toán khóa luận áp dụng bảng quyết định dàn phủ vào lọc cộng tác và phân lớp đa nhãn.

Chương 4: Thực nghiệm và đánh giá kết quả: Trình bày về kịch bản thực

nghiệm của bài toán khóa luận được mô tả ở chương 3 và thực hiện thực nghiệm, đưa ra những đánh giá về bài toán khóa luận.

Phần kết luận: Tổng kết lại các kết quả đạt được của khóa luận, đưa ra các vấn

đề tồn tại và định hướng phát triển tương lai.

Trang 13

Chương 1: Giới thiệu chung về bảng quyết định dàn phủ, lọc cộng tác và phân lớp đa nhãn

1.1.Giới thiệu về hệ thống tư vấn

Định nghĩa [2]:

Hệ thống tư vấn (recommendation system) là các công cụ phần mềm và kỹ thuật cung cấp các tư vấn về các mục có khả năng cao là hữu ích nhất đối với một người dùng đích

Hệ thống tư vấn có mặt ở khắp mọi nơi và đóng vai trò quan trọng trong mọi lĩnh vực trong nền kinh tế hiện đại: Chúng tư vấn cho người dùng (cá nhân hay tổ chức) về mọi đối tượng trong xã hội mà người dùng quan tâm Sau đây được gọi chung là “mục tư vấn” hay ngắn gọn là “mục” (item), ví dụ như: sản phẩm (hàng hóa, dịch vụ), bài báo, bản nhạc, phim ảnh, con người, …vv… “Mục(Item)” là thuật ngữ chung biểu thị những gì hệ thống đề xuất cho người dùng RS thường tập trung vào một loại mặt hàng cụ thể (ví dụ: phim hoặc tin tức)

Hệ thống Trang web Sản phẩm đích

Amazon https://www.amazon.com/ Các sản phẩm kinh doanh Netflix https://www.netflix.com/vn/ Phim, chương trình

truyền hình Facebook https://www.facebook.com/ Bạn bè, quảng cáo Youtube https://www.youtube.com/ Video, kênh Spotify https://www.spotify.com/ Nghe nhạc Google News https://news.google.com/ Tin tức

Bảng 1.1: Một số hệ thống có chứa thành phần tư vấn [2]

Hệ thống tư vấn hướng tới người dùng Vì các đề xuất thường được cá nhân hóa, những người dùng khác nhau hoặc nhóm người dùng nhận được các đề xuất đa dạng hơn.

Hệ tư vấn thường được chia thành ba pha chính:

● Thu thập thông tin: Xây dựng đầu vào cho hệ thống Một hệ tư vấn không hệ hoạt động hiệu quả nếu đầu vào không được xây dựng tốt.

Trang 14

● Huấn luyện mô hình: Áp dụng những thuật toán để khai thác những đặc trưng của người dùng từ những thông tin thu được từ pha trước

● Dự đoán và gợi ý: Dự đoán và tư vấn những mục mà người dùng có thể thích Ba loại hệ thống tư vấn chính là[2]:

● Hệ tư vấn dựa trên nội dung ● Hệ tư vấn dựa trên lọc cộng tác ● Hệ tư vấn kết hợp (lai).

Hình 1.1: Khung phân loại kỹ thuật hệ thống tư vấn [2]

Trong phạm vi khóa luận này ta chủ yếu đề cập tới Hệ thống tư vấn dựa trên lọc cộng tác (dựa trên ghi nhớ).

1.2.Lọc cộng tác trong hệ thống tư vấn

Một trong những cách tiếp cận để thiết kế các hệ thống tư vấn được sử dụng rộng rãi là lọc cộng tác Các phương pháp lọc cộng tác dựa trên việc thu thập và phân tích một lượng lớn thông tin về những hoạt động, hành vi hoặc sở thích của người dùng và dự đoán những gì người dùng sẽ thích dựa trên sự tương đồng của họ với người dùng khác Một lợi thế quan trọng của phương pháp lọc cộng tác là nó không dựa vào nội dung phân tích máy và do đó nó có khả năng đề xuất chính xác các mục phức tạp như phim mà không yêu cầu “hiểu biết” về mục đó Nhiều thuật toán đã được sử dụng để tính sự tương đồng của người dùng hoặc sự tương đồng về mặt hàng trong các hệ thống tư vấn Ví dụ, cách tiếp cận láng giềng gần nhất (k-nearest neighbor k-NN).

Trang 15

Lọc cộng tác dựa trên giả định rằng những người dùng đã đồng ý trong quá khứ sẽ đồng ý trong tương lai và rằng họ sẽ thích các loại mặt hàng tương tự như họ thích trong quá khứ.

Khi xây dựng mô hình từ hành vi của người dùng, sự phân biệt thường được thực hiện giữa các hình thức thu thập dữ liệu rõ ràng và tiềm ẩn.

Ví dụ về thu thập dữ liệu rõ ràng bao gồm:

● Yêu cầu người dùng xếp hạng một mục trên thang trượt ● Yêu cầu người dùng tìm kiếm.

● Yêu cầu người dùng xếp hạng một bộ sưu tập các mục từ yêu thích đến ít yêu thích nhất.

● Trình bày hai mục cho một người dùng và yêu cầu anh ta / cô ấy chọn một trong số chúng tốt hơn.

● Yêu cầu người dùng tạo danh sách các mục mà anh / cô ấy thích Ví dụ về thu thập dữ liệu ngầm bao gồm:

● Quan sát các mục mà người dùng đã xem trong cửa hàng trực tuyến ● Phân tích thời gian xem mục / người dùng.

● Lưu giữ một bản ghi các mục mà người dùng mua trực tuyến.

● Lấy danh sách các mục mà người dùng đã xem hoặc nghe trên máy tính của họ ● Phân tích mạng xã hội của người dùng và khám phá những lượt thích và không thích.

Trang 16

Hình 1.2: Mô tả về hệ tư vấn dựa trên lọc cộng tác.

Hệ thống tư vấn so sánh dữ liệu đã thu thập với dữ liệu tương tự và khác nhau được thu thập từ những người khác và tính toán danh sách các mục được đề xuất cho người dùng Một trong những cách so sánh dữ liệu là đưa dữ liệu thu thập được vào bảng quyết định và dựa trên lọc cộng tác để đưa ra gợi ý cho người dùng.

1.3.Bảng quyết định dàn phủ

1.3.1 Lý thuyết tập thô phủ

Lý thuyết tập thô được nhà Logic học Balan Zdzislak Pawlak đề xuất vào vào năm 1982 được xem như là một cách tiếp cận mới để phát hiện tri thức [3, 5] Nó cho ta một cách nhìn đặc biệt về mô tả, phân tích và thao tác dữ liệu cũng như một cách tiếp cận đối với tính không chắc chắn và không chính xác của dữ liệu Xấp xỉ trên và xấp xỉ dưới là hai khái niệm chính trong lý thuyết tập thô cổ điển, và một quan hệ tương đương (ví dụ như một phân vùng) là phép toán cơ bản nhất của xấp xỉ trên và xấp xỉ dưới.

Lý thuyết tập thô phủ được mở rộng từ lý thuyết tập thô cổ điển bằng biệc sử dụng các miền phủ thay vì sử dụng một phân vùng Sau đây là một số định nghĩa về tập thô phủ:

Định nghĩa 1.1: Cho là một miền giá trị, là một tập các tập con trong Nếu

không có tập con nào trong là rỗng và tập hợp tất cả các tập con trong lại mà thu được tập thì ta gọi là một phủ của

Định nghĩa 1.2: Cho là một tập khác rỗng và là một phủ của Khi đó, ta gọi

mỗi cặp là một không gian phủ xấp xỉ Ký hiệu < , >

1.3.2 Định nghĩa bảng quyết định dàn phủ

Cho là tập vũ trụ, giả sử tồn tại một quan hệ thứ tự một phần, ký hiệu “” trong tập của tất cả tập phủ của Dưới đây giới thiệu một số định nghĩa về bảng quyết định dàn phủ [3, 5, 6].

Định nghĩa 1.3 (Dàn phủ) được xác định như một dàn phủ của nếu và chỉ nếu

là một tập của các phủ của () và với mọi thuộc về , tồn tại , cũng thuộc về sao cho , và.

Định nghĩa 1.4 (Phủ đỉnh và phủ đáy của một dàn phủ) Vì tập vũ trụ là hữu hạn

nên tồn tại , sao cho , thuộc về và () với mọi trong

Trang 17

Định nghĩa 1.5 Bảng quyết định phủ (CDT) là một bộ ba , với và là hai dàn của

phủ của tập vũ trụ và được gọi tương ứng là dàn điều kiện và dàn quyết định Dưới đây là định nghĩa phủ cảm sinh của và

Định nghĩa 1.6 (Phủ cảm sinh của ) Cho là bảng quyết định phủ, là một phủ

đỉnh của Với mọi , cho , khi đó, tập } cũng là một phủ của và nó được gọi là phủ cảm sinh của

và phủ cảm sinh của cũng được xác định theo cách này.

Định nghĩa 1.7 (Miền CL-dương của ) Cho là một bảng quyết định phủ Miền

-dương của được tính toán bởi

Tính toán độ tương tự là một bước quan trọng trong lọc cộng tác dựa trên ghi nhớ Có nhiều phương pháp để xác định độ tương tự giữa hai người dùng.

1.4.1 Độ tương tự Cô-sin

Độ tương tự Cô-sin đo lường cosin của góc giữa hai vectơ được chiếu trong không gian đa chiều Độ tương tự Cô-sin có công thức như sau:

Trong đó: là hai vectơ trong ma trận đánh giá của 2 sản phẩm và

1.4.2 Độ tương tự Euclidean

Độ tương tự Euclidean đo lường khoảng cách giữa hai điểm được chiếu trong không gian đa chiều Độ tương tự Euclidean có công thức như sau:

Với là khoảng cách giữa 2 điểm và

Trang 18

1.5.Phân lớp đa nhãn

Bài toán phân lớp bản chất là việc xây dựng một hàm từ tập dữ liệu của miền ứng dụng vào một tập các nhãn cho trước Đối tượng cần phân lớp trong tập dữ liệu miền ứng dụng được biểu diễn bởi tập đặc trưng Như vậy, một đối tượng cần phân lớp có thể được biểu diễn bởi nhiều tập đặc trưng khác nhau “Đơn thể hiện” (single instance) chỉ dẫn rằng chỉ một tập đặc trưng được sử dụng để biểu diễn dữ liệu cho miền ứng dụng, ngược lại, “đa thể hiện” (multi-instance) chỉ dẫn rằng một vài tập đặc trưng được sử dụng để biểu diễn dữ liệu cho miền ứng dụng Ngầm định bài toán phân lớp trong khóa luận là phân lớp dữ liệu “đơn thể hiện” nếu không có thêm chỉ dẫn tường minh.

Trong nhiều ứng dụng thực tế (Gán nhãn ảnh, phân lớp văn bản, dự đoán, phân lớp video, …), một đối tượng có thể đồng thời được gán vào nhiều lớp khác nhau Đây là bài toán phân lớp đa nhãn Bài toán này là một sự tiến hóa của phân lớp đơn nhãn do đó nó tồn tại nhiều đặc trưng phức tạp hơn về dữ liệu đa nhãn, phương pháp tiếp cận đa nhãn và đánh giá học máy đa nhãn… Các vấn đề này sẽ được chỉ ra ở các phần tiếp theo.

Cho trước một tập dữ liệu {(), (),…, ()} trong đó, là một thể hiện và là một tập nhãn {} ( ), là số nhãn trong Khung học máy này học một hàm ánh xạ từ không gian thể hiện vào tập nhãn.

Trong phân lớp đa nhãn văn bản, các đối tượng phân lớp là tập các văn bản Xây dựng một tập các đặc trưng (ví dụ: Tập tất cả các từ xuất hiện trong tập văn bản), mỗi văn bản được biểu diễn bởi tập đặc trưng vừa xây dựng (đơn thể hiện) Mô hình phân lớp đa nhãn đánh giá và gán cho văn bản phân lớp đồng thời vào nhiều lớp khác nhau

Trong phạm vi khóa luận này đề xuất một thuật toán phân lớp đa nhãn dựa trên bảng quyết định dàn phủ bao gồm thuật toán học mô hình và thuật toán sử dụng mô hình Đây là một thuật toán phân lớp đa nhãn theo tiếp cận thích nghi, không sử dụng các bộ phân lớp trung gian.

1.6 Phát biểu bài toán khóa luậnBài toán lọc cộng tác:

Bài toán áp dụng bảng quyết định dàn phủ vào hệ thống tư vấn lọc cộng tác được phát biểu như sau:

Đầu vào:

Trang 19

+ Tập người dùng U, tập các phim và ma trận đánh giá người dùng – phim : [0 ÷ ], = , trong đó = > 0 nếu u đã đánh giá (rating) mức với bộ phim , ngược lại = 0.

+ Cho một người dùng hiện thời và = {} là tập các bộ phim được người dùng đánh giá (gọi là tập tất cả các phim chưa được người dùng đánh giá).

+ Số > 0 là số lượng nhiều nhất “láng giềng” của và > 0 là song lượng nhiều nhất các phim sẽ tư vấn cho người dùng

Đầu ra:

+ Tập các phim mà hệ tư vấn dự đoán rằng người dùng hiện thời có thể quan tâm tới hoặc có tiềm năng.

Bài toán phân lớp đa nhãn:

Bài toán phân lớp đa nhãn dựa trên bảng quyết định dàn phủ được phát biểu như sau:

Cho tập dữ liệu học (đa nhãn) = {(), (),…, ()} với , ta xây dựng bảng quyết định dàn phủ =

Bài toán học sẽ tiến hành xây dựng một mô hình phân lớp đa nhãn , trong đó là tập nhãn ứng với Trong bảng quyết định dàn phủ, tập nhãn của các đối tượng thuộc láng giềng gần của theo phủ cảm sinh từ dàn quyết định là các tập nhãn có tương quan với nhau cao trong ngữ cảnh của Trong tập tất cả các nhãn đó, một nhãn xuất hiện vượt qua một ngưỡng tin cậy là có tiềm năng cao được gán cho đối tượng Việc khai thác nhóm đối tượng gần theo phủ cảm sinh từ dàn quyết định cho phép khai thác một khía cạnh về mối quan hệ lẫn nhau giữa các nhãn trong tập nhãn.

Bài toán sử dụng mô hình dựa trên một ý tưởng đơn giản là tập nhãn cần gán cho một đối tượng dữ liệu chưa có nhãn chính là tập nhãn được tính toán theo mô hình đối với một ví dụ gần nhất với đối tượng với

Tóm tắt chương 1:

Chương 1 đã trình bày tổng quát về hệ tư vấn, lọc cộng tác trong hệ thống tư vấn, một số lý thuyết liên quan, phân lớp đa nhãn cũng như phát biểu bài toán khóa luận Khóa luận sẽ tập trung giải quyết các vấn đề được nêu ở trên Chương tiếp theo sẽ trình bày giải pháp và ý tưởng mô hình cho bài toán khóa luận.

Trang 20

Chương 2 Áp dụng bảng quyết định dàn phủ vào lọc cộng tác và phân lớp đa nhãn

2.1 Rút gọn bảng quyết định dàn phủ

Z Zhang và cộng sự [7], [8] đã khảo sát việc áp dụng rút gọn tập thô phủ vào bài toán lọc cộng tác người dùng trong hệ tư vấn với quan niệm tập người dùng hệ thống là tập vũ trụ , mỗi một mục (item) được tương ứng với một tập con trên tập vũ trụ , U U chính là tập người dùng quan tâm tới mục đó Như vậy, với tập con các mục mà với X bất kỳ người dùng thuộc đều quan tâm ít nhất một mục thuộc thì nó được tương U X ứng với một phủ trên tập Z Zhang và cộng sự sử dụng giải pháp rút gọn tập thô phủU vào việc đơn giản hóa việc tìm tập người dùng láng giềng với người dùng hiện thời [7] và giải quyết bài toán khởi đầu người dùng [8] Mục con tiếp theo giới thiệu khái niệm rút gọn tập thô phủ.

2.1.1 Rút gọn tập thô phủ

Rút gọn tập thô phủ là một ý tưởng trong lý thuyết rút gọn phủ Dưới đây là một số định nghĩa đối với rút gọn trong tập thô phủ [7, 8].

Định nghĩa 2.1 Cho C là một phủ của miền , Nếu là hợp của một vài tập

trong – {}, thì được gọi là có thể được rút gọn trong , ngược lại, được gọi là không thể được rút gọn trong Khi tất cả các phần tử có thể rút gọn được loại bỏ, tập phủ không thể rút gọn mới được gọi là rút gọn loại 1 của

Định nghĩa 2.2 Cho là một phủ của miền , Nếu tồn tại một phần tử sao cho

⊂ thì là một phần tử dư thừa trong phủ của Khi bỏ đi hết các phần tử dư thừa trong , tập còn lại vẫn là phủ của , và tập phủ mới này không chứa phần tử dư thừa Ta gọi đó là rút gọn loại 2 của

Định nghĩa 2.3 Cho C là một phủ của miền , Nếu tồn tại , ,… sao cho = , ∈ và x và {x} không phải là một phần tử duy nhất của , ∀ ∈ ⊆ ∪{| C }, được ∈ ∈ gọi là phần tử có thể rút gọn chính xác (exact-reducible) của Khi loại bỏ hết các phần tử exact-reducible trong Tập phủ không thể rút gọn mới là rút gọn loại 3 của

2.1.2 Định nghĩa rút gọn tập thô dàn phủ

Cho là một bảng quyết định phủ, với , tương ứng là dàn điều kiện, dàn quyết định Dưới đây là một số định nghĩa về rút gọn đối với tập thô dàn phủ [3, 5, 6].

Định nghĩa 2.4 (Dàn con trong bảng quyết định phủ) Cho là một dàn phủ Một

phủ trên được gọi là dàn con của nếu và chỉ nếu tập các phủ trong là một tập con của

Trang 21

các phủ trong ; và nếu một phủ trong thì tất cả các phủ trong thỏa mãn thì cũng trong

Định nghĩa 2.4 về dàn con của một dàn phủ phù hợp với dàn tương ứng với một tập mục là dàn con của dàn tương ứng với mọi tập mục chứa nó trong khai phá luật kết hợp.

Định nghĩa 2.5 (Rút gọn trong một bảng quyết định phủ)

Cho là một bảng quyết định phủ Nhiệm vụ rút gọn điều kiện trong là để tìm dàn con của sao cho

Ý nghĩa của nhiệm vụ rút gọn điều kiện giống như nhiệm vụ rút gọn trong hệ thống quyết định thô phủ.

Định nghĩa 2.6 (Sự thích nghi quyết định trong bảng quyết định phủ)

Cho là một bảng quyết định phủ, là một ngưỡng Nhiệm vụ thích nghi quyết định trong là để tìm dàn con của sao cho độ tin cậy của không nhỏ hơn ngưỡng , tức là, với ; phủ cảm sinh là lớn nhất theo quan hệ “≤”

Quyết định danh sách tư vấn cho người dùng đích là một bài toán quan trọng trong hệ tư vấn Giải pháp tốt cho bài toán thích nghi quyết định trong bảng quyết định phủ có tiềm năng ứng dụng vào bài toán quyết định tư vấn nói trên.

Trong phần này, khóa luận giới thiệu hai định nghĩa cần thiết và quan trọng cho rút gọn dàn phủ điều kiện và tìm thích nghi của dàn phủ quyết định [3, 5, 6].

Định nghĩa 2.7 (Rút gọn điều kiện) Cho là bảng quyết định dựa vào dàn phủ

Một dàn con S của được gọi là một rút gọn của nếu mức độ phụ thuộc của là bằng với mức độ phụ thuộc của Một rút gọn của được gọi là một rút gọn của nếu và chỉ nếu:

(i) là một rút gọn của ,

(ii) Nếu tồn tại một rút gọn của và là dàn con của thì =

Định nghĩa 2.8 (Thích nghi quyết định) Cho một bảng quyết định dàn phủ, cho

là một ngưỡng, với mức ngưỡng lớn hơn hoặc bằng độ phụ thuộc của CDT, tức là, Nhiệm vụ của thích nghi quyết định trong là để tìm tất cả các dàn con của sao cho:

(i) Mức độ phụ thuộc của không kém hơn ;

ii) Mức độ phụ thuộc của không kém hơn , với PSDL là dàn cha của SDL

Trang 22

2.1.3 Hai thuật toán

Theo nội dung của định nghĩa 2.7 và 2.8, khóa luận giới thiệu hai thuật toán thực hiện hai nhiệm vụ [6]:

- Thuật toán tìm các tập mục con đã được người dùng đánh giá thay thế cho tập tất cả các mục đã được người dùng đánh giá.

- Thuật toán tìm các tập mục con chưa được người dùng đánh giá để tư vấn cho người dùng với độ tin cậy không nhỏ hơn một ngưỡng cho trước.

2.1.3.1 Thuật toán rút gọn dàn điều kiện

Thuật toán Reduct_Finding dưới đây thực hiện việc rút gọn dàn điều kiện trong bảng quyết định dựa trên dàn phủ.

Đầu vào: Bảng quyết định dựa dàn phủ , hằng số chung là độ phụ thuộc của DL; Đầu ra: GCRL chứa các dàn rút gọn của CL //Khởi đầu thuật toán GCRL={CL}.

Trang 23

Thuật toán Reduct_Finding (, )

// là dàn điều kiện hiện thời

// là cha của ( chính là cha của chính nó) 1: IF = THEN

2: FOREACH dàn con của

3: Reduct_Finding (, )//Chạy trên tất cả dàn con

12: FOREACH dàn con của

//chạy tất cả dàn con của 13: Reduct_Finding (, )

14: END FOR 15: END IF 16: END IF

Thuật toán rút gọn trên được thực hiện: Thuật toán bắt đầu với lời gọi Reduct_Finding(CL,CL), trong trường hợp này, thuật toán thực hiện lần lượt đối với tất các các dàn con của dàn điều kiện CL Với mỗi lần gọi (CCL, PCCL) sau đó, thuật toán trước hết tính độ phụ thuộc của bảng quyết định hiện thời , nếu CLL là dàn điều kiện rút gọn được thì bổ sung nó vào GCRL, loại bỏ dàn cha nếu có trong GCRL, tiếp tục tìm kiếm đối với mọi con SCCL của CCL Khi kết thúc thuật toán, GCRL chứa tất cả các dàn con rút gọn của dàn điều kiện CL; khi không tìm được một dàn con đáp ứng thì GCRL chỉ chứa CL như khi bắt đầu thuật toán.

2.1.3.2 Thuật toán tìm thích nghi của dàn phủ quyết định của bảng quyết định dàn phủ Thuật toán Fitting_Finding dưới đây thực hiện việc rút gọn dàn quyết định trong bảng quyết định dựa trên dàn phủ Trong hệ thống tư vấn dựa trên lọc cộng tác, việc xác định một tập con thuộc tính quyết định (các mục) đù phù hợp để cung cấp cho người dùng hiện thời là một phương án ứng dụng của thuật toán.

Trang 24

Đầu vào: Bảng quyết định dựa dàn phủ , Ngưỡng Độ phụ thuộc của

Đầu ra: GCFL chứa các dàn thích nghi của DL, ban đầu GCFL là dàn rỗng //Khởi đầu thuật toán CDL={DL}.

Thuật toán Fitting_Finding (CDL) //CDL là dàn phủ quyết định hiện thời

Hoạt động của thuật toán Fitting_Finding được giải thích như sau Thuật toán được khởi động bằng lời gọi Fitting_Finding (DL), trong trường hợp này, thuật toán thực hiện lần lượt đối với tất các các dàn con của dàn quyết định DL Với mỗi lần gọi (CDL) sau đó, thuật toán trước hết tính độ phụ thuộc của bảng quyết định hiện thời , nếu CDL đáp ứng điều kiện cần tìm (ρCDL ≥ ) thì bổ sung CDL vào GCFL, trong trường hợp ngược lại, cần tiếp tục tìm kiếm đối với mọi con SCDL của CDL Khi kết thúc thuật toán, GCFL chứa tất cả (có thể rỗng) các dàn con thích hợp của dàn quyết định DL.

2.2 Áp dụng rút gọn bảng quyết định dàn phủ vào lọc cộng tác

Phương pháp lọc cộng tác vẫn là một trong những mô hình được sử dụng rất nhiều trong hệ tư vấn vì tính dễ cài đặt của nó Phần này sẽ trình bày việc áp dụng rút gọn bảng quyết định dàn phủ vào lọc cộng tác hướng người dùng.

2.2.1 Rút gọn điều kiện lọc cộng tác người dùng

Trong lọc cộng tác, dàn điều kiện đóng vai trò giúp hệ thống có thể tìm được những người dùng cùng đánh giá trên các item này và đưa ra gợi ý dựa theo các láng giềng gần tìm được Trong RS thực tế, chúng phải xử lý dữ liệu lớn bao gồm số lượng lớn người dùng và mục.

Trang 25

Cho bảng quyết định dàn phủ từ tập dữ liệu đầu vào Trong đó, dàn điều kiện (dàn quyết định ) tương ứng là tập () mà mỗi phim tương ứng với tập người dùng đã đánh giá (chưa đánh giá)

Từ định nghĩa của rút gọn tập thô, chúng ta có thể thấy rằng các dàn con trong dàn quyết định ban đầu có là dàn điều kiện thích hợp với dàn quyết định mà người dùng có thể quan tâm Việc rút gọn phủ giúp hệ thống gợi ý tăng độ chính xác trong việc tìm kiếm số lượng láng giềng gần để đưa ra tư vấn.

Nhiệm vụ rút gọn dàn điều kiện sẽ thực hiện gọi thuật toán Recuct_finding() và thực hiện gọi tất cả các dàn con của nếu độ phụ thuộc của dàn con với phù hợp thì sẽ được thêm vào dàn điều kiện.

2.2.2 Rút gọn thích nghi danh sách mục tư vấn

Quyết định danh sách tư vấn cho người dùng đích là một bài toán quan trọng trong hệ tư vấn Giải pháp tốt cho bài toán thích nghi quyết định trong bảng quyết định phủ có tiềm năng ứng dụng vào bài toán quyết định tư vấn nói trên Vì vậy một trong những nhiệm vụ của khóa luận là thực hiện rút gọn dàn quyết định đối với mỗi người dùng.

Trong thuật toán Fitting_finding(), sẽ thực hiện gọi tất cả các dàn con trong dàn quyết định Nếu như độ phụ thuộc của dàn con phù hợp thì dàn con đó sẽ là dàn rút gọn cho ban đầu Trong dữ liệu thực tế, việc có rất nhiều mục trong khi số lượng đánh giá trên các mục của người dùng có thể không nhiều dẫn đến các mục chưa được người dùng xem xét sẽ lớn Thuật toán tìm thích nghi dàn quyết định giúp giảm số lượng các mục chưa đánh giá không phù hợp với người dùng, giúp tăng hiệu quả tư vấn chính xác tới người dùng đích.

2.3 Áp dụng bảng quyết định dàn phủ vào phân lớp đa nhãn

2.3.1 Mô hình bảng quyết định cho phân lớp đa nhãn

Mô hình áp dụng bảng quyết định cho phân lớp đa nhãn được phát biểu như sau:

Cho là tập vũ trụ chứa tất cả các đối tượng, là tập các đặc trưng, là tập các nhãn Khi đó, mỗi đặc trưng tương ứng với một phân hoạch (phủ suy biến) trên , mỗi giá trị của tương ứng với một tập con đối tượng nhận giá trị theo đặc trưng Mỗi nhãn tương ứng với một tập con = { là tập các nhãn của } Nhiệm vụ của mô hình là từ các tập đặc trưng thực hiện phân lớp theo tập các nhãn dựa vào bảng quyết định.

Trang 26

2.3.2 Thuật toán phân lớp đa nhãn

2.3.2.1 Thuật toán học mô hình phân lớp

Cho tập dữ liệu học (đa nhãn) , với , …, , sử dụng cách thức như Ví dụ 2.3, xây dựng bảng quyết định dàn phủ = <> Nhiệm vụ học là xây dựng một mô hình phân lớp đa nhãn = , trong đó là tập nhãn tương ứng với Thuật toán học dựa trên ý tưởng về sử dụng tương quan nhãn trong phân lớp đa nhãn song tính toán trực tiếp tập nhãn tiềm năng cho một ví dụ học Trong bảng quyết định dàn phủ, tập nhãn của các đối tượng thuộc láng giềng gần của theo phủ cảm sinh từ dàn quyết định là các tập nhãn có tương quan với nhau cao trong ngữ cảnh của Trong tập tất cả các nhãn đó, một nhãn xuất hiện vượt qua một ngưỡng tin cậy là có tiềm năng cao được gán cho đối tượng.

Thuật toán học MLM_learn được mô tả như sau đây Thuật toán MLM_learn:

Đầu vào:

Tập dữ liệu học , trong đó là tập nhãn của đối tượng và , …,

Giá trị α: 0 ≤ α ≤ 1 xác định ngưỡng tin cậy để một nhãn thuộc vào tập nhãn của một đối tượng

Đầu ra:

Mô hình phân lớp đa nhãn

Nội dung:

1 Xác định dàn phủ = <, , > theo tập dữ liệu học như cách thức ở Ví dụ 2.3 Ký

hiệu () = { | } là tập tất cả các đối tượng có chứa nhãn ∈ ∈

2 Xây dựng phủ cảm sinh dàn điều kiện () và phủ cảm sinh dàn quyết định ().