Từ khóa -Tư vấn cộng tác, tư vấn theo nội dung, hệ tư vấn lai, tư vấn dựa vào sản phẩm, tư vấn dựa vào người dùng.
I. GIỚI THIỆU HỆ TƯ VẤNNgười dùng sử dụng các dịch vụ Internet trực tuyến hiện nay luôn trong tình trạng quá tải thông tin. Để tiếp cận được thông tin hữu ích, người dùng thường phải xử lý, loại bỏ phần lớn thông tin không cần thiết. Hệ tư vấn (recommender systems) cung cấp một giải pháp nhằm giảm tải thông tin bằng cách dự đoán và cung cấp một danh sách ngắn các sản phẩm (trang web, bản tin, phim, video…) phù hợp cho mỗi người dùng. Trên thực tế, hệ tư vấn không chỉ hướng đến vấn đề giảm tải thông tin cho mỗi người dùng mà nó còn là yếu tố quyết định đến thành công của các hệ thống thương mại điện tử [4]. Bài toán tư vấn tổng quát có thể được phát biểu như sau.Cho tập hợp hữu hạn gồm N người dùng U = {u 1 , u 2 ,…, u N }, P = {p 1 , p 2 ,.., p M } là tập hữu hạn gồm M sản phẩm. Mỗi sản phẩm p x ∈P có thể là hàng hóa, phim, ảnh, tạp chí, tài liệu, sách, báo, dịch vụ hoặc bất kỳ dạng thông tin nào mà người dùng cần đến. Mối quan hệ giữa tập người dùng U và tập sản phẩm P được biểu diễn thông qua ma trận đánh giá R={ r ix : i = 1, 2, ..N; x = 1, 2,..M }. Giá trị r ix thể hiện đánh giá của người dùng u i ∈U cho một số sản phẩm p x ∈P.Thông thường giá trị r ix nhận một giá trị thuộc miền F = { 1, 2,.., g} được thu thập trực tiếp bằng cách hỏi ý kiến người dùng hoặc thu thập gián tiếp thông qua cơ chế phản hồi của người dùng. Giá trị r ix = φ được hiểu người dùng u i chưa đánh giá hoặc chưa bao giờ biết đến sản phẩm p x . Ma trận đánh giá của các hệ thống tư vấn thực tế thường rất thưa. Mật độ các giá trị r ix ≠0 nhỏ hơn 1%, hầu hết các giá trị r ix còn lại là φ [4]. Ma trận R chính là đầu vào của các hệ thống tư vấn cộng tác [1,2,3]. Để thuận tiện trong trình bày, ta viết p x ∈P ngắn gọn là x∈P; và u i ∈U là i∈U. Các ký tự i, j luôn được dùng để chỉ tập người dùng trong các mục tiếp theo của bài báo.Mỗi sản phẩm x∈P được biểu diễn thông qua |C| đặc trưng nội dung C = { c 1 , c 2 ,.., c |C| }. Các đặc trưng c s ∈C nhận được từ các phương pháp trích chọn đặc trưng (feature selection) trong lĩnh vực truy vấn thông tin. Ví dụ x∈P là một phim thì các đặc trưng nội dung biểu diễn một phim có thể là C={thể loại phim, nước sản xuất, hãng phim, diễn viên, đạo diễn…}. Gọi w x = {w x1 , w x2 ,.., w x|C| } là vector trọng số các giá trị đặc trưng nội dung sản phẩm x∈P . Khi đó, ma trận trọng số W ={w xs : x =1, 2, .., M; s =1, 2, .., |C|} chính là đầu vào của các hệ thống tư vấn theo nội dung sản phẩm [2,3,17]. Để thuận tiện trong trình bày, ta viết c s ∈C ngắn gọn là s∈C.Ký tự s luôn được dùng để chỉ tập đặc trưng nội dung sản phẩm trong các mục tiếp theo của bài báo.Mỗi người dùng x∈P được biểu diễn thông qua |T| đặc trưng nội dung T = {t 1 , t 2 ,.., t |T| }. Các đặc trưng t q ∈T thông thường là thông tin cá nhân của mỗi người dùng (Demographic Information). Ví dụ i∈U là một người dùng thì các đặc trưng nội dung biểu diễn người dùng i có thể là T={giới tính, độ tuổi, nghề nghiệp, trình độ,…}. Gọi v i = {v i1 , v...