计算机系统应用教程网站

网站首页 > 技术文章 正文

|期刊分享|机器学习|推荐系统挑战综述

btikc 2024-09-12 11:58:11 技术文章 16 ℃ 0 评论

编者推荐序:本文简述了常见的推荐算法,引出了推荐系统面临的四个挑战,即稀疏问题、冷启动问题、可扩展性和过度专业化问题。本文仅是蜻蜓点水,一概而过。相比本文,作者更推荐阅读中信出版社的《Spark机器学习》第4章。


推荐指数 ☆☆☆


一、引言

推荐系统是向用户推荐其可能感兴趣的事物的智能系统。一些实际应用的推荐系统有亚马逊的图书推荐系统、Movielens的电影推荐系统、VERSIFI的新闻推荐系统等。推荐系统可分为基于用户的和基于物品的两类。

基于用户的推荐系统包括:用户集C、待推荐的物品集S和描述物品对用户是否有用的效用函数(utility function)U。S和C可能很大,从成百上千到上百万量级。对用户集C中的每个用户c,我们想在物品集S中选择效用函数值最大的物品s。在推荐系统中,物品的效用一般用评分(rating)表征,一般分值在限定范围内,如1到5分。用户集可用等用户ID、年龄、性别、职业等用户属性描述,物品集同样可用物品ID及其它属性描述。一般C×S数据集上的打分并不完备,仅有少量的分值可用。推荐系统的主要目的是预测分值空缺处的打分并据此提供合适的推荐(The main aim of a recommender system is to predict ratings of the non-rated user/item combination and thus providing appropriate recommendations)。推荐系统或者将分值最高的物品推荐给用户,或者将得分最高的前N个推荐给用户。推荐系统如下图所示。

二、算法

推荐系统常用的算法根据分数估计手段可分为协同过滤、基于内容推荐技术和结合前两者的组合技术。

2.1 协同过滤

协同过滤(Collaborative filtering,CF)系统挖掘用户打分的相似性,并根据别的用户的选择将某个物品推荐给某个用户。传统的协同过滤推荐算法根据用户已有的物品打分预测未知物品的打分。CF算法如下图所示

CF算法将整个用户-物品空间表示为打分矩阵R,每个元素代表某个用户对某个物品的打分,分值在一定范围内(如1到5),0代表该用户对该物品还没有打分。为了预测未知的分值,CF计算物体的和用户的相似度,找出与某个用户最相似的K个用户,找出与某个物品最相似的K个物品。利用这些相似性进行分值预测与推荐。

2.2 基于内容的推荐

基于内容的推荐系统根据物体描述和用户兴趣画像进行推荐,这在网页推荐中较常见,如电视节目和新闻评论等。所有的基于内容的推荐系统具有很少的共同点,例如用描述物体的方法、用户画像和计算最合适的推荐物品的方法。

基于内容的推荐系统包括待推荐物品及物品画像(Item Profile)的巨大的数据库,系统根据用户行为或反馈建立用户画像,根据用户画像推荐合适的物品。此外,还可根据物品和用户的特性进行更好的个性化推荐。物品画像包括物体一些重要特征,如电影可通过名称、语言、国家、演员等描述,特征的值可以是逻辑值或有界的离散值。

2.3 组合技术

组合推荐系统是将多种技术组合进行推荐。一些学者将协同过滤(CF)和基于内容(CB)的推荐技术进行组合以扬长避短。可能的组合方式有:组合CF和CB的预测;将CB的一些特性引入CF;将CF一些特性引入CB;建立包含CF和CB的更一般的统一模型。

三、推荐系统面临的挑战

推荐系统面临的主要挑战主要有:稀疏问题(Sparsity Problem)、冷启动问题(Cold Start problem)、可扩展性(Scalability)和过度专业化问题(Over Specialization Problem)。

稀疏问题是推荐系统面临的主要挑战,数据稀疏性对推荐效果有很大影响与像MovieLens类似的数据系统以用户-物品打分形式存储,当物品或用户数增大时,维数和稀疏性也会增大。由于协同过滤依赖于评分矩阵,所以受此影响很大。

冷启动问题是指当一个新用户或新物品加入系统时,三类冷启动问题分别为:新用户问题、新物品问题和新系统问题,由于缺少信息或评分所以推荐很困难。此时,协同过滤不能进行有用的推荐,但基于内容的方法在新物品加入时可以推荐,因为基于内容的方法不依赖与以前的评级信息。

可扩展性是指以优雅的方式处理不断增长的信息的能力。互联网数据爆炸对推荐系统提出了很大挑战。协同过滤算法随用户和物品的增长计算量呈指数增长,代价昂贵且有时导致错误结果。

过度专业化是指用户只能获得其用户画像中已知的或已定义的物品的推荐,阻碍了用户发现新物品或其他选择。然而,推荐多样性是一切推荐系统想要的特征。过度专业化问题可利用遗传算法缓解。


英文题目:A Survey of Recommendation System: Research Challenges

原文连接:http://ijettjournal.org/volume-4/issue-5/IJETT-V4I5P132.pdf


互动:深度学习用于推荐系统会有什么问题?请留言探讨。


死磕自律,遇见更好的自己;认知升级,助你长出强两翼!


关注该头条号,一起创造奇迹。

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表