五对混合推荐系统的思考( 二 )


3
马太效应
头部”标的物“被越来越多的用户”消费“,而质量好的长尾”标的物“由于用户行为较少,自身描述信息不足而得不到足够的关注 。
4
灰羊(gray sheep)效应
是指某些用户的倾向性和偏好不太明显,比较散乱,没有表现出对具备某些特征的标的物强烈的偏好 。因此在协同过滤推荐算法中(拿基于用户的协同过滤来说),这种偏好性不强的用户跟其他用户的相似度都差不多,选择不同的相似用户没啥差别,因此推荐效果不是特别好 。这种问题,在多用户使用同一个设备时是非常明显的(比如家庭中的智能电视,一家人都用同一个电视在不同时段看自己喜欢的内容,导致该电视上的行为比较宽泛,无任何特性) 。
5
投资组合效应( )
由于从不同渠道获得的标的物是非常相似的,推荐系统可能会推荐非常相关的标的物给用户,但对用户来说,这些相关的标的物是重复的、无价值的 。在新闻资讯、短视频类APP的推荐中这种情况是经常发生的,比如从多个渠道获得的内容是对同一个热点事件的报道,有可能内容都是差不多、重复的,而系统在将这些内容入库的过程中,没有进行很好的识别(其实识别两个标的物是不一样的也是比较困难的一件事),因此将这些内容看成是不同的内容,最终推荐系统很容易将它们一起推荐给用户 。在我们公司的短视频推荐中就存在这种情况,并且还非常严重,有时甚至重复的内容都排在一起并且量也很多 。对于像淘宝这种提供电商平台服务的公司来说,由于有非常多的商家卖相同或者相似的商品,这种现象也非常明显 。对于图书推荐,同一本书的不同版本、不同语言等也会出现这个问题 。
6
稳定性()/可塑性()问题
该问题指的是当用户的兴趣稳定下来后,(推荐)系统很难改变对用户的认知,即使用户兴趣最近变化了,推荐系统还是保留了用户过往的兴趣,除非当用户新兴趣积累到足够多,所起的作用完全盖过了老的兴趣 。一般解决该问题的思路可以对用户兴趣进行时间衰减操作,最近行为权重更大,越久远的行为权重越小 。
针对上面提到的6大类问题,下面针对业界主流的几类推荐算法来说明单个算法可能存在的问题及优势(参见下面表1,更细节的关于协同过滤和基于内容的推荐的优缺点可以参考作者的文章《基于内容的推荐算法》、《协同过滤推荐算法》、《矩阵分解推荐算法》等)(点击蓝色字体阅读相关文章) 。

五对混合推荐系统的思考

文章插图
表1:主流推荐算法的问题与优势
上面列举的是一般推荐系统可能存在的问题,对于单个推荐算法,由于所利用的数据不一样,算法自身模型不一样,可能会面临上述问题中的一些 。不同的产品形态和业务场景,由于跟用户的交互方式不一样,能够获取到的数据也不一样,对选择具体的推荐算法也存在一定的限制 。既然单个算法或多或少存在一些问题,自然的想法就是结合多个算法的优势来避免单个算法存在的问题,这就是下面一节我们要讲的混合推荐算法,混合推荐期望融合多个算法,博采众长,有效缓解上述单个算法存在的居多问题 。

混合推荐系统的实现方案
我们在第二节讲解了混合推荐算法的价值,那么多种算法怎么混合来构建新的算法呢?根据多种算法混合的方式不同一般可以分为如下3种混合范式,其中每种范式都有两到三种具体的实现方案,一共有7中不同的混合方案,我们在下面分别介绍(该分类参考了参考文献5的具体分类方法) 。