五对混合推荐系统的思考


五对混合推荐系统的思考

文章插图
作者丨
编辑丨zandy
这是作者的第24篇文章,约1.2w字,阅读需60分钟
作者在前面几篇文章中对常用的推荐算法,如基于内容的推荐、协同过滤、矩阵分解、分解机、基于标签的推荐、深度学习等进行了详细介绍(点击蓝色字体阅读相关文章),并在这些文章中详细说明了这些算法的优缺点 。在本篇文章我们会介绍混合推荐系统(),就是利用多种推荐算法配合起来做推荐,期望避免单个推荐算法存在的问题,最终获得比单个算法更好的推荐效果 。
本篇文章我们从什么是混合推荐系统、混合推荐系统的价值、混合推荐系统的实现方案、工业级推荐系统与混合推荐、对混合推荐系统的思考等5个部分来介绍混合推荐系统 。期望读者读完可以更好地理解混合推荐系统的原理与价值,并且能够将混合推荐的思路应用于项目实践中 。

什么是混合推荐系统
机器学习中有所谓的集成学习( ),广泛应用于分类和回归问题,本质上是利用多个分类或者回归算法,通过这些算法的有效整合获得更好的分类或者预测效果 。集成方法之所以有效,是因为通过不同的算法组合可以有效地降低系统性误差(方差),最终达到更好的效果 。在理财投资中也有类似的思路,通过分散投资,构建多类别的投资组合来降低风险 。
混合推荐系统的思路跟上面的介绍如出一辙 。古话说”三个臭皮匠顶个诸葛亮“,我想用这句话来形容混合推荐算法是非常恰当的 。混合推荐算法就是利用两种或者两种以上推荐算法来配合,克服单个算法存在的问题,期望更好地提升推荐的效果 。
在推荐系统发展史上,最有名的利用混合推荐算法提升推荐效果的例子莫过于在2006年启动的100万美元的 Prize竞赛,这个竞赛的冠军在3年后的2009年被三个团队合并后的新团队'sChaos(这个名字其实是由三个领先团队组合起来的:第一个是来自 AT&T 统计研究部的,第二个是来自加拿大蒙特利尔的,第三个是来自于奥地利的 )利用原来各自团队算法的优势将各自的算法整合起来(利用GBDT模型组合超过500个算法模型)而获得,这种整合的方法就是一种混合推荐算法 。(见参考链接1了解 Prize相关信息,参考文献2、3、4给出了获奖团队写的3篇论文,分别是获奖团队原来的三个团队从自身团队所提出的算法对最终获奖贡献的角度写的)

混合推荐系统的价值
从上一节介绍我们知道混合推荐算法是期望利用多个推荐算法协同合作,避免单个算法存在的问题,更好地为用户做推荐,提升推荐质量和用户体验 。在讲混合推荐算法的价值之前,我们需要先了解当前主流推荐算法存在的问题,只有知道了当前的问题,才能利用混合推荐算法更好地避免这些问题,那么当前推荐系统存在的主要问题有哪些呢?
1
冷启动问题
冷启动一般分为新用户冷启动和新”标的物”冷启动 。对于新用户,由于没有相关行为或者行为很少,无法获得该用户的兴趣偏好,因而无法为他进行有效的推荐 。对于新入库/上线的标的物,由于没有用户或者很少用户对它进行操作(点击、浏览、评论、购买等),我们不知道什么类型的用户喜欢它,因而也很难将它推荐出去 。
2
数据稀疏性问题
由于很多推荐应用场景涉及到的“标的物”数量巨大(头条有百亿级规模的文章、淘宝有千万级的商品等),导致用户行为稀少,对于同一个“标的物”,只有很少用户有相关行为,这让构建推荐算法模型变得非常困难 。