豆瓣的推荐机制

为什么80%的码农都做不了架构师?>>>
1,来自豆瓣创始人的观点:豆瓣的推荐机制是基于社会化的协同过滤的推荐;
总结:你读了一本书,通过此书对你进行推荐,方式是:统计此书其他读者喜欢的书,即喜欢本书的读者还喜欢的其他书 。
为什么不使用基于内容的推荐机制:1,硬件:内容时刻在扩增,豆瓣的图书太多,不可能将每俩本书进行相似度聚类;2,意义:豆瓣想要的做一个合适的过滤器:帮助你找到喜欢的东西,本质上,一本书对我来讲,是一个黑盒子 。我并不关心它的主题、出版社、作者、内容,只看它和哪本书有关联 。这样挖掘出来的东西,可能非常正确,推荐非常有效 。”;3,原因:什么是有效的推荐:真正有效的推荐不能通过简单的外在就能看出来,比如你看了《哈利波特》,推荐《哈利波特2》,这样的推荐是没有意义的 。或者你看了余华的《活着》,为你推荐余华早期的《细雨中的呼喊》,这也是没有必要的,因为这太过于明显,用户自己就可以进行搜索,不需要系统推荐 。真正有效的推荐是:用户没有想到的 。是你挖掘出来的联系不是表面能看出来的 。比如你看《世界是平的》,豆瓣会推荐《长尾理论》,这两个之间其实没有内容上的联系 。”
具体机制:其中的机制其实也不难理解,因为两本书有相同的读者群 。喜欢这本书的人也喜欢那本 。“就是一种统计方法,喜欢这本书的人中间,比如说百分之四十都喜欢那本书 。”
最后:杨勃认为,流行的东西,豆瓣没什么特别用处,因为你从其他媒体也能了解到 。豆瓣发挥强大效力的地方是长尾 。“你看一本书,在豆瓣看到有10个人看,这样带来的惊喜,比你发现一本书有1万人在看,要强烈得多 。而且,这个过程是沿着长尾往下走,散播去,推进到越来越多的人不知道的书 。有很多偏僻的书,其实是有天然读者的,只是缺乏一个桥梁把他们连接 。缺乏一个传播机制 。如果一本很偏的书建立了你们的联系,那么很有可能会有新的发现 。”(这里可以解释为什么活动的参与者越少,越能促进人际关系)
豆瓣上的书籍目前有80万种,“我们的数据库和当当、卓越、亚马逊对接,但也可以由用户自己填加一些老书 。中国以前不使用国际标准书号ISBN,70年代是中国统一书号,我们也支持,但多半由用户自己填加 。”

豆瓣的推荐机制

文章插图
在杨勃看来,任何一个书店或网站,图书品种达到20万就够了 。“其他的书,或者说位于长尾尾部的书,大部分价值不大,比如1982年的水暖工手册,1996年初中升高中地理复习参考资料……当然,其中也偶有精华 。比如古籍或者早年翻译过现在没有再版的书 。这些书都藏在后面四五十万的垃圾中间 。”
杨勃估计,《围城》、《活着》、《挪威的森林》大概是豆瓣里面阅读数最多的 。大致统计,将各版本的数字加起来,三书的总阅读人数分别为六千、五千和七千 。
“如果你是一个书店,你就有库存限制问题 。你没有采购过的书,数据库里就没有 。但豆瓣不一样,只要有人看过,就可以填加,而且它的空间没有成本 。”杨勃认为,豆瓣的数据比当当、卓越更接近理想化的长尾 。
“80年代的书,当当卓越绝对不会有 。”他现场演示,找到网友“小小风也”的主页 。上面有一本《孤筏重洋》,最早是1981年湖南人民出版社出的,05年重庆出版社再版 。海子卧轨自杀时带着这本书 。
两种推荐机制
豆瓣的定位,用长尾理论解释,是想做一个合适的过滤器——帮助发现你喜欢的东西 。