豆瓣的推荐机制( 二 )


怎样做到这一点呢?杨勃从现实生活得到启发 。“一堆人聊天,你说到一本书,有个同事跳出来,说这个我也看 。你们就会聊起来,会谈到别的书 。豆瓣的分析思路也一样,都看过这本书的人,他们在阅读其他书时有多少重合 。”
杨勃把推荐机制分为两种 。一是按内容分类,比如分析一首歌的节奏、配器、频率,然后将与其类似的歌划为一类,著名的就是这样做的 。还有一种是社会性推荐 。“前一种方法,即便只有一两个用户,你也可以做起来 。而第二种方法,你必须有很多数据积累 。到数据足够多的时候,它会更有效 。”

豆瓣的推荐机制

文章插图
其实,这类似早期Yahoo和的区别 。在创始初期,Yahoo就按内容对不同网站进行分类,但这种方法是自不量力,因为网站生长太快,再多的人手也不够给所有网站做目录 。Yahoo后来采用了一些自动方式,比如用软件分析网页词汇,再确定它的类别 。
而则聪明得多,他不分析网站,而是分析链接 。一个链接相当于一票,学术文献也是相互索引,被引用最多的论文价值最高 。网页也是如此,被链接最多的网页就高 。
“这种方法的好处在于,它不用长时间积累用户数据,网站之间的投票一直存在,用机器抓过来就能用 。而豆瓣,用的是人对书的投票 。它不是自然存在于网络上,必须慢慢积累起来,需要一个过程 。”杨勃说 。
“本质上,一本书对我来讲,是一个黑盒子 。我并不关心它的主题、出版社、作者、内容,只看它和哪本书有关联 。这样挖掘出来的东西,可能非常正确,推荐非常有效 。”
杨勃发现,推荐光准确是没有用的,还要有效 。“我们也做过通过标签分析,这本书和哪本书最像,通过它做推荐,很准,但用处不大 。比如你看过《黑客帝国1》,然后它找出《黑客帝国2》给你,这种推荐毫无用处 。你看过余华的《活着》,我把《细雨中的呼喊》(余华的早期作品)推荐给你 。这通常也没有用 。有效的推荐,是你挖掘出来的联系不是表面能看出来的 。比如你看《世界是平的》,豆瓣会推荐《长尾理论》,这两个之间其实没有内容上的联系 。”
其中的机制其实也不难理解,因为两本书有相同的读者群 。喜欢这本书的人也喜欢那本 。“就是一种统计方法,喜欢这本书的人中间,比如说百分之四十都喜欢那本书 。”
杨勃认为,流行的东西,豆瓣没什么特别用处,因为你从其他媒体也能了解到 。豆瓣发挥强大效力的地方是长尾 。“你看一本书,在豆瓣看到有10个人看,这样带来的惊喜,比你发现一本书有1万人在看,要强烈得多 。而且,这个过程是沿着长尾往下走,散播去,推进到越来越多的人不知道的书 。有很多偏僻的书,其实是有天然读者的,只是缺乏一个桥梁把他们连接 。缺乏一个传播机制 。如果一本很偏的书建立了你们的联系,那么很有可能会有新的发现 。”
【豆瓣的推荐机制】什么人在看什么书,什么人喜欢什么音乐、电影 。豆瓣目前已经积累了上千万条这样的记录 。“我们的程序会找出和你兴趣一致的人,然后按一定方法来找你们共同喜欢的东西,推荐给你 。大致如此 。”